> 文章列表 > 【未来已来】人人都说GPT,人人都怕GPT,人人都用GPT

【未来已来】人人都说GPT,人人都怕GPT,人人都用GPT

【未来已来】人人都说GPT,人人都怕GPT,人人都用GPT

文章目录

  • 前言
  • 一、GPT是什么?
  • 二、当GPT和AI遇到摄影
  • 总结

前言

ChatGPT是由美国OpenAI研发的能够通过自然语言驱动的人工智能技术工具,因为它强大的执行力和任务处理能力,一经亮相就引起了极大的关注。与之类似,在图像智能生成方面,新近崛起许多新型模型的AI,如Dall-E2 Midjourney V5等, 通过算法可以产生的逼真影像,让许多摄影师感觉到危机。一时间,人们都在热议我们究竟要如何与人工智能相处,摄影的未来会如何被AI所改变?

基于这样的话题背景,《中国摄影》杂志邀请美国加州库埃斯塔学院终身教授,艺术系数字设计方向主任刘灿国撰写了《AI摄影与GPT图像》一文,尝试厘清GPT和AI的基础概念和底层逻辑,并探讨AI与摄影相结合的各种可能。

这是刘灿国教授第二次为我们撰写讨论工智能的文章。2019年1月刊上曾经发表了他的《平坦之境,或映成之影》,文中作为对科学技术对艺术的影响进行了展望,仅仅过去了4年时间,他的文章的一些预言已经成为了现实。未来已来,我们要如何应对人工智能的大潮,希望本文能为您提供一些思考的线索。

《AI摄影与GPT图像》原文刊发于《中国摄影》杂志4月刊,我们摘录了文章的核心观点在此呈现。如欲了解本文的全貌,欢迎点击文末的杂志封面购买4月刊杂志。
【未来已来】人人都说GPT,人人都怕GPT,人人都用GPT

一、GPT是什么?

GPT的含义

GPT 又称 (Generative Pre-trained Transformer) 是一种基于 Transformer(转换器) 的语言模型,通过大规模的自然语言数据训练,机器可以掌握和“学习”自然的语言表述方式和规律。

经过不断的演化,GPT-3基于万亿级别的单字训练,创建了史无前例的自然语言模型AI服务——ChatGPT。GPT的图像版本称之为 Dall E2,系使用同样的类似训练方法来发展。GPT的成功,代表了一种有效的知识学习模型,可以反向对于人类的学习和研究提供启迪和思路。

G 所代表的“生成式”(Generative)即一种创作仿生。

P 指“预训练”(Pre-Trained)说明了预先训练基础数据从而形成知识对创作的重要性。

“预训练”(Pre-Trained)的系统在摄影领域里早已存在

对于摄影领域而言,可用于个人 “预训练”(Pre-Trained)的系统化的知识早已存在和相对完善。譬如,对于设置器材、设备、灯光、存储等的技术控制特点的特性的认识,从而了解到其中的优缺点,在实际使用中进行最佳的组合。摄影基础理论,包括曝光、光学、镜头焦距,景深,空间构图等方面的知识,以及按摄影门类的拍摄技巧和后期技术都是系统化的知识。摄影史论,摄影作者和作品,则形成了这些基础理论知识的具体验证和匹配的模型。

百多年来的摄影知识体系是我们一切发展的基础。那么在这个基础上,算力和模型就是接下来要着重关注的要点。
【未来已来】人人都说GPT,人人都怕GPT,人人都用GPT
T 指代的Transformer(转换器)是由谷歌研究团队在2017年美国加州第31届神经信息处理系统会议上发表的一篇名为 “《你只需要注意力》(Attention Is All You Need)”(Vaswani et al., 2017) 的开创性论文中提出的一种神经网络架构。这篇文章指出,传统的神经信息大都需要通过编码器和解码器过程来进行语言分析,但该论文提出了一种新的简化的结构,完全基于一种称之为“注意力(Attention)”的机制。这是一种机器学习技术,用于对序列数据进行建模。

注意力机制与摄影注意力

前文提到了“注意力(Attention)”,那么什么是“注意力”机制?它对摄影有什么启示并和摄影有什么关联?Attention指的是一种机器学习技术,用于对序列数据进行建模。具体而言,在传统的序列模型中,如循环神经网络(RNN)和卷积神经网络(CNN),每个时间步只能访问输入序列中的一个位置。然而,在实际应用中,有些输入位置可能更加重要,需要更多考虑。这就是 “注意力” 机制的作用,它允许模型在计算输出时,动态地为每个输入位置分配不同的权重,以便更加关注重要的位置和数据。简而言之,只抓最关键的点。

就像我们的摄影创作一样,我们在场景中面对复杂的视觉“数据”,但我们总是会关注那些对我们来说的重点对象,随后才能将注意力集中于构图、取景和拍摄。摄影中的构图是指摄影师通过调整拍摄角度、取景范围和线条构成等方式,使得照片的布局和结构更加清晰、有条理,同时能够吸引观众的视线。

Transformer 的 “注意力” 机制也是通过对输入序列的不同部分进行加权,从而实现对序列的建模和组织。在摄影后期中,当我们打开图像,我们会优先关注需要优化调整的部分,强化重要的、更好的部分,然后忽略对主题无意义的内容和无效细节。这就是类似的 “注意力”在起作用。

二、当GPT和AI遇到摄影

摄影总是要解决拍什么、怎么拍、选片修片、展示分析等环节和问题。那么AI会,或者该怎样融入摄影的世界呢?

AI 摄影选题的智能化

摄影选题是摄影创作前期最重要的一个环节,AI介入选题后,可以将许多摄影选题、陈述和评论纳入资料库进行学习,通过建立相应的学习模型,可以为摄影师在题材和项目研究阶段,提供更多的创意样本和激发更多的想法。

使用现有的AI生成技术如ChatGPT,以及知识管理工具Whimsical, Notion,Carft等软件或系统的AI组件,用户可以直接将所设想的摄影计划加以分析,AI将依据你的输入,不知疲倦地提供更多的相似想法和延伸方案。

AI化摄影计划

当AI介入我们的摄影流程,我们会发现一个更为智能的行程规划。譬如AI可以通过历史数据分析某个地区最佳的拍摄时间、地点,甚至角度、拍摄点,这样就会对摄影师产生很有价值的参考。AI工具如roamaround.io 可以根据目的地生成建议的行程表,提供可以去的信息以及详细的行程安排,占用时间,等等。随着数据的增加或扩大化,针对摄影的计划行程可以最大限度的得到提升。

由这类工具出发,譬如我们可以融合摄影为主题的计划以及历史上某地区的图像后艺术数据,等等,开放性地构建一个智能摄影协助平台,这样会极大地减少摄影师的时间消耗,也能推动地方经济的发展。

AI化相机和摄影

相机的AI化是一个长久以来的趋势,主要体现在相机对于场景的分析上面。虽然从AI化场景来说,现代相机早已实现很多通过现场信息分析来进行拍摄配置优化的“自动”设定,但有人工智能参与以后,这种参与就可以更为具体和具有更有可能的想象力。

光圈、焦距、快门配置的AI助理化,使得拍摄即有可能进入新的“自动”模式。具备更丰富的选择,相机可以通过内置的AI引擎来实时分析场景,提供更多的专业拍摄选择。甚至随着技术的进步,可以达到摄影的“万能底片”。即拍摄完成后,按需生成不同的专业摄影组合搭配样本。

另外AI的介入,相机除了更好地满足我们的这些要求外,还可以变成一个数据学习的捕获器。现有的技术下,AI可以识别样本,对每张拍摄的图像作以文本描述。AI可以做到根据场景的相似性临场提供实时的视觉相似摄影名作对比,这样可以作为一个学习的机器来提高摄影水平。虽然没有直接具体的产品出现,我们可以通过整合技术、创建流程的方式在该领域实现不断创新。

AI化图像后期

图像后期其实早就是用了预先训练的方式来生成特定的图像风格,比较典型的就是胶片模拟软件,通过生成风格样本来直接转换普通的数字照片。典型的有Exposure系列软件或Nik的系列软件。简单而言,AI概念在数字后期领域主要用于用AI生成可以优化图像的细节或风格。譬如已经非常成熟的AI放大、AI图像自动优化,AI去噪点等方面,都在近些年AI的飞跃之下有了更多的发展空间。

【未来已来】人人都说GPT,人人都怕GPT,人人都用GPT

图像专业软件如Photoshop近些年接连推出许多AI的智能化的工具,巩固在该领域的领导者地位。

如果说橡皮图章类的工具是较为原始形态的数字图像修复的话,那么后续的新型“内容感知缩放”“内容感知填充”则显得更为智能。内容感知填充(Content-Aware Fill)基于机器学习算法,能够自动识别图像中的对象和背景,并生成新的像素信息,将指定区域中的对象或不需要的元素删除或填充,使得图像看起来自然而完整。

Adobe较早布局AI产品线,从Adobe Sensi开始,使用AI来优化和改善现代数字图像工具。从2020年的Photoshop22.0版本开始,推出了纯AI的 “神经元滤镜”(NeuralFilters),从此不断迭代升级。将图像处理过程语言化、具体化和助理化。用AI来处理具体特定的任务,是AI设计的概念基础。因为可以通过机器学习来学习特定类型的数据,来解决具体的常见问题。

AI 化摄影图像分析、研究与传播

使用逆向提示分析工具,可以使用AI技术来对现有图像进行分析,获得一系列对于AI而言所相关的识别数据,提供和扩散延伸研究的范围和创意。譬如我所分析的一张威廉·艾格斯顿的经典街头摄影作品,分析出来彩色摄影、街头摄影、乔伊·斯滕菲尔德(Joel Sternfeld)、1970年代街头、中画幅、埃里克·索斯(Alec Soth)等关联性,达到了一定专业储备。如果以此为核心,更有针对性的AI训练,创建一个图像创意、学习和教育模型平台,则可以为摄影史、研究和创作提供强有力的创意支持。

AI可以将相关的艺术家、作品、流派和风格自动加以归类和整理。就像一个动态的信息目录,有了AI的帮助,摄影研究者能更容易找到特定选题的信息、规律和方法,从而推进学术创新。

技术会对传播媒介和方式产生影响和变化,AI的帮助下,摄像机可能能创作、优化、提示、生成更具平台吸引力的AI动态或静态作品,并根据趋势实现自动发文、自动标签、自动优化和风格化。更进一步考虑的话,AI摄影的组合和管理工具,结合相机图库的整理,可以将拍摄的影像自动进行差异化的编辑。根据AI学习数据库对于组照的一般搭配方式,自动选择图像进行整合展示。这都为摄影的研究和学习带来了新的助力。
【未来已来】人人都说GPT,人人都怕GPT,人人都用GPT
人工智能对摄影美学的影响

AI给摄影带来了许多可能性,也带来了许多可能的技术发展的弊病。譬如形成对技术的过度依赖,减弱了媒介的美学和艺术价值,过于雷同的“完美摄影图像”,等等。这都需要我们在不断的实践过程中逐步摸索、完善、发展,对其展开也超过了本文的定位和设计。

无论何种行业,在这个领域内的核心的人类需求和需要还是基本恒定的,只要我们还服务的是一个以人为主的社会,我们就可以以AI来帮助我们更好更快地处理问题,但AI就像一个越来越高的水桶的最短板一样,会逐步拉高某些领域的门槛,对行业的进入要求和底层工作提出了新的要求。

AI与摄影目前仍在探索期,可以预见会在短时间造成信息爆炸和垃圾杂讯,产生许多新的问题。新型AI可以生成可用性极高的文本报告、论文、图像、音乐、视频、动画、3D模型、产品设计、程序代码、艺术创作概念。内容(文明)生产模式变成了一种复杂的,又符合逻辑的选择模式。我还是偏向于认识这是一种“先进”形态生产力,会深远地影响人类社会的诸多层面。

总结

如同胶片和数字迭代一样,模式并不是孰优孰劣的细节争辩,而是效率斗争。Google为代表的“搜索”或ChatGPT为代表的“搜获”,只是人在其中的角色演变,任何时候,不断学习摄影技术、摄影知识和了解最新的技术发展,都可以帮助我们更好地塑造和适应人工智能摄影时代。

HBuilder教程