自2024年初Sora石破天惊般问世以来,AI(Artificial Intelligence,人工智能)生成影像以日新月异的迭代速度持续刷新着人们的想象。从好莱坞公映的首部AI长片电影《我们的终结者2重制版》(Our T2 Remake,2024),到世界AI电影节上惊艳四座的先锋影像,再到国内科技公司与电影导演合作的系列AIGC(Artificial Intelligence Generated Content,人工智能生成内容)叙事短片,AI生成影像早已不是四肢僵硬的“数字人”和一键生成的“换脸滤镜”,而是全方位地进入了专业化的影视生产流程和艺术创作中。《科学》(Science)杂志曾在年度盘点中提到,“人工智能已涉足曾被认为完全属于人类的领域,比如艺术表达”;Runway公司的CEO则在世界AI电影节颁奖典礼上宣告,“一种真正属于未来的品位(taste)正在诞生”。这不禁引人发问,AI生成影像是否真正形成了根植于人工智能“生成”特质的全新表达甚至美学?
诚然,当我们试图谈论AI生成影像的“美学”时,并非在指认一种已经成熟的规则,而是在捕捉某种莱布尼茨式的“细微感知”中,观照到一种美学的可能性和潜能。而能否发现这样一种潜能,取决于我们站在何种位置和视野中去看待。巴尔迪纳·圣吉宏(Baldine Saint Girons)在《美学权力》中提到,“我们不仅是美学的接受者,还是设计者和参与者”。如果站在生成影像“被动接受者”的位置,文化批判的声音将会不绝如缕——在人的想象力和主体性被机器剥夺的现代社会,真实崩塌、美学消失、爱欲枯竭;但倘若站在美学“建构者”的位置,则有望通过挖掘AI生成影像的美学潜能,更加明确“人”的潜能在哪里。
人工智能时代下的电影工业美学正是希望在“消失”“枯竭”等解构性的时代症候中,构建起一座为创作现实保驾护航的大厦——充分考虑到影像生成的技术底色与工业背景、青年一代的审美和消费需求,以及时代特色的文化观念转变,提出适用于这些复杂现状的阐释框架。因此,电影工业美学视野下的“AI生成影像”之思,不是站在被动的美学接受者的维度,而是积极参与美学的生产建构,寻找“生成之物”背后的工业、审美和文化的“隐蔽的在场”,洞察未来影像的美学潜能。
一、从“完整电影神话”到“世界图景”:AI生成影像的世界观重建
我们时常忽略了巴赞在《摄影影像的本体论》中,首先论述的并不是“照相术”对于影像本体的“技术决定性”,而是在摄影技术诞生之前,人类对于“完整电影”的渴望。他屡次强调“技术在电影的发明中是第二性的”,并非因为先有机器和技术才有了“完整电影神话”,而是因为人们脑海中早就萦绕着关于“完整电影”的幻想,技术才有了用武之地。因此,对于传统电影(非生成式的)而言,影像美学根本性的源头在于“完整电影神话”,即电影这个概念“等同于完整无缺地再现一个声音、色彩和立体感等一应俱全的外部世界的幻景”。
然而,人工智能的“神话”显然不是“完整电影”,它没有“给时间涂上香料以免于身体腐朽”的必要性。由“完整电影神话”孕育的“再现性”的美学诉求,将会在人工智能的生成世界陷入审美错位之中。
正如克拉考尔所言,不同的媒介具有自身的美学近亲性,回到AI生成影像自己的“神话”,才有可能抓住其美学本色。美国麻省理工学院(MIT)团队的一项实验为人工智能自身的“神话”提供了猜想——在对78个不同模型的生成结果进行相似度分析后,发现“基于不同原始数据和算法架构的智能模型,正在趋向一个统一的表征现实”,由此提出了人工智能的“柏拉图表征假说”(The Platonic Representation Hypothesis)。这似乎在预示着,作为表征的生成影像试图完成自己的“完整世界神话”。在这个世界里,人工智能不是无知的囚徒,反而具有解脱出捆绑的动能,试图看清影子背后“大写的世界”。
影像背后若隐若现的世界,正是Sora等大模型问世时提出的终极理想——世界模拟器(World Simulators)。在唯一公开的Sora官方技术报告中,其宣言式的标题“作为世界模拟器的视频生成模型”给人留下了深刻印象。在此之前(2023年12月),Runway公司也发布了野心勃勃的“通用世界模型”(General World Models)声明;谷歌DeepMind团队则将第一个生成式AI产品Genie定位为“基础世界模型”(Foundation World Model)。世界模型在大众媒体的渲染下,将“最广泛意义上的人类生存环境”变成现代城市售楼部微缩景观式的掌中之物,如同上帝创造伊甸园一般,成为AI生成影像的“神话”。
所谓世界模型,在Runway公司的官方介绍中被定义为“通过建立环境的内部表征来预测环境中未来状况的人工智能系统”。它并不严格对应单一的技术标准,而是众多已知和未知的不同模型形成的整体系统,指向生成式AI的理想状态。关于世界模型的实现路径,主要有两条完全不同的思路,其中最主要且已经实现的是以Sora为代表的基于Transformer的扩散模型。这也正是它提出的“建构通用世界模拟器的希望之路”,如今投入使用的商业化模型基本都是在此基础上的优化。但扩散模型本质上是一种自回归模型,所谓的“理解世界”只是处理“概率分布”的问题,即使生成的视频再逼真,它也永远无法理解客观世界真正的运行规律。因此,卷积神经网络之父杨立昆(Yann LeCun)等人提出了世界模型的另一条路径,这条路径不是基于自回归模型的“概率分布”,而是实现真正的“逻辑推理”。杨立昆提出JEPA架构方案(联合潜入预测架构)部署人类的“推理”(reason)过程;卡奈(Ryota Kanai)等人提出“信息生成理论”对大脑进行抽象建模;格拉齐亚诺(Michael S. A.Graziano)的“注意模式理论”则对注意力的动态过程进行建模。他们的志向都在于,实现世界模型从“概率分布”到真正“理解世界”和“自主推理”的理想。
无论基于何种路径,世界模型的生成过程并非如大众媒体宣传话语中“一键式”的自动化过程。首先需要明确,影像的生成建立在“预测”的基础上,而不是直接的复制、转移和拼贴。换言之,生成世界中的每一帧影像都是历史中从未存在过的新物质,而非从海量数据库中“抓取”的现成元素。比如在最大的生成艺术社区CIVITAI中,一款名为“聊斋”的中式美学风格模型很受欢迎,创作者可以借助该模型生成聊斋式的“蝙蝠侠”和“万圣节”。显然,作为原始数据的清代彩绘《聊斋全图》中从未出现过这等舶来品,该模型也无现成之物可以借用,每一笔线条都是基于预测而产生的新生之物,哪怕具有似曾相识的影子。因此,认为“AI生成影像只是对过去素材的重组,且没有未来时间维度”的说法值得商榷。恰恰相反,AI生成本身就是一个未来维度的映射,“生成”的意义便是基于给定环境和动作因果链,预测实施某动作时出现的“未来环境”。当然也需要承认,AI的预测具有机械化的特征,更像是由无数个表征符号(token)构成的完形填空。当上一预测发生偏移时,后续的预测会基于错误继续下去,有时还会产生与常理预测相比极大的偏差,出现“人工智障”的荒诞结果。
其次,另一个关于AI生成影像的普遍误解是,智能生成的过程将“人”排除在外,缺少人的审美维度。但在影像生产的现实中,这一判断只适用于扩散模型的局部运算,而作为电影实践与艺术创作的生成影像,无一不是人机共创的成果。例如,图1为图像生成模型Stable Diffusion一个中等体量的工作流(Workflow)界面,图中每一个节点都代表着一次“人的介入”。所谓“一键生成”只是商业化的某一类产物,完整的理想图像实则需要经过多次乃至成百上千次的键入。又如,AI画作《太空歌剧院》(Théatre D'Opéra Spatial)是游戏设计师杰森·艾伦(Jason Allen)使用AI绘图工具Midjourney生成后再通过Photoshop调试,基于几百张图片修改完成的。再如,2024年5月发布的使用Sora制作的微电影《气球人》(Air Head),也是由三位专业人士将生成视频结合后期工具(如After Effects)共同完成的。即使到了世界模型的理想状态,人们对生成模型的控制依然(甚至会更多地)存在。模型的发展不是让控制退场,而是让控制变得更加易于操作,以至于我们感受不到它的存在。在“生成艺术”(generative art)得以命名的20世纪60年代,操作者必须使用代码控制;如今,操作者可以使用自然语言控制;而在脑机接口实现的某一天,或许操作者可以直接用意识进行控制。但这并不意味着人的退场,而是预示着人机合作的新阶段。在2024年第十四届北京国际电影节AIGC最佳影片《致亲爱的自己》中,人物、场景和风格分别来自不同模型,甚至小到“发丝的飘动”也需要单独控制。可见,AI生成影像的世界模型是人机共创的结果,也是技术变革下电影工业的产物。

基于技术逻辑与人机共创的双重现实,世界模型的宏大愿景通过生成影像显现出三个层面的世界结构与图景。首先是日趋稳定的物理世界。似乎每一个推向市场的视频生成大模型,都会选择那类看起来与摄影无异的逼真影像来证明其“模拟世界”的能力,这导致人们习惯性地将世界模型等同于“完整电影神话”所指向的“声音、色彩、立体感等一应俱全”的物理世界。其次是人类的想象世界。AI创作平台即梦AI的宗旨为“即刻造梦,梦境成真”;可灵AI旨在“让想象动起来”;而在Sora的首页介绍中则指出,“这是一个通过文本提示生成‘现实和想象’场景的AI模型”。可见,世界模型将“想象”与“现实”置于同等重要的位置。最后是以游戏影像为代表的虚拟世界。Sora的技术报告中提到,“世界模型的能力包括模拟‘数字世界’,比如模拟游戏《我的世界》中的动态环境”。它的竞争对手Luma AI则发展出了Dream Machine和Genie两个垂直化的主要模型,前者可以生成具有“电影质感”的影像,后者则在游戏场景和道具生成上一枝独秀。
“三个世界”的多维模型容易令人联想到哲学意义上的多重世界,如卡尔·波普尔(Karl Popper)用科学式的论证指出了建构世界的本质,包括“物理的世界(世界1),精神的世界(世界2),观念和人造产物构成的世界(世界3)”。虽然“世界图景”所切入人工智能的三个世界均为表征的世界,是世界模型的影像与存在形式,但我们又必须将其与世界的本体论进行类比,因为只有将人工智能视为与人类平等的智能体,才能真正打开将生成产物视作艺术的研究之路。正如学者陈亦水将AI视作康德式的“物自体”,从而为生成影像建构了一种记忆还原主义的美学可能。世界模型对于生成影像而言,绝非意味着先验的“完善与和谐”,而更像是现象学意义上“永远在世界之中”的“相互牵引与给予”——世界模型“映射”到影像的像素世界,同时影像“塑造”了世界模型的实质。因此从“完整电影神话”到“世界图景”,是一种深入至影像本体论维度的美学考察,是电影工业美学在算法生成时代的一次理论创新。
二、物理世界的变形:“平滑的空间智能”与“数据的物质性在场”
在摄影得天独厚的“再现”美学维度里,人工智能注定是失效的。生成影像再造物理世界的逻辑是模拟“视觉真实”而非“客观真实”,即使它看起来“越来越像”,也不具备“物质现实”的讨论前提。因为再现美学的关键从来都不是“像不像”,而是“真不真”的问题。无论是巴赞认为的“镜头摆脱了习惯和偏见,清除了我的感觉蒙在客体上的精神锈斑”,还是克拉考尔所说的通过电影让身体和灵魂与现实同行从而救赎现代性的侵蚀,其所指的客观世界都是现象学意义上基于“意向性”的物质现实。而“意向”作为现象世界真实性的基础,在人工智能的“直观”模拟下无从谈起。因此,即使所有商业化的模型公司都发出承诺——物体永久性、时间和空间的一致性等问题将随着算力的进化得到改善,但在美学建构之路上,“模拟”的影像世界走的终究是一条与“再现”截然相反的道路。
这并不意味着人工智能在物理世界的再造中黔驴技穷,它的美学进路主要体现为两个方向。其一是空间智能(Spatial Intelligence)的快速发展使影像的逼真性从二维跃升至三维,超真实的预言得以如虎生翼;其二则在截然相反的道路上,索性放下了“模拟物质现实”的执念,赋予被误解的物理现实以奇观化的美感,凸显了人工智能的“在场”和数字灵韵的现身。
在“超真实”的延续之路上,如“AI教母”李飞飞所言,空间智能代表了未来的方向。霍华德·加德纳(Howard Gardner)在《智能的结构》中将空间智能视为人类“多元智能”中最重要的六种智能之一,其核心是“准确地感知视觉世界”,比如雕塑家在创作前“给人物形象以体积,就像该人物占有空间一样”。在影像生产中,空间智能更像是鲁道夫·阿恩海姆(Rudolf Arnheim)在《视觉思维》中提到的一种与语言相对的、首先通过视觉和形象形成认知的思维运算。Luma AI率先打开了空间智能影像生成的局面,其效果和过程类似于全息投影。全息图通过不同角度的激光照射来记录不同的视角,而Luma通过神经辐射场(NeRFs)技术和体积雾(Volume Rendering)的渲染方式,对已知视角的图像进行位置编码和训练,预测未出现的视角对应的色彩和密度信息,从而生成全方位的三维影像。如今,普通用户已可以使用移动端的Luma AI将照片生成实时的3D影像,也可以在Genie中用文字生成交互的3D模型。专业影像创作者则会惊叹于模拟摄影机在智能空间中突破物理限制后的自由运动。曾经,摄影机代替了人眼,但人眼的视域只能覆盖水平面内的有限角度(聚焦时为60度),选择什么角度还原物质现实始终是摄影机难以摆脱的“精神锈斑”,而AI生成的三维影像让对象获得了完整的形体和自由的视角,使物理世界呈现的完整性再次升级。
在通往“超真实”道路的另一侧,影像中的物理世界被赋予了抽离出现实的独特气质——属于数据的物质性。在这些影像中,人工智能对物理世界的“误解”被保留甚至凸显出来。在Sora尚未问世的2023年6月,两部具有前瞻性的AI生成短片《冰霜》(The Frost)和《谢谢你没有回答》(Thank You for Not Answering)中,影像表现得极为不稳定:《冰霜》里的男人吃牛肉时宛如在吃自己的舌头,《谢谢你没有回答》中布满皱纹的面孔在镜头移动时似乎返老还童。但评论家和创作者一致表示,这些AI生成影像的缺陷也带来了前所未有的视觉奇观。如果说彼时的生成技术尚未成熟,标榜某种半成品的“美学”有自欺欺人之嫌,那么获得2024年第十四届北京国际电影节AIGC短片最佳视效奖的《颅内花园》和《蜕化》,则是在已经使用空间智能模型等前沿技术的基础上,有意保留了不完全的渲染、抽帧、抖动、闪烁等故障式的计算机生成特质。而如今被商业软件普及的“首尾帧”技术,在将两个毫不相关的画面通过首尾帧计算生成连贯运动影像的过程中,更是溢出了悬浮于物理世界之外的超现实因素。
如列夫·马诺维奇(Lev Manovich)所言,传统的好莱坞CG电影延续了经典现实主义风格,无论是外星人、变种人还是机器人,都被电脑特效塑造成“可能存在于三维空间中的,因此是可以被拍摄下来的”对象。然而,AI生成的影像撕开了“无法被拍摄”的现实的裂痕,呈现出如同德勒兹提到的“介于抽象与具象之间”的第三种位置——这些形象(figure)始终存在着一股“变形”的势能,像是孙悟空不断在翻筋斗,或至少有翻筋斗的趋势。的确,AI生成影像的每一个细节在每一个瞬间都透露出“变形”的冲动,下一帧生成的画面努力挣脱出上一帧的束缚,通过一种“神经痉挛”式的搏斗“破壳而出”。变形的物质,如膨胀的四肢、空洞的目光、突然出现和消失的动作、不符合重力与机械结构的造型等,不仅是技术的缺陷与故障,也是技术的“在场”。汤姆·甘宁(Thomas Gunning)曾在分析早期电影的“吸引力”时提到,观众观看《火车进站》时之所以发出尖叫,并非真的以为火车会从银幕中冲出来,而是“对电影这一神秘的机器装置感到震惊”。类似的惊诧感受也出现在AI生成影像中,它的吸引力不仅源于“变形的形象”,还因为这些与物理现实不符的形象令人们感受到了人工智能的“在场”。算法以“不可控的在场”代替好莱坞CG动画“隐形的特效”,虽然暴露了AI对物理现实理解的限度,但也打破了越来越“简单、轻盈、愉悦”,同时也趋于“同质化和无聊”的“平滑美学”的陷阱,成为“反平滑”的解药,具有一定的先锋性。
三、想象世界的重塑:“潜意识影像”与“克苏鲁世”的共生乌托邦
虽然抽象的模拟器与物理现实之间始终有着无法逾越的隔膜,但这层隔膜也塑造了生成影像另一种超现实的“天赋”。导演保罗·特里洛(Paul Trillo)形象地描述道:“AI生成的影像具有天然的‘梦的气质’,特别像你闭上眼睛试图回忆的时候看到的画面。”数字模型与想象世界的“近亲性”绝非偶然。在2024年Runway公司举办的世界AI电影节中,最终入选的十部影片无一例外都是想象世界的产物:《放我出去》(Get Me Out)用扭曲的身体具象化了“焦虑”的抽象感受、《流逝》(Lapse)塑造了“孤独”的私人体验、《亲爱的妈妈》(Dear Mon)和《奶奶走了之后去了哪里》(Where Do Grandmas Go When Get Lost)寄托了作者对逝去亲人的“思念”,这些影像映射出纯粹意识世界的镜像;而《普纳姆》(Pounamu)展现了一只不会飞的奇异鸟的梦境、《这里曾经长过一棵树》(A Tree Once Grew Here)的主角为人形木材和袖珍精灵、《分化》(Separation)甚至用极致抽象的跳动色块和线条来代表物种的杂交演变,这些影像建构的则是跳脱出人类经验之外的虚构故事世界。无独有偶,央视电影频道联合国内视频社区Bilibili等平台举办的全民“AI影像征集大赛”共分为三个创作类别,分别是科幻赛道、奇幻赛道和创想赛道,几乎精准对应了电影工业美学的重要组成部分“想象力消费”类电影的几种主要形态。
在AI生成影像的时代,想象世界的形态与边界发生了什么样的变化?笔者认为,人工智能为想象世界开辟了两片人迹罕至的新疆域:一片是人类作者在人工智能的协作下不断“内化”和逼近的潜意识影像,另一片则是在去中心化的运算机制下由AI完成的“后人类”想象图景。
在“向内”的维度,一百多年前弗洛伊德便让“梦”成为艺术的主角,明斯特伯格也早已提出“电影只存在于观众的脑海中,电影的运作方式与人类的想象力同构,遵循心灵的法则”。而人工智能的加入,让“动辄数百上千人,耗资千万级”的工业生产返回到一种如画家、音乐家的“私人创作”。这在以剧组为单位(无论是“导演中心制”还是“制片人中心制”)的传统模式下,是不可能实现的。如此一来,影像呈现与创作者最初的创意之间,似乎全然剔除了摄影师、自然条件、经费限制等无法回避的“中介物”。人类作者可以通过不断训练、调试多个智能代理,培养一支完全听令于己的“人工智能队伍”,从而无限逼近创作者最私人和最原始的构思。现实中被人工智能推向浪尖的艺术家们的确对这种“自由做梦”的可能性满怀憧憬——“在几乎固化的行业门槛面前,没有资源的年轻人很难实现自己的梦想,而人工智能满足了大家平等做梦的权利。”
但需要警惕的是,在看似扁平化的“创作民主进程”中,绚烂的潜意识影像也存在本质上的局限性。首先,曾经在工业化流程中使创意“打折扣”的中介物并未退场,只是变成了工作流中更琐碎和复杂的代理模型,每一个模型都在不同的细微程度上重塑我们以为的原初想象。其次,在信息定制化的互联网中,世界越来越像一个“自我”的倒影,看似不断“向内”逼近的积极尝试,却也陷入了“自恋”的封闭循环。在技术批判的视野下,想象作为欲望的组织形式,是个体在“自我”的王国里无法征服的疆土,是永远处于外部的“大他者”。想象力来源于信息的匮乏而不是密集,密集的信息和精确的计算不但不会给想象插上翅膀,反而会让想象力萎缩。在这种想象力危机的预警下,人类作者能做的是通过思考来通往“全然的他者”,而不是寄希望于人工智能不知疲倦地反馈图像以供我们挑选。“深刻的认识”依然具有改造力,是想象和美的救赎。
相反,在“向外”延伸的维度中,人工智能拓宽了人类想象罕至的影像范畴。目前生成影像的想象世界尚未做到如托尔金的《中土世界史》那样具有连贯叙事性地图的设定,但逐渐形成了“后人类”的视觉标识与景观。在传统电影的想象世界中,无论是乐高玩具、加勒比海盗还是外星球的生命,始终具有拟人化的外形与性格,“人类中心主义”似乎是永远无法摆脱的“原罪”。然而,人工智能的生成系统可以做到无区别地对待包括人类在内的所有对象。它可以让“猫和狗”或“30%的猫和70%的狗”公平地融为一个共同体,而不会有任何“猫中心主义”“狗中心主义”的偏见,或者“人的味道”。
人工智能的影像创造具有绝对“去中心化”的潜力,很容易使人联想到唐娜·哈拉维(Donna Haraway)提出的“克苏鲁世”(Chthulucene)的视觉景象。哈拉维在1985年发表了著名的《赛博格宣言》后,又在21世纪与赛博格想象话别,发表了惊世骇俗的《伴侣物种宣言》,并在2016出版了《与忧虑共存:在克苏鲁世建立亲缘》。所谓克苏鲁世,并非指恐怖小说家霍华德·菲利普·洛夫克拉夫特(Howard Phillips Lovecraft)的“克苏鲁神话”,而是包括历史上所有的超人类(more-than-human)、外人类(other-than-human)、非人类(inhuman)等作为集合的实体。这些新奇甚至令人生畏的异质性新物种,具有所有物种平等共生、处于“进程性”开放状态的共性。“共生”,哈拉维将其拆解为“共同—生成”(becoming-with),意味着始终与异己发生联结,消除自身的界限和中心的位置。共生是克苏鲁世的世界观,也是生成式想象世界中重塑生命的逻辑。例如,图2为数字艺术家“上官文卿”与生成式AI合作,根据《山海经》创造的想象世界。这些不完全由人类创造的奇珍异兽,让某种“虚无”的恐惧感苏醒,将“此在”从熟悉、习惯和安全的“日常”中拉扯出来,或许反而撕开了让“消失的他者”浮现的缝隙。其实,人工智能并不是真的“想象”出了什么新的东西,只是打破了一个看不见的枷锁,无论是赛博格还是克苏鲁世,都具有驳斥人类中心主义的潜能,将人作为万物之尺的主体性搁置,从而解锁“后想象力消费”时代的异质想象世界。

四、虚拟世界的涌现:沉浸、交互与跨媒介的“影游融合”未来
无论是变形的物理世界,还是离开人类中心主义本色的想象世界,主要展现的都是影像“内容”的变化,即我们默认将生成影像嵌入熟悉的存在框架中,想象它在银幕和屏幕上的模样。然而,异质性内容的积累和量变只是生成式AI的“阶段性成果”,世界模型的全景远非于此。
李飞飞在提出人工智能的下一个关键节点时,传达了一个核心观点——“看到”(seeing)是为了“行动”(doing),将视觉与行动联系起来的循环系统才是真正的世界模型。这除了说明人工智能的预测能力将继续加强,也指出了影像的存在方式终将溢出画框、屏幕或任何形式的边界,成为行动的互动对象,让元宇宙的虚拟世界提前“竣工”。正如周鸿祎曾预言的,Sora的问世意味着实现通用人工智能(AGI)的时间从十年缩短到一两年。
虽然,从2021“元宇宙元年”、2022“AI生图元年”、2023“ChatGPT生成式AI元年”到2024“AI电影元年”,我们感受到“新纪元”的号角早早吹响后,AI真正实现科学家描述的未来景象并没有那么迅速,但AI生成影像的出现至少从以下两个方面加速了如电影《头号玩家》(2018)中“绿洲”式虚拟世界的降临。首先,AI实时生成能力的加强让“交互”具备了可以真正“有来有回”的意义。曾经所谓的“交互电影”大多还停留在“伪交互”的阶段,虽然用户可以选择不同线索的情节和画面,但并不具备真正的选择自由,因为所有的内容都是提前“预制”和“库存有限”的。而实时生成的出现让选择和互动可以无限地进行下去,且理论上每一次不同的互动都能够产生全新的影像反馈。其次,生成式AI势必与虚拟现实(VR)、增强现实(AR)、混合现实(MR)技术进一步结合,并促进Apple Vision Pro、Meta Quest等穿戴式智能设备的优化升级与应用落地。曾经,我们只能在艺术馆、科技馆和游乐园中体验虚拟现实带来的眩晕效果,但如今实时生成和穿戴设备的技术壁垒突破后,随时随处,我们戴上眼镜便能置身于全景环绕式的巨幕影院。全然的“拟像”世界与现实之间不再如迪士尼乐园那样有看得见的边界,“绿洲”与现实融为一体,成为被选择的生活方式。
在虚拟世界中,“沉浸”成为美学和叙事的首要前提。苹果公司于2024年10月10日推出了首部为Vision Pro量身定制的沉浸式电影《浸没》(Submerged),讲述了二战时一艘深海潜水军舰遭到袭击后,年轻的士兵们逃生的故事。影片一开始,层次丰富的音效如同不可抗拒的水压,将观众带到122米的深海之下。当舰艇遇袭,海水从四面八方涌来,观众会不自觉地缩成一团,甚至屏住呼吸。观影结束后,观众普遍表示“时间过得飞快”“没有机会开小差”“调动全身感官”。这里暂且不论虚拟技术对叙事的改变,单从影像本身的颠覆性来看,一种“全景式”的沉浸影像美学正在形成。就像“特写”是20世纪20年代电影拍摄方式的一种奇观性创造,“手持摄影”顺应了新浪潮时代青年们对于自由的向往,如今广角镜头下的“全景”或许正暗示着虚拟时代的沉浸式审美需求。环顾视野下无边界的全景镜头,传统的蒙太奇从“电影的唯一的发明” (戈达尔语)变成了多余的存在。因为目光的转移直接替代了剪辑的缝隙,数据合成的全景已经成为一个应有尽有的“无缝的整体”。同时,去边界化的全景镜头打造了“无限视点的幻觉空间,彻底打开了电影的沉浸之门,让观众从观察者成为造访者”,正应了李飞飞的预测——从“看见”到“行动”。
诚然,“沉浸”作为未来影像的某种趋势,主要归功于虚拟现实技术的进步,生成式AI在这场革命中发挥的关键作用,实际上是在虚拟技术的躯壳中填充了“虚拟生命的血肉”和“虚拟世界的运行动力”。目前,Apple Vision一类的穿戴设备面临的问题不仅是太沉太大,而且缺乏充足的如《浸没》这般真正适用于新媒介的内容。如果用户只能用巨大且清晰的虚拟屏幕看动物世界、玩俄罗斯方块,无疑是对媒介特性的浪费。
而生成影像一方面为智能设备进入现实提供了源源不断的素材,如艺术家松田启一(Keiichi Matsuda)的概念短片《超现实》(Hyper-reality,2016)中展现的超现实世界:当人们逛超市时,虚拟导购的影像会出现在面前,根据对用户目光和反应的监测,为其生成不同的产品推荐内容,甚至还会在用户无聊时调出虚拟宠物的形象。另一方面,更为重要的是,生成式系统将虚拟世界的创造权交给了观众和用户。在自称“AI版奈飞”的Fable Studio平台上,人们可以通过输入提示词对现有剧集进行续写,从而弥补对情节走向不如己愿的遗憾,也可以重新创造角色,设定希望看到的事件和故事走向,还可以上传自己的图像作为形象参考,快速生成一分钟的连贯叙事动画短片。
笔者在分析“数字吸引力”时曾提到过,数字技术的发展让观众对“奇观”有了更高的要求,这种需求促使“电影朝向互动影像的未来——也就是电影与游戏融合的未来”迈进。而在生成式AI的加持下,“影游融合”的未来除了跨媒介改编、视觉元素和技巧的相互借鉴、叙事结构的数据库倾向等,还增加了一种本体论层面的融合,即“影像生成本身便是游戏”,例如Fable Studio的AI剧集就越来越像游戏作品。人们对于生成影像的审美与消费,很大程度上基于与游戏趋同的“体验感”而非“观赏性”的需求。这完全进入鲍德里亚所说的“拟像”第四阶段的虚拟世界,构成了生成影像“世界图景”中意味着未来时态的拼图,加速奔向《头号玩家》中“绿洲”式的元宇宙世界。
结语
回到本文最初的问题,AI生成影像是否具有独属于这一新媒介本体的美学可能性?它的“柏拉图表征假说”照亮了其背后逐渐显现的类同“大他者”的存在,这若隐若现的图景正是Sora等影像生成类人工智能的终极理想——世界模型。亦如摄影本体的电影为了实现“完整电影神话”,算法生成的影像则在不断地逼近世界模型的完美图景。
在世界模型版图的物理世界中,“物质现实复原”的美学前提与意义已然失效,取而代之的是在空间智能中拥有了超越摄影客观性的逼真美学,并撕开了“无法被拍摄”的现实的裂痕,展现出独属于数据的物质性奇观。在与算法生成媒介具有“近亲性”的想象世界中,私人的梦境、记忆和潜意识影像不再受制于复杂的电影制作流程与资金,变得透明而自由。同时,AI生成的想象世界终于突破了“人类中心主义”的局限性,解锁了“后想象力消费”时代的异质想象。在代表着未来图景的虚拟世界中,影像美学的讨论维度不仅涉及内容和风格,还包括对影像存在形式本身的颠覆,生成技术必将与扩展现实(XR)技术及穿戴式设备深度融合,彻底打破画框、屏幕以及一切形式的边界,如《头号玩家》中的“绿洲”宇宙一般,完成从“看见”到“行动”的世界闭环的建构。
需再次重申的是,谈论AI生成影像的潜能并不意味着欣然接受机器对人的异化,而是希望能够用一种“建构者”而非“接受者”的积极态度,面对“不可反驳的在场”时清醒地看到滚滚洪流之下的创作现实、媒介现实和审美现实,让电影工业美学在“一切尚未消失”的现代社会中继续讲下去,在充满了不确定性的人工智能时代建构起阐释的主动性。好莱坞电影人从大罢工到全面拥抱AI,用了不到一年的时间,技术的进化不断刷新着人们曾经的认知和结论,在如此瞬息万变的新世界里,与其人人自危,不如真正动手创造。毕竟,预测未来最好的方式便是创造它。
(责任编辑 张欣琳)