日期选择 logo

2024-07-10 第28,017号

上海报业集团主管主办·文汇报社出版

newspaper
第10版:文艺评论/文艺百家

当AI入侵艺术创作的操作系统

AI作图(作者提供)
       花晖
      
       “人工智能已入侵人类文明的操作系统。”这是《人类简史》作者尤瓦尔·赫拉利对于AI迭代之迅猛而发出的感叹及忧虑。赫氏素来以演化生物学的角度阐释人类历史,当过往的“AI威胁论”集中于智慧机器奴役或灭绝人类,赫氏则认为今天的AI具备了操纵及生成语言的非凡能力,出现“会讲故事的计算机”无疑将成为人类史的一个拐点。
      
       考察AI艺术创作领域,这种“入侵操作系统”的状态已初现端倪且迅速蔓延,那么机器语言将如何影响人类的创作思维及美学表达?在人机交互的系统框架中,各自又将扮演怎样的角色?
      
       词元生万物是语言的进化还是退化
      
       赫拉利认为语言是人类文明的基本要素,而正是通过改变语言表达的习惯与构成,AI得以“操纵”人类观察及思考的方式。换言之,“硅基生命”正尝试从根本上瓦解并重塑最顶端碳基生命的文明累积系统。
      
       赫氏的一系列观点显然将AI视为入侵物种而怀有“敌意”,但由语言这个极为重要的符号系统出发,思考AI与人类文明的现时及未来关系,确是一条新颖而有效的路径。
      
       不妨由“提示词”开始我们的讨论。
      
       但凡对AIGC稍有接触,便不会对文生图、文生视频感到陌生。想象一下在文本框内输入蒙娜丽莎、立体主义两则提示,AI送出的极大可能是毕加索版的神秘微笑,你当然还能额外获得波普版、水墨版乃至黏土版。文本驱动是AI创作的最基本形式,由此看来,AI对人类最直观的“操纵”在于那些连续的、高度依赖上下文的语义表达,由断裂、跳跃的语素、词、熟语等语言单位直接完成了,且完成的形式在情境的逻辑性、完整性上日趋合理,并越来越清晰地展现出一种机器创意。这就导致一个悲喜难辨的结果:当我们将语义表达的概念拓展至艺术创作,过往那些引以为豪的丰富经验、刻苦训练、入微观察、情绪峰值,都在体量尽可能缩小的音义结合体面前,显得性价比很低。随着提示词工程师成为职场新宠、9块9的AIGC课程充斥网络,人工智能显然带来了“6·18”般的创作狂欢。
      
       那么回到语言的讨论范畴,基于提示词的“操作系统”究竟是一种进化还是退化?
      
       在AIGC的语言模型中,“词元”这一翻译代表着机器以数字形式来读懂人类词句的最小语义单位。提示词中的长文本经由“分词”步骤拆解为词元,并通过嵌入、位置编码等一系列处理,由物理世界的非结构化数据转为机器可理解的结构化向量,图片、视频等多模态输入的最终目的地也便是多维向量。
      
       暂不展开复杂的技术机理,而用蚂蚁搬家的故事来理解一下词元的无穷力量。一只蚂蚁承载负重、兜兜转转大半天回到蚁穴,而当成千上百集体迁移时,却能惊人地依据地形选择出最便捷、最合理的行进路线,路遇急流亦会抱作一团滚入河中,通过牺牲少数边缘个体而获得蚁群的胜利。这种整体大于部分之和的智能爆发被理论生物学家贝塔朗菲称为“涌现”,而一旦突破聚合的奇点,宇宙起源与生命演化都在涌现之列。
      
       词元就像一只蚂蚁,当我们投喂足够多的语料给大语言模型后,由表及里涌现而出的是AI对于提示词中潜藏的艺术风格及情感倾向,产生了识别、理解以及“想象”——假设我们意欲为“一键生成”添加一些拟人的色彩。同时于规模法则之下,随着模型尺度急剧增大,其计算精准度呈现出昂然上扬的幂律曲线。正如OpenAI从未将Sora简单地等同于视频模型,而是野心勃勃地称其为“世界模拟器”,当你察觉到墨镜女郎镜片上的反光时,呓境与现实间的界线似乎并不那么重要了。
      
       表面上看,多模态提示词代表着创作界面的全然改头换面,而背后的词元生万物,体现出机器对艺术世界新一阶段的理解与掌握,更是人类在新一阶段对艺术思维的形成与表达、创作工艺的更新与再造产生了颠覆旧知的认识与行动。
      
       一个有趣的例子是前不久全球首部AI长片《我们的终结者2重制版》上映,故事背景设定为ChatGPT一统天下的未来世界,OpenAI派遣机器人穿越时空刺杀人类反抗军领袖山姆·奥特曼,也即是现实中OpenAI的创始人,整体情节与经典科幻片《终结者2》形成了呼应。撇开影片中部分影像细节的不到位,其制作本身便掀开了电影工业的新篇章。项目启动于好莱坞编剧大罢工之际,在传统电影技术岗位缺失的前提下,50名AI艺术家利用ChatGPT、Midjourney、Runway等五花八门的AI工具,完成了50个彰显个人风格及工具特性的影像片段,整部长片由此“拼凑”而成。这样的“草台班子”在3个月内完成了编剧、导演、场记、美术、配乐等所有标准工业流程,证明了AI在降低使用门槛的同时,带来了跨学科、跨门类的通用智慧。
      
       若将语言范畴由艺术创作的技法与规律,再度拓展至认识宇宙世界的运行真理,这种通用智慧则更令人惊叹。Deep Mind旗下的AlphaFold于数年前,已预测出100万个物种超过2亿个蛋白质的结构,几近涵盖地球上所有的已知蛋白质,而今天的AlphaFold 3已将预测范围扩展到了更为广泛的生物分子。显然AI在各个领域对于帮助人类认识自身,发挥着日益积极的作用,那么人类又该如何可持续性地与AI相处?
      
       从逆向图灵测试到人文的胜利
      
       近日一位AI独立开发者设计了一项别出心裁的游戏,将亚里士多德、莫扎特、达·芬奇、克利奥帕特拉、成吉思汗五位“角色”设置于AI世界的一节车厢中,其中只有一位是人类,其它几位均为GPT、Claude、Gemini等头部引擎驱动的AI玩家,五人间通过互相问答,并以投票形式决出谁是混入的异类。人类扮演的角色最终被四位AI玩家中的三位以缺乏领导力与战略思维为由,判定为非我族类。
      
       若熟知70多年前的图灵测试,此次由机器检验人类的反向实验便显得格外有趣且有深意。在愈来愈紧密的人机系统中,如何与AI相处,便成了一个需要回答的问题。
      
       在现时的答案中,过往的“工具论”显然不合时宜,AI不再是辅助导演完成分镜、帮设计师生成草图的简单机器,一种相互补充与激励的“友伴论”是良好的起点,正如跳跃的提示词,将由AI填补创作的空间。
      
       又一个值得一提的案例是由商汤科技、上海人工智能实验室参与研发的首个人体动捕大模型SMPLer-X。得益于450万个实例的数据训练,样本视频中人体姿态的多样性、局部动作的复杂性,都能被快速且高质量地识别并提取出来,这意味着CG制作展现出了一种崭新的未来。
      
       由1937年《白雪公主和七个小矮人》、1941年《铁扇公主》启用转描技术算起,逐帧摹绘、惯性测量、光学动捕等一系列方法都离不开巨大的人力物力,而AI生成式动捕摆脱一切传感器,由摄像头、手机乃至网络视频中直接采集获取动作数据,在大幅削减成本的同时,着实降低了制作人员的工作难度与强度。
      
       在这样的创作友伴关系中,艺术家们理应受到鼓舞,去尝试过往不曾有过的想象、去攀登过往不曾达到的峰顶。顶尖AI科学家李飞飞宣称AI的胜利不能仅仅是科学的胜利,而必须是人文的胜利,这意味着AI需要成为“遵循优良的学术传统,愿意协作,尊重他人的意见与专业的机器”,这亦为人类文明的操作系统筑起了一道倚重AI革新且可持续发展的防火墙。
      
       (作者为上海交通大学媒体与传播学院副教授)