电子报_内容详情

第10版：文艺评论/文艺百家

当AI入侵艺术创作的操作系统

AI作图（作者提供）

       花晖

       “人工智能已入侵人类文明的操作系统。”这是《人类简史》作者尤瓦尔·赫拉利对于AI迭代之迅猛而发出的感叹及忧虑。赫氏素来以演化生物学的角度阐释人类历史，当过往的“AI威胁论”集中于智慧机器奴役或灭绝人类，赫氏则认为今天的AI具备了操纵及生成语言的非凡能力，出现“会讲故事的计算机”无疑将成为人类史的一个拐点。

       考察AI艺术创作领域，这种“入侵操作系统”的状态已初现端倪且迅速蔓延，那么机器语言将如何影响人类的创作思维及美学表达？在人机交互的系统框架中，各自又将扮演怎样的角色？

       词元生万物是语言的进化还是退化

       赫拉利认为语言是人类文明的基本要素，而正是通过改变语言表达的习惯与构成，AI得以“操纵”人类观察及思考的方式。换言之，“硅基生命”正尝试从根本上瓦解并重塑最顶端碳基生命的文明累积系统。

       赫氏的一系列观点显然将AI视为入侵物种而怀有“敌意”，但由语言这个极为重要的符号系统出发，思考AI与人类文明的现时及未来关系，确是一条新颖而有效的路径。

       不妨由“提示词”开始我们的讨论。

       但凡对AIGC稍有接触，便不会对文生图、文生视频感到陌生。想象一下在文本框内输入蒙娜丽莎、立体主义两则提示，AI送出的极大可能是毕加索版的神秘微笑，你当然还能额外获得波普版、水墨版乃至黏土版。文本驱动是AI创作的最基本形式，由此看来，AI对人类最直观的“操纵”在于那些连续的、高度依赖上下文的语义表达，由断裂、跳跃的语素、词、熟语等语言单位直接完成了，且完成的形式在情境的逻辑性、完整性上日趋合理，并越来越清晰地展现出一种机器创意。这就导致一个悲喜难辨的结果：当我们将语义表达的概念拓展至艺术创作，过往那些引以为豪的丰富经验、刻苦训练、入微观察、情绪峰值，都在体量尽可能缩小的音义结合体面前，显得性价比很低。随着提示词工程师成为职场新宠、9块9的AIGC课程充斥网络，人工智能显然带来了“6·18”般的创作狂欢。

       那么回到语言的讨论范畴，基于提示词的“操作系统”究竟是一种进化还是退化？

       在AIGC的语言模型中，“词元”这一翻译代表着机器以数字形式来读懂人类词句的最小语义单位。提示词中的长文本经由“分词”步骤拆解为词元，并通过嵌入、位置编码等一系列处理，由物理世界的非结构化数据转为机器可理解的结构化向量，图片、视频等多模态输入的最终目的地也便是多维向量。

       暂不展开复杂的技术机理，而用蚂蚁搬家的故事来理解一下词元的无穷力量。一只蚂蚁承载负重、兜兜转转大半天回到蚁穴，而当成千上百集体迁移时，却能惊人地依据地形选择出最便捷、最合理的行进路线，路遇急流亦会抱作一团滚入河中，通过牺牲少数边缘个体而获得蚁群的胜利。这种整体大于部分之和的智能爆发被理论生物学家贝塔朗菲称为“涌现”，而一旦突破聚合的奇点，宇宙起源与生命演化都在涌现之列。

       词元就像一只蚂蚁，当我们投喂足够多的语料给大语言模型后，由表及里涌现而出的是AI对于提示词中潜藏的艺术风格及情感倾向，产生了识别、理解以及“想象”——假设我们意欲为“一键生成”添加一些拟人的色彩。同时于规模法则之下，随着模型尺度急剧增大，其计算精准度呈现出昂然上扬的幂律曲线。正如OpenAI从未将Sora简单地等同于视频模型，而是野心勃勃地称其为“世界模拟器”，当你察觉到墨镜女郎镜片上的反光时，呓境与现实间的界线似乎并不那么重要了。

       表面上看，多模态提示词代表着创作界面的全然改头换面，而背后的词元生万物，体现出机器对艺术世界新一阶段的理解与掌握，更是人类在新一阶段对艺术思维的形成与表达、创作工艺的更新与再造产生了颠覆旧知的认识与行动。

       一个有趣的例子是前不久全球首部AI长片《我们的终结者2重制版》上映，故事背景设定为ChatGPT一统天下的未来世界，OpenAI派遣机器人穿越时空刺杀人类反抗军领袖山姆·奥特曼，也即是现实中OpenAI的创始人，整体情节与经典科幻片《终结者2》形成了呼应。撇开影片中部分影像细节的不到位，其制作本身便掀开了电影工业的新篇章。项目启动于好莱坞编剧大罢工之际，在传统电影技术岗位缺失的前提下，50名AI艺术家利用ChatGPT、Midjourney、Runway等五花八门的AI工具，完成了50个彰显个人风格及工具特性的影像片段，整部长片由此“拼凑”而成。这样的“草台班子”在3个月内完成了编剧、导演、场记、美术、配乐等所有标准工业流程，证明了AI在降低使用门槛的同时，带来了跨学科、跨门类的通用智慧。

       若将语言范畴由艺术创作的技法与规律，再度拓展至认识宇宙世界的运行真理，这种通用智慧则更令人惊叹。Deep Mind旗下的AlphaFold于数年前，已预测出100万个物种超过2亿个蛋白质的结构，几近涵盖地球上所有的已知蛋白质，而今天的AlphaFold 3已将预测范围扩展到了更为广泛的生物分子。显然AI在各个领域对于帮助人类认识自身，发挥着日益积极的作用，那么人类又该如何可持续性地与AI相处？

       从逆向图灵测试到人文的胜利

       近日一位AI独立开发者设计了一项别出心裁的游戏，将亚里士多德、莫扎特、达·芬奇、克利奥帕特拉、成吉思汗五位“角色”设置于AI世界的一节车厢中，其中只有一位是人类，其它几位均为GPT、Claude、Gemini等头部引擎驱动的AI玩家，五人间通过互相问答，并以投票形式决出谁是混入的异类。人类扮演的角色最终被四位AI玩家中的三位以缺乏领导力与战略思维为由，判定为非我族类。

       若熟知70多年前的图灵测试，此次由机器检验人类的反向实验便显得格外有趣且有深意。在愈来愈紧密的人机系统中，如何与AI相处，便成了一个需要回答的问题。

       在现时的答案中，过往的“工具论”显然不合时宜，AI不再是辅助导演完成分镜、帮设计师生成草图的简单机器，一种相互补充与激励的“友伴论”是良好的起点，正如跳跃的提示词，将由AI填补创作的空间。

       又一个值得一提的案例是由商汤科技、上海人工智能实验室参与研发的首个人体动捕大模型SMPLer-X。得益于450万个实例的数据训练，样本视频中人体姿态的多样性、局部动作的复杂性，都能被快速且高质量地识别并提取出来，这意味着CG制作展现出了一种崭新的未来。

       由1937年《白雪公主和七个小矮人》、1941年《铁扇公主》启用转描技术算起，逐帧摹绘、惯性测量、光学动捕等一系列方法都离不开巨大的人力物力，而AI生成式动捕摆脱一切传感器，由摄像头、手机乃至网络视频中直接采集获取动作数据，在大幅削减成本的同时，着实降低了制作人员的工作难度与强度。

       在这样的创作友伴关系中，艺术家们理应受到鼓舞，去尝试过往不曾有过的想象、去攀登过往不曾达到的峰顶。顶尖AI科学家李飞飞宣称AI的胜利不能仅仅是科学的胜利，而必须是人文的胜利，这意味着AI需要成为“遵循优良的学术传统，愿意协作，尊重他人的意见与专业的机器”，这亦为人类文明的操作系统筑起了一道倚重AI革新且可持续发展的防火墙。

       （作者为上海交通大学媒体与传播学院副教授）