■本报记者 许琦敏
在全球科技创新空前活跃的当下,以人工智能(AI)为代表的前沿科技正在重构全球创新版图、重塑全球经济结构。在昨天上海图书馆主办的“2023竞争情报上海论坛”上,多位专家提出要重视高质量数据相关技术的布局与发展,在AI的未来发展之路上,继算法之后的“兵家必争之地”就是以数据清洗为代表的数据处理技术。
从新药研发到核聚变,几乎所有行业都在追赶AI脚步
传统新药研发周期长达10年、投入超过20亿美元,利用自主开发的生成式人工智能平台,成立不过十年的AI制药企业英矽智能只用了短短18个月、260万美元就找到了罕见病特发性肺纤维化的靶点,确定了活性强、毒副作用小的新药候选分子,目前已进入临床Ⅱ期。
这一巨大的反差,仅是AI赋能千行百业的“冰山一角”,这让几乎所有行业都渴望追赶AI的脚步。“对一个3万人规模的企业来说,哪怕用聊天机器人来处理请假这么一件小事,也可使工作效率提升12%。”在广东智用人工智能应用研究院院长管震看来,AI给所有行业,尤其是制造业,带来了“折叠空间”的创新机会。“跨领域融合其实非常难,但现在的AI几乎懂所有学科,而且可以达到研究生水平。”他认为,这就给了所有人一个机会,可以跨过漫长艰难的学习过程,从另一个领域中获取所需。
哪怕核聚变这样的顶尖前沿领域,也对AI寄予厚望。美国物理学会会士、能量奇点聚变能源开发公司联合创始人郭后扬表示,AI的加入可加速核聚变领域的技术突破和商业化进程。一方面,先进磁约束核聚变装置托卡马克反应堆就像一个充满极度灼热气体的大轮胎,AI技术可以预测“爆胎”风险并发出预警,提高装置运行的安全系数;另一方面,AI与先进制造业相结合,可从原子层面设计出超级材料,满足托卡马克反应堆长期运行的需求,无需三五年一次的频繁更换。
99%算力用于洗数据,数据质量成大模型角逐焦点
角逐AI大模型,目前的竞争焦点是算法和算力。上海人工智能实验室领军科学家、香港中文大学交叉学科人工智能研究所所长林达华坦言,构建高质量的语料数据将成为大模型研发中最具有挑战性的环节。
事实上,训练一个大模型极其昂贵,需要巨大而稳定的算力支撑。林达华透露,一个千亿参数大模型训练两个月,系统就因高负荷运算崩溃重启了35次,而99%的算力都用在了预训练上,主要用于数据收集与清洗。“数据质量是大模型竞争的基石,大规模、高质量的数据清洗需要投入大量人力和算力,分门别类进行精细化处理,目前没有捷径可走。”
英矽智能联合首席执行官兼首席科学官任峰对此高度认同,该公司强大的AI制药平台背后的数据库,拥有1000万条组学数据、200万个化合物信息、4000万条文献专利数据,“这些都是我们从公开数据中清洗出来的”。据了解,英矽智能常年保持一支20至40人的数据挖掘团队,每天保持相关数据的更新。
明年,爱思唯尔集团将推出“爱思唯尔的ChatGPT”Scopus AI系统。爱思唯尔大中华区研究分析部主管周鹰鹰透露:“我们的模型是基于爱思唯尔旗下经过同行评议的高质量内容和数据训练的,可以避免‘一本正经胡说八道’的弊病——可能有些提问无法给出反馈,但不会瞎说。”
“公共数据缺乏深度的行业知识,而规模化行业数据的获取渠道又十分稀缺。”林达华认为,这将可能成为未来行业大模型的竞争壁垒。
模型也“刷题”,防范新技术风险需监管体系创新
面对愈演愈烈的大模型竞争,“裁判”必不可少。“目前相对单一、静态的大模型评价手段,无法恰如其分地给大模型打分。”林达华透露,眼下不少大模型采取定向“刷题”的方式,来博取高分评价,从而让不少“高分低能”的“书呆子”模型流入市场,“未来要发展综合、动态、智能的评测方法,才能更好暴露出模型弱点,推动大模型产品整体水平的提升”。
针对大模型的评测,尚处于科技前沿。美国政府与公共转型学院决策科学特聘教授史蒂文·波普尔在报告中表达了对前沿技术应用的担忧。根据他和团队的研究,社会风险最大的往往是那些“旧瓶装新酒”的新技术——看似非常熟悉,实则完全不同,比如无人驾驶技术。
波普尔认为,对于全新技术,人们完全接受会有较长过程,防范心理也较强;而对于那些普通人自以为熟知的创新技术,公众和社会更容易掉以轻心。他表示,更大更完整的数据集的确有助于规避风险,在新旧技术的过渡期,监管机构如何管理和评估风险,也需要及时创新,以保持在新环境中的有效运作。