| | | 2018年12月08日 星期六
2
要闻

最新人工智能程序“初级折叠”在蛋白质结构预测上远胜人类,科学家不仅没有失落感,反而希望这一技术尽快完善

让更强AI助手早日解放人类双手


    ■本报见习记者 金婉霞

    首席记者 许琦敏

    在日前一场被誉为蛋白质结构领域的“奥林匹克竞赛”上,谷歌旗下  “深思”(DeepMind)公司最新人工智能程序“初级折叠”(AlphaFold)击败所有参赛者——在其预测的43种蛋白质中,有25种蛋白质结构预测结果最为准确,而排名第二的团队只有三种。

    结果一出,引发不少媒体和公众的恐慌:如果人工智能(AI)在生命科学领域都能超越人类,一旦它背离了人类的意愿,我们将遭遇怎样的结局?

    不少科学家在接受记者采访时表示,“初级折叠”所取得的成绩不过是计算机科学和生物科学融合发展中的一个“节点”事件,“目前来看,担忧还为时过早”。相反,他们希望类似“初级折叠”的人工智能尽快完善发展,早日将科学家从蛋白质结构解析的繁重“体力活”中解放出来。

    用计算机预测蛋白质结构,算不上是颠覆

    解析蛋白质的结构,是全球生命科学家所面对的重大科学问题之一。

    蛋白质是由氨基酸构成的生命基本物质,其排列组合与空间结构共同决定了蛋白质的性质与功能。以一个简单的蛋白质来说,它往往包含了数百个氨基酸,其空间结构的可能性更是高达10的300次方个。如果空间结构发生一点错误,就会导致糖尿病、帕金森症和阿尔茨海默病等疾病。

    结构生物学家、上海交通大学医学院精准医学研究院执行院长雷鸣介绍,X射线晶体学、核磁共振、冷冻电镜等实验手段都是科学家解决这一难题的有力武器,其中冷冻电镜技术的新进展还获得了诺贝尔奖的肯定。不过,这些实验手段都有一个致命的缺点——耗时又昂贵。“要解析一个膜蛋白的三维结构往往耗时数年,甚至必须使用国外高质量的同步辐射光源才行。”上海科技大学iHuman研究所赵素文教授说。

    随着计算机技术的发展,科学家们早就开始尝试用算法来辅助处理蛋白质三维结构海量可能性这一难题。雷鸣说,“初级折叠”只是众多算法的一种优化和集成,业界普遍将其看作是一个节点,算不上是颠覆。

    AI想要完全解析蛋白质结构,依然困难重重

    据了解,两年一度的全球蛋白质结构预测竞赛每次都会持续几个月。比赛过程中,组委会每隔几天就向所有参赛选手们提供一个蛋白质的氨基酸序列,参赛选手可用各自的方法进行预测,并在规定时间内上交预测结果。由于这个蛋白质的结构已被科学家们解析,只是尚未发表,组委会只需将选手们的预测结果与实际结构进行比对,就能分出胜负。

    为了精准预测蛋白质结构,谷歌在数千种已知蛋白质结构上反复对“初级折叠”进行算法训练。整个比赛其实只是一场算法“演习”,并不是“实操”。

    在算法优化的过程中,已知的蛋白质结构数据库起到了非常重要的作用。但在蛋白质领域,更需要科学家探究的,却是那些还没有进入数据库的蛋白质分子。

    据了解,蛋白质可分为若干同源家族,来自同一家族的蛋白质长相十分相似。“如果一个家族内部的蛋白序列条数足够多,样本足够丰富,那么AI就越容易从中摸索出规律,用于结构预测;但有些蛋白质家族成员较少,样本不足,AI就难以从中研究出结构规律。”赵素文说,实际生命体中,这样的蛋白质小家族数量其实不少。

    “人工智能的发展需要算力、算法以及数据库的共同提升。人工智能要想进一步提升对于蛋白质结构预测的能力,首先需要科学家们不断探究、扩充数据库。”雷鸣说,在蛋白质结构这一领域,AI只是多提供了一种参考,并不能替代科学家。

    期待更强AI助手,把科学家从“体力活”中解放出来

    眼下,科学家正翘首期盼相关AI算法的升级和迭代。

    “蛋白质结构解析是蛋白质科学研究的基础性工作,科学家们为此耗费了大量时间和精力。”赵素文说,解析蛋白质更像是科研中的“体力活”:首先得让蛋白“稳定”下来,这需要优化蛋白构造,并对蛋白表达、纯化、结晶的条件进行筛选,反复试错,工作量浩大。未来若能有更强的AI助手出现,就能把科学家从这种“体力活”中解放出来,使他们将更多精力用于研究更有意思的科学问题,比如进一步探明蛋白质之间相互作用的机理,新药及新材料等领域设计新的蛋白质等。

    “永远有更复杂的科学问题在等着我们。”赵素文说,这次AI在蛋白质结构解析领域秀了一把  “肌肉”,但技术只是工具,归根结底,只是帮助科学家解决问题的一种手段而已。正如  “深思”联合创始人兼首席执行官戴密斯·哈萨比斯所说:“我们还没有解决蛋白质折叠的问题,预测只是第一步。”

上海报业集团 版权所有