·

AI并没有学习!Nature子刊最新研究解码人工智能黑盒

发布时间:2024-10-09 22:40:37阅读量:22
普通文章
转载请注明来源

【新智元导读】人工智能模型一直以「黑匣子」的形态让人们感到不安,AI到底从数据中学到了什么?又是如何作出推理?最新研究为你揭秘AI的内部原理

人工智能(AI)一直在迅速发展,但对人类来说,强大的模型却是个「黑匣子」。

我们不了解模型内部的运作原理,不清楚它得出结论的过程。

然而最近,波恩大学(University of Bonn)的化学信息学专家Jürgen Bajorath教授和他的团队取得了重大突破。

他们设计了一种技术,揭示了药物研究中使用的某些人工智能系统的运行机制。

他们的研究结果表明,这些人工智能模型主要依赖于回忆现有数据,而不是学习特定的化学相互作用,来预测药物的有效性。

——也就是说,AI预测纯靠拼凑记忆,机器学习实际上并没有学习!

他们的研究结果最近发表在《自然机器智能》(Nature Machine Intelligence)杂志上。

论文地址:https://www.nature.com/articles/s42256-023-00756-9

在医药领域,研究人员正在狂热地寻找有效的活性物质来对抗疾病——哪种药物分子最有效?

通常,这些有效的分子(化合物)会对接在蛋白质上,蛋白质作为触发特定生理作用链的酶或受体。

在特殊情况下,某些分子还负责阻断体内的不良反应,例如过度的炎症反应。

可能的化合物数量巨大,寻找有效的化合物就像大海捞针一样。

因此,研究人员首先使用AI模型来预测,哪些分子最能与各自的靶蛋白对接并牢固结合。然后在实验研究中,更详细地进一步筛选这些候选药物。

自人工智能发展以来,药物发现研究也越来越多地采用AI相关的技术。

比如图神经网络(GNN),适用于预测某种分子与靶蛋白结合的强度。

图由表示对象的节点和表示节点之间关系的边组成。在蛋白质与配体复合物的图表示中,图的边连接蛋白质或配体节点,表示物质的结构,或者蛋白质和配体之间的相互作用。

GNN模型使用从X射线结构中提取的蛋白质配体相互作用图,来预测配体亲和力。

Jürgen Bajorath教授表示,GNN模型对于我们来说就像一个黑匣子,我们无法得知它如何得出自己的预测。

Jürgen Bajorath教授任职于波恩大学LIMES研究所、波恩-亚琛国际信息技术中心(Bonn-Aachen International Center for Information Technology)和拉玛机器学习与人工智能研究所(Lamarr Institute for Machine Learning and Artificial Intelligence)。

人工智能如何工作?

来自波恩大学化学信息学的研究人员,与罗马Sapienza大学的同事一起,详细分析了图神经网络是否真的学习到了蛋白质与配体的相互作用。

研究人员使用他们专门开发的「EdgeSHAPer」方法分析了总共六种不同的GNN架构。

EdgeSHAPer程序可以判断GNN是否学习了化合物和蛋白质之间最重要的相互作用,或者是通过其他的方式来得出预测。

科学家们使用从蛋白质配体复合物结构中提取的图训练了六个GNN,——化合物的作用方式以及与靶蛋白的结合强度已知。

然后,在其他复合物上测试经过训练的GNN,并使用EdgeSHAPer分析GNN如何产生预测。

「如果GNN按照预期行事,它们需要学习化合物和靶蛋白之间的相互作用,并且通过优先考虑特定的相互作用来给出预测」。

然而,根据研究小组的分析,六个GNN基本上都没有做到这一点。大多数GNN只学会了一些蛋白质与药物的相互作用,主要集中在配体上。

上图展示了在6个GNN中的实验结果,色标条表示用EdgeSHAPer确定的每个预测的前25个边中蛋白质、配体和相互作用所占的平均比例。

我们可以看到,代表绿色的相互作用本该是模型需要学到的,然而在整个实验中所占的比例都不高,而代表配体的橙色条占了最大的比例。

为了预测分子与靶蛋白的结合强度,模型主要「记住」了它们在训练过程中遇到的化学相似分子及其结合数据,而不管靶蛋白如何。这些被记住的化学相似性基本上决定了预测。

这让人想起「聪明的汉斯效应」(Clever Hans effect),——就像那匹看起来会数数的马,实际上是根据同伴面部表情和手势的细微差别,来推断出预期的结果。

这或许意味着,GNN所谓的「学习能力」可能是站不住脚的,模型的预测在很大程度上被高估了,因为可以使用化学知识和更简单的方法进行同等质量的预测。

不过,研究中也发现了另外一个现象:当测试化合物的效力增加时,模型倾向于学习到更多的相互作用。

也许通过修改表征和训练技术,这些GNN还能朝着理想的方向进一步改进。不过,对于可以根据分子图学习物理量的假设,一般来说应该谨慎对待。

「人工智能不是黑魔法。」

评论区

暂无评论,来发布第一条评论吧!

弦圈热门内容

怀尔斯的费马大定理证明

费马大定理的证明可以说是算术几何的一个重要里程碑,当年怀尔斯虽然很小的时候就被该问题所吸引,从而选择做一个数学家。但作为一个这么多年都无人能破解的难题,怀尔斯也是兜兜转转,他也没一开始就打算攻克这个猜想。据说,是代数几何取得突破性进展之后,他才觉得是时候攻克费马大定理了。最后他成功证明了谷山-志村猜想,从而证明了费马大定理。可以说怀尔斯能证明费马大定理,是刚好生在一个合适的时代,并站在了巨人的肩膀上,从前人手中接过火炬。怀尔斯关于费马大定理的证明,就是这篇论文Modular elliptic curves and Fermat’s Last Theorem。该论文非常晦涩难懂,没多少人能看得懂,可以说能彻底看懂费马大定理证明的人,都是圈内大佬。论文中涉及的知识面很广,包括椭圆曲线、模形式、伽罗华表示论、代数数论、类域论、群概形等等,想要理解费马大定理就得先理解前面这些理论。不过虽然我们看不懂,但该证明还是非常具有收藏价值的,看不懂也能看,也能欣赏嘛。并且对于做算术几何的人来说,可以用这篇论文来指导自己的学习和研究。Peter Scholze当年不也一上来就看费尔马大定理的证明,虽然un ...

把加法与乘法结构拆掉再复原?望月新一如何引发代数几何变革

据《朝日新闻》,望月新一关于ABC猜想的论文可能将要发表,审核它的期刊是《数理解析研究所公刊》(PRIMS)。媒体对此的报道大抵聚焦在两点上:一是这个期刊就是他的工作单位主办的,一是这个论文几乎无人能懂。作为一个数学研究者,我个人并不担心望月新一的利益冲突问题,不但因为数学界有一套相当完备的系统用以避免利益冲突,在选定编辑和审稿人时有良好的避嫌标准,更重要的是:他没有动机。他已经功成名就,不需要什么文章。数学这种东西,对就对,错就错,不存在编数据或者实验造假,一切细节都在文章里。要是错了,无论强行发表在什么期刊上,也终有一天会被发现,而一发现就无可抵赖,只能重新修补。但是他的理论绝不仅仅是一个“几乎无人能懂”的怪物而已。它所试图解决的根本数学问题,它背后的当代数学界的面貌,它反映出的做数学研究是怎样的状态,这里面还有太多的故事并不是、也不应该是只有几个人能懂。甚至也许可以说,这些故事能让人直观地感受到:现代数学是什么。破题望月新一的研究领域,是所谓的“远阿贝尔几何学”。如果一句话解释这个领域的话,我只能这样写:有理数的绝对伽罗华群,以至任意代数簇的平展基本群,它们“远离阿贝尔”的部分, ...

Algebraic Topology I: 对教材跟概念的一些论述

关键词:Homotopy, Homology, Groupoid, Foundamental Group, Van Kampen Theorem, Covering Space, Covering Projection, Fibration with unique path lifting, Cofibration.Tammo tom Dieck 在他的代数拓扑教材中写了非常漂亮的前言,在点出代数拓扑精髓的同时还包含一些形而上学的哲思,并且简略地介绍了代数拓扑里面的两个核心词汇,同伦(homotopy) 跟同调 (homology)。我简要地部分翻译如下:代数拓扑是连续数学跟离散数学交相辉映的学科。在连续数学里面,我们用拓扑空间和连续映射这样普遍的形式语言将其公理化。而离散数学则是被我们用来表达代数和组合概念的。在数学语言中,我们用实数来概念化连续形式,但我们建立实数时却是要用到整数。下面举个例子,我们直觉地认为时间是一个连续的没有间断的流动过程,是由一系列不停止的瞬间后继构成的。但在实践中,我们却使用被定义为有周期性的离散模型工具跟自然过程。同样地,我们意识到空间是一个连续体,但我们 ...

评审8年终获发表,数学天才望月新一证明abc猜想,全球只有十几个数学家读懂但争议未消

abc猜想,数学界悬而未决的重要猜想,它的证明过程经过8年的同行评审,终于要在期刊上发表了。论文作者是日本的天才数学家望月新一,他33岁起就在京都大学担任数学教授。这一次望月新一的证明,全篇超过600页,2012年就已发表,但足足经过了8年的同行评审才通过,期间开过多次研讨会——但依然有很多数学家无法理解。据说,这篇论文全球只有十几位数学家深入研究了证明过程。许多数学家根本无法指出证明过程是对是错,因为根本看不懂。4月3日,日本京都大学召开了新闻发布会,宣布望月新一证明了它。包括Nature等在内的权威科学传媒组织,也这一重要进展进行了报道。望月新一没有出席昨天的发布会,他的另外两位同事说,当他知道自己的论文被接收,终于松了一口气。多年来他从未在公众场合露面。但也不是没有争议,因为当初接收论文的期刊——日本的PRIMS,主编正是望月新一本人。如果他的证明是正确的,那么将彻底改变数论。同时也正因为如此,才有了学界长达8年的争论。什么是abc猜想?abc猜想,最初由法国数学家约瑟夫·奥斯特莱和大卫·马瑟,在1985年提出。并且一经提出,abc猜想就成为数论领域的重要猜想之一。只是和哥德巴赫 ...

英语不好,读不懂英文数学教材怎么办?

问题:最近我得到一本英文 GTM1 的 PDF。起初我截图发到微信上,再通过机翻来阅读。后来觉得麻烦,就打印下来。结果它马上给我一个下马威。第三节开头给了一个定义,然后就出现了一个长达三行半的复杂句子,我辛辛苦苦把每个不认识的词都标出来,但是除了开头的「定义 3.1 是不完全的」,后面我就不知道它说的是什么了。而且我发现书里面有很多很多我不认识的词,一个一个查只怕一年也读不完。经常在知乎看到「数学书是所有英文教材里文字最好懂的」这样的评论,大概我的英语水平太差了吧。(我的英语水平:我现在初三,120分的试卷一般考110~112)所以现在我应该怎么办?怎样比较快速地提高英语水平使得我能够看懂数学书。(补充一句:我的数学水平对看书不是很成问题)我的回答:看不懂英文怎么办?那就老老实实遇到不懂的单词,就查一下什么意思,然后拿个笔记本记下来,这样还能方便偶尔复习巩固记忆。每次遇到不懂的单词,就这样操作,时间长了有感觉了,就可以不记笔记了,遇到不懂的查,脑子过一遍,继续看,代入到语境中去理解。你是初三,真巧我看人生中第一本数学英文教材的时候也是初三,当时刚刚中考完,我还依稀记得当时看的教材是泛函 ...

望月新一与他天书般的论文,展现了纯数学与我们的距离

导语:一位日本数学家声称已经解决了数学领域最重要的问题之一。但是,几乎无人能懂他的证明,无从判断对错。2012年8月30日的早晨,望月新一悄悄地在自己的网站上发布了4篇论文,总计长达500多页,密密麻麻地布满了各种符号。它们是作者孤独工作了十多年后的成果,可能会在学术界引起爆炸性的影响。在文中,望月新一声称解决了abc猜想——一个27年来在数论领域一直悬而未决的问题,令所有其他数学家都束手无策。如果望月新一的证明是正确的,它将是本世纪最令人震撼的数学成果之一,或将彻底改变整数方程的研究。David Parkins不过,望月新一本人并未对自己的证明大做文章。他任职于日本京都大学数理解析研究所(RIMS),是一位令人尊敬的数学家。他没有向全世界的同行宣布自己的研究成果,只是将论文发布在网上,等待世界去发现。第一个注意到他的论文的可能是玉川安骑男(Akio Tamagawa)——望月新一在RIMS的同事。和其他研究人员一样,玉川安骑男知道望月新一多年来一直在潜心钻研abc猜想,并且已近成功。当天,玉川安骑男通过电子邮件把这个消息发给了他的合作者之一、诺丁汉大学数论理论家Ivan Fesenk ...