logoMenu

今年诺贝尔物理学奖为何颁给“AI教父”?一文详解:你不能不知道的AI的物理学起源

2024-10-09 |作者:环球科学 | 来源:环球科学

2024年诺贝尔物理学奖颁发给了约翰·霍普菲尔德 (John Hopfield)与杰弗里·辛顿(Geoffrey Hinton),以表彰他们在人工神经网络机器学习方面的基础性发现和发明。

今年诺贝尔物理学奖为何颁给“AI教父”?一文详解:你不能不知道的AI的物理学起源

2024 年 10 月 8 日北京时间 17 时 45 分许,约翰·J.霍普菲尔德 (John J. Hopfield)和杰弗里·E.欣顿(Geoffrey E. Hinton)因通过神经网络研究对现代机器学习作出的奠基性贡献,获得 2024 年诺贝尔物理学奖。

约翰·J.霍普菲尔德是美国物理学家、神经科学家,普林斯顿大学教授。霍普菲尔德 1933 年出生于美国伊利诺伊州,1958 年获得康奈尔大学博士学位。他在 1982 年发明了著名的霍普菲尔德神经网络(Hopfield neural network),这是第一个能够储存多种模式,并具备记忆功能的神经网络模型,是神经网络发展早期的一座重要的里程碑。霍普菲尔德神经网络的诞生为递归神经网络的发展铺平了道路,其提出的能量最小化原理,对于解决优化问题产生了深远影响。

杰弗里·E.欣顿是英裔加拿大计算机科学家、神经科学家,加拿大多伦多大学教授,前“谷歌大脑”负责人。欣顿 1947 年出生于英国伦敦,1978 年获得爱丁堡大学人工智能博士学位。欣顿是神经网络早期(且一直没有放弃)的重要研究者之一。20 世纪 80 年代,他为将反向传播算法(backpropagation)引入多层神经网络训练做出了重要贡献, 并发明了“玻尔兹曼机”——一种在霍普菲尔德神经网络的基础上发展而来的随机递归神经网络。在 2012 年,欣顿及两位学生 Alex Krizhevsky、Ilya Sutskever 发明的AlexNet在计算机视觉竞赛 ImageNet 中以压倒性优势取得冠军,创造了深度神经网络发展的里程碑,并激发了大量采用卷积神经网络(CNN)和图形处理器(GPU)加速深度学习的研究。欣顿与 Yoshua Bengio 和 Yann LeCun 并称为“深度学习三巨头”、“AI教父” ,共同获得 2018 年图灵奖。2023 年 5 月,在ChatGPT横空出世半年后,欣顿宣布从谷歌辞职,以便能够“自由地谈论人工智能的风险”。他对人工智能的恶意滥用、其引发的技术性失业以及人类的生存风险表达了深切的担忧。

许多人已经体验过计算机翻译语言、解释图像,甚至进行合理对话的能力。然而,不太为人所知的是,这种技术对科学研究更加重要,包括对大量数据的分类和分析。一种名叫人工神经网络(artificial neural network)的结构,推动机器学习在过去十五到二十年间迅猛发展。如今人们谈论的人工智能,一般指的就是这种技术。

尽管计算机不能思考,但机器可以模仿记忆和学习等功能。今年的诺贝尔物理学奖得主为此做出了贡献。他们利用物理学的基本概念和方法,开发出了利用网络结构处理信息的技术。

机器学习系统与传统软件不同。传统软件的工作方式类似食谱:软件接收数据,按照明确的描述进行处理,并生成结果,就像一个人采购食材,并按照食谱加工成蛋糕一样。相反,在机器学习中,计算机通过一个个例子进行学习,使其能够处理那些模糊且复杂到无法通过人类的逐步指令来处理的问题。一个典型的例子就是解读图片,并识别其中的物体。

模仿大脑

人工神经网络利用其全部网络结构来处理信息。起初,研究神经网络的科学家只是想要理解大脑的工作机制。20世纪40年代,研究人员已经开始探索大脑神经元和突触网络背后的数学原理。此外,心理学领域也为这一领域提供了重要线索,神经科学家 Donald Hebb 的假设指出,学习之所以发生,是因为当神经元共同工作时,它们之间的连接得到了加强。

随后,科学家循着这样的想法,通过计算机模拟构建了人工神经网络,从而重现大脑网络的功能。在这些模拟中,节点构成了大脑的神经元,每个节点被赋予不同的值,而突触则由节点之间的连接表示,这些连接可以被加强或削弱。Donald Hebb 的假设至今仍是通过训练来更新人工网络的基本规则之一。

20 世纪 60 年代末,一些令人沮丧的理论结果导致许多研究人员怀疑这些神经网络永远不会真正有用。然而,到了 20 世纪 80 年代,一些重要思想(包括今年两位获奖者的工作)产生的影响,重新点燃了人们对人工神经网络的兴趣。

联想记忆

想象一下,你试图回忆一个相当不寻常且很少使用的词,比如用于描述电影院或者无障碍通道中那种倾斜地面的词汇。你在脑海中搜寻:它有点像斜面(ramp)……或许是滑坡(radial)?不,不是。对了,是斜坡(Rake)!

这种通过搜索相似词来找到正确词汇的过程,让人联想到物理学家约翰·霍普菲尔德(John hopfield)于 1982 年发现的联想记忆模型。霍普菲尔德神经网络能够存储模式,并且可以重现这些模式。当网络接收到一个不完整或稍有失真的模式时,该方法能够找到与之最相近的已存储模式。

霍普菲尔德运用其在物理学领域的背景,探究了分子生物学中的理论问题。有一次,他受邀参加一场关于神经科学的会议,接触到了有关大脑结构的研究。会议内容令他着迷,并让他开始思考简单神经网络的动力学特性。当神经元共同作用时,它们能产生新的、强大的特性,如果你只关注网络中的每一个独立神经元,是很难察觉这些特性的。

1980 年,霍普菲尔德离开了彼时就职的普林斯顿大学,他的研究兴趣已超越了物理学同僚们的研究领域。他接受了加州理工学院(Caltech)在南加州帕萨迪纳的化学与生物学教授职位。在那里,他得以利用学校的计算机资源进行免费实验,并发展他对神经网络的构想。

然而,他并未放弃自己的物理学基础,还从中汲取了灵感,理解了由众多协同工作的小组件构成的系统如何产生新的有趣现象。他尤其受益于具有特殊特性的磁性材料,这些特性源于其原子自旋——一种使每个原子成为微小磁体的性质。相邻原子的自旋会相互影响,这使得自旋方向一致的区域得以形成。他利用描述自旋相互影响时材料特性如何变化的物理学原理,构建了一个包含节点和连接的模式网络。

网络用“地形”保存图像

霍普菲尔德构建的神经网络中,节点与节点之间连接的强度是不同的。每个节点可以存储一个单独的值——在霍普菲尔德的早期工作中,这个值可以是 0 或 1,就像黑白照片中的像素一样。

霍普菲尔德用物理学中的自旋能量来描述这个网络的整体状态。能量是通过一个公式计算的,该公式利用了所有节点的值和它们之间所有连接的强度。霍普菲尔德神经网络通过将图像输入到节点中进行编程,节点被赋予黑色(0)或白色(1)的值。然后,能量公式会调整网络的连接,使得存储的图像能量更低。当另一个模式输入到网络中时,程序会依照特定规则遍历每个节点,看看如果改变该节点的值,网络的能量是否会降低。如果发现将黑色像素变为白色会降低能量,则改变其颜色。这个过程会持续进行,直到能量再也无法降低。当实现这一点时,网络通常已经能重现训练时所用的原始图像。

如果你只存储一种模式,这可能看起来并不那么惊人。你可能会想,为什么不直接保存图像本身,然后与要测试的另一幅图像进行比较呢?但霍普菲尔德的方法之所以特别,是因为它可以同时存储多幅图像,并且经常能通过网络区分它们。

霍普菲尔德将在网络中搜索特定保存状态的过程比作“一个小球在山丘和山谷之间滚来滚去”,滚动的球因摩擦而减慢。如果球从一个特定位置被放下,它将滚入最近的谷底并停在那里。如果给网络输入的模式接近某个已经被存储的模式,它将以同样的方式继续前进,直到到达能量景观中某个谷底,从而找到记忆中最接近的模式。

霍普菲尔德神经网络可以用来重现包含噪声或被部分擦除的数据。图片来源:Johan Jarnestad/The Royal Swedish Academy of Sciences

霍普菲尔德等人继续深入研究了霍普菲尔德神经网络功能的细节,包括可以存储任何值的节点,而不仅仅是0或1。如果你将节点视为图片中的像素,它们可以有不同的颜色,而不仅仅是黑色或白色。改进后的方法使得存储更多图片并区分它们成为可能,即使这些图片非常相似。只要信息是由许多数据点构建的,识别或重构任何信息都是可能的。

十九世纪物理学分类法

记住图像是一回事,但理解一张图像的意思需要再多一点点努力。

即使是年幼的孩子也能自信地分辨出一只动物是狗、猫还是松鼠。起初小孩可能会偶尔出错,但很快他们就可以做到几乎每次都正确。即使没有看到任何关于物种或哺乳动物等概念的图表或解释,小孩也能学会这一点。在接触过每种动物的几个例子后,孩子便会逐渐明晰不同的动物类别。通过观察、体验周围的环境,人们能学会识别猫,或理解一个单词,或进入房间并注意到有些东西发生了变化。

当霍普菲尔德发表关于联想记忆的论文时,杰弗里·欣顿(Geoffrey E. Hinton)正在美国卡内基梅隆大学(Carnegie Mellon University)工作。他曾在英格兰和苏格兰学习实验心理学和人工智能,当时他就思考:机器是否能像人类一样学会处理模式,自行分类和解读信息。欣顿与同事Terrence Sejnowski一起,从霍普菲尔德神经网络出发,结合统计物理学的思想,扩展并构建了新的模型。

统计物理学描述由许多相似元素组成的系统,例如气体中的分子。追踪气体中所有独立分子的行为是非常困难的,甚至可以说是不可能的。但我们可以将所有分子视作一个整体,从而确定气体的总体特性,如压力或温度。气体分子各自以不同的速度在一定体积内扩散,但仍能产生相同的集体特性,这其中有许多潜在的方法。

统计物理学可以分析各个组件能够共同存在的各种状态,并计算它们出现的概率。有些状态比其他状态更有可能发生,这取决于可用能量的多少,19 世纪物理学家路德维希·玻尔兹曼(Ludwig Boltzmann)曾用方程来描述这种行为。而欣顿的网络正是利用了这一方程。1985 年,他以“玻尔兹曼机”这一引人注目的名称发表了这一神经网络。

识别同类新例

玻尔兹曼机通常使用两种不同类型的节点:一种节点接受信息,被称为可见节点;另一种节点构成隐藏层,隐藏节点的值及其连接也会影响整个网络的能量。

这种机器通过逐一更新节点值的规则运行。最终,玻尔兹曼机将进入这样一种状态:节点的模式可以变化,但网络的整体性质保持不变。根据玻尔兹曼方程,每种可能的模式都有由网络能量决定的特定概率。当机器停止运行时,它已生成了一种新模式,这使得玻尔兹曼机成为生成模型的早期实例。

玻尔兹曼机能够学习——不是通过指令,而是通过输入的示例学习。它的训练方式是更新网络连接中的值,使得在训练时输入到可见节点的示例模式,在机器运行时出现的概率最高。如果同一个模式在训练过程中重复出现多次,那这种模式的出现概率会更高。训练还会影响机器输出与训练示例相似的新模式的概率。

经过训练的玻尔兹曼机能够识别它未曾见过的信息中的熟悉特征。想象一下,当你遇到一位朋友的兄弟姐妹,你立刻就能看出他们一定是亲戚。同样地,如果玻尔兹曼机遇到一个属于训练数据集中某一类别的新示例,它就能识别出来,并能将其与不相似的信息区分开来。

在最初的形式下,玻尔兹曼机的效率相当低,寻找解决方案需要很长时间。当它以各种方式发展时,情况变得更有趣了,而欣顿也一直在探索这些发展。后来的版本已经过简化,因为一些单元之间的连接已被移除。结果表明,这可能会使机器更高效。

20 世纪 90 年代,许多研究人员对人工神经网络失去了兴趣,但欣顿是那些继续在该领域工作的人之一。他还帮助开启了新一轮激动人心的成果爆发。2006 年,他与同事 Simon Osindero、Yee Whye Teh 和 Ruslan Salakhutdinov 共同开发了一种方法,通过一系列分层堆叠的玻尔兹曼机来预训练网络。这种预训练为网络中的连接提供了更好的起点,优化了识别图像中元素的训练。

玻尔兹曼机通常被用作更大型网络的一部分。例如,它可以根据观众的喜好来推荐电影或电视剧。

机器学习:当下与未来

约翰·霍普菲尔德和杰弗里·欣顿自 20 世纪 80 年代以来的工作,为 2010 年左右开始的机器学习革命奠定了基础。

我们现在所见证的人工智能盛况得益于能被用于训练网络的海量数据,以及计算能力的巨大提升。如今的人工神经网络通常非常庞大,由多层构成。这些被称为深度神经网络,它们的训练方法被称为深度学习。

快速回顾霍普菲尔德1982 年关于联想记忆的文章,可以让我们对这一情况有所了解。在文章中,他使用了一个包含30个节点的网络。如果所有节点都相互连接,会有435个连接。节点有各自的值,连接有不同的强度,总共有不到500个参数需要跟踪。他还尝试了一个包含100个节点的网络,但对于当时的计算机来说过于复杂。我们可以将其与如今以ChatGPT为代表的大语言模型进行比较,这些模型构建为网络,可以包含超过一万亿(10¹²)个参数。

许多研究人员正在开发机器学习的应用领域。哪些领域最具可行性还有待观察,同时围绕这项技术的发展和使用也引发了广泛的伦理讨论。

由于物理学为机器学习的发展提供了工具,因此反过来,观察物理学作为一个研究领域如何从人工神经网络中受益也很有趣。过去的诺贝尔物理学奖所涉及的领域中,已经充满了机器学习的身影,包括使用机器学习来筛选和处理发现希格斯粒子所需的大量数据。其他应用包括减少测量黑洞碰撞产生的引力波的噪声,或寻找系外行星。

近年来,这项技术也开始应用在计算并预测分子和材料的性质——例如计算决定蛋白质分子功能的结构,或者找出哪种新材料可能具有最佳性能,以用于更高效的太阳能电池。

Fungo Ads

声明:转载此文是出于传递更多信息之目的,并非代表本站支持其观点。若有文字、图片及视频等素材来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。


阅读

未经允许不得转载:加拿大乐活网 »今年诺贝尔物理学奖为何颁给“AI教父”?一文详解:你不能不知道的AI的物理学起源
分享:

相关推荐