关于神经网络的新进展

发布时间：89年07月28日

Francis Crick 编译郑步全

神经网络系统计算机的一些新规则系统的显著特点似乎有给人们一种理解大脑的计算性能的新方法的可能。不幸的是许多神经网络在重要方面是不现实的。

近来，关于神经网络有了许多进展。一种新的规则系统已经产生相当简单及非常完善的网络。厚厚的、分两卷的《并行分布过程》成了畅销书，心理学家、计算机设计师和物理学家更是手不释卷，甚至在校大学生也在设计新的网络系统 · 受之感染的旁观者感到不解，这一切是怎么回事？什么是神经网络？他们是怎样工作的？关于大脑他们能说些什么？

神经网络由具有真实神经元特点的单元组成，这就意味着各单元有许多输入，其中一些使神经网络兴奋，还有一些使神经网络受抑制，单元通常记录全部输入的总数，如果总数超出限值，它就向轴突发出单个输出，在极其简单的网络之中，输出仅有两种状态（0代表待用状态，1代表运行状态）。其它的网络具有分级输出，其中输出的数量可以不确切地看作代表了神经元的平均抑制速度。在许多情况下，这样的并行网络不以模拟元件组成，而是相当费力地在计算机上模拟。

人人都会同意，要了解大脑必须知道神经元组织是怎样相互作用的，我们肯定许多神经元的突触是易感的，即它们可以通过体验改变其强度。掌握包含在这种由复杂的神经元生物化学引起的变化中的抽象规则也是重要的。于是，网络就具有了它藉以构成的单元性质的特征：联系在一起的方法及改变这些联系强度的规则系统。

记忆

从这些理论模式中我们知道了什么呢？早期的发现表明，记忆可以用与标准数值计算机记忆存储不同的方法进行存储。不必太惊讶，典型的计算机由非常可靠的元件组成，每个元件有相当数量的输入并能输出脉冲信息，每条信息的一部分表明特别记忆可存储的“地址”，另一部分是被存储的信息。

大脑几乎在各方面都是不同的。神经元在毫秒时间范围内缓慢运转，其典型特征是具有数以千计的输入端 · 尽管许多输入端产生作用势或脉冲峰值但它在时间上的分布却不是完全随机的，也没有准确的脉冲信息的明显信号。此外，大脑的这些部分在运转上好像高度并行，神经元的集合——网络是怎样存储记忆的呢？

应该注意到，记忆过程有三个方面：输入网络、长期存储和需要时进行回忆。一般认为，第一和第三方面（输入与回忆）需要神经活动，而长期存储则不然。记忆印刻在网络中众多的联系强度上或在神经元的突触处。大部分神经网络也有这种特点。

在一组单元中形成特殊活动类型的能力是必须存储在网络中的。以某种简单的、局部的规则，对全部神经元突触处的强度作适当调节，网络就可形成一种类型，给出某种线索。这“线索”可以是所希望的类型的任何略小的一部分，只要网络自行反馈极其容易做到，给出输入类型的一部分，经过自我刺激，网络将重新回复整个类型。这种系统被称为“相联存储器”，只要找到该模型的任一部件都能跟踪回复整个模型。适当规模的网络可存储几种类型，如有效地区分，这些类型是不会互相干扰的，这样，随着记忆分布在许多神经元突触处，这个系统也就被分布了。由于神经元突触处可包含在几次记忆之中，系统就重叠了。

具有单一单元层的网络通常是简单的。他们通常是不可管理的，这就是说没有这样的老师去告诉网络如何按所希望的调节它的输出。网络通过采用基于黑贝（Hebb）概念的规则系统获得信息。由于它仅仅根据邻近的特殊神经元突触处的活动，所以只是一种局部的规则系统 · 粗略地说，如果神经元突触处在前突触边接收到一个输入信号并在后突触边接收到一些活动的指示，例如单元激发，它就变强。

反向传播

大脑需要获得的不仅仅是记忆。有用网络的其它类型是提取分类，这就是说，它必须在输入的信号中找出其规律及相互间的关系，并试图以某种方式在行为中使之具体化。这说明无反馈的单屋单元有些限制，即使有一个监督学习过程，在每一灰试验之后单元被告知它应该激发得快一点或慢一点，它也不能被训练得去完成甚至是简单的工作。典型的例子就是唯一的选择（A，或是B，但非A和B都是），如果可用多层网络，这是轻而易举的。不幸的是这又引出一个问题，在全部神经元的突触处，应该调节哪些才能促进行为呢？若神经元突触处位于神经的几个不同层上问题便更加尖锐。

最新的发展主要是出现了能很好地解决这问题的钟规则系统，它的全称为“误差反向传播”，经常被简称作“反传播”，它可用于任意层次，尽管常用的仅三层：输入层、中间层（称为隐藏单元）和输出层，在前两层中的单元直接与上层的全部单元相联系（图1），这里没有反向联系或旁路联系，是一个纯粹简单网络。每个单元形成通常数量的输入并发出分类的输出。

网络的工作如下所述：首先按随机建立联系，然后给它一个特殊的输入，输入引起输出层的活动。老师知道各输入单元的反应该是对应哪个特殊输入的并指示各单元的规模和误差信号，对于理论模式，通常老师是该网络的设计者，在大脑中假定老师为大脑的另外一部分。误差信号用来调整到上层或输出层的联系强度并将这信息反传播到中间层的隐单元中，用此信息调整它们的来自输入单元的轴突神经元突触，这样做的确切方法符合一般常识，但是非数学家通常感到相当难，我不准备在此解释它。

实际上，可以这样说，这些调整等同于梯度下降方法，这意味着，用规则系统对各种经元突触的数量进行微小调整。在此方法中，每次改变减少了网络工作中的总误差，反复使用必然导致最小的总误差。众所周知，这方法有陷入远大于总体最小量的局部最小量的危险。但这在这些网络内很少发生，可能是由于网络包涵了许多单元以及他们的分类反应。此外，总体绝对最小量通常是不需要的，它仅仅是一个充分小的量而已。

网络对话

如此简单的网络的使用所产生的结果是令人惊讶的。一个令人注目的例子就是网络对话，作者是赛基诺斯基（Sejnowski）和罗森贝格（Rosenberg），对话的任务是学习英语发音。将一篇英语课文作为输入（图2），输出给一架能产生说话声音的机器。开始，仅作随机的联系，它咿哑学语。逐渐地，随着训练过程推进、它开始说得容易理解了，最后，用一篇它从未看过的课文测试时，它说出相当不错的英语语言，具有大约90%的准确度（由于发音某种程度上取决于英语课文的上下文，而网络不知道其意义，所以绝达不到100%正确）。如此这般，它学会了英语发音的规则。众所周知，仅从例子看这不是直接的而是以心照不宣的方式，尽管规则已经明确地在程序中具体化了。

网络是怎样做这些的呢？这相对说来是简单的，一旦网络受到训练使之检查在隐藏层中的全体单元的“感受区域”（感受区域也就是单元反映周围环境特征的部分），其结果是非常显著的。因为全部信息必须通过隐层，需要的关于种类的信息分布在这些神经上，但不是以任何随机的方式。隐单元已经理解了英语语言的有区别的外表，比如，元音字母和辅音字母间的区别，以及这些类别的不同的子集合。

进一步的研究表明具有准确的隐单元数是重要的。如果单元太少，网络便不能进行工作，单元过多，虽然网络的工作会好一点，但它不能较好地形成概念、致使在从未训练过的英语课文面前无能为力，和以前一样，它只是一个查询表格。但给出了准确的隐单元数量，它将有效地推断出类别，从而可以成功地使用在同一类别的没有检测过的材料之上。

这不是绝无仅有的例子，其它显著的应用有：从氨基酸的次序推断蛋白质的二级结构，区分海底岩石和说不出的金属物体以及从“Shading”这个字派生出“Shape”这个单词。

最后的例子进一步告诉我们，单元在从Shading得到Shape问题中变得相当像形象化的大脑皮质中的边界或界线的探测器。这提醒我们注意这样的事实，神经感受区域自身不必告知其主要功能是什么，这也取决于神经在什么地方表明它的感受区域的特点。

神经网络与大脑

这一成果引起非常欣快、令人兴奋的感觉是不足为奇的。但这是否就是大脑的所为呢？哎呀！正如一些发明者所承认的，投在布景上的网络几乎在各方面都是不现实的。单个神经的输出规则是经常被违背的，至少在新大脑皮质中显示兴奋的神经元突触处或抑制神经元突触处是这样的，但绝非两者都是。要了解神经元如何实现反传播规则系统是极困难的，从表面值看来，似乎要向后沿轴突快速传送信息，即逆向地从其各个神经元突触处传递信息。这仿佛根本不像在大脑中发生的那样。此外，研究这一课题的理论家距离真正的神经如此遥远。以致在全部忽略一种单元类型上，他们显得过于自信，为了计算误差（在作为后传播的网络里，这些由计算机完成），显然应有一个单元比较来自教师的信号和每一种经的输出。假如存在的话，这样的一组神经应具有新颖的性质并且是值得寻求的。

在大脑中有许多返回路径，但我们还不知道他们中是否有所提议的教师中的一个。注意，为了向各个输出神经分别发出指令信号，一条路径必须承载许多详细的信息。我们确实看见了传播路径 · 但由于一个这样的神经传送许多相同的信号到大脑的许多部位，所以所传送的信息是有限的，当然不足以控制反传播。这当然被用以告诉系统什么值得记忆，按该思路的模式已经提出。

另一个问题是虽然反向传播系统可以推广到具有几个连续的隐藏层，但这是相当麻烦的。对此欣顿（Hinton）提出了一个巧妙的方法就是训练网络使它的输出准确地和它的输入一样，这仍然容许隐藏层推断类别。在这样一个系统中，正确的输出直接从该隐层中取出并为下一组网络提供输入。这容许任何数量的网络堆积在相互的顶端。如果这是以传播信号组成的以表明值得记忆的东西已经发生，它开始有和我们在大脑中看到的不明显的相似。但我们仍然停留在怎样真正进行反向传播这一问题上。明显地，真正需要的是像大脑的规则系统，当反向传播时产生相同的一般性质的结果。尽管在真正的方法中不易作出定量的争论，另一个异议是反向传播系统太慢。无论怎样，现在已提出了能更快工作的建议。

因此，这些神经“模式”中大部分根本不是真实模式，由于他们不能有效紧密地符合真实事物，我已经在其它场合建议将他们叫作“演示”。他们驳斥这一主张，任何神经网络以此方法作用是不可能的。但他们可能不像大脑那样工作。在另外的上下文中，他们可能有理由看成存在的证据，因而他们有了一定的用处，反向传播规则系统可用以生成一组有用的突触数量。这可能不是大脑到达他们的方法——它可以用其它一些更真实的规则系统。但是，在他们的一般性质中，接受这种结果的领域有点像那些大脑已经到达的领域，这可以根据实验检验。

席帕色（Zipser）和安德森（Andersen）的工作是该方法的好例子，在猕猴身上制作一组后体壁神经模型，制作眼前庭反应模型是另一个有希望的情况。在两者中由反向传播产生的隐单元的性质有点像那些在电生理学记录中发现的一样。然而，就学习过程而言，大脑真正使用反向传播未必可能。尽管如此，反向传播已经受到普遍的欢迎。

何以兴奋

好奇是怎样引起的呢？除了一些热心人外，许多理论家不相信这些。例如，孩子们真正用在他们头脑中的单个简单反向传播网络学习说话。那么为什么这模式不仅被认为是有用的而且是令人兴奋的呢？

为了理解这一点，我们必须看一下所包含的各种学科的历史和结构，神经科学家惊讶地发现许多心理学家，特别是语言学家对真正的大脑很少有兴趣，至少对大脑中进行什么不感兴趣。他们感到大脑太复杂而难以理解，而期望制作一个能以易懂的方式做工作的简单模式。但是，这种模型几乎很少能类似大脑的真实表现方式。

另一个应用网络的事实使形势复杂化，这就是高度并行的计算机设计。这与大脑怎样工作没有区别，且正是在这个领域里有了许多进展。当然，最后计算机线路将包含在一些种类的集成电路块中，这本身会带来设计问题#尽管最终需要更多的通用集成电路块，反向传播规则系统可用来为特殊目的集成电路块开发适当的数量。

与此同时，争论也在进行，为什么不开发网络和规则系统以探求哪一种系统更有价值。幸运的是这可能给理论家一些实践中非线性网络如何表现的经验。此经验是否可以有效地运用到大脑模型中还有待观察。

实际上，人们必须认识到这些表面上相似的活动属于基本不同的种类。制造一台机器（如高度并行的计算机）是一个工程问题。工程常是依赖于科学的，但它的目标不同，一个成功的工程能造出有用的机器，另一方面，理解大脑是一个科学问题。我们的大脑是长期演变的产物。我们不是要知道它可能如何工作而是要知悉它确实如何工作。这称为“反向工程”——试图清理其他人已经做了什么——如同已指出的那样。要知道这是在外来技术产品上的反向工程。

何等的技术啊！自然的选择不是完全的设计者 · 正如弗朗西斯 · 雅柯布（F. Jacob）已经指出的那样，演变是个拙劣的修补工，广义地说，它必须建立在以前的状态之上，能以一个简捷的过程，如同DNA复制，并以任何数量的新发明进行渲染使它的工作更好一些。这是机会主义的，因为只要它工作就能干任何事情。当然，它受到物理过程和化学过程的约束，但作用过程不一定含有深奥的一般原理。遗传密码的结构是它的一个范例。

这将我们带到问题的症结上。为什么不看看大脑内部以求得新概念以及检验已有的概念呢？心理学家作出的一般回答是大脑的细节是如此的复杂，以致这种信息不会在死记硬背的人的脑子里产生什么用处。对此明确的回答是：“如果是如此复杂，我们怎么能仅仅通过看它的输入和输出这样一个纯粹的黑箱方法去清理其工作呢？”

通过大脑内部的观察，现在我们十分怀疑，在某些重要的场合下，至少脊椎动物的突触的变更取决于NMDA型谷氨酸盐受体发生作用的情况。这种受体比其它的谷氨酸盐受体在时间上稍慢一点，它仅在收到神经传递介质谷氨酸盐或类似的神经递质才打开。不久前，作为其它输入的结果，局部细胞膜的负电压已经有点比标准静电压变得趋于正电压，当它开放时，放进许多钙离子，试图在突触处变更的复杂过程中成为初始信号之一。如此，就进行联想学习而言是十分相称的。

包含NMDA受体发生作用的情况的模型是最受欢迎的，并且这一工作确实在进行之中 · 由于NMDA受体的强度取决于邻近突触处膜电位改变的活性，使得在突触处之间的多重相互作用成为可能，我们渴求知道在全部类型的神经元上NMDA受体的确切位置以及获得谷氨酸盐的轴突的来由。关于神经元它们的行为及其联系的学习本身不能解决我们的问题，但至少提供了一种寻求解答并且通常可决定性地驳斥错误理论的答案。感谢帕奇西亚 · 求奇兰德、戴维 · 罗沫哈特和特雷赛诺斯基的有益评论，本工作受到凯克海佛基金会和系统发展基金会的资助。

[Nature，1989年1月12日]