计算机猫眼对认知的启示

发布时间：89年01月28日

Alun Anderson 编译韩伯寅

编者按 计算机猫眼的工作为视觉认知提供了一种模型。这方面工作有启发性。文中提到的视觉神经机制请参考本刊近年视觉生理有关译文。

随着电子计算机的使用变得越来越便宜，理论在神经生物学家中又开始风行起来。持怀疑态度的人可能会说：他们对此已见得多了，这次要是抱太大的希望，免不了又空欢喜一场。然而，看起来新一代的神经网络模型与过去的不同：它们给出了意想之外的结果，而且它们仅从简单原理就衍生出了复杂的现象，这使人们相信它们确有生物学的性质。

近来的这些工作已在1987年11月于美国新奥尔良召开的神经科学学会第十七届年会上报告，在研究用模拟神经系统模仿真实神经细胞分布的工作中，最使人感兴趣的是泰伦斯 · 塞诺斯基（Terence Sejnowski）和西尼 · 莱基（Sidney Lekhy）及戴维 · 齐普泽（David Zipser）和理查德 · 安德森（Richard Anderson）等人的研究成果。后两人的工作表示，他们设计的计算机神经网络模型能创造性地与真实神经生理记录数据结合。

两组研究人员用的都是一种已在计算机学家和物理学家中引起轰动的“三层神经网络模型”。那么，这种神经网络模型是如何工作的呢？它们又能使神经生物学家对脑神经的工作原理有怎样的洞察呢？

由阴影浓淡得到形状

塞诺斯基和莱斯让他们的神经网络模型完成的任务是从物体像的阴影浓淡计算出物体的弯曲程度即形状特点。这个任务对于我们的神经系统来说是极容易的，这就是我们能由画片中物体阴影浓淡的变化得到深度的印象。

在神经网络模型中输出结果和输入信息是事先确定的，但它如何从输入开始进行计算以得到正确的输出是待定的。塞诺斯基和莱斯给此计算过程指定了一个修正格式，通过改变网络中各单元的耦合强度以使各对“输入一输出”数据相吻合，这样就起到了“训练”网络的作用。人们感兴趣的是网络给出的结果及其与生物系统中神经细胞行为的相似点和不同点。

在此神经网络模型中，输入层是环绕中心并存在相互重叠的122个开关单元组成的阵列，这与猫的视网膜和外侧膝状体很相像，此输入层可显出2000种抛物体状的像序列，其中任两个在受到光线照射的方向、弯曲的方向和程度、及表面的中心位置等方面均不同。为了读出某个形状的曲率，需要有24个输出层单元输出的相互关联的结果，其中每个均有不同的曲率和取向。由这些输出结果可指出（物体）形状的主曲率和取向，而与其所处位置及受到光照的方向等因素无关。因此，神经网络模型的实质就是应当在接受一个传感信号后能把它变成一个“特征图”或“脸谱”，这与大脑在很多情况下的工作过程是完全相同的。为使模型能产生人们所预期的行为，需要“教”它。办法是测出所需输出和模型此时实际输出的差别，然后“反馈”给处在输入层和输出层之间的一个由27个单元组成的“隐藏层”（hidden layer），并按一个固定规则（通过差值的大小）改变各单元之间的联接强度。在此神经网络模型中，每层中的各个单元均与其下一层中的所有单元相联接，在“教”模型时，起初，因为联接强度都是随机取值，因此输出结果是毫无意义的；但经过40，000多次尝试后，此神经网络模型就能很精确地分辨各种形状了。

令人惊奇的事就在这儿出现了。塞诺斯基和莱基所研制的神经网络模型经“训练”后，通过类似猫眼的接收器作输入后就能算出物体的曲率。但是，如果运用神经生理学中经典的“直棒和边缘刺激”实验（bar and dge stimuli）对模型中“隐藏层”的接收场进行研究时，可发现它们具有与视觉皮层（visual cortex）极相似的性质。要是在实验中使用各种不同长度、截面大小和取向的棒，就能得到最佳反应。另一方面，若对模型中的输出层作同样的实验，就会发现它们的行为与一类特殊的皮质复合细胞——终端杆状视觉细胞（end-stopped bar cell）相像。

关键之处在于，此模型使得我们对这些细胞的行为可以作出一种与先前不同的解释：它们可能是通过阴影深浅而不是通过找出边棱来推断出物体形状的。终端杆状视觉细胞探测曲率这点已得到证实，但其能否推断出三维形状尚不清楚。因此，这些实验结果表明：我们不仅能用一个简单的学习规则就使神经网络模型产生复杂的作用，还可通过受训系统的分析以得到大脑工作过程的提示——而它们与经典实验所得的推论不一定相同。这样，对老的实验数据可能要作新的解释，也可能启发提出新的实验。

由词得到发音

塞诺斯基利用与上述模型基本相同的分层网络研究了其它种类的输入信号被变到特性图后所产生的结果。塞诺斯基与查尔斯 · 罗森伯格（Charles Rosenberg）合作进行了一项“教”模拟神经系统“说”英语单词的工作。他们给网络输入的是从一本1000字的英语词典上选出的词，希望输出的是英语读音特性。在一个Vax计算机系统上经过24小时的“训练”，此模型归纳出了读音特性并能对初次输入的词正确地发音。

人们观察了进行工作的“隐藏层”的性质，发现特征抽提不是个简单的阶梯过程。人们发现，层中各单元有些常处在灵敏状态（像过滤器一般），有些则很少处在灵敏状态（像特征探测器一般）；有些对许多输入样式均灵敏（如分布网络的部分），有些则只对具有某些特征组合的输入才灵敏（像祖细胞似的）——这些成对性质在单元间的变化都是连续的。看来有些性质特别重要因而只赋入少数单个细胞，其它细胞赋入的则是几个性质组合的信息。可在对词“发音”时，各类单元一起工作。这一“半分布”（semi-distribution）状态能否反映生物体的情况呢？这是个新颖的想法，但要检验其是否正确却不容易。在神经网络模型中，由于容易找出每个单元与其它单元的上下联接处，因此可方便地推测单个单元的功能。但就目前来说，神经生理学实验技术能告诉我们的只是数个细胞的上联接处（进入通道）。

尽管如此，将网络模型与神经生理学优美地结合起来还是可能的，正如齐普泽和安德森的工作所显示的那样。他们想解释的是一个物体在视网膜上像的信息是如何与眼睛所看方向的信息结合起来，从而得到物体相对身体实际位置的信息的，这一信息是想要伸手抓到一样东西的基础。

对猴子的脑损伤实验表明，在猴脑中上述两种信息是在脑后顶叶的7a区域组合起来的。但此区域的神经单元不直接赋入真正的空间位置，而是对（物体像在）视网膜上位置和眼睛所看方向的组合作出反应。在齐普泽和安德森的模型中，输入层由一单元阵列组成，在这些单元上视网膜像信息和眼睛方向信息是分开表示的，但每个单元上的记录与猴脑中的电生理记录是相像的。网络模型受训后，通过输出层就能输出真正的空间位置，而将输出误差通过系统本身回送。

齐普泽和安德森发现，接受训练后的网络模型中隐藏层单元的性质与“7a层”中神经细胞的性质（通过电生理记录得到）是酷似的。也就是说，此模型支持了这样的观点，此观点认为神经细胞不直接赋入空间位置信息，而是以其特有的方式组合视网膜像和眼睛方向的信息，这一步骤是导向直接读出空间位置的一个阶段。

这一结果的重要性在于：神经网络模型也许可用来分析视觉皮层进行的计算。现在所用的神经网络模型有一个显见的令人担忧之处，那就是，在神经细胞中没有与模型中的误差回送过程相对应的明显生物学过程。不过这可能不是个重要问题，因为若在模型中使用其它误差修正格式后，所得最后结果仍可能是大致相同的。

困难之处

神经网络模拟工作看来已开始解决把关于数个神经细胞之集合的功能的理论深化和公式化的问题，但若认为它能迅速，解答所有关于脑工作过程的问题将是错误的。脑的高级功能研究属于另一个领域。语言发音的网络模型是特征图的研究，而不是人脑如何处理语言的模型。

因此，正如P. N. 约翰逊 - 莱雅得（P. N. Johnson-Laird）最近所指出的，网络模型不能把握人类语言学习的所有性质是不足为奇的。对人脑的功能——如推理，思考脑子是如何工作的等等——要由研究“心灵”的心理学家按照心理学规则予以解释。另一方面，神经网络模型本身也将发生演变。目前它没有与实际存在的大量视觉皮神经迥路对应之处，假若在模型中加入这个因素后，或许会或许不会产生新的性质。但即使神经网络模型最终没法说明人脑的行为功能，它也不是没有价值的，因为在此研究方向上还有许多较为简单的问题有待解决。正如塞诺域基所说：“青蛙不会下象棋——但在青蛙身上我们仍有许多不懂的地方。”

[Nature，1987年2月25日］