莫尔（D. Marr）的视觉计算理论

发布时间：84年09月28日

T. Poggio* 编译姚国正

在最近七年内，一种新的计算方法使我们对视知觉问题的理解有了可喜的进展。这个方法的基础、整个理论框架及第一批研究成果，大都是麻省理工学院的莫尔（D. Marr）教授一人的建树。

本文将给出Marr的理论方法的主要轮廓，因为这个方法对神经科学的发展可能是极其重要的。然后再来回顾与视觉信息早期处理有关的一部分理论。

一、计算方法

Marr方法论的要旨在于认为视觉是一种复杂的信息处理任务，其目的是要把握对我们有用的外部世界的各种情况，并把它们表达出来。这种任务的特点是视觉信息处理必须在若干不同的水平上来加以理解，各个水平基本上是独立的。这一见解是由处理信息的机器引发出来的。事实上，机器所处理的信息很少受机器的物理性质的限制。随着计算机日益普及，这个启发就变得越来越明白。在用计算机工作的人看来，有些事情几乎是理所当然的。例如，机器和它所完成的任务在某些方面是分开为了完整地描述计算机系统的功能，所作的计算扣借以完成计算的硬件必须用它们各自的术语来描述。计算用高级程序语言之所以特别重要，就是因为它直接反映了这种情况。

上述观点对神经系统所进行的信息处理也是正确的；这正是Marr的远见卓识。把视觉信息处理划分成三个不同的水平来描述是有用的。它们是：（1）计算理论，（2）算法，（3）机制（见表1）。这种划分并不是很严格的，但重要之点在于：如果不符合上述分类，则没有一个描述是完善的。

在今后若干年内我们将会清楚地看到：计算机技术和神经科学的迅猛发展将如何确立一门新的信息处理科学；而Marr的视觉计算理论则很可能开该学科的先河，我还要强调指出：计算方法并不能代替神经科学的“传统”方法和技术，它们将互相补充，相得益彰。大多数生理学家和心理学家，常常采用关于系统的目的及为什么它是这样的这种偏见来处理知觉中的特殊问题。有少数人是例外，然而仍然抱有偏见：信息不完全明确，与其他水平上的描述不作严格的区分，经常被一些无关的细节搞得茫无头绪，他们对知觉问题的处理从来就是不严密的。在分析这一水平上，方法和技术迄今还没有被有效地利用起来。

视觉信息处理的难度至今仍常常不为人们所正视。其原因当然是我们的视觉系统工作得极好，而有些东西又难以缜密地内省出来。在这种情况下，正是Marr独具慧眼，看出了关键所在。视觉信息处理必须分析给定的信息处理任务，而其基础则是客观的物质世界。用公式来表示计算理论的关键性的一个步骤，就是要找出视觉世界的特性，给计算问题加上约束条件，使它含义明确，能够获解。Marr及其同事提供了许多这样的实例，即如果不把视觉世界的一般性质变成计算的精密假设，问题就确定不下来。这里，高级水平的特殊的先验性的知识是不需要的，有用的仅仅是物理世界的一般性质。这种一般性知识的一个例子就是客观世界主要由不变形的固态物体构成，每个物体在空间上和时间上只能占据一个给定的点。这种方法是强有力的，它使视觉信息科学得以发展壮大，其结果将具有永恒的性质，就像物理学的结果一样。因为它们是在现实世界的物理学和图像的公式化的基本定律的基础上建立起来的。莫尔的工作——从计算方法的要旨到分析具体问题的严密细节一为这一新的领域提供了方法论基础。

二、关于人的视觉功能块分析

莫尔从信息处理的观点出发，已能用公式把视觉处理的整个理论框架表达出来。他提供了一个向视觉问题发起新进击的适当策略。这个框架主要由视觉处理所建立、保持并予以解释的可见世界的三级表象结构组成。这就是：

（1）基元图（The primal sketch）由于图像的密度变化可能与物体边界这类具体的物理性质有关，因此它主要描述图像的光密度变化及其局部的几何性质。

（2）2.5维图（21/2 idimensional sketch）——以观察者为中心，描述可见表面的方位、轮廓、深度及其他性质。

（3）3维模型（3-D Model）表象——以物体为中心，用来处理和识别三维物体的三维形状表象。

根据莫尔的观点，各种不同的处理凑在一起产生各级表象，它们在表象中有效地结合起来。其中一些处理见表20把视觉处理看成是一组相对独立的功能块，这一思想特别有力，特别重要。它不但有计算的、进化论的、认识论的论据支持，而且更重要的是某些视觉功能块已经用实验方法分离了出来。Julesz对双眼立体视觉所做的论证就是一个适例。没有任何高级水平上的单眼线索，只要有视差，立体感就能产生出来。如果人的视觉处理确实是功能块式的，那么在图像中被编码的各种不同类型的信息就能用一些独立的处理来解码，其精密度至少是一级近似的。这些处理必须全部鉴别出来，相应的计算理论然后才能得以发展。

但是无论哪一个功能块，全部上述三个水平上的分析迄今还没有完成。当然，取得这样一个成就将是莫尔理论的重大进展，这很可能是我们今后若干年内工作的方向。下面，我将对视觉信息处理第一阶段的一部分内容即提取轮廓作一简要论述。由于轮廓提取所处层次极低、它可能与神经生理学和心理学论据有更直接的联系，因此可望首先获得解决。莫尔早先提出的一些基本概念，现在在计算这一级水平上已成为一种几乎是尽善尽美的理论。

三、密度变化的检测

视觉处理第一阶段的目标，是检测观察者周围的物体表面的反射率变化，或检测观察者和表面之间的距离与方位变化。在分析各种问题的基础上终于搞清楚，图像密度剧烈变化的部分原来就是表面的物理变化的最好标记。在自然图像中，密度变化的空间尺度可能而且确实是很宽的，因此要对它作最佳检测，就得采用几个大小不同的算子（即滤波器）。密度的突变（例如一条边）和图像一阶导数的极值或二阶导数的零值（以后把它叫做零交叉）相对应。莫尔和希尔德施（Hildreth）认为：期望的滤波器应能以一定的空间分辨率对图像作二阶导数运算，而用高斯分布函数把图像变模糊就能做到这一点。这种滤波器的空间结构和中心——周边型感受野，即视网膜神经节细胞或人的视觉心理物理通道的感受野是一致的，它通常由两个高斯函数之差组成，其中一个兴奋，另一个抑制。具有中心——周边型感受野结构的空间滤波器是一个带通滤波器，虽然其通频带不是很窄，但实际上它只对空间频率中某一频段才有最佳反应。概括地说，对于某给定的分辨率，密度变化可由下述处理得出，这就是：用中心——周边型感受野对图像滤波，然后找出经滤波处理的图像的零交叉位置；滤波器的大小则表示它能检测的密度变化的空间尺度。要把所有空间尺度上的密度变化都检测出来，就得附加几个不同大小的通道，并对各通道作同样的计算，大的滤波器用来检测模糊边，小的则用来检测图像的细节。然后把各通道内的零交叉合并成一组对后级处理（如体视）有用的离散符号。应当特别指出，莫尔和希尔德施阐明了如何利用视觉世界所必须遵循的物理约束条件把来自不同通道的零交叉结合成“边”基元这个问题。基元边和其他一些基元符号（如线、斑点、线段的终端等）构成莫尔称之为原始基元图的密度表象。

由若干中心——周边型通道得出的零交叉乃是从原始的连续密度值获得图像的离散符号表象的一种自然形式。复分析的一些最新成果看来在某种程度上是支持这一点的；从我偶然发现洛根（B. Logan）的著名论文起，我就被它迷住了。洛根的主要定理说：在某些情况下，一个带宽小于1倍频程的一维带通信号能单独由其零交叉完全复原。从视觉信息处理的观点来看，重建原始信号显然是不可能的。但该定理表示，由零交叉得出的离散符号含有原始图像的极为丰富的信息。遗憾的是，到目前为止还不可能提出更明确的主张，因为把定理推广到图像的情况并不很妙，它并不能完全刻画二维问题。此外，中心——周边型感受野也不是洛根定理所需要的理想的带通滤波器。显然，单单零交叉并不包括原始图像的全部信息，但正如尼西赫拉（K. Nishihara）从实际的经验性研究中所发现的那样，用算子作滤波处理的原始图像是可以用其零交叉和斜率充分近似地恢复出来的。因此，成功地把洛根的典型分析推广到二维模式，这也许是把低层次的视觉计算分析变成坚实理论的一个关键步骤。

四、线检测器和傅立叶分析之争：一种新的综合性理解

由洛根定理引出的概念不仅得出了一种令人满意的图像密度变化分析方案，而且对视觉心理物理学和生理学也具有令人神往的含义，因为看来它们阐明了视觉通路第一级的一些基本性质。特别是这些概念说明了为什么最初对图像要用中心——周边型感受野作滤波处理。它们为“边”检测器提取图像全部基元符号这一见解提供了理论基础，并指明只有用几个独立的带通滤波器即中心——周边型感受野先行滤波处理才能做到这一点。这些概念还使灵长类动物视觉心理物理学和生理学中关于边检测器和空间频率通道之间的长期争论得以解决。实际上，视觉的第一阶段在很大程度上是由“边”检测器（其实是零交叉检测器）而不是由傅立叶分析完成的；但零交叉检测器要提取有意义的信息，它们就必须对若干独立通道的输出进行运算，其中每一个通道只对某一特殊的空间频段具有选择性。

许多早期视觉处理的心理物理学家和生理学结果用这个新框架来解释或许是容易理解的。例如，二阶导数滤波运算是由视网膜神经节细胞和外侧膝状体核完成的，视皮层中有一类简单细胞可能是检测有向零交叉线段的，这样一些设想绝不是没有道理的。以此而论，理解究竟如何完成上述运算的细节就并不那么重要。莫尔提出的另一个见解是：简单细胞可能从横纹区4C层小细胞的精细的网格结构中辨认出零交叉的外形轮廓，以各种不同的分辨率重建经滤波处理的图像可能就在这里完成，从而把零交叉的空间位置精确地确定下来。

在零交叉计算理论中还有一些空白需要填补。例如，由于零交叉并不表示图像的全部信息，因此搞清楚其他有用基元的，特性是很重要的。在其它视觉水平上，当然希望得到有利于或不利于零交叉的实验证据。我深感零交叉实验的成败对莫尔方法的进一步发展具有特别重要的意义。

五、是现代格式塔吗？

这一方法的重要特征可以表达为：它力图使人的视觉信息处理研究变得严密。一门与视觉计算分析有关的新学科可能在莫尔所奠定的基础上充分地发展起来。由计算机技术的突飞猛进所培育出来的这一门新学科，一方面将深深植根于经典的神经科学之中，另一方面它将是神经科学的一个必不可少的补充。要断定莫尔别具一格的理论实际上是否正确，它到底能走多远，与神经科学究竟有什么直接的联系，显然还为时尚早。但在我看来、莫尔的宝贵贡献远比这些要多。他已向我们展示出一个几乎是全新的智能图景。如他所说：谁要发展他的理论，更上一层楼，谁就要有锐意创新的探索精神，激昂的情绪和浓厚的兴趣。

[Trends in Neuroscience，1981年第4卷第10期]

________________

* Poggio教授是D. Marr教授的主要合作者之一。