Facebook人造大脑背后的人

发布时间：16年07月14日

编译蔡立英

在《新科学家》杂志记者阿维娃·鲁特金（Aviva Rutkin ）对扬·勒坎（Yann LeCun）的采访中，这位Facebook人工智能总监指出：如果电脑学会人类常识，人工智能将给我们的生活带来真正冲击。

扬·勒坎，纽约大学计算机科学教授，Facebook人工智能科学首任总监。他试图构建对图像和文字具有高级理解力的人工神经网络：能理解一张图片或一个故事中有什么内容，是如何构成的，以及下一步可能会发生什么

　　阿维娃·鲁特金：您正在尝试让基于神经网络的人工智能变得更聪明，面临哪些大的挑战？

　　扬·勒坎：面临的大挑战是无监督学习（unsupervised learning），即机器仅仅通过观察世界就获得常识的能力，对此我们还没有算法。

　　阿维娃·鲁特金：为什么人工智能研究人员关注常识和无监督学习？

　　扬·勒坎：因为这种学习方式是人类和动物最常用的，我们人类的所有学习几乎都是无监督学习。我们通过观察和体验来学习世界是如何运转的，而无需他人告诉我们每个事物的名字。那么，我们如何让机器像动物和人类一样以一种无监督的方式学习呢？

　　阿维娃·鲁特金：2015年11月，Facebook展示了一个人工智能系统，能回答一幅图中发生什么故事这样的简单问题，这是通过人类提供解释性意见训练的吗？

　　扬·勒坎：这个系统结合了人类的注释以及人工产生的问题和答案，图中已有所含物体的列表或相关说明。从这些内容中，我们能产生关于图中物体的相关问题和答案，然后训练人工智能系统在提问时使用答案。

　　阿维娃·鲁特金：是否有某些类型的问题会让您的人工智能系统有所困惑？

　　扬·勒坎：有，如果你问的是概念性的东西，那么人工智能系统将不能很好回答，因为它受训的是特定类型的问题，比如关于物体的存在与否，或是物体之间的关系，但是它也有很多事情做不了，还不是一个完善的系统。

　　阿维娃·鲁特金：这个系统能用于自动捕获图片吗？

　　扬·勒坎：捕获图片使用的是一种稍微不同的方法，但是类似。当然，这个功能对于使用Facebook的视障人士会很有用，或是当你正在开车，某人发给你一张图片，而你不想看手机，这时你就可以问人工智能系统“图片中有什么？”

　　目前，人工智能系统只能告诉你这张图片是什么类型的，是室外还是室内图片，是否有落日或其他物体。然后，它会列出图片中已有物体的列表，但并非完整的句子，只是一串单词。

　　阿维娃·鲁特金：您是说人工智能系统并不知道这些物体之间的关系？

　　扬·勒坎：是的，所以我们正在实验室研究的下一代人工智能系统更像是散文（指能形成连贯语句，而非单纯的词汇列表）。

　　阿维娃·鲁特金：您预见到神经网络还有哪些其他的潜在用途？

　　扬·勒坎：在生物学和基因组学领域，可以做很多有趣的研究。比如，加拿大多伦多大学布伦丹?弗雷（Brendan Frey）的研究表明，可以训练深度学习系统模拟生化仪器，读取DNA、合成蛋白质。使用深度学习系统，可以推断出基因组多种变化和特殊疾病之间的关系，这些疾病非单个基因突变所引起，却可能由多种因素所导致。因为有这种有力的工具，医学领域将取得很多进步。

　　阿维娃·鲁特金：是否存在深度学习和您的图像阐释系统无法解决的问题？

　　扬·勒坎：确实存在我们目前无法解决的问题，但是谁知道我们将来就不能解决？比如，倘若10年前你问我，“做人脸识别，我应该使用卷积网络（一种人工神经网络）还是深度学习”，我原本可能会回答神经网络做不了人脸识别，但实际上它做得很好。

　　阿维娃·鲁特金：您那时为什么认为神经网络做不了人脸识别？

　　扬·勒坎：那时，神经网络的确很擅长识别一般类别的物体，比如小轿车或是椅子，神经网络擅长分离提取“椅子形状”或“小轿车形状”的物体，而不管物体是什么特定类型或处于什么姿势。但是，对于识别某个种类的鸟、狗或是植物、面孔，你需要细粒度识别（fine-grained recognition），因为你可能有成千上万甚至数百万个类别，而不同类别之间的差别是非常细微的。

　　我本来以为深度学习不是细粒度识别的最好方法，以为有其他方法能做得更好，结果我错了。我低估了我们自己技术的能力，有很多事情我可能认为现在很困难，不过一旦技术获得扩展，将来就能做到。

　　阿维娃·鲁特金：Facebook最近推出了一款测试，给一台电脑《指环王》中的一段文字，然后提出相关问题让它回答，这是Facebook给机器设计的新智能测试的例子吗？

　　扬·勒坎：这是以前研究工作的后续，使用了相同的基础技术。这款测试的研究团队提出了机器应该能回答出来的问题。给出一个故事，回答这个故事的相关问题。一些问题只不过是简单的事实。如果我说“阿里拿起他的手机”然后问“阿里的手机在哪里？”人工智能系统应该回答“手机在阿里的手里”。

　　但是，如果是一个人物到处移动的完整故事呢？我可以问，“那两个人在相同的地方吗？”你得知道物理世界是什么样的才能回答出这些问题。

　　要回答诸如“现在房间里有几个人？”的问题，你就得记得有几个人进入房间，就需要推理。

　　阿维娃·鲁特金：我们需要先教会机器常识，才能让它们预测未来吗？

　　扬·勒坎：不，我们可以同时教。如果我们能训练人工智能系统预测未来，它就能通过预测推断出它看到的这个世界的结构。体现这一点的有一种很酷的神经网络叫做Eyescream，能产生看起来比较自然的图像。你可以让它画一架飞机或是一座教堂，而且对已经训练的事物，它能生成看起来可信的图像。能够生成图像，这是难题的一部分。如果你想预测视频中接下来会发生什么，你就必须先有一个能生成图像的模型。

　　阿维娃·鲁特金：一个模型能预测什么类型的事物？

　　扬·勒坎：如果你把一个视频展示给一个人工智能系统，然后问它，“视频的下一帧看起来会是什么样的？”其实这个问题并没有那么复杂。移动物体很可能沿着原来的方向继续移动。但是，如果你问这个视频1秒之后看起来是什么样的，可能会发生很多不能预测的事情。所以，人工智能系统需要经过困难的时间来做出很好的预测。

　　如果你正在看一部希区柯克的电影，我问你“15分钟后，电影的剧情将会如何发展？”你就必须推断出谁是凶手。要完全解决这个问题就需要深入了解世界和人性，正是这一点很有趣。

　　阿维娃·鲁特金：5年后，深度学习将会如何改变我们的生活？

　　扬·勒坎：我们正在探索的一个想法是个人数字管家。在Facebook，我们把该研究称为“M项目”（Project M）。个人数字管家是M项目的长远科幻版，就像科幻电影《她》（Her）描绘的那样。

资料来源 New Scientist

责任编辑岳峰