在《新科学家》杂志记者阿维娃·鲁特金(Aviva Rutkin )对扬·勒坎(Yann LeCun)的采访中,这位Facebook人工智能总监指出:如果电脑学会人类常识,人工智能将给我们的生活带来真正冲击。
扬·勒坎,纽约大学计算机科学教授,Facebook人工智能科学首任总监。他试图构建对图像和文字具有高级理解力的人工神经网络:能理解一张图片或一个故事中有什么内容,是如何构成的,以及下一步可能会发生什么
阿维娃·鲁特金:您正在尝试让基于神经网络的人工智能变得更聪明,面临哪些大的挑战?
扬·勒坎:面临的大挑战是无监督学习(unsupervised learning),即机器仅仅通过观察世界就获得常识的能力,对此我们还没有算法。
阿维娃·鲁特金:为什么人工智能研究人员关注常识和无监督学习?
扬·勒坎:因为这种学习方式是人类和动物最常用的,我们人类的所有学习几乎都是无监督学习。我们通过观察和体验来学习世界是如何运转的,而无需他人告诉我们每个事物的名字。那么,我们如何让机器像动物和人类一样以一种无监督的方式学习呢?
阿维娃·鲁特金:2015年11月,Facebook展示了一个人工智能系统,能回答一幅图中发生什么故事这样的简单问题,这是通过人类提供解释性意见训练的吗?
扬·勒坎:这个系统结合了人类的注释以及人工产生的问题和答案,图中已有所含物体的列表或相关说明。从这些内容中,我们能产生关于图中物体的相关问题和答案,然后训练人工智能系统在提问时使用答案。
阿维娃·鲁特金:是否有某些类型的问题会让您的人工智能系统有所困惑?
扬·勒坎:有,如果你问的是概念性的东西,那么人工智能系统将不能很好回答,因为它受训的是特定类型的问题,比如关于物体的存在与否,或是物体之间的关系,但是它也有很多事情做不了,还不是一个完善的系统。
阿维娃·鲁特金:这个系统能用于自动捕获图片吗?
扬·勒坎:捕获图片使用的是一种稍微不同的方法,但是类似。当然,这个功能对于使用Facebook的视障人士会很有用,或是当你正在开车,某人发给你一张图片,而你不想看手机,这时你就可以问人工智能系统“图片中有什么?”
目前,人工智能系统只能告诉你这张图片是什么类型的,是室外还是室内图片,是否有落日或其他物体。然后,它会列出图片中已有物体的列表,但并非完整的句子,只是一串单词。
阿维娃·鲁特金:您是说人工智能系统并不知道这些物体之间的关系?
扬·勒坎:是的,所以我们正在实验室研究的下一代人工智能系统更像是散文(指能形成连贯语句,而非单纯的词汇列表)。
阿维娃·鲁特金:您预见到神经网络还有哪些其他的潜在用途?
扬·勒坎:在生物学和基因组学领域,可以做很多有趣的研究。比如,加拿大多伦多大学布伦丹?弗雷(Brendan Frey)的研究表明,可以训练深度学习系统模拟生化仪器,读取DNA、合成蛋白质。使用深度学习系统,可以推断出基因组多种变化和特殊疾病之间的关系,这些疾病非单个基因突变所引起,却可能由多种因素所导致。因为有这种有力的工具,医学领域将取得很多进步。
阿维娃·鲁特金:是否存在深度学习和您的图像阐释系统无法解决的问题?
扬·勒坎:确实存在我们目前无法解决的问题,但是谁知道我们将来就不能解决?比如,倘若10年前你问我,“做人脸识别,我应该使用卷积网络(一种人工神经网络)还是深度学习”,我原本可能会回答神经网络做不了人脸识别,但实际上它做得很好。
阿维娃·鲁特金:您那时为什么认为神经网络做不了人脸识别?
扬·勒坎:那时,神经网络的确很擅长识别一般类别的物体,比如小轿车或是椅子,神经网络擅长分离提取“椅子形状”或“小轿车形状”的物体,而不管物体是什么特定类型或处于什么姿势。但是,对于识别某个种类的鸟、狗或是植物、面孔,你需要细粒度识别(fine-grained recognition),因为你可能有成千上万甚至数百万个类别,而不同类别之间的差别是非常细微的。
我本来以为深度学习不是细粒度识别的最好方法,以为有其他方法能做得更好,结果我错了。我低估了我们自己技术的能力,有很多事情我可能认为现在很困难,不过一旦技术获得扩展,将来就能做到。
阿维娃·鲁特金:Facebook最近推出了一款测试,给一台电脑《指环王》中的一段文字,然后提出相关问题让它回答,这是Facebook给机器设计的新智能测试的例子吗?
扬·勒坎:这是以前研究工作的后续,使用了相同的基础技术。这款测试的研究团队提出了机器应该能回答出来的问题。给出一个故事,回答这个故事的相关问题。一些问题只不过是简单的事实。如果我说“阿里拿起他的手机”然后问“阿里的手机在哪里?”人工智能系统应该回答“手机在阿里的手里”。
但是,如果是一个人物到处移动的完整故事呢?我可以问,“那两个人在相同的地方吗?”你得知道物理世界是什么样的才能回答出这些问题。
要回答诸如“现在房间里有几个人?”的问题,你就得记得有几个人进入房间,就需要推理。
阿维娃·鲁特金:我们需要先教会机器常识,才能让它们预测未来吗?
扬·勒坎:不,我们可以同时教。如果我们能训练人工智能系统预测未来,它就能通过预测推断出它看到的这个世界的结构。体现这一点的有一种很酷的神经网络叫做Eyescream,能产生看起来比较自然的图像。你可以让它画一架飞机或是一座教堂,而且对已经训练的事物,它能生成看起来可信的图像。能够生成图像,这是难题的一部分。如果你想预测视频中接下来会发生什么,你就必须先有一个能生成图像的模型。
阿维娃·鲁特金:一个模型能预测什么类型的事物?
扬·勒坎:如果你把一个视频展示给一个人工智能系统,然后问它,“视频的下一帧看起来会是什么样的?”其实这个问题并没有那么复杂。移动物体很可能沿着原来的方向继续移动。但是,如果你问这个视频1秒之后看起来是什么样的,可能会发生很多不能预测的事情。所以,人工智能系统需要经过困难的时间来做出很好的预测。
如果你正在看一部希区柯克的电影,我问你“15分钟后,电影的剧情将会如何发展?”你就必须推断出谁是凶手。要完全解决这个问题就需要深入了解世界和人性,正是这一点很有趣。
阿维娃·鲁特金:5年后,深度学习将会如何改变我们的生活?
扬·勒坎:我们正在探索的一个想法是个人数字管家。在Facebook,我们把该研究称为“M项目”(Project M)。个人数字管家是M项目的长远科幻版,就像科幻电影《她》(Her)描绘的那样。
资料来源 New Scientist
责任编辑 岳 峰