谷歌的多任务模型擅长多种技能,很难将其归类到任何一个专门的深度学习系统。
深度学习系统往往在单个技能方面创造奇迹:很擅长受训要完成的任务,而做其他事情则相当糟糕。现在,搜索引擎巨头谷歌公司研发的神经网络则表明,人工智能还是能多才多艺的。
大多数深度学习系统被设计出来都是解决特定问题的,比如识别坦桑尼亚的塞伦盖蒂平原图片中的动物,或是从事不同语种之间的翻译。但是,如果你给某个深度学习系统设计的是图像识别的算法,却重新训练它去完成另一个截然不同的任务,比如识别语音,那么通常它对原本设计的图像识别任务会变得不擅长。
人类不存在这样的问题。我们会利用解决某个问题的知识去完成新的任务,并且当我们开始学习一项新技能时,通常不会忘记如何运用已学会的技能。谷歌研发的神经网络朝着这个方向前进了一小步,它同时学习解决各种不同的问题,而不仅仅是专长于某个领域。
谷歌的大脑团队是深度学习研发团队之一,其研发的神经网络能完成8个任务,包括图像和语音识别、翻译和句子分析。这个深度学习系统被称为“多任务模型(MultiModel)”,由一个中枢神经网络及其周围的多个分网络组成,这些分网络专长于理解音频、图像或文本相关的任务。
尽管MultiModel并没有打破其所尝试的各个任务的纪录,它的成绩却全面地得到一贯的高分。例如,它的图像识别能力准确度达到86%,只比最好的专业算法差9个百分点,能和5年前使用的最好算法相媲美。
MultiModel还显示出了其他优点。深度学习系统通常需要经过大量数据的训练,才能很好地完成一项任务。但是,MultiModel似乎完全绕开了过去的这种训练套路,而是直接从另一个完全不同的任务的相关数据中学习。
比如,谷歌神经网络分析句子语法的能力,在它接受图像数据库的训练时得到了提升,尽管这个图像数据库与句子分析八竿子打不着。
对于神经网络已经积累了大量数据的问题,当它从其他任务中学习时,其表现大致上是相同的。
爱尔兰都柏林数据分析中心的塞巴斯蒂安·路德(Sebastian Ruder)对谷歌的方法印象深刻。如果一个神经网络能运用某个任务的知识去帮助解决另一个截然不同的问题,那么,它将更擅长那些因为缺乏有用数据而很难学会的任务。路德说:“这让我们更接近强人工智能的目标了。”
路德认为,谷歌的这种方法对于制造高端的人工智能机器人同样有用,这种人工智能机器人能在游历世界的过程中学习。世界上充满了无条理的音频、图像和文本,一个从很多不同类型的数据中学习的深度学习系统,可能比高度专业化的机器人更容易理解这些东西。
谷歌发布了MultiModel的代码,作为其开源项目TensorFlow的一部分,为其他工程师提供了体验这一神经网络和进行测试的机会。不过,路德指出,这一神经网络非常复杂,可能令研究者们难以弄明白它是如何习得多任务技能的。
资料来源 New Scientist
责任编辑 田 心