人工智能的运用正在让许多研究领域焕然一新。一个新出现的人工智能工具帮助专家填补残缺的文本,估量古希腊铭文的年代和来源。
人工智能会让许多工作变得自动化,进而消灭某些工作岗位,这种可能性正在稳步推进到越来越多的领域中。现在,这波浪潮甚至拍打到古代世界研究这片僻静海岸上。近期《自然》杂志刊登的一篇论文中,扬尼斯 · 阿萨埃尔(Yannis Assael)等人介绍了一个名叫“伊萨卡”的人工智能工具,它的研发初衷就是将深度学习引入到古典学研究和古希腊抄写文本(这些文本最初是镌刻在石头上)解译工作中来。然而,这项进展不应该被解读为针对数千年的传统铭文研究(铭刻学)的一个威胁,更准确地说,它是铭刻学的一项补充。
对于历史的研究总是基于并不充足的证据,研究的历史离我们越是遥远,证据越是残缺不齐。历史学家经常利用假设来跨越缺口,也常常修正他们的假设。在铭刻学的例子中,上述做法完全属实。铭刻学家不得不基于勤勉的学习和丰富的经验发展各种技巧,填补那些残缺文本中的讹缺之处,再评估材料的年代和出处。迄今为止,这项工作通常都依赖学者群体的丰富经验。这些学者逐步学会识别特定社会的语言惯例和惯常程序(比如批准法令的流程)。伊萨卡工具提供了一种基于计算机处理这些任务的方法,并利用深度学习来复制和改进结果。这类方法能激起我们的真实恐惧——害怕人类的理解可能变得多余,这些害怕心态与其他专门知识领域中感受到的忧虑并无不同。
在人文学科领域,古典学学者一直令人惊讶地领先潮流,积极采用数位工具来呈现和利用研究材料。多个早期资源库——譬如珀耳修斯数字图书馆中丰富的古希腊和拉丁文本收藏——构想于20世纪80年代,在90年代以光盘形式供人获取,在21世纪初转移到互联网上。这些项目的早期诞生意味着,许多项目的设立意图是作为搜索工具。从那时起,互联网一直被用来呈现资料(用其他方式发表的话,花费会昂贵得令人打消主意),譬如开创性的文德兰达木牍线上发表。那些木牍是公元一世纪晚期和二世纪早期驻扎在哈德良长城附近的古罗马士兵和他们家人之间的通信载体。
这种采用数位形式保存文本资源的做法激励并促进了伊萨卡的研发,因为它为人工智能工具提供了一种方便获取的训练数据集。阿萨埃尔和同事们利用的最主要的资源是帕卡德人文研究所的“可搜索古希腊铭文”数据集。该资料库并非随机收藏的文本材料,而是提供了178 551份早已由学者鉴定过的抄写文本,所有可辨认的字词和不可辨识的缺损都得到仔细的描述。另一个可用的工具是牛津大学的《古希腊人名辞典》。伊萨卡利用这些专业资料,并予以扩展,模拟了学者的神经过程。
对这些资源的使用使得伊萨卡学会人名、特定地点与时期的铭文语言中存在的流行模式。论文作者们再用伊萨卡工具来评估一组残缺文本,给出缺失文本复原的建议,同时给出对于文本出处和具体年代的意见。将伊萨卡给出的结论与专业学者相应的鉴定结论进行比较后,论文作者们发现,伊萨卡提供了准确性显著更高和信息更为丰富的结果。
文德兰达木牍上的通信书写在容易腐坏的木片上,很偶然才保存下来。在希腊-罗马世界的区域内,优质的石材容易获得,公共和私人文件常常是刻在石头这种更加结实的材料上。一些石板以相当完整的形式幸存下来,但岁月的流逝已经使得更多石板变成碎片。这些文本的发现和发表起始于19世纪早期,已经让我们对遥远过往的认知焕然一新。这种细致的工作在继续修正我们对古雅典世界的理解。古雅典产生了许多记录,雅典周围的山岭提供了丰富的优质大理石,那些记录能轻易地镌刻在大理石上。
9
结果就是,对于古代世界的研究最初几乎完全聚焦于文学文本,如今已经扩大范围,与广泛的史料打交道,从购物清单到诗文,一应俱全。铭文随时都能给出新信息,阐明古代人的家庭生活、经济或政治情况,并要求我们不断重新评估我们认为自己已掌握的信息。这些具有挑战性的资料也许来自新发掘的考古发现,或者来自运用伊萨卡之类工具对我们以为自己了解的材料进行的重新分析。
伊萨卡发现新信息的潜力清楚可见,它不是要取代鉴定专家的知识,而是给予它“涡轮增压”式的推动。人类的希望和期待很容易歪曲我们的视野,但伊萨卡工具处理任何残缺文本时都不带人类的偏见。它能始终如一地处理不同文本,无论是明显很重要的文本,还是看起来无足轻重的文本。重要的是,对于“缺失处的相应文字可能是什么”的问题,伊萨卡不是提供一个固定的答案,而是提供一组按照可能性高低来排列的答案。伊萨卡项目的宗旨是“将历史学家和深度学习之间的合作潜力最大化”。学者没有被人工智能取代,相反地,伊萨卡的行为像猎犬一样,为学者寻找蛛丝马迹,但不会做出最终决定。
我们使用教学的语言来描述一个人工智能工具的开发。“教”迫使我们分析和解释我们所做的事;这正是我们致力于将技能和累积的知识传授给下一代时所进行的步骤。伊萨卡建立在学术圈提供的训练数据集基础上,并将现有的分析原则予以扩展。面对这样的鉴定工具,与其共事,会得出重要的新知识,但它应该也会帮助学者更好地理解自身的心智历程。人工智能的运用应该不会导致学者冗余,而是挑战学者们对于他们自认为熟知的东西的认识。
资料来源 Nature