机器中的缪斯女神

发布时间：23年08月28日

编译高地雪

随着生成式人工智能变得越来越具备创造性，这对人类创造力有何影响？

快速进步的人工智能是一种令人印象深刻的工具，它可以提供新的创造方式，但它也是一位有缺陷的新手，可能会误导用户，甚至玷污创造的过程

长久以来，艺术家们总要从各自的“缪斯女神”那里寻求灵感。模特兼演员贝蒂 · 伯伊德（Pattie Boyd）启发乔治 · 哈里森（George Harrison）和埃里克 · 克莱普顿（Eric Clapton）创作了诸多歌曲。王尔德对阿尔弗雷德 · 道格拉斯勋爵（Lord Alfred Douglas）的爱情促使他写就著名的话剧。就连威廉 · 莎士比亚也在《亨利五世》的开场白中恳切地呼唤创作之神伸出援手：“啊！愿光辉的缪斯给我们灵感，一同上升到想象之最光明的天表。”

接下来有请机器入场——计算机能成为灵感女神吗？算法能创造艺术吗？

为了找出答案，艺术家和作家们正在尝试使用机器学习计算机模型，这种模型经过了人类数百年作品的训练，可以根据需要生成自己的作品。从备受瞩目的语言机器人ChatGPT到达力（DALL-E）这样的视觉艺术生成器，尝试的结果表明，如今只需按下按键，人工智能就可以模仿人类的创造力。但果真如此吗？

当研究人员、艺术家和其他人评估这种快速进步的人工智能技术的能力和缺点时，他们看到了一种令人印象深刻的工具，它可以提供新的创造方式，但也是一位有缺陷的新手，它可能会误导用户，甚至玷污创造的过程。虽然有些专家给出了证明计算机创造力的明确事例，但其他人认为，人工智能技术永远无法与人脑相匹敌。马库斯 · 杜 · 索托伊（Marcus du Sautoy）说：“人工智能的创造力更多地向我们展示、说明了我们自身的创造力，而非其他，它是一台用于观察我们迄今为止的庞大创造性成果的望远镜。”杜 · 索托伊是牛津大学的一位数学家，于2019年出版了《创造力代码：人工智能如何学习写作、绘画和思考》（The Creativity Code: How AI Is Learning to Write, Paint and Think）一书。

众所周知，创造力是难以定义的。如果机器并不懂得欣赏文字，只是将它们重新排列，这是否足够？对现有的艺术风格进行建模、模仿、结合，这算是创造新东西吗？当计算机一个音符、一个音符地演示它对音乐之数学根源的掌握，这种音符组合是在哪个时刻从“可以预测”转变为了“悦耳动听”？

这些问题既是哲学的，也是科学的。但是，在算法的快速发展和公众对算法的兴趣驱使之下，数学家、心理学家和人工智能专家正在努力回答这些问题。

创造力的多种风味

对创造力的评估——无论是人类还是机器的创造力——这件事本身就需要一些创造性的横向思维。和该领域的许多人一样，杜 · 索托伊借鉴了计算机科学家玛格丽特 · 博登（Margaret Boden）在1998年首次提出的一个开创性概念，它将创造力分为三种类型。第一种被博登称为组合创造力，意为将熟悉的概念以新颖的方式组合起来。一代又一代的诗人和作家都是用这种方法创作出巧妙的意象或类比，从而声名大噪。想想威廉? · 华兹华斯和他的名句“我似行云独自游”吧。

第二种叫作探索创造力，它是对已有事物的延展拓宽，从而推进此前做过、看过之物的界限。法国画家克劳德 · 莫奈（Claude Monet）利用新型颜料来描绘光线落在睡莲上的视觉效果，推动开启了印象派运动。博登说，几乎所有的人类创造力都是探索性的。

她定义的第三种创造力则更为罕见和神秘。它被称为变革创造力：它打破规则、改变游戏，要求以自己的规矩说了算。谁说眼睛必须画在鼻子的两边？巴勃罗 · 毕加索就不这么觉得。或者，想想1972年，大卫 · 鲍伊（David Bowie）第一次在电视上以雌雄同体的外星摇滚明星身份“Z字星尘”表演《星星侠》（Starman）时的影响。

杜 · 索托伊认为，人工智能已经达成了这三种类型的创造力。“我认为，中道（Midjourney）和达力可以被视为组合创造力的有趣实例——在人类引导下，人工智能拥有将语言和视觉结合起来、创造出惊人事物的力量。”这两个程序均从文本描述——且常常是抽象描述中生成图像。想设计一台割草机吗？这里有1 000张可能的图片，其中一台形状像恐龙，另一台则由水果制成。

他表示，人工智能在探索创造力上也拥有优势，因为它们的训练数据往往隐藏着尚未开发的潜力。一个名为“续音”（The Continuator）的音乐生成器就为爵士乐做到了这一点。它实时分析即兴演奏音乐家演奏的音符，然后以相同的风格继续演奏，在现有的框架内探索新的可能性。

关于人工智能和变革创造力的事例，杜 · 索托伊提到了2016年的一场备受讨论的围棋比赛，由18届世界冠军李世石和DeepMind开发的算法AlphaGo对决。围棋要求两名棋手交替在19×19的棋盘上放置黑色或白色的棋子，双方都要努力围住对手的棋子，从而吃子。几个世纪以来，在布局阶段，围棋大师们倾向于在棋盘的外四路行棋。这种方式可以在短期内获得盘面控制权，同时为稍后战局向中盘移动做准备。但在那局棋的第37手，AlphaGo打破了这种正统观念，把它的棋子放在了第五路。

这听起来可能不算什么大事，但评论员和李世石都惊呆了。就连AlphaGo自己也知道它在做一件不同寻常的事情，它计算出人类玩家下出这手棋的概率为万分之一。事实证明，这是绝妙的一手，大约50步之后，盘面的平衡被打破，机器取得了胜利。“变革创造力是最难的，它是新事物打破旧体系，”杜 · 索托伊表示，“我认为，第37手具备了这种特质，因为它以一种激进的新行动挑战了以往的对弈体系。”

引擎盖下

机器是怎么做到的呢？即使是最富有创造性的算法，（在输出时）也只能使用它们训练时的材料。但这些被称为生成式人工智能的机器分为几种类型，它们以细微不同的方式应用从训练数据中学到的内容。

像ChatGPT这样的语言机器人通常使用一种称为“转换器”的神经网络，它可以在数百万页的在线文本中按照单词的顺序发现、学习统计模式。为了创作出一篇文章、一首诗或是一张幻灯片，它会基于之前出现过的所有单词（这会用到那数以百万计的训练过的文本）来计算出下一个单词应该是什么。

该模型还有一种叫作自注意力的机制，这使它能够挑选出用户请求中最重要的特征。例如，如果有人要求语言模型描述“一辆汽车正沿着街道行驶，这时它被卡车撞到”，那么自注意力机制会帮助算法识别出该请求中的单词“它”指的是汽车，而不是街道。这对人类思维而言是个默认假设，因为“街道被卡车撞到”根本说不通，但人工智能并不知道这一点。

像达力这样的视觉艺术人工智能则倾向于使用不同的技术。被称为潜在扩散模型的系统能够压缩和处理现有图像的数据，从而找到从随机噪声中生成其他图像的数学方法。

杜 · 索托伊表示，在许多其他类型的创造性人工智能中，最成功的那部分被称为生成对抗网络。它们将生成器模型和判别器模型结合在一起，前者基于训练数据集生成作品，后者必须尝试对“假”输出（由生成器生成）和“真”输出（类似训练数据的原始样本）进行区分。

两者相互竞争。当生成器提供与真实样本相似的假样本时，判别器尝试找出人工智能生成的输出。随着时间的推移，生成器就能学会如何使自己的输出更接近原始样本。“算法中的反馈回路意味着算法会在运行和创造过程中不断成长和学习。”杜 · 索托伊说。

但是，杜 · 索托伊强调，尽管人工智能可以做到我们没有检查过或指示过的事情，但无论如何，计算机的创造力只能跟随人类的创造力。他说：“人工智能需要我们的数据才能运转，因此，如果没有我们的创造性输出，它就永远无法真正启动。”

焦虑的艺术家

随着创造性计算机推进到此前高度人性化的领域，它们的新能力和它们未来的能力之所及在部分群体中引发了担忧和争议。2023年早些时候，伦理学家甚至警告称，生成式人工智能存在“令创造过程崩溃”的风险，因为它们让艺术贬值了。

这场辩论有着现实意义和影响。英国最高法院目前正在考虑是否应授予生成式人工智能其发明的知识产权。物理学家和企业家斯蒂芬 · 塞勒（Stephen Thaler）想把他的机器命名为DABUS，并在基于数学分形设计的紧急信标和食品容器的专利申请中将DABUS列为发明者。塞勒提出，作为人工智能的拥有者，他也应当默认拥有这些专利。南非专利局同意了这一观点，于2021年向DABUS授予了一项专利，并指出该专利是“由人工智能自主生成的”。其他包括美国专利局在内的专利授予机构则拒绝了该项专利申请，因为他们要求专利发明者为人类。

与此同时，科学和教育领域的从业者担心，研究人员和学生可能故意隐瞒人工智能的创造性作用。在2022年11月ChatGPT版本的模型发布后不久（现已更新为新版本GPT-4），位于美国伊利诺伊州埃文斯顿的西北大学的研究人员发现，该模型可以虚构出令人信服的科学摘要文本，其中有三分之一足以骗过被要求识别出它们的人类审稿人。

这项研究的领头人、临床医学科学家凯瑟琳 · 高（Catherine Gao）表示，这些虚假摘要之所以令人信服，原因之一在于人工智能知道某个虚构的患者队列应该有多大。在一项关于常见病高血压的虚构研究中，ChatGPT称患者队列多达上万人，而另一项关于猴痘的虚构研究中的虚构参与者则要少得多。

随后，许多科学期刊向潜在作者发出警告，要求他们不要使用大语言模型（LLM）来帮助写作投稿文章。例如，尽管《美国科学院院刊》（PNAS）和《自然》期刊如今要求作者在研究论文的“致谢”或“材料和方法”部分声明是否利用了任何来自人工智能语言模型的帮助，但《科学》期刊更进一步，禁止任何人工智能生成的内容，包括图表在内。《科学》期刊主编霍尔顿 · 索普（Holden Thorp）说，该期刊要求原创成果。索普在2023年1月的一篇社论中写道：“‘原创’一词足以表明，ChatGPT撰写的文本是不可接受的。毕竟，这文本抄袭自ChatGPT。”

英国曼彻斯特大学的动物学家马修 · 科布（Matthew Cobb）想到，当学生在线上考试中碰到阅读理解题时，可能会提交人工智能生成的答案。在产生这种担忧后，他对ChatGPT的能力进行了调查。他要求人工智能就一系列话题给出回答，包括科学与宗教之间的冲突以及鸟类的育儿行为等等。他的担忧在一定程度上得到了证实。他表示，ChatGPT常常会给出及格线水平的答案。话虽如此，科布发现它所使用的语言并未表现出创造性，而是给人一种通用模板文的感觉。

人工外行写手

人工智能能否在正确的提示词帮助下写出优质的创意小说呢？为了找出答案，谷歌的专家们在2022年为13位专业作家提供了使用其大语言模型LaMDA的机会。这些作家包括多次获奖的科幻小说作家刘宇昆（Ken Liu）和2012年畅销小说《24小时神秘书店》（Mr Penumbra's 24-Hour Bookstore）的作者罗宾 · 斯隆（Robin Sloan），他们获准使用人工智能9周，并被要求用它来编写一个故事。

“我们的目标之一就是协助创作过程，”谷歌人工智能部门“谷歌大脑”的高级研究科学家达芙妮 · 伊波利托（Daphne Ippolito）表示，“不是要取代作家，但是写作过程中有一些很劳累、很枯燥或是很艰难的部分，比如说遇到写作瓶颈。我们真的想要尝试解决这些痛点。”

这项研究将创意写作分解为不同的任务，从产生想法、写句子，到查找事实，还有根据特定主题（比如兔子的品种及其魔力特质）给出单词和物品建议。“这几乎就像是身边一直有个陪我做头脑风暴的伙伴，随时可以与之交流想法，”参与这项研究的尼日利亚作家沃勒? · 塔拉比（Wole Talabi）说，“我会输入一两句话，然后让它告诉我接下来会发生什么。即使我完全讨厌它提出的建议，但它让我不断思考不同的选择。所以我从来不会卡住。”

斯里兰卡作家尤达尼亚雅 · 维杰拉特纳（Yudhanjaya Wijeratne）也发现人工智能是一个有用的提示机。“他是一位有时会偏离正轨的合著者，但有时让它稍微偏离一下，收集它的胡言乱语，并从中拼凑出某个故事的一部分，这也让人着迷，”他从中看到了很大的潜力，“我强烈怀疑，通过应用少量提示工程，我们就真的可以用这种方式合写一部完整的小说。”

伊波利托说，尽管有这些积极的方面，大多数作者对算法的创造性感到失望。“他们期望它在生成有趣的风格方面能做到更好。”她说。与其他语言模型一样，谷歌的算法很少能让人惊讶或是产生意想不到的结果。“它们不会真的生成奇怪的文本。如果它们生成了奇怪的文本，那多半是它们出错了，而人类作家所写出的那些奇怪的东西才正是他们作品中的与众不同之处。”如果没有这种人类的特质，由人工智能独自写出的虚构故事往往有着扎眼的低质量。科幻小说和文学杂志已经抱怨他们收到了数百篇一塌糊涂的、由算法编写的故事投稿。

伊波利托说，这个算法的另一个弱点在于它太过友好。其他语言模型在这点上也一样，特别是那些已经公开发布的语言模型。“他们让模型偏向于亲切友善，并且同意人类所说的任何话，但如果我问，‘我的故事好吗？’我不想总是得到肯定的答案。如果我的故事很烂，我希望模型回答我这个故事很烂，并解释它为什么很烂。”

语言模型中其他形式的偏见也会影响创造力。早期版本接受了可从线上获得的（往往不友好的）全范围内容训练，用户可以轻易诱导它发表反犹或种族主义的评论。因此，如今大多数开发者都在积极地训练模型避免一系列话题。这对它们的名声有好处，但对于一个想要接触人性阴暗面的作家来说就不那么有用了。其中一位作者告诉谷歌：“这款软件似乎非常不愿意生成人们做恶事的内容。”

凯瑟琳 · 埃尔金斯（Katherine Elkins）在美国俄亥俄州甘比尔的凯尼恩学院从事人工智能和创造力研究，她表示，这些敏感性意味着，人类经验中的大块区域对大语言模型而言都是禁区。她说：“毒品、性、谋杀、暴力——所有小说家们的好东西都被过滤掉了，所以，我们真的看不到它的能力。”在埃尔金斯看来，人工智能毫无疑问是可以具有创造力的。“我认为更难的问题要在我们谈到艺术时才会显现。”她说。

机器中的幽灵？

埃尔金斯表示，是否将机器产出的创造性作品视为艺术，这个问题超越了对成品自身的评价。它还引出了意向性的问题。她说：“当我看着我的学生们训练成为艺术家时，我认为他们觉得正在创作的艺术是对生活经验的转化，其背后有着创作艺术的意图，显然，达力并没有那种生活经验。”

但果真如此吗？埃尔金斯补充说：“这一切的棘手之处在于，它已经用我们的艺术作品训练过了，而我们的这些艺术作品全都出自这种经验。”

近来，视觉艺术人工智能格外引发争议，因为艺术家发现他们的作品在未经他们知情或同意的情况下被用来训练算法。在线图片通常附有有用的描述和说明，可以帮助人工智能学会将单词和图片相关联，然后根据文本提示生成新图像。一些艺术家对这些机器发起了反击，就图像的使用和复制独特风格的能力提起了版权诉讼。“人类会想要捍卫自己的领地。”埃尔金斯说。但她补充说，视觉艺术人工智能核心的稳定扩散机制可能会使剽窃行为变得难以证明。

想象一下，一滴食用色素或墨水滴入一杯水中，扩散成随机的图案。她说：“唔，在这件事上，我们就像是把过程倒过来，开始时，这杯水里的墨水已经扩散了，所以，没有原作，也没有剽窃。”

一些人工智能图片获奖并卖出了大价钱。在一个如今已臭名昭著的案例中，一位美国科罗拉多州的艺术家向某场艺术比赛提交了一张由中道生成的图片，并赢得了胜利。但有鉴于这些作品的生成方式，许多人工智能专家不愿意将这些模型的输出结果称为“艺术”。“我不认为人工智能具有创造性，或者至少不认为人工智能的运作方式可以与艺术家的创作相比，因为我知道这些模型从内部看起来是什么样子的，”哥本哈根信息技术大学的机器学习研究员伊姆克 · 格拉布（Imke Grabe）说，“它们缺乏对世界运行方式的理解，而我认为这是艺术家工作中的重要部分。”

对于杜 · 索托伊来说，这就是意向性的关键所在，而目前机器中还缺乏意向性。他表示：“我认为，人工智能创造力中将会出现这种意图，但我认为，这将是人工智能诞生伊始的一个标志，一旦人工智能拥有了内心世界，它将会被驱使与其他人分享这一点，这将让它产生动力去证明它的内部正在发生些什么。”

派生设计

否认人工智能具有创造力的常见论点之一是，它们严重依赖于它们接受训练时的数据。但是，正如谷歌大脑的伊波利托指出的那样，作家、艺术家和音乐家一向都是这么做的。“如果你了解一下那些著名的古典作曲家，你会发现，柴可夫斯基从他之前的作曲家那里偷了些内容，巴赫也从他之前的作曲家那里偷了些东西。”她说。可以说，所有类型的创造性作品都是派生的，至少在某种程度上如此。

实际上，即使像莎士比亚这样富有创造力的作家，也经常浇灭他“光辉的缪斯”，从其他作家那里窃取情节和场景。“那么，我们对模型的创造力和借鉴过去的标准是否比对人类的标准更高呢？”伊波利托说。也许这些生成式人工智能算法并没有压制人类的创造力——只是指出了其固有的局限性。

近来，这些争论得到了进一步的关注。GPT-4已于3月份向ChatGPT的订阅者发布，据看过该版本的人说，与免费提供的前一版本相比，它给出了一位更加成熟的作者。美国宾夕法尼亚州匹兹堡大学的英语教授安妮特 · 维（Annette Vee）研究写作与计算的交叉领域，她表示：“它似乎确实具有更长时间的注意力，这意味着它可以保持连贯性并写得更长。而且它有更好的幽默感，这意味着它能更好地处理上下文和文化方面的内容。”

更新后的聊天机器人还有一个有趣的新功能：它可以分析和描述图像，包括解释图像为何有趣。“它可以将视觉输入转换成文本，包括所有这些与幽默有关的文化内容，这实际上是相当令人印象深刻的。”她说。OpenAI公司还没有透露有关新版本的太多细节，但是维说新算法很可能是将图像模型与文本模型合并。

在作家、艺术家和各类研究人员重新思考生成创造性作品的含义之际，这样令人印象深刻的壮举将继续激起他们的惊叹和惊愕。“创造力是个‘移动靶’，人们会很快地接受说，好吧，计算机可以做到这件事，说明这件事跟创造力无关，”美国加利福尼亚州斯坦福大学的计算心理学家迈克尔 · 科津斯基（Michal Kosinski）说，“我们不应该以人类的标准评判一切。”

资料来源 PNAS

脑与人工智能链接 contents

主题

机器中的缪斯女神

“工业4.0”在德国：从概念走向现实

中国制造应走工业2.0、3.0、4.0并行发展的道路

从全球制造业变革看工业4.0的提出

智慧工厂1.0是基于中国制造现实提出的转型理念

德国的“工业4.0”其实就是美国的CPS——访美国NSF智能维护系统产学合作中心主任李杰

“工业4.0”环境下的预测型制造

“工业4.0”时代的工厂

应对工业4.0须注意德国制造的定制化传统——访德国罗兰·贝格管理咨询公司合伙人夷萍

以人类的面孔

来了！第二个机器时代

工业4.0时代：中国的机会在于数据和数据分析

全球首个“工业4.0”演示系统问世