作为联邦政府人工智能平台建设的一部分,美国国家实验室被要求扩大其数据集的开放范围以加速科研进程。但是,谁将是真正的受益者呢?

3

近日,美国白宫启动一项国家科研促进计划,拟通过整合国内17家国家实验室的尖端科学数据集与高性能计算资源,构建专用人工智能(AI)模型,以加速国家科研创新进程。

202511月24日,一项行政命令要求美国能源部(DOE)创建一个平台,使学界研究人员和人工智能企业能够利用政府掌握的科学数据构建高性能人工智能模型。该计划被置于全球技术主导权竞争的框架之下,文件中列出了政府部门与多家科技公司的合作关系,包括微软、IBM、OpenAI、谷歌和安索匹克,以及量子计算公司Quantinuum。如此大规模的公私合作伙伴机制,将使企业首次获得利用联邦政府科学数据集的权限,用于人工智能分析。

这一计划被称为“创世纪计划”(Genesis Mission),旨在为研究人员提供训练人工智能模型所需的计算资源和科学数据,从聚变能源到医学等多个领域,在未来十年内将美国科研与创新的生产力和影响力提升一倍。美国总统科学顾问迈克尔 · 克拉齐奥斯(Michael Kratsios)表示,该项目有望“实现医学、能源、材料科学等领域的突破性进展”。项目同时还计划构建人工智能体,即能够调用专业软件和编程工具的通用模型,这些模型能够自主提出科学假设并实现科研流程的自动化。

目前,全球各地的实验室已经在利用科学数据训练人工智能系统,以增强其在科学领域的能力,并尝试借助人工智能模型实现科学发现。然而,一些研究人员仍对通用人工智能工具是否具备真正产生全新洞见的能力持怀疑态度,并警告这些智能体固有的缺陷使其实际价值尚不明确。

美国这一新的倡议在制度层面上确立并扩大了唐纳德 · 特朗普(Donald Trump)政府此前已在推进的人工智能研究工作。田纳西大学诺克斯维尔分校的机器人工程师林恩 · 帕克(Lynne Parker)表示:“它的影响在于,让更多科学家和研究人员能够获得探索国家重大科学问题所需的全部基础设施,这在此前是难以实现的。”帕克曾在特朗普政府及其前任乔 · 拜登(Joe Biden)政府中领导人工智能政策相关工作,但未参与当前项目。

伊利诺伊州阿贡国家实验室的超级计算机很可能将作为“创世纪计划”的一部分投入使用。

在广泛削减联邦科研经费的背景下,特朗普团队仍持续向人工智能项目倾注资金和政策关注。白宫拥有决定能源部国家实验室体系科研方向的权力,但并未公布该人工智能计划的预算规模。任何超出实验室常规预算的额外资金,均须获得美国国会批准。

政府资助的科学家需要承担哪些任务?

该计划的规模极为宏大。能源部需在60天内提出20项潜在的科学与技术挑战清单,这些挑战涵盖核聚变、量子信息科学和关键材料等国家优先领域。该机构还须全面盘点可用的联邦计算资源,识别可用于项目的初始数据资产,并制定安全纳入外部数据集的方案。政府期望在九个月内,针对其中一项研究挑战展示该平台的能力。

这些前期部署很可能会建立在国家实验室现有项目之上。例如,田纳西州的橡树岭国家实验室一直在通过量子计算与经典计算相结合的混合模式推进人工智能研究;加利福尼亚州的劳伦斯伯克利国家实验室则利用人工智能探索加速网络数据传输的方法。

“能源部在科学智能(AI4S)方面已论证了七年多,而这项行政命令相当于发出了正式起跑的信号,”加州大学圣迭戈分校天体物理学家、前圣迭戈超级计算中心主任迈克尔 · 诺曼(Michael Norman)表示,“这确实是一个令人振奋的发展方向。”

企业需要承担哪些任务?

该项目已公布50多家合作企业名单,其中包括多家早已自主研发“人工智能科学家”的机构。例如,总部位于加利福尼亚州旧金山的初创公司“未来之屋”推出了一款商业化的人工智能驱动科研平台。

然而,私营企业在“创世纪计划”中的具体角色仍不明确。特朗普的行政命令仅指出,该项目将与“拥有先进人工智能、数据、计算能力,或具备科学领域专长的外部合作伙伴”展开合作。这类合作可能包括联合研发技术的科研协议,或允许外部研究人员在政府设施内开展工作的用户设施协议。据《纽约时报》(The New York Times)报道,英伟达、超威半导体和慧与科技等芯片和计算机公司已同意在国家实验室建设设施。

部分合作已在推进之中。例如,阿贡国家实验室于2025年10月宣布与英伟达和甲骨文公司合作,建设两套新一代人工智能超级计算系统。至少已有两家国家实验室与总部位于旧金山的OpenAI达成协议,在实验室内部署可处理涉密数据的本地人工智能模型。2025年2月,该公司还与来自美国九家国家实验室的研究人员举办了一场“人工智能即兴研讨会”,使科学家能够在各自专业领域测试应用OpenAI的推理模型。

机遇在哪里?

根据行政命令,“创世纪计划”旨在提供“对适当数据集的安全访问,包括专有数据、联邦整理的数据和开放科学数据集,以及通过能源部计算资源生成的合成数据”。构建一个国家级平台,将原本封闭于国家实验室内部的高价值数据集整合利用,可能会为研究人员带来重大利好。尽管诸如蛋白质折叠模型“AlphaFold”等任务导向型模型是基于开放科学数据构建的,但像OpenAI的“GPT-5”这样的通用人工智能系统,主要依赖于从互联网抓取的数据。

目前尚不清楚这个国家级平台具体将纳入哪些数据集,但潜在候选对象包括橡树岭国家实验室的散裂中子源所采集的信息。该设施收集中子散射数据,用以揭示材料在原子尺度上的行为。实验室计算与计算科学中心副主任乔治亚 · 图拉西(Georgia Tourassi)表示:“从原子尺度测量到百亿亿级模拟,这类数据集能够加速构建可信赖、具备科学能力的人工智能模型。”

此外,获取能源部的计算能力也有望加快科研进程。以阿贡国家实验室的“极光”(Aurora)超级计算机为例,该系统采用图形处理器架构,强大的并行计算能力使其特别适用于需要海量算力支持的人工智能研究。

风险与挑战在哪里?

首先,国会可能不会为能源部拨付足够资金,以支撑其实现雄心勃勃的计划。在“紧迫性和雄心”上,特朗普政府将该项目与曼哈顿计划相提并论,后者是美国政府秘密实施的、耗资数十亿美元并最终制造出首枚核武器的项目。然而,特朗普已提议在2026财年将能源部科学预算削减14%,人工智能相关投入可能需要从其他预算领域调拨资金。

数据安全同样是一个重大问题。特朗普行政命令指出,所有数据的处理都将严格遵循法律、保密级别、隐私及知识产权保护规定。图拉西表示,她预计数据开放将“与我们用户设施和资助项目既有的数据共享政策保持一致”。

此外,如何将分散、异构的数据集整合为一个用户友好的统一平台,也是巨大挑战。负责该项目的能源部科学事务副部长达里奥 · 吉尔(Darío Gil)与斯坦福大学物理学家凯瑟琳 · 莫勒(Kathryn Moler)在《科学》(Science)杂志联合发表社论指出,将“孤立的数据集转化为统一的发现引擎”并非易事。他们指出,近年来一些最成功的大科学项目,如蛋白质数据银行和欧洲核子研究中心(CERN)大型强子对撞机,之所以取得成功,是在于其开源属性和高度结构化的数据,而这在许多大型数据集中并不具备。

帕克表示,她本希望“创世纪计划”能更多阐明如何让更多的美国科学家参与这项研究。就目前而言,最大受益者可能仍是那些已在使用能源部资助平台的研究人员。

此外,该计划是在缺乏全面联邦立法监管人工智能的情况下推进的。2025年1月,特朗普撤销了拜登政府此前发布的旨在确保人工智能安全的行政命令。特朗普政府立场明显偏向产业界,并呼吁对任何实施“繁重人工智能监管”的州暂停联邦人工智能资金支持。

许多研究人员认为,将人工智能应用于科学领域有望造福人类,但如果企业为追求超越人类水平的通用智能而放松安全约束与能力限制,则将带来很多风险。

伦敦非营利组织ControlAI(致力于降低人工智能对人类的威胁)创始人安德烈亚 · 米奥蒂(Andrea Miotti)指出:“如果创世纪计划能够让美国最优秀的科学家运用专门的人工智能推动科学研究,它就是成功的;若其最终沦为私营企业研发威胁国家乃至全球安全的超级人工智能的补贴工具,它就是失败的。”

资料来源 Nature