数据规模进一步扩大,科学教育需要反映这种变化。

13

传统来说,许多物理学家将自己分作两个相互斗争的阵营:理论物理学家和实验物理学家。阿尔伯特·爱因斯坦建立广义相对论,而亚瑟·爱丁顿(Arthur Eddington)观测到广义相对论“弯曲”星光;默里·盖尔曼(Murray Gell-Mann)和乔治·茨威格(George Zweig)构思出夸克概念,而亨利·肯德尔(Henry Kendall)、理查德·泰勒(Richard Taylor)、杰尔姆·弗里德曼(Jerome Freidman)及他们的团队探测到夸克。

在粒子物理学中,这种分歧尤其明显。想一想希格斯玻色子,1964年被人提出,到2012年被人发现。从那时起,物理学家一直试图彻底检查希格斯玻色子的性质,但理论物理学家和实验物理学家不直接分享希格斯玻色子的数据,他们花费许多年的时间来争论该分享什么,该如何安排。(现在有了一些共识,但进展举步维艰。)

然而,这个二元对立的局面中有一位失踪的玩家。到底是谁在促进理论和实验之间的数据流动?

传统上,实验物理学家担当这个角色,他们运行机器,审视数据,但在高能物理学和许多其他子领域,数据量实在太过庞大,使得这个过程完全不可行。研究者不能光用眼睛看一下加速器中发生的若干事件就得出结论。譬如,在大型强子对撞机中,每秒发生大约10亿次粒子对撞,传感器侦测和处理这些事件,再存储在大型计算系统中。而且不只是数量惊人,这些数据全都极其复杂,用计算机模拟更是难上加难。

换言之,这些实验产生海量数据,超出任何人用传统工具可能分析的程度。而且那些工具无论怎么看都不算完美,需要研究者把许多复杂事件归结成若干属性,比如某个给定能量下的光子数。许多科学真相就这样被遗漏了。

作为对于这个难题的回应,在高能物理学和其他子领域(比如核物理学和天体物理学)中出现一种壮大的态势,试图分析复杂的完整数据,让数据为自身说话。这个领域的专家使用前沿的数据科学工具来决定保留哪些数据,舍弃哪些数据,并从中发现模式。

特别地,机器学习已经使得科学家能完成他们以前无法做到的事。譬如,在搜寻新粒子(比如那些可能组成暗物质的粒子)时,物理学家不是寻找不可能的单个事件,相反地,他们寻找那些发生频率比原本情况更高的事件。这是个困难得多的任务,需要庞大规模下的数据分析能力,而机器学习已经给予物理学家优势。

如今,那些管理粒子加速器控制室的实验物理学家极少是机器学习工具的开发者。前一类人当然是专家,毕竟,对撞机由他们负责运行。但是,在这些大规模的项目中,没人能负责全部工作,大家还是各有所长,专精于某一方面。在粒子加速器运行之后,数据专家就进场了。

数据专家不是传统意义上的理论物理学家,也不是传统的实验物理学家(虽然许多人自认为是理论物理学家或实验物理学家)。但他们早已出现,横跨不同阵营和领域,给物理学提供无价的东西。

目前,这一群杂凑的人没有明确的名字。他们是数据科学家、专攻某一领域的物理学家或统计学家,他们习惯性地跨越多学科。我们是时候认识到,这群人是独一无二的,有着一套工作方式、训练体制和技能。(值得注意的是,数据物理学与计算物理学互不相关。在计算物理学中,科学家运用计算来应对资源限制;在数据物理学中,科学家对付数据随机性,使得统计学——你可以称之为“物理统计学”——成为方程式中一个更加重要的部分。)

正名给予影响力和正统性,也会影响未来的物理学家受到教育和资助的方式。许多学术领域努力获得这种认可,譬如生物物理学,它在数十年里遭受冷落,一直因为两个科学分支不太可能结合而尴尬地存在。如今,它已是一个羽翼齐全、充满活力的分支领域。

现在是数据专家们大显身手的机遇期,而且这些专家需要一个清楚明白的身份——“数据物理学家”。不像传统的实验物理学家,数据物理学家大概不会有多少实际操作仪器的经验。他们大概不会花费时间来将探测器部件焊接成一体(这是受训中的实验物理学家的一种典型经验)。他们也不像理论物理学家,也许对于课程作业之外的基本物理学计算没有多少经验。但是,数据物理学家拥有理解和询问数据的核心技能,在数据科学、统计学和机器学习方面有扎实的基础,也熟悉研究的计算背景和理论依据,从而能把数据关联上底层的物理学性质。

鉴于高能物理学领域内外的实验产出的海量数据,数据物理学家有着为他们量身打造的工作。他们的努力转而会促进新的实验方法的研发,在现今,这些方法常常得自更简单的合成数据集,它们并不完美地对应于真实世界。但是,缺少一批能够用新工具(譬如机器学习)来灵巧地处理问题的熟练科学家的话,这些数据会得不到充分利用。从这个层面上来说,我不仅仅是在为名称认可而争辩。我们需要识别和训练下一代数据物理学家来处理我们眼下拥有的数据。

怎么做?首先我们需要有专业培养路径。大学应该在研究生院制定培养数据物理学家的计划。我期望数据物理学家有着扎实的物理学背景,在统计学、数据科学和机器学习方面接受广泛的训练。以我自身的学术之路为例:我作为一个硕士研究生学习了粒子理论的计算方向,在博士生时修读了许多门统计学课程,这使得我自然而然地踏入到物理学和统计学/机器学习之间的跨学科研究中,也就身处在理论物理学家和实验物理学家之间。

专业的教育是个开始,但研究领域也需要有终身教职的岗位和资助。有一些让人看到希望的迹象,包括最近帮助学术机构启动“人工智能研究所”的联邦资助将专注于推进这个领域的研究。尽管这样的投资激励了跨学科研究,但它们不支持新的院系,至少是不直接支持。假如你不在接受这些资助的大型科研机构中,那么你就交不到好运。

这是小规模资助必须进入的领域,包括资助个别研究团队而不是资助特定实验。这件事说起来容易,做起来难,因为典型的团队拨款(首席研究员利用这笔资金来资助自身、学生或博士后人员)迫使申请者遵守传统的学科划分:要么是理论,要么是实验,没有第三者存在的空间。美国能源部声望在外的青年科学家奖(Early Career Award)也是如此,申请表格上没有一个勾选“跨学科数据物理学”的方框。

尽管调整资助的方式很难,但它实现起来可能比态度上的改变更加容易。物理学家也许因为许多人类最伟大的发现而闻名,但他们也因为对于跨学科科学的排斥猜疑态度(假如不是完全的纯粹主义者的话)而臭名昭著。从其他领域借得工具、获取灵感的物理学——譬如生物物理学中的细胞概念或者数据物理学中的机器学习——常常被贬低为“不是真正的物理学”。这当然是错的,它还是一个糟糕的策略,失去杰出的物理学家的一个方法就是嘲弄他们。

并非所有人都持怀疑态度,事实上,更多人感到激动。在美国物理学会内部,数据科学专题组(GDS)正在迅速成长,也许不久就会变成数据科学分部,反映出这个领域在物理学中越来越重要的地位。我本人对于与数据直接打交道感到激动,这点激励我变成一位“实验物理学家”,不过我现在意识到这个标签的局限性。

在我们可获得的数据增长的同时,我们对于数据物理学家的需求也在增长。让我们从喊出他们真正的名字开始。接着,让我们做辛苦的工作:教育、训练和资助全新一代的卓越物理学家。

资料来源 Advancing Physics

————————

本文作者本杰明·纳赫曼Benjamin Nachman)是劳伦斯伯克利国家实验室的一位科学家,他领导了基础物理学机器学习团队,同时也是加州大学伯克利分校数据科学研究所的兼职科研人员