上海作为中国当前的人才高地,不断吸引着在世界各地学有所成的科学家的归来。他们中的大部分人,都是在国外完成了很好的项目后携带成果回国的。本期介绍的项目――低功耗处理器研制――就是上海交通大学新近引进的梁晓峣教授在美国完成的。
 

说明: 生活照

 

  梁晓峣(上图),现为上海交通大学计算机科学与工程系教授,博导及学科带头人。本科毕业于复旦大学,硕士毕业于美国纽约州立大学石溪分校,博士毕业于美国哈佛大学。2009年至2012年在美国英伟达有限公司(NVIDIA)担任资深体系架构师,从事下一代高通量通用图形处理器的研发工作。2012年回国。
 
  梁晓峣的研究方向包括计算机体系结构,集成电路设计,低功耗软硬件协同设计以及大规模数据中心系统架构等。已发表论文30余篇,包括国际顶级学术会议ISCA,HPCA,MICRO,ISSCC,ICCAD,ISLPED等。其中2篇论文入选计算机体系结构年度最佳论文(IEEE MICRO TOP PICKS)。论文共计被引用340余次,此外还获得1项美国专利,其主导设计的低功耗无线传感芯片获得了2005-2006年美国半导体协会举办的全美芯片设计大赛冠军。梁晓峣于2012年担任HPCA国际会议的程序委员会委员,该会议是计算机体系结构领域的最高级别会议。

 

后摩尔时代的“功耗墙”

  自从集成电路发明以来,芯片已成为了电子电路集成的基本形式。而集成度增加的速度,一直是按照著名的摩尔定律――“芯片的集成度每18个月至2年提高一倍,即加工线宽缩小一半”――稳步前进的。
 
  然而,芯片制造的实践表明,由于有不可逾越的物理限制,制造尺寸的缩小会遇到各种技术挑战。硅材料的加工极限一般认为是10纳米线宽。受物理原理的制约,小于10纳米后不太可能生产出性能稳定的产品。提出摩尔定律的摩尔本人也曾公开表示,摩尔定律将很难一直有效。
 
  事实上,即便线宽没有小到10纳米,芯片的稳定性也一直是存在问题的。在后摩尔时代,由于晶体管尺寸太小,人们无法精确控制芯片生产工艺,而生产工艺的不确定性将会极大地影响芯片的良品率、性能和功耗。伴随着大规模集成电路技术的迅速发展,芯片集成度越来越高,中央处理器(CPU)可以集成在一个半导体芯片上,这种具有中央处理器功能的大规模集成电路器件被统称为“微处理器”。这也就是说,凡是有处理器的地方,都存在大量的能源消耗。
 
  处理器的高能耗已引起业界的极大关注,一个典型的现象就是大型数据中心的能源浪费。谷歌、亚马逊和微软等业界巨头都运营着各自的大型数据中心,这些数据中心包含大量服务器,而这些服务器的最主要组成部分是处理器。根据有关媒体报道,Google在美国俄勒冈州的数据中心满载运行时,其消耗的电力基本上和所在地纽卡斯尔市的所有家庭用电量总和相当。另据麦肯锡2008年的一份报告,数据中心服务器的平均利用率仅为6%。根据此前从各客户那里收集到的数据估算,麦肯锡表示截至2012年,该利用率应该在6%——12%左右。利用率如此之低,是与处理器产生的大量能源消耗有着紧密联系的。
 
  另外,在信息化的时代,微处理器无处不在。无论是录像机、智能洗衣机、移动电话等家电产品,还是汽车引擎控制,以及数控机床、导弹精确制导等精密机械,都要嵌入各类不同的微处理器。这些小型处理器虽然每一个的用电量并不大,但集合起来,也是不小的能源消耗。
 
  然而,在各个大型数据中心内部,相关技术员工在解决计算能力不足问题时,往往以为,在原有服务器基础上再增加额外服务器,能保证数据中心正常运转即可。对于这些服务器的性能利用率情况,这些人员则并不加以太多关注。而布置在其他地方的处理器,则只能寄希望供电量充足或者电池寿命足够长。
 
  为各大数据中心提供核心处理器部件的厂商,则在考虑如何从工艺上使处理器的设计更加高效。这也是过去20年Intel等公司不断提升处理器性能的基本路径。然而,随着工艺精度的不断提高,进一步提高处理器的性能必须以大幅度提高能耗为代价。进入到后摩尔时代,这个问题带来的最终结果是处理器无法在如此巨大的能耗下正常运行,这也是整个计算机行业面临的能源危机。学术界把这个问题称作“功耗墙”,它已经成为阻碍行业发展最为严重的问题之一。

 

梁晓的处理器设计

  在哈佛攻读博士以及后来在美国工作的前后约十年时间中,梁晓峣始终围绕着如何降低处理器的功耗展开研究。与通常在工艺上进行改进的思路不同,他的研究更注重在处理器体系结构设计方法、软硬件协同设计等方面寻求突破。博士期间,他对传统处理器的体系结构进行了重新设计,对传统处理器中的存储器进行了革新。参加工作后,他更是参与了新型处理器(通用图形处理器GPU)的研发。
 
  新的处理器体系结构设计 2006年,梁晓峣发表了整个计算机体系结构领域第一篇利用自适应架构解决微处理器生产工艺中产生的不确定性问题的论文。其基本思想就是在外部无法精确控制芯片生产工艺的情况下,通过调整处理器自身的体系结构来适应这种不确定性,使得每一个生产出来的处理器都能够达到自身最佳的能耗状态,从而提供高效的计算性能。通俗的讲也就是量体裁衣,通过赋予每个处理器个性化的设置来发挥它们各自最大的性能,让好的处理器和差的处理器都各尽所能。该论文最大的贡献就是首次把工艺控制这个看似属于底层生产线的问题提升到系统结构层次,利用较高层次上的自适应体系结构来减少工艺不确定性带来的问题,从而达到能效的优化。
 
  论文在计算机系统结构顶尖会议MICRO(国际微处理器结构大会)和ISCA(国际计算机体系结构大会)发表后,立即引起了业界的强烈关注。发表至今只有6年时间,论文引用次数已经超过300次。还被IEEE MICRO选入2008年年度计算机体系结构领域最好的10篇论文(见下图)。须知这10篇论文都是由本领域世界知名同行专家评审出来的,它们既是体系结构领域当年最具代表性的优秀论文,又具有对学术界和工业界潜在的中长期影响。
 

 

  新的处理器部件设计 一个处理器大致由计算单元、控制单元和存储单元构成,其中有一半的面积是存储器。在后摩尔时代,由于晶体管尺寸太小,外界的噪声,电压扰动,空间粒子等很容易造成微处理器中的存储器故障,并且传统静态存储器的结构对工艺太过敏感且能耗太大,已经不能适应未来高端处理器的需求。据统计,在一个大型的数据中心,平均每隔5分钟就会发生一起服务器故障,而这些服务器故障大多数都是由于存储器错误造成的。如此频繁的服务器故障,不仅影响用户感受,而且大大增加了数据中心的日常运营成本。
 
  梁晓峣在博士期间研究了一种新的基于动态存储器的架构,该结构特别适用于高端处理器的缓存设计,能够大大增强系统的抗干扰性并降低功耗,是未来存储器设计很有竞争力的替代品之一。传统的静态存储器设计使用六个晶体管提供一比特信息,而新的动态存储器设计使用四个晶体管,在降低成本的同时也大大降低了功耗。由于使用了不同的存储器结构和更少量的晶体管,存储器的稳定性得到很大提高,特别适合未来数据中心的数据存储。然而,使用动态存储器的最大挑战是需要提供不间断的刷新操作才能够保证数据不丢失,而人们通常认为刷新操作开销很大,不适合处理器内部使用。梁晓峣的论文提出了巧妙的刷新算法,配合处理器的任务执行,在大大降低刷新操作开销的同时提供低功耗、低成本和高稳定性,使得这一技术的使用成为可能。
 
  该论文也发表在了计算机体系结构的顶尖会议MICRO上,并引起了业界的极大兴趣。这篇论文同样被选入IEEE MICRO本领域的十佳论文之一(2009年度)。同时这篇论文被CACM杂志提名特别报道。CACM是美国计算机联合会的旗舰杂志,每年只报道整个计算机行业最具突破性的研究成果。能够被该杂志提名报道,说明这项研究被广泛认为极具潜力。
 
  新型处理器设计 2009-2012年,梁晓峣就职于美国英伟达公司(NVIDIA),担任高级架构研发师。该公司现为世界最大的图形处理器芯片提供商,开发设计世界运行最快的图形处理芯片。图形处理芯片与通用微处理器有相似之处,而且特别擅长处理海量数据的大规模并行计算。由于生产工艺的限制,现代的微处理器越来越需要依赖程序的并行度来进一步提高性能和降低功耗。大规模并行处理器和高通量计算是未来计算机和芯片设计的方向,尤其是大规模云计算和移动计算。用传统的Intel处理器,即CPU,并不适合大规模并行计算。而NVIDIA通用图片处理器,运行速度比Intel的CPU快很多,处理海量数据优势明显。梁晓峣是该公司这方面的架构师之一。国内的“天河一号”超级计算机正是借助英伟达公司的图形处理器从而获得当年世界超级计算机排名第一。

 

竞赛冠军与市场应用

  随着物联网概念在国内的兴起,作为物联网核心的无线传感器节点芯片已经成为关键技术。无线传感器节点多分布于野外,需长期工作但替换电池困难,因此必须解决低功耗的问题。而无线传感器的一个耗电大户就是主处理器。
 
  2006年,梁晓峣主导设计的无线传感器芯片在美国哈佛大学研制成功,主处理器采用了一种事件处理器 (event processor) 的特殊架构。基于事件处理器的无线传感器芯片,和通用的无线传感器芯片最大的不同在于有一个智能的事件检测和触发单元。传统的主处理器持续地监听和监测环境事件的发生,不管有无真实事件发生都要消耗一定量的电能。而在事件处理器中绝大部分时间主处理器并不工作,监听和监测的工作由一个很低功耗的专用电路完成。这个电路还负责检测事件的合法性,只有当事件真实发生的时候才会唤醒主处理器采取措施,从而大大降低了系统能耗。

说明: SRC_award.jpg

 

  由于加入了这个单元,整个芯片的功耗大大降低,效率得到很大的提升,可广泛应用于各个场所的物联网设备。在2006年美国半导体研究协会主办的片上系统芯片设计大赛上――当年该项传统赛事吸引了包括斯坦福、麻省理工等39所美国的知名高校参与,由梁晓峣主导设计的芯片最终击败众多强手,获得冠军。获奖证书和获奖芯片的样例,至今仍陈列在哈佛大学电子与计算机系的荣誉展览馆中(见上图)。
 
  该芯片的另外一个重要特性就是极强的重编程能力,可以使该系统非常容易地应用于各种不同的领域。仅需要通过简单的应用修改,便可使该芯片从医用物联网节点转化为矿山物联网节点。梁晓峣早期研制完成了面向医用的无线传感器芯片,已在美国的几所医院使用。他们在哈佛大学研发的基于无线物联网芯片的医用生命体征监控器,整个系统相当于一个打火机大小,可以方便地戴在病人手腕上。有了这个系统,医院的医生就可以实时地监控病人的生命体征。这个系统配以不同的传感器(脉搏、血氧等),就可以在医生手持的PDA上实时显示数据。如果配以无线定位系统或者GPS 定位系统,还可以实时定位病人的位置,实现病人监控和婴儿防盗的功能。整个系统都已经搭建完成并且通过测试,现已在美国几所大医院临床使用,并且开始大规模的推广。

 

从哈佛到交大

  梁晓峣的低功耗处理器研究,基本上是在哈佛大学博士期间完成的。在回到交大后所写的一篇交流文章中,他描述了在哈佛的那段为科研而热血的岁月。征得梁教授同意,笔者摘取了几段,与读者共享。
 
  在成为博士生以前,我对科研并没有什么兴趣。本科和硕士的时候做项目都是按照老师的要求按部就班,或者翻翻参考书、听听同学的建议等,没有自己独立思考解决问题的习惯,自然就不会觉得解决问题的过程多有趣。我认为很重要的原因之一就是课程压力太大,而我们又太强调成绩,形成了一种受迫式的学习。
 
  到了博士阶段开始做科研,和单纯上课的感觉已经是不一样的了。我刚开始做研究的时候,导师分配给我一个课题,并无太多的条条框框,完全靠我自己寻找方向,导师只是在需要的时候指点一二。做自己的课题让我慢慢学会了独立思考,寻找解决问题的方法,并通过各种方法来验证结果的正确性。自主的解决问题调动起了人类天生的好奇心,遇到一个问题,找不到现成的答案,只好自己推导或者做实验来验证,有时候工作了好长时间却浑然不知,真正被一件事情吸引住的感觉是很神奇的。
 
  学校尤其实验室的氛围也影响很大。在哈佛的校园里,你很容易就可以分辨出学生和外来的参观者,因为学生总是行色匆匆,仿佛时间永远也不够用。而哈佛教授那种理想主义的精神,那种专注于真理的执着也经常感动到我。我很幸运,遇到这样一群人,唤醒了我内心最初的梦想。
 
  遇到一个好的导师更是我一生中最幸运的事情。我的导师大卫·布鲁克斯(David Brooks),是一个用中国万里长城作为网站背景的美国人。他本人睿智,工作的时候富有激情和效率,想法新颖,我常常为他的想法而折服。一位好的导师能够教导的东西太多了,大到人生观,小到一篇论文中的语法。
 
  和导师、同学一起工作是一件激动人心的事情。实验室的同学都很优秀,在导师的带领下,到交论文的期限前几天,大家集中火力拼上几天,有时候还通宵,往往能有意想不到的收获。每个人都很努力,把自己的任务完成到最为令人满意的程度。奇怪的是赶论文这一看似苦涩的过程却丝毫听不到怨言,相反每个人都很兴奋,憧憬着自己的研究成果被别人认同的喜悦。
 
  在哈佛的日子让我明白了什么是优秀。优秀是不懈努力,充满斗志,有明确的目标,有志同道合的伙伴和导师。同时,优秀也意味着要付出比常人多的努力。很可能别人在度假的时候,你在看论文;别人在睡觉的时候,你在做实验;别人在吃饭的时候,你在对着电脑边吃外卖边调试程序。但你会很自然的觉得一切的付出都是值得的。
 
  2012年4月,梁晓峣回国到上海交通大学执教。谈及交大,他说,在回国之前就听说交大在教学科研体制方面是国内高校中和国际最为接轨的,回来后发现的确如此,交大引进了很多国外成功的教学模式,课程大部分是以世界一流大学的标准要求的,教授科研的自由度和条件也和国外相仿,这是吸引我的最主要原因。
 
  回到交大,又重新回到了校园,在交大自己的实验室里,梁晓峣说他时常会想起以前在哈佛时与导师和同学日夜奋战的日子。他说,每天在实验室里工作,尽管有时候累得想要放弃,但是休息过后便充满了活力,在哈佛的场景在交大的实验室里同样上演着。
 
  让我们期待梁教授在交大做出新的更大的成绩!
 

感谢梁晓峣教授接受采访并提供本文所用图片!