11.1_副本

张迎梁

叠境数字科技(上海)有限公司

首席技术官

邀约张迎梁进行采访,有他作为星友代表在2023年启明星颁证会上发言这一因素。但于我而言还想满足两个诉求:一是启明星协会顾庆生秘书长一直希望能够多提供一些星友中的创新创业榜样;二是近年来时常听到数字人、数字孪生等名词概念,我虽对这些概念有自己的解读,但感觉还是远不足够的。那天在星友颁证会上张迎梁的发言让我意识到他就是我要找的人:“作为一名人工智能领域的科研人员,我一直用‘追光之旅’来形容自己的科研生涯。在上海科技大学读研究生时,我首次接触到了光场的概念。大多数人听到光场的时候,第一反应都是好奇这是什么,能干什么?其实我一开始也有同样的疑问,直到熬夜写完第一个光场渲染器时,看着屏幕上渲染的画面能够动态变焦时,我才意识到,‘噢,这就是光场渲染啊’。”

“惊出几身汗” 的调试过程至今难忘

大一时迎梁才开始接受编程方面的训练,他当时对编程非常感兴趣。大二时报名参加了学校和宁波市的编程大赛,他很享受写代码,并通过代码解决问题的过程。对代码和编程语言的日益熟悉让他逐渐找到自己感兴趣的研究方向,也让他逐渐意识到自己的知识储备、研究深度等远不足够,因此迎梁决定继续攻读硕士学位,希望能够更深入地探索计算机领域。在备战考研期间,迎梁被刚建校的上海科技大学的办学模式、实力和愿景所吸引,最后十分幸运地成为上海科技大学信息学院的第二届研究生。

当时上科大张江校区还在建设中,第一年的教学、科研实验是在岳阳路319号中国科学院上海分院的8号楼进行的。研二时,上科大的研究生学习暂转到张江海科路的中国科学院上海高等研究院。那段时间研究生们会在岳阳路、海科路两边跑。有一次为向校内外专家和领导演示他们实验室在光场数据采集方面的科研工作,需要快速搭建一套演示装置,并完成一些硬件搭建和软件算法调试的工作。此次要调试的设备是由8个相机模组组成的相机阵列。他们临时接到通知,演示提前到了第二天上午,距离领导来访只剩下十几个小时,张迎梁和一位博士生一起承担起相机阵列采集重建的演示调试工作。迎梁从当晚一直到第二天早晨通宵达旦不断调试,但直到临近领导要来观看的时间点还是没有调试出结果,迎梁说自己在整个过程中已是惊出几身汗,所有人已准备放弃。好在功夫不负有心人,在最后的10分钟,裸眼三维显示屏上终于出现了立体的光场渲染效果,最终得以如时、如愿完成演示。

这个过程虽然很痛苦,但对迎梁的启发也很大。“只有自己喜欢一件事,才会有动力去为这件事情付出全身心的投入和努力。”他笑着说道。张迎梁从容地面对科研路上的种种挑战,不畏艰难,始终朝着心中那个方向前进,因为他相信,星光不问赶路人,时光不负实干人。

回溯“惊出几身汗”的那次调试情景,迎梁至今记忆犹新,印象深刻。“现在我更清楚,当时我们所演示的就是通过多相机光场阵列,利用光的摄入完成物体的光场信息采集,以达到获取被采物体的更精细、更准确的几何和材质信息来做物体的实时3D渲染。”那次令迎梁终生难忘的演示也让第一次看到这样渲染效果的领导和专家被惊艳到。迎梁也是从那时起接触到光场技术,并以此作为他之后的科研方向。后来他又在此基础上继续研究光场的重建和渲染,并发表了相关学术论文。而他的博士课题正是基于光场数据的三维重建。

11.2

动态光场影棚

研究生时加盟叠境,5年后成为首席技术官

这次对张迎梁的采访是在距上科大咫尺之遥的叠境数字公司内完成的。采访后半段的话题转向叠境数字和被访人如何走向创业之路。如今已是叠境数字首席技术官的张迎梁这样讲述道:“过去20年里,《黑客帝国》《头号玩家》等科幻电影中的构想成了元宇宙的最初蓝本——人们通过脑机接口或者虚拟现实(VR)头盔连入逼真的虚拟世界,在那里社交、生活、工作,分不清虚幻和现实——而‘叠境’这个看起来略带诗意的词汇,其实意味着一个把虚拟和现实重叠起来的环境,即一个把一切实物数字化的环境,完美诠释了平行世界与数字未来的高度互通。”

除此之外,张迎梁对“叠境”的理解也在不断深化:“叠境从中文语义来讲是重叠的环境,既有现实又有虚拟环境重叠交织的涵义。叠境数字这些年一直在做数字化的物体、人物、场景。英文名DGene还有一层涵义是未来虚拟世界的人或许具有数字基因。这个名称里还有数字化的时代、数字化生成的涵义。”听完“叠境”名字由来的故事,我仿佛探索了一个充满挑战和惊喜的数字世界,思考了虚实世界的本质和意义。作为上海科技大学孵化的第一家人工智能企业,叠境数字自2016年成立以来,坚持基础研发,围绕光场技术、三维重建、智能视觉等核心技术,先后研发了动态光场影棚、穹顶光场、自由视点等多视角采集系统。2020起,公司依托与上科大的科研合作,尝试通过人工智能技术,降低元宇宙内容的制作成本,探索产学研一体化的创新路径。

“伊可”让数字人技术走近大众

公司目前的主要业务就是数字人和数字孪生,叠境数字也是国内最早一批从事这方面技术研发的专业机构之一。虚实融合数字孪生底座系统通过叠境数字长期在光场技术和三维智能视觉领域的技术积累,以精准的三维模型、GIS信息系统为依托,连通孤立的二维视频数据,将动态视频与静态场景相融合,使碎片化的场景在数字孪生底座中全方位展现,构建可以实时响应动态数据的数字孪生三维系统,提升三维时空的全景可视可达与智能感知研判能力,实现高效指挥、管理和运营的目标。主要面向城市治理、工业智能、园区管理、应急指挥等数字化应用场景的需求。

数字人包括从品牌代言、功能型播报数字人(如电视台主播)到与大语言模型相结合的智能数字人。在2023年7月7日第一财经成立20周年的大会上,第一财经携手叠境数字联合打造的数字人主播“伊可”正式上岗,在每个交易日中午11点档的《市场零距离》节目中直播公司和市场资讯,晚间21点在网端的“正在”频道中直播美股盘前资讯。端庄的举止、自然的语速、稳定的状态,作为业界首个多维形象人工智能型数字主播,伊可现在已经参与第一财经四档节目的播报。“我们利用光场采集技术,准确捕捉人物脸部和姿态特征,并将其制作成模型再进行皮肤、动画加工,随后通过自主研发的语音驱动数字人的人工智能技术,只要把文本输入到系统内,数字人就可以播报,后面不需要“中之人”来驱动,伊可的口型、脸部表情、眼神等都由人工智能来控制。”迎梁星友说起的数字人主播伊可,我也曾从媒体上看过相关报道,但这两年没有关注,可一问周边的年轻人都说知道伊可。业内也曾有过关于数字人主播的问世对主播这一职业带来的挑战的议论。

11.3

可播报第一财经《市场零距离》节目内容

“伊可”数字主播采用了全流程智能化的技术方案,数字人形象经过精心设计,依照第一财经主播天团的外形和声音数据,由人工智能与艺术的创意结合而成,既符合媒体主播的职业标准,又符合大众审美。在我看来伊可的问世至少帮助大家开始了解数字人技术,加快了这一技术的普及推广,这无论如何都是件好事。

构建手语大模型,帮助聋哑人理解外部世界

说起近一两年更有意思的研发课题,迎梁的兴奋点被点燃:我们现在正在做的更有意义的是手语大模型,这是今年与上科大、上海广播电视台(SMG)一起做的“润爱无声”项目,利用交互智能建立手语大模型,其初衷和目标就是帮助聋哑人看病、办理各种业务,更重要的是让他们更方便融入社会。聋哑人没有听觉,也没法说话,他们获得信息的途径主要来自视觉,表达自我的方式是手语。为了达到目标,科研人员采集动态的三维人体动作数据、口型数据和文本数据,将多模态数据进行清洗、训练,实现基础的手语模型;在此基础上,优化医院、社区服务中心等特殊领域应用场景,使聋哑人在机器助理的协同下,可以跟普通人一样顺利地看病和办理各种业务;最终通过模型和聋哑人大量的交互,形成自我学习的能力,成为聋哑人了解世界、学习知识过程中不可或缺的伙伴。

为了使以上美好的情景在现实生活中得以实现,张迎梁和团队首先从一个小的应用切入,经多方走访调研后,他们选了如何服务于聋哑人看牙医这样一个非常具体的场景,课题组的设想是服务对象一进入牙防所就有一套针对性的手语服务程序帮助服务对象一一完成诊疗过程。为此,课题组正在与手语老师一起采集手语数据。张迎梁说他充分意识到手语大模型建成不易,但这件事一旦做成其社会意义不言而喻。

手语大模型的另一个应用场景是社区服务,譬如证件遗失补办这种事对聋哑人来说并不容易。但以后聋哑人就可以通过手语直接和一台机器对话来完成身份证补办等一些社区服务项目了。称之为手语大模型,是因为需要采集的手语的量其实很大。迎梁举例说,手语有很多细节,有通用手语,也有地方性手语,就如同口语表达,既有普通话,也有各地的方言是一个道理。表述同样一件事,不同地区的手语方式有差异,因此手语的采集量很大。此外,已有的手语模型比较偏重于二维,而叠境数字正在做的是三维的手语数字人。现在还没有专门的手语大模型,目前的手语数字技术还不够实用,至少对聋哑人还不实用。“虽然研发过程中会有很多困难和挑战,但我们认定这就是叠境数字强调要做的有温度的人工智能,发掘技术对人类社会有益的潜能,让弱势群体得到更多的关注与帮助,这也是企业应有的社会责任,我们愿意也乐意迎接挑战。”

11.4

北京冬奥会上部署的叠境自由视点系统

启明星项目提供体育元宇宙直播观赛新方案

最后聊到的启明星项目似乎也撞上了迎梁的兴奋点,他申报的启明星项目是“构建面向未来的沉浸式、可互动式体育元宇宙直播观赛新方案”,想通过研制多视角视频编码、低延时传输、三维视频融合等新技术,提出新算法的方式打破现有VR体育直播、自由视角直播以及体积视频技术手段的限制,希望实现面向移动终端App、VR、增强现实(AR)等沉浸式播放媒介的体育元宇宙赛事直播新体验。新方案也是希望提供球员视角观赛、现场任意位置的虚拟视角直播,提供给观众自由活动、自由观看的元宇宙沉浸式全新观赛体验。

2022年北京冬奥会上,叠境数字作为国内领先的自由视点技术公司,为大赛提供了可快速制作“时间凝结”等特效的自由视点直播系统,并专为冰壶比赛设计了相应的自由视点采集系统,部署了48套4K超高清多视角相机系统在赛场周围,成为国际上第一家将自由视点直播技术应用在冰壶赛场的团队,也为大家带来了可以近距离观看运动员们掷壶精彩瞬间的新体验。除了体育赛事,在一些大型的综艺节目,如2021年东方卫视《伟大舞者》中的部分镜头所应用的拍摄技术也是叠境数字“自由视点”的一个具体应用。

入选2020福布斯中国30岁以下菁英榜单

尽管重心已经转向企业运营,但多年来的科学训练和叠境数字不断追求科技创新的属性,使得作为公司首席技术官(CTO)的张迎梁在学术上始终有追求,入行以来围绕三维人物、物体、环境等内容的高精度重建和渲染,已在计算机视觉图形学领域的国际顶级学术会议和期刊发表多篇论文。入职以来,他负责了叠境数字动态光场影棚、自由视点、数字孪生城市、超写实数字人等产品的研发工作,研发成果先后在世界互联网大会、中国国际进口博览会、世界移动通信大会、世界人工智能大会等展览会上展出。也因为以上业绩,张迎梁于2020年入选福布斯中国30岁以下菁英(30 Under 30)榜单,于2021年入选胡润30岁以下中国创业领袖榜单。可以看出,迎梁是一位迎风而立、日后有可能成为行业栋梁的创业先锋。

最后,和迎梁一起畅想未来,他认为虚拟与现实世界的边界在逐渐缩小,也许会出现一个开放而可协作的虚实世界,将成为我们日常生活中信息交互的一种主要形式。这会给人类社会带来怎样的发展方向?又会往何处去?值得我们一起去思考和探索。

江世亮采写于2023年11月19日