专注智能视频分析研究的专家 ——访2016级星友姜育刚教授

发布时间：23年07月27日

江世亮

姜育刚

复旦大学计算机科学技术学院教授

找姜育刚不易，尤其要让他同意接受采访更不易。尽管是当下炙手可热的人工智能分支——计算机视觉领域——颇具影响力的学者，但上网查一下姜育刚的媒体采访信息并不多。几周前，他应启明星协会之邀参加了一次人工智能主题的星友早餐会，那次会上他作了主导发言，内容丰富，涉及当下大家感兴趣的人工智能与各行业的结合，怎么看ChatGPT带来的机遇与挑战等。也是在那次会上我约他作启明星专访，他同意了。我理解这个同意的背后是一份信任，对启明星协会，对采访者的信任。采访是在复旦大学邯郸路校区综合楼内人事处一间会议室，去年起复旦大学人事处处长成了他的新职，而计算机科学技术学院教授、博士生导师，上海市智能视觉计算协同创新中心主任这些名分下的工作也要占用他大量的时间。这是我和姜育刚的第二次见面，睿智的目光、彬彬有礼的举止再次加深了我对他的印象。

我们的评测结果要与全球同行比高低

姜育刚，1981年生于辽宁省铁岭市。按启明星采访惯例，我本要求他谈一下从小求学经历有些什么故事，但他用“很简单”一笔带过，而建议把重点放到与专业的关联上。姜育刚博士就读于香港城市大学，导师是杨宗桦教授。杨教授是马来西亚籍华人，是在多媒体信息处理领域颇有影响力的学者，也是姜育刚真正进入视频（那时主要是电影电视内容）处理领域的领路人。“那时的视频分析主要是以镜头为单位来识别内容，训练计算机对每个镜头包含的物体、场景等一一分类打标签。这种机器识别的语义信息对后期视频检索非常有用，也是当时很前沿的方向。”姜育刚介绍，如果没有办法打标签，不断增长的视频素材只能大量积压，查找起来就会十分困难。传统视频是分镜头的，检索的单位就是镜头，所谓打标签就是让计算机自动识别一个镜头中存在的场景、物体，比如人、车、下雨、下雪等。有了标签就可以实现自动化的检索，这在当时是一个极具挑战的课题。

2016年，姜育刚与博士导师杨宗桦教授一起在荷兰阿姆斯特丹参加国际会议时合影

具体谈到视频检索这个课题及课题的来源时，姜育刚说该项课题与很多需要研究者自己去找问题并设法求解的研究模式不同。“视频检索课题不是我去找的，而是美国国家标准与技术研究院（NIST）定义的，并向全世界这个领域的研究者公开征求答案。我读博期间一上手就是这个课题。这个课题的评测是对全球开放的，组织者NIST实际上是想通过公开评测来知道世界上有多少能做这类研究的团队及其技术水准。这种具有挑战性的征集方式吸引了全球这方面的专业人士。NIST每年会公布数据，启动这样的评测。评测优胜者会受邀参加每年10—11月在马里兰州的研讨会。我参加过好几次研讨会。这种视频检索评测的运作已有多年，也已经成体系了，极大推动了这一领域的技术革新。”姜育刚用这段经历想说明他不是通过自己找到问题进入研究之门，而是通过做给定的重要问题，追求更好的结果来开展研究。在姜育刚看来，这种在公开选拔赛中胜出的难度极大，因为你的结果要与全球同行直接正面交锋比试，做得不好后续文章都很难发出来。2005年底开始进入这个评测领域的姜育刚说他也是在当时的技术体系下，跟着杨老师花了很长时间，搞清楚技术、工程细节，摸清门道后才敢上手。2006年首次尝试后，2007年二次参赛的姜育刚的成绩排在全球前5位，这个成绩对于领域新人是一个很不错的结果。“经验特别重要，2006年做完了会公布结果，2007年做的时候就可以借鉴2006年的经验去找到自己可以攻克的点，帮助你拿到更好的结果。持续参加这个评测的好处是让你始终盯着这个方向，始终处于前沿位置。”

2007年，姜育刚和卡内基 · 梅隆大学的华人学者杨俊合作发了两篇文章，他们从头至尾梳理了当时NIST视频识别评测的技术体系及方法的优化，总结了很多经验。这两篇文章被引超2 000次。这个过程中姜育刚从杨俊那里学到很多经验。基于2007年的研究结果，2008年继续参赛的香港城市大学团队拿到了全球第一名的佳绩，值得一提的是2008年，IBM沃森研究院、卡内基? · 梅隆大学等单位都参与了，是一次全球高手云集的比试。

在一流大学团队得到重要的能力训练

2008年4月，由杨老师推荐并在香港政府奖学金支持下，姜育刚去美国哥伦比亚大学数字视频与多媒体实验室访学一年。2008—2009年在哥大访问的姜育刚参与了当时哥大团队的无人机视频分析项目。在十多年前，既没有这么多的高性能计算集群，也没有大量标注好的视频数据集，所以视频分析尤其是这种航拍视频分析是十分具有挑战性的。这个项目需要对航拍视频中的物体及物体行为进行识别。然而，高空拍摄的干扰因素很多，如阳光阴影、目标很小等都会对识别构成挑战。育刚也为此开发了一个用于人、车、噪声干扰等识别的工具，譬如阴影等干扰因素怎么筛除等。这一分类工具得到了好评。姜育刚回忆道：“在哥大期间一直在做大项目，经常干到下半夜。对人的锻炼很大，学到很多东西。”

2009年博士毕业后，姜育刚在哥大同一团队继续从事博士后研究。他尤其提到哥大的博士后合作导师张世富（Shih-Fu Chang，现任哥大工学院院长、美国国家工程院院士）对他的影响和帮助：“我和导师经常交流，每次一般不少于一小时，这种交流很烧脑，他会不停地问你各种细节问题，因此你要很认真地准备和回答，包括为什么要用这个方法，为什么要这么做，细节是什么等等，每一步都要回答，每一步要有依据。回过头来想，正是这个过程帮助我去理思路，选问题，选方案，然后反复去想方案的合理性。经过这样历练，我以后不管什么答辩碰到提问都没有发怵过。这真的是一种能力的训练。”

学成回国前的2010年，姜育刚还参加了一个互联网视频内容分析的项目。当时互联网视频已经越来越普及，这个项目的目的是通过分析互联网视频中的内容，来了解互联网舆情。2010年，NIST在评测中加入了互联网视频识别赛道，姜育刚牵头开发的系统首次参赛就拿了第一名，高于IBM等所有参与团队。这个结果公布后他的导师非常开心，不想让他走，极力挽留，但姜育刚还是如期回到了国内。“回想起来，我觉得自己很幸运，当年选择了一个自己喜欢的方向，遇到了很好的导师和合作者，这么多年从来没有放弃过，一直在视频分析领域深入钻研，在评测数据集构建、核心算法研发以及成果应用几个方面都做了一些有意义的工作。”

复旦团队是国际上这一领域的第一梯队

2011年姜育刚作为引进人才受聘于复旦大学计算机科学技术学院。入职复旦的十多年来，育刚的岗位、职务多有变动，从复旦大学计算机科学技术学院院长、软件学院院长到校人事处处长，以及上海市智能视觉计算协同创新中心主任、国家科技创新2030“新一代人工智能”重大项目负责人等。其研究领域也随着承担不同任务有所侧重，包括多媒体信息处理、计算机视觉、鲁棒可信人工智能等。但是，他的科研主轴主线基本上还是在视频内容识别方面，用他的话说就是专注于计算机视觉、图像视频处理和内容识别领域的研究。也因为这种坚持和坚守，复旦团队一直位居国际上视频识别领域的第一梯队。在2014年美国电气与电子工程师协会国际多媒体与博览会（IEEE ICME）移动端视觉识别挑战赛中，团队获得了最佳精度奖；在欧洲MediaEval评测中，团队2014年、2015年蝉联暴力视觉内容识别任务第一名；在2016年国家网信办指导的全国网络舆情分析技术邀请赛中，团队获得特定视频识别赛道金奖；在2019年谷歌公司主办的YouTube-8M全球最大规模视频识别挑战赛中，团队获得全球第二名（亚洲第一）。这都是他们多年来在这个竞争特别激烈的领域始终专注、未敢半点懈怠才能得到的结果。育刚也因此获得2019年度上海市青年科技杰出贡献奖、2022年度国际模式识别学会会士（IAPR Fellow）等荣誉。

2015年，时任国际计算机学会多媒体专业组（ACMSIGMM）主席的张世富在国际多媒体大会上给姜育刚颁奖

在2019年度上海市科学技术奖励大会上，姜育刚作为青年科技杰出贡献奖获奖代表发言

2022年，姜育刚当选国际模式识别学会会士

从ChatGPT技术的火爆引出的话题

原定的采访时间已经过了一刻钟，姜育刚还是很有耐心地回应我关于下一步互联网视频分析的走向，以及怎么看近期火热的ChatGPT技术等问题。育刚说：“互联网视频分析目前的类别标签已上万，打的标签越多对内容的索引越周全，这样要什么就可抓取什么。在今天的自媒体内容生成时代，一个重要的用途是通过标签可以识别使用者的喜好，诸如军事、科技、文化、饮食等每一个个体感兴趣的内容，都可以推送到个体，实现千人千面、精准推荐。近期备受关注的大语言模型展现出了令人瞩目的通用智能能力，但它也存在许多局限性。例如，它缺乏事实依据，经常生成不合实际的内容。它是通过大量数据学习词语之间的依赖关系而生成内容的。然而，它并不了解这些句子后面的许多事实依据。微软已经尝试将其搜索引擎与大语言模型结合起来，这是一个很好的方向。因为搜索引擎所找到的基本上都是事实，这样控制生成内容的范围就可以避免凭空捏造。”

姜育刚认为，当前，文本大模型已经得到了广泛的研究和应用，接下来的发展方向将是多模态大模型，即结合语言信息更好地理解以及生成视听觉数据。尽管视觉数据的细粒度理解和生成很难，目前的结果还不尽理想，但这是一个非常重要的发展方向。目前来看，多模态大模型有两个重要方向：（1）如何结合文本模型对视觉数据完成更高精度的内容识别？比如通过对已经发生事件的语义总结并结合视觉信息对未来可能发生的事件做一个预测和推理；（2）如何生成时序连贯、细节清晰的视频？现有的一些工作生成的视频帧不够连贯、也不够清晰，生成具有时序一致性的视频也是目前的研究热点。

拥抱人工智能技术的同时也要善于趋利避害

近年来，姜育刚在多个场合呼吁发展可信人工智能，保障人工智能健康发展。几周前的那次启明星早餐会上，姜育刚有一段话说得很到位，这里我借用过来作为本篇采访的结语：“21世纪初，当我开始攻读博士学位时，人工智能发展并不顺利，技术水平不够好，应用受限，研究人员也相对不多。得益于2010年以来深度学习等诸多技术突破，人工智能领域取得了非常迅猛的发展。特别在数据、算法、算力这三要素均衡提升之后，人工智能领域的应用迎来了爆发式的增长，给各行各业带来深远的影响。我个人认为人工智能未来的发展速度将更加迅猛。当然，我们在拥抱人工智能的同时也要趋利避害，处理好数据安全、知识产权、科技伦理等挑战。只有做到安全、可靠、可控，才能走得更稳、更远。”