如今我们很多人身处由各种传播媒介例如报纸、期刊、电视、手机、网络等所形成的媒体信息海洋之中,人们感觉到信息无处不在,好像唾手可得,但是又经常因为难以获得有用信息而苦恼。虽然Google、Yahoo和百度等优秀搜索工具应运而生,极大地满足了人们快速检索相关信息的需要,但是新的需求又接踵而至,例如:如何能跨越不同媒体的界限,找到你所需要的信息,它们可能是以文字、声音和视频等不同形态出现、却表达同一主题的内容。这种令人向往的技术境界正是目前国际信息技术领域竞争激烈的研究热点。很巧在复旦大学也有一个较大的研究团队在信息检索领域从事研究工作,他们是上海市智能信息处理重点实验室媒体计算与WEB智能研究组,其中青年博士薛向阳教授不久前刚入选2005年上海市科技启明星计划跟踪计划。于是就有了此次的“今日启明星”采访对象和报道内容。
一通电话,一见面,薛教授就给我一个很谦和的第一印象。20年前薛向阳作为苏北一农家子弟考入大学,从此改变人生轨迹,如今他已是博士生导师、复旦大学计算机科学与工程系主任、国家863计划“高性能宽带信息网”重大专项总体组特聘专家。这位现年37岁的复旦教授与你一交谈,你能明显感觉到他身上仍有那种极可贵的真诚而憨厚的农家子弟本色。
成长之路有赖恩师指点
薛向阳告诉我,他是1985年考入西安电子科技大学(当时名为西北电讯工程学院)通信工程专业,从本科一直读到博士毕业,整整10年。其后1995年到复旦大学做博士后研究,这以后就留了下来。回顾20年求学、研究经历,薛向阳至今难忘对他走上科学之路帮助和影响极大的几位老师:国内通信界的元老胡征教授是薛向阳的硕士导师,他视学生如自己的子女,对学生英文论文的写作等悉心指导,帮助学生一字一句地改文章,严谨的学风给薛向阳等留下深刻印象。博士期间的樊昌信老师也是国内知名的通信专家,他带教学生的特点是放手让学生干,念博士期间从申请863课题,具体实施一直到最后验收,都让研究生们独立去闯天下。作为指导老师,樊教授则主要帮助学生把住课题方向、检查和修正中间研究结果等。正是当年樊老师的“放养”方式,使得日后薛向阳在独立申请重大项目以及组织实施并最后完成课题等方面都不会感到紧张。
吴立德教授是薛向阳在复旦做博士后研究时的导师。薛向阳说自己从以工科见长的西电到复旦后面临两大转型:一是思维方式和知识结构的差异,导致从工科思维(主要靠经验,怎么把一件东西做出来)到理科思维(任何立论都要理论支持,非常严谨规范)的转型,二是从通信到计算机的专业上的转变。在转型期间,吴老师给了他多方面的宝贵支持。另外,吴老师在为人处世方面对年轻一代的帮助也很大,他为人很正直,从不弄虚作假,做事严谨不浮躁,凡讲话都要有根据,他对学生的要求是凡事要靠自己,主要靠自己把事情做好。吴教授作为年长自己几十岁的学者,他的为人和立身之道对涉世未深的年轻人不啻是一面镜子,在一定程度上影响了他们的人生道路。
80年代末本科毕业时,社会上正盛行“造导弹的不如卖茶叶蛋”之类的观点,当时不少优秀学生不愿意继续做研究生,但薛向阳觉得自己还是比较适合读书,如此一门心思读到博士毕业。所以除了恩师们的导引,个人比较安静,喜欢读书,比较喜欢大学相对单纯、自由环境的性格也是薛向阳顺利走上学术之途的缘由。
何谓海量跨媒体信息检索技术
我们的话题转向薛向阳正在从事的课题——海量跨媒体信息检索技术研究。在薛教授看来,现在数字化、网络技术越来越普及,带来越来越多的海量媒体信息,生活的整个过程都可以成为数字化的了。经过多年发展,信源编码等旨在压缩信息量的技术标准已经形成,目前的趋势是从data(数据)到content(内容)的变化,数据格式已经变得不重要,而更关注的是内容,例如一幅图片里到底有什么、是什么的问题正变得越来越重要。薛向阳说,侧重内容检索这一变化趋势在最近1~2年变得越来越明显,国际上如Google之类的内容检索提供商的股值飙升,国内包括复旦在内的这一专业的毕业生前几年不好找专业对口的工作,现在非常抢手。
薛向阳进一步介绍说,从数据到内容的转变必须要解决机器的智能问题,譬如说,我给你一张图片,机器要知道这是一张什么内容的图片。因为网上图片的数量太大,所以已经不可能由人来完成图片内容的标注和加工,只能由机器去完成内容分析与识别的任务。所谓海量信息的搜索,如要找“太阳落山”的图片,即使只是一个用户的查询需求,检索系统也要从海量的图片信息中去寻找。不同知识背景的用户,他们的需求是不一样的,因此进一步的技术要求是设计一个能满足每个人的个性化需求的检索系统,不仅能够检索图片,还能扩展到声音、文本、视频等多媒体信息。这样的技术带来的一个变化是改变人们传统的看电视的方式,将从原先被动的选频道到主动的选内容,如喜欢赵本山影视作品的观众,通过查询马上就可以看到所有赵本山的表演节目,尽管还是面对电视机,还是手握遥控器,但此遥控器已不是现在选频道的遥控器了。实现这一切的背后的支撑就是基于内容的多媒体信息检索技术,也即是薛向阳和他的同事们现在正在做的工作,Google、Microsoft、Philips等全球知名企业都在做这件事。
薛向阳补充说,Google目前还未完全实现基于内容的检索和跨媒体的检索。以后的检索更多的是跨媒体的内容检索,例如同样希望看“赵本山”的表演节目,就可以用文字、声音和图片等多种方式提交查询。另外,通过一系列机器智能的技术,对“赵本山”的脸型、声音做识别,还可自动生成有关“赵本山”的个性化节目。所谓个性化服务就是根据某个用户的喜好,把他最喜欢的节目放到优先位置供他选择。以后还可以根据个人的喜好为其订制节目,这些都是靠智能技术自动完成的,即根据用户行为分析,利用数据挖掘来实现。
薛教授说,海量跨媒体信息检索技术可以提供许多新的可能,好多东西我们目前还未想到,只要能想到就能做。薛教授以他们正在开展的网络电视方面的研究介绍说,他们要做的是把智能检索技术用到网络电视上,方便用户找到他喜欢看的节目,相当于为网络电视加一个智能的搜索引擎。跨媒体的概念就是输入一个关键词出来的可能就是图像,输入一句话出来一部电影。
此外,跨媒体智能信息检索技术还能广泛用于政治、军事、经济等许多领域,甚至对香烟、酒类等广告播放时间的精确监控,以前这样的应用是很难实现,现在用这一技术可以分秒不差地统计出来。再如做人物、事件的纪录片,现在都是用人工方式,找到片断后再拼接,往往遗漏很多,工作量也相当大,现在可以根据输入相关的镜头关键词,马上搜索出来,但前提是这些待检索的内容都须经数字化处理。
更早看到需求也是原创的动力
交谈到此,引出了薛教授对何谓原始创新的一番见解:你想到的东西是别人未想到的,而且是有用的。国外教授有时之所以能抢先一步只是比我们早看到了一点。
薛向阳进一步阐释说,由于互联网技术的普及,加上经常参加国际学术会议,如今国内外在信息获取方面的差距已经很小,但是要领先于国际水平还是有难度,这是真正的竞争所在。计算机这块的进步主要是受需求拉动,这跟整个社会的发展水平有关。譬如图像检索国际上是80年代末开始的,当时的方法非常简单,以后需求越来越多,技术上也就一步步完善。当然第一个看到这种需求的(而且这种需求要确实是有用的)人,这个发现需求的人很重要,因为需求也需要发现,这也与国家、社会的经济发展水平相关。
[江世亮采写自2005年11月29]