基于内容的多媒体和跨媒体信息检索技术

发布时间：05年12月23日

薛向阳

　（复旦大学计算机科学与工程系）

　　信息检索的基本概念

　　信息检索（IR-Information Retrieval）泛指从包含丰富内容的信息集中找到所需要的或感兴趣的信息或知识的过程，信息检索的主要任务包括对信息项（information items）的表示（representation）、存储（storage）、组织（organization）和访问（access）。

　　传统信息检索技术主要是面向文本（text）的，今天广泛使用的Google、Yahoo、和百度等搜索引擎主要采用文本检索技术，通常是利用一组关键字或词组成的查询项来搜索定位文本数据库中相关文本文档，如果某个文档中包含较多查询项，那么就认为比其他包含较少查询项的文档更相关，搜索系统将按照这种相关程度对查询结果进行排序，并依次展现给用户，以便用户浏览和进一步查找。

　　基于内容的多媒体信息检索：面向单一媒体

　　对图像和视频等多媒体信息集来说，目前绝大多数检索系统仍采取文本搜索技术，例如Google的图像和视频检索功能仍是基于文本关键词（keyword）的，这些关键词可能来源于图片周围的文本、文件名等，其中少量的也可能来源于人工标注。由于多媒体信息制作者的文化背景不同、专业知识迥异，这些与图片关联的文本信息往往是极不可靠的，我们都能够体会到。对于图像和视频等多媒体信息，一般难以用自然语言进行有效的、精确的描述，无法表达其实质内容和语义关系，所以这种依据文本信息检索图片和视频的解决方案很难满足人们的查询需要，搜索精度很低。

　　经过10多年的努力，许多学者试图实现基于内容的多媒体信息查询技术，以弥补上述多媒体信息检索技术的缺陷。国内外有很多学者在积极研究基于内容的多媒体信息检索技术，其中包括对图像、视频和音频等多媒体信息的内容处理和分析（parsing）、自动标注（annotation）、构建索引（indexing）和相似检索（retrieval）等。大量研究结果表明，除了在一般的、通用的视觉特征（如颜色、纹理、形状、运动、镜头等）和听觉特征（频谱分布和变化规律、节奏、韵律、话音、说话人特征等）上建立索引和实现检索之外，还要研究更有效的高层语义特征的索引方法。众所周知，计算机很难从多媒体信息中自动获取高层语义特征，因此必须采用各种各样的智能处理与识别技术，例如：通过图像和视频的字符识别（Video OCR）翻译图片中出现的文字信息，从而得到关于图像或视频的文本描述；通过人脸检测和识别技术自动分析图像或视频镜头中出现的人脸，从而得到人物的身份信息；通过连续语音识别技术自动将音频转换为文本，可以得到关于各个音视频片段的文本表示；通过说话人的语音声纹分析，就可以判断说话人的身份等。

　　基于内容的跨媒体检索：面向多种媒体

　　随着计算机、互联网和数字媒体等进一步普及，以文本、视频、音频、图形与图像为主体的多媒体信息急剧增加，通过互联网实现全球多媒体信息的共享成为可能，用户查询多媒体信息也变得越来越普遍，各种新的应用需求也随之而来。

　　对于希望利用多媒体数据资源的用户来说，一般要求他们具备一定的知识背景，才能提交符合IR系统要求或IR系统可以理解的查询。但是，在实际应用中，大量用户对于某些概念语义的精通程度并不足以明确叙述其查询意愿，此时如果IR系统允许用户能够以多种媒体信息来描述方式输入查询意愿，那么将检索到更多符合心愿的查询结果。于是，新的需求提出一个非常重要的、富有挑战性的研究问题——以某一种或多种媒体表达方式描述的用户查询与以不同类型媒体表达方式描述的媒体信息之间的相关匹配问题，即基于内容的跨越媒体的信息检索（Content-based Cross-media Information Retrieval-CMIR），它从单一媒体检索走向各种媒体的综合检索。

　　虽然传统的文本检索、面向单一媒体的多媒体信息检索技术等已获得一定成功，它们却难以有效应用到跨媒体信息检索之中，主要原因有：（1）跨媒体信息检索系统融入语音、视频、图像以及其他混杂的媒体，从这些媒体中分析提取语义信息是一个相当复杂的过程，需要计算机视觉、语音图像智能处理、人工智能与模式识别、数据挖掘等多方面技术的高度综合，而传统的信息检索基本上只依赖于自然语言与文本处理技术；（2）跨媒体融入了多种信息源和异构多媒体数据库，信息提取和语义分析需要考虑各个单独的信息源，因为融合所有可能的信息能有效的帮助系统精确地搜索定位用户的查询，这与单一的基于某一种媒体的检索系统截然不同，具有更大的意义和挑战性；（3）跨媒体信息检索并不是直接在海量多媒体数据库上进行的检索，它需要提出有效索引和搜索框架。这种跨媒体的检索框架能综合所有类型的媒体，有效支持用户查询描述、系统内容访问以及查询结果的可视化显示等。这一领域的研究是现在基于任何单一媒体检索中都未尝试过的。

　　更具体一点来说，跨媒体信息检索是指根据媒体内容及其上下文联系在大规模多种媒体共存的数据库中进行检索，系统组成主要有：（1）多媒体和跨媒体信息建模和表示；（2）对多媒体信息（如视频、图像、文本、音频、动画等）的智能处理与识别；（3）复合媒体信息中各媒体之间融合方法；（4）支持海量媒体数据快速相似检索的数据组织和索引结构；（5）支持多模态用户信息需求的查询处理和相关反馈技术；（6）海量多媒体与跨媒体内容的管理和检索系统。限于文章篇幅，这里不能一一展开。

　　国外主流研究工作介绍

　　美国NSF、ARPA和NASA资助的数字图书馆项目——其主要研究目标：搜集、存储和组织数字信息的新技术，通过网络实现信息的搜索、检索和处理。例如，参加单位之一CMU大学所承担的Informedia项目允许用户访问、挖掘、检索海量的数字视频库，在其系统中集成语言、图像和自然语言理解技术。

　　Informedia同等看待语音和视频信息的作用，采取多种智能处理技术，利用CNN广播电视节目中的脚本信息（closed-caption）构造文本索引，采用Sphinx III语音识别器将伴音转换为文本；使用视频分析模块提取人脸特征、叠加在屏幕上的文本、视频镜头边界等，然后将这些信息全部绑定形成最终索引结构，支持快速相似检索。

　　Cambridge大学项目——通过视频邮件检索（Video Mail Retrieval-VMR）和多媒体文档检索（Multimedia Document Retrieval-MDR）探讨一系列话音文档（spoken documents-即将连续话音用语音识别器进行识别后所形成的文本文档，与完全人工翻译相比，话音文档存在识别错误）检索技术。VMR使用交互式开放词汇搜索技术，并结合说话人无关的声学模型，针对5个小时话音消息，表现出非常好的消息检索能力，其性能达到完全人工翻译的75%左右。MDR则研究针对大规模新闻广播语料的有效检索技术，它采用内含HMM算法的大词汇语音识别系统。

　　IBM的QBIC和CueVideo项目——QBIC是第一个商用图像检索系统，其系统框架和关键技术对后来的图像检索研究具有深远影响。QBIC支持以下检索功能：基于样本图像的查询、根据用户描绘的草图查询、根据用户从样本中选择的颜色或纹理进行查询等。

　　CueVideo系统则由视频检索和浏览系统、多媒体信息自动索引系统组成，其目标是解决大规模视频数据库的生成、索引和使用等具有挑战性的问题。CueVideo主要是解决两个瓶颈问题：为海量视频数据库建立索引的代价很大；用户难以做到方便检索和浏览视频的内容。为了快速实现全自动的索引和建立超级链接，它组合视频和音频分析、语音识别、文本信息检索和人工智能等技术。

　　Compaq的SpeechBot项目——SpeechBot是一种用于音频和视频索引的通用工具，它可以处理海量语音识别和用户查询数据，从Web或内部网中获取音视频数据，使用大词汇连续语音识别系统处理音频数据。另外，如果音频数据所对应的脚本已经存在，那么就不必用语音识别模块，只需用音和词对齐模块即可，为每个词作时戳标记。索引系统将为每个词建立索引，并且将词和音频数据中的语音对应。

　　国际标准化工作介绍（MPEG-7）

　　MPEG-7即“多媒体内容描述接口”，其标准化音视频信息内容的描述，但不规定具体的特征抽取、搜索和过滤算法，是多媒体信息检索与过滤等应用领域的非常重要的国际标准。

　　下面给出一些具体的多媒体信息查询实例，可以基于MPEG-7标准进行开发和实现。

　　用户播放一段乐曲，作为提交给检索系统的查询意愿，检索系统将返回一组乐曲或类似情感的图像；用户用自然语言描述一个剧情，检索系统将返回一组视频序列；用户提交一段话音，检索系统返回讲话人的视频镜头序列。

　　结论

　　综上所述，基于内容的多（跨）媒体信息检索技术是一种新兴的信息处理技术，它包含了自然语言处理、图像处理、视频处理、语音识别、数据库与数据挖掘、模式识别、人工智能、机器学习等众多学科，是一个长期的、复杂的、富有挑战性的研究课题。