音频检索(精选4篇)
音频检索 篇1
1 引言
随着互联网和移动通信技术的发展, 越来越多的人能够更加方便、快捷、经济地通过网络查找和传输各种信息。基于文本的信息检索已经无法满足现代的人们的需求, 图像图形信息和音频信息检索应运而生。
音频信息作为一种重要的信息载体, 相比图像、图形和文本信息有其独特的便利和优越性。音频信息检索技术有着广泛的应用前景: (l) 它是智能语音系统的核心技术, 用户可通过该技术方便快捷地获取所需的信息; (2) 它可以实现对网络中的媒体, 例如网上电视, 音视频等的音频信息进行实时检索、审查和有效监控, 对各种数字音频产品的版权保护, 如音乐的版权保护, 即搜索未经授权的使用等; (3) 它在音频信息分类与统计技术的研究中也扮演着重要的角色, 如在广播电视新闻节目、数字图书馆等内容中包含着大量的语音、音乐等信息, 使用音频信息检索技术可以有效地对这些信息进行分类、统计与检索, 更好地管理、存储与高效利用这些资源。此外, 它还可应用于网络管理、信息安全以及军事刑侦等诸多领域。
2 音频检索技术
2.1 音频及音频内容
音频泛指人类能够听到的所有声音。人耳能够听见的声波频率范围是20Hz~20 000Hz, 其中语音频率大约分布在300Hz~4 000Hz之间, 而音乐和其他自然声响则是全范围分布。
音频的内容从整体上来看可以分成三个等级:最底层的物理样本级、中间层的声学特征级和最高层的语义级。在物理样本级, 音频内容呈现的是媒体流形式, 其中包含原始音频数据和注册数据 (如采样频率、量化精度和压缩编码方法等) [1]。用户可以通过时间刻度检索或调用音频的样本数据, 如常用的音频录放软件Cool Edit。中间层是声学特征级。声学特征是从音频数据中自动抽取的, 它可以分为物理特征 (Physical Feature) 和感觉特征 (Perceptual Feature) , 前者包括音频的基频、幅度和共振峰结构等, 后者表达用户对音频的感知, 例如音调、响度和音色等, 可直接用于检索。最高层是语义级, 是音频内容、音频对象的概念描述, 在这个级别上, 音频的内容可以是语音识别、辨别后的结果 (文本) 、音乐旋律和叙事说明等。
2.2 主要的音频检索技术
早期对于音频信息的检索, 主要是采用文本检索技术, 即通过人工方式输入音频的属性和描述 (例如文件名、文件格式等文本信息) 来进行检索, 但其局限性非常明显:首先, 互联网信息庞杂, 充斥着许多未标注、错误标注文件名等文本信息的音频数据, 而如要正确标注互联网所有音频数据显然非人力所及;其次, 许多现实的应用需要使用音频数据本身的感知内容, 而这种感知内容通过简单的文件名等文本标注无法体现, 如音乐的旋律、音调、音质等[2]。再次, 即便针对于语音信息, 比如新闻记录、谈话记录等, 通过文本检索技术也仅仅是检索其文件标注, 而不能检索其内容。
为了解决上述问题, 基于内容的音频检索 (Content-Based Audio Retrieval, CBAR) 应运而生。它主要研究如何利用音频信息的幅度、频谱等物理特征, 响度、音高、音色等听觉特征和音频类别、语义等特征实现音频信息检索[3]。由于起步晚、数据复杂、研究难度大等原因, 基于内容的音频信息检索技术和文本检索技术相比仍存在很大差距, 还有大量问题亟待解决。
2.3 音频检索系统的基本框架
音频的听觉特性决定其查询方式不同于常规的信息检索系统。基于内容的音频检索, 该方法是从媒体数据总体取出特定的信息线索, 建立音频数据表示方法和数据模型, 采用有效和可靠的查询处理算法, 使得用户可以在智能化的查询接口的辅助下, 从大量存储数据库中的媒体进行查找, 检索出与接收的音频信号具有相似特征的媒体数据出来。它实际上是一种相似查询, 是检索出与用户指定的要求非常相似的所有声音。其检索系统的基本框架如图1所示:首先是建立数据库:对音频数据进行特征提取, 将特征装入特征库部分, 并通过特征对数据聚类, 然后将聚类信息装入聚类参数库部分。数据库建立以后就可以进行音频信息检索。在查询接口上, 用户可以采用以下形式提交查询: (1) 示例查询方式 (Query by example) :用户通过查询界面选择一个声音查询例子, 并设定属性值, 然后提交查询。如查询与飞机的轰鸣声相似的所有声音。 (2) 拟声查询方式:用户发出与要查找的声音性质相似的声音来表达查询要求。如用户可以发出“嗡嗡”声来查找蜜蜂或电气嘈杂声。 (3) 主观特征:用个人的描述语言来描述声音。这需要训练系统理解这些描述术语的含义, 如用户可能要寻找“欢快”的声音。用户提交查询后, 系统对用户提交的内容进行提取特征, 结合属性值确定查询特征矢量, 并对特征矢量进行模糊聚类, 然后检索引擎对特征矢量与聚类参数集进行匹配, 最后按相关性排序后通过查询接口返回给用户[4]。
2.4 音频检索系统的核心技术
音频检索技术中最关键的主要是音频内容识别、获取与分类、音频特征提取 (音频内容的描述) 和音频分割与分类和特征相似度匹配四个部分。首先是预处理阶段对输入的音频进行格式转换 (在此实现多采样率支持, 多格式支持 (wav, mp3, rm) , 转换为系统内部统一格式) [5]。
其次音频特征提取是整个音频检索最核心的技术, 它是在音频内容获取的基础之上进行的, 同时是进一步进行音频特征相似度匹配的必要前提, 特征提取是指寻找原始音频信号的表达形式, 提取出能代表原始信号的数据形式.与文本检索中的特征是关键字不同, 在音频数据中提取特征有两种方法, 一种是提取听觉感知特征如音调、音高等。另一种是计算非感知特征或者称物理特征, 如对数倒频谱系数、线性预测系数。要抽取特征和属性, 通常要对数据库中的多媒体数据项进行预处理。所有这些提取出来的特征被用来表征音频数据流, 在检索过程中, 是对这些特征和属性而不是对信息项本身进行搜索和比较, 所以特征抽取的质量决定着检索效果。
由于音频信息是时间序列的数据流, 为了对持续时间很长的音频直接进行处理, 选择在其特征发生突变的地方进行分割, 把连续多媒体数据流分成不同长度的数据片段, 即音频分割, 然后对分割好的数据片段进行处理。音频数据流分割基本是根据所提取的音频低层物理特征完成的, 所分割出来音频数据只是些物理单元, 需要对这些物理单元进行识别分类, 将它们归属成事先定义好的不同语义类, 这由音频识别分类这一步完成。根据音频的特征值可将音频进行分类, 在这一步中, 可以对分割出来的音频物理单元进行组分, 如将切分出来的音频分类为静音、音乐和语音、环境音等, 也可以进行某一事件或某一人物的精细分类, 如“暴力”事件、“演讲”事件等。常见的分类方法是:首先计算输入音频片段的频谱中心, 如果其频谱中心值比预先设定的阈值高, 则认为它是音乐, 否则它是语音, 但由于有的音乐也具有低的频谱中心值, 因此, 它也可能是音乐。其次, 计算静音比, 如果它的静音比低, 则认为它是音乐, 否则, 认为它是语音或独奏音乐。最后计算平均过零率ZCR, 如果它有着非常高的ZCR可变性, 则它是语音, 否则它是独奏音乐。
最后就是对识别出来的语义类建立索引, 进行检索。建立索引可以有三个途径:
(1) 用文字形成的抽象概念描述这些类别, 这样用户必须通过文字查询音频数据。
(2) 用音频特征建立索引, 查询时用户提交的是对特征的描述, 如对音频能量描述的“音调”。
(3) 提交一个音频例子, 提取这个音频例子的特征, 按照前面介绍的音频例子识别方法判断这个音频例子属于那一类, 然后把识别出的这类所包含的若干个样本按序返回给用户, 这是基于例子的音频检索。基于例子的音频检索遵循概率排队的规则, 根据用户的查询需要, 基于检索模型对查询样本和库中音频分别计算音频的相关特征, 并比较相似性, 最后按相似性值由大到小排列库中音频, 完成一个查询过程。
3 音频的检索模式
根据音频的特性, 可以将音频划分为三种:语音、音乐和其他声响。相应的音频检索可以分为三种主要的模式:语音检索、音乐检索和波形声音检索。语音检索是指以语音为中心的检索, 采用语音识别等处理技术进行检索, 例如有关电话记录、会议录音的检索等。音乐检索是以音乐为中心的检索, 充分利用音乐的音符和旋律等音乐特性来进行检索, 例如音乐作品的检索等。波形声音检索主要以波形文件为对象的检索, 依据声学特征来检索。后两者都是利用更一般性的音频分析, 以适合更广泛的音频媒体。
3.1 语音检索技术
基于语音技术的检索目前较成熟的有:利用大词汇语音识别技术进行检索、子词单元检索、关键词识别检索、对说话人的辨认进行分割检索。
(1) 利用大词汇语音识别技术进行检索
这种方法是利用自动语音识别 (ASR) 技术把语音转换为文本, 从而可以采用文本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度, 但在实际应用中, 如电话和新闻产播等, 其识别率并不高。即使这样, ASR识别出来的脚本仍然对语音信息的检索有用, 这是因为检索任务只是匹配包含在音频数据中的查询词句, 而不是要求得到一篇可读性好的文章。
(2) 子词单元检索
当语音识别系统处理无限制主题的大范围语音资料时, 其识别性能会变差, 尤其当一些专业词汇 (如人名、地点) 不在系统词库中时。一种变通的方法是利用子词 (Sub-Word) 索引单元, 当执行查询时, 用户的查询首先被分解为子词单元, 然后将这些单元的特征与库中预先计算好的特征进行匹配。
(3) 关键词识别检索
在无约束的语音中自动检测词或短语通常称为关键词的发现 (Spotting) 。利用该技术, 识别或标记出长段录音或音轨中反映用户感兴趣的事件, 这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。
(4) 对说话人的辨认进行分割
这种技术是简单地辨别出说话人口音的差别, 而不是识别出说的是什么。它在合适的环境中可以做到非常准确。利用这种技术, 可以根据说话人的变化分割录音, 并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化, 建立索引和确定某种类型的结构 (如对话) 。例如, 分割和分析会议录音, 分割的区段对应于不同的说话人, 可以方便地直接浏览长篇的会议资料。
3.2 音乐检索技术
基于内容的音乐检索涉及音乐旋律的表达、音乐旋律的特征提取、用户查询构造、音乐旋律匹配以及音乐数据库构造等很多方面的问题, 这些问题的解决是建立一个完整、有效的音乐检索系统的关键。基于内容的音乐检索通常采用下面通用的步骤: (1) 音乐旋律的表达.即音频信号的预处理; (2) 通过对音乐旋律的特征提取, 形成查询索引; (3) 对音乐数据库中的音乐建立音频索引; (4) 用户查询构造; (5) 根据查询索引和数据库中音频索引之间的相似性, 对音乐片段进行检索。基于内容的音乐检索主要是基于音频特征 (如节奏、音符、乐器) 矢量匹配和近似音调匹配。计算机对信息的表达归根结底是种状态表达, 要将听觉感知的信息借助计算机进行存储与检索, 这不仅依靠用户本身感官与表达的一致性, 也依靠统计的度量算法的选用, 因此, 基于内容的音频检索只能是一种相似性检索, 而无法实现传统的精确匹配检索。虽然研究人员已在基于内容的音乐检索技术方面做了大量的研究, 但是为了满足大容量数据库和www检索的要求还有许多工作要做。
3.3 波形检索
其他音频检索是以波形声音为对象的检索, 这里的音频可以是汽车发动机声、雨声、鸟叫声, 也可以是语音和音乐等, 这些音频都统一用声学特征来检索。虽然ASR可以对语音内容给出有价值的线索, 但是, 还有大量其他的音频数据需要处理, 从声音效果到动物叫声以及合成声音等[6]。因此, 对于一般的音频, 仅仅有语音技术是不够的, 使用户能从大型音频数据库中或一段长录音中找到感兴趣的音频内容是音频检索要做的事。音频数据的训练、分类和分割方便了音频数据库的浏览和查找, 基于样例的音频检索为用户提供高级的音频查询接口。
4 音频检索的研究现状与不足
音频检索日益成为国内外研究的热点, 目前较成熟的研究包括美国的Muscle Fish系统;IBM的Via voice系统;马里兰 (Maryland) 大学的Voice Graph系统和Android系统的Voice Actions;苹果公司的siri智能语音控制系统, 以及国内的金立手机的语音控制系统和ARS系统。
Muscle Fish是较早推出的较为完整的原型系统。它通过直接对音频进行波形特征分析, 得到声学参数如音高、音强、音长、带宽等, 形成相应的N维特征矢量, 并以此作为比较和聚类的依据。
Via voice和Voice Actions主要是语音识别系统, 用户可通过话筒输入语音信息, 就可以让计算机执行相应的命令, 包括搜寻相应的信息, 打开软件, 写报告等等。Voice Actions提供了非常坚实可靠的声音识别引擎, 它的高识别度令人称奇。不过, 这两个系统也和过去的所有语音命令系统一样, 要求说的话要具备严格的语法结构和格式, 否则系统将无法识别。
苹果公司i OS系统自带的Siri和前者类似, 也是一款以语音识别为基础的系统, 但相比前者, 它不仅拥有较完善的语音识别功能, 可以通过声控搜寻相关信息, 执行某些命令, 其最大的特点则是在人机互动方面, Siri可以针对客户的询问进行语音回答, 回答的内容不至于答非所问, 更重要的是, 可以抛弃繁琐的语法结构, 甚至思维模式也可以混乱, Siri会结合上下文结构去理解, 它还会从人类语言史的角度出发, 利用人工智能系统去分析, 并在绝大多数情况下领会用户的意思。而更加人性化的特点是, 一旦你开始和Siri进入一段对话, 它甚至能理解许多含义模糊或者引申的语义, 所以在一定意义上说, Siri是一款智能控制系统。而Voice Actions做不到这样的事情, 因为它只是一个声控命令软件, 而并非人工智能。
Voice Graph结合基于内容和基于说话人的查询, 检索已知的说话人和词语, 并设计了一种音频图示查询接口。
国产的金立语音王手机自带的金立语音控制系统和ARS也是一种基于内容的音频检索系统, 金立语音控制系统主要是中文的语音识别, 在识别的基础上实现某些手机功能的操作, 使用范围狭窄, 仅仅适用于操作金立手机上的相关功能, 对语音的识别也很有限。而ARS系统通过提取音调、音强、亮度、带宽、过零率等5个特征, 对数据进行分类和处理。操作过程首先判定其是否为音频, 而后进行语言识别以判定采用何种音频检索模式。
上述几个系统中Muscle Fish、Voice Graph和ARS虽然都是基于内容的音频检索系统, 但都有各自的不足, 如Muscle Fish虽然直接进行波形检索, 但他只对笑声、铃声、电话声等16类特定的声音有较高的准确率, 而对于这16类特定声音的检索性能的好坏还依赖于哼唱输入信号的音调跟踪的准确性, 只有当在相邻的音符之间插入一个停顿时才能获得很高的性能。而Voice Graph使用的准确度也非常有限, 而ARS和金立语音识别主要是针对中文语音, 识别的范围也十分有限, 对于音乐和其他波形的准确率都有待提升。Siri在语音识别方面算是十分完善的, 支持中文、英文、法文等十多种语言的识别和控制, 但是同样的对其他音频都不能进行处理。
基于内容的音频检索还处于不成熟的领域, 基于语音识别的语音索引和检索相对比较容易, 但是没有任何词汇限制的一般主题的语音识别性能仍有待改进。对于音乐检索, 主要是基于音频特征矢量匹配和近似音调匹配, 这方面许多研究已经做了大量工作, 然而对于一般情况下如何感知音乐和音频以及关于音乐片段之间的相似性比较, 还有许多工作要做。
5 总结与展望
本文介绍了音频检索系统的框架, 主要的检索技术和检索模式和相关的问题, 虽然许多研究对音频检索技术做了大量探讨, 但基于内容的音频检索还处在起步阶段, 该研究领域与信号处理、人感知心理研究和模式识别等学科都紧密相连。为了使计算机能像人那样对音频语义实现自动理解, 对音频信息就行搜索, 还有许多急待解决的问题, 如高层概念和底层特征的关联, 以实现音频语义的计算机自动抽取;网络大量数据的高效处理检索;音乐旋律的结构化检索等。此外, 对音频特征的表示、音频信息的聚类以及特征信息的挖掘都有待进一步的发展。
参考文献
[1]黄卫平, 肖健宇, 张大方.多媒体数据库的关键技术:特征的提取与索引.计算机工程与应用, 2003, 39 (11) :194~196
[2]邢伟利.基于内容的音频检索技术研究与实现[D].西安:西北大学.2004
[3]李国辉等.基于内容的检索[N].计算机世界专题, 1998, 05:26
[4]李恒峰, 李国辉.基于内容的音频检索与分类[J].计算机工程与应用, 2000, 07:54~56
[5]刘伟成, 孙吉红.基于内容的图像信息检索综述[J].情报科学, 2001, (4) :431-437
[6]吴春辉, 钟宝荣.基于内容的音频检索技术研究[J].科技情报开发与经济, 2007, 17 (6) :222~223
音频数据检索专利技术综述 篇2
音频数据检索最初使用的是基于人工产生的信息进行检索,例如使用人工标注的标题,艺术家信息等信息用于查询[1]。但随着音频数据的快速增长以及为满足人们对实时音频数据流检索的要求,需要大量的人工劳动且其主观性强的基于人工产生的信息进行检索的技术越来越难以满足用户需求,人们希望能够实时通过一小段未知来源的音频快速地获取其相关的完整信息,于是基于音频内容特征的音频检索技术应运而生。基于内容的音频检索,是指利用音频的频谱、旋律等特征实现检索[2],如通过“哼”某音乐的曲调在海量音频库中查找此音乐,现如今流行的“听歌识曲”就是这一技术的体现,其也代表了音频数据检索的重要发展趋势。对音频数据检索领域相关专利进行分析和总结将有助于了解本领域的研究现状,引导科研人员的研究方向。文章对音频数据检索技术领域的专利年申请量趋势、专利申请区域分布和重要申请人分布分别进行统计分析,并简单梳理了音频数据检索关键技术的发展脉络。文章以截止到2016年6月3日SIPOABS数据库已受理的公开专利数据为基础。
2 专利的整体情况分析
2.1 申请量趋势分析
图1显示SIPOABS数据库中音频数据检索领域的专利申请年度分布图。可以看出,在2000年前处于技术萌芽期,此时专利申请量相对较少。而2000年开始,音频数据检索技术开始进入快速发展期,该领域的技术专利申请量出现持续快速增长;并且在2006年全球申请量第一次达到高峰,而后可能受全球经济形势的影响,专利申请量有所下滑,但是得力于语音识别技术的快速发展,到2012年该技术的申请量再次来到高峰,并且在2012至今每年申请量都保持在高水平。
2.2申请人区域与重要申请人分析
图2和图3分别示出了国内外该领域专利申请人区域分布图和重要专利申请人分布图。由图2可知,美国、中国、欧洲、日本、韩国是排名前五的国家。其中,美国申请量最大,占比54%。
从图3可以看出,上述该领域的多个重要申请人均是源于这些国家。美国的微软和IBM领先与其他申请人,飞利浦、谷歌、三星紧跟其后,中国的腾讯也有大量的申请。由此得出众多国际知名企业在音频数据检索领域做出的大量研究,且做出了相应的专利布局。
3 音频数据检索技术演进路线分析
为了能够更加全面地了解音频数据检索技术,下面将该技术的基于音频内容特征的检索和基于人工产生的信息检索两个技术分支进行演进路线分析,重点分析两个分支在不同发展时期的关键专利。
3.1 基于人工产生的信息的音频检索
基于人工产生的信息的音频检索是指利用人工产生的信息如标题,艺术家信息,标签,关键词,时间,用户评价等用于查询[1]。1999年IBM申请的使用内容和扬声器信息进行音频信息检索的方法和装置(申请号US19990288724),首次结合了人工标注的信息进行音频检索,实现了根据音频内容和演讲人标识执行查询的音频检索系统。微软及索尼都在该技术上做出进一步研究,分别申请了用于封装媒体对象的代表性样本的系统和方法(申请号CN200480012356)和基于音频搜索条件的搜索系统和搜索方法(申请号CN200780031603)。随后国内公司也在这方面做出大量研究,其中包括关键专利有腾讯申请的音频标签设置方法及装置、存储介质(申请号CN201410025446)在检索效率上做出改进。
3.2基于内容的特征的音频检索
基于音频内容的特征的音频检索是指如何利用音频的幅度、频谱等物理特征,响度、音高、音色等听觉特征,词字、旋律等语义特征实现与音频内容信息相关的检索[2]。索尼公司申请的专利对于机器人装置的动作教学装置和方法(申请号JP2001091030A)为该技术奠定基础,该申请通过语音识别结合关键词检索方便与机器人对话。此后,国内外对音频指纹、旋律等特征的识别效率和检索效率上不断做出改进,不断推动着音频检索技术的发展。2011年后国内该项技术迎来发展高峰,重大企业公司及重点院校都对该技术申请了关键专利。如腾讯在2011年申请的音频指纹检索方法及装置(申请号CN201110340094)和复旦大学在2013年申请的基于音频指纹特征的音乐检索系统(申请号CN201310378000)都对音频指纹的识别做出改进,提高了检索效率。
4结束语
音频数据是最重要的多媒体数据之一,随着网络技术的普及,其重要性不言而喻,结合不同的音频处理技术,其在不同领域里的应用也愈加广泛。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,也可广泛的应用于远程教学、卫生医疗、数字图书馆、环境监测等领域。
摘要:随着计算机技术的快速发展,人与机器之间的交流也越来越广泛,让计算机听懂语音,从海量的音频信息中迅速、有效地检索出所需要的音频信息就变得越来越重要。文章通过检索、统计、分析音频数据检索技术的国内外专利申请,从中获得音频数据检索的申请量趋势、申请人区域分布、重要申请人等信息,并从基于人工信息的音频检索和基于内容的音频检索两个技术分支简单梳理了音频数据检索中关键技术的发展脉络,最后对音频数据检索的未来发展进行了展望。
关键词:音频数据检索,基于内容,人工信息,专利
参考文献
[1]李晨,等.音频检索技术研究[J].计算机技术与发展,2008,18(8):215-218.
基于音频检索的电台广告监播系统 篇3
关键词:音频检索,广播电台,监播系统
广播电台以音频为主要播出内容。除了音频播出, 音频节目和广告监控也是日常的重要工作之一。广告商需要查看某条广告的播放次数和时长, 音频编辑需要剪辑往期的归档音频资料, 传统电台的节目监控与广告监控都是人工操作, 委派专人对电台各个频道24小时的节目与广告播放情况进行记录和监督, 其中, 经常应用的音频信息的检索采用人工标注法。然而, 随着音频存储量级的增长, 这种方法的弊端显得尤为突出:机械性的工作不仅效率低, 容易出错, 也是对人力资源的极大浪费。另外, 人工标注法带有很强的主观歧义性, 会造成检索结果的不准确。此外, 人工标注法不能应用到所有的检索过程。因此, 急需一种不依赖于个人主观意识, 而是利用计算机的快速计算和信息处理能力, 从音频或多媒体的固有特征出发, 快速地进行信息检索的方法。
本文提出了一种基于内容的音频检方法应用于电台广告监播系统中, 它将音频的语义信息和检索过程联系起来, 从而能够快速有效地在海量音频数据中检索出所需内容。将音频数据的固有特征作为检索条件, 能够做到检索结果的客观准确, 同时, 计算机的运算检索, 实现了高速和低成本。与专人值守的方法相比, 采用音频检索技术来进行广告检索简单高效。
1 音频分段式检索
音频分段式检索是在把音频样例分成小段之后, 分别对每一段进行单独的检索, 最终再按照各个小段在时序上的先后关系进行综合, 就能得到最终的检索结果。在对音频样例进行分段划分时, 每段的长度可以不同, 只要首尾对应即可, 但出于简化算法考虑, 可以将音频样例进行均匀划分, 例如平均分为n段, 每一段的序号依次是1, 2, ..., n。每一段的长度为li。由于音频样例的每一段之间具有时序性, 所以通常都是序号小的片段最早被检索出来。音频分段式检索过程如图1所示。
1.1 音频特征提取
为了提高系统的实时性, 需要对音频信号进行短时处理, 因此在选择音频特征时, 首先考虑的就是短时能量、短时过零率等音频特征。
1.1.1 短时能量
1.1.2 短时过零率
短时过零率, 即信号在短时间内通过零值次数的比例, 应用于音频信号的时域分析中。短时过零率可以用来区分清音和浊音部分, 因为高频部分的过零率高, 低频部分的过零率低。可将短时能量和短时过零率结合起来考虑, 用来确定音频信号的起止位置, 即进行端点检测。当背景噪声比较小, 用短时能量来检测端点比较准确, 而当背景噪声比较大, 用短时过零率则比较准确。语音信号的短时过零率定义为:
1.1.3 频谱质心
频谱质心反映的是一段音频信号的能量在频域上的分布情况, 即高频分量和低频分量的比例。如果音频的的短时频谱中的高频分量比较多, 则它的频谱质心就会比较大, 反之则会比较小, 它的数学表达式如下, 其中, Mt[n]是信号短时傅里叶变换的幅度, N是傅里叶变换的阶数, n是数字频率。
1.2 音频特征匹配
在进行分段检索时, 每输入一帧音频数据, 就要计算一次输入模板和音频样例的相似度, 即音频特征匹配。由于每一帧音频数据都是向量, 因此每一个片段都对应一个特征向量序列。两个片段的特征向量序列的对应向量之间相似度的均值就是两个片段之间的相似度。为了减少片段向量序列之间的匹配计算量, 可以采用自相似加权距离法, 对数据降维之后再进行处理。对于第i帧v维向量Xi, 对应的一维量化值为:
其中, d (Xi, Xi-j) 是两个特征向量之间的间距, Range为加权范围, cj为加权系数, 其值如下:
自相似累积距离反映了音频数据自身的变化情况, 两段内容相似的音频数据的量化值序列也存在着较高的相似性。音频片段的各帧特征向量的一维量化值构成了一个多维向量, 称作片段向量。如果采用余弦距离或者欧氏距离来计算片段向量的相似性, 则可减少各帧特征向量序列之间的匹配计算量。因此, 在进行匹配比较时, 先计算片段向量之间的相似性, 只有片段之间的相似性满足一定的阈值之后, 才计算特征向量序列之间的相似性, 该方法大幅度降低计算量, 并提高匹配速度。
2 音频特征与分类
特征与分类是音频分类的两个主要问题。在进行实时检索时, 分类的的音频数据长度不能太长, 否则就会影响到检索的实时性和检索的结果。一般将音频数据分为静音类、语音类和音乐类以及环境音等四种类型。
在各种音频的分类法中, 层次分类法的运算速度最快。根据音频信号的短时能量和短时过零率, 可以把音频信号的清音部分 (即静音) 区别出来。而对于非静音部分, 则可以运用音频信号的和谐度来区分。如果音频信号的和谐度小于某一阈值, 则可以推断出该信号为环境声音, 否则可能是音乐和语音。对于语音和音乐, 可以用频谱质心来区分。如果频谱质心大于某一个阈值, 则应该为音乐信号 (因为语音类信号一般都是低频) , 如果小于这个阈值, 则可能是音乐, 也可能是语音, 这时可以再根据低能量帧率以及短时过零率来区分。
基于分类的多目标检测不仅检索速度快, 还能通过调节检索窗的长度来调节检索的速度, 并且可以根据检索的要求进行灵活的设置。而且即使在用户输入的检索音频出现残缺的情况下, 仍然可以获得良好的检索效果, 即具有很好的鲁棒性。因此基于分段的检索方法能够检索来自任意音频源的任意长度的音频数据, 适合于实时检索。
3 系统设计
目前全台共有10套无线广播节目, 一套卫星广播节目, 每天播出节目的时间合计216小时, 其中直播的节目约135小时, 约占总播出时间的60%, 除部分需重播节目有随录外, 大量节目都是实时对空播出, 广告的插播也具有实时性, 因此要对电台的广告播出进行监控, 需要充分考虑到实时性的问题。
与其它音频检索的应用相同, 进行电台广告的音频检索时, 也需要解决的两个问题是如何选取合适的音频特征以及如何定义音频的匹配程度。为了提高系统的实时性, 需要对音频信号进行短时处理, 因此在选择音频特征时, 首先考虑的就是短时能量、短时过零率等音频特征, 而至于如何定义音频的相似度, 则可以通过模板匹配来实现。
为了提高系统的实时性, 对广告的监控采用两个步骤, 即先对广告头进行检测, 待检测到广告头之后, 再将后续的音频流与广告库中的广告进行比对, 从而确定检索的是哪一条广告。
3.1 广告头检出
对电台广播中的广告检索的设计, 主要需要解决实时性问题, 采用广告头检索的方法能够加快算法的处理速度, 提高系统的实时性能。先对广告头进行检索, 可以缩短待检广告的长度, 而且减少了广播音频流的采样点数, 可以加快第一轮粗略检索的速度。经过广告头检索之后, 将可能成为匹配目标的广告数据流进行分割处理, 并提取相应的特征模板, 以便进行进一步的匹配确认。
在对广告头进行检索时, 首先要采集到广告头的短时特征, 之后将它与广播音频的短时特征进行匹配比较, 在此采用卷积的方法, 将广告头的短时特征与音频流的短时特征进行卷积处理, 得到的波形如图4所示。
在进行广告头检索之后, 将所有“可疑”音频流的特征模板进行处理, 生成特征矢量, 然后将它与待检广告的特征库进行匹配, 在进行匹配比较之后, 将其中匹配程度最高的广告样本作为检索结果并输出。
由于广告头的检索属于粗略检索, 为保证检索的准确性, 避免将可能的广告排除在外, 需要将匹配阈值设定相对较低, 将所有可能是待检广告的音频段都作为检索结果输出, 以便进行第二步的整体广告检索。
3.2 广告检出
通过对广告头的检索, 获取经过筛选之后的广告片段。在对这些广告片段进行检索之前, 先为每一条待检广告建立一个数据表, 分别记录每一条广告的插播信息。将这些广告片段进行分割分段, 提取相应的特征信息, 将特征信息与广告库中的特征矢量进行对比, 得到它们的相似度, 最后再将其中相似度最高的广告音频作为检索结果进行输出。输出的音频片段即为检索到的目标广告, 进而跟踪记录其结束时间或持续的时间长短以及在一段时间之内重复播放的次数。广告检出流程如图5所示。
3.3 归档管理
电台广告监播系统的音频检索除了应用于广告检索, 还应用于已播节目的归档管理和查询检索方面, 减少已播出节目资源的浪费, 并提高资源的利用率。在节目归档方面的应用结合了节目归档管理系统, 如图6所示。
系统对已播音频节目进行采录, 自动发送至节目临时库 (矢量特征库) 。在矢量特征库中, 用过采用音频特征提取的方法提取输入音频的特征文件, 再通过音频特征匹配的方法将提取出的音频特征文件与库中提前生成的音频特征文件进行匹配。矢量特征库中保存的音频特征文件是随着节目、广告的变动而随时更新, 以保证库中的特征文件的时效性, 从而确保了检索的准确性。音频特征匹配后得到每一栏节目的开始点和结束点, 系统将进行自动剪辑与归档, 并对每一栏节目的每一期内容进行自动标注, 便于今后的检索使用。
4 结束语
电台广告监播系统, 包括由基于内容的音频检索系统和节目归档管理系统。音频的检索采用音频分段式检索方法, 通过提取包括短时能量、短时过零率和频谱质心等音频特征, 与音频矢量特征库中的预存音频特征文件进行匹配和分类, 完成对广告音频的检索。同时, 结合节目归档管理系统, 实现了对已播节目归档和管理, 便于已播节目的查询和再利用。基于内容检索的电台广告监播系统效率高, 在提高了音频检索准确性。
参考文献
[1]郑贵滨.基于内容的音频信息检索技术研究[D].博士学位论文, 哈尔滨工业大学, 2006.
[2]李霄寒, 戴蓓倩, 方绍武等.高阶MFCC的话者识别性能及其噪声鲁棒性[J].信号处理, 2001, 17 (2) :124-129.
[3]朱爱红, 李连.基于内容的者频检索关键技术研究[J].现代计算机, 2003, 175.
音频检索 篇4
当前,检索已从单纯的数据、文献的查询(如数字图书馆)、电子商务和网上购物(如Web网页的浏览)迅速发展到多媒体可视化的检索(如图像、视频、音频信息的检索),还出现了视频个性化检索等。不过,从用户端来看,可以直观地将信息检索理解为用便捷的方式得到所需要的信息;而从信源端来看,则是如何有效地存储各种不同形式的信息,使用户可以简便快捷地获取信息。这就意味着以系统为主时,要研究信息的表示与变换、存储方式、数据库组织结构、检索方式以及显示等内容;而以用户为主时,就要研究用户的常态检索方式、个性化的需求等。因此,检索实际上是包括制定必要的行业标准在内的多学科的综合研究。检索方式会迅速发展,不断会有更有效的检索方式出现,淘汰效率较低的检索方式。如何建立模型则是其中核心的研究内容,它会长久地指导信息检索今后的研究动向。为此,本文将介绍其中一些基础的模型以及与它们的度量有关的问题,供业界科技与管理人员参考。
1 信息的定义和度量
按照经典信息论的定义,信息是事物运动状态或存在方式的不确定性的描述。状态的不确定性的大小,与该事物可能出现的不同状态数目及各状态出现的概率有关[1]。
由概率论可知,事件的不确定程度可以用其出现的概率来描述,即概率与事件出现的可能性成正比。基于这种认识,可以得到:消息中的信息量与消息发生的概率紧密相关,消息出现的概率愈小,则消息中包含的信息量就愈大。如果事件是必然的(概率为1),它传递的信息量应为零;如果事件是不可能的(概率为0),则它将有无穷的信息量。即信息量应该是事件概率倒数的对数函数
式中:P是事件发生的概率,H就是从这个事件发生的消息中得到的信息量。
上述概念是建立在考察单一事件或单独的消息之上的。事实上,传递的消息总是从包括所有可能消息的信息源发出的,需要结合信息源的具体情况来讨论。这里考察一种基本的非等概情况,信息源以概率P0,P1,…,Pn传送N个消息m1,m2,…,mN,而每个消息的出现都是相互独立的。现在需要确定传送N个消息之一的信息含量,应该是这些可能取值的统计平均值,即
式中:Pi代表第i个输出的概率,且ΣPi=1。对于二进制信源,只有两种可能的输出,分别用概率p和q=1-p表示,上式可以改写为
以上是香农(Shannon)对于信源熵H(有N个可能输出)的量度的数学描述。术语“熵”具有与统计测量公式中相同的不确定性内涵。对于两个等概信息源的情况,当事件最不确定时,获得的平均信息量最大。偏离等概条件时,平均信息量逐渐降低。极限情况是当其中一个概率达到极限时,则H为0。这是因为在事件发生之前就已确知结果,所以该结果并未带来任何信息[2]。
信息论中还有另外两个重要的概念,互信息和相对熵。互信息是信息熵的引申概念,它是对两个随机事件相关性的度量。在自然语言处理中,经常要度量一些语言现象的相关性。但语言中存在的二意性使得问题难以解决,而互信息可以有效地降低处理的复杂度。具体的方法大致如下:首先从大量文本中找出和第一个词义一起出现的互信息最大的一些词,再用同样的方法找出和第二个词义一起出现的互信息最大的词,直到第n个词义。有了这n组词,在翻译多义字时,根据上下文中哪类相关的词的数量就可以进行选择。相对熵在有些文献中也被称为成交叉熵。相对熵用来衡量两个函数是否相似,对于两个完全相同的函数,它们的相对熵等于零。在自然语言处理中可以用相对熵来衡量两个常用词(在语法上和语义上)是否同义,或者两篇文章的内容是否相近[3]。
2 信息检索模型
在上述概念的基础上,信息检索理论发展出3个经典模型,即布尔模型、向量模型和概率模型。因为在布尔模型中,文献和查询是通过标引词(即关键词)集合来表示的,所以又称为集合论模型。由于文献和查询用n维空间的向量来表示,所以向量模型又被称为代数模型。
对于布尔模型而言,标引词权重变量都是二值的,即wi,j∈{0,1},查询Query是一个常规的布尔表达式。用qdnf表示查询的析取范式,qcc表示qdnf的任意合取分量。文献dj和查询q的相似度(Similarity,sim)可以定义为
如果式(4)等于1,则布尔模型表示文献与查询相关,否则不相关。布尔模型的优点是形式简洁,结构简单,缺点在于只能判断内容是否不相关,无法判断部分匹配的情况,这可以通过对标引词加权的方法进行改善,也就是向量模型。
对于向量模型,二元组(ki,dj)的权重值wi,j是正的非二值数。此外查询中的标引词也要加权。用wi,q表示二元组[ki,q]的权值,wi,q≥0,查询向量表示为q=(w1,q,w2,q,…,wt,q),其中t是系统中标引词的数目。文献向量表示为dj=(w1,j,w2,j,…,wt,j)。通过比较文献向量dj和查询向量q之间的相似度来评估二者之间的关系,这种关系的定量表达,即著名的余弦定理,通过两个向量之间的夹角大小来表示它们的相似程度,当夹角为0°时,两者完全相似,當夹角为90°时,这两者正交,表示互相独立,完全不相似,其具体数学表达式如下
因为wi,j≥0,wi,q≥0,所以sim(dj,q)的值为0~1。向量模型不再试图判断文献和查询是否相关,而是根据文献与查询的相似度对文献排序,而且对这个值的利用在某种程度上是可控的,从式(5)可以看出,dj·q是函数空间的内积运算,这就意味着两个向量必须满足向量运算的基
本条件,也就是乘积是相同维数的或一个向量的行数与另一个向量的列数相同。如果被检索的两个信息或新闻所包含的实词数目不一样,即使是很少的差异,也很难采用式(5)来计算,这是它的局限性之一[4]。
对于概率模型而言,标引词权值都是二值的,即,查询q是标引词的一个子集,用R表示已知的相关文献集合,用表示补集,既不相关文献,条件概率P(R|dj)表示文献和查询相关的概率,表示两者不相关的概率。文献和查询的相似度可以定义为两者的比值
根据贝叶斯定理,有
假定标引词独立,则
采用对数方法,P(ki|R)+P(ki|R)=1,上式可演变为
式(9)就是概率模型中排序计算的主要表达式。
3 信息检索
在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,需要知道一个文字序列能否构成可理解的语句。这个问题是通过统计模型解决的。如果S表示一串特定顺序排列的词w1,w2,…,wn,即S表示由一串特定词排序成的有意义的语句。从计算机对语言识别的角度来说,就是要明确S在文本中出现的可能性,用数学表示就是S的概率用P(S)来表示。利用条件概率的公式,S序列出现的概率等于其中每一个词出现概率的乘积,于是P(S)可展开为
式中:P(w1)表示第一个词w1出现的概率;P(w1|w2)是在已知第一个词的前提下,第二个词出现的概率,以次类推。不难看出,词wn的出现概率取决于它前面所有词。从计算的角度,由于各种可能性过多,难以实现。根据马尔可夫假设可以简化为任意一个词wi-1的出现概率只同它前面的词wi-1有关,于是S出现的概率就变为
接下来是估计P(wi|wi-1),有了大量存档纪录后,这个问题变得很简单,只要计算(wi-1,wi)在统计的文档中出现的次数,以及wi-1在同样的文本中前后相邻出现了多少次,然后两者相除即可,即P(wi|wi-1)=P(wi-1,wi)/P(wi-1)。
在应用系统中,语音识别是根据声学信号来推测说话者的意思。如果接收端是计算机,那么就是语音的自动识别。同样,如果根据接收到的外文信息,推测说话者的汉语意思,就是机器翻译;如果要根据带有拼写错误的语句推测说话者想表达的正确意思,就是自动纠错。这些信息检索中的重要分支都要用到隐含马尔可夫模型(Hidden Markov Model)。以语音识别为例,当观测到语音信号o1,o2,…,on时,要根据这组信号推测出发送的句子s1,s2,…,sn。显然应该在所有可能的组合中找最有可能性的一种。用数学语言来描述,就是在已知o1,o2,…,on的情况下,求使得条件概率P(s1,s2,…,sn|o1,o2,…,on)达到最大值的那个组合s1,s2,…,sn。当然,上面的概率不容易直接求出,于是可以间接地计算它。利用贝叶斯公式并且省掉一个常数项,可以把上述公式等价变换成P(o1,o2,…,on|s1,s2,…,sn)×P(s1,s2,…,sn),其中P(o1,o2,…,on s1,s2,…,sn)表示某句话s1,s2,…,sn被解释为o1,o2,…,on的可能性,而P(s1,s2,…,sn)表示字串s1,s2,…,sn本身能够成为一个合乎情理的句子的可能性,所以这个表达式的意义是用发送信号为s1,s2,…,sn这个数列的可能性乘以s1,s2,…,sn本身构成一个句子的可能性,得出概率。为了简化,在这里作两个假设:1)s1,s2,…,sn是一个马尔可夫链,也就是说,si只由si-1决定;2)第i时刻的接收信号oi只由发送信号si决定(又称为独立输出假设,即P(o1,o2,…,on|s1,s2,…,sn)=P(o1|s1)P(o2|s2)…P(on|sn)。然后利用Viterbi算法找出上面公式的最大值,进而找出要识别的句子s1,s2,…,sn。满足上述两个假设的模型就是隐含马尔可夫模型。之所以用“隐含”这个词,是因为状态s1,s2,…,sn是无法直接观测到的。在上面的公式中,如果把s1,s2,…,sn当成中文,把o1,o2,…,on当成对应的英文,那么就能利用这个模型解决机器翻译问题;如果把o1,o2,…,on看作扫描文字得到的图像特征,可利用该模型解决印刷体和手写体的识别问题。P(o1,o2,…,on|s1,s2,…,sn)根据应用的不同而有不同的名称,在语音识别中它被称为声学模型(Acoustic Model),在机器翻译中是翻译模型(Translation Model)在识别校正中是纠错模型(Correction Model)。而P(s1,s2,…,sn)就是通用的语言模型。
4 模型的基本应用
以布尔模型的应用为例,对于输入的关键词,检索引擎根据布尔代数计算关键词之间的关系并判断每篇文献是否包含此关键词,如果一篇文献含有它,就给这篇文献赋予逻辑值“真”(True,或1),否则,赋值“假”(False,或0)。一篇文献对于每一个条件,都有一个True或者False,根据上述的真值表就能算出需要查找的文献。
布尔运算的操作对象是索引,最简单索引的结构是用一个很长的二进制数表示一个关键词是否出现在每篇文献中。有n篇文献,就有n位数,每一位对应一篇文献,用二进制数代表相应的文献是否包含这个关键词。要找到同时包含两个不同关键词的文献时,只要将这两个二进制数进行布尔运算AND。由于这些二进制数中绝大部分位数都是零,只需要记录那些等于1的位数即可。于是,索引就变成了一张表,表的每一行对应一个关键词,而每一个关键词后面是一组数字,包含该关键词的文献序号。对于搜索引擎来讲,每个独立内容就是一个文献。为了保证对任何搜索都能提供相关的内容,搜索引擎对所有的词进行索引。为了计算相关性排名,索引中还存有附加元数据信息,如每个词出现的位置、次数等。因此索引会变得很大,难以用一台计算机存储。普遍的做法就是根据内容的序号将索引切分为很多部分,分别存储在不同的服务器中。接受一个查询时,将其分送到多个服务器,同时并行处理用户请求,并将结果送到主服务器进行合并处理,最后将结果返回给用户。但是不管索引如何复杂,查找的基本操作仍然是布尔运算。它的最大优点是容易实现,速度快,这对于海量的信息查找是至关重要的。为了确定内容和查询的相关性,需要根据内容的长度,对关键词的次数进行归一化处理,也就是用关键词的次数除以内容的总字数,被称为“关键词的频率”,或者是“单文本词汇频率”(Term Frequency,TF),。这里ni,j是被关注对象ti在给某给定文献中出现的次数,分母是所有关键词在给定文献中出现次数的总和。然后在此基础上进行相关性的简单的度量。概括地讲,如果一个查询包含关键词w1,w2,…,wn,而它们在一特定内容中的词频分别是TF1,TF2,…,TFn,那么这个查询和该内容的相关性就是TF1+TF2+…+TFn。而虚词对确定内容的主题几乎没有帮助,所以这种词被称为应删除词,度量相关性时不考虑它们的词频。另外需要给每个词赋予权重,权重的设定必须满足两个条件:1)词的权重与它预测主题能力成正比。因此通用的词权重低,专业名词权重高,后者在相关性排名中比前者重要。2)应删除词的权重应该是零。使用最多的权重是逆文本频率指数IDF(Inverse Document Frequency),idfi=,这里D代表全集中内容的总数,{d∶ti∈d}是包含关键词ti的文件数。设一个关键词w在{d∶ti∈d}个文档或内容中出现过的次数越多,那么{d∶ti∈d}越大,w的权重就越小,反之亦然。在信息检索中,利用逆文本频率指数,上述相关性计算个公式就由词频的简单求和变成了加权求和,即TF1×IDF1+TF2×IDF2+…+TFn×IDFn。TF/IDF被认为是信息检索中极重要的概念,在搜索、文献分类和其他相关领域都有广泛的应用。在本质上IDF的概念就是在特定条件下,关键词的概率分布的交叉熵。如果结合内容排名考虑,那么给定一个查询,有关内容的综合排名大致由相关性和内容排名的乘积决定。另外,TF/IDF不是指某一个特定的公式,而是表示了一系列基于基本TF/IDF方法变形(分别对TF和IDF这两部分进行处理)的公式的集合。
利用余弦定理和TF/IDF,可以进行新闻及其他内容的自动分类和编目。对于一篇新闻中的所有实词,可以计算出它们的TF/IDF。与新闻主题有关的实词频率高,TF/IDF比值高。然后按照这些实词在词汇表的位置对它们的TF/IDF值排序。如果词汇表中的某个词在新闻中没有出现,对应的值就为零。由n个词组成的词汇表可以构成一个n维的向量,再利用这个向量来代表这篇新闻,并成为新闻的特征向量。如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归为一类,反之亦然。当两条新闻进行比较时,可以利用余弦定理将三角形的两边b和c看成是两个新闻的向量,那么可以认为cos A=,其中分母表示向量b和c的长度,分子表示两个向量的内积。当两条新闻向量夹角的余弦等于1时,这两条新闻完全重复;当夹角的余弦接近于1时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。再人工对初始内容进行著录,形成标本编目,计算机在同类内容中根据对标本编目的学习,形成自动编目。但是自动编目要想大规模实用,还有很长的路要走,因为从本质上讲,编目处理的是内容的语义特征,而急于规则的计算更适合的应用领域是对象的物理特征,两者之间差别很大。
上面对信息检索技术的部分基本原理及其应用作了简单的介绍。基于计算机的信息检索技术在本质上与传统的编目分类方法有很大的不同,而这可能在广义上会造成信息的存取、访问和管理形式的巨大变化,并对媒体资产管理系统的应用、底层技术及其与其他系统的整合产生重大影响。
5 基于图像的检索
以图像为基础的检索是当前国内外的研究热点课题,本质上仍然是通过标引词建立与图像的对应关系,也就是“以字找图”,这是一种简单快捷的检索方法,但需要大量的人工对多媒体信息、网络资源、文献资料进行标注,随着海量信息资源的急剧增长,人工标注已不能适应这种检索方法的要求;与此同时发展起来的另一种图像检索方法则是所谓的“以图找图”,系统通过对图像的结构与统计特性等物理特征建立与图库中的图像的对应关系实现检索。这时,用户通过示例图、草图或描述的特征进行查询,并通过视觉来判断二者的相似性[5],能够利用的图像特征有颜色(颜色直方图、颜色矩、一致性矢量、颜色相关图)、纹理(结构法、统计法、谱方法、模型法)、轮廓、明暗、形状等,也可以利用被检索的对象的空间特征,如方向、距离、位置等。还可以利用图像中包含的字符,例如街头广告、店铺的牌匾、标语等特征进行检索,描述图像的语义特征也是一种很有效的检索手段。
基于图像的检索同样也需要对其相似性进行度量,常用的度量方法有以下几种:
1)距离度量。计算图像特征空间中点与点的距离
式中:xi和yi分别是被检索的图像和检出的图像之间的特征;r是不同距离的指标,当r=1时称为City-Block距离;当r=2时,称为欧几里德距离。
2)相关度量。常用的是Pearson矩
式中:xi和yi是数据库中图像的所有第i个特征的平均值[6]。还有关联系数、多特征相似度的计算,并不难理解,不再一一介绍。
值得指出的是,图像的物理特征(低层次视觉特征)与高层次的语义之间不易找到很好的匹配,换句话说,用户在通过语义去检索时,各自对语义的理解是不相同的,存在着不确定性,因而出现这二者之间的“语义鸿沟”。为了克服这个困难,已经提出了一些方法,如感兴趣区域检测、相关反馈和分类模型等。当用户很难用语言和文字描述自己检索的兴趣时,研究者已将视线集中到视觉感知的个性化特性方面,普及的微型摄像头可以方便地跟踪人们注视图像时视觉的动态轨迹,停留时间等,由此研究个性化图像检索,这是一个重要的发展方向[7]。
6 综合检索的应用
随着用户对视音频信息需求的日益扩大,广播电视制作与发布系统对于与之有关的检索问题的研究与应用也提出了业界的一些基本要求,以利于行业技术规范的制定。
这些要求广电总局已对其进行了详细分析和研究,大致可归纳如下:
1)广播电视节目的自动编目。研究利用节目间的可区分特征进行栏目间的自动切分;研究利用节目模版的固定性、可定位特性进行栏目间的自动切分;研究利用音视频处理技术,实现新闻节目的自动拆条及基于专题信息的时间点自动标记和切分;可在少量人工辅助条件下,完成对任意指定频道的节目起止时间编目。
2)海量广播电视节目检索。综合利用关键词、音频图像实例对广播电视节目中的视频图像、字幕、语音内容进行高精度检索,并提供与被检索内容相关联的音视频回放。
3)应用系统应同时满足海量音视频数据处理的并行计算;多用户并发检索和协同工作的要求;设计友好的人机交互界面以达到对低置信度编目结果进行人工审核和必要修正。
上述有关检索的基本要求反映了当前该领域的发展趋势,目前,国内外主流搜索引擎都推出了图片搜索、音乐搜索甚至视频搜索服务。从技术上看,这些搜索引擎都是使用网络蜘蛛程序从互联网上收集图片和视音频信息,并主要依靠人工方式对这些内容进行描述,形成一定数量的文字信息保存在数据库中。由此,对图片、视音频等多媒体内容的搜索被转化为对传统文字内容的搜索。从用户的角度看,用户使用这类搜索引擎与使用传统文字搜索引擎并没有太大的差异,仍需要用文字描述自己对信息的需求。这种模式的图片或视音频搜索引擎仍然需要大量的人工参与,存在着对非文字内容描述不够准确,需要用户具有较强的描述能力等问题。带来的结果就是大多数用户往往无法通过自己的文字描述搜索到所需的内容。
与现有的视音频搜索模式相比,结合视频、音频、图像和文字的综合搜索模式在耗时没有显著增加的情况下,查全率和查准率有很大的提升,为用户提供了更丰富的搜索手段。用户依然可以像使用传统搜索引擎那样,以文字作为线索查找自己需要的视音频内容,如果用户难以通过文字描述自己的需求或拥有视音频的样例文件,则可以提交图片、音频或视频文件作为搜索条件,搜索与之相关的视音频内容。
一般来说,综合检索系统会包括视频结构化分析模块、音频分析模块、语音识别分析模块、视频字幕分析模块、视频人脸分析模块、视频台标分析模块、基于内容的视频搜索调度模块、基于内容的视频检索模块、分布式音频检索模块、基于内容的视频融合分析模块、基于内容的视频搜索引擎模块等多个部分。可采用的搜索方式包括基本信息搜索、用户输入文字作为搜索条件、描述目标视频的基本信息(元数据信息)。图片搜索:用户提交图片或一组图片文件作为搜索条件,描述目标视频中出现过的画面。音频搜索:用户提交音频文件或在线输入语音作为搜索条件,描述目标视频中出现过的对白或特定音频特征;用户也可以输入文字作为搜索条件,表示的是目标视频中出现过的对白。字幕搜索:用户输入文字作为搜索条件,描述目标视频中出现过的字幕。人脸搜索:用户输入人脸图片文件作为搜索条件,描述目标视频中出现过的人脸。台标搜索:用户输入电视台台标图片文件,描述目标视频中出现过的台标。综合搜索:用户输入文字作为搜索条件,该文字可以表示所有可能的内容信息,如人脸、字幕、音频、台标等,搜索引擎将同时对这些信息进行搜索。
系统可以实现视频节目的特征数据分析、特征数据融合、特征数据存储、特征数据索引、特征数据检索和缓存等核心功能。
实现基于内容视频搜索的基本流程是:
1)在前端对视频节目源进行预处理,即特征分析、提取和融合。
2)将视频节目的特征数据保存到特征数据库中,并进行必要的索引。
3)接受用户的搜索请求,根据搜索调度策略生成实际搜索任务。
4)根据搜索任务执行网络分布式检索。
5)按一定策略整理搜索结果,返回给用户。
检索平台的核心是视频检索引擎。用于对视频内容特征数据库中的数据进行处理,响应用户的搜索请求,执行实际搜索,处理搜索结果并返回给用户。这是视频搜索的核心环节。视频搜索系统根据视频内容特征数据库中的数据进行对数据库中的文本信息进行索引;对数据库中的基于数学形式表达的信息进行聚类并对各聚类进行索引;在搜索过程中,对热点数据进行缓存、管理搜索缓存以及执行缓存维护和替换算法等。在上述处理操作中,前两个操作都是离线进行的,后两个操作则是在线进行的。在用户提交搜索请求后,视频搜索引擎将根据一定的策略对这个搜索请求进行分析和处理,然后再执行实际搜索操作。搜索请求的分析和处理主要包括如下4个方面:
1)分析用户的关注点。也就是通过分析用户提交的搜索请求,了解用户给出的搜索条件是属于哪个方面的,用户给出的搜索条件描述的是视频节目的字幕、台词、人脸还是画面截图。
2)生成搜索任务。根据用户的关注点,为用户此次搜索请求生成一个或多个搜索任务,每个搜索任务将从一个方面执行搜索,如生成字幕搜索、音频搜索、人脸搜索等多个搜索任务。
3)在执行搜索任务时,根据搜索任务的特点调用不同的搜索算法,结合缓存和索引技术搜索到与搜索条件匹配的结果。搜索算法的选择主要根据搜索任务的特点,包括搜索目标是文字信息还是数学向量、搜索是否需要额外的数学计算、搜索需要使用的索引和缓存类型以及搜索操作的并发度等。视频搜索引擎采用模糊搜索算法执行实际搜索,这主要是为了给搜索引擎增加更大的灵活性。因此,在生成搜索任务时,搜索系统将根据实际情况为不同的搜索任务指定适当的匹配度范围。只要搜索结果与搜索条件的匹配度落在该范围内,则可以认为该结果与搜索条件匹配。
4)视频搜索系统将对各搜索任务返回的搜索结果进行整合。将各搜索任务给出的搜索结果进行合并,去除重复的结果,并根据各搜索结果的可信度、相关度、重要度等对合并后结果进行评估,据此对搜索结果排序,返回给用户。另一方面,视频搜索引擎还能捕捉用户的反馈。通过获得用户操作的信息,了解用户对得到的搜索结果的满意度,并据此调整搜索引擎系统的索引和搜索算法,提高今后类似搜索的质量。
可以看出,未来上述技术与现有媒体资产管理系统的结合,对于电视台、新闻出版发行机构、海关、安全等特种行业来说能够有效地提高管理媒体资源的能力,更重要的是提供对于各种新媒体业务的支持,在内容管理和监控领域的发展前景十分广阔。
7 展望
通过对信息检索的各种模型的介绍以及视音频信息检索的探讨,可以看出,多媒体信息检索效率和效果的提高是一个综合性的过程,应当从多方面进行完善,而这也是未来多媒体信息检索的发展方向。
首先,要研发快速算法。多媒体信息的数据量相当巨大,对它进行处理需要消耗大量的时间及各种资源,寻找快速算法是实现基于内容的多媒体检索的必经之路。
其次,应发展多途径的多媒体检索。虽然现在多媒体检索研究的重点是基于内容的多媒体信息检索,但是基于文本的多媒体信息检索同样是很重要的方法,甚至在某些情况下效果优于基于内容的检索。另外其他类型的检索技术也值得高度重视,例如基于视觉感知的个性化检索技术、基于压缩域的检索技术等,这也是未来多媒体检索的一个发展方向。
再次,发展多特征检索技术。综合利用其他学科的成果,提高多媒体信息特征提取的准确性,实现利用两种或多种媒体特征提高检索精度的目标。
最后,对于信息检索的客户端,应当提供更加友好、更具帮助性的检索界面,使用户能够以较低的使用成本来更加准确地表达真实意图。
网络技术的飞速发展带来了多媒体信息检索,随着相关技术的不断完善与应用的逐渐普及,相信在不远的将来,多媒体信息检索将创造出巨大的社会价值和经济价值。
参考文献
[1]SKLAR B.数字通信[M].徐平平,译.北京:电子工业出版社,2002.
[2]傅祖芸,赵建中.信息论与编码[M].北京:电子工业出版社,2006.
[3]吴军.数学之美系列[EB/OL].[2010-10-20].http://wenku.baidu.com/view/ecb7bc6825c52cc58bd6bece.html.
[4]YATES R B,NETO B R,et al.现代信息检索[M].王知津,贾福新,郑红军,等,译.北京:机械工业出版社,2005.
[5]FRANKLIN J N.Matrix theory[M].Mineola,New York,USA:DoverPublications,2000.
[6]沈兰荪,张菁,李晓光.图像检索与压缩域处理技术的研究[M].北京:人民邮电出版社,2008.