自动标注

2024-08-20

自动标注(精选10篇)

自动标注 篇1

1 概述

图像语义标签和视觉特征之间的语义鸿沟是图像标注中亟待解决的问题。目前存在的图像标注算法主要包括三类:基于分类的算法、概率模型算法和最近邻算法。基于分类的算法把图像标注问题视为图像分类问题, 经典的算法包括:支持向量机 (SVM) [1]、高斯混合模型 (GMM) [2]等。基于概率模型的算法是从概率统计角度, 实现图像的自动标注。代表性的算法有:交叉媒体相关模型 (CMRM) [3]、连续相关模型 (CRM) [4]和多伯努利相关模型 (MBRM) [5]等。最近邻算法将自动图像标注问题视为图像检索问题, 这类方法对感兴趣的标签个数扩展性很强, 取得了较好的标注效果。

近年来, 稀疏编码在计算机视觉领域得到广泛关注。在文献[6]和[2]中, 稀疏编码被用于解决图像标注问题, 将所有的训练图像等权重来重构测试图像。本文采用局部稀疏编码来解决图像标注问题, 主要创新点有:

(1) 结合图像的标签和视觉信息提取特征, 之前的算法仅利用了图像的标签信息, 可以减少同义性和多义性的影响;

(2) 仅利用待标注图像的近邻来重构待标注图像, 降低了计算复杂度, 在编码过程中, 对重构稀疏进行罚约束。

2 提出的算法

2.1 特征选取

特征选取的目标是得到一个线性变换P∈Rd×p (p<d) 将原始空间的数据映射到低维空间。X=[x1, x2, …, xn]∈Rd×n表示训练图像的特征矩阵, yi=PTxi, Y=[y1, y2, …, yn]∈Rp×n为转换后矩阵。

由于标签集合和视觉特征相似性不一致, 采用l1-罚局部稀疏编码去重构语义图像。采用文献[1]重构W 2, 利用标签集去寻找图像的相关近邻, 产生近邻图像的高斯核矩阵, 即:

Δ=β (I-W 1) T (I-W 1) + (I-W 2) T (I-W 2) β是一个常数。可以通过特征值分解法得到上述优化问题的解P。

2.2 局部稀疏编码

(1) 对于查询图像q, 在低维空间中找到它的k-近邻, 记为Nq。

(2) 用Dq表示字典元素yi∈RK, 采用文献[7]中LARS算法的权重版本解决下列优化问题:

(3) 将αq扩展为n维, 用αq'表示。若yi∈Nq, 则αqi'=αqi, 否则αqi'=0。

2.3 标签传递

重构待标注图像, 得到系数矩阵α'=[α1', α2', …, αt']。从而得到标注矩阵C q=Cα', 其中C=[c1, c2, …, cn]是训练图像标签矩阵, 每一列ciq的最大几个标签被认为是查询图像的最终标注结果。

3 实验

Corel5K是图标标注的标准数据集, 包含5 000幅图像, 每幅图像有1~5个标签。选取5种典型的特征:GCM、LBP、Gabor小波纹理、Edge边缘特征和Gist特征。通过计算平均查准率P、平均查全率R、查全率大于0的标签个数N+来对模型进行评价。表1为本文提出的算法与最新的图像标注算法在Corel5K上实验结果, 可以看出, 本文提出的算法明显优于最新的图像标注算法。

4 结语

本文提出了一个新的局部稀疏编码方法解决自动图像标注问题。在重构过程中, 对权重稀疏加上罚约束用来寻找近邻信息。标准数据集Corel5K上的实验结果表明, 本文所提出的的算法优于最新的图像标注算法。未来, 将研究新的稀疏重构方法来解决自动图像标注问题。

摘要:提出一种新的局部稀疏编码方法用来解决图像标注问题。首先, 利用标签集寻找图像的相关近邻, 然后使用LLP算法得到最小局部估计误差。每一个查询图像, 找到它的K个近邻图像去重构它。最后, 将训练图像标签传递给测试图像。在数据集Core15K上的实验结果表明, 提出的算法优于其他算法。

关键词:图像标注,特征提取,K-近邻,局部稀疏编

参考文献

[1]C Yang, M Dong, J Hua.Region-based image annotation using asymmetrical support vector machinebased multipleinstance learning[J].Journal of Computer Research&Development, 2009 (5) .

[2]S Zhang, J Huang, H Li, et al.Automatic image annotation and retrieval using group sparsity[J].IEEE Transactions on Systems Man&Cybernetics Part B Cybernetics A Publication of the IEEE Systems Man&Cybernetics Society, 2012 (3) :838-849.

[3]J Jeon, V Lavrenko, R Manmatha.Automatic image annotation and retrieval using cross-media relevance models[C]//International Acm Sigir Conference on Research&Development in Informaion Retrieval, 2003:119-126.

[4]V Lavrenko, R Manmatha, J Jeon.A model for learning the semantics of pictures[J].NIPS, 2003:553-560.

[5]SL Feng, R Manmatha, V Lavrenko.Multiple bernoulli relevance models for image and video annotation[C]//IEEE Computer Society Conference on Computer Vision&Pattern Recognition, 2004.

[6]C Wang, S Yan, L Zhang, et al.Multilabel sparse coding for automatic image annotation[C]//IEEE Computer Society Conference on Computer Vision&Pattern Recognition, 2009:1643-1650.

[7]B Efron, T Hastie, I Johnstone, et al.Least angle regression[J].Annals of statistics, 2004 (4) .

自动标注 篇2

要使用此功能,我们首先使用快捷命令【ADA】调出命令对话窗口(如图1)。

图1

然后,我们就可以使用【自动标注】了,其操作步骤可分为三步:设置标注对象,确定坐标系,选择对象。

设置对象方面,我们可以点击【设置适合镶件、滑块图、散件图等】或【设置适合模板、顶针图、水路图】来确定设置对象,

之后,对标注对象进行选择(如图2)。

图2

最后,根据命令行提示确定坐标原点,然后再框选镶件点击确定标注就完成了(如图3)。

图3

需要指出的是,自动标注有时会出现标注混乱的情况,对于这种情况我们可以用“标注文字摆放位置”选项来进行调整(如图4)。

图4

参考文献标注法 篇3

示例:引用单篇文献

……德国学者N.克罗斯研究了瑞士巴塞尔市附近侏罗山中老第三纪断裂对第三系褶皱的控制 [235];之后,他又描述了西里西亚第3条大型的近南北向构造带,并提出地槽 是在不均一的块体的基底上发展的思想[236]。

……

2同一处引用多篇文献时,只须将各篇文献的序号在方括号内全部列出,各序号间用 “,”。如遇连续序号,可标注起讫序号。

示例:引用多篇文献

裴伟[570,83]提出……

莫拉德对稳定区的节理格式的研究[235256]

3多次引用同一著者的同一文献时,在正文中标注首次引用的文献序号,并在序号的“[ ]”外著录引文页码。

示例:多次引用同一著者的同一文献

主编靠编辑思想指挥全局已是编辑界的共识[1],然而对编辑思想至今没有一个明 确的界定,故不妨提出一个构架参与讨论。由于“思想”的内涵是“客观存在反映在人的意 识中经过思维活动而产生的结果”[2]1 194,所以“编辑思想”的内涵就是编辑实 践反映在编辑工作者的意识中,“经过思维活动而产生的结果”。……《中国青年》杂志创 办人追求的高格调——理性的成熟与热点的凝聚[3],表明其读者群的文化的品位 的高层次……“方针”指“引导事业前进的方向和目标”[2]354。

基于Matlab的图像自动标注 篇4

近年来, 随着多媒体技术和互联网的快速发展, 世界范围内数字图像的容量正以惊人的速度增长。为了有效地组织、查询与浏览如此大规模的图像资源, 图像检索技术应运而生, 已成为一个研究热点。

在早期的基于内容的图像检索中, 人们利用传统的文本检索技术, 为图像做出文字化的注释, 以诠释图像的内容。主要做法是从内容方面对图像进行手工标注, 然后根据标注信息利用文本检索技术对图像进行检索。人工标注虽然可以较为准确的对图像进行检索, 但这项工作耗时费力, 尤其面对大规模的图像时, 显然它已经无法胜任。因此, 如何快速、有效地实现对图像的自动语义标注, 变得十分有意义。

目前, 图像自动标注技术已经得到了广泛研究, 这些方法有着各自不同的出发点和解决方案。本文所实现的图像语义自动标注, 就是为了自动获取图像的语义信息, 并对待标注图像予以关键字标注, 对标注的关键字进行存储, 从而对检索做出支持。本文主要研究了图像语义自动标注基本流程、基本原理, 基于Matlab通过GUI界面实现了图像标注与简单检索系统, 完成图像底层特征的提取、特征匹配相似度测量、图像标注并研究对标注结果进行存储和管理的方法。

1 系统设计

本系统共有三个模块, 即图像特征提取模块、图像特征匹配模块、自动标注和相似图像输出模块。系统设计方框图如图1 所示。由图可见, 系统首先将标准图像库中的图像进行颜色、纹理特征的提取, 存储成图像特征库。其中已标注图像构成训练集, 利用其图像特征和标注关键词的关系对待标注图像进行自动标注。通过计算待标注图像与训练集中所有图像对应的特征矢量之间的欧氏距离, 把欧氏距离最小、即相似度最高的图像的关键字标注给该待标注图像, 同时排序输出相似度最高的三幅图像, 并存储关键词。

2 图像特征提取

图像的视觉特征主要包括颜色、纹理、形状和空间关系等。颜色特征是被广泛使用的视觉特征, 主要原因在于颜色特征的定义比较明确, 特征提取方法比较简单, 并且颜色特征能较好地体现出图像中所包含的物体或场景。纹理特征是一种不依赖于亮度或颜色的反映图像中物质现象的视觉特征。此特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系。

2.1 颜色特征提取

对颜色特征的研究, 必须在图像的特定色彩空间中进行, 常用的色彩空间有RGB、HSI、HSV等。其中HSI和HSV色彩空间很适合人眼的分辨, 能较好地反映人对颜色的感知和鉴别能力。因此本文采用HSI颜色空间。通过式 (1) ~ (3) , 图像可以从RGB色彩空间转换到HSI色彩空间[1]。

为了使HSI颜色模型能够更好地符合人眼的视觉特性, 首先将图像中每一像素的红、绿、蓝分量值R, G, B转化为色调、饱和度和强度分量值H、S、I (h[0, 360], s [0, 1], v[0, 1]) , 然后根据HSI颜色空间中颜色特征进行非等间隔量化, 见公式 (4) ~ (6) 所示:

对HSI空间进行量化后, H的取值范围为[0, 1, …, 7], S的取值范围为[0, 1, 2], I的取值范围为[0, 1, 2]。通过公式 (7) 将HSI合成为一维特征矢量, 则B的取值范围为[0, 71], 是一个72 柄的一维直方图, 再对特征矢量B构造直方图作为图形的颜色特征。

2.2 纹理特征提取

本文采用小波分解提取图形的纹理特征, 首先通过Daubechies4 小波对图像进行分解, 然后提取一层分解的4 个频带小波系数的均值和方差作为图像的纹理特征。一幅图像的4 个频带分布图示如图2 所示。

图2 频带分布图

进行一层变换后, (i, j) 点的小波系数为Cij, 则任一频带的均值和方差计算公式分别为式 (8) , 式 (9) :

纹理特征向量表示为:T =[μLL, DLL, μHL, DHL, μLH, DLH, μHH, DHH], 小波分解提取纹理特征的方法适用于纹理特征比较复杂的图像。

2.3 图像特征相似性度量以及自动标注

图像特征的相似性度量有很多方法, 如欧氏距离法、绝对值距离、切比雪夫距离、马氏距离、兰氏距离等。本文采用的是欧氏距离法。计算公式如 (10) 所示, 欧氏距离越小, 两幅图像越匹配, 欧氏距离越大, 两幅图像越不匹配。因此选择与已标注图像集中欧氏距离最小的图像的标注关键词作为待标注图像的语义关键词。两个n维向量a (x11, x12, …, x1n) 与b (x21, x22, …, x2n) 间的欧氏距离:

图像自动标注与检索的流程如下:首先计算待标注图像特征与训练集中所有图像特征之间的欧氏距离;将所有距离按照从小到大的顺序排列;把欧氏距离最小的图像的关键字赋给待标注的图像;显示与待标注图像最相近的三幅图像。

2.4 数据存储与管理

对图像完成颜色特征和纹理特征提取, 以及特征向量的计算后, 所得到的数据需要进行存储, 以便进行图像特征匹配。自动标注的关键字也需要存储。在Matlab中, 数据一般都存储在.mat格式的文件里, 如有需要可以转换成.txt格式文件。本系统使用结构体存储图像特征和关键字。图像颜色特征存储的结构体各字段见表1。

图像关键字存储的结构体各字段见表2。

数据存储在.mat文件中的形式如图3 所示, 十分方便查询和管理。

3 实验结果

本实验使用的训练集是Corel5K图像库[2]。该图像集中有5 000 张图像, 内容涵盖人物、动物、植物、自然风光等, 共包含50 个语义类, 每个类包含100 张图像[3]。其中4 500 张图像进行人工标注, 500 张作为待测试图像。训练集中有374 个关键字, 每个图像一般有3~5 个关键字。自动标注的性能使用查准率和查全率来评价。查准率和查全率的定义见式 (11) (12) :

其中A为正确标注数目, B为误标注数目, C为漏标注数目。系统测试结果见表3。

%

本文的图像特征提取分别使用的三种方法中, 实验发现, 颜色特征对图像的影响较大, 当颜色特征向量设置权重为0.85, 对纹理特征向量设置权重为0.15 时, 标注和检索效果达到最优, 标注结果能够反映原图像的语义内容。如图4 所示给出了系统使用第三种特征提取方法自动标注和查询的结果示例。

4 结语

本文设计并实现了基于GUI的图像自动标注和检索系统, 完成对图像底层特征的提取、特征匹配相似度测量、图像自动标注, 并研究了对标注结果进行存储和管理的方法。本系统标注性能良好, 文中只对颜色和纹理两种图像特征进行了提取和匹配并且采用的自动标注算法较为简单, 系统的标注性能有待于进一步提高。下一步研究方向是选择更多的图像特征并且改进标注算法。

摘要:图像自动标注在检索大量数字图像时起到关键作用, 它能将图像的视觉特征转化为图像的标注字信息, 为用户的使用及检索带来极大的方便。研究了图像自动语义标注方法, 设计并实现了基于Matlab图像自动标注系统, 能够提取图像颜色特征和纹理特征, 与已标注图像进行相似性度量并标注出图像语义关键词

关键词:自动标注,视觉特征,图像检索

参考文献

[1]徐红霞, 郑龙, 王厅列, 等.基于HSI颜色空间统计直方图的图像检索[J].电脑知识与技术, 2009 (31) :8801-8804.

[2]University of California Berkeley.Corel dataset website[EB/OL].[2006-02-04].http://elib.cs.berkeley.edu/photos/corel/.

[3]伍宇花.BP神经网络在图像语义自动标注的应用[J].电脑知识与技术, 2011 (14) :25-28.

[4]卢汉清, 刘静.基于图学习的自动图像标注[J].计算机学报, 2008, 31 (9) :1629-1632.

[5]万华林, CHOWDHURY M U.基于支持向量机的图像语义分类[J].软件学报, 2003, 14 (11) :1891-1899.

[6]向日华, 王润生.一种基于高斯混合模型的距离图像分割算法[J].软件学报, 2003, 14 (7) :1250-1257.

[7]张华, 梁宇生.基于实例图像自动语义标注方法的研究[J].山东农业大学学报:自然科学版, 2011 (2) :255-258.

[8]朱文球, 刘强.一种新的图像语义自动标注与检索算法[J].计算机应用研究, 2007 (7) :318-320.

[9]王妍宁, 郭雷, 方俊.一种新的图像语义自动标注模型[J].计算机工程与应用, 2011 (7) :193-197.

引用标注规范 篇5

一、引用规范

引用有两种情况,直接引用和间接引用。直接引用即是直接摘抄他人文句,一般需要用“”标出引用语句并且注释来源;间接引用是化用,此种情况并非完全照搬他人语句,而是用自己的语言重新表述,但这同样是引用,必须标出来源。

二、引用标注常见有三种形式:尾注、脚注和夹注。

1.尾注:尾注即在全文后注释,适用于篇幅较短的文章(比如此次作业),可以通过word自带“引用——插入尾注”功能实现。

2.脚注:脚注是在每页纸页脚注释,可以通过word自带的“引用——插入脚注”功能实现。无论文章长短都可以用脚注标注。

3.夹注:夹注常见于论文的文献综述部分,使用夹注往往是因为引用文献过多,如果条条脚注会占用页面的大半。夹注常用于间接应用。夹注的常见方式是 期刊文章:(作者姓名,发表年)书:(作者姓名,出版年:页码)如果多于一篇(本)用“;”分割。如示例:

三、引用标注应该包括哪些内容?(1)脚注和尾注:

脚注和尾注注释方法相同。

1)期刊文章需要包括作者姓名、文章题目、期刊名、出版年及期号 示例:

周飞舟、王绍琛:《农民上楼与资本下乡:城镇化的社会学研究》,《中国社会科学》2015年第1期

2)书籍需要包括作者姓名、书名、出版社、版号,页码 示例:

彼得·伯格:《与社会学同游——人文主义的视角》,北京大学出版社,2008年6月第1版,Pxx-xx(2)夹注:

文中夹注格式如二(3),夹注因为所注简略,需要在文后列“参考文献”列表以供查阅,如示例:

参考文献列表是论文必须有的,如果使用了夹注也需要提供参考文献列表以供读者查阅原文。对于本次作业而言,如果在脚注或尾注中已经标识清楚文献来源,可以不附参考文献。

本次作业因为篇幅短小建议使用脚注或尾注。

需要注意的是:对期刊文章和书籍的注释法存在不同的格式,以上示例只是提供一种参考。具体格式需要看具体要求,例如北大本科生毕业论文就有一套特定的格式。本次作业对注释格式没有强制要求,可以模仿文中范例,也可以模仿比如《社会学研究》上的论文。作业看重的是遵守学术规范的意识!

自动标注 篇6

第一章对选题的基础理论“义项形式论”和核心概念“区别性形式特征”进行了阐释。机器处理语言具有重形式的特点,义项形式特征指义项在具体语境使用中呈现出来的有规律,能够加以归类、概括,并能被计算机识别的标志物( 以语义搭配为主) ,是语言单位间选择限制的结果。义项形式论讨论的是义项的意义内涵差别与义项形式特征的关系。论文立足于多义动词义项的“对立”与“差异”,集中关注形式特征的“区别价值”。

第二章讨论了多义动词选择限制知识的获取与形式化。文中建立了描写框架,在语料库、义项库、语义分类库、语法库等资源库的结合使用中对知识的获取问题进行了分析。形式化指把属于自然语言范畴的区别性形式特征转化为计算机可以识别、处理的人工语言。通过“形式化”得到词义自动标注所需的“规则”。规则的形成与质量是词义自动标注的关键,论文结合实例,从可靠性、简约性、拓展性三个方面讨论了知识的形式化问题,并通过验证分析了规则的有效性。

第三章建立了选择限制的分析模式,对多义动词选择限制在语法、语义层面的表现进行了分析。总结了多义动词选择限制的特点,探索了选择限制的规律与机制。多义动词的选择限制具有不平衡性、系统性的特点,选择限制的力度有强弱之分。选择限制力的强弱与动词动作性的强弱、词义的限定元素等有关。

第四章结合多义动词规则的验证,探索了多义动词机用义项库的建设问题。机用义项库的建设是词义自动标注的基础与关键,直接影响着规则的提取与效用。义项的设置应具备独立性、排他性、概括性,要在语料统计的基础上,以语境中的区别性形式特征为线索,以核心语义特征为依据进行处理。义项库的调整应形成科学、统一的标准。义项的粒度可以因词而异。

自动标注 篇7

随着网络和多媒体技术的迅速发展,基于内容的图像检索CBIR(Content-Based Image Retrieval)越来越受到人们的广泛关注。CBIR是一项利用图像的视觉信息来对图像进行检索的技术。自动图像标注是CBIR中重要而又具有挑战性的工作。它可以利用已标注的图像集自动学习高层语义空间与底层视觉特征空间的关系模型,并通过此模型标注未知语义的图像。支持向量机[1]SVM(Support Vector Machine)作为一种有效的分类技术被广泛应用于CBIR中。

由于CBIR往往涉及到多类别的,目前的多类学习方法大多将多类分类问题转化为两类分类问题,即用多个两类分类器构成一个多类分类器。两种主要的策略分别是一对多OVR(One-Versus-Rest)和一对一OVO(One-Versus-One)。目前将多类问题转化成两类问题时大多使用SVM。OVR为每个类分别构建一个子分类器。对于一个K类的训练样本,需要建立K个两类分类器。对第m个子分类器来说,其训练样本的构成为属于第m类的样本为正类,而不属于该类的其他所有样本为负类。OVO对多个类别进行两两区分,为每两类建立分类超平面。如果类别数为K,需要构建K(K-1)/2个子分类器。测试时采用投票法,即每个两类分类器都对样本的类别进行判断,为获胜的类别投上一票,最后得票最多的类作为该测试样本的所属类。然而,将多类问题转化为两类问题除了时间开销大,实际操作中还会出现很多问题。比如,使用OVR方法对“汽车”和“非汽车”分类时,如何选取充分有效的负样本是一个亟待解决的问题。如果将全部没有标注为“汽车”的训练图像都作为负样本,会导致正负类别的样本严重不平衡。另外,大多数图像通常包含多个实物和场景信息,即一张图像可能同时属于多个类别,对应多个语义关键词;类别之间可能存在共生或包含的关系。这些问题在类别划分中需要特别注意。

针对上述问题,本文提出了一种基于支持向量数据描述[2]SVDD的图像自动标注方法。SVDD是由Tax和Duin提出的解决单类问题的一种方法,其理论源于SVM,有不少研究者将其扩展为多类分类器来解决多类问题[3,4]。基于SVDD的图像标注方法包括训练分类器和标注图像两个部分,如图1所示。在训练分类器阶段,SVDD不需要负样本信息,而是通过建立包围目标类的超球来拒绝非目标类数据,从而显著地降低了求解问题的规模和复杂度。在标注图像阶段,根据前一阶段已训练好的超球边界对未标注图像进行分类并实现语义标注。

1 特征提取

MPEG组织于2001年公布了MPEG-7[5]标准,为多媒体信息的表示提供了一个总体框架。MPEG-7规定若干视觉描述子,包含了颜色、纹理、形状、运动等各个方面,为CBIR提供了有效的手段。本文中使用的底层特征是基于MPEG-7中的三个视觉描述子的,如表1所示。

1.1 颜色布局描述子(CLD)

CLD是一个被定义在YCrCb颜色空间的MPEG-7视觉描述子,用于获取整张图像或任意形状区域的颜色空间分布。输入图像首先被划分成8×8的小块,然后对这些小块进行DCT变换,并在此基础上进行量化编码。

1.2 可伸缩颜色描述子(SCD)

SCD用于测量整张图像的颜色分布。MPEG-7采用Harr变换对HSV颜色空间直方图进行编码,采用不同的变换尺度和量化率得到SCD。

1.3 边缘直方图描述子(EHD)

EHD描述了图像中纹理的空间分布。它把图像中的边缘划分为5类,分别是水平、垂直、45°、135°和无特定方向边缘,将输入的图像分割成互不重叠的16块,提取每个小块中的5种类型的边缘,最后统计图像中出现的所有边缘的信息。

1.4 特征融合

为了同时使用以上三种描述子进行学习,采用归并融合(Merging Fusion)的方法[6]。归并融合是一种简单的特征融合方法,就是将所有的描述子拼接成一个单独的向量。假设xCLD、xSCD、xEHD分别为特征提取得到的三个描述子,通过归并融合得到的特征向量为:

这种方法需要所有的特征都具有相近的取值范围,以避免特征之间比例的失衡。假设x(d,max)和x(d,min)分别为图像集中第d维分量x(d)的最大值和最小值,将特征向量的每一维数据线性映射到区间[-1,+1],方法如下:

2 基于SVDD的图像标注

2.1 训练分类器

给定训练集{(x1,y1),…,(xN,yN)},其中xi∈RD类标号yi∈{1,…,K}。为每个类别建立包围该类所有训练样本的超球。定义第m类对应的超球为(am,rm),其中am是球心,rm是半径,要求超球包含目标类的样本数尽可能多,同时rm又尽可能小。与SVM类似,允许远离球心的样本点落在球体外面,引入了松弛变量ξi。于是,第m类的超球可以通过解决以下二次规划QP(Quadratic Programming)问题得到:

其中,参数Cm为正则化参数,控制对远离球心的样本点的惩罚程度,实现对超球的大小和其所包含的样本数之间的折中。利用Lagrange算子求解(3),得到其对偶形式如下:

通常情况下,数据点并非呈现正球状分布。解决这一问题可以通过引入核函数。Mercer定理指出,核函数K(xi,xj)通过与其相关联的非线性变换Φ隐式地把特征向量映射到某个高维空间。用核函数K(xi,xj)替换式(4)中的内积表达式,得到的QP问题如下:

径向基函数RBF(Radial Basis Function)是常用的核函数,其形式如下:

其中,参数γ控制了函数的径向作用范围。对单一的数据点xi,有KRBF(xi,xi)=1。求解式(5)得到最优的αi。于是,每个类的超球球心为:

与SVM类似,非零的αi对应的样本xi称为支持向量SV(Support Vector)。

通过LIBSVM[7]软件包(C++代码)实现SVDD方法,其训练超球模型的主要源代码如下:

2.2 标注图像

利用SVDD得到的超球模型可以用于标注未知语义的图像。与训练过程类似,首先对测试图像样本进行MPEG-7特征提取和尺度变换得到对应的特征向量。定义测试样本与每个类之间的相关程度最简单的方法就是计算其特征向量到超球球心的距离。距离越小,相关度越高;反之,相关度越低。相关性函数可定义如下:

其中:

当超球模型确定之后,Zm即为常量。为每个类别选定某个阈值Tm,如果测试样本的相关度sim(z,Sm)大于Tm,则将其标注为第m类。现实中,一张图像可能同时属于多个类别;同样,测试图像可以被标注为多个类,这是因为在SVDD方法中,类别之间是相互独立的。一般可设定阈值如下:

也就是说,将所有落入超球Sm中的测试样本标注为第m类。此外,还可通过经验信息或是对数据进行分析选取合适的阈值。

与SVM类似,SVDD得到的支持向量的个数是稀疏的。由于相关函数(8)仅由支持向量构成,少量的支持向量使得SVDD在标注图像时只需要很小的时间开销,提高了图像标注的效率。计算相关性函数的主要源代码如下:

2.3 复杂度分析

与SVM类似,SVDD需要求解一个二次规划问题,其时间复杂度一般情况下为O(n2),其中n是问题的规模。为了进一步验证,可以记录训练超球模型所需的时间,其主要源代码如下:

由于OVO在测试阶段采用投票法判定测试样本的所属类,没有采用相关性度量,下面是SVDD和OVR两种方法在时间上的对比:

假定训练样本中每个类别的规模相当,即每个类的训练样本数大致为N/K。OVR方法需要构建K个子分类器,每个子分类器包含全部N个训练样本,总体时间复杂度为:

对于SVDD,每个类别超球的计算只涉及该类所包含的训练样本,则SVDD的总体时间复杂度为:

也就是说,SVDD的训练时间大致为OVR的1/K2。当类别数很大时,SVDD的优势是显著的。

标注图像时,CPU时间主要用于计算测试样本与支持向量之间的核函数。这样,标注所需时间大体上与支持向量的数量成正比。由于SVDD计算每个子类超球需要的训练样本仅为OVR的1/K,一般来说,SVDD每个子分类器包含的支持向量相比OVR来说要少得多,这意味着利用SVDD对图像进行自动语义标注具有更快的响应速度。

对于一个图像自动标注系统,每个类别的训练样本不是固定不变的。基于系统扩张的需求,系统设计人员需要:1)不断增加新的类别以满足更多用户的需求;2)不断为每个类别增加新的训练样本以更好地建立描述每个类别数据分布的超球。对于上述两种情况,OVR都需要对所有类别重新计算子分类器,这是因为一个类的训练样本同样作为其他类别分类器的负样本。对于SVDD,由于类别之间相互独立,对一个类别训练样本的更新只需重新计算该类的超球即可。同样,每次增加一个新的类别,SVDD只需要建立新类的超球模型。

3 实验结果与分析

实验比较了SVDD和OVR两种方法的运行时间和标注性能。所有实验都是在Pentium 4 CPU 3.0GHz,内存1GB的机器上运行的,操作系统为Windows XP。SVDD和OVR均使用LIBSVM[7]实现。

从Corel 1m数据库[9]中选出10类图像,每类100张,共1000张图像进行方法对比。10个类别分别为“buses”、“cards”、“dino_art”、“flags”、“horses”、“lizard_1”、“owls”、“pyramids”、“wl_eagle”、“workship”。每个类包括256×384和384×256两种分辨率格式的图像,图2给出了其中4个类别的图像示例。

每个类选取50张图像用于训练,25张图像用于验证,剩余的25张图像用于测试。这样,验证集(Validation Set)和测试集(Test Set)分别包含来自10个类别的250幅图像,具体如图3所示。

为了评价本文方法的标注性能,采用平均正确率AP(Average Precision)作为衡量标准。AP是对不同召回率(Recall)点上的正确率(Precision)进行平均。定义P@N为前N个返回结果的正确率,那么AP的表达式为:

其中,IR是相关结果的集合,ri是第i个返回结果。

为了得到更为鲁棒的结果,采用模型选择的方法,对两种方法进行相同的操作,步骤如下:

1)每个类的正则化参数Cm均设为1,核参数γm分别取值为2-5,2-4,…,21;

2)对于每个类别,分别测试不同的γm,得到对应的分类器模型,计算验证集中每个样本与该类的相关度,排序结果并计算AP;

3)选取最优的AP对应的γm,在测试集上重复上述步骤并记录最终的AP。

为了说明SVDD相比OVR能够显著降低系统的时间复杂度,表2是两种方法在训练和测试阶段时间上的对比。

需要说明的是,表2中的训练时间是10个类别在7组不同的核参数下训练时间的总和;而测试时间则是每个类别在最优核参数下对测试集进行测试的平均时间。可以看出,即便类别数仅为10,无论是训练阶段还是测试阶段,SVDD所需的时间相比OVR都要少得多。如果扩展标注系统使其包含成百上千个类别,SVDD在训练时间上的优势将更为显著。如果系统需要标注来自Web的海量图像数据,那么SVDD在测试时间上的优势同样是显著的。这说明SVDD方法可以有效提高图像标注系统的效率。

表3是SVDD和OVR两种方法在性能上的对比,除了AP,还记录了每个类别前10个返回结果的正确率。

从表3可以看出,SVDD在前10个返回结果的正确率指标上超过了OVR。但是就总体的AP指标而言,SVDD还没有OVR来得好,这是因为SVDD计算类别的超球模型时没有考虑负样本的约束。相比于SVDD在时间复杂度方面的显著优势,其在性能方面略微的不足还是可以接受的。这说明将SVDD用于图像自动标注的方法是可行的。.

4 结论

本文提出了基于支持向量数据描述的图像自动标注方法,相对于传统的将多类问题分解为两类问题的方法有以下两方面的改进:1)显著降低了系统在训练分类器的时间复杂度,适用于增量式学习,便于标注系统中类别的扩展;2)有效减少了标注图像所需的时间,便于大规模图像的自动标注。但是由于没有考虑负样本的约束,SVDD得到的性能到目前为止还没有基于两类分类的方法来得好。下一步的工作将研究如何改进SVDD框架,在保持效率的前提下提高系统的标注性能。

参考文献

[1]Vapnik V.The Nature of Statistical Learning Theory[M].NY:Springer-Verlag, 1995.

[2]Tax D M,Duin R P.Support Vector Data Description[J].Machine Learning,2004,54:45-66.

[3]李瑜,郑敏娟,程国建.基于支持向量数据描述的分类方法研究[J].计算机工程,2009,35(1):235-239.

[4]张贝贝.何中市.基于支持向量数据描述算法的SVM多分类新方法[J].计算机应用研究,2007,24(11):46-47.

[5]Chang S F,Sikora T,Puri A.Overview of the MPEG-7 Standard.IEEE trans.on Circuits and Systems for Video Technology,2001,11:688 -695.

[6]Spyrou E,Borgne H L,O' Connor N,et al.Fusing MPEG-7 Visual Descriptors for Image Classification[C].International Conference on Artifical Neural Networks,2005.

[7]Chang C C,Lin C J.LIBSVM:A library for Support Vector Machines, 2001.http://www.csie.ntu.edu.tw/~cjlin/libsvm.

[8]Fan R E,Chen P H,Lin C J.Working Set Selection Using Second Order Information for Training Support Vector Machine[J].Journal of Machine Learning Research,2005,6:1889-1918.

自动标注 篇8

关键词:维吾尔语,韵律层,词性标注,语音合成,文本分析

0 引 言

近年来,作为人机交互和少数民族语言文字信息处理领域中的核心技术之一,维吾尔语语音合成技术在基础理论研究和技术应用方面都取得了明显的进步,但是合成后语音的自然度并不理想。因此,为了提高合成后语音的自然度,仍然需要在语料库的重建、问题集的优化、语音合成模块的前端设计、韵律边界的预测、音调预测、词性自动标注等方面需要做进一步的研究和探索。因此韵律层级边界的自动预测已经成为该领域相关研究的重点和热点,也是提高合成语音自然度问题的关键。

一般认为,语音合成系统应该包括如下四个主要组成部分:文本分析模块、韵律生成模块、声学模块和语音基元及其语音参数库模块[1]。在韵律层级划分过程中,为了得到已标注好的输出文本不仅要得到输入文本的文本信息,还需要用词性标注器得到文本的词性信息[2]。维吾尔语语音合成中韵律成分的自动划分是属于文本分析模块中的一个重要环节。为了提高韵律层级划分的正确率需要选取最佳词性自动标注方法。该项工作的任务是在具体的语言环境中正确地给每一个词一个确定的词性。它与建立决策树模型相辅相成,在维吾尔语韵律层级自动划分中起着关键作用。维吾尔语韵律层级自动划分的准确性最终服务于提高合成语音的自然度。因此所要得到的结果在维吾尔语音合成技术中占有重要的地位。

本文为了进一步提高词性标注的准确性,对10610个句子进行了词性标注,这些标注数据对以后的维吾尔语韵律研究工作的深入开展打下了很好的基础,对合成自然度的提高也有很大的帮助,实现了合成系统中前段文本分析模块的一个关键技术:词性的自动标注。本文选取的10610个句子中10000个句子进行训练,分别选取集内外各500个句子。该项研究成果在语音处理研究的应用领域,如语音合成、语音识别、语音研究、语音教学等领域中都具有极高的学术价值和商用价值,对维吾尔语言乃至整个阿尔泰语系语言的语音研究及应用开发也具有较高的参考价值。

1 词性自动标注系统模块化设计

本文词性自动标注系统由词性标注文本模块,词性统计信息提取模块,词性标注器模块组成,如图1所示。

1.1 词性标注文本模块

1.1.1 词性及其数量

词性标注(Part-of-Speech tagging或POS tagging)也可简称为标注,这是给语料库中的每个单词指派一个词类或者词汇类别标记的过程。这些标记通常也用来标记标点符号,因此自然语言的标注过程与计算机语言的词例还原(tokenization)过程是一样的,尽管自然语言的标记具有更多的歧义性[2]。

词性对于言语信息处理的意义在于能够提供关于单词及其邻近成分的大量有用的信息。词性标注在语音识别,自然语言剖析和信息检索中都起着越来越重要的作用。进行过词类标注的语料库对于语言研究是非常有用的。在语音合成系统中如果知道了一个词的词性就可以产生出更自然的发音。维吾尔语的词类是维吾尔语中的词根根据语法特征的分类。语法特征包括词形变化,词与词的组合能力,词在句中的功能和词的构词特征等。同一个词类的词具有相同的语法特征。

在以前的维吾尔语音合成系统中,对文本进行词性标注时使用16种词性[3],本文参考北大词性标注规范和以前所使用的16种词性标记,初步制定了对韵律成分影响比较大的41种词性。全部统计工作结束后再进行词性种类的进一步验证,最终制定了37种词性。这些词性的标记规范如表1所示。

1.1.2 文本设计

文本设计的目标是用数量比较大的文本来覆盖尽可能多的词类现象。这样才能保证各种句子类型和各种词类的出现率。在语句挑选时,参照句型分类,考虑句子长度,首先对原始文本集进行音节,单词,短语,句子的切分,再用Greedy 算法从大规模语料中选取具有代表性的语句集[3]。文本选完后,再进行校对,修改和增删不必要的内容,缺少部分将由人工设计完成。

1.1.3 词性人工标注

维吾尔语是贴着性语言,其形态变化比较复杂,兼类词和同形词比较多,而且使用比例较高[4]。本文中确定单词的词性依据是考虑它的句子环境。因此在进行手工标注时,有时需要考虑句子中目标单词的本身,有时需要考虑词干、词干变化、词干附加成分匹配、附加成分和附加成分的匹配等条件,有时甚至不能做出统一的标准来确定词性。为了提高标注的准确性,标注组成员都是词类教学的学者,由从事维吾尔语语法教学研究的老师组织指导。

准备的手工词性标注文本格式如下:

1.2 词性统计信息提取模块

词性概率表和词性对照表在后续的词性标注器模块内使用。在本部分简要介绍其算法流程。

1.2.1 词性概率表

在VisualStudio2008环境下用C#语言编程,可以从词性标注文本中得到词性概率表。

实现词性概率表的部分核心代码如下:

生成词性概率表的格式和算法流程图如图2所示。

1.2.2 词性对照表

在VisualStudio2008环境下用C#语言编程,可以从词性标注文本中得到词性对照表。实现词性概率表的部分核心代码如下:

for (i = 0; i < 38; i++)

{sb.Append(″{″);

sbHtm.AppendLine(″<tr>″);

for (j = 0; j < 38; j++)

{n4[i,38]=n4[i,38]+n4[i,j];}//计算各个词性的出现总数

nTotal = nTotal + n4[i, 38];

for (j = 0; j < 39; j++)

{sb.Append(n4[i, j]);

sbHtm.AppendLine(″<td>″ + n4[i, j] + ″</td>″);

if (j < 38)

{sb.Append(″,″);}}

词性对照表的格式和和算法流程图如图3所示。

Int BiGramProbs[37][38]={{0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0}

{0,987,16,173,39,56,75,43,29,4,161,8,1,5,8,5016,92,123,3,56,0,1,53,5,105,10,68,24,5,8,18,32,1,881,578,175,427,44,32,0,1,0,9363}

…………………

1.3 词性标注器模块

大多数的标注算法可以归纳为两类:一类是基于规则的标注算法(rule-based tagger),另一类是随机标注算法(stochastic tagger)。随机标注算法一般会使用一个训练语料库来计算在给定的上下文中每一给定单词具有某一给定标记的概率。如:HMM 标注系统[2]。

本文由于韵律层级自动划分的需要,使用二元文法建立了维吾尔语词性标注系统的基础框架[3],二元文法的算法步骤如下:

1) 点“.”是句子标记,根据这个句子标记提取一个句子。

2) 从训练用的句子中,分别提取各个句子和句子中的各个单词,并统计出词性概率。

Ρ(wi|ci)=wicici(1)

3) 取出当前词的每一个词性,建立节点,计算每一种词性与前驱节点所有可能词性的二元组合概率,通过统计可以得到词性对照表。

Ρ(ci|ci-1)=cici-1ci-1(2)

4) 确定测试数据的词性时,将句子分成词序列,并在开始位置加入开始节点。取出第一个单词的所有可能词性,为每种词性建立节点,第一个词的每个词性节点的最佳前驱指向开始节点,并取出下一个词。

5) 基于HMM的标注算法选择单词二元词性概率与组合概率的乘积为最大的标记序列作为标注结果[2],因此计算P(wi|ci)P(ci|ci-1),找出最大的那个二元词性组合,将当前词的词性节点的最佳前驱域指向该二元组合中的前驱词性节点。

6) 如果还有未处理的词,则取出下一个词,继续作第5步,否则停止,转到第6步。

7) 所有的词处理完毕,从最后一个词开始,找出最后一个词所有词性中最佳的一种词性,然后沿着这个词性节点的最佳前驱域往前搜索找出每一个词的最佳词性,直至找出最佳的词性序列。

在VisualStudio2008环境下用C#语言编程,可以从词性标注文本中得到词性概率表。实现词性概率表的部分核心代码如下:

2 实验结果及其分析

2.1 数据准备

实验数据准备工作分为训练数据准备和测试数据的准备。本文收集了来自报纸、文学作品等媒介的文本语料,然后通过文本选择步骤来准备了10610个句子,其中10000句子参加了训练,这些句子具有一定覆盖率。测试数据分为训练集内的测试数据和训练集外的测试数据,各有500句。这些数据都是随机生成的。

词类标注是歧义消解(disambiguation)(消除兼类)问题,现有的语料库(Alfa 语料库)中保证了每个单词标出一个词性, 共有123678个单词,50.39%的维吾尔语词性是有歧义的。表2[6]给出了Alfa语料库中按歧义程度排列的词型数目。

考虑到音节对测试数据的影响,故在试验中把音节的因素考虑了进来,首先对Alfa 语料库针对音节进行了统计,该数据库中,一个单词最多有10个音节组成,最少仅有一个音节。有9到10个音节组成的不重复单词仅有一个,统计音节方法可以用来发现并纠正测试数据中的错误。

2.2 实验平台及结果分析

本文采用微软推出的最新编程语言C#作为开发技术,其简单,完全面向对象和类型安全的特性是它成为下一代的分布式引用程序的主流开发语言[7]。.Net Framework 3.5具有Linq技术,适于处理Unicode。开发平台为: visual studio 2008 steam system。

韵律层级自动划分研究中周围单词的词类特征,当前单词和下一个单词中语段的长度特征,从语段的开始算起或从语段的结束尾算起的潜在边界的距离特征,以及周围的单词是否有重音等特征是需要重点考虑的因素[2]本文准备了两种测试集,一个是来自于训练集的内部测试数据,数据随即抽取,另一个是来自训练集外的外部测试数据。运行界面如图4所示。

测试时考察标注的正确率和平均召回率[8]。

其中,正确率=正确识别出的词性总数/训练文本中总的词性总数;

各词性的召回率=正确识别出的该词性总数/测试集中该词性总数;

平均召回率=各召回率的和/词性种类。

当词性种类从41种减少到37种时集内正确率从86.69%提高到86.92%,平均召回率从65.81提高到71.66%,集外正确率从72.12%降到71.99%,召回率从54.61%提高到62.42%。虽然基于37种词性的集外正确率稍微降低但是其他值上有明显的上升状况。本文中所得到的结果(如表3所示)基本满足使用需求。因此本文决定基于37种词性的二元文法自动标注算法作为面向韵律层级自动划分的算法依据。

3 结 语

本文中对面向韵律层级划分的词性自动标注技术做了进一步的研究,发现采用HMM模型的二元文法来实现维吾尔语词性自动标注,基本上能满足面向韵律层级自动划分中的词性自动标注需求。虽然存在一些误差,但由于本文主要目的是满足面向韵律层级自动划分的要求,故得到的结果已满足需要。但从算法本身来说,需要进一步改进。另外还需要增加训练数据,所需词性种类等待进一步分析确定。

自动标注 篇9

近些年来,依赖于在线的特征需求获取系统来进行抽取、分析和管理用户需求变更的软件开发项目的数量逐渐增加[1,11,12]。尤其针对大量网络化软件,一方面为项目管理者及时有目的的更新软件提供强有力的需求来源。另一方面,在线特征请求管理系统提供让用户提出自己的想法、提交自身需求的机会,让用户能够参与软件产品的更新和迭代。这种方式可以有效地激励用户参与到需求工程的过程中去,获取用户对产品真正的需求,进而开发出用户更加喜欢和需要的软件产品。

在线特征需求获取系统中,提供用户手工添加特征需求标注的功能,用户可使用他们认为具有代表意义的词来描述和分类所提出的特征需求。这些标注词可以被用来检索、描述、鉴别和分类不同的特征需求[2],是管理特征需求有效的工具。然而,我们在对一些特征需求获取平台的数据分析中发现,有很多的特征需求没有被用户手工进行标注,从而影响对这些特征需求进行有效的组织、检索和分类。主要原因是手工标注会增加用户的工作量,因此很多用户不愿意进行手工标注。

针对以上问题,本文设计并实现了一个特征需求自动标注系统,该系统可自动抽取特征需求中的标注词,一方面可以对没有被手工标注的特征需求进行标注词的补充,另一方面可以对用户新提出的特征需求进行推荐,减少用户手工标注的工作量。通过这个系统既可以提升特征需求检索的效果,同时使用标注词进行特征需求分类,帮助需求工作人员有针对性的分析,提高工作效率。

1 相关工作

1.1 在线特征需求获取平台

近些年来,在线特征需求获取平台已经成为收集用户需求的有效工具,它在软件系统的演化过程中发挥着十分重要的作用。随着利用在线特征需求获取平台来管理用户需求的软件产品越来越多,用户在线提出的特征需求数量越来越大,对特征需求领域的研究也在逐渐增加。在特征需求方面的研究领域,很多内容是围绕着如何针对大量的用户特征需求数据,高效地进行管理,以方便用户进行检索和讨论,同时方便需求分析人员进行需求抽取和分析而展开的。

J.Cleland-Huang[9]等希望通过对特征需求进行聚类来提高需求人员的工作效率。他们在现有开源社区中,对特征需求的讨论组进行分析,发现目前通过用户的经验来对特征需求进行归类不是十分有效。为此,他们提出了一种自动社区管理(AFM)的方法来对特征需求进行可靠、高质量的聚类。通过这种自动化的聚类方法,可以帮助开源社区对特征需求进行有效的管理,提高需求人员的工作效率。

Carlos Castro-Herrera[10]等利用推荐技术方便用户快速找到他们关注的内容,推荐一些新的特征需求给用户展开讨论,同时也提出利用数据挖掘的方法对产品的相关信息进行主题提取,将这些主题词的信息推荐给项目管理者进行进一步的分析。

与上面的研究不同的是,本文利用特征需求的标注信息对特征需求进行高效的管理。标注信息在特征需求获取平台中是常见的元素,被用来对特征需求进行检索、分类及内容描述。由于在平台中存在大量没有被标注的特征需求而降低了标注的作用。我们提出了一种针对特征需求的自动标注系统,一方面可以对没有标注的数据进行标注的补全,另一方面可以对新提出的特征需求进行标注词推荐,降低用户标注的门槛和工作量。通过这种方式提高标注在特征需求管理方面的作用。

1.2 文本自动标注

在特征请求获取系统中,用户提交的特征需求绝大多数都是以文本形式呈现。因此,对特征需求进行自动标注,其实是分析特征需求的文本,再对文本进行自动化标注的过程。文本的自动化标注是一个被广泛研究的课题,国内外已有很多的研究学者提出了自动化的文本标注方法。

文本关键词提取[4,5]是一种无监督的文本自动标注方法。这种方法的基本思想是计算每个词在文本中的重要程度。然而,关键词从某些方面来说与标注是有差别的。一些标注词可能不是简单的从统计的重要程度而挖掘出的“重要词”。协同过滤是一个被广泛用于推荐系统中的模型[6]。这个模型也被引入到了文本自动标注的方法中[7,8]。协同过滤的主要想法是相似的文本具有相似的标注,这个模型倾向于使用相似文本中出现频率高的标签,忽略了目标文本本身的特性。这个问题导致协同过滤导出的一些泛化的标注,同时可能导出一些与目标文本内容不符的信息。

上述方法都比较适合传统的文本标注,如文档、微博等。这些传统的文本往往在涉及内容较多,主题分布发散。而特征需求的文本倾向于集中描述一个特征内容,而这个特征内容是由多个关键词共同决定。因此,上述方法在特征需求自动标注方面不能取得很好的效果。

特征需求集中描述一个特征内容的特性,通常使用相关性模型[3]进行建模,另一方面考虑到相似的文本倾向使用相似标签的本质特性,本文将协同过滤模型和相关性模型相结合,采用一种协同相关性模型(CRM)的混合模型。这个模型首先通过协同过滤算法从整个训练集中找出与目标特征需求相似的文本和标签集合,然后基于过滤后的集合使用相关性模型进行自动标注。

2 系统分析与设计

2.1 系统总体功能分析

目前大部分的特征需求获取系统都是采用在线的形式,以方便用户提出自己的想法和需求,在线进行有效交流。为了方便日后集成到特征需求获取系统中,我们将系统设计为B/S结构,包括前端展示和后台处理两个模块。前端展示部分主要用于用户或需求工作人员输入新的或未被标注的特征需求文本信息,以及返回自动标注的结果。后台处理部分主要负责对特征需求相关信息的处理,包括数据抓取和数据库的建立、数据预处理、协同过滤模型获得相似集合以及相关性模型获得标注词等步骤。

系统的整体功能设计如图1所示。

2.2 特征需求数据库的设计

目前特征需求获取平台有很多,我们需要选择能够提供可靠数据的特征请求获取平台。同时自动化标注特征需求需要可靠的训练集,因此需要一个有标注信息的平台做依托。

通过爬虫程序在特征需求获取平台上抓取特征需求数据,每条数据包含如下信息:

1)特征需求基本信息:ID、题目、发布时间、标注信息、回复次数、浏览次数、URL;

2)特征需求内容及评论信息:ID、用户、特征需求内容、评论内容、发布时间、回复次数;

3)用户信息:用户名、注册时间、发表特征需求个数。

本文的工作只用到了特征需求的题目、内容和标注信息,其他的数据是为了以后的工作做进一步扩展而准备。

2.3 数据预处理

数据预处理包含对特征需求题目和内容的切词以及对标注信息的切分两个步骤。对于训练集合中的每一条特征需求的题目和内容进行词切分,对于英文数据直接通过英文特有的空格将词进行切分,对于中文数据可以采用中文分词工具ICTCLAS来完成分词功能。通过分词步骤,对于每一个特征需求产生一组描述信息的词向量D={w1,w2,…,wm}。对于标注集合的切分,一般标注集合各个词之间使用逗号隔开,因此可以根据逗号方便的对标注词进行切分。通过对标注集合的切分,每一个特征需求也产生了一组标注信息的词向量A={a1,a2,…,an}。

2.4 自动化标注过程

通过对特征需求文本的分析,我们发现特征需求有两个方面的主要特点:

1)与文档、微博、电影描述这种传统文本相比,特征需求倾向于集中描述一个或两个特征,而突出的特征是由很多关键词共同决定的;

2)存在文本所拥有的共同特点:相似的特征需求倾向于使用相同的标注。

针对第一个特点,通常使用相关性模型来解决,这个模型目前主要应用于图片标注领域。而针对第二个特点,文本标注领域倾向于采用协同过滤模型。因此,本文将协同过滤和相关性模型结合,提出了一种协同相关性模型CRM来对特征需求进行自动标注。我们将CRM应用于自动标注系统中,使得整个系统的标注效果有了明显的提升。

2.4.1 获得相似集合

获得相似集合阶段主要使用协同过滤(CF)的方法,找出与目标特征需求文本相似的特征需求数据,构成下一阶段依赖的数据集合。这一阶段的作用在于,一方面减少训练数据的数量,从而降低下一步中相关性模型执行的复杂度。另一方面,过滤掉与目标特征需求无关的数据,避免无关数据会带来的噪音,从而提升模型的准确性和有效性。该过程大致可以分为以下几个步骤:

1)对于每一个未标注的特征需求或用户输入的新的特征需求,按照上一节中数据预处理的方法,对其题目和文本进行分词;

2)针对所有特征需求中的每一个词,计算词在文本中的重要程度。本文采用传统的TFIDF算法来计算每一个词的权重;

3)将训练集合中的每一条特征需求依次与目标特征需求进行文本相似度计算。基于步骤2)中词的权重,采用传统的空间向量模型(SVM)进行相似度计算;

4)按照相似度从大到小进行排序。提取出排在前面λ个特征需求的文本和标注信息放入相似集合T'中,为下一步执行相关性模型的计算提供集合。

2.4.2 获得标注词

基于上面步骤中获得的相似集合T',我们采用相关性模型(RM)进行标注词的导出[3]。RM在自动标注过程中,希望通过计算获得标注词与内容文本共同出现的联合概率。根据这个联合概率值对每个候选标注词进行排序,从而返回固定数目的标注词。RM在概率值计算公式推导的过程中,使用了一元语言生成模型和独立性假设。

在此基础上,我们将协同过滤的思想引入模型中。本文假设在RM中每一个特征需求模型,在所有数据集中抽取出来的概率是正比于它与目标特征需求的相似度。同时,如果特征需求模型与目标特征需求不相似,则其被抽取的概率会很小而被忽略。因此我们可以将标注词与内容文本共同出现的联合概率公式写为:

这里,M代表相似集合中的每一个特征需求,即为一个特征需求模型,‖T‖代表训练集合T的大小,‖M‖代表文本中的词和标注词总共的数量和。N(w,M)代表词w在M中出现的次数,N(w,T)为训练集T中包含词w的数据条数。N(t,M)和N(t,T)与N(w,M)和N(w,T)有相似的含义。α和β是两个平滑参数,我们通过实验对α和β的不同组合进行验证,通过优化正确率和召回率来筛选出最有效的平滑参数组合。

根据上面的公式计算出每个标注词出现的概率。根据概率对标注词进行排名,将排在前面的k个词作为自动标注的结果返回给系统。这样就完成了整个自动标注系统的流程。

2.5 系统应用流程展示

我们将使用这个系统的用户分为两种角色:一类是提出特征需求的用户,一类是需求工作人员。当用户在特征需求获取平台上提出一个新的特征需求的时候,会使用到该系统对新提出的特征需求进行标注词推荐,降低用户的工作量;当需求工作人员需要对部分或所有的特征需求进行标注词提取的时候,会使用该系统对选择的特征需求进行自动标注。同时,两种用户都可以使用系统通过标注词进行相关特征需求的检索和查看。

用户在提出新的特征需求时,可以通过右侧的文本框填写特征需求的题目和内容信息。为了降低用户手工标注的工作量和门槛,在输入完特征需求的信息后,用户点击工具右上方的“标注”按钮,则系统会进行自动标注,返回五个结果标注词给用户。用户可以选择他们认为合适的标注词提交给系统,或者手工输入其他标注词。用户选择和输入完毕后,点击“提交”按钮完成标注过程。图2展示的是提出特征需求的用户使用工具时的情况。

需求工作人员用户进入工具时,页面的左侧先展示的是目前平台上用户提出的所有的特征需求的题目和内容,如果特征需求被用户手工标注,则右侧会展示标注信息,没有标注信息的特征需求不展示特征需求。需求工作人员可以通过每个特征需求右下角的选择框来选择需要进行自动标注的特征需求,可以对已经手工标注的特征需求进行选择表示需要系统从新自动标注。或者点击“全部选择”按钮来选择所有特征需求。需求工作人员选择好需要自动标注的特征需求后,点击“标注已选”按钮,则可以完成自动标注。返回的标注词在每个特征需求的右侧展示,同时附带该标注词在整个集合中被使用的次数。需求工作人员可以点击标注词查看所有和该标注词有关的特征需求,详细介绍在图4给出。图3展示的是需求工作人员使用自动标注工具的情况。

图4显示的是通过标注词检索相关特征需求的工具页面。用户或需求工作人员可以通过图2或图3中点击标注词进入该页面,或直接进入该页面进行标注词的键入和搜索。对于确定的词,系统返回使用这个词进行标注的所有的特征需求。用户或需求工作人员可以通过点击返回结果中每一条信息查看特征需求的详细内容。

3 实验结果与分析

为了验证系统的有效性,本文从IPS Community平台的数据库中抽取了418条用户提出带有标注信息的特征需求进行实验。IPS Community平台是产品Poweramp的在线用户社区,这个社区拥有13 178个注册用户,提供用户进行在线讨论、提交特征请求、提交bug等功能。通过对实验数据集合进行信息统计,用户自行标注的词数量总计864个,平均每个特征需求有标注2.067个。我们对存在标注的418条特征进行人工分析,对特别不合理的标注词进行修改和删除,产生标准的数据集合,提供训练和测试。

3.1 评测指标

为了方便地进行特征需求自动标注效果的评测,本文采取正确率(P)、召回率(R)、F值(F)对自动标注结果进行评测,公式为:

对于每个测试目标特征需求,Nc代表自动标注的结果与原标注相同的个数,Np代表自动导出的标注词的数目,Nt为实际特征需求所有的标注数量。模型在测试集合上的效果是通过对每一个测试数据的指标进行加和平均得到的。

我们将平滑参数设置为α=0.7以及β=0.2,参数λ设置为λ=50。我们根据实验得出在这样的参数设置下CRM取得最好的效果。在我们的实验中,自动标注的词的个数Np分别取值1到5来进行实验验证。对比标准数据集,我们采用十折交叉验证,即将数据集随机平均分为十份,在每一次的训练测试过程中,选择九份作为训练集合,剩下的一份作为测试集合,过程反复十次,最后将每一次的指标进行加和平均,得到最后的实验结果。

3.2 实验结果与分析

为了说明协同相关性模型的有效性,我们实现了一系列文本自动标注模型作为比较。TFIDF[4]是一个具有代表性的关键词提取方法。协同过滤(CF)[7]是一个典型的使用广泛的自动标注方法,它基于的假设是相似的文本倾向于使用相同的标签。RM[3]是传统的相关性模型。

在图5中,我们展示了TFIDF、CF、RM和CRM在标准数据集上的正确率—召回率的曲线图。在图中,曲线图中的每一个点分别代表自动标注词的不同数目,Np的取值从1到5。对于每一个曲线,代表Np=5的点在曲线图的左上方,而代表Np=1的点相反在图的右下方。方法的效果越好,则曲线就越接近整个图的右上方。从图5我们可以看出:

1)CRM的效果对比其他模型有明显的提升。我们的模型与表现最差的RM相比效果约提高了15%,与表现最好的基线模型CF相比效果也提升了约10%。这充分证明了CRM方法在特征需求自动标注方面的有效性。

2)在对比实验中,RM的效果比较差,而CRM的效果最好,CF的效果次之。这说明在自动标注过程中,只特征需求集中描述的特点是不够的,相似的文本倾向于使用相同的标注这一特征十分重要。

为了进一步说明CRM和其他基线的效果,在表1中,我们展示了在标准数据集上5个模型的正确率、召回率和F值。我们选择Np=2的情况作为例子,因为平均每个特征需求存在的标签数目接近2个。

4 结语

本文将研究范围定位在特征需求的标注领域,设计了一种针对特征需求的自动标注的系统,对未被标注和用户新提出的特征需求进行自动化的标注,以提高标注对特征需求有效的检索和管理的作用。我们对特征需求的文本特点进行了细致的分析,得出特征需求的文本存在两方面的特性:特征需求倾向于集中描述一个或两个内容,而这些内容是由文本中很多的关键词共同决定的;相似的文本倾向于使用相同的标注词。根据特征需求的这两个文本特性,我们将协同过滤方法和相关性模型结合,提出一种协同相关性模型(CRM)。与传统的相关性模型RM不同,对于目标特征需求,CRM首先使用CF过滤出与目标特征需求相似的数据组成集合,基于这个集合使用RM进行标注词出现的概率计算,从而导出自动标注的集合。我们采用一个真实的数据集合进行试验,与其他传统的文本标注的模型相比,CRM的效果明显优于其他模型方法,准确率最高可提高15%,最低提升10%。通过对比实验证明了我们的系统在特征需求自动标注方面的有效性。

当然,我们的系统也存在着一些不足。对于经常被提到的特征需求,由于存在大量相似的训练数据而使得自动标注的效果较好。而对于较少被提到的特征需求,因为缺少足够的相似文本作为参考,使得模型得出的标注效果较差。系统十分依赖训练集的质量,如果训练集中的数据本身标注质量不高,则系统得出的效果会受影响。对于训练集中没有出现的标注词,系统不会导出,即协同相关性模型只会使用训练集中出现过的词进行标注。这些方面都是是以后值得考虑改进的方面。

参考文献

[1]Fitzgerald C,Letier E,Finkelstein A.Early failure prediction in feature request management systems[C]//Requirements Engineering Conference(RE),2011 19th IEEE International.IEEE,2011:229-238.

[2]Xia X,Lo D,Wang X,et al.Tag recommendation in software information sites[C]//Proceedings of the Tenth International Workshop on Mining Software Repositories.IEEE Press,2013:287-296.

[3]Jeon J,Lavrenko V,Manmatha R.Automatic image annotation and retrieval using cross-media relevance models[C]//Proceedings of the26th annual international ACM SIGIR conference on Research and development in informaion retrieval.ACM,2003:119-126.

[4]Turney P D.Learning algorithms for keyphrase extraction[J].Information Retrieval,2000,2(4):303-336.

[5]Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information processing&management,1988,24(5):513-523.

[6]Sarwar B,Karypis G,Konstan J,et al.Item-based collaborative filtering recommendation algorithms[C]//Proceedings of the 10th international conference on World Wide Web.ACM,2001:285-295.

[7]Mishne G.Autotag:a collaborative approach to automated tag assignment for weblog posts[C]//Proceedings of the 15th international conference on World Wide Web.ACM,2006:953-954.

[8]Sood S,Owsley S,Hammond K J,et al.TagA ssist:Automatic Tag Suggestion for Blog Posts[C]//ICWSM,2007.

[9]Cleland-Huang J,Dumitru H,Duan C,et al.Automated support for managing feature requests in open forums[J].Communications of the ACM,2009,52(10):68-74.

[10]Castro-Herrera C,Cleland-Huang J.Utilizing recommender systems to support software requirements elicitation[C]//Proceedings of the 2nd International Workshop on Recommendation Systems for Software Engineering.ACM,2010:6-10.

[11]Maalej W.An Overview of Recommender Systems in Requirements Engineering[J].Managing Requirements Knowledge,2013:315.

自动标注 篇10

图像标注[1,2]的目标是建立图像区域与标注关键词之间的对应关系。图像标注通过建立低层视觉特征与高层语义之间的映射关系,可以在一定程度上解决图像检索中存在的“语义鸿沟”问题[3]。图像标注可以分为手动标注和自动标注两类。使用人工方式进行图像标注是最直接也是最有效的方式,但是这也是非常耗时耗力的一项工作。随着Internet和数字图像技术的发展,图像数据海量增长,传统的人工标注方法每次只能对一幅图像中的物体区域进行标注,使用人工来进行标注越来越费时耗力。因此越来越多的学者研究通过利用机器学习方法来进行自动图像标注。使用统计学习方法需要大量的已标注样本作为训练集,然而,目前存在的已标注数据集相对较少。

文章提出了一种基于目标跟踪的半自动图像标注样本生成方法,该方法包括目标跟踪和半自动标注两个模块。通过利用目标跟踪机制生成一系列样本,同时设计了一种模板学习机制,用于目标区域的跟踪和检测,最后通过利用学习到的模板对视频或图像进行检测,并通过人工标注来辅助进行确认,从而生成标注样本。本方法的优点是能够通过利用很少的人力消耗来获取大量的标注图像样本。

1 基于目标跟踪的半自动图像标注样本生成方法

针对人工标注[4]样本费时费力的问题,文章提出一种基于目标跟踪的半自动图像标注样本生成方法,用户通过对视频中的运动目标进行一次标注,该方法可以对该目标进行连续跟踪,从而获得该目标的不同角度和不同尺度的标注样本,通过一次人工标注获取多个样本,在减小人力消耗的同时,可以为目标检测和自动标注[5,6]获取更多的标注样本,其具体流程如图1所示。

用户首先在视频中标注初始目标区域。文章提出的算法首先对目标区域提取特征并计算视频中后续帧与当前目标区域的视觉相似度,进行目标跟踪;同时,在跟踪的过程中,通过训练分类器在后续的图像帧中检测待跟踪的目标区域,并利用检测出的候选区域,算法自动对跟踪模型进行优化,同时结合人工介入来去除错误跟踪的样本序列,从而通过不断的跟踪、优化模型和人工干预来获得更多的标注样本。

文章首先提出一种快速简单的图像跟踪方法来对视频中的目标进行自动检测和跟踪,然后提出一种半自动图像标注框架,通过利用目标跟踪算法来对视频中的目标进行自动跟踪,同时结合人工操作来对标注出的跟踪序列进行筛选,并不断选择新的目标进行跟踪。

2 基于卷积相似度的目标跟踪方法

文章针对视频中的目标进行跟踪和标注,因此需要对视频中的目标进行快速检测、标注、更新跟踪模型。文章提出一种快速简单的视频目标实时跟踪方法,通过利用快速傅立叶变换计算帧间目标的相似度,并利用检测出的正负样本不断更新检测模型。

2.1 目标跟踪步骤

(1)对于给定分辨率为N×N的视频,对视频初始帧计算梯度,并人工标注出H×W的矩形物体区域,中心坐标为(m0,n0),作为初始正样本x0。

(2)根据初始正样本选择负样本,对矩形物体区域进行偏移,生成负样本x0ΔiΔj,其中,Δi=[-H/2,0]∪ (0,H/2),Δj∈ [-W/2,0]∪ (0,W/2)表示横坐标和纵坐标的偏移,跟踪搜索范围示意图如图2所示。

定义αΔiΔj为负样本x0ΔiΔj的权重,这里使用高斯函数来定义αΔiΔj:

(3)根据初始的正样本和负样本,生成模板w:

直接计算上述模板的复杂度很高,通过引入h:

其中h的示意图如图3所示。

定义为以(m0,n0)为中心2 H ×2W矩形区域,其中包含了所有正负样本所对应的区域,通过利用h对进行卷积,可以很方便的求得模板,通过利用FFT和IFFT,可以降低计算复杂度,首先利用FFT将h和转换到频域,然后点乘,最后再利用IFFT转换到时域得到模板w。在硬件支持的情况下,还可以使用GPU加速。

(4)对视频帧t计算梯度,利用模板wt-1搜索当前帧中所有H×W区域中最相近的区域,定义距离函数为,直接计算模板与帧t中所有H×W矩形区域距离的复杂度为O(NNHW),为了加快计算速度,可以进行式(1)拆分:

其中,对于当前帧为常数;可以通过一个H ×W的单位矩阵对当前帧进行卷积得到,对二维单位矩阵进行拆分,得到一维向量,可以进行快速的卷积;可以通过利用模板和当前帧进行卷积得到。通过利用FFT和IFFT可以将计算复杂度大幅降低。首先利用FFT将w和当前帧转换到频域,然后点乘,最后在利用IFFT转换到时域,得到当前帧中每个像素的距离。为了进一步提高效率,可以只计算以(mt-1,nt-1)为中心的H×W区域内的距离。在硬件支持的情况下,还可以进一步使用GPU加速。

(5)通过计算得到的距离获取正负样本xt+,xt-,其中xt+表示跟踪结果,xt-表示除xt+外距离最小的目标区域,利用xt+,xt-通过公式(2)来更新模板wt:

其中β=(0,1)表示学习率。将xt+加入正样本数据集,t=t+1。重复步骤(4)、(5)进行迭代跟踪,直至(mt,nt)超出图像范围,或人工停止跟踪。

2.2 基于目标跟踪的半自动图像标注样本生成方法

基于2.1节的目标跟踪方法,文章提出了一种半自动图像标注样本生成方法,根据人工标注的样本来初始化跟踪模板,并利用目标跟踪方法不断跟踪和更新跟踪模板,生成目标序列,通过人工交互来开始、终止跟踪序列,并对跟踪序列进行筛选,具体算法如下:

(1)利用学习到的模板w对视频进行检测,获取若干候选区域{x0j,i=1,…,K}。

(2)针对每个候选区域x0i

a.生成跟踪模板。

b.参考2.1节步骤(4)计算帧t中每个区域与模板的距离。

c.参考2.1节步骤(5)生成正负样本xti+,xti-,并更新模板wti。

d.在任意时刻,执行如下操作:

人工判断:通过人工标注去除错误的跟踪样本,保留正确样本。

自动判断:计算样本序列{xτi+|τ=0,…,t}与模板的距离,去除距离不稳定的样本。

e.若样本被保留,则继续跟踪,t=t+1,重复b、c、d,直至(mti,nti)超出图像范围,或人工停止跟踪。

(3)根据跟踪结果得到一组模板{wi,i=1,…,K′},K′为保留的正样本序列数量,同时获得一组正样本序列{xτi|τ=0,…,t}。

(4)从模板列表W =w∪{wi,i=1,…,K′}中随机选择一个模板,返回步骤(1),重复执行,直至人工停止。

(5)对获取到的正样本序列进行人工确认,进一步去除假阳性样本。

2.3 实验结果

文章在行车记录仪拍摄的视频数据上进行实验,对行车过程中的行人进行跟踪和标注,其初始化跟踪样本和模板跟踪示意图如图4所示。

针对2.1节的步骤(5),由于图像样本是由跟踪获得,具有连续性,因此,只需要将每个序列分为两段,前段为正样本,后段即为负样本,每个序列仅需一次人工标注。人工筛选跟踪效果序列示意图如图5所示。

(1)本方法直接使用像素级特征,而非提取直方图等特征,避免特征提取的时间消耗,同时能够描述图像区域中更多的判定信息,如形状、空间结构等。

(2)本方法利用距离分解,如2.1节步骤(4)所示,将计算复杂度较高的欧氏距离计算转化为两个卷积计算,从而可以利用FFT和IFFT进行加速,在硬件支持的情况下,还可以使用GPU加速,计算效率较高。

(3)对于每个正样本,本方法利用偏移产生负样本,从而使模板的计算鲁棒性更强,同时,本方法通过设计卷积算子h,如步骤(3)所示,利用h来对扩展正负样本,其计算效率更高。

(4)本方法设计了一种在线模板更新机制,如步骤(5)所示,通过每次跟踪生成的正负样本,可以直接更新跟踪模板,而不需要利用之前的跟踪产生的所有正负样本进行重新训练。

(5)通过一次标注,进行跟踪可以得到大量的图像样本,通常视频每秒包含30帧,因此跟踪30s即可产生900 个样本,相比现有技术,消耗人力很少,效率很高。

3 结束语

文章利用FFT来加速计算跟踪区域和模板之间的相似度,以满足实时跟踪目标的需求,同时设计了一种在线模板跟踪机制,通过利用检测得到的正负样本来不断优化模板,达到更好的跟踪效果。基于该跟踪方法,本文提出了一种半自动图像标注样本生成框架,通过结合自动跟踪和人工辅助来提高图像标注的效率。实验结果表明,该方法可以对视频中的行人目标进行实时准确的跟踪,结合少量的人工干预,可以获得大量的行人标注样本,为后续的目标检测等工作积累了大量的训练样本。

摘要:图像标注、目标检测等应用需要大量的人工标注样本作为训练集来训练分类器,而且,人工标注样本耗时耗力,针对该问题,文章提出了一种基于卷积相似度的目标跟踪算法,对视频中的目标进行连续跟踪,然后基于该方法提出一种半自动图像标注框架。通过结合少量的人工标注和干预以及自动跟踪算法,对视频中的运动目标进行标注,从而利用少量的人力来获取大量的标注样本。实验结果表明,该方法可以快速有效地对视频中的图像序列进行标注。

上一篇:创造性培养下一篇:物流技术的发展与展望