中文法律文本

2024-08-17

中文法律文本(共7篇)

中文法律文本 篇1

本文采取了实证研究与理论研究相结合的方法, 首先通过调查问卷的方式, 对237研究对象进行了调查, 总结了国人对法律文本的认知能力以及对其可读性的基本看法。在调查结果的基础上, 作者结合国内外相关的可读性研究以及中国法律语言的固有特点, 从词汇层面, 句子层面, 语言失范等三个层次深入分析了中文法律文本可读性偏低的原因。在《牛津高阶词典》中, “可读”即“readable”被定义为“writing, speech, etc.can be read easily and enjoyably” (1989) 。也就是说, 具备高可读性的文章应能被读者轻松、愉悦地理解。可读性越高, 读者的理解速度与理解效果越好。爱德华.桑代克 (1921) 的《教师字典10000词》是最早关于可读性的研究著作。自此以后, 关于可读性的研究主要集中在学校教材, 新闻报道, 文学著作等受众群体特殊或者读者群广大的文本之中。而对于法律语言, 这一特殊语言的可读性研究则少之又少。实证研究。为了获取普通大众对中文法律文本 (包括法条, 法律文书, 行政法规) 的具体看法, 作者采取了问卷调查的实证研究方式。调查对象主要是在校大学生, 媒体从业者, 教师及公务员。因为上述人员都具有较高的教育水平并且有较多接触法律文本的机会。作者共发出300份问卷, 收到有效答卷216份。对答卷的数据进行分析, 作者发现约73%的被调查对象表示曾经读到过不太易懂的法律文本。在多选项“导致法律文本难懂的因素”中, 近80%的被调查者选择了“专业词汇”, 43%的被调查者选择了“句子冗长”, 21%的被调查者选择了“信息过量”。

结合可读性理论研究与调查问卷结果分析, 针对法律语言的特点, 本文总结了以下导致中文法律文本可读性偏低的原因。

1. 词汇层面

任何一种专业语言都充斥着大量的“行话”, 法律语言也不例外。在中文法律文本中, 法律术语的频繁使用降低了可读性, 增加了阅读难度, 尤其是对“非法律人”。举这样一个例子:

在诉讼过程中, 无独立请求权的第三人有当事人之诉讼权利义务, 被判决承担民事责任的无独立请求权的第三人有权提出上诉。该第三人在一审中无权对案件的管辖权提出异议, 也无权放弃, 变更诉讼请求。 (《中华人民共和国民事诉讼法》) 。

在这句话中, “无独立请求权”, “第三人”, “管辖权”, “诉讼请求”都可以被看作是专业术语。这些专业术语导致了普通读者难以正确迅速地理解文本意思。

除了专业术语, 在法律文本中, 还有一类“人造专业术语”。这些词汇来源于日常用语, 但当出现在法律文本之中时, 它们的意思就有别于日常用法。比如“票据”这个词语, 当用在法律文本中, 意思明显变窄, 只能指“汇票, 本票和支票”。再如“保险人”当中的“人”, 并不是指生物意义上的人, 而是指与投保人订立保险合同, 承担赔偿或者给付保险金责任的保险公司, 因此这里“人”事实上指的是法人组织。

2. 句子层面

句子分析一直是可读性分析最重要的一个部分。理解句子是理解文章的关键所在。在法律文本中, 长句的大量出现增加了理解难度。比如下面这个句子:

如果根据发价或者依照当事人之间确定的惯例和习惯做法, 被发价人可以做出某种行为, 例如与支付价款或者发运货物有关的行为, 来表示同意, 而无须向发价人发出通知, 则接受于该行为做出时生效, 但该行为必须在上述条款所规定的时间内做出。 (《联合国国际货物销售合同公约 (中文版) 》)

这句话共有114个字, 45组词, 比日常所见句子要长得多, 理解难度也大得多。

当然, 除了句子长度, 句子结构的复杂也降低了可读性。例如:

若参与集中的单个经营者之间有共同控制的其他经营者, 则参与集中的所有经营的合计营业额不应包括被共同控制的经营者与任何一个共同控制他的参与集中的经营者, 或与后者有着控制关系的经营者之间发生的营业额。 (《经营者集中申报办法》)

句子不长, 但轻松理解却不容易。大量的状语和定语成分使得句子的主干不容易被轻易识别, 句子的关键信息也就不容易被快速理解。同时, 句子结构复杂势必会导致大量的信息集中在有限的句子中, 句子信息超载。

3. 语言失范

法律的特殊性对法律语言的精确性提出了很高的要求, 然而, 在法律文本中, 甚至是在成文法法条中, 语言失范的现象依旧存在。语言的不恰当使用无疑会加大读者恰当理解文本的难度。

中华人民共和国民法调整平等主体的公民之间、法人之间、公民和法人之间的财产关系和人身关系。 (《中华人民共和国民法通则》) 。仔细揣摩这句话中的“平等主体”, 其本意是强调公民之间, 法人之间都是平等的。但同时, 这个短语似乎也预设了公民之间, 法人之间还存在“不平等的”主体, 而只有平等的主体才能受民法调整。这显然背离了原文的意思。

正如著名法律语言学家廖美珍 (2006) 所说, 要实现法治, 就必须让老板姓知法懂法, 法律语言的简明化和大众化有助于真正体现法律的公正。而现下的中文法律文本, 可读性并没有达到较高的水平, 某些文本并不能轻易地被大部分民众了解。而根据本文的研究, 造成法律文本可读性偏低的原因主要是词汇专业性较强, 句子过长, 句式复杂, 以及语言失范等问题。要想提高法律文本的可读性, 就要从这几个方面入手, 一一破解。

参考文献

[1]杜金榜.法律语言学[M].上海:上海外语教育出版社, 2004.

[2]廖美珍.论法律语言的简明化和大众化[J].修辞学习, 2006.4, 33-36.

[3]刘人生.中国当前立法语言失范之评析[J].法学, 200l.1, 21-24.

[4]潘庆云.中国法律语言鉴衡[M].北京:汉语大辞典出版社, 2004.

[5]中国法制出版社.国家司法考试法律法规汇编[Z].北京:中国法制出版社, 2012.

多视图学习的中文文本分类研究 篇2

当下,计算机信息技术发展迅速,计算机网上资源信息层出不尽,我们已经迎来了信息资源丰富的时代,面对海量的信息资源,人们如何才能提取到所需要的信息已经成为人们面对的挑战,文本分类技术成为了信息文本处理的又一关键技术。管理组织文本信息的有效方法——文本分类,目前的网络信息出现太多杂而乱的现象,文本分类可以很大程度的解决此类问题。

1 多视图中文文本分类相关技术

1.1 文本信息处理

格式文本内容的主体部分就是文本信息;文本属性信息是用来表现文本的形式,版面信息是用来反应文本的形式。格式文本处理的基本要求就是把内容与形式进行适当的搭配。这一切都是为了出版发行,才进行格式文本处理,它包括打印、电子发行等。

1.2 文本处理相关技术

1.2.1 中文字符处理

1981年5月1日,我国国家标准总局颁发的,中文字符还有另一个名字——国标码集,标准名的简写:GB2312-80。中文字符处理的过称:首先,在给定的方格内绘制出所有汉字的点阵图像,然后形成字节编码,并且按照0、1矩阵排列,最后把所有汉字的点阵编码按照其在汉字码表中的位置顺序存放,形成汉字点阵字库。

英文字母的输入可以直接通过键盘完成,但是汉字信息的输入需要用英文键盘上不同字母的组合,从而对每个汉字进行编码,输入一组字母编码实现对汉字的输入。

1.2.2 停用词处理

检索信息过程中,处理自然语言数据时,我们通过系统自动略过一些字或词,达到高效搜索和减少储存空间的目的。而所说的Stop Words正是上诉途径[1]。由于stop word都是由人工输入而非自动生成,且形成stop word list。而有所限制的是,任意的list都不会匹配所有的工具,尤其是存在一些工具会可以避开这些list搜索。

1.3 文本表示

1.3.1 向量空间模型

向量空间模型(VSM:Vector Space Model)是由Salton等人提出的,并实现了在SMART文本检索系统中。把对文本内容的处理简化为向量空间中的向量运算,而且它用空间上的相似度来表达语义的相似度,相对更直观易懂[2]。

起首描述两个观念tf和idf,tf即term frequency,一般来说我们使用以下方式对出现次数和相关度进行弱化,公式如下:

document frequency为一个term出现在整个文本文档的次数——简称为df。与上文介绍的tf正好相反的是,重要度和一个term出现次数为反比例。简单来说,在文章中经常出现的and,or之类的词语就是相对不那么重要的,相反在文档中很少出现的例如专业词汇,生僻字眼的意义较之其他就具有较高的重要性。(Idf即使简单地对df进行取倒数运算用于下文)

参考tf弱化相关度的处理公式可得:

其中N:文档总数,df:在所有的文档中出现的次数。

将权重:tfidf,它能计算全数词的权重,假如用一个N维的向量表示为一个文档,query则用N维的向量表示,如果query中没有与之对应的term,则此维数的权重为0。

1.3.2 文本相似度计算

在向量空间模型中,文本相似度是通过d1和d2这两个文本间的内容相关度来计算的[3]。

用sim(d1,d2)表示文本相似度,常用的公式有:

欧几里德距离,简称欧式距离,如下公式(2-1)所示:

公式中w1i:d1文本的特征值ti的权重,n默示特征总数。

(1)向量内积

直接计算向量内积,计算的强度变低了,但是误差确变大了。

(2)夹角余弦

其中相似度同时可以采取所对应向量夹角余弦值进行表示,因为用余弦计算的值恰好是一个介于0到1之间的数。对于d1和d2,相似度则如下:

1.4 常用的特征选择算法

1.4.1 相关性(Correlation)

好的特征子集所包括的特征应该是与分类的相关度较高(相关度高),而特征之间相关度较低的(亢余度低),可以使用线性相关系数(correlation coefficient)来权衡向量之间线性相关度[4]。

1.4.2 一致性(Consistency)

如果两个样本,样本1属于一类,样本2属于不同于样本1的一类,但是样本1和样本2在特征A、B上具有相同的特征值,那么不应该选特征子集{A,B}作为最终的特征集。

2 基于多支持向量机的并行学习算法

2.1 现有的分类算法

2.1.1 增量算法

增量算法的提出主要用来解决当样本随时间持续而逐渐增加的情况。此类算法在对后期添加样本的处理方式上,仅对起始学习结果中与后添加样本相关的那一部分来增删改,与这些非联系结果就不会被不被提及到了。反观Ralaivola所说的种增量式进修方式,它的思想便是基于高斯核局部特征,只是更新了对学习机械输出影响max的系数,从而用来减少计算的复杂程度[5]。Batch SVM增量学习算法则是采用后添样本划分为若干互不相交的不同子集,分开训练,在每次训练时将位于分类间隔内的样本从新添加到原来样本,再次训练,后来有张健沛等人在Batch SVM基础上提出了改进学习算法[6],利用多个支持向量机分类器通过并行实现增量。

2.1.2 分解算法

Osuna提出的支持向量机分解算法,简单来说就是在基于策略的将训练集划分成的若干子集上进行训练,然后在基于策略进行最终组合[7]。比如:chunking算法、SMO算法、lib SVM算法、SVMlight算法等都是比较典型的,值得注意的是SMO算法较为不同,此方法仅仅划分为2个样本,通过极短的迭代时间达到减少训练时间的效果。

2.2 并行学习算法

使用多个SVM分类器对large-scale训练样本集并行计算,主要思想是基于:根据规分解成若干易于处理的smallscale子集,把子集分布于多个SVM分类器上进行训练。基于w-model,Cascade SVM,取其精华,本文构建一种改进的并行SVM,基于w-model,采用多个SVM分类器并行计算数据,确保其在更新的同时保留全部分类器,因为分类器机能会受到各个子样本会集样本散布状况差别所导致的差异,本文选择更新分类器时采用支持向量集传送形成迭代反馈,从而弱化分类器机能受到的影响。与此同时调整Cascade SVMs中反馈方法得到提高训练分类器效率的目的。由此,本文所提出的方式既确保分类器推广机能又紧缩训练时间,在部分水平上减少支持向量数目[8]。

3 算法实验与分析

3.1 实验描述

真的数据全部取用于互联网,其中有20个文本类别,训练集和验证集构语料库,除去破损冗余,完整文档为18185篇,本文从其中提取了环境、经济、运动三方数据,采取其中任意两类构成一组两类分类,即,可得3个两类问题[9]。

软件平台:Matlab7.0

实验系统语言:C++

其中分词系统采用ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),经特征提取所得特征空间的维数为4000;

SVM分类方法开源工具包:LIBSVM[10]。

3.2 实验结果及分析

本文采取文本分类研究广泛接受的评估指标来评价标准SVM和改进后的并行SVM分类效果,即精确率(Precision)、召回率(Recall)、和训练时间。

从表1和表2可以看出,在准确率(Precision)和召回率(Recall)方面,改进的方法在经济、环境等类与比标准的SVM方法略低,在运动方面的判断结果则和标准的SVM方法基本持平。表3的成果表明,在训练耗时方面,改进后的SVM算法则可以比标准SVM算法节约约莫30%的时间,大大提高了分类的效率。

经上述分析可以得出结论:本文所提出的算法最大的优化在于分类器效率的提高,具有可观的使用价值。待改进之处在于效果反而不如初始方式,却也在能够接受的范畴。究其原因在于此方法中采用的文本表示和分类,分类算法以及权重计算等每一步所产生的影响,都会影响最终结果。由此可得,在科研的每一步当中都要有所改进,才能使文本系统性能有所强化。

4 结束语

在当今计算机信息技术日益发达的情况下,计算机在线资源信息日益增多,人们已经从资源匮乏的时代过渡到了信息资源丰富的数字化时代,面对海量的信息资源,人们如何才能提取到所需要的信息已经成为人们面对的挑战,文本分类技术是文本信息处理领域的重中之重。在文章开头,阐述了文本自动分类技术,此中有预处理、特性选择以及向量空间模子等。接下来是分类算法的探索。本文参考目前新兴的典型学习算法也就是SVM研究。在这部分,首先简单的介绍了集中常用的分类算法;然后着重的讲述了SVM的并行学习算法。文构建一种改进的并行SVM,基于w-model,采取多个SVM分类器并行计算数据,保证其在更新的同时保存所有分类器,提高了分类器的效率。

摘要:文本分类技术是文本信息处理范围的一种关键技术,此中多视图中文文本分类相关技术成为目前重要的研究课题,它包括文本信息处理、文本信息处理相关技术、文本表示和常用的特征选择算法,本文构建一种改进的并行SVM,基于w-model,采取多个SVM分类器并行计算数据,此方法既确保分类器推广性能又缩短训练时间。

关键词:多视图中文文本分类,分类器,并行SVM

参考文献

[1]Vapnik V N.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag,1995:205-208

[2]顾亚祥,丁世飞.支持向量机研究进展[J].计算机科学,2011,38(2):14-17

[3]祁亨年.支持向量机及其应用研究综述[J].计算机工程,2004,30(10):6-9.

[4]王晓丹,王积勤.支持向量机训练和实现算法综述[J].计算机工程与应用,2004,13(10):75-78.

[5]Ralaivola L,Flovence d.Incremental Support vector machine Learning:a Local Approach[C]Proceedings of International Conference on Neural Network s.Vienna,Aus t ria,2001:322-330

[6]Domeniconi C,Gunop lo s D.Incremental support vector machine construction[A].ICDM[C].IEEE Trans,2001:589-592.

[7]杨静,张健沛,刘大听.基于多支持向量机分类器的增量学习算研究[J].哈尔滨工程大学报,2006,26(1):103-106.

[8]Cristian,Shawe t.An introduction to support vector machine[M].New York:Cambridge University Press,2000.

[9]Lin K M,Lin C H.A Study of Reduced Support Vector Machines[C].IEEE Transactions on Neural Network,2003

中文法律文本 篇3

自然语言的基本特征是语义表达的多样性, 即同样的意义可以用不同的形式来表达, 或者从不同的文本中推断出来。为了识别语义表达的多样性, 以及为计算机理解自然语言中的多样化表达提供支持, 文本对间语义蕴涵关系的识别显得尤为重要。

蕴涵一词源于逻辑学, 该概念表示前件与后件之间的一种充分条件关系[1]。在应用语言学领域, 形式语义学[2]给出了语义蕴涵的定义: 令T和H为两个文本片断, 若当T为真时, H总为真, 则称T蕴涵H。Dagan[3]在此基础上给出了文本蕴涵的定义: 文本蕴涵可以看成是一个连贯的文本T和一个假设文本H之间的一种关系; 如果H的意义可以从T的意义中推断出来, 那么就说T蕴涵H, 即H是T的推断, 记作T→H。下面的例1就是一对存在蕴涵关系的文本对。

例1

T1: 据他所知, 这是查尔斯首次参加悉尼-霍巴特帆船赛, 而查尔斯一向是注重安全、非常谨慎的人, 他更想参加2000 年悉尼奥运帆船赛。

H1: 2000 年奥运在悉尼举办。

严格的说, 文本语义蕴涵是一种有向关系, 如例1 中, T1 蕴涵H1, 但反过来, H1 并不蕴涵T1。根据文本蕴涵的方向性, 可以将蕴涵关系细分为正向蕴涵、逆向蕴涵、双向蕴涵和矛盾四类, 并将不属于这四类的文本语义关系都归类为独立关系。其中, 矛盾是正向蕴涵或者逆向蕴涵的否定, 本质上也跟蕴涵关系有关。

文本蕴涵的识别实际上是一个语言基础研究, 它在自然语言处理的很多应用中起着关键作用, 如问答系统、多文档自动摘要、信息抽取、语义检索以及机器翻译评测等[4]。近年来, 文本蕴涵识别的研究在自然语言理解领域受到了广泛关注。2005年至2007 年, 欧共体研究平台PASCAL组织了文本蕴涵识别RTE ( Recognizing Textual Entailment) 竞赛, 现已转入NIST ( National Institute of Standards and Technology) , ACL ( Association for Computational Linguistics) 会议还专门组织了几次研讨会 ( Workshop) , 探讨文本蕴涵相关工作及应用。由日本国立情报学研究所NII ( National Institute of Informatics) 策划主办的NTCIR ( NII Test Collection for IR Systems) 也开始了文本蕴涵识别的任务。

北京大学的袁毓林[5]等对文本蕴涵识别中涉及的一些方法进行了综述; 清华大学[6]、武汉大学[7]、北京大学[8]和上海交通大学[9]分别参加了RTE系列评测, 分别基于有监督机器学习方法对文本蕴涵进行了研究; 鲁东大学的罗琳等对汉语文本蕴涵库的建设进行了探讨; 台湾朝阳科技大学黄文奇、吴世弘[13]等将处理英文文本蕴涵的各种方法做了分析, 并基于支持向量机 ( SVM) 对繁体中文文本蕴涵的处理方法进行了讨论。

现阶段, 对于蕴涵关系识别研究采用的主要方法是有监督式机器学习法, 即对大量有正确蕴含关系标记的文本对进行训练生成分类模型, 再由分类模型决定文本对是否属于蕴涵关系。也就是说, 文本蕴涵关系识别本质上是分类问题, 可以采用分类方法来完成。

本文提到的中文文本蕴涵关系识别系统就是一个基于支持向量机的多分类器, 分类特征主要采用了统计特征、词汇语义特征和句法特征三类特征。

1 系统描述

中文文本蕴涵关系识别系统CTER-SVM由数据预处理、特征提取和SVM分类器三个主要模块组成, 具体的系统结构如图1 所示。

图1 中, 数据预处理模块主要负责对训练语料和测试语料进行处理, 主要包括中文分词、去停用词等。表1 列举了例1 经分词以及去停用词后的结果, 词与词之间用“| ”隔开。

数据预处理结束后, 接下来就是特征提取过程, 这里主要采用了三种类型的特征, 分别是句法特征、词汇语义特征和统计特征, 其中, 词汇语义特征用到了迷你知网、同义词林、反义词和否定词表等语义资源。特征提取后的文本对将转变为特征向量文档, 训练语料生成训练特征向量文档, 测试语料生成测试特征向量文档。

最后进行的是SVM分类过程。训练特征向量文档经SVM训练生成分类模型, 即构造SVM分类器, 将测试特征向量文档输入SVM分类器进行分类, 最终得到识别结果。

2 基于SVM的中文蕴涵识别方法

2. 1 特征提取

为了正确判断给定的中文文本对间的语义蕴涵关系类别, 分类模型使用了统计、词汇语义以及句法三类特征。

( 1) 统计特征

统计特征主要采用一些人们主观上认为合理的非结构化特征, 统计特征分为两类: 词集特征和向量特征。

词集特征是针对文本对经过数据预处理模块变为表1 中的词集形式后进行提取的一系列特征, 主要包括词汇重叠特征、文本长度差特征, 分别表示为:

式中, Words ( t1) 代表文本t1 的词集, length ( t1) 表示文本t1 的长度。

向量特征是为了凸显出重要的词汇, 用TF* IDF为文本中的每个词汇赋一个权值, 将文本向量化的一类特征。向量特征主要指向量余弦相似度特征, 表示为:

其中, 向量与是用TF* IDF计算出来的, n代表向量的维度。

( 2) 词汇语义特征

词汇语义特征是基于一些语义资源进行的蕴涵关系判断, 包括基于反义词词表的反义词特征、基于否定词词表的否定词特征、基于知网和同义词林的句子相似度特征, 其中, 基于知网和同义词林的句子相似度特征表示为:

式中, n是文本对 ( t1, t2) 中文本t1 与文本t2 之间反义词的对数, n1 是文本对 ( t1, t2) 中文本t1 中否定词的个数, n2 是文本t2 中否定词的个数。{ w1i| 1≤i≤m} 代表文本对 ( t1, t2) 中文本t1 中的词, { w2j| 1≤j≤n} 代表文本t2 中的词。Simw ( w1i, w2j) 代表w1i与w2j的词汇相似度, 这里的词汇相似度计算是基于知网[12]和同义词林[11]进行的。

基于反义词词表的反义词特征和基于否定词词表的否定词特征主要用来判断矛盾关系。若句子对 ( t1, t2) 中, t1 中的某个词和t2 中的某个词构成反义词, 则认为这个句子对存在矛盾关系。同理, 若t1 和t2 中某个句子含有否定词而另一个句子不含有否定词, 也认为这个句子对为矛盾关系。

( 3) 句法特征

在文本对 ( t1, t2) 中, 如果文本t1 与文本t2 具有越高的句法结构相似度, 那么它们就越有可能表达相同的意义。对例2中的文本对进行句法结构分析, 结果见图2 和图3 所示。

例2

T2: 南亚海啸已在南亚及东南亚八国和三个非洲国家索马里、肯尼亚、坦桑尼亚造成至少五万五千人丧生。

H2: 南亚海啸造成至少五万五千人丧生。

图 2 T2 的句法结构树

图 3 H2 的句法结构树

不难发现, 图2 和图3 两棵句法树的结构非常相似, 特别是H2 中IP的三棵子树都能够在T2 中找到。实际上, T2 和H2 为正向蕴涵关系。

句法依存树可以转化为一个三元组的依存关系, 记为rel ( w1- loc1, w2- loc2) , 其中, rel指词w1和词w2的依存关系, loc1和loc2分别指词w1和词w2在句子中的位置, 例3 中列举了例2文本的依存关系集合。

例3

T2: root ( ROOT-0, 南亚-1) , dep ( 南亚-1, 海啸-2 ) , advmod ( 造成-20, 已-3) , prep ( 造成-20, 在-4) , dep ( 在-4, 南亚-5) , dep ( 在-4, 东南亚-7) , conj_及 ( 南亚-5, 东南亚-7) , num ( 南亚-5, 八-8) , dep ( 南亚-5, 国-9) , num ( 非洲-13, 三-11) , dep ( 三-11, 个-12) , dep ( 在-4, 非洲-13) , conj_和 ( 南亚-5, 非洲-13) , dep ( 非洲-13, 国家-14) , dep ( 坦桑尼亚-19, 索马里-15) , dep ( 坦桑尼亚-19, 、-16) , dep ( 坦桑尼亚-19, 肯尼亚-17) , dep ( 坦桑尼亚-19, 、-18) , dep ( 非洲-13, 坦桑尼亚-19) , dep ( 五万五千-22, 至少-21) , num ( 人-23, 五万五千-22)

H2: root ( ROOT-0, 南亚-1) , dep ( 南亚-1, 海啸-2) , dep ( 五万五千-5, 至少-4) , num ( 人-6, 五万五千-5)

利用文本的依存关系, 可以计算两个文本之间的句法相似度, 表示为:

式中, St1与St2是文本对 ( t1, t2) 中文本t1 和文本t2 的句法依存关系集合, pt1和pt2是依存关系集合St1与St2中的一个依存关系。Simp ( pt1, pt2) 代表pt1与pt2之间的相似度, 表示为:

式中, w1, w2∈pt1且w1', w2'∈pt2, simw ( w1, w2) 代表词w1 与词w2之间的相似度, 表示为:

2. 2 分类模型

SVM分类包括训练和预测两步, 训练主要是根据输入样本训练生成分类模型, 而预测则是根据分类模型判断未知样本所属类别, 具体的SVM分类的训练和测试过程如图4 所示。

图4 中, 从训练或测试数据集到特征向量的生成就是数据预处理和特征提取的结果, 接下来就是基于SVM进行分类的过程。SVM的分类性能受到诸多因素的影响, 其中误差惩罚参数C和核函数形式及其参数的选择较为关键[10], 因此, 在图4 中将核函数的选择和交叉验证选择最佳参数作为两个重要步骤对待。实验选择了较为常用的RBF ( Radial Basis Function) 核函数, 表示为:

式中, γ 为核函数的宽度。

选择了核函数后, 最为关键的问题就是选择最佳参数即交叉验证, 实验采用网格搜索法确定惩罚因子C与核函数参数 γ, 具体为针对每对参数 ( C, γ) 进行训练, 其中C∈[2- 10,210], 变化步长为1, γ∈[2- 10,210], 变化步长为1, 取效果最好的一对参数作为模型参数, 其中基于正向蕴涵、逆向蕴涵、双向蕴涵、矛盾和独立五种关系判断的分类实验交叉验证结果如图5 所示。

图5 中, 参数gamma为RBF核函数参数 γ, C为误差惩罚参数。

图4 中, 选择核函数及相应的最佳参数后, 需要对SVM分类器进行构造, 为了对正向蕴涵、逆向蕴涵、双向蕴涵、矛盾和独立五种关系进行判断, 必须构造多分类器。现在基于SVM的多分类构造方法常见的主要有一对一法、一对多法和有向无环图SVMs ( DAG-SVMs, Directed Acyclic Graph SVMs) 等[14]。本文主要采用一对一方法进行多分类器的构造, 一对一方法为每两类的组合构造一个二分类器, 即k类就有k ( k - 1) /2 个二分类器。本文的文本蕴涵关系有五类, 因此, 需要构造10 个二分类器, 具体构造方法如图6 所示。

图6 CTER-SVM系统多分类器的构造

如图6 所示, 最终的文本蕴涵识别结果由投票方法获得。具体是将未知样本的特征向量输入10 个分类模型中, 10 个分类模型对未知样本所属类进行投票, 得票最多的一类即为未知样本最后的分类结果。

3 实验结果与分析

实验语料来自于NTCIR-9 RITE任务, 其中MC子任务的训练集文本对数都是407 对, 系统的整体性能使用平均准确率 ( Accuracy) 指标来进行度量, 表示为:

式中, #pair指RITE测试集中文本对的数目。

针对具体的文本蕴涵关系的类别, 该文给出每一类别的准确率 ( Precision) 、召回率 ( Recall) 和F-measure来进行度量, 其具体计算如下:

式中, TP ( True Positives) 和FP ( False Positives) 分别指测试集中该类所有正例被正确和错误分类的数目; 而FN ( False Negatives) 则指测试集中该类所有负例被错误分类的数目。

CTER-SVM系统是基于WUST系统的改进版, WUST系统是基于统计与词汇语义特征的中文文本蕴涵关系识别系统, CTER-SVM系统在此基础上增加了句法特征。CTER-SVM系统相较于WUST系统有了大约4% 的提高, 这大多得益于CTER-SVM系统增加了句法特征, 实验证明句法特征对于蕴涵关系判断的有效性。为了进一步分析句法特征对蕴含关系的影响, 将列举WUST系统和CTER-SVM系统的各类别评估结果, 具体见表2和表3 所示。

表2 和表3 中, 类标签F表示正向蕴涵关系, 类标签R表示逆向蕴涵关系, 类标签B表示双向蕴涵关系, 类标签C表示矛盾关系, 类标签I表示独立关系。对比表2 和表3, 可以看出增加的句法特征对正向蕴涵、逆向蕴涵、矛盾和独立的判断非常有助益, F-measure分别增加了大约6% , 1% , 20% , 12% 。WUST系统本身对正向蕴涵和逆向蕴涵关系判断的准确率和召回率就很高, F-measure分别达到了73. 68% 和78. 43% 。CTER-SVM系统继承了WUST系统的这个优点, 在增加了句法特征后进一步提高了这方面的优势, F-measure分别达到了79. 81% 和79. 78% 。与此同时, 在增加了句法特征后, CTER-SVM系统改进了WUST系统对矛盾和独立判断效果不佳的劣势, 矛盾关系的F-measure由WUST系统的9. 76% 提升至CTER-SVM系统的29. 55% , 独立关系的F-measure由WUST系统的49. 12% 提升至CTER-SVM系统的51. 67% 。

当然CTER-SVM系统也还存在不足。在表3 中, 正向蕴涵和逆向蕴涵的准确率和召回率都在75% 以上, 远远大于最后的平均准确率64. 62% , 最终影响平局准确率的因素在于双向蕴涵、矛盾以及独立的判断, 特别是矛盾的判断, 虽然对比WUST系统有所提高但是效果依然不尽理想。CTER-SVM系统中, 矛盾关系的准确率较高, 达到了92. 96% , 但召回率太低, 只有17. 57% , 可以知道系统中只能判断小部分矛盾的特征 ( 如反义词、否定词) , 但其余矛盾关系无能为力, 说明系统缺乏判断矛盾的特征以及系统对矛盾理解的狭隘性; 这些原因也影响了双向蕴涵关系的判断, 因为系统将64. 86% 的矛盾关系误判成了双向蕴涵, 这也导致了表3 中双向蕴涵召回率较高, 达到了85. 92% , 但准确率很低, 只有43. 88% 。独立的关系的准确率和召回率都不理想, 只有62% 和44. 29% , 原因在于实验系统仅仅认为句子相似度低的文本对属于独立关系, 但事实上还存在句子相似度高但也是独立关系的文本对。

4 结语

要分析与理解人类用于交流思想的书面文本, 解决自然语言语义表达的多样性问题, 研究文本蕴涵关系至关重要。文本蕴涵关系具体表现为文本正向蕴涵、逆向蕴涵、双向蕴涵、矛盾等。本文针对RITE任务提供的中文文本训练集和测试集, 提出了基于多分类支持向量机的中文文本蕴涵识别方法, 主要用到了统计、词汇语义以及句法三类分类特征, 实验结果表明了此方法的有效性。

中文法律文本 篇4

网络技术的发展和广泛应用, 为信息资源的充分利用提供了极大的便利。目前, 保护信息的技术有两种:密码术和信息隐藏技术[1]。前者对明文实施各种变化, 使它不为局外人所理解。后者利用载体信息中的随机冗余部分, 如图像、视频、音频等中间存在大量的冗余数据, 将秘密信息嵌入到载体信息之中, 使其不易于被其他人发现。

在文本信息中隐藏信息是一件比较困难的事情, 但是这也并非不能隐藏信息, 本文提出了在文本中隐藏信息的方法及易于实现的隐藏技术, 能获得较好的隐藏效果。

2 国内外的研究状况分析

目前比较常用的隐藏介质是图像或声音, 然而在文本里面隐藏信息是比较困难的, 它只包含非常少的冗余信息, 目前的隐藏方法可分为三大类别[2]:一种是基于格式的文本隐藏算法;另一种是基于语法的文本隐藏算法;第三种是基于语义的文本隐藏算法。

3 基于格式变换的隐藏方法

通过研究我发现文本文档由于其特殊的结构, 在其里面隐藏信息是比较困难的, 与图像、视频、音频等相比, 它几乎不包含任何冗余信息, 因此, 在文本里面隐藏信息必须寻找那些不易引起视觉感知的方法, 下面是我提出基于格式变换的隐藏方法:

(1) 行间距编码

该方法通过垂直移动文本行的位置来实现, 在文本的每一页中, 间隔行轮流嵌入秘密信息, 嵌入位置行的上下相临行不动, 作为参照, 在行移过的一行中编码一个比特的信息。

(2) 字间距编码

和行间距编码类似, 该方法通过水平移动单词 (字符) 的位置来实现, 将文本中某行的一个单词 (字符) 左移或右移, 而与其相临的单词 (字符) 位置不动作为参照, 在移动过的一个单词 (字符) 位置编码一个比特的信息。

(3) 特征编码

选取文本中的某些特征量, 特征可以是如字母b、k、h、d等的垂直线, 其长度可以稍做修改, 而不被察觉。还有一种特征编码技术, 利用同义词。先选取一对同义词, 如汉语的“很”和“非常”等, 一个表示“0”, 一个表示“1”。当然通信双方必须同时拥有这两个同义词表。

图1是我提出的基于字间距算法的流程图

下面我们对该基于字间距算法的隐蔽性做一下分析:本算法是利用字间距变换的语法规则来进行信息隐藏。在这些规则之下, 对文本中进行相应的字间距变化并不会影响文本的语义和质量, 所以在视觉上隐写文本和掩体文本具有一致性, 从而使隐藏信息难以被人为地感知, 因此格式变换的隐藏算法具有较好的隐蔽性。

4 结束语

综上, 本文提出了基于格式变换的中文文本信息隐藏算法的部分语法结构, 该算法基于字移编码的思想, 通过使文本行内字符发生平移, 即利用字间距的变化嵌入需要隐藏的信息。采用这种方式时, 相邻字之间的距离各不相同。在Maxemchuk的文献中曾提出, 在人的视觉条件下, 如果字符间距的改变量不大于1/150英寸 (约0.5磅) , 人眼是看不出来的, 因此本文所研究的利用格式变换来进行信息隐藏是可行的

摘要:当前社会, 网络技术得到极大发展和广泛应用, 利用网络进行数据传输也越来越普遍, 那么网络数据传输过程中的信息保护也变得越来越重要, 文本信息尤其是中文文本信息的保护已成为当前业界比较关心的问题, 本文提出了基于格式变换的文本隐藏算法, 并进行了相关的程序设计, 能够达到信息隐藏的目的。

关键词:信息隐藏,格式变换

参考文献

[1]甘灿, 孙星明, 刘玉玲, 向凌云.一种改进的基于同义词替换的中文文本信息隐藏方法[J].东南大学学报, 2007, 37 (z1) :137-140.

中文法律文本 篇5

文本挖掘以数据挖掘为基础, 结合机器学习, 自然语言处理, 信息检索和知识管理等领域的技术来处理文本数据, 从中获得有价值的信息或数据帮助人们更好的决策。人们也可以把文本挖掘技术应用到各种相关的领域, 带来社会效益或经济效益。在中文信息处理中, 文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域, 是一个非常基础而关键的问题, 长期以来一直是人们研究的热点和难点。

文本相似度在商业网络中应用广泛, 比如人们要在网站中进行信息搜索时, 利用输入的搜索信息找到与此信息相似度较高的信息, 人们要利用网络中一些旧的有用信息用来找出新的相似性信息, 以供人们更好的做决策或者投资, 人们可以通过比较相似性, 将有用信息分为不同的类别, 针对这些类别采取不同的解决方案或者用这些类别去解决某些问题。在某些网络系统中, 针对人们提出的问题, 可以判断问题的相似度, 如果相似度很高, 可以用相似性的答案去回答, 这样大大节省时间和效率。因此, 文本相似度在商业或者网络中的应用是很有好处的, 也可以帮助人们更好地做决策, 或者解决一些问题。

很多文本相似度的算法是以向量空间模型 (VSM) 和隐性语义标引 (LSI) 为基础的。在VSM中, 文本被表示成词出现在这个文本中的频率的向量。两个文本之间的相似度用它们词频向量之间的夹角余弦计算。LSI也是一种基于向量空间技术的方法。其工作原理是利用矩阵理论中的“奇异值分解 (SVD) ”技术, 将词频矩阵转化为奇异矩阵, 可以通过标准化的内积计算来计算向量之间的夹角余弦相似度, 进而根据计算结果比较文本间的相似度。另外国内学者潘谦红、王炬、史忠植提出利用属性论计算文本相似度, 张焕炯、王国胜、钟义信提出基于汉明距离的文本相似度计算, 金博、史彦军等提出利用知网的知识结构及其知识描述语言的语法进行相似度计算的方法。

以上是目前中文文本相似与算法的主要几种方法, 本文在上述几种方法基础之上, 提出了一个基于PHP的文本相似计算算法, 来计算文本之间的相似程度, 因为PHP语言本身是一种网络语言, 因此算法要在网站中进行应用。

二、中文文本相似度定义及概念

1. 基于PHP的汉语分词系统SCWS简介

中文分词是对中文文本进行自动分析的第一个步骤, 分词是中文文本相似度计算的基础和前提。目前分词方法很多, 常用的有正向、逆向最大匹配法、最佳匹配法、逐词遍历法、词频统计法、联想、回溯法、邻接约束法和最少分词法等。我们采用了SCWS (Simple Chinese Words Segmentation) 简易中文分词系统实现文本分词, 它是一套基于词频词典的机械中文分词引擎, 它能将一整段的汉字基本正确的切分成词。在后面的算法描述的第一步就是要用这个系统先对文本进行分词, 然后在分词后的文本中去掉一部分没有实际意义的词, 就是下面要介绍的停用词。

2. 停用词

在信息检索中, 集合文献中出现频率高于80%的单词是没有用的, 这些词常称为“停用词”, 需要过滤掉。一般认为停用词包括冠词、介词、连词和语气词, 还可以包括这些词之外的其他词, 例如一些动词、副词和形容词, 可以将这类词归为停用词。在排除停用词后, 可以降低序列的长度。我们所要做的就是建立一个停用词库, 将分词后的词语与停用词库进行匹配, 如果文本中某词属于停用词库, 将该词从文本中剔除, 反之, 保留该词。

3. 中文文本相似度的定义

中文文本相似度关系包括以下几种关系:词与词、词与句、词与段、句与句、句与段以及段与段等。上述的各种相似度关系可分别用于不同的研究领域, 例如, 在信息检索中, 相似度主要用于反映文本与用户查询在意义上的符合程度, 在基于实例的机器翻译中, 相似度更多用于衡量文本中词语的可替换程度, 在自动问答中, 相似度反映的是句子间语义上的匹配程度, 而在多文档文摘系统中, 相似度可以反映出局部主题信息的拟合程度。

相似度定义如下:对于两个中文文本, 相似度指的是这两个文本之间基于字与词语上的匹配程度。简单来说, 就是字符串与字符串之间或者句与句之间的匹配程度。如果相比较的字符串A完全包含字符串B活着字符串A和字符串B中的字或者词语完全一样, 就认为这两个字符串完全相似, 即相似度是100%, 如果字符串A和字符串B中的字或者词语完全不一样, 就认为这两个字符串不相似, 如果字符串A和字符串B中的某些字或者词语一样或者意思相近, 就认为这两个字符串存在相似性, 相似度介于0%~100%之间。由字符串的比较可以扩大到句与句之间的比较。

定义:如果对文本A和文本B进行相似分析和比较, 将文本A和文本B具有相同属性或特性两两对应组成相似元, 相似元用ui= (ai, bi) 表示, 当文本A和文本B间存在着n个相似元:u1, u2, …, un时, 则将这n个相似元以集合U表示为:{u1, u2, …, un}。

其中, ui= (ai, bi) , 0≤ui≤1。

当ui=0, 表示两系统对应元素既不相同也不相似;

当O

当ui=1, 表示两系统对应元素完全相同。

三、基于PHP的中文文本相似度算法

1. 最长公共子序列算法

这个算法的主要思想是, 一个给定序列的子序列就是该给定序列中去掉零个或者多个元素, 给定两个序列X和Y, 如果序列Z既是X的一个子序列, 又是Y的一个子序列, 那么Z是X和Y公共子序列。最长公共子序列: (Longest-Common-Subsequence) , 这里定义相似度=最长公共子序列的长度×2/ (字符串一的长度+字符串二的长度) 。

2. 算法实现流程

本算法的具体实现步骤如下:

(1) 对文本A和文本B分别用汉语分词系统SCWS进行分词。

(2) 去掉分词后的文本A和文本B中的停用词得序列A和序列B。

(3) 对序列A和序列B用最长公共子序列算法计算最长公共子序列的长度。

(4) 计算文本A和文本B之间的相似度。文本A和文本B之间的相似度=最长公共子序列的长度×2/ (序列A的长度+序列B的长度) 。

以下是本文用PHP实现的算法的主要步骤:

Step 1:读入待比较的两个序列A= (A1, A2, …, An) 和B= (B1, B2, …, Bn) 。

Step 2:分别计算两个序列的长度L (A) 和L (B) , 分别将序列存入数组S (A) 和S (B) , 这里注意的是, 因为是纯中文字符, 因此计算长度时, 要计算中文字符长度, 而不是单字符长度, 存入数组中时, 一个数组元素S (A) [n]存的是序列中的一个子序列An。

Step 3:构建最长公共子序列矩阵C[L (A) ][L (B) ], 矩阵大小为L (A) ×L (B) 。

Step 4:采用递归算法, 读入最长公共子序列矩阵C[L (A) ][L (B) ]、i、j, i=L (A) -1, j=L (B) -1, if (i=0||j=0) &&S (A) [i+1]=S (B) [j+1], 输出S (B) [j+1]。if S (A) [i+1]=S (B) [j+1], 调用递归 (参数为C, i-1, j-1) 并输出S (B) [j+1], else if C[i][j+1]>=C[i+1][j], 调用递归 (参数为C, i-1, j) , 反之, 调用递归 (参数为C, i, j-1) 。

Step 5:计算相似度, 最长公共子序列的长度为上述递归算法得到的序列长度, 去掉序列A和序列B中出现的重复子序列, 用最长公共子序列计算公式计算出两个文本之间的相似程度。

本算法可以用于多文本之间的两两比较。

四、实验结果

为了检验算法分析文本的相似能力, 我们使用算法分析了网站中文档之间的相似性, 选用的实验数据——文本库是来源于某网站的数据库, 数据库采用的是MySQL数据库, 测试样本是数据库中的文档。

我们对数据库中的文本进行分组得到11组文档组, 每组有2~6条文档题目为偏向一个主题的相似性题目, 接下来将每一组中的几个题目对应的文档进行分词和停用词处理, 然后用算法进行相似度的计算, 计算包括段落间的计算和整篇文档之间的计算, 如表所示, 计算结果出现相似度高的文档数一共有49篇, 通过人工检查实际文档内容相似度高的文档数为45篇, 因此可以得出识别正确率为91.84%, 查全率为100%。说明本文算法具有一定的有效性。

五、结论

本文所提出的算法可以计算文本之间的相似性, 识别出相似性高的文本数正确率较高, 对于发现文本的相似性具有一定的作用, 通过将文本进行相似性的分析, 可以将有用信息进行分类, 某一个类别的信息可以用于解决某些商业问题或者可以进行某种决策, 那么在得到新的信息, 可以通过相似性的分析, 将这些新的信息归到某一类别中, 那么针对这些新的信息可以知道人们如何决策或者去解决相对应的哪些问题, 提高效率, 这也是文本相似度作为一种商业技术的广泛应用。

参考文献

[1]G.Salton, A.Wong and C.S.Yang.Vector Space Model for Automatic Indexing[J].Communications of the ACM, 1975, 18 (11) :613~620

[2]Deerwester S., Dumais, Furnas, et al.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science, 1990, 41 (6) :391~407

[3]潘谦红王炬史忠植:基于属性论的文本相似度计算[J].计算机学报, 1999, 22 (6) :651~655

[4]张焕炯王国胜钟义信:基于汉明距离的文本相似度计算[J].计算机工程与应用, 2001, 19:21~22

[5]金博史彦军滕弘飞:基于语义理解的文本相似度算法[J].大连理工大学学报, 2005, 45 (2) :291~297

[6]刘小军赵栋姚卫东:一种用于中文文本查重的双因子相似度算法[J].计算机仿真, 2007, 24 (12) :312~314

中文法律文本 篇6

特征选择指从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程。如何从原始文本特征集合中选取最能表示文本主题内容的特征子集是文本特征选择算法的研究目标[1]。目前常用文本的特征选择方法有文档频次 (DF) 、信息增益 (IG) 、互信息 (MI) 、χ2统计 (CHI) 、期望交叉熵 (ECE) 和几率比 (OR) 等[2]。这些方法的基本思想是在评估函数的基础上使用了阈值过滤的方法, 即将文档向量中低于阈值的分量全部去除。这样做虽然可以减少特征数目, 却不可避免地丢失了一些有用的信息, 特别是对于分类很重要的低频词, 比如一些专有名词这些词虽然出现频率很低, 但是区分类别的作用却很大, 从而影响了分类效果。

上世纪80年代初期诞生的粗糙集理论能够有效地解决文本特征维数巨大的问题, 许多研究者采用了粗糙集的理论进行文本特征选择, 其主要思路是首先对文本中出现的特征项进行权值计算得到一个决策表, 然后对决策表进行离散化, 在此基础上进行属性约简和值约简, 从而实现了文本的特征选择。将粗糙集理论用于文本特征选择的优点是没有使用阈值过滤, 避免了有用的低频信息的丢失。然而这种方法的不足之处是:在对文本集进行特征选择时, 得到的特征的维数一般是几千维或上万维, 即得到的是一个十分庞大的决策表, 在如此庞大的决策表上进行离散化和基于粗糙集的属性约简, 工作量是十分巨大的, 从而缺少实用性[3]。

本文在对粗糙集的基本理论和属性约简算法研究的基础上, 提出了可辨识矩阵与文本特征属性重要性和依赖性结合的中文文本特征选择算法, 并通过实验验证了该算法的有效性。

1 粗糙集基本概念

Paw lak提出的粗糙集理论是智能数据分析和数据挖掘中一种新的数学方法, 其研究对象是由多值属性描述的知识系统, 形式化定义如下[4]:

定义1 不可区分关系

RU上一个等价关系, U/R表示R的所有等价类构成的集合, [x]R表示包含xUR的等价类, 若PR (一族等价关系) 且Pφ, 则∩P (P中所有等价关系的交集) 也是一个等价关系, 称为P的不可区分关系, 记为ind (P) , 且有:

[x]ind (p) =RΡ[x]R (1)

定义2 决策表

S= (U, A, V, f) 为一个知识表达系统, A=CD, CD=Ø, C称为条件属性集, D称为决策属性集, f:U×AV是一个信息函数, 它指定U中每一个对象x的属性值。具有条件属性和决策属性的知识表达系统称为决策表。条件属性C和决策属性D的等价关系ind (C) 和ind (D) 的等价关系ind (C) 和ind (D) 的等价类分别称为条件类和决策类。在文本的规则分类中, 从文本中提取的词条做规则的条件属性, 文本所属的类别用作规则的决策属性。

定义3 可辨识矩阵

S= (U, A, V, f) 是一个知识表达系统, |U|=nS的可辨识矩阵是一个矩阵, 其任一元素为:

α (x, y) ={αAf (x, a) ≠f (y, a) } (2)

其中, a (x, y) 是区别对象xy的所有属性的集合。

定义4 属性约简

R为一族等价关系, rR , 如果ind (R) =ind (R-{r}) , 则称rR中不必要的, 否则称rR中必要的。令QP是论域U的两个等价关系, QP, 如果Q是独立的, 且ind (Q) =ind (P) , 则称QP的一个约简。显然, P可以有多种约简, P中所有必要关系组成的集合称为P的核, 记作core (P) 。

定义5 属性的重要性

M是根据决策表T构造的可辨识矩阵, CD分别为条件属性集和决策属性集, RC, 对于任意属性aC-R的重要性为SGF (a, R, D) , p (a) 为在M中属性a的属性频率函数, 它定义为aM中出现的次数, 则定义如下:

SGF (a, R, D) =p (a) (3)

定义6 属性的依赖性

属性集PRQ的互依赖性γR (P) 定义如下:

γR (Ρ) =card (ΡΟSR (Ρ) ) card (U) (4)

其中card (.) 表示集合的基数;POSR (P) 是属性集RU/IND (P) 中的正区域。

2 基于粗糙集的中文文本特征选择

2.1 文本的预处理与表示

用简单而准确的方法将文档表示成计算机能够处理的形式是进行文本特征选择的基础, 目前常用的文本表示模型有:向量空间模型、布尔模型、概率检索模型等。本文选用向量空间模型[5]作为文本的表示模型, 特征项一般可以选择字、词条、词组等, 根据实验结果, 普遍认为选取词条作为特征项要优于字和词组。由于中文文本除了标点符号, 词语之间没有明显的分隔符, 所以首先对文本信息进行分词。对分词结果进行词频统计, 将所有文章中出现的停用词等删除合并同义词, 把剩余的词条作为特征项, 将文本用向量空间模型表示出来。形式如下: (w1, w2, …, wn) , wi为第i个特征词语的权重。wi的计算本文采用相对词频表示, 其计算方法主要是TF-IDF公式, 其中TF表示词频, 指特征项词条在给定文本中出现的次数, IDF表示倒排频度, 是反映一个特征项在一个文本集中按文本统计出现频繁程度的指标。定义如式 (5) :

W (fi, d) =TF (fi, d) ×IDF (fi) =Ν (fid) ×log (Ν (fi) Ν) (5)

其中, W (fi, d) 是特征fi在文本d中的权重, N (fi) 是出现fi的训练文本数, N是总训练文本数, N (fid) 是文本d中出现fi的次数。

2.2 权值的离散化

由于粗糙集只能处理离散型数据, 所以必须对特征项的权值进行离散化。本文选取了等距离划分算法[6], 根据特征项权值的取值区间, 等距离的进行间隔划分从而离散归一化特征项的所有连续值。例如:一篇关于IT的中文新闻稿采用空间向量模型表示后文本特征的TF*IDF权值和离散化后的权值如表1所示。

2.3 决策表的构造

将每类中的所有训练文本集看作论域U, 特征词的集合作为属性集, 即把特征词作为条件属性C, 文本所属的类别作为决策属性D, 表2代表了训练阶段的决策表的一部分。

表2中:D1, D2, …, Dm表示训练文本, C1, C2, …, Cn表示训练文本已经标记好的几种分类, K1, K2, …, Kh为条件特征属性, 离散化之后的词条的权值作为属性的取值, 若文档中没有某个词, 则该词在文档中属性值为0。

2.4 文本特征选择

本文提出了一种改进的基于粗糙集的中文文本特征选择算法 (RSFS) , 该算法首先利用文本特征的可辨识矩阵求出核属性, 以核作为计算约简的出发点, 将属性的重要性作为启发规则, 按照属性的重要性从大到小逐个加入属性, 若重要性相同, 则选择依赖性大的属性加入, 直到该集合是一个约简为止。 算法主要依据属性在可辨识矩阵中出现的频率和长短来定义属性的重要性和依赖性, 主要基于两个重要准则: (1) 属性在构造的可辨识矩阵中出现的次数越多, 则属性的重要性越大。 (2) 属性在构造的可辨识矩阵中的项长度越短, 则属性的依赖性越大。该算法实现步骤如下:

输入:一个决策表T= (U, Q, V, f) , 其中, U是论域, C为条件属性集, C={c1, c2, c3…, cm}, D为决策属性集。

输出:该决策表的一个相对约简R

步骤1 计算决策表T的可辨识矩阵M, 其中, M的元素为Cij, CijT中的第i个对象和第j个对象的有差别的所有属性的集合, CijC, ckCij;

步骤2 根据M求出核集合CO, R=CO, 重复下面过程, 直到M=φ;

步骤2.1Q={Cij:CijRφ, ij, i, j=1, 2, 3, …, n}, M=M-Q, B=C-R;步骤2.2 对所有ckB, 计算在M中的SGF (ck, R, D) ;

步骤2.3 选择MAX (SGF (ck, R, D) ) 的属性a (重要性最大的) , RR∪{a};

步骤2.4 如果属性apaq同时为MAX (SGF (ck, R, D) ) , 则选择属性组合最少 (属性依赖度最大) 的一个属性加入;

步骤3 返回一个相对约简R

3 实验结果与分析

对于英文文本, 国际上已经有了很多比较成熟的标准语料库, 如Reuters、Newsgroups以及TREC测试提供的语料库等。相比于国际上的这些标准分类语料库, 对于中文文本分类的研究, 现在还缺乏标准的中文语料库。本文选取了Sogou实验室提供的中文新闻稿作为数据集进行测试[7], 共选择了五个大类, 分别是IT、财经、教育、军事、文化, 将每一类的300篇新闻指定为训练样本, 另外100篇新闻指定为测试样本。

实验采用两种评估方法:向量维数约减率和分类正确率。

向量维数约简率是被约简的无效的特征个数与决策表约简前的特征个数之比, 其数学公式如下:

向量维数约简率= (6)

其中被约减的特征数是指初始化筛选后的特征个数减去决策表约简后的特征个数。

分类正确率是所有参与测试分类的文本中与人工分类结果一致的文本所占的比率, 用来评价分类效果的好坏。其数学公式如下:

分类正确率= (7)

在中文文本预处理阶段, 中文分词实验使用的是中科院计算所的分词程序ICTCLAS。分词后去除停用词, 合并同义词, 得到5563个特征词。为了验证本文提出的基于粗糙集的中文文本特征选择 (RSFS) 的有效性, 首先使用该算法进行的特征选择, 约简后条件属性的数目大大降低, 其中文化类文本特征数目最多88, 军事类最少43个, 表3列出了进行特征选择前后每类文章分类所需的特征数目。然后采用文档频率 (DF) 重新对文本进行特征选择, 每类文档的特征项数目分别选择与RSFS算法相同的数量, 例如从军事类也选取43个特征项。最后用KNN分类方法来比较两者特征选择后的分类效果, 实验结果如表4所示。KNN分类方法中K值的确定, 文献[8]指出一般30≤K≤45, 本文选取K=45。在训练文本集中选出与新文本最相似的K个文本的计算公式采用的是相似度余弦夹角函数其定义如下:

sim (di, dj) =k=1ΜWik×Wjk (Κ=1ΜWik2) (Κ=1ΜWjk2) (8)

表4列出了RSFS+KNN与DF+KNN两种方法分类的正确率和向量维数约简率的测试数据。

从表4的实验数据可以看出, 相同的特征项数目与相同的分类方法而RSFS+KNN的方法的文本分类正确率却高于DF+KNN。这是由于粗糙集约简是一种定量的客观的简化, 约简计算以严密的定理为基础, 所以该方法大大缩减了中文文本特征项集合的向量个数, 减少了特征子集的维数, 但是能够选取出最能代表文本类型的特征, 特征选择的效果好。文档频率选择的特征词主要是依靠设定阈值, 因此特征词不能很好地代表文本类型, 特征选择的效果较差。

4 结 论

文本分类的效果很大程度依赖于文本的特征选择, 本文将粗糙集的约简应用到了文本特征选择上, 它充分利用了粗糙集中属性的重要性与依赖性, 相比现有的中文文本的特征选择更具有实用性。今后的工作将进一步改进约简算法的速度, 将其应用到大规模的WWW网页自动分类上。

参考文献

[1]寇苏玲, 蔡庆生.中文文本分类中的特征选择研究[J].计算机仿真, 2007, 24 (3) :289-291.

[2]周茜, 赵明生, 扈?.中文文本分类中的特征选择研究[J].中文信息学报, 2004, 18 (3) :17-23.

[3]史忠植.知识发现[M].北京:清华大学出版社, 2002:156-158.

[4]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社, 2001:133-141.

[5]Salton G, Wong A, Yang C.A vector space model for automatic inde-xing[J].Communications of the ACM, 1975, 18 (11) :613-620.

[6]曾黄麟.智能计算[M].重庆:重庆大学出版社, 2004:8-10.

[7]http://www.sogou.com/labs/dl/c.html.

中文法律文本 篇7

文本分类中特征提取方法的好坏对文本分类的效果有重要影响,特征向量维数过高对于大多数学习算法来说难以承受,所以找到一种既能减小特征向量空间维数又能分类效果的特征提取算法成了许多研究者追求的目标。目前常用的特征提取方法有文档频率(DF)、信息增益(IG)、互信息(MI)、χ2统计(CHI)、期望交叉熵(ECE)和几率比(OR)等。实践证明,将这些方法用于中文文本的特征提取都有其局限性[1]。

遗传算法是模仿自然界生命进化机制解决人工系统中特定优化问题的随机搜索算法,特别适用于普通搜索方法无法解决的复杂和非线性规划问题。鉴于遗传算法解决非线性问题的巨大潜力,将遗传算法用于文本分类中的特征提取已有一些研究[2,3,4],并取得了一定成果。蚁群算法目前在路由优化、武器-目标分配、集成电路设计等领域的应用中已经取得了很好的效果,但将蚁群算法用于特征提取只是处于尝试阶段。本文借鉴蚁群算法原理,提出了一种蚁群算法和遗传算法相结合的特征提取方法。

1 遗传算法与蚁群算法的基本思想

遗传算法GA(Genetic Algorithm)是借鉴生物界“适者生存,优胜劣汰”的机制演化而来的随机搜索方法,它是美国学者Holland在1975年提出的。该算法模拟自然界生物进化过程,采用人工进化的方式随机搜索目标空间(问题域)。问题域中的可行解可以看作是群体中的个体或染色体,并且个体需要被编码以符号串形式表示。然后,算法模拟适者生存、优胜劣汰的进化机制,反复对群体执行选择、交叉、变异的遗传操作,用预定的适应度函数评估个体,不断得到更优群体。同时,算法以全局并行搜索方法搜索优化群体中的最优个体,最后求得最优解。该算法已在模式识别、神经网络、图像处理、机器学习等方面都已得到应用。

蚁群算法ACA(Ant Colony Algorithm)是由意大利学者M.Dorigo等人提出的一种模拟进化算法,它是通过研究自然界真实蚁群的集体觅食行为提出的。研究发现,蚂蚁在寻找食物时,会在走过的路上留下一种分泌物产生气味,用来进行信息交流,相互合作共同完成任务。后继蚂蚁会选择气味最重的路径行进,找到最短路径的蚂蚁最先返回蚁穴,在路上留下的气味最重,那么以后就会有越来越多的蚂蚁选这条路径,直到所有蚂蚁都趋向这条路径。

2 蚁群遗传算法在特征提取中的应用

2.1 中文文档的表示

电子文档就是由众多特征词条构成的多维信息空间。通常我们使用矢量空间模型VSM将文档表示为:

V(doc)=(t1,w1(doc);t2,w2(doc);...tn,wn(doc)) (1)

其中ti为特征词条,wi为该词条在文档doc中的权重。一般wi(doc)的计算方法是TFIDF法,即:

wi(doc)=tfi×log(Ν/ni+α)i(tfi)2×log2(Ν/ni+α)(2)

其中N为训练文档总数,tfi为词条ti在文档doc中的频数,ni为训练文档中含有ti的文档总数。考虑到文本中特征词串的长度会对表征文档类型有影响[3],即特征词较长时表征文档类别的效果会更佳,所以词长也应作为一个计算词条权重的因素。因此我们将⑵式进行了改进,即:wi(doc)=tfi×log(Ν/ni+α)i(tfi)2×log2(Ν/ni+α)(1-e-Li)(3)

其中Li为词条ti的长度。根据(3)式,文档的VSM表示更改为:

V(doc) = (t1 ,w′1(doc);t2,w′2(doc);…,tn,wn(doc)) (4)

2.2 蚁群遗传特征提取方法设计

基于遗传算法的文本特征提取方法主要包括以下几个方面:1)个体编码及初始种群的生成;2)适应度函数的确定;3)选择、交叉和变异操作。由于遗传算法在搜索问题空间时随机性较强,故本文将蚁群算法应用于遗传算法进行特征提取的选择操作中,从而使搜索具有方向性,达到缩短算法时间的目的。基于蚁群遗传算法的特征提取方法的过程如图1所示。

2.2.1 个体编码

我们从预处理过的词汇表中随机选取不定长度的词条构成一个染色体,染色体的基因为(ti,wi′(doc))二元组。为了降低算法的计算复杂度,我们采用浮点编码法将染色体进行编码,直接用介于0和1之间的权值wi′(doc)表示基因的码值。例如染色体S=((t1,0.005),(t2,0.033),(t3,0.109),(t4,0.227)),编码后为S′=(0.005,0.033,0.109,0.227)。

2.2.2 适应度函数

适应度函数表明个体或解的优劣性。根据文献[3],代表文档主题的个体应能较好地反映整个文档,即该个体与文中其他个体相似度高,可以作为文档的中心。定义适应度函数如下:

Fitness(Si)=(j=1Μsimilar(Si,Sj)/Μ)/Cji(5)

由该公式计算出的适应度值是一个相对值,即个体Si相对于同样表示文档的个体Sj的值,并且对于具有相同表达能力的个体,维数越少越好[4]。式(6)中C为惩罚函数,设|Si|为向量维数,则:

C={1|Si|10(|Si|-9)1210<|Si|15(|Si|-12)otherwise(6)

惩罚函数有利于选取到维数较低的特征向量来表示文档。假设向量中有N个元素,则向量的相似度函数为:

Similar(Si,Sj)=cos(Si,Sj)=k=1Νsik×sjkk=1Νsik2×k=1Νsjk2(7)

其中s是向量S中的元素。

2.2.3 选择

选择的目的是为了从当前群体中选出优良的个体,使他们有机会作为父代为下一代繁殖子孙。用蚁群算法进行选择的具体做法如下[5]:

1) 将种群中适应度最好的个体设为当前的最好解fm,将它看作当前种群(解空间)中的一个点,其余M-1个个体视为解空间中的M-1个点,若每一个点上有一只蚂蚁,那么M-1只蚂蚁应向最好解方向移动。

2) M-1只蚂蚁到达当前最好解后,决定下一步的路线。具体做法:第k只蚂蚁在fm处随机选择10个个体,fm处的个体i分别与另外10个个体之间的相似度的大小直接影响从fm处分别到十个个体的转移概率的大小,即利用式(8)(n=10):

Ρij={Similar(Si,Sj)j=1nSimilar(Si,Sj)jJk(i)0otherwise(8)

计算转移概率值,在这10个值中选最大的作为第k只蚂蚁位于fm处下一步的方向,其余的蚂蚁也按此方法进行。这样可以得到另外的M-1个较好个体,与最初确定的适应度最好的个体构成新一代含有M个个体的种群。

2.2.4 交叉

交叉的目的是为了能够在下一代产生新的个体,是GA获取新优良个体的重要手段。在该算法中我们采用多点交叉法,m个交叉位置k(1≤kN-1,N为两父个体中较短染色体的长度)可无重复随机选择,交叉点之间的变量间续地相互交换,产生两个新后代,但第一位变量与第一个交叉点之间的一段不作交换。例如:

父个体1 0.100 0.950 0.324 0.040 0.115 0.208 0.571

父个体2 0.610 0.454 0.094 0.027 0.007

交叉点位置为:1、3、4

交叉后两个新个体为:

子个体1 0.100 0.454 0.094 0.040 0.007

子个体2 0.610 0.950 0.324 0.027 0.015 0.208 0.571

2.2.5 变异

变异是在群体中随机选择一个个体,对于选中的个体以一定的概率随机地改变串结构数据中某个串的值。同生物界一样,物种变异的概率很低,所以变异概率的取值通常在0.001-0.01之间。变异的具体做法为:以一定的概率从群体中随机选取一个染色体,将该染色体中的权值最小的基因删除,在词汇表中随机选取一个染色体中没有的基因放入该位置来构造一个新染色体。以2.2.1中的染色体S′=(0.005,0.033,0.109,0.227)为例,将其中权值(码值)为0.005的基因删除,从词汇表中随机选取一个染色体中没有的基因(假设权值为0.014)放入该染色体中,那么构造后的新染色体为S″=(0.014,0.033,0.109,0.227)。

3 实 验

3.1 实验数据及方法

从北京大学计算语言学研究所网站发布的1998年1月的人民日报标注语料库取得150篇不同种类的文本作为原始语料,其中经济类40篇,教育类30篇,体育类30篇,文化类30篇,娱乐类20篇。其中的90篇作训练样本,60篇作测试样本。由于该语料库是已经过切词并标注词性后的熟语料,所以只需将文本作去除停用词和同义转换的预处理工作,预处理后得到2411个特征项。我们用支持向量机SVM(Support Vector Machine)作为文本分类器[6],将本文中提出的蚁群遗传特征提取法(GA+ACA)和χ2统计(CHI)方法、基于遗传算法(GA)的特征提取法[3]所得的特征分别用于文本分类,从而验证该算法的有效性。另外,我们采用国际上通用的准确率P、召回率RF1评估值对分类效果进行评估[7]。若给定类别Ci,其准确率Pi、召回率RiF1i值的计算公式为:

Ρi=ΝcpiΝpi(9)

Ri=ΝcpiΝci(10)

F1i=2ΡiRiΡi+Ri(11)

其中,Nci是实际属于Ci类的测试文档数,Npi是分类预测为Ci类的文档数,Ncpi是正确分类的文档数。系统的整体性能采用微平均法,其计算公式为:

mΡ=iΝcpiiΝpi(12)

mR=iΝcpiiΝci(13)

mF1=2mΡmRmΡ+mR(14)

3.2 结果及分析

实验中的参数设置为:词条计算权重a=0.001、群体规模M=20、交叉概率β=0.8、变异概率γ=0.004。实验结果如表1所示。

从表1中可以看出:较之CHI方法,未融入蚁群算法的GA特征提取方法,虽然在分类准确率上有较大提高,但训练时间没有明显变化;而GA+ACA方法由于在GA的选择操作中利用了蚁群算法的特点,所以使得遗传算法的搜索过程有了一定的方向性,并且每次选择时,10个蚂蚁都是在该群体的最优个体出发,所以也能更快更准地找到其他较优个体。因此该算法不但较大地提高了准确率,而且减少了训练时间。总的来说,本文中提出的算法还是比较有效的。

4 结 论

本文对词条权重计算公式进行了改进,使得词条长度影响表征文档类型的效果在权值上得以体现;针对遗传算法在搜索过程中随机性强,方向性不明确的问题,在用遗传算法进行文本的特征提取时,结合蚁群算法对选择操作进行了改进。实验中也取得了比较令人满意的结果。值得注意的是,实验所用文档的数量较少,所以分类时间虽有所降低,但要对巨大数量的文档进行分类,在算法的效率上还有待提高,是否可以在遗传算法的其他操作上进行改进和如何改进也是我们下一步研究工作的重点。

摘要:针对文本分类中特征提取准确度的问题,分析了中文文本中词长对于表征文本类别的影响,改进了传统的中文文本词条权重计算方法;由于遗传算法用于特征提取时搜索随机性强,没有方向性,故将蚁群算法应用到遗传算法的选择操作中,提出了一种蚁群算法和遗传算法相结合的特征提取方法。实验结果表明,该方法不但可以提高分类的准确率,而且可以减少分类时间,是一种有效的方法。

关键词:文本分类,特征提取,遗传算法,蚁群算法

参考文献

[1]Cohen WW,Singer Y.Context-sensitive learning methods for text cat-egorization.In:Proc.of the19thInt l ACMSIGIR Corf.on Research and Development in Information Retrieval,Zurich,1996:307-315.

[2]郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107.

[3]许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25.

[4]刘明吉,王秀峰,饶一梅.Web文本信息的特征获取算法[J].小型微型计算机系统,2002,23(6):683-686.

[5]郑肇葆.协同模型与遗传算法的集成[J].武汉大学学报:信息科学版,2001,5(26):381-386.

[6]FMTang,MYChen,ZD Wang.Newapproach to training support vec-tor machine[J].Journal of Systems Engineering and Electronics,2006,17(1):200-205.

上一篇:长期血液透析导管下一篇:应用指征