空间向量模型(共10篇)
空间向量模型 篇1
1 概述
文本是互联网上的主要信息载体,尤其是科技期刊的电子化和数字图书馆的发展极大地丰富了网络的知识资源。文本分类作为信息处理的重要研究方向,是处理文本信息最为有效的途径之一。通过文本分类系统,能够有效地将文本信息组织管理起来,帮助人们准确高效的定位信息,为用户获取所需信息提供有力的支持。近年来,文本自动分类技术在信息技术各方面的应用越来越广泛,在智能缓存技术、数字图书馆技术、搜索引擎技术、互联网信息监控(包括“垃圾”邮件的过滤)等领域里,文本自动分类技术都扮演着非常重要的角色,有效地提高了信息服务的质量。
向量空间模型是最为常用的一种文本表示方法,文本中出现的字、词等通常被作为表示文本的特征项。文本分类技术主要采用向量空间模型进行文本的形式化表示,在向量空间模型中,特征项对分类所起到的作用并不相同,因此,必须针对它们对分类所起的作用赋予相应的权重。本文对传统权重算法TF-IDF进行了深入分析,并在其基础上改进了特征权重算法。
2 向量空间模型(Vector Space Model,VSM)
向量空间模型是G.Salton在1975年提出的[1],早期应用于信息检索领域,后来在文本分类领域得到了广泛的运用。向量空间模型假设文档所属的类别仅与某些特定的单词或词组在该文档中出现的频率有关,而与这些词或词组在该文档中出现的位置或顺序无关。用这些词或词组作为特征项,就可以构成向量来表示文档:d=(W1,W2,W3……Wn),其中Wi为第i个特征项的权重,一般取为词频的函数。构成文档向量的特征项可以选择文档的字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组。在向量空间模型中,两个文档d1和d2之间的(内容)相关程度(Degree of Relevance)可以称为相似度(Similarity),即Sim(d1,d2),文本之间的相似度可以借助向量之间的某种距离来表示,最常用的是向量之间的内积或者夹角余弦值。
通常文档包含的词汇量非常大,导致表示文档的向量空间维数也很大。而实际上,文档中对分类有用的词只占一小部分,大部分词与要判别的类别无关,属于“噪音词”[2],例如禁用词。除了禁用词,还有一些高频词虽然不属于被过滤的禁用词,但对分类贡献也不大。为了抑制噪音词,通常对词加权:有用的词赋予较高的权重,无用的词赋予较低的权重。赋权方式有布尔权重、TF-IDF权重及基于熵概念的权重,应用最广泛的是TF-IDF权重。
在向量空间模型中,文本内容被形式化为多维空间中的一个点,这样把对文本内容的处理简化为向量空间中向量运算,使问题的复杂性大为降低。而权重的计算既可以用规则的方法手工完成,又可以通过统计的办法自动完成,便于融合统计和规则两种方法的优点。也正是因为把文本以向量的形式定义到实数域中,才使得模式识别和其他领域中的各种成熟的计算方法得以应用,极大提高了自然语言文本的可计算性和可操作性。
3 特征项权重算法
3.1 传统的TF-IDF算法
TF-IDF算法是基于两个经验性的文本观察值:TF和IDF。
TF(Term Frequency)是词频,或称特征项频率。不同类别的文档,在特征项的出现频率上有很大差异,因此特征项频率信息是文本分类的重要参考之一,一般TF较大的特征项在该类文档中具有较高的权重。在最初的文本自动分类中,文档向量就是用TF来构造的。
DF是文档频率(Document Frequency),就是文档集合中出现某个特征项的文档数目;IDF是反比文档频率(Inverse Document Frequency),IDF越大,此特征项在文档中的分布越集中,说明它在区分该文档内容属性方面的能力越强。
特征权重计算唯一的准则就是要最大限度的区分不同文档。因此特征项频率TF与反比文档频率IDF联合使用构成了TF-IDF权重:
其中,W(t,)为词t在类别上的权重,而tf(t,)为词t在类别上的词频;N为训练文本的总数,nt为训练文本集中出现t的文本数,L的取值通过实验来确定;分母为归一化因子。
在TF-IDF权重算法中,用TF与IDF相乘本质上是一种试图抑制噪音的加权,其基本思想是在较少文档中出现的词比在大部分文档中出现的词更重要。但是,IDF函数结构过于简单,它是一个文档集因素,值是同等的,不依赖于文档集中的类别安排。如果词分布在所有类别中,IDF对于分类就不起作用了。如果某一特征项在某个类别大量出现,而在其它类别很少出现,这样的特征项的分类能力显然是很强的,但这在TF-IDF算法中是无法体现的[3]。
3.2 改进的权重算法
在Verayuth Lertnattee[4]等人的研究中,提出了词分布概念。词分布因素被总结成如下四类:1)类内因素;Intra-class Factor;2)类间因素;Inter-class Factor;3)文档集因素;Overall Documents Factor;4)归一化因素;Normalization Factor。
将词分布因素和TF-IDF权重算法所考虑的因素相对照,在TF-IDF权重算法中,词频TF和反比文档频率IDF是利用类内和整个文档集上的词分布信息进行特征项权重计算,针对的是类内因素和文档集因素,但没有考虑各类别之间的不平衡,即没有考虑类间因素。类间因素的基本思想是只在很少类别上发生的低分布的词,应该比高分布的词具有更高的权重。一个有效的分类特征项应该既能体现所属类别的内容,又能将该类别同其它类别相区分。
根据上述分析,本文在TF-IDF权重算法的基础上提出了改进方法,结合TF-IDF与类间分布信息对特征项加权。对于两个同样出现频率的特征项,在类间分布的越不均衡的词越重要。而样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。因此我们用归一化的类间标准差ICSD(Inter-class Standard Deviation)来描述特征项在不同类别上的分布。那么,特征项的类间分布信息可以用下面的公式来表示:
其中,NC是类别总数,j的取值是(1,2,…,NC)。tf(ti,)是第i个特征项ti在第j类上的平均词频。是特征项ti在各类别上的分布总和,除以是为了将ICSD值规范到[0,1]之间。
由式(2)可知,当特征项在每个类别中的TF都相同时,其ICSD取最小值0,其分类能力最弱;当特征项只在一个类别中出现时,其ICSD取最大值,其分类能力最强。
在TF-IDF算法的基础上结合类间分布信息,即可得到TF-IDF-ICSD的计算公式:
在小的文档集上对TF-IDF算法和改进权重算法进行比较,结果表明改进权重算法给特征项的赋权更为合理。
4 实验及结果分析
本实验分别对TF-IDF权重算法和改进权重算法进行分类测试比较。实验采用由卡内基梅隆大学开发的Rainbow[4]文本分类系统作为测试平台。
实验数据集为mini-newsgroups新闻组文章,共20类2000篇英文文章,从每类中随机选出若干篇文档做测试,剩下文档做为训练集。分类算法采用Rocchio,测试10次后统计平均分类精度。分类精度为各类别分类正确的测试文档数除以测试文档的总数,平均分类精度为10次测试的算术平均。
实验结果如图1所示。由实验结果可以看出,采用TF-IDF-ICSD权重算法为特征项赋权的分类效果好于TF-IDF权重算法。TF-IDF算法过于倚重词频而忽略了各类别之间的不平衡,而改进权重算法TF-IDF-ICSD在其基础上考虑类间分布因素,在分类的精度上有更好的表现。对于分类算法Rocchio,改进特征加权算法能够有效提高分类系统的精度。
5 结束语
文本分类的分类方法建立在特征项频率统计和权重计算基础上时,特征权重算法的优劣将直接影响到分类的精确度。因此在一些文献中,针对特征项权重的计算提出了采用反比类别频率因素[5],还有的文献提出对特征项的长度及出现位置作加权处理以及采用基于熵概念的权重算法,这些对于本文今后的研究都有很大的启示。
摘要:该文首先讨论了向量空间模型在文本分类中的应用,并且对传统特征权重算法TF-IDF进行了分析。在此基础上,针对TF-IDF只考虑词频因素和文档集因素的不足,结合类间分布信息与TF-IDF为特征项赋权。实验结果表明改进的权重算法提高了分类精度。
关键词:文本分类,向量空间模型,特征权重
参考文献
[1]Salton G,Wong A,Yang C.A vector space model for automatic indexing[J].Communi-cations of the ACM,1975,18(11):613-620.
[2]陆玉昌,鲁明羽,李凡.向量空间法中单词权重函数的分析与构造[J].计算机研究与发展,2002,39(10):1205-1210.
[3]鲁松,李晓黎,白硕.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-20.
[4]McCallum,Andrew Kachites.Bow:A toolkit for statistical language modeling,text retrieval,classification and clustering[EB/OL].[1998-09-12].http://www.cs.cmu.edu/-mccallum/bow.
[5]Lertnattee V,Theeramunkong T.Improving Centroidbased Text Classification Using Term-Distribution-Based Weighting and Feature Se-lection[C].The 2nd International Conference on Intelligent Technologies,2001:349-355.
空间向量模型 篇2
(基本知识点与典型题举例)
为右手直角坐标系(立体几何中建立的均为右手系)。
2、空间直角坐标系中的坐标运算:
一、空间向量的线性运算:
1、空间向量的概念:
空间向量的概念包括空间向量、相等向量、零向量、向量的长度(模)、共线向量等.
2、空间向量的加法、减法和数乘运算:
平面向量中的三角形法则和平行四边形法则同样适用于空间向量的加(减)法运算. 三个不共面的向量的和等于以这三个向量为邻边的平行六面体的对角线所表示的向量.
3、加法和数乘运算满足运算律:
①交换律,即a+b=b+a;②结合律,即(a(a+b)ca(b+c);
③分配律,即()a=a+a及(a+b)ab(其中,均为实数).
4、空间向量的基本定理:
(1)共线向量定理:对空间向量a,b(b0),a∥b的充要条件是存在实数,使a=b.(2)共面向量定理:如果空间向量a,b不共线,则向量c与向量a,b共面的充要条件是,存在惟一的一对实数x,y,使c=xa+yb。
推论:①空间一点位于平面C内的充要条件是存在有序实数对x,y,使xyC;
②空间一点位于平面C内的充要条件是存在有序实数对x,y或对空间任一定点,有xyC;
③若四点,,,C共面,则xyzC
xyz1。
(3)空间向量基本定理:如果三个向量a,b,c不共面,那么对空间任一向量p,存在有序实数组
x,y,z,使p=xa+yb+zc.其中{a,b,c}是空间的一个基底,a,b,c都叫做基向量,该定理可简述为:空间任一向量p都可以用一个基底{a,b,c}惟一线性表示(线性组合)。
5、两个向量的数量积:
(1)两个向量的数量积是a
b=abcosa,b,数量积有如下性质:①ae=acosa,e(e为单位向量);②a⊥bab=0;③aa=a
2;④ab≤ab。
(2)数量积运算满足运算律:①交换律,即ab=ba;②与数乘的结合律,即(a)
b=(ab);③分配律,即(a+b)c=ac+bc.
二、空间向量的直角坐标运算:
1、空间直角坐标系:
若一个基底的三个基向量是互相垂直的单位向量,叫单位正交基底,用{i,jk}表示;在空间
选定一点O和一个单位正交基底{i,jk},可建立一个空间直角坐标系Oxyz,作空间直角 坐标系Oxyz时,一般使∠xOy=135°(或45°),∠yOz=90°;在空间直角坐标系中,让右手拇指指向x轴的正方向,食指指向y轴的正方向,如果中指指向z轴的正方向,称这个坐标系
(1)定义:给定空间直角坐标系O-xyz和向量a,存在惟一的有序实数组使a=a1i+a2j+a3k,则(a1,a2,a3)叫作向量a在空间的坐标,记作a=(a1,a2,a对空间任一点A,存在惟一的3)。
OA
xi+yj+zk,点A的坐标,记作A(x,y,z),x,y,z 分别叫A的横坐标、纵坐标、竖坐标。
(2)若A(x
1,y1,z1),B(x2,y2,z2),则AB(x2x1,y2y1,z2z1);
(3)空间两点的距离公式:
d
3、空间向量的直角坐标运算律:已知a=(a1,a2,a3),b=(b1,b2,b3),则:a+b(a1b1,a2b2,a3b3),ab(a1b1,a2b2,a3b3);
a(a1,a2,a3),ab=(a1b1,a2b
2,a3b3);
a∥ba1b1,a
2bcosab
ab2,a3a,bb3|a||b|1212a2b2a3b32220;
空间两个向量的夹角公式:
a1a2a3b12b2b
3。
4、直线的方向向量与向量方程:
(1)位置向量:已知向量a,在空间固定一个基点O,作向量OA
a,则点A在空间的位置被a
所
惟一确定,a称为位置向量。
(2)方向向量与向量方程:给定一个定点A和一个向量a,再任给一个实数t,以A为起点作向量
AP
ta,则此方程为直线l上点P对应的向量方程,向量a称为直线l的方向向量。
5、平面的法向量:
(1)如果表示向量a的有向线段所在直线垂直于平面,则称这个向量垂直于平面
(记作a⊥),向量a叫做平面的法向量。法向量有两个相反的方向。
三、空间向量在立体几何中的应用:
1、空间向量在位置关系证明中的具体应用:
1)空间的线线、线面、面面垂直关系,都可以转化为空间两个向量的垂直问题来解决:①设a、b分别为直线a,b的一个方向向量,那么a⊥ba⊥bab=0;②设a、b分别为平面,的一个法向量,那么⊥a⊥bab=0;③设直线l的方向向量为a,平面的法向量为b,那么l⊥a∥b。
2)空间直线与直线平行,直线与平面平行,平面与平面平行,都可以用向量方法来研究:①设a、b是两条不重合的直线,它们的方向向量分别为a、b,那么a∥ba∥b;②直线与平面平行可转化为直线的方向向量与平面的法向量垂直,也可用共面向量定理来
证明线面平行问题;
③平面与平面平行可转化为两个平面的法向量平行。
2、空间向量在立体几何的计算问题中的应用:
1)空间角的计算:
①线线角:异面直线所成角转化为两条直线所在向量的夹角;
②线面角:直线AB与平面所成角为,其中n是平面的法向量;
③面面角:二面角的大小为,其中m,n是两个半平面的法向量。2)距离的计算:
①点面距:设n是平面的法向量,A,则B到的距离为;
②线线距:设n是两条异面直线l1,l2的公垂线的向量,若A,B分别是在l1,l2上的任意一点,则l1,l2的距离为;
③线面距、面面距,与前面求法相同。
四、例题分析:
例
1、如图,在四棱锥P—ABCD中,PD⊥底面ABCD,底面ABCD
为正方形,PD=DC,E、F分别是AB,PB的中点.(1)求证:EF⊥CD;(2)在平面PAD内求一点G,使GF⊥平面PCB,并证明你的结论.(3)求DB与平面DEF所成角的大小。
例
2、如图所示的多面体是由底面为ABCD的长方体被截面AEC1F所截面而得到的,其中
AB4,BC2,CC13,BE1,(1)求BF的长;(2)求点C到平面AEC1F的距离。
例
3、已知四棱锥PABCD的底面为直角梯形,AB//DC,DAB90,PA底面ABCD,且PAADD
1,AB1,M是PB的中点。
(1)证明:面PAD面PCD;(2)求AC与PB所成的角;
(3)求面AMC与面BMC所成二面角的大小。
例
4、如图,在四棱锥PABCD中,底面ABCD为矩形,PD底面ABCD,E是AB上
一点,PFEC.已知PD
2,CD2,AE
2, 求(Ⅰ)异面直线PD与EC的距离;(Ⅱ)二面角EPCD的大小。
例
2、如图4,在长方体ABCDA1B1C1D1中,ADAA11,AB2,点E在棱AB上移动,问AE等于何值时,二面角D1ECD的大小为
π
4.19.(本小题满分12分)
如图,在四棱锥P—ABCD中,PD⊥底面ABCD,底面ABCD 为正方形,PD=DC,E、F分别 是AB,PB的中点.(1)求证:EF⊥CD;
(2)在平面PAD内求一点G,使GF⊥平面PCB,并证明你的结论.(3)求DB与平面DEF所成角的大小.19.以DA,DC,DP所在直线为x轴,y轴,z轴建立空间直角坐标系,如图,设AD=a,则
D(0•,•0•,•0)•,•A(a•,•0•,•0),B(a•,a•,•0)•,C•
(0•,•a•,•0)•,E•
(a•,a
•,•0)•,F•(a2
2•,a2•,a2)•,P•(0•,•0•,a)
(1)a
a2•,•0•,2
•,•(0•,•a•,•0)0•,•
∴EF
DC•.(2)设G(x•,•0•,•z),则G∈平面PAD.FG
aaa
x2•,•2•,•z2,ax2,••a2•,•za2(a•,•0•,•0)aaa
x20,则x2;
a
x2•,•a2•,•za2(0•,•a•,•a)a2a2a(z2)0,则z=0.∴G是坐标为(a,0,0),即G为AD的中点.(3)(只理科做)设平面DEF的法向量为n(x•,y•,z)•.由n0•,(x,•y,•z)a,•a•,a
0•,得DE0•222n.(x•,y,•z)(a,•a,••0)0•.a
(xyz)即0•,2取x=1,则y=-2,z=1, axa2
y0•.∴ n=(1,-2,1).cos〈BD•,•n〉a3
2a6
•, ∴DB与平面DEF所成角大小为
2arccos3
(即arcsin3
6).19.如图4,在长方体ABCDA1B1C1D1中,ADAA11,AB2,点E在棱AB上移动,问AE等于何值时,二面角D1ECD的大小为
π4
. 解:设AEx,以D为原点,直线DA,DC,DD1所在直线
分别为
x,y,z轴建立空间直角坐标系,则A1(1,01),D1(0,01),E(1,x,0)A(1,0,0)C(0,2,0). ∴CE(1,x2,0)D1),DD1C(0,2,1(0,0,1).
设平面D1EC的法向量为n(a,b,c),·D1C0,2bc0,n
由
ab(x2)0,·CE0n
又CC1(0,0,3),设CC1与n1的夹角为,
CC1·n则cos. 1
CC1n
令b1,∴c2,a2x.
∴n(2x,1,2).
n·DD1π依题意cos.
4nDD1.
∴
x2x2∴AE2.
∴C到平面AEC1F的距离dCC1cos
20.如图5所示的多面体是由底面为ABCD的长方体被截面AEC1F所截而得到的,其中AB4,BC2,CC13,BE1.
(1)求BF;
(2)求点C到平面AEC1F的距离.
解:(1)以D为原点,DAF,DC,DF所在直线为x轴,y轴,z轴建立空间直角坐标系Dxyz,D(0,0,0)B(2,4,0)A(2,0,0)C(0,4,0)E(2,41),C1(0,4,3),设F(0,0,z).
由AFEC1,得(2,0,z)(2,0,2),∴z2.
∴F(0,0,2)BF(2,4,2).
∴BF
·AE0,n1
(2)设n1为平面AEC1F的法向量,n1(x,y,1),由
·AF0,n1,x1
4y10,得∴1
立体几何·空间向量 篇3
1. [a,b]是夹角为[30°]的异面直线,满足条件“[a?α,b?β,]且[α⊥β]”的平面[α,β]( )
A. 不存在 B. 有且只有一对
C. 有且只有两对 D. 有无数对
2. 已知向量[a=(8,x2,x)],[b=(x,1,2)],其中[x>0]. 若[a∥b],则[x]的值为( )
A. 8 B. 4 C. 2 D. 0
3. 已知[a=(2,-1,3),][b=(-1,4,-2),][c=(7,5,λ),]若[a,b,c]三个向量共面,则实数[λ]等于( )
A. [627] B. [637] C. [647] D. [657]
4. 如图,已知空间四边形[ABCD]的每条边和对角线长都等于[a],点[E,F,G]分别为[AB,AD,DC]的中点,则[a2]等于( )
A. [2BA]·[AC] B. [2AD]·[BD]
C. [2FG]·[CA] D. [2EF]·[CB]
5. 已知空间四边形[OABC],其对 角线为[OB,AC,M,N]分别是边[OA,CB]的中点,点[G]在线段[MN]上,且使[MG=2GN],则用向量 [OA], [OB], [OC]表示向量 [OG]正确的是( )
A. [OG]=[OA]+[23OB]+[23OC]
B. [OG]=[12OA]+[23OB]+[23OC]
C. [OG]=[16OA]+[13OB]+[13OC]
D. [OG]=[16OA]+[13OB]+[23OC]
6. 有以下命题:①如果向量[a,b]与任何向量不能构成空间的一个基底,那么[a,b]的关系是不共线;②[O,A,B,C]为空间四点,且向量 [OA], [OB], [OC]不构成空间的一个基底,那么点[O,A,B,C]一定共面;③已知[{a,b,c}]是空间的一个基底,则[{a+b,a-b,c}]也是空间的一个基底. 其中正确的命题是( )
A. ①② B. ①③
C. ②③ D. ①②③
7. 二面角[α-l-β]为[60°],[A,B]是棱[l]上的两点,[AC,BD]分别在半平面[α,β]内,[AC⊥l],[BD⊥l],且[AB=AC=a],[BD=2a],则[CD]的长为( )
A. [2a] B. [5a] C. [a] D. [3a]
8. 空间中一条线段[AB]的三视图中,俯视图是长度为1的线段,侧视图是长度为2的线段,线段[AB]的长度的取值范围是( )
A. [0,2] B. [2,5]
C. [2,3] D. [2,10]
9. 若[O]为坐标原点,[OA=(1,1,-2)],[OB=][(3,2,8)],[OC=(0,1,0)],则线段[AB]的中点[P]到点[C]的距离为( )
A. [1652] B. [214] C. [53] D. [532]
10. 已知平面[α]的一个法向量[n=(-2,-2,1)],点[A(-1,3,0)]在[α]内,则[P(-2,1,4)]到[α]的距离为( )
A. [10] B. [3] C. [83] D. [103]
二、填空题(每小题4分,共16分)
11. 若向量[a=(1,λ,2)],[b=(-2,1,1)],[a,b]夹角的余弦值为[16],则[λ=] .
12. 已知空间四边形[OABC],点[M,N]分别是[OA,BC]的中点,且 [OA=a], [OB=b], [OC=c],用[a,b,c]表示向量[MN]= .
13. 在长方体[ABCD-A1B1C1D1]中,底面是边长为2的正方形,高为4,则点[A1]到截面[AB1D1]的距离为 .
14. 给出命题:①若[a]与[b]共线,则[a]与[b]所在的直线平行;②若[a]与[b]共线,则存在唯一的实数[λ],使[b=λa];③若[A,B,C]三点不共线,[O]是平面[ABC]外一点, [OM]=[13OA]+[13OB]+[13OC],则点[M]一定在平面[ABC]上,且在[△ABC]的内部. 其中真命题是 .
三、解答题(共4小题,44分)
15. (10分)设[a=(a1,a2,a3)],[b=(b1,b2,b3)],且[a≠b],记[|a-b|=m],求[a-b]与[x]轴正方向的夹角的余弦值.
16. (10分)如图所示,已知空间四边形[ABCD]的各边和对角线的长都等于[a],点[M,N]分别是[AB,][CD]的中点.
(1)求证:[MN⊥AB],[MN⊥CD];
(2)求[MN]的长.
17. (12分)直三棱柱[ABC-A′B′C′]中,[AC=][BC=AA′],[∠ACB=90°],[D,E]分别为[AB,BB′]的中点.
(1)求证:[CE⊥A′D];
(2)求异面直线[CE]与[AC′]所成角的余弦值.
18. (12分)如图1,四棱锥[P-ABCD]中,[PD⊥]底面[ABCD],面[ABCD]是直角梯形,[M]为侧棱[PD]上一点. 该四棱锥的俯视图和侧(左)视图如图2所示.
(1)证明:[BC⊥]平面[PBD];
(2)证明:[AM]∥平面[PBC];
(3)线段[CD]上是否存在点[N],使[AM]与[BN]所成角的余弦值为[34]?若存在,找到所有符合要求的点[N],并求[CN]的长;若不存在,说明理由.
[图1][图2][俯视图][侧(左)视图] [2][3][1] [4]
空间向量模型 篇4
目前在搜索引擎中常用的页面排序方法是PageRank[1]方法,利用web页面间的超链结构来计算每个页面的权重。但是PageR-ank算法会忽略某些页面的内容,一些与用户兴趣无关的知名网站也会被赋予过高的权重。致使用户很难从中快速筛选出真正需要的信息。如果搜索引擎只返回相关度高的重要网页,这样既可以很大程度地节省用户时间,又可以减轻网络流量。
文中提出了一种基于向量空间模型的主题PageRank页面排序算法,结合基于内容和基于链接分析权重各自的特点,构造出主题PageRank算法。
2 PageRank
2.1 PageRank理论模型
PageRank的基本思想来自传统文献计量学中的文献引文分析,即如果一个页面被多次引用,那么这个页面很可能是重要的;如果一个页面尽管没有被多次引用,但是却被一个重要的页面引用,那么这个页面很可能是重要的;一个页面的重要性被均分并传递到它所引用的页面。基于这种思想:设u是一个web页面,Fu是u引用的页面集合,Bu是引用u的页面集合,则网页u的重要性R(u)可定义为:
其中,Nu表示u引用的页面个数,c为规范化因子。
2.2 修正的PageRank算法
公式(1)有一个假设前提:所有的页面链接形成一个强连通图。但是实际的网络超链接环境没有这么理想,会存在一些没有外出链接的独立页面或页面集合,这种页面称之为悬挂页面(dingle page)。因为这种页面没有外出链接,所以在迭代计算的时候页面的重要性时,它不会传出任何重要性,这将导致一个称之为等级泄露(rank sink)的重要问题。为了解决这个问题,必须引入一个等级源[2](rank source)来补充每个页面的PageRank值,以使得PageRank值不完全依赖于网络链接。因为浏览者在网络上浏览网页的过程实际是一个随机的过程,浏览者很少会沿着一个链接向下一直走到底。在每一个页面,浏览者都有可能不再对本页面的链接感兴趣,从而随机选择一个新的页面开始新的浏览。所以修正后的PageRank定义为:
公式(2)中的等级源E一开始是为了修正页面间的等级泄露而设计的,后来Page和Brin又提出了E在调整页面的排列顺序方面的作用。它认为浏览者每一次在随机选择一个新的页面并开始新的浏览时,都会与个人的兴趣有关。于是可以根据不同浏览者的喜好,构造不同的等级源E,从而提出了PageRank在主题个性化方面的应用前景。
3 利用空间向量模型构造个性化的PageRank算法
从上面的分析,我们可以看到主题PageRank的关键就是等级源的构造。通过对每一个页面进行基于主题的分类,然后针对每一个主题分别计算出对应主题的主题性页面等级得分,构造出面向不同浏览者的等级源E。
3.1 VSM
文本的特征表示是文本分类面临的首要问题。向量空间模型VSM[3](Vector Space Mode1)是目前应用最多且效果较好的文本表示法之一。VSM引入了线性代数中的某些概念,主要思想是选出若干独立的词项作特征项,每一篇文档都被映射成多维向量空间中的一个向量,对于所有的文档类和未知文档,都可用此空间中的向量Dj(w1,j,w2,j,…,wt,j)来表示。其中,t是系统中所有特征项的个数。wi,j为特征项ki在文档dj中对应的权值,用以刻画该特征项在描述此文档内容时的重要程度,使用公式进行计算:
其中,tfij表示特征项ki在文档Dj中出现的频率,N代表文档集合中的文档数量,nj代表在文档集合中出现特征项ki的文档数目。
从而将文档信息的表示和匹配问题转化为向量空间中向量的表示和匹配问题来处理。那么,就可以使用向量空间模型来计算文档之间的主题相关程度。这种关系可以定量表示,一般用这两个文档生成的空间向量之间的夹角余弦值来计算。即
3.2 特征项的选择
构成网页中的文本的词汇,数量是相当大的,因此,表示网页的向量空间的维数也相当大,可以达到几万维,所有几万个词汇对网页分类的意义是不同的,因此我们需要进行维数压缩的工作,也就是进行特征项的选取。特征选择的基本思想通常是构造一个评价函数,对特征集的每个特征进行评估。这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。
互信息量法[4](mutual information)是一种常用的评价函数,MI用于度量一个消息中两个信号之间的相互依赖程度。在特征选择领域中,特征t和类别C的互信息体现了特征与类别的相关程度。在某个类别C中出现的概率高,而在其它类别中出现的概率低的特征t将获得较高的互信息。MI可表示为:
其中P(w|Ci)是训练语料中特征项W出现在类别Ci中的频率,P(w)是训练语料中特征项W出现的频率。经过比较之后,选择互信息量大与设定阈值的特征项作为该类的类别特征。
3.3 迭代计算PageRank值
为了方便计算网页集合中所有页面的PageRank值,通常采用线性代数的理论,利用公式(2)来计算。把页面的PageRank值表示为向量R,用户的兴趣矩阵表示为E,其中Eij=sim(di,Cj)。那么可以得到,
其中,假设有n个网页,A是一个n×n的矩阵,其元素aij为鼠标点击一次时从i页到j页的概率。最简单的模型是取aij=|Oi|,这说明这意味着无论从哪个网页开始,它通过任一外链接到达其他网页的概率几乎是相同的。
进一步分析公式(5),发现矩阵A某些行的元素可能都是零,所以矩阵A不一定是随机矩阵。这种情况会在网页没有外链接(即aij=0)的情况下发生。许多这样的网页是存在的并被称作悬挂页面。一种简单的解决办法是用e T/n[4]来替代这些零向量,其中e T是元素都为1的行向量。被修正的矩阵A’(现为随机的)可以看作是矩阵A的秩1修正矩阵。令a为悬挂向量,其元素为
那么,A’=A+aeT/n(8
把修正后的A’带入公式(5),得到
由于修正后的A’是随机且不可约的,因此可以保证向量R可以收敛到一个稳定的值,并且该向量与初始值的取值无关。于是可以假设S为初始网页向量,每个分量的值都赋予1/n,然后根据公式(9)反复迭代计算,直到最后得到的PageRank值收敛于一个相对固定的值,Brin和Page的报告中成功迭代的收敛速度是50到100步[2]。
4 实验结果与分析
文中的训练集来自中文自然语言处理开放平台上用于文本分类的语料库,该语料库来自复旦大学计算机信息与技术系国际数据库中心自然语言处理小组。从中选取了计算机、环境和体育3个类别,其中计算机方面的文档有1357篇,环境方面的文档有1217篇,体育方面的有1253个。测试数据来源于使用网络爬虫框架Heritrix抓取得到的5000个页面。为了验证上述改进算法,本文对随机的关键词进行20次查询,在返回的前100个结果中,统计符合
查询的网页篇数,实验的结果如图1所示。
从图1可以看到本次实验使用主题PageRank算法排序的查询精度在45%左右,要好于传统的PageRank算法。
5 总结
本文将VSM文本分析模型引入PageRank算法,构造出基于主题的PageRank算法。并通过实验证明该算法对页面主题分析的能力有了改善,因此查询精度方面也得到了相应的提高。但是在具体使用的时候,该算法的实现还需要进一步完善。在今后的工作中,将就以下两方面问题做出进一步研究:
1)通过引入一些用户兴趣的动态因素(例如用户访问日志),来构造属于每个用户的兴趣集,来计算符合每个用户要求的网页排名。
2)考虑对迭代算法的优化,确保大量主题搜索的效率。
参考文献
[1]Page L,Brin S.The anatomy of a large-scale hypertextual Web search engine[J].Computer Networks,1998,30(1-7):107-117.
[2]Page L,Brin S,Motwani R,et al.The PageRank Citation Ranking:Bringing order to the Web[R].Technical report,Computer Science De-partment,Stanford University,1998.
[3]Ricardo B Y,Berthier R N.Moderninformation retrieval[M].北京:机械工业出版社,2005.
[4]Yang Y,Pederson J O.A comparative study on feature selection in text categorization[C].International Conference on Machine Learning(ICML),1997.
空间向量课后反思[模版] 篇5
这次上课是 2节课连起来上的,是新的一章空间向量的学习,因为平面向量有些知识可以直接类比到空间向量,所以我将原本3节课的内容压缩到2节课里来上,第1节主要是知识点的梳理,第2节则是通过习题来加强对知识点的掌握。
这节课的一开始我让学生先进行回忆,想一下在高一的时候我们学了平面向量的哪些知识。然后我让学生板书写,下面的学生自己写在进行补充和分类。则个还节的设计能够充分调动学生的积极性并让学生能够加深新旧知识之间的联系,形成知识之间的结构体系。但是在具体实行的时候因为学生回忆的知识很杂乱,而且很多的知识没有想起来,就导致了我在这个环节上耗费了太多的时间且效果没有预期的好,这个主要是自己的知识掌握不够宽泛和经验不足,不能够很好的讲放出去的话题收回来,相信在以后的不断实践中能够得到提高。接下来学习共面向量定理和基本定理时也是通过类比平面向量进行的,并且对基本定理进行了证明以加深学生的印象。这个环节上进行的比较流畅但是在定理证明的过程中暴露出了一个问题是我对证明过程的讲解不能和学生进行很好的互动,基本上是我一个人在自说自话,这个也是缺乏经验的体现。
空间向量模型 篇6
通信运营商每天都要接受大量的投诉,其中绝大部分都会以短文本的形式进行存储,形成文本投诉工单。但目前通信运营商对于投诉分析处理水平普遍偏低,对于投诉文本中提供的相关网络数据的利用率不高,更缺乏有效及系统的研究与分析,投诉处理相对滞后,无法对出现的热点问题进行即时高效地处理。投诉文本中隐藏的客户潜在需求更是具有重大的商业价值。传统的人工处理早已无法满足相关需求。在此背景之下,数据挖掘技术得以发挥巨大的作用。
文本挖掘是数据挖掘技术的一种,主要指对文本数据进行挖掘。近年来得到学术界的重视,开展了深入的理论研究并取得了一系列的成果,逐步得到广泛应用。如科学领域文献的挖掘、金融领域的股票涨跌预测、以及互联网上的Web挖掘、主题检测、主动问答等。文本挖掘能够从海量原始数据中提炼出具有价值的自定义或未定义主题,形成有用且浅显易懂的结论。要进行文本挖掘首先就得对文本数据进行建模以便于进行分析研究然后深入挖掘。
向量空间模型[1]是目前文本处理的标准模式。简单而言就是通过提取文档中频率较高的词汇构成特征向量对文本进行表述。本文的主要目的就是研究向量空间模型并对原始投诉数据进行数据建模,然后利用关联规则进行优化从而实现向量降维,从而简化向量空间模型。具体内容如下:
①向量空间模型表示方法,主要介绍有关向量空间模型的基本概念以及通用的建模方法。
②向量空间建模的实现,主要介绍向量空间建模的具体步骤并结合投诉文本的特点实现向量空间建模。
③基于关联规则的向量空间模型,提出向量空间模型存在的问题并利用关联规则对已经建立好的向量空间模型进行降维优化。
1 向量空间模型表示方法
向量空间模型的基本思想是用特征项的权向量来表示文本,将文本看作是权值不同的特征项的集合。具体而言就是将n个文本文档表示成m维向量空间中的向量D1,D2,…,Dn,其中每个Dt(1≤t≤n)由这j个特征项赋予不同的权重表示。向量空间模型将文本转换成数学中常见的向量来表示不但易于理解,且容易进行实现数学建模。向量空间模型的研究重点在于特征项的选取以及权值的计算两个方面,下面将基于这两个方面,对向量空间模型进行研究,并针对当前向量空间模型存在的一些问题进行优化处理。
1.1 特征项的选取
选取特征项通常遵循如下几个原则[2],一是选取包含信息较多的单位作为特征项,这样就能更加接近于表达文本信息;二是选取那些能够使得文本在其上的分布具有明显统计规律性的特征;第三则应考虑选取过程应当简便,方便进行数学实现。一篇中文文本有字、词、短语、句、段等各个层次,句和段通常就是本文直接进行研究的对象,因此不能当作特征项,下面重点讨论字特征和词特征。
字特征:字特征的特征抽取过程最简单,而且由于常用的汉字数目约为3500个,因此抽取特征的成本也相对较低。但是单个字对文本的表示能力比较差,通常将一个句子拆开成单个的字不能完整地表达语义信息甚至会有很多的歧义。因此一般仅在一些样本较少、文本较为短小的场合才采用字特征。
词特征:与字相比较而言,词通常能较为完整地表达出一个概念或者属性。然而,并不是所有词都适合作为特征项,研究表明,高频词和低频词对文本的表示作用均小于中频词。因为高频词在大多数甚至全部文本中都有出现,如果大部分文本中都有这个特征词时那这个特征词对于表示文本也就意义不大了;低频词在文本中出现次数少,不适合采用统计方法来处理;而中等频度的词既能对具有不同特征的文本进行区分,又方便进行数学统计处理,因此表示能力最强。
综上所述,一般使用字和词相结合作为特征项来表示文本。
1.2 权值的计算
权值即对特征向量的特征项进行赋值编码,其作用体现在尽可能将文本区分开来。通常可以采用文档向量的二进制编码方式和术语权值编码格式等特征向量编码方式。
在二进制向量模型中,每个特征项的系数为0或1。使用二进制编码时,不同文档中只要出现了该特征项,该特征项对于不同文档重要性都是相同的。而实际情况中,不同特征项在同一文档中出现的频率不可能全部相同,重要性也尽相同。因此,为了提高性能,通常采用的都是术语-权值方案。
该方案中要使用到的相关概念:
文档向量Di:第i个文档的向量表示。
特征项频率fij:第i个文档中特征项tj出现的频率。
逆文档频率[3]li:特征项tj在所有文档中出现分布情况的量化,表示该特征项的特殊性。
特征项的权值[4]qij:特征项tj在文档向量Di的权重值。
逆文档频率Ii计算方式如下:
其中,k为文档总数目,ki的文档数目。
则特征项权值qij的计算方式为:
2 向量空间建模的实现
向量空间建模一般分为文本数据预处理、特征加权以及构造矩阵三个步骤。
文本数据预处理的目的就是提取出文档特征项,在本文中即进行去噪、分词、获取中等频率的特征鲜明的关键词。
特征加权首先要统计出文档中特征项的频率、包含某特征项的文档数等统计信息,按照上文所给定的公式计算出某个文档中每个特征的权值,从而逐个构成特征向量。
构造矩阵就是将所有文档向量合并在一个矩阵中,就构造出了文本集的向量空间模型。
运营商投诉文本一般具有如下特点:
①文本总体较为短小,一般不超过100个字。
②噪声较多,其中包括高频词(在超过半数的文本中都出现的词汇)和低频词(在总样本中出现次数少于3次)。
③特征项中很多都是通信行业专有名词,辨识度较高。
④中英文相结合,且主体信息为中文,英文词汇通常为专有名词,如GPRS、HLR等等。
正因为投诉文本具有以上特点,所以在建模时通常需要注意如下几点:
①设置合适的高频词和低频词的阈值,添加停用词表(明显不包含任何信息的特征)。
②由于中英文结合的特点,分词时以中文分词为主,同时将常用的英文的专有名词添加到词库当中。
投诉文本建模流程如图1所示。
在进行文档向量建模时通常分别用分词(将连贯的文本切分成有意义的词汇)、去噪(去除重复词、停用词、高频词、低频词)等步骤来进行文本的预处理。其中分词是指对分词的文本进行匹配,如果找到了匹配词汇,则进行分词,如果没有匹配成功,则缩短词汇继续匹配,直到匹配成功,如果一直到最后单字都没匹配,则认为该词为新词。通常首先需要在分词之前先添加词库或者通过训练建立词库。分词常用的方法包括正向最大匹配[5]、逆向最大匹配、全切分等等。去噪即按照设定的阈值去除相应的特征词,效果好坏的关键就在于设置合理的高频词与低频词的阈值,这样能最大限度地降低文档向量的维度的同时又能最大限度保留文本信息,方便进行后期处理。
由于中英文编码方式不同,在处理两种字符时通常将文本信息转为无符号字符型[6],其范围为0~255。其中,英文字符数值范围在0~127,非汉字字符的数值范围在128~176,中文字符数值范围在176~255。
具体实现过程如下:
①将文本读入字符串并转换成无符号字符型。
②按照上述规则区分中文字符及英文字符。
③对中文字符进行进一步的分词处理;英文字符则对照此前建立的英文词库进行处理。
按照上述方法就能分别利用中英文的词典实现中英文分词而不至于出现乱码,从而为下一步的统计特征项频率及进一步建模打下基础。
特征项权值的计算在前面已经讲到,但在实际应用中,为了降低高频词对低频词的抑制作用,需要进行归一化处理:
通过权值计算文档向量的矩阵就已经能够构建出来。但通过投诉文本进行数据挖掘通常是为了挖掘自定义主题的数据或者未知主题的数据,这就要求去噪和分词后的数据求取特征项权值时要进行相应的分类。投诉文本中特征项相似的文本也会有更大可能性被划分到同一类中。前面已定义文本向量表示为Di,由j个权值qij构成,在这里定义文本向量Di与Dk的欧式距离[7]为:
通过设立相应阈值,当两个文本向量的欧氏距离小于该阈值时将会被划分到同一类当中。
3 基于关联规则的向量空间模型
3.1 向量空间模型存在的问题
利用词频构造向量空间模型是进行文本表示最简单有效的方法,但这种方法以纯粹的词作为基础,根据词语在文中出现的统计次数来判断词的重要性,而在文本中,不同词语之间的语义联系往往能改变一个词语的重要性,各特征项之间相关性往往较大,并且中文词语往往存在一词多义、一义多词、缩略词、人名地名、歧义等等情况,因此通过词频往往不能完全反映出文本要表达的真实信息。
向量空间模型存在的另外一个突出的问题就是其高维特性。由于自然文本的复杂多样性,词汇量过于丰富,因此上述向量空间建模形成的向量又有相当高的维度,因此使得进行数学处理的工作量变得相当地大,严重影响后期处理的效率。前面虽然已经通过去噪的方法降低了维度,但仍然需要用另找一些方法来进一步降低向量维度从而简化数学处理流程。
降低文本维度的方法有特征选择和特征提取。特征选择是从文本向量特征项中选择出比较能代表文本的特征项、去除一般特征项来降低特征空间维度,上文所做的去噪就是采用的这种方法;特征抽取是将高维空间的数据通过某种映射或者数学模型转换较低维空间,关联规则就属于特征提取方法中的一种。关联规则就是描述两件可能同时发生的事件。关联规则最著名的例子是沃尔玛的啤酒与尿布的例子,沃尔玛将海量销售数据进行分析时发现顾客经常在购买尿布时通常一起购买啤酒,于是将这尿布和啤酒放在相近的位置,然后发现这两种商品同时都卖得很好。而在文档向量降维过程中,关联规则通过扫描所有文档向量中的特征项对词-文档矩阵进行关联规则的挖掘,从中找到有关联的关键词组,从而对模型进行降维。最具代表性的关联规则算法是Apriori算法[8]。因此本文设计了一种将特征项-文档矩阵转换成适合关联规则挖掘的事务矩阵的方法,在此基础上使用Apriori算法进行关联词的挖掘,找到看上去不相关但确实有关联的特征项,将这些特征项进行合并。
3.2 向量空间模型的关联分析
为了使用关联规则对文档中的特征项进行分析,首先需要将特征项-文档矩阵D构造成交易事务矩阵W。为了实现挖掘的简便性,本文将矩阵W转换成布尔矩阵,使用的是二值关联规则[9]。
特征项-文档矩阵中的每一列代表一个文档,而每一行则表示文档中的各个特征项。为了更好地说明特征项-文档矩阵中的每个元素向事务矩阵中每个元素的映射过程,举如下的例子。
二值关联规则的挖掘过程中,事务数据库W中的每个元素均为0或1,只代表了该项出现与否。因此对于特征项-文档矩阵中出现次数大于1的元素,在映射的过程中需要将其拆分成多条记录从而转换成为布尔矩阵。具体的拆分过程如式(5)所示:
特征项-文档矩阵如表1所示。
事务矩阵W如表2所示。
在这里关联规则就表达了哪些特征项会频繁地同时出现在文档中。定义如下。
支持度sij:两个特征项ti、tj同时出现在某一文档向量中的概率。
置信度rij:在出现特征项ti的所有向量中出现另一个特征项tj的概率。
本文采用1000条湖北某运营商的投诉数据进行仿真,发掘出了若干条关联规则,如3表所示。
例如,取特征项ti为“收发”,tj为“失败”,在支持度sij为1.5%的时候,置信度rij为93.33%;取特征项ti为“兑换”,tj为“积分”,在支持度sij为0.5%的时候,置信度rij为100%。只要置信度高过了经验给定的某个阈值,就可以假定找到的关联规则是有效的,从而对特征项进行合并。因此,特征项的个数就会明显减少,特征项-文档矩阵的维数就会明显下降。置信度的阈值会对降维产生显著影响。当设定阈值为80%时,矩阵的维数减少12.08%;当设定的阈值为85%时,矩阵的维数减少9.74%;当阈值为90%时,矩阵维数减少7.99%。具体的情况需要根据文本挖掘进一步的精度需求和时间空间成本而决定。
4 结束语
通过上文一系列理论研究和实践,本文成功实现了利用向量空间模型实现运营商投诉文本的数学建模并通过关联规则实现了降维优化。通过对该模型进行进一步数据挖掘就能够实现对客户投诉的快速处理,而且能够发掘出很多具有商业价值的信息。
参考文献
[1]Aurora Pons-Porrata a,Rafael Berlanga-LIavori b,Jose’Ruiz-Shulclo Per.Topic discovery based on text mining teehniques[J].Information Processing and Management,2007(43):752-768.
[2]卜东波.聚类/分类理论研究及其在文本挖掘中的应用[D].北京:中科院计算技术研究所,2000:34-40.
[3]陈光辉.基于本体的文本特征选取和加权方法研究[D].河北:河北大学,2010:27-29.
[4]都云琪,肖诗斌.基于支持向量机的中文文本自动分类研究[J].计算机工程,2002,28(11):137-139.
[5]耿锦威.聚类算法及基于簇模式聚类集成研究[D].安徽:安徽大学,2011:12-14.
[6]褚卫艳.基于投诉历史数据的分析和预测系统设计[D].北京:北京邮电大学,2012:18-19.
[7]李阳.基于无线传感器网络和概率融合的行为识别方法[D].北京:北京邮电大学,2009:39-41.
空间向量模型 篇7
学术论文相似性辨别问题理论上可以转化为信息查询问题,输入为一篇学术论文,输出是若干篇按相关度排序的相关学术论文。半个多世纪以来,人们提出了许多种信息检索的算法模型,其中经典模型有:布尔模型、向量空间模型、概率模型。其中向量空间模型是Salton于70年代初期提出[1,2],并成功应用于SMART系统[3]。该模型用特征项进行文档表示,用向量空间模型进行特征表示,用TFIDF算法进行特征项赋权,用倒排文档进行索引,用夹角余弦进行距离度量,其计算简单并且有效,因此得到了广泛的应用。
本文对传统向量空间模型进行了分析改进,并用改进的模型实现学术论文相似性辨别系统。理论分析和实验结果表明,应用该法实现的论文相似性辨别系统简单易用,可供学术界和一些相关机构用来进行学术论文抄袭排查,有效提高工作效率。
1 向量空间模型及其改进
1.1 向量空间模型
在本系统的设计中,主要应用向量空间模型将一篇论文看作由相互独立的词条组(t1,t2,…,tn)(n是系统中标引词的数目)构成,对于每一词条ti,都根据其在论文中的重要程度赋以一定权值wi,将(t1,t2,…,tn)看成一个N维坐标系中的坐标轴,论文dj的向量dj=(w1,j,w2,j,…,wn,j)为对应的坐标值,从而转化为一个N维向量空间,论文映射成为空间中的一个点,由此将学术论文相似性问题转化为向量空间中两矢量夹角计算问题。
为便于描述问题,现给出模型中有关概念的定义:
定义1论文:本文指一篇完整的学术论文,记为d,并将所要进行辨别确认的学术论文称为目标论文。
定义2特征项:也称为索引项,是指出现在学术论文d中且能够代表该学术论文性质的基本语言单位,记为t。
定义3.特征项权值wik:表示特征项tk对学术论文di的重要程度。其计算方法普遍采用TFIDF公式,[4]:
其中,tfik表示特征项tk在学术论文di中出现的频率,N代表学术论文集合中的学术论文数量,nk代表在学术论文集合中出现特征项tk的学术论文数目。
定义4.学术论文向量:设学术论文集合中共有m个不同的特征项t1,t2,…,tm,分别计算学术论文di(i=1,…,N)的特征项t1,t2,…,tm的特征项权值,由这些特征项权值所构成的向量(wi1,wi2,…,wim)称为学术论文di的向量。由于特征项t1,t2,…,tm互不相同,我们可以将学术论文向量看作是m维欧氏空间的向量。这样,学术论文之间的相似程度通过向量的形式转化为向量之间的数学计算模式,使得在进行学术论文相似性计算过程比较简单、快速。
定义5相似度:指目标论文与学术论文库中论文之间的相似程度。学术论文di,dj相似度定义为向量之间的夹角余弦[5]:
1.2 向量空间模型分析及其改进
可以看出,在用向量空间模型进行学术论文相似性辨别时,存在两个基本问题:即特征项的选择和特征项的权重计算,其中在特征项确定的情况下,特征项权重计算对检索系统的精度和召回率具有决定性的影响。如果应用传统的向量空间模型来进行系统设计,那我们将会采用TFIDF方法来计算特征项的权重。TFIDF是由Salton在1988年提出的,特征项的权重是TF和IDF的乘积,其中词频TF为特征项在该论文中出现的次数,而逆论文频数IDF表示该特征项在论文集合中的分布情况,其计算见公式(1)。
TFIDF方法初看上去似乎考虑得很周到,它的指导思想是建立在这样一条基本假设上:在一篇学术论文中出现次数很多的特征项,在这篇论文中具有较高的重要性,应该赋予较高的权重,另外还要考虑特征项区别不同论文的能力,认为一个特征项出现的论文频数越小,它区别不同论文的能力就越大,所以引入了逆论文频度IDF的概念,将TF和IDF的乘积作为特征项的权重。与其它的特征项权重计算方法相比,TFIDF方法对特征项在论文集合中的分布情况有所考虑,使向量空间模型的论文表示准确率得到了很大的提高。但传统的TFIDF方法对所有的特征项“一视同仁”,没有考虑到出现在论文不同位置的特征项对论文的贡献程度不同,比如出现在标题中的特征项就比出现在正文中的特征项更能代表论文的内容,所以在确定特征项的权重时仍然存在着缺陷。
由此,为有效提高论文相似性辨别系统的精度,本文将传统的向量空间模型中赋权公式进行了改进,改进公式引入特征项在学术论文中出现的位置因素,也即在统计每个区域的特征项频率得到tf后,要乘以一个反映其重要程度的比例系数来加以修正和调整。考虑到学术论文的格式比较统一,我们将一篇完整的学术论文分为四个区域:标题区域、关键词区域、摘要区域和正文区域。
则特征项tk在学术论文di中的出现频率为:
其中:tfikj为第j个区域的频率(j为1、2、3、4时分别对应标题区域、关键词区域、摘要区域和正文区域),a>b>c>d>=1为比例系数。
由此,可得到如下的改进权重计算公式
当j=(1,2,3,4)时,τ=(a,b,c,d)。
2 构建学术论文相似性辨别系统
2.1 算法描述
基于向量空间模型的学术论文相似性辨别系统首先要求构建一学术论文库,形成一定规模的学术论文信息资源,在实际实现中可将各个全文数据库进行整合(如国内三大全文数据库:万方、同方,维普),尽量做到学术信息资源大而全。在进行学术论文抄袭排查中,将目标论文进行处理,在整个论文信息资源库中进行比较,考虑到此系统要求高精度,可设置较大的阀值进行检索结果输出(实验验证,阀值设置为0.85较为合适),然后对输出的结果再进行人工判断。
其算法描述如下:
1)构造特征项库。输入或提取学术论文集合中的特征项,并建立特征项库;
2)建立学术论文信息库。将学术论文内容录入数据库,建立学术论文信息库;
3)构造学术论文向量信息库。对每篇学术论文信息依据式(4),计算每一个特征项的权值,并构建相应的学术论文向量;
4)目标学术论文向量化。将要进行相似性比较的目标学术论文根据特征项库,转化为目标学术论文向量;
5)相似度计算。利用公式(2)将目标学术论文向量与库中每一个学术论文向量进行相似度计算;
6)排序输出结果。按照计算出来的相似度大小排序输出查询结果;
7)将所输出的结果人工进行相似性判断(可只考虑前20个)。
2.2 系统架构
系统的架构可用图1来表示。
其中学术论文库存储所有的学术论文,利用术语自动更新技术不断更新系统特征项库。学术论文向量信息库中存储的是经过特征项抽取、权值计算的N维空间中的论文向量。在查询端提交论文后,先将目标论文根据特征项库转换为向量形式,然后与库中向量一一计算,排序输出大于所设定阀值的结果。
2.3 系统运行结果
我们将测试集分为学术论文集和查询两部分。在系统实验中,我们从CNKI中国学术期刊全文库(由于该库基本涵盖了国内出版的所有期刊)中获取有关计算机方面的学术论文1000篇做为学术论文集,采用计算机词典中部分常用词组(3000个)建立特征项库,在PII500,64MB内存的机器上实现。在实验过程中,首先将此1000篇学术论文和所要进行比较的目标学术论文根据所建立的特征项库用向量表示,并计算各个特征项的权值。其次在此3000维向量空间中将目标学术论文与其它学术论文进行相似性计算,排序输出结果。最后人工对输出结果的前20个进行比较判断,确定学术论文的相似程度。实验结果表明,系统的精度在80%到90%之间,系统的召回率在90%以上。通过该方法我们可以方便、快捷的进行学术论文相似性的比较,提高工作人员的效率,有效判断学术论文的独创性。
3 结论
为有效根治学术腐败,营造良好的学术生态环境,本文将信息检索领域中传统的向量空间模型进行了改进,并用改进的模型实现了一基于SMART系统上的论文相似性辨别系统。
理论分析和实验结果表明,该系统具有一定的实用价值,可供学术界和一些相关机构用来进行学术论文抄袭排查、维护知识产权、共同捍卫学术的神圣与尊严。此外,还可应用该系统进行毕业论文、专利和新闻等的相似性辨别。
参考文献
[1]Salton G,Lesk M E.Computer evaluation of indexing and text processing[J].Journal of the ACM,1968,15(1):8-36.
[2]Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing[C].Prentice Hall Inc.,Englewood Cliffs,NJ,1971.
[3]Buckley C.Implementation of the SMART retrieval system.Technical Report[D].Cornell University,1998:85-86.
[4]Salton G,Buckley B.Term-weighting approaches in automatic text retrieval[C].Information Processsing and Management,1988,24(5):513-523.
利用向量法解决空间问题 篇8
一、直线外一点到该直线的距离
例1如图1,已知正方体ABCD—A1B1C1D1的棱长为1,点E为AD1的中点,求点E到直线BD的距离.
分析:点E到直线BD的距离就是点E到直线BD的垂线段EF的长,而确定EF的准确位置比较麻烦,因此采用向量法.
解:如图1所示,建立空间直角坐标系,设EF丄BD,F为垂足(F的位置未确定),(λ∈R),由于,所以.∵A(1,0,0),D(0,0,0),,∴.又∵,EF⊥BD,∴,即.
二、两异面直线的距离
欲求两异面直线l1,l2之间的距离,可设与公垂线段AB平行的向量为,C、D分别为l1、l2上的任意两点,则l1,l2如之间的距离为.
例2在棱长为l的正方体ABCD—A1B1C1D1中,求异面直线A1C1与B1C的距离.
分析:因为找A1C1与B1C的公垂线或进行其他转换都比较困难,因此建立坐标系D—xyz,利用向量法计算A1C1与B1C之间的距离,为.
解:如图2所示,建立空间直角坐标系D—xyz,则A1(1,0,1),B1(1,1,1),C(0,1,0),C1(0,1,1).∴,.
设A1C1与B1C的公垂线段的方向量为,
则,即.
取x=1,得,又,
∴A1C1与B1C之间的距离为.
三、平面外的一点到平面的距离
例3如图3,已知正方形ABCD的边长为4,E、F分别是AB、AD的中点,GC垂直于ABCD所在的平面,且GC=2,求点B到平面EFC的距离.
分析:建立适当的坐标系,求出平面EFG的法向量,则在法向量方向上的投影向量的模为点B到平面EFG的距离.
解:如图3,建立直角坐标系C—xyz,则G(0,0,2),E(2,4,0),F(4,2,0),B(0,4,0).
则,,.
设平面EFG的法向量,由及,可得(取x=1),∴点B到平面GEF的距离
四、和平面平行的直线到平面的距离
例4已知棱长为1的正方体ABCD—A1B1C1D1,求直线D1C到平面A1BD的距离.
分析:找出平面A1BD的任意一个法向量,同时求出平面A1BD上任意一点到直线C1D的向量,然后求出该向量在上的射影的长就是直线D1C到平面A1BD的距离.
解:如图4,建立直角坐标系D—xyz,则D(0,0,0),B(1,1,0),A1(1,0,1),C(0,1,0),所以,,.
设平面A1BD的法向量,由及,可得(取x=1).于是,直线D1C到平面A1BD的距离.
五、平面的斜线与平面的夹角
例5如图5,三棱锥S-ABC中,SA⊥平面ABC,SA=3,AB=BC=2,∠ABC=120°,求:SA与平面SBC所成角的大小.
分析:找SA上的点到平面SBC的垂线比较困难,而SA⊥平面ABC,并且∠CAB容易求得,故用向量法求解.
解:过A作AD⊥AC,交CB的延长线于D,过B作BE∥AC交AD于E.
∵AB=BC=2,∠ABC=120°,根据余弦定理可得∠BAE=60°,∴,.
设AO是平面SBC的垂线,如图5所示,建立直角坐标系A—xyz,则A(0,0,0),S (0,0,3),,,所以,,,,
设平面SBC的法向量,由与可得(取x=3),∴,,
∴,即SA与平面SBC所成的角为.
基于向量空间的案件分析 篇9
1 PGIS综合查询系统设计
1.1 案件查询
结合关系数据库和图层文件实现通过案件相关属性对案件进行空间定位和基本信息展示,并可对案件进行周边查询(可自定义查询范围0-2000米),包括网吧、旅馆、盘查查询、视频查询、重点人员查询等。网吧查询不仅可以查询出周边网吧的信息,同时也支持查询上网记录,旅馆周边查询具有同样的功能。盘查查询可以查询出周边出现过得可疑人员,帮助警方快速锁定人员。重点人员可以根据时间段查询出在案件周边一定范围内出现过得重点人员,并能展示它们的前科信息。
1.2 盘查查询
支持属性查询和空间查询相结合的查询方法。可以了解到某一地区盘查情况。同时支持查询某警员的在某时间段内盘查采集的情况,是公安机关考察业绩的重要指标之一。
1.3 网吧查询
同样支持属性查询和空间查询相结合的查询方法,对某一地区的网吧分布情况进行了解。可查询出某时间段内上网人员信息。可根据相关属性进行上网人员轨迹查询,在PGIS中展示出上网人员的一个详细的轨迹图。帮助警务人员掌握人员的活动轨迹。
1.4 旅馆查询
拥有与网吧相同的功能。
1.5 案件相似度查询
PGIS综合查询系统旨在结合属性查询和空间查询在PGIS中查询出案件、网吧、旅馆、视频等信息,并在PGIS中展现且定位其位置。网吧查询中上网记录查询可以查询出上网人员上网记录,并可在PGIS中展现其上网轨迹,帮助警务人员对人员进行分析。旅馆查询中的住宿记录查询具有同样的功能。利用周边查询系统可对案件周边进行相关性的查询,包括网吧、旅馆、公安视频、盘查查询以及重点人员查询。通过网吧查询和旅馆查询可以查询出上网人员信息和住宿人员信息。通过重点人员查询可以快速查找出曾在那件周边出现过得重点人员,并可查询重点人员的犯罪前科。通过这一系列的设计,警务人员可以快速的对案件有个大概的掌控,对其周边情况有所了解,可以针对查询结果进行排查,达到不错不漏不重的效果。
2 案件相似度设计
2.1 文本分词
由于市公安局的犯罪数据库中简要案情中包含了简要的案件描述,所以案件的大部分信息都是以文本的形式存放在数据库中,所以需要对这个字段进行文本相似度分析,确定相似程度。
首先需要将简要案情进行分词,将其转换成一个个词条。当前中文分词算法主要可以分为三大类:基于词典的方法、基于统计的方法、基于规则的方法[3]。该文中对简要案情的分词采用中国科学院计算技术研究所研发的NLPIR(原ICTCLAS)系统,该系统主要包括中文分词、词性标注、新词识别、同时支持用户词典等功能。分词速度为500kb/s,分词精度超过大部分中文分词,可以达到98.45%,是世界上最好用的汉语词法分析器[6]。
分词界面如图3.1所示(案件是根据原有案件更改过的)
分词后有很多与案件无关的词语(如连词,副词,标点符号等)对案件分析的影响非常大,而且在大部分文本中都会出现,这时我们应该在分词后对这些词句进行过滤,将文本中出现的连词、副词等一些与案件无关的词删除,这样可以提高判断的准确性。
2.2 建模
要进行挖掘必须将文本词汇转换成计算机能够识别的语言,必须对文本词汇进行建模,常用的方法有向量空间模型、概率模型、语言模型[7]。
向量空间模型很好的将自然语言转换成数学模型,将自然语言转换成一个个词条对应于多维空间中的点,从而转换成多维空间中两个向量之间的比较。当然向量空间也存在他的局限性,它没有考虑到文本的语义顺序,在长篇的文章之中,语义顺序很重要,两句话词一样顺序不一样意思也就不一样了。公安机关的简要案情为对案件经过的大致描述,一般为一两句话,使用向量空间模型是最好的选择。
本文采用的向量空间模型(VSM),文本的表示我们用D(Document),用Ti(term)表示文本中相互独立的词条,所以我们可以用D=(T1,T2,…,TN)表示文本的特征项集,其中Ti是特征项,1<=i<=N。对于每个特征项都有一个权值,所以D可以表示为D=D(T1W1;T2W2,…,TNWN),Wi表示权值,1<=i<=N。权值可分为词频型和布尔型,词频即词条在文章中出现的次数,布尔型即在词条在文本中是否出现过,出现为1,未出现为0。
向量空间模型权值的计算采用TF-IDF方法,该方法也是使用较广泛的一种。TF(Term Frequency)表示词频,IDF(Inverse Doc-ument Frequency)表示逆文档频率。该方法计算公式如下:
Wij = TFij × IDFj (1)
其中Wij表示Di中的第j个特征值权重,TFij表示Ti在文档Dj中出现次数,IDF的计算方法如下
IDF的计算公式如下:
针对已转换成空间向量的词条,我们需要对其进行分析,即计算向量之间的重合度,通常计算向量重合度的方法有:余弦计算法、Jaccard系数法、内积法、Dice系数法,该文采用最常用的余弦计算法。余弦算法是通过计算两个向量的夹角余弦来计算文本的相似度。余弦值在0-1之间,值越大表示越相似。
余弦算法公式如下:
3 相关性分析
为保证系统的准确性,系统中使用的都是未改动过得源数据,因为公安机关的机密性,犯罪数据将不展示。
使用NLPIR进行简要案情分词,将分词结果存入Map(String,Double)中,String为词条,Double为词条的TF-IDF的值。Double的值根据2.2中的TF-IDF算法求得。最后根据余弦算法对两个Map进行相似度计算。
图2为随机抽取的两起案件的相似度计算结果。
图3为前期警务人员人工判断的两起相似案件的相似度计算结果。
通过大量的试验测试结果可知该应用程序的相似度计算比较接近人工判断的结果,符合公安机关的要求。
4 结束语
空间向量与立体几何计算 篇10
一空间向量在立体几何垂直问题中的应用
立体几何中的垂直问题大多是要应用空间向量的有关知识进行证明, 例举一个简单的实例来进行说明, 在如图1所示的正方体ABCD-A1B1C1D1中, E是BB1的中点, F是D1B1的中点, 要求证明EF垂直于平面B1AC。
所以得到EF与AB1垂直, 同理可得EF与B1C垂直, 又因为A1B1∩B1C=B1, 所以能够得到EF垂直于平面B1AC。
由以上例题的求解可知, 将空间向量应用于立体几何题目的求解中, 解题思路非常地清晰, 并且计算起来非常的方便, 空间向量法在此类问题的求解过程中具有非常好的求解效果。
二空间向量在立体几何角度计算中的应用
角度的计算是立体几何中非常常见的题目, 而这类题目的求解, 对于学生的逻辑思维及空间想象力具有较高的要求, 尤其是在一些面面角、线面角、线线角的求解过程中, 具有较大的难度, 而应用向量法进行求解, 能够有效地简化计算步骤, 减少计算量, 对于立体几何相关夹角的快速计算具有积极的作用, 下面就例举一个简单的题目来进行分析。
例:正方体ABCD-A1B1C1D1如图2所示, 已知图中的AB=AD=1, DD1=2, 要求求解A1B与AD1的夹角的余弦值;AC1与平面ABCD之间的夹角的余弦值;以及平面A1BCD1与平面ABCD的夹角之间的余弦值。
在应用向量法进行题目的求解的过程中, 首先要以D作为原点, 建立其有效的空间直角坐标系, 其中坐标系中的x、y、z轴分别是DA、DC与DD1, 如图3所示。
三空间向量在立体几何点线距离及点面距离计算中的应用
空间向量在立体几何中的有关距离的求解中也具有非常重要的作用, 下面举一个简单的例题来进行说明, 四棱锥P-ABCD如图4所示, 其中该四棱锥的底面是一个边长值是2的正方形, 并且PD与底面ABCD是垂直的关系, 已知PD的值为2, M是AB的中点, N是BC的中点, 要求求解点D到PM直线的距离。
四结束语
在高中数学的学习过程中, 立体几何是一个重点及难点部分, 也是高考中的必考题目, 应用向量法求解有关的立体几何计算问题, 非常方便, 但在实际的求解过程中, 学生由于对相关的向量知识及立体几何知识的掌握不到位, 在计算过程中, 还具有较多的问题。本文就举了关于立体几何中的垂直问题、角度计算问题、距离计算问题等几个常见的计算题目, 通过对相关的求解步骤的分析, 对提升学生的解题思维及计算准确度具有积极的作用。
参考文献
[1]潘虹.浅谈空间向量方法在立体几何中的应用[J].读与写 (教育教学版) , 2013 (2)