主题模型

2024-05-26

主题模型(共5篇)

主题模型 篇1

1概述

LDA是一种对离散的数据集(如文本数据库)建模的方法,它属于生成模型。生成模型(generative probabilistic model)指的是可以随机生成可观测的数据,也就是说通过训练样本建立起LDA模型后,LDA模型可以随机生成(一篇由N个主题组成的)文章。通过对文本的建模,我们可以对文本根据主题进行分类,判断文档的相似度等。为了更清晰的表达LDA模型的含义,本文一个具体的例子说明,理解这个例子,才算真正对LDA有“一定程度”的理解。同时,也希望这个例子对理解Dirichlet分布和multinomial分布有所帮助。值得指出的是,LDA实际上是对corpus,即文档库的建模,而不是对document建模。

2文档库生成模型

在描述了这个LDA模型以后,我们现在看一看,这个LDA模型是否符合一般的常识。由于LDA是一个生成模型(Generative model),也就是说LDA模型实际上描述了这个Corpus库的生成过程(或特性)。由于这个Corpus可能由很多的文档构成,而模型的建立仅仅采用了其中的一部分文档,那么这个生成模型的有效性应该由两方面决定(自己的看法)。

a.从这个模型中生成一个Document,这个Document应该具有符合这个模型特性的一些性质。b.随便选取一篇新document w,如果是这个模型产生(或与训练document类似的话)的话,那么p(t|w,α,β)的概率应该很大(这里我们将α,β都看作hyperparameter)。其中D为训练数据,α,β为LDA的参数,t是w所属的Corpus的标记。

a.选择文章的长度(单词个数)N,这个长度N服从Possion分布,但是这里,我们仅随机指定N=6;b.选择θ,即从Dirichlet(α)分布中,选择一个向量θ。在前文中,我们说过θ是document级的参数,θ确定了document的主题特性。LDA假定corpus中的每篇文章可能与不同主题相关,而且相关程度取决于θi的大小,也就是说:

一篇文章的主题,可能是由三个主题的混合决定的,比如一个关于艺术鉴赏的document,则文章的主题则更倾向于Art,其次是Education。可以看出,对不同的corpus,生成的α参数不同,导致Dirichlet的概率分布密度不同,得到这样的α参数以后,我们就可以进行诸如分类,建模等一系列问题。

重复执行(a)(b),直到选取所有N个word。这样,我们就算生成了一篇document从这个1,2.3我们也清楚的知道,为什么zn和wn是单词级(word-level)的变量,θ是document-level的变量,而α和β是corpus-level的参数。

3结论

本文给出了一个LDA模型生成文档库的基本流程,阐述了LDA模型中参数的意义以及,对于进一步理解LDA模型以及其他主题模型提供了一个基础。

参考文献

[1]Blei,David M.;Ng,Andrew Y.;Jordan,Michael I(January 2003)."Latent Dirichlet allocation".Journal of Machine Learning Research 3:pp.993-1022.

[2]C.M.Bishop,"Pattern Recognition and Machine Learning",Springer,2006.

基于主题模型的短文本分类研究 篇2

随着信息技术的快速发展和网络的广泛使用,互联网中产生的信息显著增加。大量非结构化数据已经成为网络数据的主力军,可以占到总数据量的90%[1],短文本更是在社交网站中随处可见。主题模型作为特征选择的一种方法,常用于文本分类中。使用不同的分类方法,对比LDA和BTM模型对于短文本特征选择的效果。

2 主题模型

2.1 主题模型思想

主题模型是一种层次结构的模型,用概率来表示各层之间的关系,常见的有PLSA[2]、LDA[3]和BTM[4]等,PLSA即潜在语义分析,是最早的主题模型,它使用条件概率描述单词和潜在类别间的关系,并使用最大期望的方法训练潜在类别。

2.2 LDA模型

由于PLSA模型的不完备和容易出现过拟合等缺陷[4],Blei等人提出了LDA模型,用概率来表示文档集合层、文档层和词语层之间的关系。

在LDA模型中:

(1)每篇文档主题词的个数N~Possion(ξ);

(2)文档中先验概率θ~Dir(α);

(3)每篇文档的第n个主题词wn:

主题Zn~Multinomial(θ);

主题词wn~Multinomial(wn|Zn,β)。

所以,LDA模型可以表示为:

其中P(φ|β),代表主题概率,P(w|φ)P(z|θ)代表主题词概率,P(w|φ)P(z|θ)P(θ|φ)代表文档概率。

2.3 BTM模型

BTM是另一种三层贝叶斯结构模型,与LDA不同的是它用“词对”来代替词,从而克服了短文本中词少所带来的困难。BTM和LDA均使用Gibbs抽样方法进行参数估计。LDA的Gibbs updating rules为:

BTM的Gibbs updating rules为:

3 实验数据及评价

3.1 实验数据及预处理

实验数据集来源于SODA上海开放数据创新应用大赛公开数据,数据集名称为网格化管理数据,该数据集用来统计城市居民对于市容市貌现象的反映,其中描述这个属性是对反映内容的简单叙述,平均字数少于100,类别是指反映现象所属类别。经过对数据的筛选,最终有988条数据,类别为暴露垃圾、跨门营业和占道无证经营。

3.2 实验环境

分词处理:中科院中文分词系统ICTCLAS;

主题模型:Windows下的JGibbs和Ubuntu下的BTM-master;

文本分类:Weka中的libsvm、Bagging和Ada Boost方法。

3.3 实验及结果评价

选取LDA和BTM为主题模型,使用libsvm、Bagging和Ada Boost分类方法,将它们两两组合,同样的分类方法设置相同的参数,最终进行6次实验,并对实验结果进行评价。

以精确度(Precision rate)、召回率(Recall)和F值(F-measure)为评价指标,BTM+libsvm最高,均为0.967,LDA+Ada Boost最低,分别为0.804、0.811和0.795。因此,对于短文本,BTM比LDA有更强的适用性,而对于分类,SVM更适合处理高维数据。

4 总结

从实验结果可以看出,对于短文本的分类,使用BTM作为主题模型,SVM作为分类方法,得到的效果最佳。当然,由于数据集的局限性,实验结果具有一定的片面性,未来的工作可以进一步选取多个实验数据集,以得到更普遍的结论。

参考文献

[1]Limeng Cui,Fan Meng,Yong Shi,et al.A Hierarchy Method Based on LDA and SVM for News Classification[C]//Proceedings of the 2014IEEE International Conference on Data Mining Workshop,2014:60-64.

[2]T Hofmann.Probabilistic Latent Semantic Indexing[C]//Annual International SIGIR Conference,1999.

[3]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research.2003(3):993-1022.

主题模型 篇3

目前在搜索引擎中常用的页面排序方法是PageRank[1]方法,利用web页面间的超链结构来计算每个页面的权重。但是PageR-ank算法会忽略某些页面的内容,一些与用户兴趣无关的知名网站也会被赋予过高的权重。致使用户很难从中快速筛选出真正需要的信息。如果搜索引擎只返回相关度高的重要网页,这样既可以很大程度地节省用户时间,又可以减轻网络流量。

文中提出了一种基于向量空间模型的主题PageRank页面排序算法,结合基于内容和基于链接分析权重各自的特点,构造出主题PageRank算法。

2 PageRank

2.1 PageRank理论模型

PageRank的基本思想来自传统文献计量学中的文献引文分析,即如果一个页面被多次引用,那么这个页面很可能是重要的;如果一个页面尽管没有被多次引用,但是却被一个重要的页面引用,那么这个页面很可能是重要的;一个页面的重要性被均分并传递到它所引用的页面。基于这种思想:设u是一个web页面,Fu是u引用的页面集合,Bu是引用u的页面集合,则网页u的重要性R(u)可定义为:

其中,Nu表示u引用的页面个数,c为规范化因子。

2.2 修正的PageRank算法

公式(1)有一个假设前提:所有的页面链接形成一个强连通图。但是实际的网络超链接环境没有这么理想,会存在一些没有外出链接的独立页面或页面集合,这种页面称之为悬挂页面(dingle page)。因为这种页面没有外出链接,所以在迭代计算的时候页面的重要性时,它不会传出任何重要性,这将导致一个称之为等级泄露(rank sink)的重要问题。为了解决这个问题,必须引入一个等级源[2](rank source)来补充每个页面的PageRank值,以使得PageRank值不完全依赖于网络链接。因为浏览者在网络上浏览网页的过程实际是一个随机的过程,浏览者很少会沿着一个链接向下一直走到底。在每一个页面,浏览者都有可能不再对本页面的链接感兴趣,从而随机选择一个新的页面开始新的浏览。所以修正后的PageRank定义为:

公式(2)中的等级源E一开始是为了修正页面间的等级泄露而设计的,后来Page和Brin又提出了E在调整页面的排列顺序方面的作用。它认为浏览者每一次在随机选择一个新的页面并开始新的浏览时,都会与个人的兴趣有关。于是可以根据不同浏览者的喜好,构造不同的等级源E,从而提出了PageRank在主题个性化方面的应用前景。

3 利用空间向量模型构造个性化的PageRank算法

从上面的分析,我们可以看到主题PageRank的关键就是等级源的构造。通过对每一个页面进行基于主题的分类,然后针对每一个主题分别计算出对应主题的主题性页面等级得分,构造出面向不同浏览者的等级源E。

3.1 VSM

文本的特征表示是文本分类面临的首要问题。向量空间模型VSM[3](Vector Space Mode1)是目前应用最多且效果较好的文本表示法之一。VSM引入了线性代数中的某些概念,主要思想是选出若干独立的词项作特征项,每一篇文档都被映射成多维向量空间中的一个向量,对于所有的文档类和未知文档,都可用此空间中的向量Dj(w1,j,w2,j,…,wt,j)来表示。其中,t是系统中所有特征项的个数。wi,j为特征项ki在文档dj中对应的权值,用以刻画该特征项在描述此文档内容时的重要程度,使用公式进行计算:

其中,tfij表示特征项ki在文档Dj中出现的频率,N代表文档集合中的文档数量,nj代表在文档集合中出现特征项ki的文档数目。

从而将文档信息的表示和匹配问题转化为向量空间中向量的表示和匹配问题来处理。那么,就可以使用向量空间模型来计算文档之间的主题相关程度。这种关系可以定量表示,一般用这两个文档生成的空间向量之间的夹角余弦值来计算。即

3.2 特征项的选择

构成网页中的文本的词汇,数量是相当大的,因此,表示网页的向量空间的维数也相当大,可以达到几万维,所有几万个词汇对网页分类的意义是不同的,因此我们需要进行维数压缩的工作,也就是进行特征项的选取。特征选择的基本思想通常是构造一个评价函数,对特征集的每个特征进行评估。这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。

互信息量法[4](mutual information)是一种常用的评价函数,MI用于度量一个消息中两个信号之间的相互依赖程度。在特征选择领域中,特征t和类别C的互信息体现了特征与类别的相关程度。在某个类别C中出现的概率高,而在其它类别中出现的概率低的特征t将获得较高的互信息。MI可表示为:

其中P(w|Ci)是训练语料中特征项W出现在类别Ci中的频率,P(w)是训练语料中特征项W出现的频率。经过比较之后,选择互信息量大与设定阈值的特征项作为该类的类别特征。

3.3 迭代计算PageRank值

为了方便计算网页集合中所有页面的PageRank值,通常采用线性代数的理论,利用公式(2)来计算。把页面的PageRank值表示为向量R,用户的兴趣矩阵表示为E,其中Eij=sim(di,Cj)。那么可以得到,

其中,假设有n个网页,A是一个n×n的矩阵,其元素aij为鼠标点击一次时从i页到j页的概率。最简单的模型是取aij=|Oi|,这说明这意味着无论从哪个网页开始,它通过任一外链接到达其他网页的概率几乎是相同的。

进一步分析公式(5),发现矩阵A某些行的元素可能都是零,所以矩阵A不一定是随机矩阵。这种情况会在网页没有外链接(即aij=0)的情况下发生。许多这样的网页是存在的并被称作悬挂页面。一种简单的解决办法是用e T/n[4]来替代这些零向量,其中e T是元素都为1的行向量。被修正的矩阵A’(现为随机的)可以看作是矩阵A的秩1修正矩阵。令a为悬挂向量,其元素为

那么,A’=A+aeT/n(8

把修正后的A’带入公式(5),得到

由于修正后的A’是随机且不可约的,因此可以保证向量R可以收敛到一个稳定的值,并且该向量与初始值的取值无关。于是可以假设S为初始网页向量,每个分量的值都赋予1/n,然后根据公式(9)反复迭代计算,直到最后得到的PageRank值收敛于一个相对固定的值,Brin和Page的报告中成功迭代的收敛速度是50到100步[2]。

4 实验结果与分析

文中的训练集来自中文自然语言处理开放平台上用于文本分类的语料库,该语料库来自复旦大学计算机信息与技术系国际数据库中心自然语言处理小组。从中选取了计算机、环境和体育3个类别,其中计算机方面的文档有1357篇,环境方面的文档有1217篇,体育方面的有1253个。测试数据来源于使用网络爬虫框架Heritrix抓取得到的5000个页面。为了验证上述改进算法,本文对随机的关键词进行20次查询,在返回的前100个结果中,统计符合

查询的网页篇数,实验的结果如图1所示。

从图1可以看到本次实验使用主题PageRank算法排序的查询精度在45%左右,要好于传统的PageRank算法。

5 总结

本文将VSM文本分析模型引入PageRank算法,构造出基于主题的PageRank算法。并通过实验证明该算法对页面主题分析的能力有了改善,因此查询精度方面也得到了相应的提高。但是在具体使用的时候,该算法的实现还需要进一步完善。在今后的工作中,将就以下两方面问题做出进一步研究:

1)通过引入一些用户兴趣的动态因素(例如用户访问日志),来构造属于每个用户的兴趣集,来计算符合每个用户要求的网页排名。

2)考虑对迭代算法的优化,确保大量主题搜索的效率。

参考文献

[1]Page L,Brin S.The anatomy of a large-scale hypertextual Web search engine[J].Computer Networks,1998,30(1-7):107-117.

[2]Page L,Brin S,Motwani R,et al.The PageRank Citation Ranking:Bringing order to the Web[R].Technical report,Computer Science De-partment,Stanford University,1998.

[3]Ricardo B Y,Berthier R N.Moderninformation retrieval[M].北京:机械工业出版社,2005.

[4]Yang Y,Pederson J O.A comparative study on feature selection in text categorization[C].International Conference on Machine Learning(ICML),1997.

主题模型 篇4

1.1虚拟企业的知识管理需求

虚拟企业是由具有独特核心能力的多个法人主体联合组成的, 依托网络技术为主要运行手段, 在激烈的市场竞争中能够实现资源共享和风险共担的动态联盟。虚拟企业的优势在于使各企业的优势互补, 实现资源最优配置。各个企业在虚拟企业中的核心能力往往是以知识资产作为体现, 知识资产需要在企业的网络间顺畅流动和开发加工才能产生价值, 而虚拟企业由于其特殊性, 使得传统管理模式难以实现知识资产在虚拟企业中的充分利用。因此, 在虚拟企业体系中, 有效地进行知识、积累、传播与共享是虚拟企业战略成功的关键。

1.2虚拟企业知识管理模式

虚拟企业是依据信息技术和网络发展起来的一种企业组织形式, 虚拟企业在知识与信息的交流过程中会产生种种障碍, 虚拟企业知识管理的流程主要涉及虚拟企业中知识的识别、获取、传播、共享、应用和更新等主要活动。由于虚拟企业中各企业的核心知识资产的异构性和知识类型的多样性, 使虚拟企业知识管理活动变得复杂, 如何有效地组织起知识网络结构和对知识进行有效的存取更新是其关键。虚拟企业的知识产生来源应该是以联盟成员企业内部原有知识为基础, 因为虚拟企业具有分布式的特点, 各个企业管理制度、组织团队、信息技术、组织文化等有不同的差异, 企业内部原有知识很难直接传播和共享。虚拟企业知识应该分为两个层次, 即企业内部层和企业网络层, 中间设置过滤和转换地带, 再通过虚拟企业网络层知识的获取、共享和应用, 实现知识的更新并创造价值, 成员企业网络之间知识管理是虚拟企业知识管理的核心。

2主题地图及其在虚拟企业知识管理中的作用

主题地图最初被作为本文后面描述索引结构的一种方法发展起来的, 其目的是方便不同来源的多个索引能被合并到一起。近年来, 主题地图已经不再局限于在索引领域中, 它已发展成为一种功能强大的知识管理工具, 被普遍应用到各个领域中。

主题地图的构成包括三要素, 如图1所示:①主题 (Topics) 。主题是主题地图的知识基本单元, 现实生活中的任何对象都可以是主题, 只要它对知识使用者是有意义的和感兴趣的, 一个主题通常用来表示某一知识领域, 根据具体应用来定义, 每一个主题可被赋予多个名称, 以及一个统一的资源识别符。主题可以划分为不同类别, 称为主题类型, 主题类型就是主题所归属的类别, 一个主题可以归属到一个以上的主题类型;②关联 (Associations) 。不同主题之间的关系为关联, 关联的形式可以是一对一、一对多或多对多。存在于主题之间的各类关系, 通过关联联系起来, 形成该应用领域的知识网络。关联中也有关联类型, 它把具有相同关系的主题分为一类;③事件 (Occurrences) 。事件是指对某主题更进一步描述的相关资源。一个主题可连接一个或多个事件, 指向与这一主题密切相关的信息, 事件可以是某一知识主题的详细说明, 也可以是描述该主题的一张图像或者一段视频, 或者是任何其它形式的与主题相关的信息资源。

主题、关联和事件这三要素使我们能够根据主题来组织知识资源并建立索引, 描述不同知识领域间的关系, 建立语义关系的知识网络。主题地图的结构分为两层:知识层和信息层。知识层包含主题以及关联;信息层是指事件, 是主题连接的东西, 可以是任何类型的信息资源。主题地图的两层结构使得知识资源独立于信息资源而存在, 相同的主题可以指向不同的知识资源, 不同的主题可指向相同的知识资源。综上所述, 我们发现主题地图可以在大量知识中建立起知识结构网络, 在知识管理中有效地组织知识以利于探索、推理、传播和共享, 虚拟企业网络间知识的无序性和多样性, 正好适合利用主题地图对虚拟企业进行高效的知识管理。

3基于主题地图的虚拟企业知识管理模型

3.1虚拟企业的知识分析与定义

知识分析是虚拟企业知识管理的前提, 知识管理领域中大部分知识是不明确的, 虚拟企业需要对其整个生命周期中所需的知识进行清晰的描述。在虚拟企业成立的初期, 这种知识的需求可能是不明确的, 虚拟企业需要从全局角度来综合各个知识领域, 并随着企业的成长, 不断更新其知识需求。虚拟企业知识分析与定义的工作应当尽可能细化, 明确各个知识领域之间的关系, 并且建立一个虚拟企业知识领域库, 用于对虚拟企业知识管理系统的支持和更新。

3.2成员企业内部知识抽取

知识抽取是为建立知识结构网络获得所需素材的过程。根据之前定义的虚拟企业知识领域库, 各成员企业相应地从自身的知识库中提出相应的知识, 由于不同企业知识的异构性, 抽取后的结果通常需要是一种结构化的数据, 例如, 标记、图表、术语表、公式和非正式的规则等, 并且要是通用的文档格式, 以便于虚拟企业知识使用者的使用。对每个抽取出来的知识对象, 结合虚拟企业知识分析的结果, 分别确定知识对象的主题、关联和事件, 这时对知识对象划分主题地图三要素是初步的和粗略的, 最基本的要求是对于主题连接事件的地址, 一定要保证其可到达性, 即通过计算机信息网络可以访问。

3.3构建虚拟企业知识主题地图

虚拟企业知识的主题地图是虚拟企业知识管理模型的核心部分, 需要对知识抽取的结果进行规范整理。知识对象的主题被划分为不同的主题类型, 这种划分应基于概化的方法, 即知识主题自上而下不断细化和分解, 以满足不同层次的应用需求。最高层为领域知识, 包含所有虚拟企业所属领域的知识, 最底层是任务知识, 即为项目执行所需的知识, 一个主题可以属于一个或多个主题类型, 主题之间通过关联来连接。在主题整理的过程中, 相同的主题应该被合并, 同一主题被赋予统一的标识符, 过大的主题需要分解, 对于主题的描述, 包含在主题属性中, 定义了主题的范围、角色和特征等, 用于检索的需要。

主题地图的国际标准定义了主题地图两套交换语法:XTM和HyTM, 前者基于XML语法, 后者基于SGML语法。其中以主题地图可扩展标记语言 (XTM) 用得较广泛, XTM是基于主题地图规范的描述语言, 主要定义了用于描述主题地图的DTD文件, 提供了描述结构化信息的语法和模型, 该语法可定义主题、主题与主题间的关联等。

3.4知识管理系统模型

基于主题地图技术, 虚拟企业知识管理模型实现了一个知识传播和共享的结构网络, 各成员企业的知识和虚拟企业的知识可以方便地使用和更新, 具有开放性、可伸缩性和可重构性的特征, 如图2所示。

该模型主要分为两个视角, 从底层成员企业来看, 成员企业A、B…N各自根据虚拟企业领域知识库, 抽取出相关的知识资源, 用事件来标示。这些资源既可以存放于企业中, 也可以独立存放, 只要保证可以到达;而最上层从虚拟企业的视角来看, 虚拟企业利用主题地图知识网络, 根据主题的描述和关联, 寻找到所需的知识资源。这时, 虚拟企业中每个企业既是知识提供者, 又是知识使用者, 当成员企业作为知识提供者时, 它自身的知识管理体系对外隐藏于主题地图共享知识之外, 它只需对外提供事件的连接接口, 内部不需要改动。对于虚拟企业来说, 可以忽略各成员企业的内部知识结构的异构性, 只需连接主题地图就可查询和使用知识, 这样就达到了知识共享的目的。虚拟企业使用主题地图的可视化查询工具, 对知识对象进行共享使用, 这些工具包括主题地图查询语言TMQL。TMQL对于主题地图的作用类似于SQL对于关系数据库系统的作用, TMQL是主题地图的接口, 支持从一个或多个持久的主题地图的信息检索、向主题地图中添加或移除信息及支持不同的访问点等;主题地图引擎, 用于与XTM文件交互, 为符合XTM DTD规范的主题地图提供编程接口, 包括查询主题地图的结构, 创建、输入、处理及输出主题地图信息等。虚拟企业在运作的过程会产生新的知识和新的知识需求, 这些知识的更新来自于外界或内部。这时, 透过虚拟企业领域知识库进行知识管理的知识更新, 主题地图知识网络据此增加主题和关联, 更新的知识资源以虚拟企业为载体, 存放于虚拟企业的共享知识库中, 供主题进行事件连接。

4结语

虚拟企业由于其特殊性, 使得传统管理模式难以实现知识资产在虚拟企业中的充分利用。因此, 在虚拟企业体系中, 有效地进行知识的形成、积累、传播与共享是虚拟企业战略成功的关键。基于主题地图技术建立的虚拟企业知识管理模型, 可以实现一个知识传播和共享的结构网络, 各成员企业和虚拟企业的知识可以方便地使用和更新, 具有较强的开放性、可伸缩性和可重构性等特征。

参考文献

[1]齐二石, 毛照日方, 霍艳芳.虚拟企业发展研究综述[J].制造技术与机床, 2004 (9) .

[2]葛新权, 周秀玲.虚拟企业知识管理模型研究[J].工业技术经济, 2007 (12) .

[3]吴振华.主题地图及其在知识管理中的应用探索[J].远程教育, 2005 (6) .

[4]张露, 成颖.主题地图研究综述[J].情报科学, 2009 (2) .

[5]DICHEVA, D DICHEV, C DANDAN WANG.Visualizing topicmaps for e-learning[C].Washington, DC, USA:IEEE ComputerSociety, 2005.

[6]何建新.主题图及其应用[J].中国索引, 2005 (1) .

[7]JACK PARK, SAM HUNTING.XML Topic Maps[M].Addison-Wesley Professional, 2002.

[8]PARK, JACK, HUNTING, et al.XML topic maps:Creating andusing topic maps for the Web[M].Boston:Addison-Wesley, 2003.

主题模型 篇5

一、平行分布处理模式

20世纪初, 美国心理学家桑代克在对动物实验研究的过程中提出一种学习心理学理论———联结主义理论, 动物由多次“尝试错误与偶然成功”形成联结是学习, 一个成功动作得到满意效果印入机体加强联结, 也是学习。学习就是要形成这种联结关系。首先使用联结主义这一术语的是Hebb (1949) , 他提出神经元之间突触联系强度可变的假设。1986年, Rumelhart和Mc Clelland在二人共同主编的《平行分布加工:认知结构的微观探索》一书中, 系统阐述平行分布处理模式, 各单元与其他单元之间有许多连接通道, 起激活和/或抑制其他单元的作用。平行分布处理模式在计算机上实现的模型由形似神经元的信息加工单位组成, 信息节点将其联结起来, 形成网络结构, 节点之间的联系因被启动而加强, 或因不被启动而弱化 (王初明, 2001) 。因此, 这种模式的本质是:一个网络结构加工处理信息的同时, 不断产生巩固节点的积极联结, 这些积极联结不断储存在大脑的网络记忆中, 不断修正网络的权重分布形式。换句话说, 平行分布处理模式的学习观就是不断调整和改变网络联系中权重的过程, 语言获得的过程不是直接学习规则。

Rumelhart和Mc Clelland (1986) 的平行分布处理 (ParallelDistributed Processing, PDP) 网络模型能够依据某一任务中反复出现的输入和输出, 记住二者之间的匹配关系, 建立起某一权重分布形式。而某一权重分布形式一旦建立就表明学习任务中的某种行为已经被网络学会了, 它会对后续的新输入做出类比判断, 经过加工处理后的新输入会改变现存的权重分布形式, 继而影响对后续新输入的反应。信息在输入、隐匿和输出三个层次中完成单向或回归的加权形式的激活、传播和加工, 学习者在输入过程中不断激活单元之间的联结, 以此改变网络中的权重, 最后将知识内化。

二、平行分布处理模式对建构整合模型的解释力

根据语篇理解模型的研究, Kintsch&van Dijk (1988) 提出了建构整合模型 (Construction-integration Model) , 他们认为语篇的认知加工顺序先是激活字词的意义, 进而形成命题, 然后进行与上下文无关的推论及各种精细加工推论。这一动态认知过程便形成了许多节点, 节点之间相互联系形成网络, 被激活的网络扩散整合成一个意义连贯的结构。与其他认知模型不同的是, 建构整合模型是由建构过程和整合过程组成, 具体包括: (1) 一定的语言输入会产生概念和命题; (2) 通过从一般知识网络中选取相关的临近概念对其加以解释和说明; (3) 推出新的概念和命题; (4) 对新形成的概念和命题赋予联结强度。这种方式建构的是一个原始的、不连贯的命题网络, 意义表征结构松散、粗糙。整合过程将保留具有高度联结强度的意义表征, 使其保持激活状态, 同时剔除联结强度低的成分, 直到形成一个稳定、协调的网络结构。

从宏观上来看, 平行分布处理模式强调的是语言规则的自然浮现特征, 建构整合模型理论同样摒弃了语言规则的专门学习, 通过把概念组织起来, 找出语言材料的内部结构模式和工作原理, 逐步构建语篇理解所需要的认知知识架构。基于以上所述, 我们不难发现平行分布处理模式与语篇认知模型联系密切, 即一系列处理单元进入建构整合认知模型系统, 这个系统由表征某种语义特征或视觉特征的单元相互联结, 输入与现行状态的单元相互作用, 激活新的传播规则, 如果这些单元群运动轨迹趋于一致, 它们就趋于相互激活, 当被激活时, 这些单元群又趋向于抑制相同的单元群。在这个基础上, 平行分布处理模式通过读者过去的经验和知识和已经建立的信息而形成某些概念认知结果, 这一激活、抑制或联结过程使平行分布处理模式模拟语篇认知模型成为可能。

三、本模拟研究对语篇主题的解析

雷切尔·卡森 (1907-1964) , 是20世纪最著名的生态文学作家, 是生态文学史上里程碑一样的人物。卡森的主要作品有:《海风下》、《我们周围的大海》、《海的边缘》和《寂静的春天》, 其中《寂静的春天》是一部划时代的作品。卡森以优美的文笔, 翔实的数据和事实, 使生态思想深入人心, 同时激励大批有生态良知的作家创作生态文学作品。目前, 国内外研究学者对《寂静的春天》的研究主要从文学评论出发, 以生态思想为重点, 辅以介绍女性主义和自然伦理, 分析其作品的哲学思想和叙事模式等特点。我们不妨以平行分布处理模式对语篇认知模型的模拟为视角, 建立一个对作者的语篇认知模型, 尝试感受作者创作该语篇时的心理状态, 积极探讨雷切尔·卡森写作背后富含人文关怀的语篇主题。

首先, 语篇的理解从词汇开始, 我们注意到文章中大约20个单词, 它们以词形输入单元被登记到信息处理网络中, 接着分别提取它们的关键性特征, 并激活每一个单元的“构词法知识”、“句法知识”或“语义知识”, 这些知识与单元的现行状态相互作用, 从而完成趋向或抑制单元群。oak等词具有life中植物的微观特征, fox等词是动物特征, traveler等词则是人类的特定模式。每一种特征在情景空间内都具有相互依赖型, 激活主题词oak的同时也将那些与life中的植物特征有关的单词激活, 例如:maple, birch, laurel, great ferns等, 而抑制那些与植物特征无关的单元, 像动物、人类的特征。通过激活———抑制内部单元的机制, 读者打开了语篇中life最可能的解释集合, 与此有关的单元全都被激活, 理解篇章就有保证。

其次, 通过将句子分解为一个一个组成成分, 然后建立各个命题单元, 激活这些命题单元之间的联结, 这就是一个从输入层到输出层经由隐匿层转换的过程。例如:The roadsides, once so attractive, were now lined with browned and withered vegetation as though swept by fire.读者能够将这个句子分解成五个命题单元, 即the roadsides, once so attractive, were now lived with, browned and withered vegetation, as though swept by fire。意义表征从读者已有的经验和知识出发, 判断语言结构中信息的选择与安排是由信息的突出程度决定的, 因此the roadsides是整个句子中最重要最突出的部分, 要放在句首加以强调。说明主语的选择得到激活之后, 情境中其他命题单元的权重形式发生变化, once so attractive约束the roadsides, were now lived with同样约束the roadsides, 而browned and withered vegetation和as though swept by fire对主语的约束力较弱。

认知心理学的研究表明, 对语段的理解首先要建立每一个句子的命题, 然后将一系列句子中的相关命题整合成一个大的整体表征。例如:In new territory, out of reach of the restraining hand of the natural enemies that kept down its numbers in its native land, an invading plant or animal is able to become enormously abundant.Thus it is no accident that our most troublesome insects are introduced species.第一个句子中有三个独立的命题: (1) an invading plant or animal is able to become enormously abundant; (2) that kept down its numbers in its native land; (3) out of reach of the restraining hand of the natural enemies.第二个句子中有两个独立的命题: (1) it is no accident; (2) our most troublesome insects are introduced species.通过建构整合认知模型可知, 这些命题单元之间的连接是线性的, 构成的单元自下而上地激活这组命题中的上层命题, 即在新的领地引进的害虫最麻烦, 害虫数量庞大的原因在于没有数量足够的天敌。

建构整合模型对语篇理解的研究主要集中于如何才能产生正确的推论。因为一个有待加工的语篇不会将所要表达的意义自动浮现, 而是需要读者运用自己与外部世界互动的经验推导出语篇的主题意义。推论就是对语篇中没有明确出现的信息的激活和编码过程 (Singer, 1994) 。语篇主题指的是语篇指向, 为语篇的主要基本思想, 含有决定整个篇章内容和结构的基本信息, 并以集中和抽象的形式表现出来 (Coulthard 1985) 。推论通过三种方式实现语篇指向:逻辑推论、反向推论和精细加工推论。例如:Thus it is no acci-dent that our most troublesome insects are introduced species.根据这句话的字面意义, 我们可以得出推论, 我们最麻烦的害虫都是那些引进的品种, 它们不是本地生长的, 这一现象绝非偶然。But in the modern world there is no time.这句话中, 为了推导出there is no time的真正内涵, 我们不得不借助当前焦点和上下文关系, “如果有足够的时间, 生命可以自我调整, 达到新的生态平衡”。但是, 人类总是为了短期利益而改变自然, 丝毫不考虑自己物种生存和发展的长期利益, 这是维持语篇连贯性不可缺少的推论。又如:Radiation is now the unnatural creation of man’s tampering with the atom.对这句话作出正确的推论依赖于读者的一般背景知识, 过去的辐射只是由存在于某种矿石中的放射性物质产生, 而今天人类可以通过核裂变制造出有害的辐射。

由此可见, 卡森的《寂静的春天》运用会被词汇语境自动激活的项目, 表达生态整体观, 即地球上的植物、动物和人类是生命大网络的一部分, 不能想要其中单独的某个部分而对其他部分进行强力的消灭和改变, 那样, 这个精美而又脆弱的给人以生命支持的系统将会崩溃。另外, 卡森并没有完全否定科学技术, 她只是提醒人们要注意科学技术带来的副作用, 在追求自身发展的道路上应该摒弃自然的一切都为我所用的生态哲学观, 而应关心支撑所有生命的生态系统的健康和谐, 这是人类给子孙后代留下的宝贵财富。

四、结语

为了获得语篇的理解, 读者必须输入一定的信息, 然后在记忆中寻找能够说明这些信息的临近概念, 只有当与该输入信息有关的单元都由合适的权重联结好之后, 也就是掌握知识表征的分布概率后, 语篇理解才能产生。本文通过对《寂静的春天》语篇主题的阐释, 将平行分布处理模式和语篇认知结合起来, 从建构整合模型着手, 探讨二者从词汇到句法、到语段, 再到语篇的认知, 能否反映语言的心理表征。平行分布处理模式体现出的模拟语篇认知的能力, 使得信息网络中的建构整合过程更具体化。

参考文献

[1]贾林祥.试论新联结主义的方法论[J].南京师大学报 (社会科学版) , 2004 (2) .

[2]谭瑾.平行分布处理模式与语篇认知[J].重庆与世界, 2010 (11) .

[3]王初明.解释二语习得, 连接论优于普遍语法[J].外国语, 2001 (5) .

[4]王丹, 杨玉芳.语篇理解的表征和加工模型研究综述[J].西北大学学报, 2004 (9) .

[5]王寅著.认知语言学[M].上海:上海外语教育出版社, 2013.

[6]杨立民.现代大学英语:精读3[M].北京:外语教学与研究出版社, 2012.

[7]张德禄著.语篇分析理论的发展及应用[M].北京:外语教学与研究出版社, 2012.

【主题模型】推荐阅读:

模型组织07-14

提升模型07-15

稳态模型07-17

演示模型07-17

机翼模型07-18

接头模型07-18

农户模型07-19

平均模型05-08

供需模型05-09

应激模型05-09

上一篇:夫西地酸乳膏下一篇:鸭梨