模型分类

2024-10-15

模型分类(通用9篇)

模型分类 篇1

物体在传送带上运动的情形统称为传送带模型,因物体与传送带间的动摩擦因数、斜面倾角、传送带速度、传送方向、滑块初速度的大小和方向的不同,传送带问题往往存在多种可能,因此对传送带问题做出准确的动力学过程分析,是解决此类问题的关键.

一、水平传送带模型(设物体与传送带间的摩擦因数为μ)

1.传送带匀速,物体无初速度释放(如图1所示)

分析:物体在向右的滑动摩擦力作用下向右以加速度a=μg做加速运动

情况:(1)先加速后匀速(速度加速到v0后,随传送带一起匀速运动,无摩擦力作用);(2)一直加速.

2.传送带以速度v向右匀速,物体以速度v0放在传送带左端向右运动(如图2所示)

分析:当v>v0时,物体在向右的滑动摩擦力作用下向右以加速度a=μg做匀加速运动;当v<v0时,物体在向左的滑动摩擦力作用下向右以加速度a=μg做匀减速运动.

情况:(1)v<v0物体可能一直减速,可能先减速后匀速(减速到v后);(2)v>v0物体可能一直加速,可能先加速后匀速(加速到v后)

3.传送带以速度v向右匀速,物体以速度v0放在传送带右端向左运动(如图3所示)

分析:物体受到向右的摩擦力作用向左以加速度a=μg做匀减速运动.

情况:(1)传送带比较短时,物体一直减速运动;(2)传送带比较长时,物体先向左匀减速到零,再反向加速到最右端.其中v>v0时物体到达最右端时的速度为v0,v<v0时物体到达最右端时的速度为v.

二、倾斜传送带模型(设物体与传送带间的摩擦因数为μ)

1.传送带以速度v斜向上匀速,物体无初速度或以初速度v0(v>v0)放在传送带底端(如图4所示)

分析:物体能在传送带上运动的条件是:μ>gtanθ(其中为传送带的倾角).物体将以a=μgcosθ-gsinθ的加速向上做匀加速运动.

情况:(1)物体一直加速;(2)物体先加速后以速度v匀速上升(其中物体后来受静摩擦力作用)

2.传送带以速度v斜向下匀速,物体无初速度放在传送带顶端(如图5所示)

分析:物体受到沿斜面向下的滑动摩擦力作用,刚开始以加速度a1=μgcosθ+gsinθ匀加速运动,后面可能以加速度a2=gsinθ-μgcosθ(条件:μ<gtanθ,其中θ为传送带倾角).

情况:(1)可能一直以a1做匀加速;(2)先以a1做匀加速后以v匀速运动(μ>gtanθ);(3)先以a1匀加速再以a2继续匀加速(μ<gtanθ).

3.传送带以速度v斜向下匀速,物体以初速度v0放在传送带顶端(如图6所示)

分析:当v>v0时,物体以加速度a1=μgcosθ+gsinθ匀加速,后匀速(条件:μ>gtanθ)或以a2=gsinθ-μgcosθ继续匀加速运动(条件:μ<gtanθ);当v<v0时,物体以加速度a2=gsin-μgcosθ匀加速到底端(条件:μ<gtanθ)或以加速度a3=μgcosθ-gsinθ做匀减速运动(条件:μ>gtanθ).

情况:(1)可能一直以a1做匀加速;(2)先以a1做匀加速后以v匀速运动;(3)先以a1匀加速再以a2继续匀加速;(4)可能一直以a2做匀加速;(5)可能一直以a3做匀减速;(6)可能先以a3做匀减速后以速度v匀速运动.

4.传送带以速度v斜向上匀速,物体以初速度v0放在传送带顶端(如图7所示)

分析:以加速度a1=gsinθ-μgcosθ做匀加速(条件:μ<gtanθ);以速度v0一直匀速运动(条件:μ=gtanθ);以加速度a2=μgcosθ-gsinθ做匀减速(条件:μ>gtanθ).

条件:(1)可能一直以a1做匀加速;(2)可能以速度v0一直匀速运动;(3)可能一直以a2做匀减速到底端;(4)可能先以a2做匀减速到零后以加速度a2反向匀加速.

例1如图8所示,传送带与地面成夹角θ=37°,以10 m/的速度逆时针转动,在传送带上端轻轻地放一个质量m=0.5 kg的物体,它与传送带间的动摩擦因数μ=0.5,已知传送带从A→B的长度L=16 m,则物体从A到B需要的时间为多少?

解析:物体放上传送带以后,开始一段时间,其运动加速度

这样的加速度只能维持到物体的速度达到10 m/s为止,其对应的时间和位移分别为:

以后物体受到的摩擦力变为沿传送带向上,其加速度大小为(因为mgsinθ>μmgcosθ)

设物体完成剩余的位移s2所用的时间为t2,则

解得:t21=1 s或t22=-11 s(舍去),所以t总=1 s+1 s=2 s.

总结:该题目的关键就是要分析好各阶段物体所受摩擦力的大小和方向,若μ>0.75,第二阶段物体将和传送带相对静止一起向下匀速运动;若L<5 m,物体将一直加速运动.因此,在解答此类题目的过程中,对这些可能出现两种结果的特殊过程都要进行判断.

模型分类 篇2

为反映主要污染物在水体中的分布特征,表征相应级别环境容量的地下水承载污染物的程度.揭示地下水水体受人类活动的影响程度,根据不同的指标对水质的影响不同而将它们分成3类,并用类间综合的.方法确定了各类指标的单项评价指数和综合评价指数,建立了新的地下水水质评价模型.将该模型和灰色聚类法进行比较,本模型的评价结果既反映了水体中主要污染物的分布特征,又揭示了水质受人类活动的影响程度.

作 者:曾玉超 戴韵 刘娜 姜宇 杨潇瀛 岳莹 ZENG Yu-chao DAI Yun LIU Na JIANG Yu YANG Xiao-ying YUE Ying  作者单位:吉林大学,环境与资源学院,长春,130026 刊 名:世界地质  ISTIC英文刊名:GLOBAL GEOLOGY 年,卷(期):2008 27(3) 分类号:P641.8 关键词:地下水水质评价   指标分类   污染物  

★ 水质模型参数识别与验证的探讨

★ 完备联立方程模型识别问题的新思考

★ 游博斯腾湖小学作文750字

★ 基于云模型具有语言评价信息的多属性群决策研究

★ 创建虚拟目录的常用属性

★ 虚假报告识别论文

★ 如何识别无能的领导

★ 慧眼识别小儿高热

★ 一次监测值用于水质评价的研究

模型分类 篇3

摘要:针对中文文本分类任务中N-Gram,素贝叶斯、K最近邻和TF-IDF等经典而广泛使用的文本分类模型的选择困惑问题,基于万余篇中文新闻文本语料数据,设计了一系列的对比实验,考察了各模型在不同参数、不同训练数据规模、不同训练文本长度、类别是否偏斜等多种情境下分类性能的表现,总结了各模型的特性,为中文文本分类模型的选择和应用提供了实践依据和参考。

关键词:中文文本;文本分类;数据挖掘;情报分析

中图分类号:TP274;TP302 文献标识码:A

文本挖掘是语言学、统计学以及计算机技术相结合的产物,是对海量文本信息进行自动处理,获取人们感兴趣的、隐含的、有用信息的过程,在信息检索、生物医学、情报获取、舆情分析和市场营销等众多领域备受关注。文本分类作为文本挖掘领域中的核心技术,是各种自然语言处理、应用的基础。其中分类模型的选择对最终结果具有至关重要的影响。然而,因所基于的原理、参数、应用场合各不相同,即使相同的模型其性能表现也往往大相径庭。

新闻文本是一类常见的文本形式,其蕴含的信息量大,是各种情报分析的重要数据源。尽管现有的各个新闻网站以栏目形式对新闻进行了人工划分,然而各网站的分类体系和栏目形式各不相同,因此在具体的新闻挖掘应用项目中,常需将采集的新闻数据重新进行组织和划分。中文文本分类领域中具有代表性的模型是朴素贝叶斯、N-Gram,K最近邻和TF-IDF。这些不同的模型各具有怎样的特性?分别适合哪些场合?在使用时应如何选取合适的参数?人们往往面临困惑。由于各方法在处理细节上有不少差异,很难从理论分析的角度来比较各方法的优劣。因此,基于典型数据,采用实验的方式进行比较是比较通行的做法。本文精心构造了多组实验,从模型参数选取、训练数据规模、训练文本长度、数据是否偏斜等几个情境来考察各模型在不同情境下的性能表现,其结论对中文文本分类模型的选择与参数设置等具有实践指导意义。

1 模型概述

文本分类就是通过计算机程序自动将某个文档归属到事先给定的类别体系中一个或多个类别。现有的文本分类方法大致可归为两类:基于规则的方法和基于机器学习的方法。其中基于规则的方法早在20世纪70年代就已出现,但因规则制定的困难,目前普遍采用的是基于机器学习的方法。而机器学习方法中,基于统计的方法是最具有代表性和使用最为广泛的。其中,N元模型(N-Gram)、朴素贝叶斯(NB),K最近邻(KNN)和TF-IDF又是其中最经典的几个模型。

N-Gram模型基于马尔科夫假设,即下一词的出现概率仅依赖于它前面的N个词,统计N元词串在各类别中出现概率,以此确定文档归属于哪个类别。朴素贝叶斯模型基于贝叶斯定理,假设单词两两独立,获得各文档类别的后验概率,哪个类别概率值大,文档即归属于该类别。KNN的主要思想是先将文档内容转化为特征空间中的特征向量,计算待分类文档与训练文档中每个样本的相似度,找出其中的k个最近邻居,据此判别文档所属类别。TF-IDF则先将文本内容转化为特征向量,然后计算其与类别特征向量间的余弦相似度,以此作为其所属类别的判据。分析上述模型,不难发现,N-Gram模型主要是提取了不同类别文档中字与字之间的顺序依赖关系来构造分类特征,朴素贝叶斯则提取了不同类别文档中词与词之间的概率依赖关系构成分类依据,K近邻直接利用了空间向量模型,以文档相似性特征作为分类依据,而TF-IDF则同时考虑了词在文档本身中的出现频度以及其在不同文档中的出现频度信息。几个模型所抓取的文档类别信息特征明显不同,很难在理论上判别哪个模型更好,更适合哪些情境。因此,从实验的角度来考察是更为切合实际的方案。

2 基础与准备

2.1 算法实现工具

LingPipe是基于Java语言的自然语言处理的开源软件包,提供了文本挖掘各阶段的基本功能。由于该软件包的数据处理都基于一个共同框架,采用了相同的基础源代码模块,故本文以其作为算法实现工具,可尽量减少模型本身之外的因素(如文本预处理阶段的分词、特征提取、文本表示等)给模型性能带来的影响。

2.2 实验数据

本文实验数据采集来自新浪、腾讯、凤凰等主流网站。特地挑选了历史、军事、文化、读书、社会几个比较近似,甚至人工也容易分错的文本类别。其中,历史类和军事类的文章比较相近,而文化类和读书类的也常相似。数据采集跨时2个月,去除了所有Html标记和网页中的噪声文本,只包含标题、正文内容以及标点符号。共采集16000篇,去除了部分重复和校验过程中有问题的文档,最终保留14000篇作为本文研究的语料数据。其中含历史1900篇,军事1600篇,文化2500篇,读书4000篇,社会4000篇。每篇文章按类别以txt文件的形式保存。各类别、不同文本长度的文档篇数分布情况如表1所示,所有文档的长度介于10000字节以内,涵盖了网页中的绝大多数新闻文本长度。

2.3 分词与特征项

尽管特征选择和预处理措施都是影响文本分类性能的关键因素,但因各模型算法原理相差太大,无法基于统一的特征项和预处理进行比较。因此,各模型的特征项均以词频为基础,采取各模型常用的特征形式和预处理方式。N-Gram模型本身不需分词,因此未做分词处理,而其它模型则应用中科院分词系统NLPIR_2014进行分词处理。

2.4 分类评价指标

LingPipe提供了一系列指标对模型性能进行评估。本文实验主要采用宏平均、微平均下的F值进行评价,它综合考虑了准确率、召回率两个被广泛认可的分类器评价指标。其详细定义和含义可参见相关文献。此外,实验过程中,还记录了各模型的训练和分类运行时间。这也是反映分类模型性能的一个方面。

3 实验方案与结果

从应用角度来看,分类准确度和处理效率是用户最为关注的两个方面。而影响这两方面的因素无外乎模型本身和待处理的数据,如图1所示。模型本身因素具体包括模型的构造机制和模型参数。其中,模型机制对用户而言是封装的,要提升分类性能,用户只能调整模型参数。而数据方面,文本的词语和语义特点太过复杂和精细,用户难以据此选择模型。然而待处理文本的长度、规模和偏斜程度等是影响分类性能的重要因素,用户可以据此选择最合适的模型。因此,本文主要设计了4组实验考察不同情境下中文文本分类模型的表现。下面具体阐述各组实验的具体方案及结果。

3.1 模型参数与模型性能

所述的4个分类模型中,NB模型和TF-IDF模型没有参数,而N-Gram和KNN模型则分别有一个关键参数N和K。先对这两个模型进行不同参数取值下的实验。所采用的数据集文档篇数情况如表2所示。

3.1.1 关于N-Gram模型参数N的实验

根据N-Gram模型中参数N的含义,字与字之间的概率依赖关系主要由词组造成,汉语超过6个字的词组已经相当稀少。本组实验考察了N取值为1,2,4,6,7的情形,获得结果如表3所示。可见,随着N取值的加大,该分类器的分类性能也越高,但在N超过4以后,分类性能改善幅度已相当小,而训练时间和测试时间却成倍增长,为此,后述实验均取N=4,不再赘述。

3.1.2 关于KNN模型参数K的实验

参数K为经验参数,表示选取的近邻个数,其值的大小对于模型的分类性能有显著的影响。实验中,为确定K最佳值,将K分别取值1,3,5,10,20,获得如表4所示结果。显见,随着K值的增加,分类性能有缓慢下降趋势,表明并非选取的近邻数越多越好。原因在于KNN基于向量空间模型,维数较高,数据比较稀疏,K值越大,反而可能带来更多的误判信息。本实验中,K取值为1时分类性能最优,因此在后述实验中均取该最优值。

3.2 训练集规模与模型性能

为了考察各模型在不同训练集规模情境下的性能表现,分8次小实验,每次从实验语料中抽取1000,2000,3000,4000,5000,6000,7000,8000篇文档构成训练集,抽取1000篇文档构成测试集。抽样过程中,为了消除各类别新闻分布不一致、文本长度不一致所带来的影响,进行了适度控制,即确保8次实验中,各类别新闻的比例保持一致,各文本长度所占比例也保持一致。在此控制下,随机抽取样本,每次实验进行3次,以其平均值作为最后结果。实验结果如表5所示,图2展示了不同训练集规模情境下,模型性能(微平均下F值)的情况;图3和图4则分别展示了分类训练时间和测试时间与训练集规模的关系。

由表5以及图2~图4可知,在各类别数据相近的情况下,随着训练集规模的增大,各模型的分类性能也均得到提升并渐趋于平稳,与文献结论相同。KNN改善效果最为明显。就运行时间而言,各分类模型随着训练集规模的增大,训练时间明显增加,而测试时间仅KNN分类模型显著增加,其它则变化微小。通过逐渐加大训练集规模,实验还发现,在测试集不变的情况下,训练集达到一定规模后(例如7000篇),即使再显著增大训练集规模,分类性能的改善也非常微弱。

3.3 文本长度与性能

为了考察各模型在不同文本长度情境下性能的表现,将训练数据的每个类别都按文档大小进行划分,抽取5个子集,分别为1000字节以下,1000-2000字节,2000-3000字节,3000-5000字节,5000字节以上。在保证5个子集的类别分布和规模分布一致的前提下,随机抽取样本构成训练数据,实验数据如表6所示。该实验共进行3次,取3次实验结果的平均值作为最终结果,如表7所示。图5展示了不同文本长度情境下,模型性能(微平均下F值)的情况;图6和图7则展示了分类训练时间和测试时间与文本长度的关系。

对文本长度情境而言,从表7以及图5~图7可以看出,随着文本长度的增加,除KNN模型外,其它3个分类模型的准确性能在初期快速提升,其后趋缓而渐趋平稳,但KNN快速提升后却逐渐下降。实验还发现,在文本长度短时(小于1000字节),TF-IDF模型要好于其它3个模型。从时间性能来看,各模型都随文本长度增加而近似呈线性增长趋势。其中NB和TF-IDF相对较逊一筹。

3.4 类别偏斜与模型性能

为了考察各模型在类别是否偏斜情境下性能的表现,我们设计了类别均衡和非均衡两组实验,实验数据集如表8所示,训练集和测试集规模相同,非均衡训练集中读书和社会两个类别远高于其它类别数据,而均衡训练集中各类别文本数相同。每组实验共进行3次,随机抽取样本构成训练数据。取3次实验结果的平均值作为最终结果,如表9所示。

对类别偏斜情境而言,观察可知,各模型整体性能及各类别分类性能在均衡训练集情境下的表现均优于在非均衡训练集下的性能表现。在非均衡训练集情境下,对各小类而言,包含文本数较多的读书和社会两个类别的分类性能要优于其它类别,与文献对训练集类别分布对文本分类影响的研究结果类似。4个分类模型中,对于类别均衡数据而言,TF-IDF表现最佳,对于类别非均衡数据而言,NB表现最佳。

4 结论

本文所考察的几个模型是当前文本分类领域应用最为广泛、最为经典的。在实践当中,各模型的表现各异,而在理论上又很难分析和评价其优劣。为此本文构建了多组实验来考察不同情境下各模型的表现,形成的结论及模型选择建议如下:

1)几个模型在运行效率方面没有明显的区别,训练和测试时间都与数据集的规模和文本长度呈线性关系。实验结果看,NB模型和TF-IDF虽然稍逊,但实际应用中,此差别并不明显,可以忽略。

2)不管在何种情境下,KNN的表现都最差,因此不推荐采用此模型。

3)从训练集规模来看,几种模型都是随着规模增大而分类精确性稳步增加,训练集的大小不构成模型选择的关键依据。

4)N-Gram、TF-IDF、NB三个模型的分类精度受文本长度的影响差别不大。都随文本长度的增加而精度得到提升,且都在长度低于1kb(约400汉字)时提升较明显,而此后提升速度放缓。KNN则未能因文本长度的增加而提升其精确度。

需求分类和转化模型研究 篇4

需求的分类和概念, 相关文献持不同的观点, 罗永泰、卢政营对此有较全面和系统的介绍。目前, 对需求的分类研究, 主要集中在显性需求和隐性需求上, 其中对隐性需求给予了极大的关注。隐性需求的概念起源于20世纪80年代末, 学者们对隐性需求概念的界定还未能取得一致, 有的采用了像潜伏需求、潜在需求、隐性需求等不同的术语。范晓屏把潜在需求进一步分为两类, 一类是消费者已觉察到并有明确满足物的“显性需要”;另一类是消费者尚未觉察到, 或者朦胧觉察到但没有明确满足物的“隐性需要”;钱旭潮等认为, 潜在需求是顾客对产品有深厚的兴趣, 但现在的产品或服务却不能使之满足的状态……而未表述型需求是指顾客潜意识中的、尚没有明确意识到和表述出来的需求;索惠敏则认为, 潜在性需求既包括意识到的而未利用的部分, 也包括存在于利用者潜意识中没有利用要求的部分。下面将要给出的需求分类转化模型, 是基于这样一种观点:不管出于什么原因, 人们总是对某些事物的某些事项有一定的要求和期望, 这些相关的事物构成了与一个人相关联的“环境”;而环境的实际状况 (环境现状) 和顾客对环境要求的状况 (顾客要求) 之间的差距, 是需求产生的本质和前提;产品的意思在于它改善了环境现状, 提高了环境现状对顾客要求的适应。需求动态转化的机理在于:顾客要求和环境现状其中之一发生了变化, 或者两者同时发生了变化, 导致它们之间相对位置的改变, 从而使某个“需求要素”在满足要素和未满足要素之间相互转化, 或者使需求要素的强度 (两者之间的距离) 发生变化。把顾客要求和环境现状之间差距的程度, 叫做需求要素的强度。

2 需求分类和概念

2.1 先看活性需求和活化需求

一个处于满足状态之下的需求要素, 当顾客要求不变而环境现状下降, 或者环境现状不变而顾客要求上升, 从而使两者之间出现了差距, 顾客便产生了针对该需求要素的需求, 同时也产生了改变这种现状的欲望, 但这时他并不会立即采取行动来改善现状, 只有当两者之间的差距大到一定程度时, 顾客才会采取行动以改善这种状况 (使现状向要求靠近或者达到或超过要求) , 这个要求与现状之间差距程度的临界值, 称为需求要素的忍耐域。

(1) 活性需求。

当要求与现状之间的差距程度小于忍耐域, 顾客虽然有改变现状的欲望, 但他还不会立即采取行动以改变这种现状, 这种顾客尚处于“忍耐”状态下的需求, 称之为“活性需求”。活性需求可分属需求靶的一、二、三象限 (稍后将给出需求靶的图示) 。

为什么会存在忍耐域?因为任何企图改变环境现状的行动都需要付出一定的代价 (价格、情感、体力、时间等) , 这种代价越大, 同等情况下忍耐域就会越大;另外, 顾客对改变环境现状所采取的行动的预期效果, 也会影响忍耐域的大小, 如果预期效果越好, 则忍耐域会越小;同时, 忍耐域也与环境现状和顾客要求之间差距 (需求要素强度) 的持续时间相关, 预期持续时间越长, 忍耐域就越小;最后, 忍耐域还和顾客的收入有关, 顾客的收入越高, 则忍耐域越小。

(2) 活化需求。

就是当顾客要求与环境现状之间的差距等于或者大于忍耐域时的需求。活化需求是促使顾客立即发生购买的需求。如果一旦购买发生, 它便转化为处于相对满足状态的“沉没需求” (沉没需求不一定处于完全满足的状态, 因为一种商品的消费有时并不能带来完全的满足) 。活化需求只属于需求靶的第四象限。

2.2 再看要约需求、条件需求和判定需求

为了区分需求来源情况的不同, 对其又可作如下划分。

第一种情况, 一种处于完全满足状态的需求要素, 环境现状未发生变化, 但预期顾客要求将会变高或者未来可能会变高, 当顾客要求提高时, 使之超过了环境现状, 就会产生活性或活化需求, 这种暂时还处于满足状态下的需求称为要约需求。比如, 人们对自身健康状况的要求高了, 会产生对各种保健的需求;对时间要求提高了, 便产生对个人轿车的需求等。

第二种情况, 一种处于完全满足状态的需求要素, 当顾客要求不变, 但预期环境现状将下降或者未来可能会下降, 当环境现状下降, 使顾客要求与环境现状之间产生了差距, 同样会产生活性或活化需求, 这种暂时还处于满足状态的需求称为条件需求。比如, 当人生病, 会产生就医的需求;天下雨, 便产生对雨伞的需求等。

第三种情况, 两者都可能或者预期会发生变化, 顾客要求会提高, 环境现状也会下降, 这种暂时处于满足状态下的需求称为混合需求。

另外, 要约需求和条件需求, 还包括因为顾客已经拥有了某种产品, 从而使自己暂时已处于完全满足的状态, 但是, 预期将来会或将来可能出现顾客要求提高或环境现状下降的情况, 从而使某种需求从新处于未满足状态的情况。

要约需求、条件需求和混合需求, 都是相对于某个特定的人在某个特定的时点而言的, 它们都是一种暂时还处于满足状态的潜伏需求。三种需求都可以分属需求靶的四个象限。

判定需求:由于科学技术发展水平的制约, 或者由于顾客所掌握的知识和信息的限制, 他们还不知道某个事物的某个具体事项的变化会对自己产生某种有利或有害的影响, 这类需求都是一种由科学规律所揭示的人的理性需求, 称为理性判定需求;另外, 判定需求也包括这样的情况:消费者由于一次偶然的消费体验, 获得了某种产品或服务能够提高自己以前未曾意识到的某种需求的满足程度, 这也是由于顾客对产品、服务或市场信息把握的有限性, 而使某种需求处于一种潜意识的状态, 这类需求都是一种在心理上还没有形成明确要约值的需求要素, 而且满足物也不是明确具体的情况, 这一类需求称为感性判定需求;比如, 一个人由于跟随朋友一次旅行的体验, 他发现这种产品对自己有极大的效用。判定需求是一种处于潜意识状态的隐性需求, 它可以分属需求靶的四个象限。

3 需求靶的构造、需求转化机理和转化的触发因素

3.1 需求靶的构造

有了上面几种需求的概念, 就可以建立需求分类转化的模型——需求靶, 如图所示:

第一, 需求靶依据买方能力和供方能力两个变量, 被划分为四个象限, 各种需求都可以在每相邻的两个象限之间移动;促成这种移动的力量分别是买方能力 (用S表示) 和供方能力 (用M/P表示) ;买方能力主要是指收入, 而供方能力主要是指供方技术与产品的开发能力和市场开发能力, 体现在市场上是否有这种产品和产品的质量和价格如何。每个象限的意义是:

(1) 第一象限。表示市场上没有能满足顾客某种需求的产品或服务, 或者有但是产品的质量和价格达不到顾客的期望, 买方也没有能力购买;

(2) 第二象限。表示市场上已有能满足顾客某种需求的产品或服务, 并且产品的质量和价格也达到了顾客的期望, 但买方没有能力购买;

(3) 第三象限。表示买方有能力购买, 但市场上没有能满足顾客某种需求的产品或服务, 或者有但是产品的质量和价格达不到顾客的期望;

(4) 第四象限。表示买方既有能力购买, 市场上也有能满足顾客某种需求的产品或服务, 并且产品的质量和价格达到了顾客的期望。

第二, 图中的三个圆环, 分别代表三种需求, 三个圆环是并列的关系, 它们之间不会相互重叠;最外面的方形代表的是判定需求, 它与每个圆环是一种重叠的关系。

第三, 每个相临圆环所代表的需求之间可以相互转化, 促成这种转化的触发因素主要是环境变化、收入和顾客价值观的变化。

第四, 判定需求可以转化为图中任何一个位置的需求。

第五, 处于第四象限最小粗圆线的部分表示“买方要约线”, 代表顾客要求;处于第四象限较大粗圆线的部分代表“环境现状线”, 这两条线之间的距离表示某种需求要素的强度, 这时需求强度大于或等于忍耐域。而处于第一、第二、第三象限的同样两条线之间的距离, 表示该种需求要素的忍耐域, 这时忍耐域大于需求要素的强度。

3.2 在需求靶的基础上, 对需求转化的机理和转化的触发因素展开讨论

(1) 活化需求

活化需求的来源有五个途径:

①活性需求。触发因素:收入提高、新产品上市、产品质量提高、产品价格下降、环境变化 (包括环境现状本身的变化和需求要素强度持续时间的变化) 、顾客价值观的变化。前五个因素促使活性需求向第四象限移动, 也就是能够使忍耐域下降到等于或低于需求要素强度的水平;后两个因素会使顾客要求提高或者使环境现状下降, 导致需求要素的强度大于或等于忍耐域, 从而促成转化。必须说明的一点是, 企业可以影响顾客对环境现状的判断。

②要约需求。触发因素:收入提高、顾客价值观的变化。这两个因素都可能使顾客要求变高, 从而促成转化;企业可以对顾客的价值观施加一定的影响, 或者对顾客提供融资。

③条件需求。触发因素:环境恶化。企业可以影响顾客对环境现状的判断。比如, 医生对病情的诊断或者企业对环境或食品污染现状的宣传。

④判定需求。触发因素:顾客知识、信息和价值认知的变化、消费体验。

⑤沉没需求。触发因素:收入提高、顾客价值观的变化、环境持续恶化 (包括原有产品老化所导致的环境现状下降的情况) , 这些因素可使需求强度持续增大, 最终达到等于或大于忍耐域, 促成产品立即更新淘汰;或者收入提高、新产品上市、产品质量提高、产品价格下降、需求要素强度持续时间变长, 使忍耐域下降到等于或低于需求强度的水平, 从而促成产品立即更新淘汰。

(2) 活性需求

活性需求的来源有四个途径:

①要约需求。触发因素:收入提高、顾客价值观的变化使顾客要求提高。

②条件需求。触发因素:环境恶化。环境恶化使环境现状下降, 企业能够影响顾客对环境现状的判断。

③判定需求。触发因素:顾客知识、信息和价值认知的变化、消费体验。

④沉没需求。分两种情况, 第一种情况是顾客虽然发生了购买, 但并没有达到完全满足的状态。触发因素:顾客购买。第二种情况是顾客同样发生了购买, 但到产品淘汰时, 由于收入下降、产品质量下降、产品价格上升或需求要素强度持续的时间变短, 使忍耐域上升到大于需求要素强度的水平, 所以顾客不会进行再次的购买, 而处于一种忍耐的状态。触发因素:旧产品的淘汰。

(3) 要约需求

要约需求的来源有三个途径:

①活化需求和沉没需求。顾客发生了购买, 而且达到了完全满足的状态;但是预期顾客要求将来会提高或者有可能提高。触发因素:对顾客收入和价值观变化趋势的预测。企业可以影响顾客作出这种预测。

②活性需求。触发因素:收入下降、顾客价值观的变化。顾客要求下降, 使需求暂时又重新处于满足的状态。

③判定需求。触发因素:顾客知识、信息和价值认知的变化;消费体验。

(4) 条件需求的来源有三个途径:

①活化需求和沉没需求。

顾客发生了购买, 而且达到了完全满足的状态;但环境现状将来可能或者预期将来会下降。触发因素:对环境变化趋势的预测。企业可以影响顾客作出这种预测。

②活性需求。

触发因素:环境改善。需求暂时又重新处于满足的状态。

③判定需求。

触发因素:顾客知识、信息和价值认知的变化;消费体验。

4 促成购买模型

前面给出了忍耐域的概念, 而且知道一个人对某种需求要素的忍耐域, 与他采取行动所需付出的代价成正比, 与预期的现状可改善的程度成反比, 与顾客的收入成反比, 与需求要素强度预期的持续时间 (由长期延续时间和出现的频度两个因素决定) 也成反比。忍耐域是针对某个特定顾客的特定时间点而言的, 即使在收入、产品质量和价格、需求要素强度预期的持续时间相当的情况下, 不同的顾客或同一顾客在不同的时间, 忍耐域也是不同的。这里分析一种特殊情况:需求要素强度随着时间的延续虽然会出现随机的波动, 但平均强度却表现出一定的相对平稳性和周期性的变化;也就是说, 下面的模型是针对那些要经常重复使用的产品, 比如说耐用消费品和牙刷、餐具等生活用品, 这样就可以不考虑忍耐域中需求要素强度持续时间这个因素。另外, 这个促成购买模型, 还有其他的一些限制条件:首先, 假定顾客需要付出的代价只有产品的价格一种;其次, 假定顾客购买该产品只为满足一种需求要素;最后, 现状可改善的程度, 完全由所购产品的质量和顾客期望的质量之间的符合程度一个因素决定 (产品质量包括产品的使用寿命) , 也就是由“质量匹配度”决定。那么一个顾客发生购买的条件是:

H=Y–X (1)

R=k (P/S×M) (2)

H ≥ R (3)

方程组中的H为需求要素强度, Y表示顾客要求, X表示环境现状, R为忍耐域, P为产品价格, S为收入, M为产品质量匹配度, k为常数系数。M的取值范围是0 ≤ M ≤ 1, 当产品质量和顾客期望的质量完全相符时, M取最大值1。将 (2) 式改变一下形式:

R=k/[S × (M/P) ]

可以看到, 产品的顾客感知价值越大 (M/P越大) , 越容易促成购买;要想把顾客感知价值很低的产品卖出, 需要很大的需求强度。因为收入的提高, 同时可能会使顾客的要求也提高 (需求强度变大) , 所以, 收入对促成购买的效果非常显著。再将 (2) 式改变一下形式:

R=k/[M × (S/P) ]

当M取最大值1时, 顾客的忍耐域变为最小S/P, 称为最小忍耐域。它的实际意义是:当S/P一定时, 能够促成顾客购买某种产品所需的最小需求强度。

5 结论

通过对需求靶的分析, 可以看到影响需求分类的变量的多样性和需求转化的复杂性。需求靶是一种很有用的分析工具, 它使各种需求之间的关系变得清晰明了;而且有利于找出促成需求转化的各种触发因素。企业营销的功能就在于:如何通过各种有效的手段, 使各种需求通过各种路径转化为现实的购买;也就是如何促成这些触发因素的产生, 使判定需求、要约需求、条件需求向活性需求转化;然后, 通过满足供方能力和买方能力, 促使需求在象限之间移动, 使活性需求向活化需求转化, 最终促成顾客的购买。

摘要:需求靶提供了一个边界清晰的需求分类方法。它可以揭示顾客的知识信息、价值认知的变化、环境变化、技术开发和市场开发、产品质量、价格和顾客收入等触发因素是如何促成各种需求之间相互转化的;这个模型同时也可以回答, 决定顾客购买的因素是什么和如何促成顾客的购买。

关键词:需求,隐性需求,分类,转化条件,触发因素,需求强度

参考文献

[1]罗永泰, 卢政营.需求解析与隐性需求的界定[J].南开管理评论, 2006, 9 (3) :22-27.

[2]范晓屏.基于隐性需要的消费倾向及其营销启示[J].商业研究, 2003, (16) :5-8.

[3]钱旭潮, 等.市场营销管理——需求的创造与传递[M].北京:机械工业出版社, 2005.

[4]索惠敏.档案利用者的潜在需求[J].衡水学院学报, 2005, 7 (2) :48-49.

刍议数学模型分类和建模步骤 篇5

建立数学模型,可能会涉及许多数学分支,一个问题,往往可以利用不同方法建立不同的模型。因此绝对的分类,对于建立数学模型是不利的,但是大致的分类,对初学者,在确立原型所属系统或采用数学工具时,会有一定的帮助。数学模型按不同标准可分为不同的类型:

1.1 按时间变化对模型的影响,可分为时变与时不变模型,静态与动态模型等。

1.2 按变量情况可分为离散型与连续型模型,确定性模型或随机性模型等。

1.3 按实际系统与周围环境相互关系可分为自治的或非自治模型。

1.4 按研究方法和对象的数学特征,可分为优化模型、逻辑模型、稳定性模型、扩散模型等。

1.5 按研究对象的实际领域可分为人口模型、交通模型、生态模型、经济模型、社会模型等。

2 数学建模的步骤

建立数学模型是一种积极的思维活动,从认识论角度看,是一种极为复杂且应变能力很强的心理现象,一般可分为以下几个步骤:

第一步:模型准备。建模的问题可能来自各行各业,而学生都不可能是全才。因此,当刚接触某个问题时,学生可能对其背景知识一无所知,这就需要学生想方设法地去了解问题的实际背景。通过查阅、学习,可能对问题有了一个模糊的印象。再通过进一步的分析,对问题的了解会更明朗化。模型准备跟炒菜前的准备一样,准备得越充分,解决问题就越得心应手。

第二步:模型的假设。现实世界的复杂性和多样性,使得学生不得不根据实际情况扩大思考的范围,再根据实际对象的特性和建模的目的,在分析问题的基础上对问题进行必要的、合理的取舍简化,并使用精确的语言作出假设。如果假设过于详细,试图把复杂的实际现象的各个因素都考虑进去,无疑是一种有勇气但方法欠佳的行为。在假设中,应抓住问题的关键因素,抛弃次要因素。当然,如果假设不合理或过分简单,也同样会因为与实际相去甚远而使建模归于失败。必要而合理化的模型假设应遵循两条原则:(1)简化问题;(2)保持模型与实际问题的“贴近度”。

第三步:模型的建立。根据所做的假设,利用适当的数学工具(应用相应的数学知识),建立多个量之间的等式或不等式关系,列出表格,画出图形,或确定其他数学结构。事实上,建模时还有一个原则,即尽可能采用简单的数学工具,以便使更多的人能够了解和使用模型。

第四步:模型的求解。对建立的模型进行数学上的求解,包括解方程、画图形、证明定理以及逻辑运算等,会用到传统的和近代的数学方法,特别是软件和计算机技术。目前有一些非常优秀的数学软件,如MATLAB、Mathematica、Maple、Lingo等,它将为学生求解数学模型提供方便快捷的手段和方法。

第五步:模型的分析。将求得的模型结果进行数学上的分析。有时根据问题的性质,分析各变量之间的关系和特定状态;有时根据所得的结果给出数学上的预测;有时则给出数学上的最优决策或控制。这一步有时视实际问题的情况也可以合并在下一步。

第六步:模型的检验。把模型分析的结果返回到实际所研究的对象中,如果检验的结果不符合或部分符合实际情况,那么必须回到建模之初,修改、补充假设,重新建模;如果检验结果与实际情况相符,则进行最后的工作———模型的应用。

当在面临新的建模问题时,这几个步骤具有指导意义,应当注意的是,这几个步骤的目的是指导更好地进行建模实践,其应用是可以有弹性的,切勿生搬硬套。也就是说,不是每个建模问题都要经过这六个步骤,其顺序也不是一成不变的。一个具体建模问题要经过那些步骤并没有一定的模式,通常与实际问题的性质、建模的目的等有关。因此,在建模过程中不要局限于形式上的按部就班,重要的是根据所研究对象的特点和建模的目的,去粗取精、去伪存真,不断完善。

摘要:本文按照不同的标准对数学模型进行了分类,并介绍了数学建模的步骤。

关键词:数学模型,数学建模,步骤

参考文献

[1]颜文勇.数学建模[M].高等教育出版社,2011.

软件开发的过程、模型和分类 篇6

打开电脑, 各种软件的更新提示窗口不断闪烁, 刺激着每一个软件开发人员的神经。这就要求开发员不断地更新自己的知识库。要做好软件开发的事情, 是一个长时间的过程, 要不断积累学习工作经验, 在实践中成长。知识面要宽, 还要能够不断补充自己的知识和完善知识结构, 更难得的是要有耐心, 上帝只垂青刻苦的人。

开发前还要做好准备工作。一般软件项目在开发前都有系统任务书, 系统的目标、任务、结构、功能、规模、进度要求及人员计划、经费等都要包括在内的, 这只是基本要求。针对具体情况, 软件开发人员和需求分析人员还要联合对软件项目的细节进行具体分析, 必要时还要进行实地调研, 然后共同商讨写出系统的需求分析, 包括各方面实现的可行性、必要性和分析原系统 (工作环境) 现状, 描述待开发系统的功能需求, 使用范围, 业务流程, 用户界面, 输出要求, 故障处理以及对使用环境的要求, 包括网络环境, 硬件环境, 软件环境, 与其他系统的关系, 安全与保密。提供用户和开发人员之间沟通的基础, 提供项目设计的基本信息。给出结论和意见。

2 软件开发的实践操作

件开发过程可以包括以下几个阶段:

1) 设计

软件设计可分为概要设计阶段和详细设计阶段。事实上, 软件设计的主要任务是软件模块分解, 模块, 以及模块的设计。概要设计是结构设计, 其主要目标是让软件的模块结构用软件结构图表示。详细设计的主要任务是设计模块的程序流程, 数据结构与算法, 次要任务是设计一个数据库。

2) 编码

软件编码是指软件设计成一个计算机可以接受的程序。在当前软件开发中除特殊场合, 已很少使用在第二十世纪80年代的高级语言, 取代它的是面向对象的开发语言。面向对象的编程语言和开发环境完美融合, 大大提高了发展的速度。

3) 测试

以较小的代价发现尽可能多的错误是软件测试的目的。要实现这个目标, 设计一套出色的测试用例 (测试用例是由测试数据和预期的输出结果组成) 是关键所在。而用例设计的关键则是以较少的用例覆盖尽可能多的内部程序逻辑结果。

4) 维护

维护就是根据软件运行的情况, 对软件进行适当修改, 以适应新的要求, 并纠正在运行过程中发现的错误操作完成软件问题报告, 软件修改报告。在这段时间里, 研制阶段所遇到的各种问题都几乎得到解决, 而且还解决了一些维修工作本身特有的问题, 可以使它扩展功能, 提高性能, 从而带来明显的经济效益。不幸的是, 软件维护工作的关注程度往往远不如对软件开发工作的。

3 软件开发的典型模型

典型的开发模型有:1) 瀑布模型 (waterfall model) ;2) 边做边改模型 (Build-and-Fix Model) ;3) 增量模型 (Incremental Model) ;4) 螺旋模型 (spiral model) ;5) 喷泉模型 (fountain model, (面向对象的生存期模型, OO模型) ) ;6) 智能模型 (intelligent model)

3.1 瀑布模型 (Waterfall Model)

1970年Winston Royce提出了著名的“瀑布模型”, 将软件生命周期划分, 规定了它们自上而下、相互衔接的固定次序, 如同高山流水, 逐级下落, 它一直是80年代早期唯一被广泛采用的软件开发模型。但是, 这种被人们习惯了的线性思维却不再适合现在的开发模式, 几乎被抛弃。

3.2 边做边改模型 (Build-and-Fix Model)

在这种模型中, 没有套路也没有经过设计, 软件随着客户的需要一次又一次地不断被修改。“边做边改”模型开发了很多的软件产品。但它对编写几百行的小程序来说还不错, 但对任何规模的开发来说都是无法实现的。

3.3 增量模型 (Incremental Model)

与盖房子相同, 软件也是一砖一瓦建造起来的。在增量模型中, 第一个增量往往是实现基本需求的核心产品, 先给他用户使用之后再根据需求形成下一个增量计划。再经过集成和测试, 多种相互作用的模块所形成的提供特定功能的代码片段构成每一个构件。它也有弊端, 比如每一个模块软件必需具备开放式的体系结构, 但是由于它的自由度比较高也容易使软件过程的控制失去整体性。

3.4 螺旋模型 (Spiral Model)

1988年, Barry Boehm正式发表了软件系统开发的“螺旋模型”, 它将瀑布模型和快速原型模型结合起来, 强调了其他模型所忽视的风险分析, 特别适合于大型复杂的系统。它沿着螺线进行若干次迭代:1) 制定计划;2) 风险分析;3) 实施工程;4) 客户评估。螺旋模型由风险驱动, 强调可选方案和约束条件从而支持软件的重用, 有助于将软件质量作为特殊目标融入产品开发之中。但是, 螺旋模型适用范围比较小, 对开发人员素质要求很高。

3.5 喷泉模型 (fountain model, (面向对象的生存期模型, OO模型) )

喷泉模型与传统的结构化生存期比较, 具有更多的增量和迭代性质, 生存期的各个阶段可以相互重叠和多次反复, 而且在项目的整个生存期中还可以嵌入子生存期。就像水喷上去又可以落下来, 可以落在中间, 也可以落在最底部。

3.6 智能模型——四代技术 (4GL)

智能模型拥有一组工具 (如数据查询、报表生成、数据处理、屏幕定义、代码生成、高层图形功能及电子表格等) , 每个工具都能使开发人员在高层次上定义软件的某些特性, 并把开发人员定义的这些软件自动地生成为源代码。但这种方法需要四代语言 (4GL) 的支持。

4 结论

自己的开发思路要懂得坚持, 别人的思想要懂得理解与吸收, 和而不同。不论是开发能力上的还是开发经验上要向你周围的人谦虚学习, 学会总结, 站在巨人的肩膀上才能看得远。

参考文献

[1]Geoffery James.编程之道[M].郭海, 等译.北京:清华大学出版社, 1999.

[2]张海潘著.软件工程导论[M].3版.北京:清华大学出版社, 1998.

[3]郑人杰, 殷人昆, 陶永雷著.实用软件工程[M].北京:清华大学出版社, 1997.

[4]周之英.现代软件工程基本方法篇[M].北京:科技出版社, 2000.

[5]郝克刚.软件设计研究[M].西安:西北大学出版社, 1992.

[6]陈明编著.实用软件工程基础[M].北京:清华大学出版社, 2002.

基于社会情感算法的分类模型设计 篇7

社会情感优化算法 (SEOA) 是通过模拟人类情感、情绪对行为的影响而构造的一种群智能优化算法, 该算法具有广阔的社会学和生物学背景。传统的群智能算法提供的作用规则有限, 因此个体进行自组织、自学习能力受到了限制。而社会情感优化算法具有更优越的性能, 由于个体有情感因素的加入, 能够利用每个人的情绪作为控制策略, 从而提高了算法的性能, 改善了算法的多样性和灵活性, 它已被成功应用于团簇结构优化、电力系统无功优化等实际问题中。但未见到在分类问题方面的应用, 本文将把社会情感算法应用于分类问题, 针对连续属性建立模型。

1分类

分类是构造一个分类模型, 该模型能够把数据库中未分类的数据项映射到给定类别的某个。分类主要需要两个步骤。

第一步、建立一个模型, 即从已经给定的数据类集抽取一部分作为训练集来建立模型;

第二步、评估该模型的分类准确率, 即用已经建立好的模型对于数据集中剩下未分类的数据进行分类, 若该模型的准确率能够接受, 则采用该模型进行分类。

2社会情感优化算法

2.1算法的提出

社会情感优化算法是一种基于社会活动中人的情感对行为的影响的群智能优化算法, 模拟了理智情况下的人在参与某种社会活动时, 感知其周围环境对他的评价, 通过情绪的反馈采取相应决策和效应, 从而对下一步活动进行指导, 重复此过程, 直到满足条件为止。

2.2算法的介绍

在社会情感优化算法中, 每个个体代表一个虚拟的人, 在每次的迭代过程中, 它将根据自己的情绪指数来选择相应的行为, 随后社会给出该个体的评价值, 从评价值就可以反映出该个体本次行为的正确与错误。如果正确, 则情绪指数上升, 否则就降低。

在初始化阶段, 将所有个体的情绪指数都设为0, 此时情绪指数为最小值, 所有个体按照下列方式选择下一次行为:

在第t代时, 如果个体j的社会评价值没有先前所有值好的话, 那么j的情绪指数按照下列式子发生变化:

如果式 (2) 发生Ej (t+1) <0.0, 则令Ej (t+1) =0.0。Δ是一个预定义的值, 在此该参数被设定为0.05。如果个体j被奖励一个历史最好的社会评价, 那么

所有个体下一步的行为根据以下三种情况发生相应的变化:

此时个体情绪高昂, 学习的渴望非常强烈, 而忽略群体历史较差评价的负面影响, 只考虑外界环境的最好评价。

3基于社会情感算法的分类模型

分类模型有很多表示方法, 如决策树、数学公式、神经网络、框架和规则等。由于分类规则易于理解, 表示形式简单, 因此宜采用规则来描述分类问题。

4小结

本文首先提出分类问题及分类模型, 然后引进一种基于社会活动中人的情感对行为的影响的群智能优化算法——社会情感算法, 并且将社会情感算法应用于分类问题来建立分类模型。

参考文献

[1]崔志华.社会情感优化算法[M].北京:电子工业出版社, 2011.

[2]陈永静.社会情感优化算法在团簇结构优化中的应用研究[D].太原:太原科技大学, 2011.

[3]魏战红.社会情感优化算法及其在电力系统无功优化中的应用研究[D].太原:太原科技大学, 2011.

[4]陈文伟, 黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社, 2004.

基于主题模型的短文本分类研究 篇8

随着信息技术的快速发展和网络的广泛使用,互联网中产生的信息显著增加。大量非结构化数据已经成为网络数据的主力军,可以占到总数据量的90%[1],短文本更是在社交网站中随处可见。主题模型作为特征选择的一种方法,常用于文本分类中。使用不同的分类方法,对比LDA和BTM模型对于短文本特征选择的效果。

2 主题模型

2.1 主题模型思想

主题模型是一种层次结构的模型,用概率来表示各层之间的关系,常见的有PLSA[2]、LDA[3]和BTM[4]等,PLSA即潜在语义分析,是最早的主题模型,它使用条件概率描述单词和潜在类别间的关系,并使用最大期望的方法训练潜在类别。

2.2 LDA模型

由于PLSA模型的不完备和容易出现过拟合等缺陷[4],Blei等人提出了LDA模型,用概率来表示文档集合层、文档层和词语层之间的关系。

在LDA模型中:

(1)每篇文档主题词的个数N~Possion(ξ);

(2)文档中先验概率θ~Dir(α);

(3)每篇文档的第n个主题词wn:

主题Zn~Multinomial(θ);

主题词wn~Multinomial(wn|Zn,β)。

所以,LDA模型可以表示为:

其中P(φ|β),代表主题概率,P(w|φ)P(z|θ)代表主题词概率,P(w|φ)P(z|θ)P(θ|φ)代表文档概率。

2.3 BTM模型

BTM是另一种三层贝叶斯结构模型,与LDA不同的是它用“词对”来代替词,从而克服了短文本中词少所带来的困难。BTM和LDA均使用Gibbs抽样方法进行参数估计。LDA的Gibbs updating rules为:

BTM的Gibbs updating rules为:

3 实验数据及评价

3.1 实验数据及预处理

实验数据集来源于SODA上海开放数据创新应用大赛公开数据,数据集名称为网格化管理数据,该数据集用来统计城市居民对于市容市貌现象的反映,其中描述这个属性是对反映内容的简单叙述,平均字数少于100,类别是指反映现象所属类别。经过对数据的筛选,最终有988条数据,类别为暴露垃圾、跨门营业和占道无证经营。

3.2 实验环境

分词处理:中科院中文分词系统ICTCLAS;

主题模型:Windows下的JGibbs和Ubuntu下的BTM-master;

文本分类:Weka中的libsvm、Bagging和Ada Boost方法。

3.3 实验及结果评价

选取LDA和BTM为主题模型,使用libsvm、Bagging和Ada Boost分类方法,将它们两两组合,同样的分类方法设置相同的参数,最终进行6次实验,并对实验结果进行评价。

以精确度(Precision rate)、召回率(Recall)和F值(F-measure)为评价指标,BTM+libsvm最高,均为0.967,LDA+Ada Boost最低,分别为0.804、0.811和0.795。因此,对于短文本,BTM比LDA有更强的适用性,而对于分类,SVM更适合处理高维数据。

4 总结

从实验结果可以看出,对于短文本的分类,使用BTM作为主题模型,SVM作为分类方法,得到的效果最佳。当然,由于数据集的局限性,实验结果具有一定的片面性,未来的工作可以进一步选取多个实验数据集,以得到更普遍的结论。

参考文献

[1]Limeng Cui,Fan Meng,Yong Shi,et al.A Hierarchy Method Based on LDA and SVM for News Classification[C]//Proceedings of the 2014IEEE International Conference on Data Mining Workshop,2014:60-64.

[2]T Hofmann.Probabilistic Latent Semantic Indexing[C]//Annual International SIGIR Conference,1999.

[3]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research.2003(3):993-1022.

模型分类 篇9

关键词:朴素贝叶斯,信息增益,代价因子,用户需求,过滤分类

0 引言

科学技术的日益发展, 尤其是电信互联网产业的迅速成长, 促使电子邮件成为现代通信系统的一部分。然而, 在如今信息革命浪潮的强烈冲击下, 各种广告、宣传信息也通过邮件方式传播, 许多邮件中夹杂着病毒程序, 钓鱼网页信息, 攻击某些企业, 欺骗广大网民。这些邮件有着一个共同点———未经用户许可而强行发送到用户的邮件信箱, 称之为垃圾邮件[1]。

垃圾邮件泛滥对整个互联网系统造成了严重负面效应:从网络层次来讲, 它阻碍了互联网健康发展, 如今的垃圾邮件包含其他各种文件格式, 信息量更加丰富, 在网络上大量传输必然会占用大量带宽以及存储资源, 导致网络阻塞现象;从ISP角度来讲, 大量的垃圾邮件会损害ISP的市场形象, 因此可能会被加入到RBL中, 阻断ISP邮件服务器正常通信;从用户的角度看, 垃圾邮件会占据用户信箱的大部分存储空间, 可能会导致信箱空间已满而无法顺利接收正常邮件, 同时大量的垃圾邮件必然会浪费用户花费大量的时间和精力来阅读和清理;从社会层次来看, 部分不法分子会利用垃圾邮件来宣传虚假信息或者是反动信息, 严重扰乱社会秩序和威胁社会安全。鉴于此, 必须采取有效措施来抵制垃圾邮件, 使其危害程度尽可能降低。

1 反垃圾邮件方法

为解决垃圾邮件带来的相关问题, 可以从政府立法和技术手段两方面入手。许多国家就曾经制定出相应的法律来规范垃圾邮件发送行为, 力图减少垃圾邮件的数量。美国在2003年制定出反垃圾邮件法案———非请求色情及广告信息攻击控制法案 (controlling the assault of non-solicited pornography and marketing act, CAN-SPAM Act) [2];澳大利亚的电信法案第107条, 针对个人公司分别制定了不同的规定, 只有得到了收件人的允许, 才能向个人发送垃圾邮件[3];欧洲议会在2002年6月通过了隐私和电子通讯法律规章, 禁止在未征得收件人同意的情况下, 向其发送垃圾邮件[4]。这些法律法规能够在一定程度上降低垃圾邮件发送的几率, 但是并不能够彻底杜绝垃圾邮件的产生。另一方面就是靠各种技术手段对垃圾邮件进行识别并加以过滤, 比如黑白名单技术、SPF源头认证技术、简单模式匹配方法[5]、以及智能垃圾邮件检测技术[6]———包括朴素贝叶斯方法[7]、Ripper方法、人工神经网络、人工免疫系统等。而基于贝叶斯理论的垃圾邮件过滤方法相对而言有比较高的准确率同时该方法简便、有效, 实用范围较广, 以下主要以该方法为基础加以讨论。

1.1 贝叶斯理论

①条件概率:A、B为两个事件, 并且P (A) >0, 称:

为在事件B发生的条件下事件A发生的条件概率。

②乘法公式:两事件的概率P (A) >0, P (B) >0, 由条件概率定义式可得:

此式称为概率的乘法公式。

③全概率公式:事件A为实验E的样本空间S的一个事件, B1, B2, …, Bn为S的一个划分, 并且P (Bi) >0 (i=1, 2, …, n) , 则:

④贝叶斯公式:事件A为实验E的样本空间S的一个事件, B1, B2, …, Bn为S的一个划分, 并且P (A) >0, P (Bi) >0 (i=1, 2, …, n) , 则贝叶斯公式为:

在公式 (4) 中, 通常将P (Bi) 称为先验概率, 将P (Bi|A) 称为后验概率。若把A看做观察的“结果”, 把B1, B2, …, Bn理解为原因, 则贝叶斯公式传递出“因果”的概率规律, 并由此做出根据结果追溯原因的推断, 称之为贝叶斯决策[8]。该决策在信号处理、模式识别、投资决策、环境检测[9]等方面都有广泛应用, 该文以此理论来进行垃圾邮件的类别判断进而达到过滤分类的目的。

1.2 基于用户需求模型设计

传统邮件过滤系统将邮件主要分为两个类别, 一个是垃圾邮件类Spam和正常邮件类Ham, 对待分类邮件D进行特征提取后根据贝叶斯算法求得该邮件的后验概率P (Cj|D) (Cj表示的是邮件所属类别, 这里只能取两种, j=Spam or Ham) , 通过后验概率的大小来确定待分类邮件的最终类别。本模型将Ham类分为两个类别, Ham1和Ham2, Ham1类表示基于特定个人用户或者企业需求邮件类别, Ham2类表示一般性质的邮件类别, 其具体的模型设计内容包括以下步骤:

①收集大量的邮件, 建立训练集数据库, 针对不同的用户需求或者企业要求, 通过人工分析将其归分为Spam、Ham1和Ham2三个类别, 对训练集合中的每封邮件进行特征分析并且提取邮件特征, 建立特征向量, 计算各个类别的先验概率, 形成知识库。

②对新邮件来源进行检测, 同黑白名单匹配, 达到简单过滤效果。

③通过上步骤的邮件, 对其内容进行扫描, 得到该邮件对应特征项的特征值并结合贝叶斯理论和知识库将其送入后验概率计算模块, 求解出对应类别的后验概率。

④求得后验概率, 再引入代价因子, 由后验概率与代价因子的一次比较来确定该未知邮件为垃圾邮件还是正常邮件。

⑤经上一步骤验证的正常邮件再进行代价因子的第二次比较, 确定其最终接收类别, 存储于用户信箱的不同区域。

⑥整个系统运行一段时间后, 再将已经鉴别过的邮件导入到训练集合中, 从而更新垃圾邮件集合中的特征项, 应对垃圾邮件的日益变化, 提高整个系统的分辨能力。

模型的基本流程如图1所示。

1.3 模型计算实现

1.3.1 特征选择

对训练集中的邮件集中分析, 主要是利用分词技术对其进行分词, 将其作为特征项, 并引入特征向量概念, 每一个特征项对应向量中的一个元素, 对于邮件D的特征向量X可以表示为X= (X1, X2, X3, …, Xn) , 由于训练集合中邮件内容的复杂性和多样性必然造成了特征向量X中元素的数目庞大而不利于后期计算, 可采用停用词表和信息增益[10]方法来减少X的元素个数。所谓停用词表指的是那些对文本分类不起作用反而会因为该词数目过多影响正确分类的单词的集合, 当对一封新来的邮件进行特征向量化的时候, 若出现了停用词表中的单词可以直接将其删除。信息增益是描述特征能够为分类系统带来多少信息, 带来的信息越多, 该特征越重要, 它的公式表示:

公式 (5) 中P (Cj) 表示不同类别出现的概率, P (Xi) 指的是特征项Xi在训练集中出现的概率, P (i) 指的特征项Xi在训练集中不出现的概率, P (Cj|Xi) 为在出现特征项Xi情况下属于Cj类的概率, P (Cj|i) 表示特征项Xi不出现的情况下归为Cj类的概率。IG (Xi) 描述了Xi为整个分类提供的信息量, 本模型为三类问题, 若令C0表示垃圾类, C1为基于用户需求邮件类, C2表示一般性邮件类, 则以上公式 (5) 可以转化为公式 (6) :

通过公式 (6) 可以求出训练集中去掉停用词后每个特征项的IG值, 然后将所求的值按照从大到小的顺序排列出来, 取前面N个较大值对应的特征项作为特征向量的元素, 构建特征向量X= (X1, X2, X3, …, Xn) 。

1.3.2 邮件过滤———分类

贝叶斯原理本质是计算出后验概率, 将后验概率作为类别划分的主要参考因素。对新来邮件Dx进行特征分析得到对应的特征向量的特征值x={x1, x2, x3, …, xn}, 采用贝努里事件模型 (每个特征值取值有两种情况, 当Dx中存在特征项Xi, 则对应的特征值xi=1, 若不存在特征项Xi, 则对应特征值xi=0) , 按照贝叶斯原理对其求解:

公式 (7) 中x={x1, x2, x3, …, xn}, 则有朴素贝叶斯公式转化为:

由公式 (9) 可看出对于不同类别Cj其P (X) 都相同, 故此影响分类的主要取决于公式 (8) 中的分子部分, 由贝努里模型特性可将P (X=x|Cj) 转化为:

将式 (9) - (10) 代入到式 (8) 中可得:

将其应用在邮件分类上, 上面的种类Cj可以取三种, 即为CSpam、CHam1、CHam2

若已经求出P (CSpam|Dx) 、P (CHam1|Dx) , 可采用以下简单方法计算P (CHam2|Dx) :

在训练集合中, 邮件总和为N, 垃圾邮件为NSpam, Ham1类邮件总数为NHam1, Ham2类邮件总数为NHam2, 即N=NSpam+NHam1+NHam2, 以上公式中的各类先验概率:

待分类邮件的后验概率是作为其最终分类的重要判别因素, 传统的两类邮件分类系统只需要计算出P (CSpam|Dx) , 再和预先设置的阈值T相比较确定是否为垃圾邮件, 本模型以传统方法为基础采用过滤———分类两步骤进行。

①过滤

该步骤以垃圾邮件特征为主要研究对象, 确定未知邮件是否为垃圾邮件, 从而决定其最终是否过滤。因为在实际生活中, 考虑到垃圾邮件和正常邮件价值的不对等性 (接受一封垃圾邮件一般是不会给人们带来多大影响, 但是倘若系统将一封正常邮件误判为垃圾邮件而将其过滤掉, 就有可能造成经济损失, 尤其是对于一些大型企业) , 这里引入了代价因子λ[11], 它是垃圾邮件和正常邮件价值对比的一种数字化表示方法, 在过滤步骤中可以设定一个代价因子λ1 (λ1>1) , 对于数学表达式:

表达式 (16) 的值大于λ1, 即, 此时的T就相当于传统二分类中的阈值) 时, 可认为该未知邮件为垃圾邮件, 采取过滤措施。

②分类

经过滤环节到达分类步骤的为正常邮件, 分类步骤是以特定用户或者企业需求邮件特征为主要研究对象, 确定该正常邮件是否符合用户需求邮件特性, 从而决定将其存储在用户信箱服务器的哪个区域, 便于用户准确、方便读取邮件信息。在实际生活中, 考虑到用户对这两种正常邮件的重视程度有所不同, 可以再次引入了代价因子λ2, 它表示该正常邮件分别属于Ham1和Ham2的后验概率之比, 对于数学表达式:

表达式 (17) 的值大于λ2 (λ2>1, 即Ham1类邮件重视程度高于Ham2类) , 可认为该邮件为Ham1类, 将其存储在用户邮箱服务器的区域一, 否则认为该邮件为一般性邮件Ham2类, 将其存储在用户邮箱服务器的区域二。

1.4 模型分析

传统的垃圾邮件过滤研究一般采用贝叶斯算法进行特征识别确定邮件类别, 只是单纯将所有的邮件区分为正常和不正常两种情况, 在实际计算过程中也只需要计算出未知邮件属于垃圾邮件类的后验概率进行阈值比较后即可进行接收或者过滤操作, 这种方法比较极端, 而且被识别为正常类别的邮件也比较杂乱, 没有针对性, 不利于用户快速而方便地读取, 倘若系统设置的阈值不合理, 将会整体影响系统对未知邮件的判断结果。本模型在正常类别基础上建立基于用户需求分支类别, 将正常邮件按照用户重视程度再次分类, 针对性较强便于用户准确而快速读取所需邮件, 同时采用了二级阈值 (代价因子) 设置方法, 可以有效缓解传统阈值设置不合理导致整体性能降低的问题:

①传统过滤系统中, 阈值设置偏低, 将会导致部分原本为正常邮件而系统将其判定为垃圾邮件的概率增大, 用户可能因此而不能够正常收发信息, 甚至直接造成经济损失。

②传统过滤系统中, 阈值设置偏高, 将会导致部分原本为垃圾邮件而系统将其判定为正常邮件的概率增大, 垃圾邮件过滤效率不高, 花费用户时间和精力重新查找和清理。

二级阈值设置方法将两个阈值配合起来使用, 可以实现邮件更准确的分类, 比如在实验中可以将一级阈值λ1设置偏低, 二级阈值λ2设置偏高, 可以到达比较好的分类效果, 需要实验数据进一步验证。

2 结束语

本设计采用了目前技术比较成熟的贝叶斯分类算法, 利用信息增益方法进行特征选取, 结合代价因子决定邮件最终类别的设计思想来构建模型, 在理论上存在可行性, 对邮件的多分类或者更为精细分类可能会有一定的指导意义。在后期研究中, 需继续细化该理论模型, 并以此模型为基础, 通过实验数据加以支撑, 借此来确定合理的代价因子λ1和λ2, 使整个系统具有更高的准确率, 进而应用或推广到实际生活中。

参考文献

[1]中国互联网协会.中国互联网协会反垃圾邮件规范[EB/OL]. (2011-08-13) .[2013-04-10].http://www.isc.org.cn/hyzl/hyzl/listinfo-15601.html.

[2]SPAM LAWS.The CAN-SPAM Act of 2003[EB/OL].[2013-04-11].http://www.spamlaws.com/federal/index.shtml.

[3]RUNDFUNK&TELEKOM REGULIERUNGS-GmbH.Telecommunikationsgesetz 2003 (TKG 2003) [EB/OL].[2013-04-11].http://www.rtr.at/de/tk/TKG2003JHJp107.

[4]BLANZIERI E, BRYL A.A Survey of Learning-Based Techniques of Email Spam Filtering[EB/OL].[2013-4-11].http://eprints.biblio.unitn.it/1070/.

[5]陈志贤.垃圾邮件过滤技术研究综述[J].计算机应用研究, 2009, 26 (5) :1612-1615.

[6]谭营, 朱元春.反垃圾电子邮件方法研究进展[J].智能系统学报, 2010, 5 (3) :189-201.

[7]张铭锋, 李云春, 李巍.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究, 2005 (8) :14-19.

[8]陈荣江, 张万琴.概率论与数理统计[M].北京:北京大学出版社, 2006.

[9]王明芳, 谭骏珊, 朱明娥.贝叶斯理论在室内空气质量等级识别中的应用[J].中国环境监测, 2010, 26 (2) :63-67.

[10]刘庆和, 梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用, 2011, 47 (12) :130-132.

上一篇:工商管理实习下一篇:文化差距