模型获取(精选6篇)
模型获取 篇1
一、 引言
随着我国市场经济的发展,买方市场的形成和竞争的日趋激烈,赊销已日益成为企业重要的销售方式。赊销活动使企业能够捕捉到更多的市场机会,在扩大销售的同时降低存货风险。但是赊销也会给企业带来一定的信用成本和调研成本[1]。为实现盈利,企业需要充分的调研来保证赊销决策的正确性。然而面对随时可能灭失的商机,企业的调研时间是有限的。因此如何判断在既定的调研时间内选用何种调研方法能够对赊销客户做出正确的信用评价,在有效控制风险的同时,保证赊销收益估算的准确性,进而做出相对正确的赊销决策,对企业意义重大。
在赊销过程中存在的风险,主要包括由于赊销客户未来实际履约状况的不确定性导致的风险。为了规避风险,就要进行风险评估。关于对客户未来实际履约状况不确定性的评估,即一般意义上的企业赊销风险评估,也就是对赊销客户进行短期信用评级[2,3]。由于对赊销客户信用信息所掌握的完备程度会在影响信用评估精确度的同时,进一步影响企业赊销收益估测的准确性,所以更有必要对其进行确定。对于赊销风险决策问题,国内外学者大多从信用评级和收益估测两方面进行研究。
首先,在信用评级方面,国内外学者在研究过程中大多借鉴针对金融业设立的信用风险评估方法来对赊销客户进行信用评级。目前,在商业银行客户信用等级评估中经常选用的方法有多元判别分析(MDA)、Logistic回归分析(LRA)、神经网络分析(BP-NN)、支持向量机(SVM)等[2,3,4,5,6,7,8,9,10]。Horrigan(1966)使用穆迪和标普的历史样本对MDA的预测能力进行了评估[4],但是MDA对自变量有严格的假设条件,这些假设大大限制了该模型的应用范围。吴世农和卢俊义(2001)用LRA很好地摆脱了MDA中假设条件的束缚,对于解决二分类问题成效显著[5]。Madalla(1983)采用Logistic模型来区分违约与非违约贷款申请人[6];彭建刚,屠海波等(2009)和白少布(2010)对有序多分类logistic模型加以研究应用,但其建模过程中都忽略了样本低限要求[7,8]。因为进行信用评级时往往是将评级对象分成n(n≥5)类,此时,实际数据往往很难满足函数拟合所需样本低限要求,而且对一家赊销企业而言既没有能力也没有必要掌握如此多的数据。
虽然LRA不实用,但是logit函数所强调的任何两个相邻信用等级之间风险差异程度是不相同的,这种思想比以往的等级等分法更符合实际。David West(2000)建立了5种不同的神经网络模型,并用于研究商业银行的信用评级[9];刘洪伟、陈伟东(2004)和李晓峰、徐玖平(2010)分别运用传统及改进后的神经网络模型对客户进行信用评级[2,10]。然而神经网络模型在训练时要求样本分布符合紧致集的要求,同时由于模型属于黑箱操作,其科学性常遭质疑。李成章(2009)以赊销风险度作为判别赊销风险的标准,采用SVM建模,动态监测赊销客户的信用水平[3]。此方法虽然克服了神经网络模型样本需求量大、条件苛刻以及黑箱操作等缺点,但是该模型中核函数的选用存在主观性。周宗放(2004,2007)从信用指标空间结构及其特征方面进行研究,构建了基于理想点的多维动态信用评估模型[11,12],其对不同时间数据的处理对本文的建模具有非常大的指导意义。
其次,对于赊销收益的计算,前人已从很多角度做了研究。Burt Edwards(1997)介绍了赊销过程中应该注意的赊销风险[13]。在殷明(2002)建立的信用决策定量模型中,计量了企业扣除赊销风险成本后的收益,得出信用决策变量的有效组合,并据此进行决策[14]。但是该模型没有充分考虑赊销客户间信用水平的差异,其实用性有待考量。吕春晓(2002)等通过对影响企业赊销收益的因素进行分析,得出对赊销客户付款行为的预测直接影响赊销收益估测值的确定,从而影响赊销决策的结论[15],但该文没有给出提高预测精度的方法。
穆敏丽(2010)基于改变信用政策使增量收益大于增量成本的决策原则,从机会成本及所得税两方面对现行信用政策决策模型作了改进[16]。刘国强(2010)等建立了经过风险调整的赊销风险资本收益模型,考虑了由于赊销客户的违约率和违约损失率发生非预期变化而导致的非预期损失[17],对本文基于客户的不完全信息进行赊销收益估测具有一定借鉴意义。Sun Qingwen、Wang Xi(2010)充分考虑了赊销客户违约的概率和信息获取的成本,建立了不完全信息状态下的产品赊销收益估测模型[1]。该模型显示出处在调研的不同阶段对赊销客户信用水平判别的精确度会影响产品赊销收益的估测。虽然该文章没有给出对赊销客户信用水平判别精确度的科学计算方法,但是其建模思想对于本文基于调研信息完备程度的动态赊销收益的估测具有很大的指导意义。
纵观前人的研究可以发现,他们大都是以赊销客户的全部调研信息为依据来进行风险评估和收益估测,其结果是个静态的数值。然而在实际赊销决策过程中,赊销客户的信用信息是伴随着调研的深入逐渐掌握的。随着信息的逐渐完备,企业对赊销客户信用水平的评级、收益估测的准确性、以及做出赊销决策的不确定性等三者皆是动态的。在现实生活中,企业面对可能灭失的商机,不可能拥有充分的时间调研全部信用信息,因此,前人的风险评估与收益估测模型的科学性与可行性值得商榷。笔者充分考虑了在有限的调研时间内调研方法的选择对信息获取完备程度及赊销客户信用水平判别精确度的影响,结合空间分析方法和判别分析思想,构建了基于不同信息量的客户信用评估及评估精确度判别模型,并借鉴风险性决策思想来计算赊销收益,以期对产品赊销收益做出相对准确的估测,为企业决策提供依据。
二、 基本假设和主要变量说明
(一) 模型成立的前提假设
为了保证模型的科学性与可操作性,本文对模型的建立作了如下五点假设。一是假设企业库存过多,有赊销的必要性,且在每一个调研时段内都存在赊销成功的可能性。二是短时期内赊销企业经营状况不会发生重大变化,企业的固定成本不受信用政策的影响。三是企业在进行调研之前,对所有赊销客户掌握的初始信息都为零,赊销客户属于各个信用等级的概率是均等的;且在调研初期企业总会选择最重要的数据进行调研,随着调研的深入获得有效信息的总量是增加的,但增幅是递减的。四是在调研过程中假设企业有三种调研方法可供选择:(1)按期间进行调研,即在一个调研时段内,收集分析一个会计期间的所有相关指标的数据;(2)按指标进行调研,即在一个调研时段内,收集分析一个指标的所属全部调研会计期间的所有数据;(3)按企业进行调研,即在一个调研时段内,收集分析一家企业的所有相关数据。并且假定企业选择不同的调研方法,在每一调研时段所花费的调研成本都是一样的。五是企业在进行收益估测时,对赊销客户做出正确的信用评级,从而为企业带来预期的收益;对赊销客户的信用评级不准确,企业赊销产生意外收益或是造成损失。
(二)主要变量说明
企业在赊销决策之前,往往会通过调研了解新的赊销客户的经营规模、企业素质、管理水平、财务状况、市场能力、发展前景等相关指标考察其信用水平,采用三类九级制将其分级(h=AAA,AA,A,BBB,BB,B,CCC,CC,C,其中AAA为最优等级,C为最差等级)。假设指标体系中有m个相对独立的信用评估指标,令这m个信用评估指标为信用状态维度,则由此m个维度张成m维信用状态空间Sm。并且记K=(K1,K2,…,Km)为空间Sm中的单个信用状态点。
假设n对家赊销客户的q个会计期间的数据进行调研,令Kji(t)为第i(i=1,2,…,n)个赊销客户在第t(t=1,2,…,q)个会计期间,维度(财务指标)j(j=1,2,…,m)上的观测值。令T为整个调研估测期,tr为期内某个调研时段,且
对赊销客户进行信用评级,必须首先确定评级标准。本文将行业最高信用等级标准对应指标数值作为最佳信用状态点的维度值,构成理想点,记为K*=(K*1,K*2,…,K*m);同时由最低标准对应的指标数值构成最差信用状态点,记为Ko=(K
在对企业赊销收益进行估测时,企业的赊销收入si、毛收益率η、销售折扣率β和变动成本率δ均依照同类企业历史平均水平确定。每个信用等级企业的应收账款平均收现期Wh、坏账损失率ϕh和收账费用率τh按照行业标准确定。
企业如果不推出赊销活动,存货就会因超储积压而发生霉变、过期甚至丢失,这种风险损失随时间单调增加,记为ϑi=si(1-η)×l×T,其中l为风险损失率[1],依据赊销产品特点来确定。假定即使企业选择不同调研方法在每个调研时段所花费的调研成本依然相同,记为v,依据企业实际调研能力确定其大小,对每一家企业进行调研的成本记为vi;则在tr时段,即进行第r期调研时,累积调研成本为Ca=v×r,r=1,2,…,R。
三、信用评估精度判别模型的建立
企业依据对赊销客户的信用水平和赊销需求的调研情况,估测在不同调研时段做出赊销决策的期望收益的过程,是一个时间离散、状态连续的随机过程。此处将整个调研期间(0,T)分成若干个小的调研时间段,当处于某个时间段tr时,企业即可依据所掌握的调研信息来评估赊销客户的信用水平及评估的精度,并依据信息获取量测度的结果估测出此时做出赊销决策的期望收益。
(一)基于完全信息的信用状态评估模型
基于全部调研信息的第i个赊销客户的信用状态可以表示为:
Ki(t)=(K1i(t),K2i(t),…,Kmi(t)) (1)
依据行业标准确定理想点K*(K1*,K2*,…,Km*)与最差信用状态点Ko(K1o,K2o,…,Kmo)。为了剔除指标量纲的影响,需要对指标进行标准化。信用评估指标一般分为四种类型:效益型、成本型、固定型和区间型。针对这四种类型指标标准化的方法参见文献[18]和[19]。标准化之后的第i个赊销客户的信用状态可以表示为:
Ki′(t)=(K1i′(t),K2i′(t),…,Kmi′(t)) (2)
标准化之后的理想点K*′=(1,1,…,1),最差信用状态点Ko′=(0,0,…,0)。为了保证模型的合理性,在标准化过程中将大于理想点维度值的指标值归为理想点值,将小于最差点维度值的指标值归为最差点值。因此,在信用状态空间Sm中,n个赊销客户的信用状态Ki′(t),i=1,2,…,n,落入如下空心多面体中:
Ψ={K′∈Sm|0≤Kj′≤1,j=1,2,…,m} (3)
令di表示第i个赊销客户的信用状态与理想信用状态的偏差距离,即:
其中
(二)信用状态评估精度判别模型
本文希望能够通过对不同方法调研所获取客户财务信息量的测度,测定不同调研方法对客户信用状态判别正确与否的概率,并为下一步赊销收益的估测进行先行的准备。
1.按期间调研的信用状态评估精度判别模型。
若按期间进行调研,经过t1时段的调研,可知每个赊销客户的第1期的数据和其余各期数据标准化后的取值区间为[0,1]。以第i个赊销客户为例,当其余各期的指标标准化后数值均为0时,其信用状态与理想信用状态的距离最大,且最大距离为:
当其余各期的指标标准化后数值均为1时,其信用状态与理想信用状态的距离最小,且最小距离为:
因此,根据t1时段的调研,可以判断di⎣di1t1,di0t1」。若仅根据t1时段调研的数据做出信用评估,则信用水平为:
根据判别分析的思想[20],计算经过t1时段的调研,企业对客户信用水平做出正确判断的概率。首先,设有两个总体:G1={d1|di∈[0,1]∩di≠ditR}表示对客户信用水平评价错误的点的集合;G2={di|di=ditR}表示依据完全信息评估的客户信用水平。判别方法D=(D1,D2)是对信用水平区间[0,1]的一个完备的划分,D1={di|di∈[0,di1t1)∪(di0t1,1]},D2={di|di∈[di1t1,di0t1]}。则在规则D下将属于G1的信用水平误判为G2的概率为:P(2|1,D)=P(di∈G2|di∈G1)=∫D2dG1=1-λ
2.按指标调研的信用状态评估精度判别模型。
若按指标进行调研,对公式(4)作变换,即:
经过t1时段的调研,可知每个赊销客户的第1个调研指标的数据和其余各指标数据标准化后的取值区间[0,1]。以第i个赊销客户为例,当其余各指标标准化后数值均为0时,其信用状态与理想信用状态的距离最大,且最大距离为:
当其余各指标标准化后数值均为1时,其信用状态与理想信用状态的距离最小,且最小距离为:
所以,根据t1时段的调研,可以判断di∈[di1′t1,di0′t1]。若仅根据t1时段调研的数据做出信用评估,则信用水平为
3.按客户调研的信用状态评估精度判别模型。
若按赊销客户进行调研,经过t1时段的调研,可知赊销额最大的赊销客户的全部数据信息,从而对其信用水平做出正确评估。此时,其他客户的数据完全不可知,仅能对占总赊销额的赊销额λ
在既定时间内,赊销企业总会选用客户信用状态评估精度最高的调研方法,即:
maxPσtr=max(PQσtr,Pμσtr,Pωσtr)
(三)相关权重的确定
依前面得出的结论,无论采用哪种调研方法,在每个调研时段做出赊销决策所承受的风险均与调研所掌握的数据的重要性程度有关。因此,要想有效确定风险大小,就必须首先准确测度不同调研时段所获得数据的重要性程度,即公式(5)-(7)中所列不同会计期间信用数据的权重、指标权重和客户权重。赊销客户的权重可以按照赊销客户的赊销额占赊销总额的比率来确定,即:
下面介绍另外两种调研方法中数据权重的确定。
1.期间权重的确定。
为了表明不同会计期间数据的重要程度,本文引入“时间度”的概念,并利用信息熵和非线性规划理论[21,22]加以解决。
令时间权向量为λQ=(λ
“时间度”p的大小表现了样本集结过程中对时序的重要性评价,即当p越接近0时,表明评价者越重视近期的数据;反之,当p越接近1时,越重视远期数据;当p=0.5时,表示对各期数据重视程度相同。“时间度”的定义式为
时间权向量λQ的确定过程:在既定“时间度”p下,以充分挖掘样本信息和突显被评对象在时序上的差异为标准确定合适的时间权向量,即求解非线性规划问题:
2.指标权重的确定。
关于指标权重的确定,引入了熵权思想[19,23,24]。即指标数据分布越分散,获取数据所提供的有用信息量就越多,对决策的贡献也就越大,该指标权重就大;反之,则说明其在信用评级中的作用较小,权重也就小。
假设有n个待评企业,m个信用指标,构成n×m阶特征矩阵(Zij)n×m,Zij表示第i个待评企业的第j个指标数据。依据公式
显然0≤λ
四、赊销收益估测模型的建立
在tr时段,单一赊销客户按照估测的信用水平h履约时的收益为:
ξihtr=si(1-β)η-(Coi+Cbi+Ei-ϑi+Cai) (11)
式中si为第i个赊销客户的赊销额;β为销售折扣率;η为销售毛收益率;
令ψitr表示由于对赊销客户的信用水平做出错误判断所产生的意外收益或损失,则:
式中ξih′tr表示若赊销客户是估测的信用水平之外的信用水平h′时的收益;
Vitr=Pcgtr×ξihtr+(1-Pcgtr×ψitr) (13)
则总期望收益值为:
若选择按客户进行调查,则每经过一个时段的调研就能确切掌握一家客户的信用等级,没有调研的客户属于九种信用等级中任何一种的概率是均等的。则若经过tr时段的调研,总收益为:
五、结束语
本文在不完全信息状态下,充分考虑了在调研期间既定的情况下调研方法的选择对赊销客户信用水平判别精确度的影响,结合空间分析方法和判别分析思想,建立了基于不同信息获取完备程度的客户信用评估精确度动态判别模型,并在此基础上进一步建立了赊销收益估测模型,进而对赊销总收益做出了相对准确的估测。本文对客户信用的动态评估,客服了传统信用评估模型对客户做出评价完全依赖于充分调研之后的数据,不符合实际决策过程的缺陷。但是本文的调研与收益估测都是以商机的灭失时间可以准确预测为前提的,即假定的有限调研期间是以商机的灭失时点为终点;然而在实际中商机灭失的时点是动态的,下一步的研究将会对此加以考虑。
摘要:随着市场经济的发展,赊销已成为企业重要的销售方式,如果能在赊销活动中捕捉到更多的市场机会,企业可以在扩大销售的同时降低存货风险。然而,赊销也会给企业带来一定的信用成本和调研成本。因此,企业面对随时可能灭失的商机,如何在既定的时间内选用最佳的调研方法,从而做出相对正确的赊销决策并有效控制赊销风险,对企业意义重大。
关键词:赊销,收益估测,信息量测度,调研方法选择,信用评估精度
充足睡眠 获取有道 篇2
孩子终于睡了,我们也疲乏不堪。但是,为什么夜色已沉,睡意却还不来赴约?而清晨阳光已遍布室内,我们却还困得不想睁开眼睛。怎么才能像孩子那样,睡得更快,睡得更深?怎么才能让我们在有限的时间里获得更充足的睡眠?
提高睡眠质量的4个关键
床
一张舒适的床能改变一个人的生活状态和品质,让你的身体在睡眠中得到彻底地放松;摆放得当的床还可以让你的睡眠“事半功倍”——睡眠质量提高,睡眠时间减少。
挑选
挑选床具时,不论它的外观多么吸引你,一定要亲自躺下体验一下,感觉是否容易翻身,床垫的弹性与自己身体的平衡度是否协调等。不要只考虑材质、款式、设计等因素,而要把自己的真实感觉放在第一位。
摆放
床的摆放也很有讲究。我们可以在有限的空间里,给床留一个最好的位置。注意不要在床的周围放置太多的东西或家具,这会让床周围的过道太过狭窄和拥挤,让人感到睡得不踏实。
床头靠着墙壁 能够掌握房间的整体平衡,使人具有安定感。这样摆放要留意床头的舒适感,尽量选择不会令头部感觉寒冷的床架造型。
放在房间中间 占有空间有些奢侈,但有利于整理及打扫床的周围。稍有“洁癖”的妈妈躺在床上会感到放松,因为整个房间都很干净,没有卫生死角。
放在有大窗户或者阳光充足的房间清晨的阳光可以作为迎接一天的美好起点。用阳光般的心情开始崭新的一天吧!
与窗户留出适当的距离如果与窗户过分接近,夏天会承受过多的直射阳光,冬季也容易感觉寒冷。
Tips
床架的选择建议:
尺码适中
木制材质
能够接受的价格
简约的样式
稍高的位置(床铺下面有储物空间),易于轻松睡眠
容易打理
弧形的边角
移动方便
经久耐用
床垫的选择建议:
软硬适中软床垫会降低脊骨承托,硬床垫的舒适度又不够。可选择高弹性的弹簧床垫。
坚固在你翻身时不会晃动,各个部位都能承托起你的身体。
好面料透气、散热、防潮。
寝具
内心的舒适感会保证睡眠的质量。要选择那些对身心有利、健康环保的材料制成的寝具。
质地 被子、枕头等寝具并不是需要经常购买、更换的物品,因此,选用那些价格略高,但能够长久使用、便于清洗的优质产品是明智的。这是对自己一天劳累的奖赏,在这点上,允许自己奢侈一下吧!
色彩要以有利于舒适睡眠为出发点。色彩缤纷的窗帘或床罩,看上去虽然美观,但却给人浮躁的感觉,很难长期喜欢。可以使用白色、米色等柔和的色彩作为卧室的基本色调。
花纹选择小花纹以及柔和的色调。若十分喜欢大花纹设计,可以在特定的气氛或场合下使用,比如节日或接待客人。平时要尽量避免令人眼花缭乱且过于鲜艳的色调。
Tips
随“季”应变
寝具的色彩应该随季节而变,否则可能会影响睡眠的舒适感。比如蓝色会在冬季让人感觉寒冷,红色在夏季则会令人感觉烦躁。因此,可以让寝具的色彩随季节的变化而变,夏季突出清凉,冬季营造出温暖的氛围。其实无需更换全部寝具,只要换个合适的床罩,整个氛围就会瞬间改变。
光线
睡前将明亮的室内灯光全部关掉,突然陷入黑暗有时会让人感觉不适,孩子有时也会不安。可以添加些间接照明的落地灯或者床头灯等,光线从明亮转为淡雅,会令入睡更轻松,也会使卧室充满温馨、安详的气氛。可以根据卧室的氛围和家人的习惯来选择过度灯光的亮度及色彩。
声音
钟表 要选择不会破坏屋内气氛的简约类型。在卧室最好使用那些不发出声响的钟表。否则,在失眠的深夜里,这种声音会令人更加烦躁不安。
窗户 如果是临街的住所,外面比较吵,可以把窗户换成隔音窗。现在有一种隔音窗帘也可以考虑使用。
放松心情,轻松入睡
如果睡前大脑仍然处于兴奋状态,特别是白天高强度的脑力工作让紧张的神经无法放松,入睡就是件困难的事。因此,应该把注意力转移到听觉、视觉和身体上,让思维放松下来,才可能拥有一个充足的睡眠。
书籍 结束一天的忙碌之后,在睡觉前要让自己的心情平静下来,看些赏心悦目的事物:精美的旅游书籍、诗集或小说、……
漫画 在手能触及的地方放上两三本自己喜爱的书,也可以在卧室放一个小书架,将自己喜欢的书集中放在那里,睡前看上几分钟。
音乐 睡前听着缓缓流淌的音乐会让你放松下来,更快地进入梦乡。
芳香 卧室中如果能长时间散发一种令心情安稳下来的香气,对失眠、睡眠浅的人都是一种有效的治疗。不同香味有不同的功效,可以选择自己喜欢的几种,常备身边,调换使用。
Tips
能让人放松的香气:
薰衣草清新柔和的芳香具有安眠效果。
牛至草散发温和的草药气味,具有镇静作用。
鼠尾草清新的草药味香气能够安抚激动的情绪,使人迅速放松。
采用方法:
袋装干花芳香剂 放在枕边,可时刻嗅到其散发的柔和香气。也可以自己亲手制作:用手绢包裹好干花,然后再系上蝴蝶结即可。
干花精油 在手绢或纸巾上滴上数滴精油放到枕边。
小油壶 使用通过灯泡的热度来扩散香气的小油壶。在小碟上倒入水,然后滴数滴精油即可。还能作为调节室内的光线使用。
香薰蜡烛 在睡眠前数分钟点上即可。
泡澡 人在睡眠的瞬间,体温会下降。而且这种现象越重,越容易睡得沉。因此在临睡前,泡个澡能睡得更香。但是注意水温不要过热,过热会使神经再度兴奋起来。40℃左右的温水是最好的。
饮品 睡前一小时喝一小杯具有镇定效用的洋甘菊或玫瑰等花草茶或加蜂蜜的温牛奶。牛奶中含有促进睡眠的 L—色氨酸成分;蜂蜜中的葡萄糖、维生素等则可以调节神经紧张,促进睡眠,还有助于整夜保持血糖平衡,避免早醒。
小提醒:
不利于睡眠的N个习惯
睡眠虽然重要,但是睡眠不是任务。6 个小时的高质量睡眠可能比 8个小时不安稳的睡眠更让人精神焕发。
睡前看电视 不要在卧室里摆放电视,卧室的功能越单一越好。
改变自己的生物钟 每个人都有自己的睡眠生物钟。最好养成良好的循环,但是如果不能早睡也不必强求。没有睡意时硬躺在床上,会更加焦虑。
把工作带上床 也许你想躺在床上想想明天的会议发言,但是这会让你的神经再度兴奋。
数羊 只会导致“我睡不着”的意念越来越强。
半夜醒来看时间会使自己陷入不能迅速入睡或觉得睡眠时间不够的焦虑状态。
喝大量的水 要保证卧室的温度在 20℃~ 23℃。太热会使人口干,喝水后又容易起夜,响睡眠质量。
LOHAS妈妈推荐:美妙的清晨“闹钟”
Candy
有了孩子后,我总感觉睡眠不足。尤其是每天早上,孩子都醒了半天了,自己还是迷迷糊糊的。起床变成了一件让我痛恨的事。甚至一天的心情都因此变得不好。
偶然一次,我发现家里的音响有自动设置时间的功能。我就尝试着把开机时间设定在第二天早上七点。那天,是我最喜欢的《Lemon Tree》唤醒的我。虽然还是感觉有点儿困,但是心情非常好。
现在每天早上的起床时间变成了我的音乐会,经典的 CD、新出的专辑,都统统拿来当“闹钟”。其实原来我很喜欢听音乐,只是有了孩子后,基本没时间听了。家里的音响即使开着,也是在听儿歌或英语。这个“大发明”不仅让我每天的起床时间变得愉快起来,还找回了欣赏音乐的时间。真是太得意了!
模型获取 篇3
1.1 产品知识模型的思维生成过程
一个成功的产品知识模型的生成往往需要一个较复杂的循环过程[1],如图1所示。
图1所示的知识生成过程可以看成是一个知识通过知识工程师生成过程的思维过程。经过这样的过程,知识工程师通过产品知识模型的人机获取界面将先前的产品知识进行归纳、总结和不断完善,生成产品知识模型并记录下来。这在本文中主要以XML文件的形式和关系数据库的形式保存。
将上述的产品知识模型的思维生成过程进行归纳,作者将领域知识的获取过程分为四个阶段:(1)理解、归纳领域知识的基本结构与特点,寻找适当的知识表示方法;(2)确定适当的知识存储结构;(3)以产品应用目标为目的,抽取产品知识并转化成适用于特定应用环境的计算机可识别语言,如基于Web的应用环境;(4)完善、精炼产品知识模型。
由此可见,知识获取策略是由知识的组成结构和知识的表示模式所决定的,而机械设计领域知识是一个多层次的、多目标的综合性知识。而且,在本文的应用中,还需要考虑到产品由定制开始,到组织设计、组织零部件的生产和供应的全过程,这就最终决定了知识表示的具体方法和知识模型的构筑内容。
因此,要实现机械产品的知识获取,首先要建立符合机械产品阶段性应用生命周期的知识表示模型,从而确定合理的知识组织结构和知识获取策略,最终才能设计出可操作的机械领域产品知识获取系统。
1.2 基于本体的产品知识获取策略
1.2.1 层次化产品知识模型的多元知识获取策略
从基于KADS[2]的知识模型所建立的产品知识模型来看,机电产品的KADS知识模型主要包括三个方面的知识:产品领域知识、产品任务知识和产品推理知识,而且这三个方面的知识又包括了层次化的产品知识的几个子方面:产品客户定制知识、产品设计知识、产品工艺知识和产品供应链知识。这是一个多元的知识组织模型,这就决定了本文所论述的产品知识模型的获取是一个多元化的过程。
产品知识模型的知识获取任务通常是由多部门的人员借助知识获取模块共同完成的。如:(1)产品设计知识的主要来源是企业的设计人员,以及有关的专业技术文献;(2)产品工艺知识主要来源是企业的工艺人员,以及有关的专业技术文献;(3)而产品客户定制知识则主要是通过企业类似于客户服务部或信息商务部的人员对客户定制的产品进行统计、分析、归纳得来;(4)产品供应链知识的主要来源是通过类似于采购-生产管理的部门的人员得来的。
通过以上的产品知识模型的知识来源,再借助专门的知识获取界面,把从书本和专业人员那里抽取的知识转换为计算机可识别和存储的内部表示形式,并进行必要的检测,如语法与语义的一致性、有效性检查等;然后把它们存入到产品知识模型表示文件(本文的XML文件)和关系型知识库(如MS SQL Server)中,便形成了可供系统重用的产品知识。
1.2.2 基于本体的层次化知识模型获取策略
在知识模型的本体式表示方式的基础上,结合本体的三元素表示方式、层次化的本体树结构,根据层次化知识模型设计任务、工艺任务和供应链任务的可分解性等特点,针对产品定制的多过程,通过知识获取人机界面获取知识[3,4]。
2 机电产品知识模型本体的知识组织方法
在产品知识模型分析的基础上,作者从知识获取的角度对产品知识模型中模型本体的知识组织方法进行分析。按照本体的类(概念)、槽(属性)和侧面(属性值)三个基本元素进行知识的组织定义,其组织定义结构如图2所示,图中以产品领域知识模型本体为例进行说明。
为了说明产品知识模型基于本体的知识获取方式,下面先对本体的类、槽和侧面的定义方法进行阐述。
2.1 机电产品知识模型中模型本体类的定义方法
产品知识模型中模型本体类(Classes/Concepts)的组织方法主要讨论的是如何定义一个类和类的层次结构。这里主要有以下三种方式[5,6]。
(1)由顶向下方式(A Top-down Method):先定义领域内最为通用的概念,然后定义领域内的具体名词。如,先定义环境实验设备,再定义恒温恒湿箱、老化车等。
(2)由底向上方式(A Bottom-up Method):即由特殊到一般的过程,先定义一系列详细的子类,即本体树的叶。然后归纳出更为通用的概念,即本体树的枝和干。
(3)混合方式(A Combination Method):混合了由顶向下和由底向上的方式。先定义一些最为突出的概念,然后归纳并细化。
其中,类与子类有继承关系,属于子类的,必属于其父类。可以将产品知识模型本体分解为不同的概念组(类组),将产品知识模型中模型本体分解的基本本体所描述的概念组。这是一种混合式的定义方式,因为令人首先想到的最低层的知识———产品设计知识、产品工艺知识和产品客户定义知识、产品供应链知识,以及最高层的产品知识模型本体;然后才将这些基本本体划分给不同的中间层———产品领域知识模型本体和产品任务知识模型本体。
2.2 机电产品知识模型中模型本体槽的定义方法
单独的一个类并不能说明本体的能力,而槽(Slots roles/properties)的定义则体现了类的内部结构———属性,每一个概念组(类组)可分解成一系列的属性槽,属性槽之间为“与”的关系。如恒温恒湿箱的外表颜色、尺寸。其定义方式如下:
(1)本质属性槽,如产品设计知识本体的产品关键特征,侧重于功能和性能上的描述;
(2)外部属性槽,如产品设计知识本体的产品尺寸、产品色彩;
(3)结构属性槽,如产品设计知识本体的产品零部件名称;
(4)关联属性槽,如产品设计知识本体的产品设计者,它虽然不是属于以上三个属性,但它是产品与产品制造商之间的一种关联关系。
任何具体的一个描述都应是类的一个槽,如产品设计知识本体的某一具体产品的设计知识,它都是产品设计知识本体这个类的一个槽,最典型的就是本文所论述的范例的设计知识,它应是产品设计知识本体的一个槽属性。
2.3 机电产品知识模型中模型本体侧面的定义方法
槽的侧面(facets/role restrictions),即属性槽的类型、属性槽值、属性槽值的数量(属性槽值数量的最大值与最小值限制)以及其它一些属性槽值的特征等。它是产品知识模型本体最底层的描述。属性槽之间的关系为“与”的关系,但属性槽值之间的关系为“或”的关系。
由此可见,由概念、槽和侧面组成的一个属性槽的基本结构包括:槽名、概念名、槽值类型和槽值。
3 电产品知识模型中模型本体的知识获取系统
面向Web的产品知识模型和范例模型本体的获取与维护系统是机电产品知识管理系统成功实现的核心部分。它为基于一阶谓词逻辑的智能程序语言表示的模型模型推理和基于范例模型本体的相似性推理构成的混合式推理提供最为基本的底层知识形式和完整的基于模型本体的组织方式。通过使用本体,系统能判别出知识之间的关联,从而自动引导使用者输入所需的知识,并能对整个过程给予适当的解释。
3.1 产品知识模型的多级知识获取模型
由于建立了机电产品知识模型本体的层次化结构、本体树的结构和知识获取的本体概念、属性槽和槽值,因而可采用基于本体的产品知识模型和范例的多级知识获取方式,各级为:产品知识模型基本本体生成级;产品知识模型概念生成级;产品知识模型属性槽生成级;产品知识模型槽值生成级。
产品知识模型的多级知识获取步骤的流程图见图3。其中,产品知识模型基本本体生成级生成基本本体的横向框架;产品知识模型概念生成级生成每一个基本本体概念逻辑与或树模型;产品知识模型属性生成级则生成概念的逻辑或树模型;产品知识模型属性值生成级则生成属性的逻辑与树模型。
首先,进入基本本体生成级模块,形成基于本体的相互关系树,组成一个具有继承功能的层次化产品知识模型树状结构。
为了尽可能避免处理自然语言,系统采用一种动态的限定格式的输入方式,用户只需选择一种基于本体的关系式即可,如,“IS_A_KIND_OF/HAS_PROP-ERTIES/HAS_VALUE”方式,或选择一个量词、名词、逻辑符号等。这些限定格式的关系式,名词、逻辑符号等均存放在知识词典中,其动态性表现在知识词典可随时更新、添加。
最后,进入产品知识输入界面,元知识控制知识获取系统搜索概念与或树模型,自动引导用户输入特定条件下的知识,经XML Schema语法检查和一致性、完整性检查后,存入层次化产品知识模型库,见图3。其中,每一个过程形成一个独立的子知识库,并对上一层公用知识库具有继承关系,这在XML Schema文档中可以体现。
3.2 基于WEB和本体的机电产品知识模型获取框架
基于产品知识模型本体的知识获取系统(本文称为PKMOKAS,Product Knowledge Model Ontology-based Knowledge Acquisition System)是根据产品客户定制、产品设计、产品制造工艺和零部件的供应链知识的特点,建立的一个集产品知识模型获取、模型特例———范例的获取与有效性检查于一体的智能化领域知识获取系统,其主要模块如图4所示。
主要模块说明如下。
(1)启发式向导知识输入模块:用于建立产品知识模型基本本体,包括建立本体概念逻辑与或树模型、建立本体属性逻辑或树模型和建立本体属性值逻辑并树模型底层信息,以及范例的知识建立等功能。
(2)启发式向导知识维护模块:主要包括产品知识模型和范例知识的增加、删除、修改和编辑等功能。
(3)知识有效性检查模块:由于系统对非注释性知识采用了一种动态的限定格式的输入方式,故无需对非注释性知识进行自然语言描述的语义检测。该模块主要根据知识词典和XML文档,利用Schema/DTD和数据库的全文检索功能,完成对用户输入值的一致性、完整性的有效性检查。
(4)产品知识词典建立与维护:用于建立和维护概念词典、属性词典、属性值词典和限定词词典等。
由于范例是产品知识模型的一种特殊表现,故在PKMOKAS系统中将范例作为产品领域知识模型本体库的一个属性组进行保存。
3.3 知识获取过程中语义有效性的保证机制
在PKMOKAS系统中主要通过三种方式来保证客户输入的信息与知识的有效性检测。
(1)界面控制的动态限定格式输入方法:用户在输入非注释性知识时,通过系统提供的启发式向导,用户只需选择一种基于本体的关系式谓词,如,“IS_A_KIND_OF/HAS_PROPERTIES/HAS_VALUE”方式,或者选择一些量词、名词、逻辑符号等等,这些限定格式的关系式,量词、名词、逻辑符号等均存放在知识词典中,通过知识词典的随时更新、添加,不断完善。
(2)逻辑检测方式:对于XML文档,利用Schema/DTD的逻辑检测功能,对生成的XML库文档进行词汇出现的顺序、输入值的属性等进行有效性检测。
(3)全文检索方式:对于在关系型数据库存储的信息知识,尤其是非结构数据(主要是文本),采用DBMS提供的全文检索工具。由于全文检索可以对查询条件进行衡量,并报告与原始条件的匹配程度,故本系统中还采用了全文检索方式对用户的输入值进行匹配性检测,并通过搜索出的与用户输入值很相近的形式,如名词的复数形式、动词可能使用的各种形式,或者原始搜索条件的大写或小写形式(这在XML文档中是非常敏感的)等,反馈到人机交互界面。
3.4 基于XML文档和关系型数据库的知识查询机制
产品知识模型库和产品知识词典是基于本体式的建立,为有用信息与知识的分类与管理提供了方便。在PKMOKAS系统中,根据存储方式的不同,本文采用了XML自身提供的数据查询功能和关系型数据库查询功能相结合的方式进行产品知识的查询。
产品知识库的检索主要保证检索的准确性、完整性和非冗余性。在PKMOKAS系统中提供了三种资源检索方式:关键字查询、分类查询和全文索引。
(1)关键字查询方式采用的是一般的关键字匹配方式,考虑到用户对关键字的理解有所不同,没有提供关键字的精确匹配,而是采用模糊查询的方式进行。
(2)分类查询方式根据事先对数据库里的资源进行的分类,用户对资源进行搜索,这在一定的程度上制约了用户的选择程度与范围,但同时也把用户的随意性降到了最低。
(3)由于本文所选用的关系型数据库(MS SQL SERVER)支持全文本索引,故PKMOKAS系统同时提供了布尔运算符(AND、AND NOT和OR)的查询方式对全文检索表中的字符、数据执行语言检索。语言检索对全文目录当中的单词和短语进行操作,不像LIKE谓词是用于检索字型。而且,全文检索功能可以对查询条件进行衡量,报告与原始条件的匹配程度,这为基于范例的相似性推理提供了可操作的数据。
4 机电产品知识模型本体维护机制
4.1 基于ECA规则的主动式数据库
传统的数据库及其数据库管理系统是一个被动的系统,它只能被动地按照用户提出的具体请求之行相应的数据库操作,用户是主动的请求者,数据库是被动的执行者。主动式的数据库(active database base),它能够根据知识库的当前状态,主动适时地做出反应,执行某些操作,向用户提供有关信息。主动式数据库在传统的关系型数据库中嵌入事件自动触发的模型规则,在某一事件发生时,引发数据库管理系统去检测知识库的当前状态,若满足设定条件,则触发规定动作的执行,即文献[7]所论述的ECA规则:“事件(Event)—条件(Condition)—动作(Action)”,其含义即[8]:在事件发生时,若条件成立,则执行活动。
在本文中,结合文献[7]所论述的ECA规则,应用到产品知识模型的维护当中,并形成基于“ECA模型规则”的机电产品知识模型的知识维护机制。它是知识获取和维护,保证知识有效性的一个基本环节。
本文所提出的ECA模型规则是基于本体建立的各个“类-槽-侧面”模型在产品知识模型库中的模型框架的概念,以区别于专家系统中提出的纯规则。在本文中,已经将产品的推理知识融入到了产品知识模型当中,也就是说,模型规则是将本体模型与相应的描述规则相结合。
4.2 基于ECA模型规则的机电产品知识模型的维护机制
基于事件驱动的ECA模型规则的一般形式分为如下的“MODEL-RULE”和“ACTION”两个部分;
其中,在MODEL-RULE部分<规则名>就是各个本体定义的各个类;<参数i>就是每个类中的各条“槽”———类的属性及特征;<事件表达式i>与相应的参数相对应,并构成一定的条件表达式。ECA模型规则中的<条件i>为一合法的逻辑公式;<动作代码i>即系统欲定义的动作,相当于一个程序或进程;在本文中此处归结的是一个执行代码。在ACTION部分,<动作名>与类名,即<规则名>相呼应;<动作参数i>就是各个事件表达式中所得到的动作代码。
本文中建立的基于事件驱动的主动式产品知识模型本体库ECA模型规则的运作方式是:在某一事件发生时(如,产品知识模型本体的概念、属性、属性值更改时),引发数据库管理系统去检测知识库的当前状态,看是否满足设定的条件;若满足设定条件,则触发规定动作的执行。
事件驱动的ECA模型规则的语义是:当事件发生时,DBMS主动触发执行其后的IF-THEN规则,匹配检测IF-THEN规则,并生成相应的执行代码。待整体事件循环检测完毕后,便将动作代码交由ACTION部分执行。这就是按“匹配-解决问题-执行循环”的产生式规则的执行模式来解释执行相应的模型规则集合。
在本文中,事件的来源是通过人机交互界面的程序执行检测和感知,而关系型数据库相关记录数据的更新检测和感知是通过数据库的触发机制来实现的。
5 小结
本文通过对产品知识模型生成的思维过程分析,提出了产品知识模型的获取策略,阐述了产品知识模型本体的概念、属性和属性值的定义方式。并根据机电产品知识模型本体的层次化特点,提出了产品知识模型的多级知识获取模型、系统功能框架和知识获取过程中语义有效性的保证机制。同时,对产品知识模型库提出了基于XML和关系型数据库的知识查询设计。最后,根据现有的主动型数据库的ECA规则,对产品知识模型本体库基于更新和添加的维护方式,提出了基于ECA模型规则的维护机制。
通过以上的方式建立起来的产品知识模型本体获取系统,具有以下的优势:
(1)可以降低基于知识系统开发过程中人力资源的浪费,即一些机械性的知识获取过程和知识组织、分析过程,并可减少知识工程师与领域专家的会谈时间,提高产品知识本体库的质量;
(2)由于知识获取工具中特定获取技术的引入,如知识词典、限定格式输入法、XML Schema/DTD和全文检索的检测机制,提高了知识获取过程中知识的统一化程度和知识的一致性、有效性和完整性;
(3)采用多级知识获取策略,较好地结合了层次化的产品知识模型本体的知识组织结构,使得对产品知识模型的增加、删除、修改、编辑等功能,以及知识的一致性、完整性检查更加简单准确。
在本文的研究中,作者创新性地提出了“基于WEB和本体的机电产品知识模型获取框架”和“基于ECA模型规则的机电产品知识模型本体的维护机制”。
摘要:在机电产品基于网络环境下的知识管理以及知识工程(KBE)系统中,知识的获取和维护是一个十分重要的环节,通过本体知识模型技术和网络描述语言的应用,分析了WEB网络环境下产品知识模型中模型本体的知识获取策略、方法,确立了机电产品的多级知识获取模型,提出了基于产品知识模型本体的知识获取系统的功能结构框架和基于ECA模型规则的机电产品知识模型本体的维护机制。
关键词:WEB,机电产品,知识模型,获取与维护
参考文献
[1]陈恩红,范炎,王行甫,等.网际网上半结构化数据抽取与知识发现方法及其实现[J].计算机科学,1999(10):49-52.
[2]A.Th.Schreiber,B.Weilinga,and Breuker,et al.KADS,APrinciple Approach to Knowledge-based System Development[M].Knowledge-based System,Academic press,London,1993.
[3]钟佩思,高国安,刘梅.面向复杂产品设计的多级知识获取策略及其实现[J].机械工程师,1998(增刊):50-51.
[4]李爱平,陈剑锋.分散网络化制造环境下基于Internet的知识供应链[J].同济大学学报,1999(6):749-753.
[5]Uschold M.,Gruninger M.Ontologies:Principles,Methods andApplications[J].Knowledge Engineering Review,1996,11(2):30-35.
[6]Gruber,T.R.A Translation Approach to Portable OntologySpecification[J].Knowledge Acquisition,1993(5):199-220.
[7]徐洁磐,马玉书,范明.知识库系统导论(第一版)[M].北京:科学出版社,2000.
[8]刘云生.现代数据库技术[M].北京:国防工业出版社,2001.
轻松获取“闪光照片” 篇4
关键词:多媒体;实验教学;闪光照片
中图分类号:TP37文献标识码:B文章编号:1673-8454(2008)24-0054-02
高中物理课本在“自由落体运动”一节中首次提到了一种精确研究物体运动规律的方法——闪光照相技术,此方法还在课本上“平抛运动”等其它运动中出现。但是中学实验室中却一般不准备用于闪光照相的昂贵设备。即便有这种设备,在课堂上使用也有诸多困难,如:拍照后的照片冲印,底片数据按比例还原处理等,这一系列问题造成一节课45分钟无法完成教学任务。笔者巧妙运用多媒体课件与简单的落体实验相结合的方法,不仅简单地实现了“闪光照相”,信度高,让学生一目了然,而且节省了时间,效果颇佳,下面介绍一下这个方法。
一、制作“自由落体”课件
工具包括计算机、投影仪、金华科公司“仿真物理实验室”一套。用“仿真物理实验室”制作自由落体课件的方法如下。
1.新建仿真实验
计算机连接投影仪,根据“屏幕距离”在屏幕上的真实尺寸设置好“真实距离”。注意:这一步极为重要!关系到数据处理的准确性和此实验演示的成败,如图1。
2.添加运动对象
从“创建模板”中添加运动对象——小球,并对小球的属性进行相关设置。要点:闪照设置一项必须填好,这里设置闪照周期为0.1秒,如图2。
3.进行实验设置
选择“考虑重力作用”、“显示坐标系”、“显示坐标格”、“显示细网格”,“实验最小扫描时间”设置为0.001秒、“每脉扫描次数”设置为100、“暂停时刻”设置为1秒。
要点:必须将“实验最小扫描时间”设置为0.001秒,“每脉扫描次数”设置为100,这样才能保证实验物体运动时间与真实时间相同,如图3。
4.保存课件
二、实验操作
1.实验演示
将计算机连接到投影仪,启动制作好的课件,两人协同操作:一人拿一个小球放在投影屏幕坐标原点处(课件小球的位置),另一人控制课件。由一人发令,释放小球的同时运行课件。真实的小球与课件小球同步落下,此过程让学生观察课件小球与真实小球的运动是否完全相同,可重复几次。要点:两人动作必须同时完成。
2.数据处理
利用“闪照”得到的“照片”可以很容易地证明自由落体是“匀变速直线运动”,并求得自由落体加速度g。
由于实验设置时显示了坐标系、坐标格、细网格和闪照时间,所以直接可以从“照片”上求得小球在相邻相等的0.1秒内的位置S1、S2、S3……不难发现△S≈S2-S1≈S3-S2≈S4-S3……即:自由落体运动是“匀变速直线运动”,而g=△S/t2≈9.8m/s2,如图4。
三、感悟
模型获取 篇5
在渗透测试开始之前需要对目标进行侦察,目的是获取目标网络的IP地址、运行的操作系统以及应用程序列表[1]。目前渗透测试的侦察工作主要通过一些单一的工具进行,如nmap,nessus等[2,3]。然而,渗透测试是一个迂回迭代的过程,特别是在目标难以攻克的时候往往需要采用一些迂回的方式进行,这其中产生数据量是巨大的。对大量的数据进行分析并建立联系为渗透测试人员带来的不小的挑战。为了进一步提高测试人员获取信息的质量,提出了对检索到的数据集进行再挖掘、再组织的问题。其中的一项核心工作就是聚类,希望借助聚类技术对初步检索到的结果按照主题相似性划分成簇,这样目标的相关信息就可以以层次的形式展示给测试人员。
基于此,本文针对渗透测试中目标信息的获取方法进行研究,定了网络渗透测试数据集内容集合;在分析现有检索结果聚类算法存在的问题的基础上,提出了基于数据集相关性聚类的渗透测试目标信息获取模型,并以此模型为基础设计了原型系统。该模型以关键字抽取方式获取的检索结果集为基础,通过分析分词短语与查询关键字的关联程度选出与查询关键字最贴近的短语,以此为索引将相关报文建立备选簇,最后基于对备选簇和描述短语的评价对簇进行筛选和归并,得到聚类结果。实验结果表明,该模型优于相关工作,该种聚类算法在渗透测试中得到了很好的体现。
1 相关工作
目标信息的获取主要通过侦察的手段获取,侦察分为被动侦察与主动侦察。被动侦察从开放的数据源中收集信息,包括:公司网站、EDGAR数据库、用户组会议、商业伙伴。当要对一个目标进行渗透测试时,测试人员手中仅有的信息可能就是目标的网站,而地址范围需要再进一步去发现。这种情况下就必须做DNS和Whois的主动查询。
对数据的聚类首先在文献[4]中提出,已经成为近年来相关研究领域的热点问题之一。目前已有的方法可以分成两大类[5],第一类是基于文档(Document-based)的聚类方法,先对检索结果集进行聚类,再提取簇描述短语;第二类基于标签的聚类方法,先提取簇的描述短语作为标签,在根据标签聚类。基于文档的典型工作包括了[4,5,6,7,8,9],基于标签聚类的相关工作包括[9,10,11,12,13,14]。在现有的相关工作中只有文献[6,12,14]考虑了与查询词的关联信息,然而,文献[6]通过考察词与查询关键字的关联来提取文档特征,然后基于向量空间模型进行聚类,文中并未涉及描述短语的提取;文献[12]虽然考虑了与查询词的关联,但采用了基于概念格的层次聚类,不清楚与查询关键字的关联强弱对描述短语提取的作用;文献[14]虽然也考虑了关联,但需要Ontology、句法分析等的支撑。
2 渗透测试目标信息的获取模型
2.1 渗透测试数据集定义
本文首先做出如下概念的定义:
网络渗透测试数据集:能够从中分析得到网络渗透测试目标信息的数据类型的集合,称为网络渗透测试数据集。
2.1.1 获取目标网络上主机的IP地址
通过逆向分析IP的Whois信息、域名的Whois信息、反向DNS信息以及自治系统结构(Autonomous System,AS)可以获取目标的IP地址范围。限于篇幅这里就不一一列举对应的信息进行分析,本文仅指出内容。
2.1.2 目标系统运行的应用程序以及操作系统
通过域名历史信息以及IP的外网访问信息可以逆向获取目标的操作系统以及应用程序列表。
综上,数据集内容的定义,如表1所示。
2.2 数据集的相关性聚类算法
在网络渗透测试中涉及到的信息主要包括:IP、DNS、ASN、域名拥有者、邮箱、地址。因此现阶段本文采用关键字差异化抽取的方式对数据集进行处理。对数据进行关键抽取之后即可据此得到检索结果集,对于结果集的相关性聚类算法描述如下:
1)对检索结果集中的每个报文进行分词,抽取单词n-gram(n≤4),作为分词短语;
2)对分词短语与查询关键字进行相关性分析,选出与查询关键字最贴近的短语,以此为索引将相关报文建立备选簇;
3) 将短语与备选簇进行评价、筛选、归并;
4) 得到聚类结果及簇的主题描述词。
2.2.1 报文分词
本文采用基于词典的逆向最大匹配算法进行分词,将文本转化成单词序列,并删除其中的停用词等描述信息能力有限的单词,分词所使用的词典规模为30万。从单词序列中提取所以可能的单词n-gram(n≤4)作为描述簇的候选短语。
2.2.2 相关性分析
本文在提取簇内容描述的关键字时针对每一个n-gram评价其与查询关键字的相关性大小,以此来确定一个n-gram成为簇关键字的可能性。为此,本文采用基于距离的同现统计方法来进行,在同等条件下,n-gram与查询关键的距离越近,相关度越大。设Q = K1K2…KM为测试人员输入的查询,其中Ki为查询词项,m≥1;i = 1,…,m。该查询返回的结果集为R = {R1,R2,…,Rn},其中Rj为数据集报文,j= 1,n,Rj经过分词后被表示成单词序列,设该序列为mj1,mj2,…,mjLj,其中Lj为Rj的长度,对任意的单词N元组(n-gram);G=m1,m2,…,mn其与查询Q在R中的关联度Rele(G,Q,R)定义为:
式(1)中t为R中出现G的报文数量,ReleR(Rj,G,Q)为相关性大小的评价,其定义为:
式(2)中Gi属于Rj代表G在报文片段Rj的第i出现;Qk属于Rj代表Q在Rj中的第K次出现,|{Gi|Gi属于Rj}|w为G在Rj中出现的总次数,|{Qk|Qk属于Rj}|是Q在Rj中出现的总次数,Rele(Rj,Gi,Qk)为对于Rj中出现一对G和Q进行的基于距离的相关性度量,其定义为:
式(3)中D(Gi,Qk,Rj)表示在Rj中第i次数显G与第K次出现的Q之间的距离,这种距离用间隔的单词数来表示。关联度Rele(G,Q,R)基于单词N元组G与查询Q在结果集中的共现频率及距离在R中对它们之间的相关度评价,共现频率越高,距离越近,则表明它们之间的关联度大。
2.2.3 质量判决
经过上述过程得到备选簇及索引后,需要对索引质量以及簇质量进行综合的评价,然后基于此进行备选簇的分裂、归并等处理,最后输出最优的簇及索引,这种优化方式的目标函数可以用式(4)来描述:
式(4)中QL (L1,L2,…,LX)为索引的质量评价,QC为簇的质量评价,用簇间相似度和簇内相似度来衡量。
2.4 原型系统设计
原型系统由分析子系统(Eagle-eye)以及抓取引擎(Crawler-man)两部分组成,Crawler-man的主要功能是抓取基础数据集,基础数据集的本地化是进行分析的前提;Eagle-eye的主要功能是对基础数据集进行处理,同提供交互接口。原型系统的总体结构如图1所示:
3 实验与评价
3.1 实验设置
为了验证本文所提的模型的有效性,选取了如表1所示的2个歧义词、2个实体名、2个意义广泛的词作为查询词项关键字,对他们的检索结果进行聚类。
对上述6个查询结果集请一名资深渗透测试人员对检索结果的前50进行人工聚类,并对其中出现的短语进行打分,目的是描述这些短语是否适合作为簇的索引。具体的打分方法是:浏览前50条检索结果后从中选出10个满意的短语10个中等的短语,其余的默认为不满意的短语。分值如表3所示。
为了与文献[9]中的算法进行对比,本文在实验时用4个查询词项关键字的检索结果集作为文献[9]的训练数据集,剩下的两个查询词项的检索结果集作为本文算法和文献[9]中的测试数据集。需要说明的是,文献[9]采用的聚类方法是回归模型中线性核的支持向量回归模型(SV-L)。
3.2 评价方法
本文采用P@N来评价簇索引的质量,采用覆盖率和重叠率来评价簇的质量,这些指标的定义如下:
3.2.1 P@N
利用在前N个结果中的精确率(P)来评价簇索引的质量。
式(5)中C表示人工标注的正确的短语集合,R表示产生的短语集合。
3.2.2 覆盖率(Coverage)
设结果集中互不相同的文档总数为D(T),前N个簇中的不同文档数为D(TopN),则覆盖率为D(TopN)/D(T)。
3.3 实验结果
从图2中可以看出,关键字“福特”的P@5、P@10、P@20均为1,表示排在前5、前10、前20的索引都是正确的。其中P@5结果的平均值为0.59,P@10结果的平均值为0.58,P@20结果的平均值为0.57。
图3给出了本文算法覆盖率的统计结果。
图4为本文算法( rele)与SV-L在索引平均准确率方面的对比。
从中可以看出两种方式的准确率相当,说明两种算法排在较前的簇索引质量相差不大,但SV-L需要人工标注大量训练数据,而rele无需训练过程,在保证质量的同时节省了人工成本。
图5为rele与SV-L在平均覆盖率方面的比较,从中可以看出rele覆盖率明显高于SV-L。
限于篇幅,下面利用原型系统以google为入口展开查询,如图6所示。
从上可知,在域名列表、DNS列表、ASN列表以及IP列表中原型系统均给出了良好的结果。
5 结论
本文提出了基于数据集相关性聚类的目标信息获取模型。实验结果表明,原型系统较好的满足了渗透测试的实际需求,在模型中使用的算法对提高聚类索引和簇的质量是有效的,覆盖率有明显改善。另外本文还存在改进的地方,目标系统无法识别成新词同时效率还有待进一步提高。
摘要:渗透测试中对目标进行侦察的目的是为了获取目标网络的IP地址、运行的操作系统以及应用程序列表。目前侦察主要通过一些单一的工具进行,这种方式侦察周期较长。结合目标信息内容,提出一种通过对数据集进行相关性聚类的方式来获取目标信息的模型,并设计了原型系统。实验结果表明,该模型优于相关工作,在较短的时间周期内获取了准确的目标信息。
如何获取新客户 篇6
新客户获取是每一个营销人都会面对的任务,更是必须完成的首要任务,因为这是企业经营业绩持续增长的前提,而迅速扩张是企业在新兴市场上取得成功的第一步,否则就只能在第二梯队中苦苦追赶了。同样,在扩张过程中企业还要重视维护现有的客户关系。
关于新客户获取的一些原则和方法,许多营销人并不陌生,比如Acxiom就有客户获取六步论,其步骤依次是:一、建立潜在客户数据库;二、找到现有最佳客户的特征;三、根据特征扩充潜在客户数据;四、策划有针对性的营销活动;五、吸引、转化符合条件的潜在客户;六、把结果反馈到数据库中,形成一个漂亮的闭环。
问题是,许多企业的营销人士反映,理论大家都懂,也想尝试着在企业内部推行,却发现每一步都困难重重,举步维艰!
典型表现
步骤之一,建立潜在客户数据库。公司IT人员说他们的项目计划已经排到明年了,都是关于现有客户交易系统的。潜在客户数据库?帮你搞一个最简单的,先用着再说。
步骤之二,找到现有最佳客户的特征。自己分析了半天,ExcEL图表画了不少,最佳客户看似有了选取标准,年龄、地址、交易金额,每个区隔又进行分段,但不知如何选取,最后又回到凭经验选择的老路上。
步骤之三,根据特征扩充潜在客户数据。扩充潜在客户数据,这件事原来很简单,直接向数据公司购买呗,虽说质量不高,但需求量大,价格压下来后可以沙里淘金嘛。不过今年新的刑法修正案出台了,买卖个人信息违法,怎么办?
步骤之四,策划有针对性的营销活动。活动总体方案很快就设计好了,按照领导的意思,主推产品A,费用也争取下来了,但是怎么叫有针对性呢?这么多潜在客户,把他们的接触渠道扫一遍也无法全面覆盖,再叠加一个渠道吧,费用肯定不够用,原本这点钱还要安排促销活动呢。
步骤之五,吸引、转化符合条件的潜在客户。吸引、转换客户,那是销售人员的职责啊!市场部就定个指标压下去,销售人员叫苦不迭。告诉销售人员费用就是这么紧,不可能拿出更多的费用了。
步骤之六,把结果反馈到数据库中。反馈结果,只能先把成功与否导人系统,与客户的接触过程呢?系统不支持,也不知道要把数据存放在哪里。
获取新客户的过程是一场艰苦的战斗,让我们一起重温这六个步骤,分析理论与实践不相吻合的问题,找到这些问题背后的原因。
深入剖析
步骤之一,建立潜在客户数据库。这是一个常见的问题,其背后的原因令人深思。
首先,企业内部的IT资源永远是有限的,按照合理配置原则,资源应该投入到最重要的环节,也就是能够最大化产出的环节。你会觉得潜在客户代表了企业未来的业务来源,不是说获取新客户是营销人员最重要的任务吗?对,但这可不是IT人员的想法。IT人员首先要保证系统的稳定与正常运行,围绕一个交易系统,需要改进的问题太多了,你的项目排到明年很正常,如果让他们列一个3年计划,你的项目很有可能就被排到3年以后了。如果你到上层领导处理论,你就要先回答自己两个问题:你的潜在客户转换成正式客户的可能性有多大?因为交易系统的需求没有得到改进,现有客户流失的可能性有多大?这里既涉及全局考虑,也与谁是项目负责人有关。
其次,潜在客户数据库是需要为营销服务的,它是关键的第一步,和传统的交易系统在架构设计上差别很大,需要将长时间的营销经验积累转换成数据结构和应用程序,如果想将就使用,搞一个简单的数据库,甚至连系统都没有,而是直接用ExcEL、AccEss等工具,那么后面遇到的许多问题答案就无解了。
步骤之二,找到现有最佳客户的特征。这不仅仅是一个技术问题,技术无所谓先进,关键是要解决业务问题,正所谓长枪短炮需要结合使用,都有用武之地。除了极个别情况,最佳客户散落在各个区段中,如果用描述性方法,可以找到一部分,但是肯定会漏掉很大一部分。更关键的是,只采用描述性方法,敏感度较低,导致你以后会陷入认识上的误区,对找到的那部分人过分沟通,进而完全忽略其他目标客户,犯下和经验选择法一样的错误。
步骤之三,根据特征扩充潜在客户数据。目前,在中国使用客户数据受到了法律的限制。而且根据世界各国通行的做法,比如欧盟数据保护法和美国隐私保护的相关法律都告诉我们,中国的刑法修正案只是迈出了第一步,更多具有操作性的法律条文以及司法解释会陆陆续续出台,也就是说,法律会更严格。未雨绸缪,你需要抓紧时间找到新的方法应对。如果能够借鉴国外企业的做法,你就能提前了解今后你会面对怎样的市场环境,保护你的投资。
步骤之四,策划有针对性的营销活动。这个问题出现在营销活动设计阶段,类似于战场上的总攻计划怎么定。如果前面几步没有做好,你也只能在产品和定价方面听领导的,至于客户接触渠道你只能凭感觉了。不少培训教材说个性化的营销活动是在正确的时间、通过正确的渠道、用正确的产品、开展正确的促销活动、获得正确的客户。其实,所谓的“正确”根本离不开完整的数据支持、实用的模型分析,以此为基础,加上你对于业务的理解,你才可以做好业务。
步骤之五,吸引、转化符合条件的潜在客户。营销人员常常有意或无意地分成市场和销售两个阵营,其实两者是联系在一起的,销售人员如果没有市场人员支持、指导,做销售就只剩下蛮力了。而市场人员常常认为销售和自己无关,事实上,再好的营销方案没有强有力的销售执行只是空中楼阁。在客户转换的过程中,除了与产品和服务密切相关的专业知识,好的营销过程,特别是行业内的一些销售经验、技巧,都有助于将销售力量和客户潜力相匹配,促使市场活动与销售努力的方向相一致。
步骤之六,把结果反馈到数据库中。这个环节出现问题,从表面上看是当初设计时技术上考虑不周,实际上有两种情况,其一,是营销人员重结果、轻过程,由于过分关注结果,导致每次和客户接触都从零开始。不去总结“过程”是如何影响“结果”的,如何提高效率?其二,是技术和经验方面的问题,信息千千万万,需要记录所有的反馈结果吗?怎么记录呢?你不妨回头看看关于步骤之一的讨论。用于获取客户的营销系统是不同的,因此,你不能用传统的交易系统思维约束它。
总结