关联技术

2024-10-14

关联技术(精选12篇)

关联技术 篇1

1、前言

电脑网络的快速发展, 产生了许多新型的应用及信息的沟通方式, 但也产生了许多网络犯罪及入侵攻击事件, 一方面是因为软硬件具有可被入侵的漏洞, 另一方面网络及系统管理员希望能够安全地防护所管理的系统及敏感信息, 所以信息加密技术、防火墙、杀毒软件等安全防护措施便应运而生。时间证明一直以来这些技术仍然无法杜绝攻击事件的发生, 因此具有不同技术和特性的入侵检测系统 (Intrusion Detection System, IDS) 成为信息系统的第二层防护。入侵检测系统是由软件或硬件所组成, 用来主动监测在信息系统和网络中所发生的安全事件。当主机被攻击时, 入侵检测系统分析主机所遭受的入侵程度和损害程度, 并依此发出报警, 使管理员可以依据报警信息作出即时的反应和事后的修复工作。

2、研究问题

2.1 问题分析

目前入侵检测系统主要面临以下几个问题:

(1) 因为不同入侵检测系统的特性及检测能力不尽相同, 单一的入侵报警无法完整且正确的搜集系统所受的威胁及所面临的攻击事件信息。如网络型入侵检测系统, 无法确认主机是否实际遭到入侵;而主机性入侵检测系统则无法得知入侵前攻击者所采取的攻击方式。

(2) 入侵检测系统会产生的正确报警, 可以提供报警的重要性级别, 但是无法关联某项攻击的流程和顺序, 造成管理员无法即时对攻击事件作出回应或修复系统的漏洞。

为了解决上述问题, 若能研究出一套能有效处理不同入侵检测系统报警信息的方法, 除了可以过滤误报并减少管理员负担之外, 并可以借由高重要性攻击知识库描述机制的引入, 来引导低重要性报警信息的整合, 并提供足够的关联分析依据, 用于从报警信息中迅速提取出完整的攻击脚本和攻击路径, 最后提供优先顺序来帮助管理员判断处理攻击事件的发生。

2.2 研究方法

本研究的解决方法是引进元攻击 (Primitive Attack) 作为高级报警信息来整合不同入侵检测系统所发出的报警信息, 并以元攻击信息为基础来关联出攻击脚本 (Attack scenario) , 再以隐藏式马尔可夫模型 (Hidden Markov Model, HMM) 来判断攻击脚本的优先顺序。

(图1) 是以元攻击为基础的入侵检测报警关联系统的架构图, 大致分为左侧的元攻击的建模与检测子系统, 以及右侧的以元攻击为基础的攻击脚本关联与检测子系统。左侧子系统主要负责建模与识别元攻击, 基本概念是利用自动产生的原始攻击模板来整合不同入侵检测系统所发出的报警信息, 使其统一格式为元攻击, 一方面可以减少报警数量, 另一方面可以提供更有实际意义的高级报警信息, 以降低右侧的关联处理负担。右侧子系统则利用元攻击为基础来进行攻击脚本的识别, 再通过攻击脚本的减少及删除, 来过滤错误的攻击脚本, 并经由HMM计算发生几率后加以排序。管理员可以根据排序后的攻击脚本所提供的攻击信息, 针对目前的安全状况作出正确的评估与反应。

2.3 系统架构

本文以高级攻击计划为关联基础的概念发展出一套新系统, 此系统能够自动建立攻击子计划 (Attack Sub plan) , 并利用子计划的组合来进行脚本关联, 关联后产生的攻击脚本再利用整合及几率的方式来找出最重要的攻击脚本并预测最有可能的攻击。

3、系统分析

3.1 元攻击 (Primitive Attack)

所谓元攻击是依据元攻击模板 (Template Primitive Attack) 所制定的规则及限制条件, 将异质入侵检测系统的入侵报警信息整合为高级报警信息。之所以需要元攻击来整合异质入侵检测系统的原因是, 不同的入侵检测系统的特性和功能都有所差异, 若以单一的报警进行攻击手段的分析往往会因为数据的正确性和依据的不足导致无法正确识别出攻击脚本。因此在本系统中使用元攻击作为组成攻击脚本的基本元素, 并利用元攻击的特征相似度作为关联攻击脚本时的判断依据。

3.2 攻击知识实体 (Attack ontology)

之前所提到的知识实体是一种将特定领域概念化的工具, 并利用这些领域的正规化描述概念来达到知识分享以及再使用的目的。本文参照MIT Lincoln Lab Intrusion Detection Attacks Database的攻击分类方式, 开发出攻击知识实体, 本攻击知识实体用来确认元攻击所属的攻击类型, 并提供知识来协助攻击脚本的关联。

这三大攻击分类下分别再衍生出各种子分类, 用以描述更细化的攻击行为。每一个攻击分类除了继承父类别的属性外, 也可以增加新的特征以及对应关系来增强描述高攻击分类所扮演的角色。在攻击知识实体的树状架构的最下层, 描述了构建攻击知识实体的基本元素, 即元攻击, 这样借由元攻击所属的攻击分类可以协助理清元攻击之间的互相关系以及元攻击在攻击脚本中所扮演的角色。

3.3 关联时间窗口评估器 (Correlation Time WindowEvaluator)

在本系统中利用子计划模板来关联元攻击, 但是在建立攻击子计划模板之前, 需要先考虑时间因素对于关联操作的影响, 因为关联时间窗口太小则无法进行有效的攻击关联, 并导致无法找出攻击脚本;如果时间窗口太大则会产生过多的攻击脚本, 导致影响系统的性能和攻击脚本的正确性。因此本文先将攻击资料库转换成为元攻击序列, 再分析各元攻击序列的时间戳, 以找出更适当的关联时间窗口。利用Mutual Information Method来分析元攻击序列。

式2中p (a) 、p (c) 表示元攻击a、c在元攻击序列中个别的发生几率, p (a, c, d) 表示在时间长度为d的情况下, 元攻击a发生在元攻击c之前或者之后的几率, I (a, c, d) 表示元攻击a、c的关联度, 式3中MI (a, c, d) 表示元攻击序列在时间长度为d的状况下整体的关联强度。借由Mutual Information Method可以得到在不同关联时间d下, 元攻击序列的关联度。无论在哪一个攻击信息库在某一特定时间后, 元攻击之间的关系便会达到稳定的状况, 即元攻击之间已经没有其他的关联发生。通过Mutual Information Method的分析, 关联时间窗口评估器即可挑选出一个适当的时间窗口作为攻击子计划模板产生器的时间窗口变量及关联攻击的时间窗口依据。

3.4 攻击子计划导向的脚本组合器 ( (Attack Sub plan Tem-plate Directed Scenario Composer)

攻击子计划导向的脚本组合其旨在利用攻击子计划模板来关联元攻击并产生对应的攻击脚本。首先在接受到元攻击后, 根据攻击知识实体所记录的攻击子计划模板实体化元攻击对应的攻击子计划。若发现两个元攻击所对应的攻击子计划具有相同的攻击类别是, 即可利用特征相似度评估器来判断两个元攻击之间的相似程度, 若相似程度达到一定的标准则将两个元攻击所产生的攻击子计划进行整合以达到关联目的。以此可以循序建立出攻击脚本以供后续进行分析及预测, 反之则表示两个元攻击虽然有关联的攻击类型, 但是因为特征的相似度不足而被判断为独立的攻击事件。

3.5 特征相似度评估器 (Attributes Similarity Evaluator)

特征相似度评估旨在通过两个元攻击间的特征值比对来决定其相似度。本系统中采用源IP地址、源端口、目标IP地址和目标端口作为比较的特征值, 设计了相似程度关联表作为比较的依据。等级1表示元攻击A的源IP地址、源端口、目标IP地址和目标端口与元攻击B完全相同;或元攻击A的目标IP地址、目标端口相同于元攻击B的源IP地址、源端口且元攻击A的源IP地址、源端口相同于元攻击B的目标IP地址、目标端口。

元攻击之间的特征相似度的确认除了能够判断是否进行关联之外, 还可以用来提供帮助预测攻击脚本发生几率的信息。

4、结语

本文在探讨以元攻击为基础的入侵报警关联系统的攻击脚本关联部分。首先在攻击计划模板建立模型中透过攻击信息库的元攻击序列的时间戳分析, 建立攻击子计划模板与攻击脚本所需的关联时间窗口, 之后在关联时间窗口下利用元攻击间的关联强度分析来建立对应的攻击子计划模板, 再借由攻击知识实体所提供的攻击分类知识来进行攻击子计划模板的过滤和确认, 最后再将合法的攻击子计划模板记录至攻击知识实体中, 并提供后续元攻击的关联。在攻击脚本关联与预测模块中, 通过攻击子计划模板为导向的攻击脚本组合器来进行元攻击的关联, 并借由特征相似度的比较来元攻击间关联发生的可能性, 并利用攻击脚本结合器来过滤单一行为所产生的攻击脚本和减少攻击脚本中所包含的错误元攻击, 之后再以攻击脚本排序器计算出攻击脚本的优先顺序。

摘要:随着计算机网络的飞速发展, 信息安全越来越受到人们的重视。入侵检测技术作为保证计算机网络安全的核心技术在保护计算机安全方面起着越来越重要的作用。本文从入侵检测技术的基本概念和发展入手, 以攻击事件的关联分析方法如何减少入侵检测系统的误报及漏报率进行了综述和研究, 同时讨论了入侵检测系统面临的主要问题及今后的发展趋势。

关键词:入侵检测系统,关联分析预测,攻击脚本关联,元攻击行为建模

参考文献

[1]卿斯汉, 蒋建春, 马恒太等.入侵检测技术研究综述[J].通信学报, 2004, 25 (7) :19—29.

[2]lajinath B, Raghavan S V.基于学习行为模式的入侵检测[J].计算机通信, 2001, 24: (12) :1202.1212. (英文版) .

[3]HU C, eng.ming, LIAO Jun—quo.基于支持向量机的入侵检测研究[c]//第1届高级计算机理论与工程国际会议论文集.普吉岛 (泰国) :IEEE计算机学会出版社, 2008:434—438. (英文版) .

[4]李守鹏;信息安全及其模型与评估的几点新思路[D].四川大学, 2002年.

[5]罗守山, 陈亚娟, 宋传恒, 王自亮, 钮心忻, 杨义先.基于用户击键数据的异常入侵检测模型[J].北京邮电大学学报, 2003年04期.

关联技术 篇2

灰色关联分析法在铁矿技术经济评价中的应用

矿产资源是国民经济发展的物质基础,建立科学实用的铁矿资源开发利用技术经济评价模型十分重要.通过收集1994~ 的.铁矿资源开发利用的数据资料,利用灰色系统理论中的灰色关联分析方法进行处理,得到了铁矿资源的采选冶技术经济指标与最优指标的关联系数,从而得到了铁矿资源1994~ 20技术经济指标的总体变化状况.

作 者:许民利 陈晓红 作者单位:中南大学刊 名:金属矿山 ISTIC PKU英文刊名:METAL MINE年,卷(期):“”(11)分类号:关键词:灰色关联分析 铁矿 技术经济评价

关联技术 篇3

关键词:计算机网络原理;实践教学;关联性

一、传统计算机网络原理实践教学现状

计算机网络原理课程是计算机专业学生的重要基础专业课程之一,该门课程的学习效果会对学生后续专业课程的学习产生重要影响。由于计算机网络原理课程的理论性较强,教师在教授过程中通常采用“就理论谈理论”的方式,而计算机网络原理的实践课程,则多数依照配套辅助教材进行授课。配套教材大多只是有针对性地训练学生熟悉掌握相关网络命令,并利用常用抓取数据包软件对相关网络协议进行分析,目的是让学生理解和掌握该门课程,但是这种实践教学方式存在着诸多不足之处。

在计算机网络原理传统的实践教学中,教材相关配套实验课程的教学效果不明显。主要原因在于学生刚接触计算机网络原理课程,对该门课程很生疏,对于网络结构体系相关知识比较陌生,在没有良好的理论知识做基础的前提下,他们很难理解利用抓取数据包软件进行网络协议分析的真正含义,也会对计算机网络原理这门课程产生厌烦情绪,从而影响了教学效果和学习效率。

二、实践教学关联性创新

1.创新方案

综上所述,盲目按照教材配套实验教学方案进行授课,虽然可以指导学生在一定程度上理解和掌握计算机网络原理这门课程的相关理论知识,但是这种方法在实际的实践教学过程中很难达到良好的教学效果。因实践教学环节缺乏与其他计算机基础专业课程之间的联系,导致学生很难产生兴趣,这也直接导致学生对专业课程相关知识点的关联性的理解和掌握的不足。针对上述的不足之处,本文提出加强实践教学关联性的创新方案:实践教学不仅要与教材相对应,完成指导和锻炼学生掌握教材理论和实践能力的目标,更要考虑与其他课程知识的关联性,结合学生的学习情况,有针对性地选择和设计实践教学内容,才能加深学生对相关知识的理解,增强其对所学课程知识点的运用技巧。结合计算机网络原理课程的重要性,此次研究以计算机网络原理课程作为加强实践教学关联性创新实例。

2.加强实践教学关联性创新方案实例

实验内容:模拟实现网桥的自主学习算法。

实验目的:锻炼学生对数据结构知识的运用,加深其对自主学习算法的理解。

自主学习算法流程图以及实现的核心代码如下:

图1 自主学习算法流程图

以上的这种实践教学方法,打破了传统计算机网络原理课程实践教学环节中,抓包分析数据枯燥难懂的低效学习方式;根据自主学习算法流程图,运用程序实现自主学习算法,对于学计算机网络原理的学生,不但加深了对Mac帧结构模型的理解,对OSI体系结构模型以及在结构系统模型中数据通信过程有了更深刻的理解。学生在掌握一定的数据结构理论基础上,达到了锻炼动手编程能力以及加深对数据结构相关理论知识理解的目的,也使学生对于课程知识之间的关联性有了新的认识,对于计算机专业知识体系结构也有了更深刻的理解和掌握,为后续的计算机专业知识的学习打下了坚实的基础。

三、结束语

计算机网络原理是一门基础的专业课程,利用增强基础专业课程关联性的方法引入实践教学环节,让学生可以更好地理解和掌握专业知识的关联性,不仅提高了学生对本门课程理论基础的理解和掌握能力,也有利于学生建立计算机专业课程知识体系。培养计算机基础专业课程能力,是为了使学生能够更好地掌握构造计算机专业知识体系的有效方法,增加各个课程之间的关联性,有助于学生对专业知识系统的理解和掌握,这也是创建应用技术型大学对于学生的培养要求。只有使学生建立一个完整的知识体系结构,才能让学生真正做到学以致用,将来步入社会做一个对社会主义建设有贡献的人。

参考文献:

[1]曹利.《计算机网络》实验教学的分析和设计[J].计算机时代,2008(7).

[2]谢希仁.计算机网络[M].北京:电子工业出版社,2003.

[3]周轶捷.浅谈《计算机网络原理》实验教学改革[J].信息系统工程,2011(4):158-159.

关联技术 篇4

近年来随着Internet的飞速发展, 计算机网络的资源共享进一步加强, 然而资源共享与信息安全历来都是一对矛盾, 网络的安全正面临着越来越严重的挑战。入侵检测技术的出现可以使网络管理员可以获知攻击的发生, 但传统入侵检测技术只能在一定的程度上得知攻击的发生信息, 网络管理员不能获知网络攻击的威胁程度, 不能获知相关的网络安全态势信息, 从而使网络管理员对现实的网络情况做出相应的决策具有很大的难度。

未来的网络应用需要更高的安全性, 这就要求网络管理员要及时地掌握网络安全态势信息, 并及时地做出相应的操作来消除攻击的威胁。网络安全态势评估技术就是解决上述问题的一种新型网络安全技术。

1 网络安全态势评估模型及基于模糊信息融合技术的攻击要素关联

根据waltz的网络安全态势评估总体框架, 文献[1]设计了网络化系统安全态势评估模型。系统分为两个子系统:攻击检测系统和安全态势量化评估系统 (见图1) 。

在对攻击进行评估时, 需要考虑攻击本身的强度和攻击获得成功的难易程度。单纯的入侵检测系统不能给网络管理员提供具体的态势信息, 而只是产生大量的系统信息和底层数据。系统必须将攻击数据提炼成为攻击信息, 进而提炼成为攻击知识后才能为网络管理员所理解、运用。但是由于上述三个攻击要素具有不确定性、非完整性、模糊性和多变性的特点, 因此很难对其进行界定和关联。本文主要探讨第一个子系统, 即基于模糊信息融合技术的攻击要素关联。

2 攻击要素的定义

2.1 攻击危害度C1

结合文献[2]中的不足, 本文对攻击危害度C1的定义:

网络攻击的危害度是指网络攻击对整个应用系统造成危害的程度。对于第k类网络, 第t类攻击的危害度Hkt可由公式 (1) 计算得出。

C1kt=Νk (100At) (14r=14Ctr) (1)

本文中假设当前有3种网络类型, 其网络类型影响因子Nk赋值如表1。

攻击类型的划分采用了以攻击侵入层次为依据的分类法, 该方法主要来自于普渡大学的Kumer S的博士论文[3]中的分类法, 将网络攻击分为如表2所示的7类, 以攻击侵入层次递增的顺序排序。At表示第t种攻击类型的影响因子, 见表2。

2.1.1 攻击源影响因子Ct1

攻击的来源。取值为“内部”和“外部”两种。来自内部的攻击一般比来自外部的攻击危害度大, 见表3。

2.1.2 攻击目标影响因子Ct2

攻击针对的目标。根据重要性分为“重要主机”和“一般主机”, 其中重要主机可以根据需要细分为各种服务器, 见表4。

2.1.3 受影响范围影响因子Ct3

表示攻击成功后目标系统受影响的范围。分为“单机单用户”、“单机所有用户”和“网段”3类。

2.1.4 可恢复程度影响因子Ct4

表示攻击成功后目标系统恢复的能力。分为“现场可恢复”、“离线可恢复”和“不可恢复”3类, 见表6。

2.2 攻击难易性

攻击难易性是指该实施某类攻击获得成功的难易程度, 也可以看成是某类攻击发动成功的概率。攻击难易性的计算是通过对被攻击系统是未免疫系统的可能性的计算来完成的。

结合文献[3]并针对其不足, 本文对攻击难易性进行了如下改进。定义如下变量:

HT—目标系统是未免疫系统的类型;

HVT—目标系统是未免疫系统类型的未免疫版本;

ST—目标系统上的服务是未免疫服务类型;

SVT—目标系统上的服务是未免疫服务类型的未免疫版本。

根据系统类型和服务类型的情况, 本文相应地给定一个0—10 之间的值 (如表7) 。将两个值相乘得到攻击难易性值。

2.3 攻击频率

攻击频率是指单位时间内, 网络化系统内某类型网络攻击A被检测出所发生的次数。

3 基于Mamdani模糊推理的攻击要素关联算法。

3.1 输入变量模糊化

本文中输入变量攻击危害度C1、攻击难易度C2、攻击频率C3模糊化均采用三角形隶属度函数[5]。

f (x;

a, b, c, d) ={0, xa;x-ab-aaxb;c-xc-bbxc;0, cx

3.2 应用模糊算子

由于攻击要素包含三个部分, 所以我们给定的规则前有三个命题。这三个命题存在“与”的关系, 本文使用的模糊算子取与算子min (模糊交) 。

3.3 模糊蕴含

在Mamdani算法中模糊蕴涵选取的是最小运算 (Mamdani) :

AB=min (μA (x) , μB (y) ) 。

3.4 模糊合成

在Mamdani算法中模糊合成选取的是max (模糊并) 。

3.5 反模糊化

反模糊化把输出的模糊集化为确定数值的输出, 在Mamdani算法中反模糊化使用的是中心法 (Centroid) 。

4 仿真实验验证

仿真实验过程分为攻击要素关联和层次态势融合两部分, 其中攻击要素关联实验采用MATLAB 7.0模糊工具箱 (Fuzzy ToolBox) [6], 层次态势融合 (在本文中不做描述) [1]则使用MATLAB 7.0中数值计算功能和统计计算功能, 最终结果通过MATLAB 7.0中图形处理功能展现出来。在本文中采用了2000年11月的HoneyNet数据集[7], 所选用的实验环境变量如下:

4.1 攻击危害度指数C1

根据公式 (1) , 得出

C1=0.5×At×100× (0.7+1+0.7+0.5) /4=35At

4.2 攻击难易性指数C2

在分析报警数据后, 没有发现一些不相关的无效攻击。本文得出难易性指数C2=系统类型值H×服务类型值V=10×10=100。

4.3 攻击频率指数C3

在本仿真实验中规定攻击频率指数C3=100×攻击次数/MAX。这样就可以解决在模糊推理过程中反复调整输入数据隶属度函数参数的问题。

4.4实验结果与分析

HoneyNet 系统服务级安全威胁态势 (以107主机为例) 直观地给出三个服务的安全态势, 见图2。给管理员提供以下直观信息:相对于其他两个服务, 系统中开通的rpc服务受到频繁攻击。这说明rpc服务可能存在较多或较容易攻破的漏洞, 值得管理员对这个服务的设置情况进行检查。另一方面, 这也可能说明针对rpc服务的攻击是当时网络攻击的主要目标。

5 结论

本文首先提出了网络化系统安全态势评估模型, 进而详细定义了三个攻击要素:攻击频率、攻击难易性和攻击危害度, 使之可以更加精确的表示攻击次数、攻击成功概率和攻击造成的严重后果。然后结合模糊信息融合技术, 针对攻击信息的不确定性、不完整性、模糊性和多变性的特点, 提出了使用Mamdani模糊推理算法来实现攻击要素的关联。通过仿真实验证明该算法可以有效地将IDS产生的海量数据融合为可供网络管理员方便使用的安全态势值。

摘要:主要针对当前网络安全态势知识不易获得的问题, 提出了自己的网络化系统安全态势评估模型并定义了攻击要素。继而使用动态的方法量化了攻击频率、攻击难易性和攻击危害度, 使之可以更加精确地表示攻击次数、攻击成功的概率和攻击造成的严重后果。同时针对攻击信息的不确定性、不完整性、模糊性和多变性的特点, 提出将一种模糊信息融合方法——基于Mamdani模糊推理的算法来实现攻击要素的关联。最后, 应用Matlab7.0仿真实验工具进行了仿真, 实验结果证明, 本文提出的算法可以真实地反映安全态势情况。

关键词:网络安全态势评估,模糊信息融合,攻击要素,关联

参考文献

[1]孙宁.网络化系统安全态势评估设计及态势融合模型研究.硕士学位论文, 兰州:兰州理工大学, 2007

[2]张怡, 张拥军, 陈海涛, 等.一种新的网络攻击危害度定义方法.计算机工程, 2002;28 (8) :33—34

[3]Kumer S.Classification and detection of computer intrusions.Ph.D.Thesis, Purdue University, WestLafayette, Indiana, 1995:08

[4]王磊, 于洪奎, 谢慧, 等.针对具体主机的网络攻击危害度评估模型.计算机工程与设计, 2005;26 (6) :1519—1521

[5]郑亚林, 黄德隆, 郭健, 等.Fuzzy推理的Mamdani算法.宝鸡文理学院学报 (自然科学版) , 2001;21 (3) :168—173

[6]楼顺天, 胡昌化, 张伟.基于MATLAB的系统分析与设计——模糊系统.西安:西安电子科技大学出版社, 2001

关联技术 篇5

外商投资企业和外国企业所得税法实施细则第五十二条和征管法实施细则第三十六条所称“在资金、经营、购销等方面,存在直接或者间接的拥有或者控制关系”、“直接或者间接地同为第三者所拥有或者控制”、“其他在利益上具有相关联的关系”,主要是指企业与另一公司、企业和其他经济组织(以下统称另一企业)有下列之一关系的,即为关联企业:

(一)相互间直接或间接持有其中一方的股份总和达到25%或以上的;

(二)直接或间接同为第三者所拥有或控制股份达到25%或以上的;

(三)企业与另一企业之间借贷资金占企业自有资金50%或以上,或企业借贷资金总额的10%是由另一企业担保的;

(四)企业的董事或经理等高级管理人员一半以上或有一名常务董事是由另一企业所委派的;

(五)企业的生产经营活动必须由另一企业提供的特许权利(包括工业产权、专有技术等)才能正常进行的;

(六)企业生产经营购进原材料、零配件等(包括价格及交易条件等)是由另一企业所控制或供应的;

(七)企业生产的产品或商品的销售(包括价格及交易条件等)是由另一企业所控制的;

关联技术 篇6

关键词:数据挖掘;电子商务;关联分析;系统

中图分类号:TP311.13 文献标识码:A文章编号:1007-9599 (201105-0000-01

Data Mining Technology Application in E-commerce Based on Correlation Analysis

Wu Juhua

(Xinxiang University,Xinxiang453000,China)

Abstract:This paper introduces data mining application in e-commerce,focusing on data mining technique of association analysis.Associated with data mining techniques to develop effective,practical data mining system.

Keywords:Data mining;E-commerce;Correlation analysis;System

随着计算机技术,网络技术和数据库技术的成熟。商务电子平台为客户提供了便捷,商家要了解客户的购买情况,需要对大量的购买数据进行分析,主要分析客户的喜好,对产品的要求,以及购物的具体需求,这样数据挖掘技术对具有海量的购买数据进行分析,可以得出有价值的信息,这些信息为企业的决策提供了重要的参考依据。目前很少有做电子商务的企业会考虑到应用数据挖掘服务,随着硬件发展的加快,如今的服务器都可以做数据挖掘的分析,因此,在电子商务平台应用数据挖掘技术是未来发展的一种趋势,这样可以避免企业造成决策上的失误。

数据挖掘技术发展了数十年,一直停留在技术的研究,近几年数据挖掘技术被广泛的应用在各个领域,也越来越多的走近我们的生活,现在也具备实现数据挖掘技术在电子商务平台应用的条件,与电子商务销售关系最密切就是关联分析算法,选择这个算法就是为了判断客户与商品之间的关系,从大量的数据分析客户潜在的购物需求。本文结合数据挖掘技术在电子商务中的应用,以数据挖掘的关联分析这个技术角度进行分析,指出各种数据挖掘技术适用的场合,以便开发出切实可用的数据挖掘电子商务系统。

一、相关应用技术概念

关联规则的概念和模型首先是由R.Agrawal和R.Srikant于1994年提出的。目前对关联规则的研究可分为以下几类:一是按变量的类别。二是按数据的抽象层次。三是按数据的维数。

关联规则定义为:假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。

关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。

Apriori算法是Rakesh Agrawal和Rnamakrishnan Srikant在1998年提出的关联规则的经典算法,它利用已知的高频数据项集推导其他高频数项集,是一种宽度优先算法。

二、数据挖掘求解问题的步骤

关联规则求解问题的步骤为:

(一)预处理与采掘任务有关的数据,根据具体问题的要求对数据库进行相应的操作,从而构成规格化的数据库D。数据的格式对挖掘起着至关重要的作用,要合理有效的把原数据格式化成规范化及合理的形式,这样可以让结果更准确。

(二)针对D,求出所有满足最小支持度的项集,即大项集,此步是算法的核心。求出的项集数目非常大,要合理的筛选和分析,找出最佳条件。

(三)生成满足最小可信度的规则,形成规则集R,解释并输出R。

三、数据挖掘在电子商务的实际应用

(一)在进行数据挖掘项目之前需要对数据进行预处理,数据预处理是知识发现中很重要的一个环节,占整个项目的60%的工作,高效的算法往往依赖于高质量的或者特殊要求的数据,数据预处理主要包括三个步骤:数据清理、数据集成和数据变换。数据清理是清除一些冗余数据,消除噪声数据,把不符合要求的数据去掉。数据集成需要把多种不同的数据源集中在一起,形成统一要求和规则的格式,有时候还需要把属性值合并,集成的数据还可以降低数据的维数,减少无用的变量等。

(二)数据建立好之后,就需要建立挖掘的模型,同一数据表有很多种不同模型,建立的模型不同,那么挖掘出来的效果和准确性不一样,或者在定义的时候分析的内容也不一样,模型的建立应该建立在所要达到的目的的基础上,那么这个就是涉及到输入的列和预测的列,不同的列得到的结果不同,所以要明确项目的目的,在关联规则中,为了预测客户与商品间的关联性,可以输入全列和预测全列,得到不同的组合,主要因为关联规则主要是得出属性之间的关系,所以基本上可以把数据即当作输入列也当作预测列。模型建立好后可以随时修改模型,互相对比以期得到最有价值的信息。

(三)进行相关项目挖掘后,会得到模型挖掘结果,这时候就需要对模型的挖掘结果进行理解和评估,得到有用的信息才可以真正应用到实际需求定位。分析结果的时候首先要判断其概率,正确性,准确性等数值是不是达到标准要求,首先取概率最高的结果,然后从概率最高的结果查看正确性,正确性高也不能代表结果符合要求,另外还要查看准确性图表,准确性图表反映挖掘在实际过程应用过程的基本情况,要提高准确性可以修改模型进一步进行项目挖掘,对比每次挖掘的图表可以找到好的模型结构。

(四)对结果理解之后在应用到实际过程中,需要进行有效的分析,应用实际过程中,要跟踪分析,收集相关信息进一步做下一次挖掘的项目数据,有效的更改计划,让商品更符合客户需求的实际情况。然后根据数据挖掘对数据分析的结果,对电子商务系统不断调整,以符合最近时期的市场,在这个过程中,不断完善数据的收集和分析,使得数据挖掘系统和电子商务系统形成有机的整体。

参考文献:

[1]陈安,陈宁.数据挖掘技术及应用[M].科学出版社,2006

[2]葛志远.电子商务应用与技术[M].清华大学出版社,2005

[3]邓鲲鹏.数据挖掘与电子商务[J].商场现代化,2007(25):94

[4]Larry L.Peterson,Bruce S.Davic. Computer Netword. Morgan Kaufmann Press.New Zealand,2002

[作者简介]

关联技术 篇7

关键词:关联规则,多故障定位,提高定位效率,聚类方法

0 引言

随着软件产品的发展,软件规模以及软件复杂度的不断增大使得软件调试过程越发困难。软件故障定位是调试过程中成本最高同时耗时最长的一项[1]。在软件自动化调试领域,出现了许多相应的方法,Jones和Har rold提出了Tarantula[2]方法,该方法通过对比程序实体在失败测试用例和成功测试用例之间的差别,计算程序实体的怀疑度实现故障定位。C.Liu提出了SOBER[3]方法,该方法使用谓词在测试用例中取值为真对程序故障出现的影响实现故障定位。其他还有一些定位方法[4-6比如CBI、NNQ、SBI等。这些方法大多使用程序实体的覆盖信息来计算每一个程序实体的可疑度,然后通过可疑度排名列表去发现软件故障。这些方法虽然在单故障的情况下取得了很好的效果,但是在多故障的情况下,效果都不是很理想。他们大多都采用one-bug-at-a time的方式实现多故障的定位,但是这种方式弊端明显:时间效率低,同时需要重复测试。

Jones和Harrold提出了一种并行调试技术[7],通过对可能导致同一个故障的测试用例进行分类,然后结合成功执行的测试用例构造用以测试每个故障的测试用例子集,来同时定位不同的软件故障。但现有的基于覆盖率的错误定位(Coverage Based Fault Localization,CBFL)方法只是统计代码语句或代码基本块的覆盖率,并没有考虑程序执行的数据依赖和控制依赖,因此会出现定位不准确的情况。结合以上两点,本文将在并行的基础上使用关联规则挖掘软件故障。

1 相关工作

许多该领域的学者提出了不同的软件故障定位技术。这些技术大多通过收集语句或者谓词等程序实体的覆盖信息,然后对收集到的信息利用相应的怀疑度公式计算每条语句的怀疑度,据此找出软件中的故障。本文也使用这种方式,同时,结合关联规则的思想来提高软件的多故障定位效率。

1.1 基于交叉表的故障定位技术

W.Eric提出了一种基于交叉表的技术进行软件故障定位的方法[4,8]。该方法的主要思路是:针对每个测试用例的每一条语句构造一个交叉表,通过该交叉表收集语句的覆盖信息和执行结果。然后,利用每条语句的统计信息计算该语句的怀疑度(Suspiciousness)。通过这种方式,所有的语句都可以根据计算出的怀疑度来降序排名。语句的怀疑度越高,该语句越会被优先检查,可以通过排名依次检查语句,直至发现软件的故障。

该技术通过引用一个名为Chi-square test的假设测试来检查测试用例执行结果和语句覆盖信息之间的依赖关系。Chi-square的数据通过交叉表中的数据计算而来,同时与Chi-square中的关键值进行对比,决定这个假设(即执行结果独立于与语句的覆盖信息)被接受还是被抛弃,然后,通过计算语句的怀疑度数值ζ进行故障定位。ζ的数值越大表示语句的怀疑度越高,怀疑度越高则会被优先检查。基于交叉表的软件故障定位技术通过计算语句的怀疑度来预测语句包含故障的可能性。其实验结果表明基于交叉表的软件故障定位技术相比于绝大多数的软件故障定位技术,如Tarantula、Liblit05、SOBER等方法,效果更好。

1.2 并行调试

通常状况下,一个软件出现失效状况下,软件中会包含多个故障,同时软件调试的人员也会不止一个,因此可以通过并行的方式实现软件故障的定位工作,相比于one-bug-at-a-time的方式,并行故障定位会更加高效,通过构造并行工作流,不同的工作人员可以专注于不同的软件故障。要实现并行的软件故障定位,最重要的问题是如何对任务进行划分和分派,这就需要一种可以把错误的测试用例集从新分配成多个小的与特定故障相关的错误测试用例子集的技术。Jones和Harrold提出了一种并行调试的技术[7]用以实现解决这个问题。这种技术会自动把失败的测试用例集分割为针对不同软件故障的测试用例子集。通过使用测试用例动态运行获取执行结果的行为模型和信息,该技术可以生成一个针对不同错误的失败测试用例子集。通过把失败测试用例子集和成功的测试用例结合,就得到了一个专注于特定单错误的测试用例集。这些单错误测试用例集的个数就是对程序中故障个数的预测。

2 关联规则在软件故障定位中的应用

在基于覆盖的软件故障定位技术中,现有技术通过收集测试用例执行的覆盖信息计算语句可疑度,进而定位软件故障。在现有的技术中,往往没有考虑语句间的数据依赖和控制依赖关系,不同语句的覆盖统计是相互独立的,这导致定位的不准确,CBFL方法经常能定位到程序失效时的执行代码,而这些失效时的执行代码多数情况下并不是错误代码[9],文献[9]表明,基于覆盖的软件故障定位计算可疑度得出的高可疑度语句主要分一下几种情况:

(1)该语句基本块本身就是故障语句,并且该基本块出现在错误测试用例的概率高于出现在成功测试用例的概率。

(2)该语句基本块本身不是故障语句,但是该基本块的执行会导致故障语句的执行,进而发生故障。这表明高可疑语句块或者是故障或者会导致故障,因此考虑通过关联规则挖掘高可疑代码与软件故障的关系,提高故障定位的效率。

测试用例的执行路径能够反映出故障代码与高可疑代码之间的关联,即高可疑代码的执行导致故障语句的执行,进而出现故障。故障语句与高可疑语句表现出了在执行路径上覆盖信息的一致性,然而执行轨迹的路径表示十分复杂和耗时[10],因此采用相对轻量级的覆盖向量来近似表示路径的覆盖信息。

2.1 路径覆盖向量的表示

定义1:中间不存在控制跳转的连续代码语句构成一个代码基本块,简称为基本块。

定义2:覆盖向量值指代码基本快在每次执行中的覆盖信息构成的向量pathi=(b1,b2,⋯,bn)。其中:path表示覆盖向量;bi表示程序中代码基本块,bi=0表示该代码基本块没有被覆盖,bi=1表示该代码基本块被覆盖。

定义3:一个函数在测试用例集下的执行轨迹符号化表示为EXEM(fi)={B,T,PATH}。其中:B表示函数的基本块集合;T表示测试用例集的所有测试用例集合,PATH={path0,path1,⋯,pathm}表示针对每个测试用例的覆盖向量集合。根据程序执行的结果可以将执行轨迹分为成功执行和失败执行,即EXEMp和EXEMf。

2.2 求解频繁集

根据故障语句与高可疑代码之间表现出的覆盖一致性,可以求解故障语句的“频繁集”来表现这种关联[11,12],软件故障或者存在于高可疑代码中,或者存在于高可疑代码的频繁集中,因此通过频繁集来提高软件故障定位的效率。只需求出与高可疑代码保持覆盖一致的分量对应的基本块,即可通过频繁集提高故障定位的效率。

求解频繁集的算法如下:

算法中:bk代表目标代码;fg(bk)表示与bk保持频繁一致性的分量集,即求解出的以bk为目标的频繁集。算法过程为:遍历bk不等于0的分量进行与操作,即得到所有的bk的频繁集。通过计算每一条语句块的可疑度,按照可疑度降序检查发现错误,若语句块中不存在错误则检查语句块的频繁集(依据可疑度排序)查找错误,这种方式可提高定位效率。

3 基于交叉表的软件多故障定位技术

下面对基于交叉表的软件多故障定位技术进行具体介绍。

图1为程序实例展示,该程序用于求取输入的是三参数中间值。

图1的程序中包含两个错误,分别是语句行6和语句行9,使用在测试用例集中10组参数组合分别为T1~T10。图中“√”代表了每条测试用例的语句覆盖信息;在最后一行给出了每个测试用例的执行结果:P代表成功,F代表失败。

由图1可知,导致失败的测试用例往往具有相同或者相似的语句覆盖信息。因此可以通过聚类方法将测试用例进行分类,将错误测试用例中语句覆盖路径相同或者相似的路径分为一类,这些被分为不同类的失败测试用例子集就是专注于不同错误的测试用例集。在mid函数中,测试用例7~10失败了。而且,测试用例7,8有相同的覆盖信息,这意味着测试用例7,8可能会导致同样的软件故障。同时,测试用例9,10也具有相同的覆盖信息,同理,它们也可能导致同样的软件故障。通过上述分类原理和观察到的现象,下面把失败的测试用例分为两组针对不同错误的失败测试用例子集。然后通过使用Jones和Harrold的并行调试的方法,将失败的测试用例子集分别与成功测试用例结合,形成两组不同的测试用例子集。两组测试用例子集如图2和图3所示。

针对不同语句构造一个用于计算语句怀疑度的交叉表,语句交叉表模板如图4所示。

图4所示交叉表是一个表示测试用例执行情况和测试用例是否被覆盖的二维表。表中各个变量的含义分别是:w代表程序中的一条语句;NCS(w)代表覆盖w的成功的测试用例数;NUS(w)代表没有覆盖w的成功测试用例数;NS代表成功的测试用例数;NCF(w)代表覆盖了语句w的失败测试用例数;NUF(w)代表没有覆盖语句w的失败测试用例数;NF代表失败的测试用例数;NC(w)代表覆盖了的测试w用例总数;NU(w)代表没有覆盖w的测试用例数;N代表总的测试用例数。

使用图4提供的模板和文献[4]中提供的公式计算每条语句的怀疑度。针对图2和图3两个测试用例集分别计算怀疑度,给出怀疑度列表降序排名如表1所示。

表1中,语句9的怀疑度最高,会最先被检测。在表2中语句6的怀疑度最高,会最先被检测。这表明通过构造针对不同错误的测试用例子集并行的进行故障定位是可以实现的,这将有利于提高软件故障定位的效率。在此计算验证了通过并行的方式进行软件故障定位的有效性。进行并行的故障定位有一个前提就是构造针对不同错误的测试用例。通过使用二分法构造针对不同的测试用例,针对不同的待测函数,可以根据函数的输入集合和函数的功能创造出不同的二分法条件。在上面例子中,mid函数是用作求取输入的3个数的中间值的函数,因此中间的参数最有可能导致软件故障。所以中间的参数作为分类条件,在mid函数中使用“中间的参数是不是在第一个出现”作为分类的条件,如果一个失败测试用例满足这个条件则把它放在一个类别中,不满足则放在另一个类别,同样以图1的测试用例为例,发现T9和T10满足这个条件,所以把他们分为一类,T7和T8分为另一类,这样即可进行并行软件故障定位。

同时,给出一个终止条件,用于判断分类是否完成,即针对不同错误的测试用例是否已经被分配到了各自相应的类别下。聚类的相似性系数可以提供判断不同对象之间相似程度的度量,因此可以使用相似系数来判断每个类别中的对象是否足够相似,不同类别间的对象是否足够相异来判断分类是否完成。相关系数公式如下:

式中:Xi为第i条语句在失败测试用例X中的覆盖情况,Xi为1代表覆盖,0代表未覆盖;Xˉ表示失败测试用例Xi的覆盖比例;相应的Y的含义和X相同。利用图1中的例子可以将失败的测试用例集分类。给定一个相关性系数的值,比如0.8,当两个失败测试用例的关联系数小于0.8时说明它们关联性不大,即它们针对不同的错误。计算r78=1,这表明T7和T8关联性非常大,针对相同的错误,对T9和T10计算结果也是1,说明它们应该分为一组。通过循环计算每两个测试用例之间的相关系数,直到类别内任意两个测试用例的相关系数大于0.8时,就说明分类完成。本文给出的上述方法虽然能够对针对不同错误的测试用例进行分类,但需要对每两个错误测试用例进行计算,所以这个过程相当耗时,开销也是很大。

4 实验及结果分析

下面使用本文给出的基于关联规则的软件多故障定位技术和Tarantula方法进行对比来验证本文方法的定位效果。在此使用Siemens程序集来进行试验的对比工作。程序集中tacas程序包含的故障版本数最多,同时可执行的语句数最少,这意味着tacas程序有可能包含多故障,因此选用该程序验证本文的方法。对文献[4]中的EXAM度量进行扩展,将针对每个故障的EXAM相加,形成EXAMtotal作为度量的标准。

基于关联规则的软件多故障定位方法与Tarantula方法的对比如图5所示。

图5分别给出了在不同的故障版本比例下两种方法的EXAMtotal得分。其中“1”代表20%的故障,“2”代表40%的故障,“3”代表60%的故障,“4”代表80%的故障。可以看到在故障比例较低的环境下,本文的方法效率明显优于Tarantula方法。

5 结语

本文提出了基于关联规则的软件多故障定位方法,并且与Tarantula方法进行了对比,结果表明本文的方法效率较高。不过本文提出的方法也存在一些不足,并没有考虑把测试用例划分为针对不同故障的测试用例的效率,同时也没有考虑失败测试用例分类的效果进行验证。在Siemens测试集上通过实验验证了基于关联规则的软件多故障定位的效率,结果证明本文的方法能有效地发现软件的故障。

参考文献

[1]JONES J A.Semi-automatic fault localization[D].USA:Geor-gia Institute of Technology,2008.

[2]JONES J A.HARROLD M J.Empirical evaluation of the Ta-rantula automatic fault-localization technique[C]//Proceedingsof the 20thIEEE/ACM international Conference on AutomatedSoftware Engineering.Long Beach,CA,USA:IEEE,2005:273-282.

[3]LIU C,FEI L,YAN X,et al.Statistical debugging:A hypothe-sis testing-based approach[J].IEEE Transactions on SoftwareEngineering,2006,32(10):831-848.

[4]RENIERES M,REISS S P.Fault localization with nearestneighbor queries[C]//Proceedings of the 18thIEEE/ACM Inter-national Conference on Automated Software Engineering.Mon-treal,Canada:IEEE,2003:30-39.

[5]LIBLIT B,NAIK M,ZHENG A X.Scalable statistical bug iso-lation[C]//Proceedings of the 2005 ACM SIGPLAN Conferenceon Programming Language Design and Implementation.2005:15-16.

[6]HAO D,ZHANG L,PAN Y,et al.On similarity-awarenessin testing-based fault localization[J].Automated SoftwareEngineering,2008,15(2):207-249.

[7]JONES J A,BOWRING J F,HARROLD M J.Debugging inParallel[D].London,UK:Georgia Institute of Technology,2007.

[8]WONG E,WEI T,QI Y,et al.Crosstab-based statisticalmethod for effective fault localization[C]//Proceedings of the2008 International Conference on Software Testing,Verifica-tion,and Validation.Lillehammer,Norway,2008:42-51.

[9]ZHANG Z,CHAN W K,TSE T H.Capturing propagation ofinfected program states[C]//Proceedings of the 17thInterna-tional Conference on Foundation of Software Engineering.Am-sterdam,Netherl:[s.n.],2009:43-52.

[10]BALL T,LARUS J R.Efficient path profiling[C]//Proceedingsof the International Symposium on Microarchitecture.Paris,France:[s.n.],1996:46-57.

[11]WONG E,QI Y.Effiective program debugging based onexecution slices and inter-block data dependency[J].Jour-nal of Systems and Software,2006,79(2):891-903.

数据挖掘技术与关联规则挖掘算法 篇8

1 数据挖掘技术介绍

1.1 数据挖掘技术的概念

数据挖掘技术是一门包容性以及开放性较强的跨领域数据信息揭示学科, 这项技术能从大量含有噪声, 且模糊不确定的实际业务数据中进行计算, 在这些数据中对当前尚未发现, 或者没有被明确认知的具有一定价值的知识信息进行揭示。在进行数据挖掘中的业务数据形式不是单一固定的, 是复杂多样的, 所以数据挖掘得出的分析结果形式能以多种形式表现出来, 可以是具有较强逻辑性的数学表达式, 也可以是容易被一般用户理解的结果。且数据挖掘技术在科学研究、市场分析等领域均得到了广泛的应用。

1.2 数据挖掘技术分类

数据挖掘功能的分类主要是根据数据挖掘功能的不同进行的, 当前的数据挖掘技术主要有关联规则挖掘技术、分类挖掘技术、孤立点挖掘技术以及聚类挖掘技术等。本研究主要对关联规则挖掘算法进行详细探讨。

2 关联规则挖掘算法

2.1 关联规则种类介绍

关联规则按照不同的标准, 能用各种不同的方法分成不同类型。将关联规则分为挖掘频繁项集、闭频繁项集、被约束频繁项集、极大频繁项集, 是根据挖掘模式的完全性分类的;将关联规则分为多层和单层关联规则, 以及单位和多维关联规则是根据规则所涉及的数据进行分类的;将关联规则分为量化关联规则和挖掘布尔型规则是根据规则处理值类型分类的;将关联规则分为序列模式挖掘、频繁项集挖掘以及结构模式挖掘是根据俄关联规则挖掘模式进行分类的;将关联规则分为兴趣度约束、知识类型约束、数据约束, 是根据规则所挖掘的约束类型分类的。

2.2 关联规则挖掘算法分析

2.2.1 Apriori算法分析

关联规则算法中的挖掘完全频繁项集中, Apriori算法该类型中最具有应用价值, 影响力最大的算法。Apriori算法主要有两个步骤:

(1) 发现所有的频繁集;

(2) 生成强关联规则。

在Apriori算法中的第一步是最为重要的步骤, 该算法的核心思路是, 给定一个数据库, 在第一次数据库扫描中找出所有支持度大于等于最小支持度的项目组成频繁1—项集, 也就是L1, 1—项集C1, 由L1进行连接得到;接着进行第二次数据库扫描, 将C1中所有支持度大于等于最小支持度的项集组成频繁2—项集, 也就是L2, 候选2—项集C2由L2连接得到。以此类推, 直到找出最大项频繁集。即在进行第N次数据库扫描时, 找出CN-1中所有支持度大于等于最小支持度的项集组成频繁N—项集, 即是LN, N—项集CN要由LN连接得出, 一直到找不出新的选集为止。在这里还要用到Apriori算法性质, 即是频繁项集是频繁项集的子集, 非频繁项集是非频繁项集的超集。在Apriori算法中对数据库的扫描次数需要大于最大频繁项集的项数。

Apriori算法的操作具有两个明显的缺点。 (1) 该算法的使用需要对数据库进行多次扫描, 因此在读写操作上会花费很多的时间, 从而增加挖掘算法的时间成本, 这种成本的增加不可小觑, 因为它是有数据库存储数据的增加, 以几何级数上升的成本;

(2) Apriori算法会出现众多的候选频繁集, 频发集的产生量在每一步都很大, 这会使算法在广泛度和深入度上的适应性较差。

2.2.2 FP—growth算法分析

FP—growth算法是关联规则算法中属于深度优化的一种算法, 这种算法是深度优化算法中较新且具有较高成效的, 不同于Apriori算法本质的常用算法。FP¬—growth算法的基本基本步骤有两个:

(1) 先将频繁模式树FP—tree生成;

(2) 在生成的FP—tree频繁模式树中搜索频繁项集。

(1) 需要将项集关联信息保留住, 并采用一棵频繁模式树 (FP—tree) 用来容纳压缩后的数据库;

(2) 再将压缩后的FP—tree再分散为几个小的条件数据库, 再分别对这些数据库进行信息挖掘。FP—growth算法相较于Apriori算法, 只需要对数据库进行两次扫描, 不需要多次扫描, 大幅度减少了挖掘算法的时间成本;也不会出现大量的候选项集, 大幅度减少了频繁集的搜索空间。也就是说FP—growth算法能明显提高时间和空间效率。但是该算法也有缺点, 在对庞大且松散的数据库进行挖掘处理过程中, 不管是递归计算还是信息挖掘都需要占据大量的空间。

3 总结

综上所述, 本研究对对数据挖掘技术概念和分类进行了简单的介绍, 并对关联规则的种类进行了详细的分析, 对关联规则中常用的两种算法FP—growth算法和Apriori算法进行了详细的分析。两种算法都还存在各自需要改进缺点, 怎样在挖掘过程中提高挖掘效率, 满足人们对挖掘系统的需求, 这将是数据研究工作者仍然需要突破的重难点。

参考文献

[1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京:北京工业大学, 2015.

[2]张弛, 王本德, 李伟等.数据挖掘技术在水文预报中的应用及水文预报发展趋势研究[J].水文, 2015, 27 (02) :74-77, 85.

[3]魏陵博, 付先军.基于Aprio关联规则挖掘技术分析归心经中药与抗心律失常药理作用的相关因素[J].中西医结合心脑血管病杂志, 2014 (05) :517-518.

[4]付先军, 周永红, 王中琳等.基于频繁项集与关联规则挖掘技术探索王新陆临床用药及处方配伍规律的初步研究[J].中国中医药信息杂志, 2015, 17 (09) :92-94.

关联技术 篇9

一、相关概念

(一) 跨国公司的技术关联

技术关联包括技术互补和技术互斥, 技术互补是指一种技术的发展会促进其他技术的发展, 可分为纵向技术互补与横向技术互补;而技术互斥是指一种技术的发展会阻碍另一种技术的发展。

1. 技术互补

纵向技术互补。在一个产业链中, 上下游之间形成相互带动的技术, 上游产业的技术变革和发展影响到下游的技术, 促使其研发应用新技术, 以适应上游的发展;反之亦然。对于跨国公司而言, 纵向技术互补是跨国公司海外技术转移和产业扩展的产物。

横向技术互补。分为以下三种:一是协会式, 各个跨国公司组成一个统一的协会, 协会根据会员的技术特点, 以及在研发过程中担当的角色和发挥的作用, 形成协会下相互联系、相互借鉴的互补技术。即多个互补的跨国公司形成技术协会, 协会通过技术传播, 向成员扩散新技术。这种技术互补普遍存在, 而且由原来的联盟链发展成为多边协会网络。二是竞争发展式, 随着市场竞争日益激烈, 迫使跨国公司重视研发新技术, 投入资金加速技术、设备的研发, 跨国公司技术革新导致与东道国公司的竞争加剧, 促使当地公司研究使用新技术, 从而提高效率, 增加收益。三是跳跃发展式, 是利用现代通讯科技将公司新技术从一跨国公司跳跃式传播到另一跨国公司, 主要受政治经济、市场开辟、地区技术、开发力量等因素的影响。

我国珠三角地区跨国公司较为密集, 其技术关联在产业中的影响和分布体现在:服装及其他纤维制品制造业、化学原料及制品制造业、塑料制品业其技术关联较强。电子及通信设备制造业、仪器表及文化办公用机械制造、电气机械及器材制造业技术关联相比紧密, 其产量也比较接近, 具体见如表1 (国家发改委发布的《2012年产业结构表》局部) 。

2. 技术互斥

技术的产生应用有一个过程, 对跨国公司而言, 原有的许多传统技术已经投入了资金与设备, 必然要应用最少一个周期。而现代社会中, 新技术不断涌现, 技术更新换代导致旧技术与新技术之间形成排斥。跨国公司的区位环境、机械设备、公司条件不同, 因此加工技术也存在差异, 现实生活中, 这些公司之间也必然存在技术互斥现象。

技术互斥与技术扩散密切相关, 如果某一接受者采用新技术后, 对其他新技术使用者的经济效用产生影响时, 这种现象称为技术的网络外特性。当网络外特性为负时, 技术接受者之间将导致“序列竞争”, 即早期的技术接受者比晚期接受者能获得更大的经济效用, 新技术扩散加速, 无论新技术形成的产业是否集聚, 必然使互斥技术的产业集聚衰退;当网络外特性为正时, 新技术接受者的效用将随着新技术的其他使用者数量的增加而增大, 新技术在扩散初期的速率极为缓慢, 此时新技术对应的产业短时间无法形成集聚。许多传统技术与新技术形成排斥。如加拿大、美国和英国等的成熟工业区, 有许多制造厂不能有效应用新技术, 他们认为, 既然加工技术是在社会中产生的, 且由于围绕机械设备的生产和应用的社会环境随区域环境而不同, 因此, 当先进的机械设备与传统的生产方式彼此相距遥远时, 人们能预期到会出现怎么样的困难和矛盾, 互斥技术往往形成各自的产业集聚区, 这种现象在世界各地随处可见, 而且很难融合, 这就是技术互斥产生的效应。

(二) 跨国公司产业聚集效应

跨国公司产业聚集效应是指跨国公司为获取合作伙伴的互补资源, 扩大公司利用外部优势, 相互聚集从而增强群体竞争优势及共同的市场地位而形成的一种相互依赖、互为客户、共同发展的生存战略。德鲁克认为跨国公司之间的这种聚集关系来源于自然界中各种生物物种之间共存的生态关系, 聚集关系是跨国公司之间的相互依存的生物圈。就单一跨国公司而言, 聚集关系是一条直线;就多个跨国公司而言聚集关系是一个关联的网络。

跨国公司产业聚集效应是其竞争优势的来源, 跨国公司的设立发展也是一种群体迁移的现象, 产业聚集效应使各跨国公司在全球共同面对经营环境, 使跨国公司进入新环境的风险和不确定性大大降低, 对于整个跨国公司群体是有利的。跨国公司产业聚集效应降低了跨国公司群体的交易成本和交易费用, 增大竞争优势。

跨国公司的聚集生存反映了市场激烈竞争态势下的一种应对之策。现代社会分工不断细化和完善, 公司之间竞争激烈, 没有一个公司能够仅依靠自己的力量赢得价值链的每个环节。相反, 竞争促使各跨国公司逐渐集中优势资源, 将其投入到最具优势的环节, 而将其劣势的业务外包给其他公司。这种业务调整可以使各跨国公司专注于优势项目, 而通过外包或聚集网络获得公司发展壮大的外部资源支持。随着竞争激烈、分工细化以及市场需求的变化发展, 跨国公司这种业务整合不断进行。跨国公司持续的业务整合实际上促进了价值链上相关公司的发展, 这些公司的发展反过来促进了跨国公司集中自身优势应对复杂的市场, 久之便形成了相互依赖的网络化关联。这一网络化关联不断演化、延伸, 跨国公司间的产业聚集关系便由此产生, 形成了一种产业聚集效应, 使各跨国公司均获得了一种仅靠自身力量无法得到的市场地位。

二、跨国公司技术关联与产业聚集效应的关系

(一) 跨国公司的技术互补对产业聚集的影响

1. 纵向技术互补对产业聚集的影响

根据市场关联效应, 产业聚集与跨国公司联系密切, 但从纵向互补技术的关联性来看, 跨国公司根据不同生产阶段、不同国家将其产品进行差异化生产, 在当地形成的聚集效应是基于所在国上、下游产业的技术互补, 利用的是相互依存的纵向技术互补。

2. 横向技术互补对产业聚集的影响

这是指产业链中同一环节的互补技术, 这种聚集力源于横向技术互补效应, 依赖于上游产业和下游产业的不完全竞争性。随着跨国公司对东道国公司的技术外溢增加, 会加快技术转移至东道国子公司, 这样又促进了技术外溢, 促进相关产业不断升级并使聚集效应进一步强化, 形成不断循环的过程, 形成了产业链的聚集效应。

(二) 跨国公司技术互斥对产业聚集的影响

跨国公司培训的技术工人和管理人员在将来可能带走跨国公司产品的生产技术、工艺, 进入其他企业或组建新公司, 生产与原公司同类产品或进行类似服务。这类衍生技术一般局限于无知识产权的一些老技术或传统技术, 并有显著的示范效应 (Findlay, 1978) , 即通过对跨国公司产品技术、生产流程和工艺的模仿和学习而提高自身的技术水平。这可以在跨国公司工作过、受过培训的技术人员和管理人员中实现, 也可以通过工程的模仿实现“干中学”效应。在劳动密集型产业中, 产业集聚产生外溢的主要是这类技术, 同时它也是导致产业集聚的主要动因。假设跨国公司设在与客户“更为接近的厂址”, 新企业自然就集聚在原公司周围。另外, 生产型衍生技术与员工的隐性知识有关, 员工带走的不仅仅是生产技术或工艺, 还有与之相关的隐性知识, 使其具备开发相关的更高技术或工艺的能力。在模仿过程中, 某一方面的隐性知识往往是起关键作用的要素, 但它常常被忽略, 从而导致模仿失效, 这类衍生技术不仅减少了模仿的“因果关系不明确性”, 而且发生人力资源的重新分配使包含人力资本和知识资本在内的技术创新得以加速扩散, 并有着很强的自增强性, 使集聚效应进一步扩大。

三、利用跨国公司的技术关联与产业聚集效应促进我国经济发展的对策建议

(一) 中西部地区积极承接东部产业转移

我国中西部地区对外开放程度要弱于沿海地区, 可以通过增强地区产业关联集聚力来吸引外资。西部地区在现有条件下, 要充分利用劳动力成本优势, 积极引进生产和经营外向化程度较高的内资或外资企业, 特别是中枢型产业, 或者已是东部地区产业升级中欲转移的行业, 以强化产业的关联效应, 提高本地产业基础和集聚水平, 从而促进中西部地区投资环境的改善和区域开放度的提高。

(二) 沿海地区加快转变引资方式

沿海地区由于引进外资促进了当地经济发展, 人均收入水平提高, 然而随着廉价劳动力优势逐渐减弱, 人均收入提高带来的有效市场需求扩大对外资的吸引力相对较小, 不能抵消高工资带来的负面影响。这就促使东部沿海地区改变传统的吸引外资的方式, 转向以提高产业的关联效应来吸引外资。

(三) 转变跨国公司的管理与经营思维模式

长时间计划经济的窠臼明显约束了我国跨国公司的思维方式, 大多数跨国公司的管理层对跨国技术关联与产业聚集的客观性与必要性认识不到位, 仍然按照惯性思维模式管理企业, 缺乏相应的积极性与能力去实施跨国公司的技术关联与产业聚集, 造成信息技术等并没有改变公司的思维模式。要解决好上述问题, 跨国公司应从以下几点入手:第一, 公司首先要有一定的跨国技术能力, 即国际眼光、金融策略与实际应用, 只有能够充分利用现代工具与媒介, 才会形成国际化思维并在经济活动中充分的运用;第二, 公司的管理模式必须从“控制”转变为“引导”, 营造国际化公司文化, 鼓励各部门尤其是个人学习的主动性, 提高国际意识, 增强工作能力与完善工作机制;第三, 公司必须要与时俱进, 跟得上信息时代所产生的持续发展的要求, 不但要关注与学习当前业务新知识, 还应努力学习相关学科领域的最新动向与先进成果, 主动观察与了解学科教学的新方法, 并用这种继续学习的姿态给公司以积极影响。

四、结语

综上所述, 跨国公司的技术关联与产业聚集是促进世界经济发展的主要原因之一。目前, 世界经济越来越活跃, 而稳健有效的技术关联与产业聚集是经济稳定发展和规模化的前提。技术关联与产业聚集和经济活动达到横向互补, 形成较强的吸引力, 对跨国公司的技术外溢生成产业聚集效应, 而国际业务的发展有利于跨国公司形成聚集效应, 对我国的经济发展也起到较强的促进作用。

摘要:随着经济全球化的进一步发展, 跨国公司作用凸显, 呈现出两大发展趋势, 一是技术关联性日益增强, 二是产业聚集效应越发明显。从跨国公司技术关联、产业聚集效应概念入手, 分析跨国公司技术互补和技术互斥对产业聚集的影响。提出我国中西部地区积极承接东部产业转移, 沿海地区转变引资方式, 转变跨国公司管理与经营思维模式等对策建议, 通过科学、合理、有效利用跨国公司的技术关联与产业聚集效应促进我国经济发展。

关键词:跨国公司,技术关联,产业聚集效应

参考文献

[1]梁启华, 高毅蓉.跨国公司的技术关联性对产业集聚的影响机理[J].研究与发展管理, 2010 (4) .

[2]张宇, 蒋殿春.FDI、产业集聚与产业技术进步——基于中国制造行业数据的实证检验[J].财经研究, 2009 (1) .

[3]刘荣茂, 张羽翼.江苏省FDI和产业集聚关系实证研究[J].南京航空航天大学学报 (社会科学版) , 2012 (3) .

关联技术 篇10

1 我国建筑能耗的现状

随着我国社会经济的发展, 我国城市化规模的扩大, 近年来各种新型建筑不断的涌现出来, 由此可以看出我国的建筑行业在近年来取得的飞速发展。但是在建筑业飞速发展的过程中, 同样也带来了严重的能源消耗问题。如今我国的建筑工程正在逐渐的增多, 但我国建筑行业对能耗问题却不够重视, 这样就使得建筑业成为了我国能源消耗最大的行业之一, 在这样的一种情况下, 对我国经济的可持续发展是非常不利的, 对我国的环境保护工作以及我国的可持续发展战略也带来了严重的影响。

在建筑工程施工的过程中, 相关的施工企业一般都是为了追求经济利益, 对能源消耗问题并不重视, 其主要的精力一般都是放在建筑工程的施工质量以及工程进度上, 在这样的一种情况下, 就使得在建筑工程中出现了大量的能源消耗问题, 同时在建筑行业快速发展的过程中, 建筑耗能也给我国的能源供给企业带来的很大的影响。而通过加强施工环节中的技术管理工作来降低能源的消耗, 通过改善施工技术来降低建筑能源的消耗, 能够让我国的建筑行业与社会环境和谐的发展。

2 利用建筑施工技术降低建筑能耗的相关措施

因为建筑的能耗问题严重的影响到了我国经济的可持续发展, 因此我国的建筑行业必须要采取相应的措施来降低建筑能源的消耗, 提高建筑能源的综合利用效率。一般建筑能耗的主要就是表现在照明、室内问题以及卫生问题这几个方面, 因此要想采用建筑施工技术来降低建筑能耗, 也可以从这几个方面来开展。主要可以采取以下这几个措施来来用建筑施工技术降低建筑的能源消耗。

2.1 降低施工环节的能源消耗

在利用施工技术来降低建筑能耗的过程中, 施工环节是整个建筑能源消耗中的一个重要部分, 因此降低施工环节的能源消耗是非常重要的一个步骤。具体的做法可以从以下这几个步骤入手, 首先建筑企业在施工之前对于那些能源消耗大且施工效率低的施工设备进行更换, 尽量选用一些工作效率高且对能源消耗较低的施工设备来施工[2]。其次建筑企业需要加强对施工过程中各种设备的检查工作, 对相应的设备要做好保养与维护工作, 从而提高施工设备的使用效率。同时在将施工设备的工作效率提升上来了, 就能够降低施工设备的能源消耗, 提高能源使用的效率, 最终达到节能的效果。

2.2 加强可再生能源的利用率

建筑行业在消耗大量能源过程中, 之所以会造成严重的环境问题, 其主要的原因就是因为建筑行业在消耗大量的能源后, 会使得自然资源逐渐的枯竭, 在这样的一种情况下, 就会给人们的日常生活以及工作带来严重的影响。在降低建筑能耗的过程中, 通过开发新型的施工技术, 加强可再生能源的利用效率, 就能够降低对非再生能源的消耗, 通过相应的施工技术来循环利用可再生能源, 能够有效的降低建筑能源的消耗。比如说利用太阳能来进行生活中用水加热、取暖以及照明等[3], 同时也可以利用地热来解决一些地区的取暖以及发电的问题。因此通过开发各种新型的施工技术能够有效的降低建筑能源的消耗, 促使我国建筑行业的可持续发展。

3 结束语

在建筑建筑行业中, 建筑施工技术以及建筑的能耗问题在随着社会的发展过程中, 已经逐渐的受到了人们的重视, 并且也逐渐成为了建筑行业中最关键的问题。我国的建筑施工企业, 要想得到可持续发展, 并降低资金的投入, 就必须要重视建筑能耗问题, 并提高建筑施工设备的工作效率。而通过开发先进的建筑施工技术, 能够加强对环保型建筑材料的使用力度, 并可以利用更多的可再生能源, 这样就能够有效的降低建筑能源消耗, 从而保证建筑行业的可持续发展。通过本文对建筑施工技术与建筑能耗问题的分析, 希望能够为我国建筑行业的发展提供帮助。

参考文献

[1]郑拥军.优化施工建筑技术降低建筑能耗[J].建筑知识, 2010 (02) .

[2]何咏梅.浅谈施工企业成本控制实施阶段存在的问题及应对措施[J].财经界, 2010 (04) .

关联技术 篇11

摘 要:政论文是一种以政治问题为中心的特殊文体,其翻译质量的好坏关系到国家形象,进而影响国际关系。本文以关联理论为指导,选取2015年《政府工作报告》的英译文作为语料,揭示政论文翻译过程的实质,分析其英译过程中最佳关联实现的途径。研究发现,在关联理论框架下,政论文英译过程中,为了实现译文的最佳关联,译者应遵循以下原则:合理处理中国政治特色词,达到交际双方互明;采用直接翻译或间接翻译,使译文读者以最小的认知努力获得最大的语境效果。

关键词:关联理论 政府工作报告 最佳关联

一、引言

政论文是以政治问题为中心的文本,具有鲜明的政治特色。政论文的英译质量直接关乎我国的国际形象,决定了中国文化价值和意识形态输出的效果。《政府工作报告》属于典型的政论文,一方面回顾总结上一年的政府工作情况;另一方面归纳当年政府各项工作,指明这一年政府的工作计划、举措和目标。关联理论作为一种具有普遍解释力的语用理论,其对政论文体的翻译具有重要的指导意义。已有不少学者讨论过它在实用文体翻译中的应用,但仍有许多翻译观采用静态的描述,把翻译简单看成原文作者与译者之间的关系,忽视了译文接受者的认知结构过程。本文以2015年《政府工作报告》为语料,在关联理论的框架下,试图揭示政论文英译过程的实质,探究最佳关联的实现途径。

二、关联理论与关联翻译观

Sperber与Wilson从人类认知的角度出发,在1986年出版的专著《关联性:交际与认知》中提出了与交际和认知相关的关联论。书中提出了认知环境、语境效果、交际互明等重要概念。关联理论认为交际能否成功的关键是交际双方的认知环境能否达到“互明”,即当交际双方所明示的事实或语境假设达成一致时,双方的认知环境就会形成某种交集,而这个交集就是关联理论所谓的:“共同认知环境”。[1]人们认知的过程其实就是新信息与大脑中的旧信息进行相互作用的过程,由此取得不同的语境效果。语境效果是衡量关联性的一个必要条件。关联理论认为交际的成功取决于两个条件:1.交际双方的“互明”;2.最佳的认知模式——关联性。[2]

Gutt[3]认为翻译是一种语际间“明示——推理”(interlingual interpretive use)的阐释活动。译者在此过程中兼有双重身份,即原文作者交际意图的接受者和译文读者的交际者。翻译的全过程实际上包含两个“明示—推理”的过程。此外,Gutt在Sperber和Wilson关于直接和间接引语的论述基础上首次提出了“直接翻译”(direct translation)和“间接翻译”(indirect translation)的概念。按照关联理论,译者能否采用直接翻译,在很大程度上取决于译文读者的认知环境,译文读者的认知环境允许,译者就可以采用直接翻译,否则就应采用间接翻译。

三、政论文英译文最佳关联的实现途径

关联理论所强调的最佳关联就是指用最小的认知努力获得最大的语境效果,这也是译者所追求的目标,语境效果越好,关联性就越强。可以说,译者能否为读者提供最佳的语境效果就成了译文能否取得成功的一个重要条件。因此,译者应对译文读者的认知语境做出正确的假设,充分考虑译入语环境下译文读者的认知能力,对可能导致“文化缺损”的原文要明示信息,推敲其含义,以消除歧义,并将自己从原文中构建的心理认知图式选用恰当的译文形式准确地转达给译文读者。在译文中营造译文读者所需的语境效果,与读者达成最大程度的“认知互明”,也只有这样才能给译文读者提供充分的语境效果,从而达到最佳关联。[4]通过解释、注释、转化等方法实现最佳关联。

(一)合理处理政治特色词达到交际双方互明

关联理论认为,在言语交际中,任何人的话语都有明示和暗含两层含义,言语交际双方不但要了解对方的明示,更要互明对方的暗含,这样才能了解对方的交际意图,实现交际目的。同一文化语境中的人一般不会说出其相关意图的所有信息,对于那些交际双方都能不言自明的信息成分往往隐去而不予明说,这就构成了语义暗含。因此,不同语言间的文化差异会造成文化缺损,从而产生理解困难。但是,在政论文的翻译过程中,译文读者是对中国文化知之甚少的外国人,译者就必须合理处理具有中国政治特色的词汇,以便达到交际双方的互明。

中国人惯于使用政治口号,几个符号代表着很多内容,比如“三个代表”“三农”等。外国朋友却认为它们是一种“速记”,而“行话”(从事同一种工作或职业的人们使用的专门词汇和用语),内行一听即懂,外行似懂非懂,一般外国人则非常难懂。[5]

(1)我们严格落实党中央八项规定精神,持之以恒纠正“四风”。

译文:We have been strictly putting into practice the CPC Central Committees eight-point decision on improving Party and government conduct and making persistent efforts to fight formalism, bureaucratism,hedonism and extravagance.

(2)我国发展面临“三期叠加”矛盾。

译文:In its current stage of development, China has to simultaneously deal with the slowdown in economic growth,make difficult structural adjustments and absorb the effects of previous economic stimulus policies.

(3)逐步实现“三证合一”。

译文:take gradual steps to integrate the business license,the organization code certificate and the certificate of taxation registration into one certificate.

(4)统筹实施“四大板块”和“三个支撑带”战略组合。

译文:We will pursue in a coordinated way the strategy of developing the western region, revitalizing the northeast,boosting the rise of the central region,and ensuring the eastern region takes the lead in development and the strategy of developing the Silk Road Economic Belt,the 21st Century Maritime Silk Road,the Beijing-Tianjin-Hebei region,and the Yangtze Economic Belt.

上述四例都是典型的中国特色政治术语,“四风”指的是形式主义、官僚主义、享乐主义和奢靡之风;“三期”指的是增长速度进入换档期、结构调整面临阵痛期、前期刺激政策消化期;“三证”指的是工商营业执照、组织机构代码证和税务登记证;西部大开发、东北振兴、中部崛起和东部率先发展概括为“四大板块”,把“一带一路”、长江经济带和京津冀协同发展明确为“三个支撑带”。如将“四风”“三期”“三证”“四大板块”“三个支撑带”单纯地译为“four wind”“three times”“three in one”“four plates”“three belts”是不足以达到交际双方互明的,译文读者不具备这些文化预设,因此就要用解释的方法提供充分的语境效果,转化为明示意义。

(二)采用直接翻译或间接翻译,获得最大的语境效果

受到Sperber和Wilson的启发,Gutt在《翻译与关联:认知与语境》一书中首次提出了“直接翻译”(direct translation)和“间接翻译”(indirect translation)的概念。依据关联翻译理论的“认知原则”和“交际原则”。译文读者总是希望以最小的认知努力获得最大的语境效果,或者按Gutt所说,翻译不应让译文读者付出“不必要的认知努力。”[6]一般而言,如果译文读者的认知环境与原文作者的认知环境相同、相似或差异较小,或者说源语中携带有文化信息的词语的隐含意义很明显或很容易推断,译文读者通过字面意义可以很容易地领悟这些词语的隐含意义,译者就可以采用直译法。因为在这种情况下采用直译,译文读者在寻找关联的过程中无须花费太多的认知努力就能得到足够的语境效果。

直接翻译就是努力在原文设定的语境中达到与原文完全相似的阐释或努力,使译文与原文之间保持语言特征的相似性,以保留原文的全部语言特征为我们提供的、引导读者获得交际者本意的交际线索。根据Gutt的观点,使用直接翻译时,译者可以通过诸如解释、夹注、集注之类的附加交际渠道为译文语境提供部分所需信息,以努力保留原文的交际线索,旨在“按源语设置的语境做完全等同于源语的阐释”[6]。

(5)按照“四个全面”战略布局。

译文:Act in accordance with the Four-Pronged Comprehensive Strategy;

Note:

The strategy is to make comprehensive moves to:

1)finish building a moderately prosperous society;

2)deepen reform;

3)advance the law-based governance of China;

4)strengthen Party self-conduct.

(6)开展个人投资者境外投资试点,适时启动“深港通”试点。

译文:Pilot private overseas investment,and launch the Shenzhen-Hong Kong Stock Connect on a trial basis at an appropriate time.

例(5)译文采用文末加注方式,“note”中的注解解释了布局的内容。例(6)将深港通直接用拼音注出。以便外国读者对战略布局的内容有较为清晰的了解。译文不但保留了原文的特色,而且在不影响原文的结构下补足了外国读者认知环境的缺失。

Gutt主张应将那些“译文读者因语境差异不能从语义内容中推导出的暗含意义转化为明示[6],多数情况下需要采用间接翻译的方法进行翻译。间接翻译是指保留原文的认知效果或者说原文的基本意义,而不保留原文的语言特征。

(7)啃了不少硬骨头。

译文:We tackled many tough issues.

(8)大道至简,有权不可任性。

译文:It goes without saying that powers should not be held without good reason.

(9)民之疾苦,国之要事。

译文:Ensuring peoples wellbeing is a top priority for the government.

(10)但政府不唱“独角戏”。

译文:However,the government does not intend to perform an investment soliloquy.

上述4个例句中的译文舍弃了原文的形式,但传达出了原文的内容。因为外国读者缺乏认知环境,间接翻译更能符合外国读者的思维方式,帮助其理解原文的内容。

四、结语

中国在世界政治经济发展中的影响日益广大,一年一度的《政府工作报告》更是备受瞩目,译文必须准确无误地反映原文的含义,稍有差错便会影响到对外宣传,甚至国际关系。在关联理论的指导下,在忠实原文的基础上,译者可以采用各种翻译策略(解释、注释、增译、转化、省译等),在译文中为读者提供最充分的语境效果,以帮助译文读者找到原文与译文语境之间的最佳关联,达到最佳交际效果。

本文为浙江省高校人文社科重点研究基地课题项目“多模态有声思维翻译教学模式的有效性研究”[项目编号:JDW1250]的阶段性成果之一;浙江省新兴特色专业(翻译)建设项目“口译初学者跨文化协调者身份构建及其影响因素研究”阶段性成果之一;宁波大学科学技术学院“三十五”课程建设项目“实用文体翻译课程TAM教学模式的构建与应用”研究成果。

参考文献:

[1]Dan Sperber,Deirdre Wilson.Relevance:Communication

and Cognition[M].Oxford:Blackwell Publishers Ltd. 2001:38-54.

[2]赵彦春.关联理论对翻译的解释力[J].现代外语,1999,(3):

273-295.

[3]Gutt E A.Translation and Relevance:Cognition and

Context[M].Shanghai:Shanghai Foreign Language and Education Press,2004.

[4]顾韵.从关联理论解读翻译策略[J].大连大学学报(社会科学

版),2006,(3):67-70.

[5]段连城.怎样对外介绍中国[M].北京:中国对外翻译出版公司,

1993:129.

[6]Gutt,Ernst-August.Translation and Relevance:Cognition

and Con-text[M].Manchester:St.Jerome Publishing,2000.

关联技术 篇12

一、关联规则的定义

关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品 (项) 之间的联系, 找出顾客购买行为模式, 如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

二、关联规则挖掘的过程

关联规则挖掘过程主要包含两个阶段:关联规则挖掘的第一阶段必须从原始资料集合中, 找出所有高频项目组 (Large Itemsets) 。高频的意思是指某一项目组出现的频率相对于所有记录而言, 必须达到某一水平。关联规则挖掘的第二阶段是要产生关联规则 (Association Rules) 。根据定义, 这些规则必须满足最小支持度和最小可信度。

三、关联规则分类

1. 基于规则中处理的变量的类别, 关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的, 它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来, 对数值型字段进行处理, 将其进行动态的分割, 或者直接对原始的数据进行处理。

2. 基于规则中数据的抽象层次, 可以分为单层关联规则和多层关联规则。在单层的关联规则中, 所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中, 对数据的多层性已经进行了充分的考虑。

3. 基于规则中涉及到的数据的维数, 关联规则可以分为单维的和多维的。在单维的关联规则中, 我们只涉及到数据的一个维;而在多维的关联规则中, 要处理的数据将会涉及多个维。

四、关联规则挖掘相关算法

1. Apriori算法:

使用候选项集找频繁项集。Aprior算法是关联规则挖掘的基本算法, 是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。首先找出所有的频集, 这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则, 这些规则必须满足最小支持度和最小可信度。

2. 基于划分的算法。

Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块, 每次单独考虑一个分块并对它生成所有的频集, 然后把产生的频集合并, 用来生成所有可能的频集, 最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存, 每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的, 可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后, 处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面, 每个独立的处理器生成频集的时间也是一个瓶颈。

3. FP-树频集算法。

针对Apriori算法的固有缺陷, J Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略, 在经过第一遍扫描之后, 把数据库中的频集压缩进一棵频繁模式树 (FP-tree) , 同时依然保留其中的关联信息, 随后再将FP-tree分化成一些条件库, 每个库和一个长度为1的频集相关, 然后再对这些条件库分别进行挖掘。当原始数据量很大的时候, 也可以结合划分的方法, 使得一个FP-tree可以放入主存中。实验表明, FP-growth对不同长度的规则都有很好的适应性, 同时在效率上较之Apriori算法有巨大的提高。

五、关联规则应用领域

关联技术不但在商业分析中得到了广泛的应用, 在其它领域也得到了应用, 包括工程、医疗保健、金融证券分析、电信和保险业的错误校验等。它的主要挖掘对象是事务数据库。关联挖掘技术在西方主要应用于金融行业企业中, 可以成功预测银行客户需求。一旦获得了这些信息, 银行就可以改善自身营销。另外, 关联规则也可以服务于cross-sale (交叉销售) 。交叉销售是一种行销技巧, 它是指向顾客推销与其已有消费有关的产品与服务。通过分析老顾客的购买记录, 了解他们的产品消费偏好, 给他们提供其它产品的优惠及服务, 这样不但能留住他们还可以使他们逐渐熟悉另外的产品, 公司从而以尽快的速度获得利润。

摘要:数据挖掘技术是日前广泛研究的数据库技术, 关联规则是表示数据库中一组对象之间某种关联关系的规则。本文简要介绍了关联规则挖掘的相关理论和概念、Apriori算法, 最后介绍了关联规则数据挖掘的应用情况。

关键词:关联规则,数据挖掘,Apriori算法,应用

参考文献

[1]David Hand, Padhraic Smyth.张银奎, 廖丽, 宋俊等译.数据挖掘原理[M].北京:机械工业出版社.2003 (4) .

[2]秦亮曦, 史忠植.关联规则研究综述[J].广西大学学报:自然科学版.2005 (4) .

上一篇:带电监测下一篇:全新产品开发