数据交叉

2024-06-07

数据交叉（精选6篇）

数据交叉篇1

0 引言

在实际的道路网络中,道路交叉口是交通拥挤,交通事故频繁发生的地点。而目前关于道路交叉口的研究内容主要集中在空间设计、时间设计、转向控制等方面[1,2],缺乏对道路交叉口进行精确的定义,不利于在计算机中实现对道路交叉口的数据建模。为此,笔者提出了一种描述道路交叉口的形式化方法,利用该方法可以方便地对各种类型的道路交叉口进行精确描述,并且可以方便地在计算机中进行数据建模。该方法为完整的路网定义提供了基础,为交通事故数据库的建立提供了道路交叉口的数据模型。

1 道路交叉口的概念模型

1.1 道路交叉口定义

本文定义道路交叉口的物理界限为相交的各条道路上距离停车线一定范围之内,一般取20 m,道路交叉口事故大多发生在该范围内。把单个道路交叉口入口处发生的事故与道路交叉口整体关联起来,方便对道路交叉口事故进行查询统计,比较分析等操作。在市区内,道路交叉口偶尔出现交叠的状态,在这种情况下,以将两个道路交叉口的中心节点间距的一半作为界限。

常见的道路交叉口类型如图1所示。

1.2 道路交叉口的概念模型

为将道路交叉口的各种情形在计算机中进行统一描述,笔者提出了一个抽象的概念模型。应用此概念模型,所有的交叉口都可以抽象地表示为节点-弧段结构。将道路交叉口的概念模型定义为一个六元组Intersection = G (ID, X, n, S, Y, info)。式中:①ID为道路交叉口的编号,是完整路网中的一个惟一编号;②X为道路交叉口的中心节点,X表征了该点的实际的地理位置,它与地理坐标关联;③n为相交于道路交叉口的分叉数,显然n≥3才有实际的研究意义;④S为道路交叉口的物理界限,刻画交叉口所取邻域的范围,通常以米或里程为单位;⑤Y为以X为圆心,S为半径的一个立体球面与交叉口路段的道路中心线的交点集,称之为边界节点集,记作:

Y = { Yi | Yi ∈ BorderNode, i = 0,1, 2, …, n-1, n≥3 },特别地,Y0表示从中心节点X的正东方开始逆时针方向遇到的第1个边界节点 (如图2所示);⑥info为备注字段,表示道路交叉口的相关信息,如交叉口的分类等级、所在行政区域等。

由此概念模型可以推导出弧段集的定义:

ARC = { (X, Yi) | Yi ∈ BorderNode, i = 0,1, 2, …, n-1, n≥3 }

显然,ARC表示了以道路交叉口的中心节点和边界节点为端点的弧段。

2 道路交叉口的面向对象数据模型

使用面向对象建模技术可反映路网的分层结构,更自然地描述数据,使模型中的对象更加接近于现实世界的实体。同时,相对于关系数据模型提高了灵活性[3]。更加直观地开发方法使得数据更容易收集,减少错误。

2.1 道路交叉口的数据结构

1.2中的概念模型已将道路交叉口抽象地表示为节点-弧段结构,交叉口的数据结构实际上是建立在节点的数据结构与弧段的数据结构的有机组合之上。在对交叉口进行对象建模时,交叉口对象的数据中,有部分来自弧段类和节点类。因此,先定义弧段与节点的数据结构如下:

为便于搜索方法的实现,采用邻接多重表[4]作为道路交叉口的存储结构。对每一条弧段用一个结点表示,由如下所示的4个域组成:

其中:mark为标志域,可用于标记弧段是否被搜索过;arcdata为弧段的数据结构,来自弧段类;i_link指向下一条在arc_data中以i_node为端点的弧段,j_link指向下一条在arc_data中以j_node为端点的弧段。对每一个节点也用一个结点表示,由如下所示的2个域组成:

其中:node_data域存储节点的信息,来自节点类;firstarc指向第1条以该节点为端点的弧段。具体的数据结构表示如下:

2.2 道路交叉口类的表示

道路交叉口被抽象为一个道路交叉口类,由节点类与弧段类的聚合得到。在道路交叉口类中可以引用节点类与弧段类的属性和方法,主要实现方案如下:

对象类自身包含的方法可以创建该类的实例。以道路交叉口为例,它自身的方法可以确定道路交叉口的中心节点和与之相连的链接,并在道路交叉口界限处插入边界节点等。收集这些特征可以构成道路交叉口概念模型所定义的元组属性,实现道路交叉口的实例化。

道路交叉口对象可以派生出其它复杂的对象,如十字路口、T形交叉口、立体交叉口、错位交叉口和环形交通枢纽等。位于任一层次的对象都可以继承父类的属性和方法,同时拥有自己属性和方法。例如,对于2.1所示的环形交通枢纽(图1中的(e)),对其特征轮廓进行分析,可以认为是由5个“Y”型的交叉口组合而成,因此可选用“Y”型的交叉口对象来建构。

3 交叉口模型的数据库实现

为道路交叉口建立概念模型并进行数据建模,其最终目的是构建合理的交通事故数据库。根据交叉口的概念模型的元组定义和具体的数据建模方式,从实际应用的角度出发,设计了道路交叉口的数据库属性表,如表1所列。

表中的每一条记录存储中心节点的所有属性或边界节点的所有属性,字段(Intersection _ID, nX, nY)或者字段(Intersection _ID, nNum)可以构成该表的主键。对表中各字段分别解释如下:

1)Intersection _ID是道路交叉口的惟一标识,其编码方式不在文中讨论。

2)nType为节点标志,0表示中心节点,1表示边界节点。

3)nX是节点的横坐标。

4)nY是节点的纵坐标,用绝对坐标如大地坐标表示。

5)nNum用4位十进制表示。其中,前2位表示道路交叉口的分叉数,后2位表示节点的相对位置,中心节点取00,边界节点取值按中心节点正东方逆时针方向出现顺序递加。以图2所示的十字交叉口为例,中心节点X的nNum属性为0400,边界节点Y0 至Y3 的nNum属性依次为0401,0402,0403,0404。

6)S为中心节点到边界节点之间的距离,以m为单位。对于中心节点,则S取0。

把中心节点和边界节点放在同一表中,既能为道路交叉口数据模型的邻接多重表直接提供全面的数据,又可减少数据的冗余,免去不必要的关联,能提高查询效率。

4 结语

本文提出了一种形式化描述道路交叉口的方法,并应用面向对象技术进行了数据建模,最后给出交叉口数据模型的一种数据库实现方法,为道路交叉口的计算机描述和应用提供了支撑。该方案已经在广州市交通事故数据库管理系统的数据库设计过程中得以使用,效果较好。此外,根据上述道路交叉口的形式模型,可以较容易地扩展建立整个路网的形式化模型,从而为全网事故数据库的全面分析提供依据,这也正是我们下一步即将开展的工作。

参考文献

[1]周钱,陆化普,徐薇.城市道路交叉口设计系统的研究与开发[J].武汉理工大学学报:交通科学与工程版,2006,30(2):187-190

[2]孙明正,杨晓光.城市道路平面交叉口交通空间规划设计方法[J].城市交通,2006,4(3):47-52

[3]Lupton K,Bolsdon D,An object-based approach toa road network definition for an accident database[J].Computers,Environment and Urban Systems,1999(23):383-398

[4]严蔚敏,吴伟民.数据结构:C语言版[M].北京:清华大学出版社,2001

数据交叉篇2

一、交叉销售概念模型的提出

研究者从各自不同的角度对交叉销售做了描述, 通常所见的有以下几种:

1. Kamakura等人认为:交叉销售是指努力增加顾客使用同一家公司的产品或服务[1]。

2. Nash和Deighton等人认为:交叉销售就是鼓励一个已经购买了某公司A产品的顾客购买其B产品[2]。

3. Yasar.F.Jarrar和Andy Needy认为:交叉销售是借助CRM来发现现有顾客的多种需求, 并为满足他们的需求而销售多种不同服务或产品的一种新兴营销方式[3]。

4. 交叉销售是一种以企业和客户现有关系为基础去销售另一个产品的营销战略[4]。

5. 服务人员在向顾客提供某种服务或产品的同时, 推销其他产品和服务, 就是交叉销售, 它是借助各种分析技术和经验判断, 发现现有客户的多种相关需求并通过满足其需求而销售多种相关产品和服务的一种营销理念[5]。

综合以上的观点, 交叉销售可以概括为以下几个特点:

1.交叉销售是在一家公司内部进行的。

2.交叉销售的对象是公司现有的顾客。

3.交叉销售是推荐顾客再购买其他产品。

4.交叉销售是一种新型的营销方式。

从上面的概括中不难看出, 理论界对于交叉销售的概括有失片面, 也极大的约束了交叉销售的内涵和外延。实际上交叉销售是一个非常综合的概念, 对于同一集团来说, 具有不同层次的交叉销售, 比如集团子公司之间的交叉销售、集团不同业务之间的交叉销售、集团不同产品或服务之间的交叉销售;对于不同集团来说, 只要是在业务上具有良好的互补性并且又具有战略伙伴关系的, 同样可以开展交叉销售。交叉销售的概念模型如图1-1所示:

本文认为交叉销售是指是向已经购买了公司产品的顾客再次销售本公司或战略伙伴的其他产品或服务, 通过满足客户多种相关需求, 增加销售机会, 提升销售额的新型营销方式。交叉销售的前提是企业知道顾客是谁, 他购买了什么产品或服务, 有哪些具体的消费属性。在现代营销意义上, 交叉销售不只是一种营销方式, 还是一种营销哲学, 即充分利用一切可以利用的资源展开营销, 服务市场, 赢得顾客, 与合作伙伴共享市场, 这些资源包括自己现有的, 可以开发的或正在开发的, 也包括合作伙伴的。

二、基于数据挖掘的交叉销售模型设计

数据挖掘是从海量的数据中提取有效的知识或信息。作为一种先进的数据分析技术, 目前已发展的相当成熟。基于数据挖掘的交叉销售模型建模思想是先从客户角度进行分析, 然后再从业务角度进行分析, 以得出更具有针对性的交叉销售预测模型, 如图1-2所示:

1. 数据处理

数据处理是数据挖掘之前最为重要的一步, 是数据挖掘样本数据规范化必不可少的环节, 数据准备的质量直接决定了挖掘结果的优劣。数据挖掘面对的是海量的数据, 这些海量数据是不能直接被用来做挖掘分析, 现实中的数据难免会有空缺、噪声、不完整等情况, 并且很多数据格式不被挖掘工具所支持, 这些都给数据挖掘的准确性带来了难度。从业务数据到建立数据仓库, 必须围绕确定的挖掘主题对数据进行ETL (抽取Extract、转换Transform、装载Loading) , 即对数据进行处理。

2. 数据挖掘

数据准备好之后, 关键的是要从这些纷杂的数据中挖掘深层次的知识。数据挖掘工具本身提供多种默认的挖掘算法, 用户可以根据业务主题选择适当的挖掘算法来对数据进行挖掘分析。

本文主要使用两种数据挖掘的算法, 聚类分析和关联规则。聚类可以发现数据的分布模式, 描述数据项之间的关系, 聚类是一个宏观的概念, 一般是作为其他算法的预先处理步骤, 原理类似"物以类聚"。

关联规则主要是挖掘数据之间存在的潜在联系, 并以此作为未来业务的预测和描述, 是指两个或多个变量之间存在一定的关系, 而这种关系是潜在的不易被发现的。关联的目的也正是为了发现隐含的规则, 以对现实业务决策作出支持。

3. 交叉销售

交叉销售涵盖的范围很广, 因此对于不同的业务主题可以建立不同的交叉销售挖掘模型, 模型最终会产生很多规则, 而这些规则要经过长期实践才能验证其对业务的有效性。本文建立的交叉销售模型是建立在客户细分的基础上, 然后找出产品之间的潜在关联, 从而指导下一步的交叉销售。

三、总结

本文提出了全新的交叉销售概念模型, 认为交叉销售不仅存在于集团内部, 还存在于具有业务互补的合 (下转第152页) 作伙伴之间。其次, 本文提出基于数据挖掘技术的交叉销售模型的建模方法, 利用先进的数据挖掘技术构建交叉销售模型, 在客户细分的基础上, 对业务数据进行关联分析, 以期对交叉销售提供针对性的决策支持。

摘要：本文首先扩展了交叉销售的内涵及外延, 给出交叉销售的概念模型;其次, 通过对国内外交叉销售模型的研究, 提出全新的基于数据挖掘技术的交叉销售模型建模方法。

关键词：数据挖掘,交叉销售,聚类,关联

参考文献

[1]Harrison, T, and Ansell, J.Customer retention in the insurance industry:using survival analysis to predict cross-selling opportunities[J].Journal ofFinancial Services Marketing, 2002 (3) :229-239.

[2]Wedel, M.and Kamakura WA.Market segmentation:conceptual andMethodologicalFoundations[J].Kulich Academic Publishers, Boston, MAR.1998.

[3]Pelrtier JW, Schibmwsky JA, Schuhz DE, Davis.Interactive psychograph-ics:cross-selling in the banking Industry[J].Journal of Advertising Research.2002, 42 (2) :7-22.

[4]羡晨静.电信领域交叉销售模型的构建与应用[D]硕士学位论文.2008, 2.

数据交叉篇3

伴随着互联网及应用普及,智能电视以及互联网电视得到了飞速的发展。相较于传统的电视,互联网电视可以使用户拥有更好的个性化服务;相对于电脑、手机等手持终端设备,互联网电视可以给用户更好的视听享受。然而网上信息量以指数级增长,将海量的数据抽取并集成可以极大的提高用户的使用效率。

Web页面通常按照一定的模板及规律展现出来。基于脚本生成网页结构的相似性可以使信息抽取系统使用简单的规则从网页中抽取信息,这些规则称为包装器(Wrapper)[1,2,3]。目前,从Web页面抽取信息的方法主要是基于规则,这些规则一般集成到包装器中。现有的Web包装器从数据定位方法上可以分为三大类[4,5,6,7],第一类是将HTML页面看成纯粹的文本流,第二类是直接采用某种高级的脚本语言,第三类是将HTML文档转换成一棵DOM树。目前绝大多数的包装器描述语言如W4F[8]、WDL[9]等,将HTML文档转换为一棵DOM树的方法[10]。W4F等语言采用绝对下标表达式来表示DOM树中的一个节点。WDL语言在W4F绝对下标表达式的基础上提出了相对下标的数据定位方法。文献[4]提出了交叉定位法,结合了相对坐标与绝对坐标的方法,提高了抽取的精确度。然而,视频网站较一般的新闻网站,结构更加清晰,信息的抽取对定位要求更加精确,在抽取过程中往往不需要构造整个页面的DOM树,只需将页面进行分块,只对需要进行抽取的模块进行定位、抽取。Web数据具有动态性和异构性的特点,一个轻微的变化都将引起包装器的中断或数据错误的采集,导致包装器中的抽取规则失效而无法正常抽取数据。而且,无论是W4F还是WDL都需要将HTML页面解析成一棵完整的DOM树,这需要耗费相对较大的计算资源;而交叉定位法耗时较高,随着网页结构的变化,误判率较高。

因此,为了提高数据抽取的精率、召回率和效率,本文提出了一种改进的基于内部特征、自底向上归纳总结的数据交叉定位方法,该方法建立了基于元素文本特征和基于元素属性特征的坐标系,将两种坐标系中的坐标值进行交叉验证获取待抽取的元数据信息。

2 交叉定位法的分析

HTML文档由结构化的数据和非结构化的数据混合构成,可以将HTML文档转化成一棵DOM树,将有用的信息存储在DOM树的节点当中。交叉定位法是将HTML转化成DOM树后,根据定义的不同坐标系、原点、坐标,将DOM树映射在各个坐标系中。交叉定位法采用了绝对坐标系、绝对特征坐标系、相对坐标系、相对特征坐标系相结合的方法。如果存在某个坐标P,抽取错误,那么可以利用该点在其他坐标系中的坐标修正坐标P。然而,交叉定位法采用坐标系较多,花费时间较长;且页面变化频率较高,绝对坐标系、绝对特征坐标系定位效果较差,易造成交叉定位法误判;当Web页面微调,只是某些属性的顺序发生变化,包装器虽能够正常运行,但当交叉定位时,用坐标系定位出错的坐标系数目大于正确的数目时,会导致抽取正确数据的坐标系置信度下降,从而导致误判。

为说明方便,采用图1所示HTML页面源代码进行辅助说明。将HTML页面转化为DOM树,如图2所示。在绝对坐标系和相对坐标系中,路径表达式只以标签名称作为路径的唯一标识符,例如,主演信息的绝对路径为[PATH XPATH=“/html/body/div[0]/span[1]/a[List]”],相对路径为[PATH START-PATH=“<div id=‘content’>”XPATH=“span[1]/a[List]”]。在绝对特征坐标系以及相对特征坐标系中,路径表达式结合稳定的特征作为路径的标识符,例如,主演信息的绝对特征路径为[PATH XPATH=“/html/body/div[0]/span[1]/[span=‘主演’]”],相对特征路径为[PATH START-PATH=“<div id=‘content’>”XPATH=“span[1]/[span=‘主演’]”]。在HTML页面中有些信息的顺序有时会发生微小调整,如图3所示,只是主演与导演的顺序发生了改变,这种调整能使包装器依然正常的运行,但是绝对坐标系和相对坐标系的定位发生了错误,经过多坐标交叉定位时,由于定位错误的坐标系数目等于定位正确的坐标系数目,会造成误判,抽取的数据发生严重的错误。

3 基于相对特征坐标系的交叉定位包装器的生成算法

3.1 最小包装器生成算法

本文采用自底向上的逻辑归纳思想。设D(D1,D2,…,Dn)表示HTML页面集合,x表示包装器的路径表达式XPATH。最小包装器路径唯一,定义x最小包装器满足条件:Min(XPATH)=x0,且没有其他的XPATH表达式,x满足:x=x0,并且Precision(x0)=Precisionn(x),Recall(x0)=Recall(x)。生成最小包装器的目的是为了满足各抽取元素路径最短的情况下同时使查全率和查准率尽可能为1。

假设x是一个XPATH路径表达式的包装器,如其查全率和查准率都为1,但并不满足最小包装器的条件,那么x并不是最小包装器,我们需要找到最小包装器。最小包装器可以在抽取数据的过程中减少由于页面变动而引起的抽取数据错误和中断,并且可以减少抽取的时间。基于元素文本特征的包装器生成算法如下所述:

该算法输入是一系列有标签的Web页面集合,输出是基于元素文本特征坐标系的原点以及使用XPATH路径表达式表示的包装器集合ResultSet,即各抽取节点的坐标。

算法第1行为初始化,基于文本特征坐标系的坐标原点START-PATH为第一个可定位到待抽取元素的文本,Point为中间指针,初始化为第一个可定位到待抽取元素的文本,ResultSet为NULL;第2行为判断START-PATH是否为Web页面的最开始标签,若为html节点,则遍历到顶点了,结束遍历;第3行计算根据当前路径精确度和召回率是否为1,若是则遍历到最小包装器,否则执行7行-8行;第11行返回XPATH路径表达式表示的包装器集合ResultSet,以及获得到START-PATH。将START-PATH作为坐标系原点,ResultSet作为最小包装器。

本算法按照最坏情况计算时间复杂度。本算法主要耗时在计算坐标系的坐标原点上。步骤1的时间复杂度为时间常量,即为0(1)。假设HTML转化为DOM树,DOM树的深度为n,则步骤2在最坏的情况下的时间复杂度为O(n)。在每次循环过程中,步骤3-步骤9的时间复杂度为0(1),因此该算法的时间复杂度为0(1)+0(n),即为O(n)。因此,采用本算法每种坐标系的时间复杂度为O(n),假设采用的坐标系种数为k,则采用改进的交叉定位法的时间复杂度为kO(n),算法复杂度呈线性增长。

其他几种方法在构造DOM树的过程中,考虑在最差情况下的时间复杂度,绝对路径方法的时间复杂度为O(n);相对路径方法的时间复杂度为O(n);绝对特征路径方法的时间复杂度为O(n);相对特征路径方法的时间复杂度为O(n);交叉定位方法的时间复杂度分别为40(n)。本文提出的算法在时间复杂度上并未明显增长。

3.2 基于内部特征的相对特征坐标系的构造方法

本文参考待抽取信息块的内部特征,采用基于内部特征的相对特征坐标系构造交叉定位的包装器。在视频网站中,包含一些稳定的元素文本,而元素中包含一些稳定的属性特征,因此,本文构造的基于内部特征的相对特征坐标系主要依据HTML的2个方面的内部特征:①元素文本特征;②元素属性特征。由两个方面的内部特征分别构造了基于元素文本特征的坐标系和基于元素属性特征的坐标系。

3.2.1 基于元素文本特征的坐标系

在抽取视频网站中视频的元数据信息时,直接定位不到有用的信息,需要借助定位得到待抽取信息节点的父节点、子节点或兄弟节点,从而定位得到有用信息的节点。一个HTML信息块由元素构成,而元素由子元素、文本或两者结合的混合式内容构成。分析多家视频网站,可以得出视频的元数据信息定位方式主要分为3种方式:

基于元素文本特征的坐标系,利用第一个可以定位到的待抽取元数据的文本(父节点元素的文本、子节点元素的文本、兄弟结点元素的文本)作为坐标原点,根据此坐标原点寻找其他待抽取元素的路径即坐标,如果可以定位得到其他元素的坐标,则此元素可以作为原点;否则,将此元素的父节点作为坐标原点,寻找其他元素的坐标,如此向上递归直至找到一个节点作为坐标原点,以此坐标原点可以定位得到所有元素的坐标,即将该元素作为坐标原点,每个待抽取的元素的路径作为坐标。

3.2.2 基于元素属性特征的坐标系

元素的标签中往往包含一些属性,有些属性名称或是属性值是唯一的,可以识别唯一的元素。

根据分析,可以看到,能够唯一识别元素的属性特征分为以下三种:

(1)标签中具有属性名称为“id”的属性。例如,<PATH START-STR=<div id=“content”>/>。

(2)同一抽取页面中待抽取模块中的属性具有唯一的名称。例如,<PATH START-STR=<div id=“content”>XPATH=span[propertyName=“style”]/>,可以用于定位到第一个属性名称为style的标签。

(3)同一抽取页面里待抽取模块中的属性名称不唯一,但属性值唯一;且同一类待抽取页面,不同的页面中同一元素的属性名称相同,属性值也相同。例如,在图1源码的span标签中,有一个稳定特征property=“v:genre”,那么<PATH START-STR=<div id=“content”>XPATH=span[@property=“v:genre”]/>,可以用于定位到这个第一个property属性值为v:genre的span标签。

选取的属性可以最大程度上的区分同一抽取模块中的不同的元素,同时也尽可能的识别不同网页中待抽取模块中相同的元素。利用基于元素文本特征坐标系生成的坐标原点的元素所在的子树作为划分的待抽取的模块,在待抽取模块中进行训练上述三种属性特征。利用基于元素文本特征坐标系生成的坐标原点作为基于元素属性特征坐标系的原点,利用上述三种特征的属性定位到待抽取的元素的路径作为坐标值。

3.3 基于相对特征坐标系包装器的生成算法

根据元素文本特征构造的坐标系,在进行抽取视频元数据的过程中,由于页面结构的变化,使某些待抽取信息的子节点、父节点、兄弟节点元素的缺失,或文本的改变导致定位不到待抽取信息等原因引起的抽取错误。因此,结合基于元素属性特征的坐标系,共同定位待抽取的信息。

基于相对特征坐标系包装器的生成流程图如图4所示。将待抽取的HTML页面分为两个部分:训练集与测试集。

将训练集部分的页面分别训练生成两种坐标系:①根据3.1节提出的最小包装生成器的算法,定位基本元素文本特征坐标系的坐标原点;根据坐标原点以及各元素的路径计算各元素坐标;生成基于元素文本特征的坐标系;②根据坐标原点确定待抽取模块所在DOM树中的子树;在子树中训练3.2.2节提出的元素属性;计算各元素在基于属性坐标系中的坐标;生成基于元素属性特征的坐标系。

利用测试集,测试根据训练集生成的包装器。分别采用两种坐标系对视频元数据进行抽取;在抽取过程中,若基于元素文本特征的坐标系抽取成功,则采用该坐标系抽取的信息,否则采用基于元素属性特征的坐标系抽取的元数据信息。

4 实验结果及分析

本文选取了8家视频网站进行数据抽取,如表1所示。从各家网站中分别选取50个页面作为训练集训练包装器;通过3个月观察,各个网站结构发生部分调整,其中,土豆、优酷、爱奇艺等网站有过一次较大的变化,分别选取其中部分网页作为测试集进行抽取实验,选取各个网站的网页数目如表2所示,选取待抽取的元数据信息包括:视频名称、集数、导演、演员、类型、地区、上映时间、剧情描述。

本实验环境:LINUX redhat5.3,JAVA语言,JDK＿1.6。本文主要从抽取精度、召回率和效率上进行实验。

计算抽取效率的过程时,只计算定位、抽取的时长,不包含存储、过滤的时间。见以下公式。

其中,a表示为抽取正确并判断正确的元素数;b表示抽取正确但判断错误的元素数;c表示抽取错误但误断为正确结果的元素数;d表示抽取错误并能够判断抽取结果为错误的元素数,如表3所示。

根据表4、表5结合实际抽取结果分析得出:①采用四种单独的坐标系,抽取的精度比较低;②采用四种单独的坐标系,不需要采用投票的方式判定结果,所以没有将抽取正确的结果误断为错误的结果,召回率为1;③交叉定位法在精度上有了很大的改进,但是以大大降低召回率为代价;④改进的交叉定位法在以降低较小的召回率为前提下很大程度上提高了抽取的召回率。

根据表6可以看出:①采用单种方法使用的时间较小,但也不排除某些页面在抽取过程中失败引起的时间较少的原因;②交叉定位方法是综合上述4种方法,用时较长;③改进的交叉定位方法相较于交叉定位方法在时间上大大缩短。实验结果如表4-表6所示,交叉定位法和改进交叉定位法如上述3个表中的最后两行结果所示。

5 结束语

Web信息抽取是当今互联网及应用和服务的普及过程中的一项重要技术。由于Web数据动态性和异构性的特点,网页结构也经常发生改变,一个轻微的变化都将引起包装器的中断或数据错误的采集,导致包装器中的抽取规则失效而无法正常抽取数据。本文分析了当前的数据定位常用的方法,分析了其优点与不足。本文对交叉定位方法进行了改进,通过实验表明,此方法抽取数据受网站微调影响较小,可以大大提高了抽取的准确性,并且可以极大的缩短抽取数据的时间。

摘要：针对包装器在抽取Web网站的过程中抽取精度差、耗时长以及鲁棒性差等问题,提出了一种改进的基于内部特征、自底向上归纳总结的数据交叉定位方法,该方法建立了基于元素文本特征和基于元素属性特征的坐标系,将两种坐标系中的坐标值进行交叉验证获取待抽取的元数据信息。实验结果表明:该方法抽取数据相较于绝对路径方法、相对路径方法、绝对特征路径方法、相对特征路径方法以及交叉定位方法,在召回率略降2.2%的情况下,精确度提高了31.1%,并且相较于交叉定位法,抽取数据的时间提高了17.9秒。

关键词：Web信息抽取,交叉定位,包装器,内部特征,DOM树

参考文献

[1]Nilesh Dalvi,Ravi Kumar,Mohamed Soliman.Aulomatic Wrappers for Large Scale Web Extraction[J].In VLDB,2011,4(4):219-230

[2]Parameswaran A,Dalvi N,Garcia-Molina H,et al.Optimal schemes for robust web extraction[J].Proceedings of the VLDB Conference.VLDB Endowment,2011,4(11):980-991

[3]N.Kushmerick,D.Weld and R.Doorenbos.Wrapper induction for information extraction[C]//Proceedings of the 15th international conference on Artificial Intelligence.1997.729-735

[4]ChenTian,HuangMin.Data Cross-Locating in Web Information Extraction[J].Journal of South China University of Technology(Natural Science Edition).2008,36(5):43-47,52

[5]Chang Chiahui,Lui Shaochen.IEPAD:information extraction based on pattern discovery[C]//Proceedings of the Tenth International Conference on World Wide Web.Hong Kong:ACM,2001.681-688

[6]Chang Chiahui,Lui Shaochen,Wu Yenchin.Applying pattern mining to Web information extraction[C]//Proceedings of the 5th Pacific Asia Conference on Knowledge Discovery and Data Mining.Hong Kong:Springer,2001.4-16

[7]Kistlera T,Marais H.WebL:a programming language for the Web[J].Computer Networks and IS-DNS Systems,1998,30(l):259-270

[8]Sahuget A,Azayant F.Building light-weight wrappers for legacy Web data sources using W4F[C]//Proceedings of the 25th International Conference on Very Large Data Bases.Edinburgh:Morgan Kaufmann,1999.738,741

[9]Sun Jianling,Cat Junjie,Dong Jinxiang.WDI:a general XML-based Web wrapper description anguage[J].Journal of Zhejiang University:Engineering Science,2003,37(1):24-31

数据交叉篇4

数据挖掘(Data Mining)经过近十几年的迅速发展,形成了融合数据库、人工智能、机器学习、统计学等多个领域的理论和技术的交叉学科。因其所涉及的知识领域众多、应用范围广泛,数据挖掘已成为研究人员和商业组织所关注的热门领域。SQL Server2005分析服务(SSAS)是微软SQL Server 2005中的多维联机分析处理(OLAP)组件,它在商业智能(BI)分析方案中集成了关系型和OLAP数据,是一种集成的商务智能、数据挖掘、分析和报表解决方案。

交叉销售是非常常见的商业问题,它包括基于客户当前或之前的购物篮中的产品来推荐新的产品列表。简单说来,就是向拥有本公司A产品的客户推销本公司B产品。交叉销售对零售商是一个很重要的商业挑战。许多零售商,特别是在线零售商,采用这个特性来增加它们的销售额。比如,如果你到一个在线书店(如亚马逊Amazon.com)去购买书籍,你会注意到该网站会给你一系列相关书籍的推荐信息。这些推荐信息的提出,是基于购物篮分析得出的。而购物篮分析是针对数千个有相似购物情况的客户进行的。好的推荐信息会改变客户的购物体验,从而增加销售额。差的推荐信息会使客户感到烦恼,从而最终把他们赶走。

交叉销售的难点在于如何向客户提供一组正确的推荐信息。当销售产品种类比较少时,基于销售经验来提供建议比较容易。可是,当产品比较多时,问题就非常复杂了。

二、利用SQL Server 2005数据挖掘建立推荐模型

利用SQL SERVER 2005中的决策树算法来构建推荐模型,以说明数据挖掘在交叉销售中应用。

基本步骤:

1. 建立数据库

启动SQL Server Management studio在其中建立名为movie survey的数据库,右击它在弹出的快捷菜单中选择“任务”中的“导入数据”导入movie survey数据集,该数据集是对Microsoft雇员的调查表,主要涉及被调查者的电影观看行为,人口统计信息等,保存movie survey数据库文件。

2. 建立Analysis services项目

选择商业智能项目中Analysis Services项目,建立movie Survey项目。

3. 建立数据源

数据源实际上是一个连接字符串,用于描述数据的位置,本项目的连接字符串为“Provider=SQLNCLI.1;DataSource=localhost;Integrated Security=SSPI;Initial Catalog=Movie Survey“。

Movie Survey数据库文件包括Survey表和Movies表,Survey表记录了被调查者的年龄、教育水平,性别、收入、婚姻状况、上网方式,上网频率等信息,图例中只截取了其中的部分属性。Moives表只有两个属性Survey Taken ID(客户序号)和movie(电影名)共45325条记录。如图1所示。

4. 建立数据源视图(DSV),将上面提及的“Survey”表“movies”表都选择进来

数据源视图是数据在客户端的一个抽象视图,在DSV中可以选择、组织、浏览数据源中的数据。在数据源视图中建立事例表survey和嵌套表movies的一对多关系如图2所示。

5. 建立挖掘结构

使用数据挖掘向导创建两种对象:挖掘结构和挖掘模型,挖掘结构描述将用于挖掘列和训练数据,挖掘模型是从挖掘结构中选择一些列,然后使用某一个算法,并且为该算法定义每一列的用法。SQL Server 2005包括世界级的数据挖掘算法有7种:Microsoft贝叶斯算法、Microsoft决策树算法、Microsoft序列聚类算法、Microsoft聚类算法、Microsoft神经网络算法、Microsoft关联规则算法、文本挖掘。

根据具体的商业问题,确定相应的算法,本文的目标是分析客户将会一起购买的电影。在获得这些模式后,可以使用它们来提供推荐信息。该问题属于关联任务。最适合的两个算法是Microsoft决策树算法,Microsoft关联规则算法。

图3显示了模型的定义。该模型是完全基于每个客户的购物篮来分析电影关联,同时分析电影与人口统计信息之间的关联。

在处理了模型这后,得到一组决策树,图4显示了预测电影English patient的决策树的一部分,从图例看出只有2.2%的客户购买了该电影,该决策树的第一个拆分基于Chocolat。在那些喜欢Chocolat的客户中,大约有27%的客户也喜欢English patient,与总的喜欢Einglish patient人数相比,比例增加13倍。在那些不喜欢English patient而喜欢Boot Das的客户中有22%的客户也都喜欢English patient。通过这棵树,我们知道Boot Das和Chocolat是English patient比较好的预测器。

决策树有两个查看器,切换到依赖关系网络查看器中,图5显示了决策树模型的依赖关系网络,可以认为该网络是从森林的顶部进行鸟瞰的视图,每个节点都是一颗决策树。当双击任何节点时,都可以看到底层树的详细信息。每条边都代表两棵树之间的关系。每条边都有一个方向,该方向指明了预测的方向。每条边也都有一个权值,该权值代表预测的强度。例如,从图中可以看出:Boot das预测English patient,Chocolat和English patient彼此预测。

三、小结

虽然数据挖掘在最近几年谈论比较多,但它的市场相对比较小,数据挖掘依旧被认为是一种高端的应用功能。SQL SERVER2005提供一系列方便而且功能全面的可视化工具,比如解决方案管理器、数据挖掘向导、数据挖掘设计器、模型查看器、编辑器等。它可以从各种数据源构建挖掘模型,用户利用模型查看器来解释模型,利用模型编辑器修改参数的设置来调整模型,同时SQL SERVER 2005数据挖掘功能和SQL SERVER产品集成给我们的挖掘工作提供了便利。

参考文献

[1]Zhaohui Tang,Jamie Maclennan.数据挖掘原理与应用—SQL Server 2005数据库[M].北京:清华大学出版社,2007

数据交叉篇5

澳大利亚SCATS系统是我国目前广泛使用的区域控制系统,已有上海、杭州、广州、苏州、长沙、沈阳、宁波等多个城市引入这一系统。SCATS系统是一种以方案选择配时方案与单点感应控制作调整相结合的控制系统,克服了定时式脱机操作系统不能适应交通流随时间不断变化的缺点,使绿灯时间能得到更充分利用,从而缩短汽车通过交叉口时产生的延误,提高交叉口的通行效率。但是由定时控制系统改造成SCATS系统费用较高,没必要在大中城市的每个路口都安装该系统,在研究是否需要引进该系统以及在多大范围内使用该系统时,需要对SCATS系统的控制效果进行评价。

目前国内外对SCATS信号控制评价的研究还比较少。国内极少有对SCATS信号控制评价的案例,对变周期信号系统的控制评价研究大都还停留在评价指标体系的建立和具体指标的选取上[1,2];国外澳大利亚、美国等国家近年来对SCATS系统区域控制系统做过一些研究,通过浮动车法分别调查待评价区域采取定时控制时和改造成SCATS系统控制后区域内车辆的行程时间、延误和排队长度并进行对比来评价SCATS系统的控制效果[3,4,5,6,7]。这类研究通常花费巨大、调查周期较长,并且SCATS系统改造过程伴随的道路扩建,改造前后流量、管制手段的变化等都会导致对比不严格。Martin等[8]对犹他州帕克市的SCATS系统作了评价研究,他们的研究是通过对比同一区域在开启SCATS系统和关闭SCATS系统同时采取定时控制2种不同条件下交通运行情况,他们的研究方法相比以往的方法有了改进,但依然无法实现严格的单一变量对照。

仿真作为一种间接研究手段,在一定程度上可以克服上述研究方法的缺陷。但仿真手段也有自身的缺点。以德国PTV公司开发的微观交通仿真系统Vissim为例,这个仿真系统可以方便地对定时控制交叉口的车流运行进行模拟,并生成相应的评价数据(如行程时间、延误、排队长度)等。对于SCATS这样的自适应变周期控制系统,由于Vissim需要的运行稳定时间远远大于SCATS系统的单个周期时长,Vissim通常无法实现对SCATS系统的直接仿真和评价。

以往的研究中,SCATS信号控制评价的范围通常包括系统覆盖的整个区域,没有专门对单个交叉口进行评价。但是国内许多SCATS系统中通常存在关键交叉口,这些关键交叉口的控制效率对整个系统的控制效率有极大的影响。因此,在国内许多城市对系统中的关键交叉口的控制效率进行评价比对整个控制区域的控制效率的评价更加具有现实意义。

鉴于此,本文拟探讨在SCATS系统控制区域中存在单个关键交叉口的情形下,以定周期控制的交叉口总延误来拟合SCATS系统变周期控制的交叉口总延误。通过建立SCATS系统周期方案到流量的映射,提出用数据拟合和Vissim仿真来实现对SCATS信号控制评价的方法,最后通过仿真实验验证该方法的可行性和有效性,并分析从平峰到高峰车流量变化对SCATS系统控制效果的影响。

1 SCATS自适应配时方案控制延误的定周期拟合

1.1周期方案到流量的映射

变周期信号系统是配时方案会定期或不定期发生变化的信号系统,配时方案通常根据车流量的变化而变化。对于变周期信号系统,它的每一个周期方案可以看成是对一种特定流量(或流量阈值)的反映。最简单的变周期信号系统只有2个信号方案,2个信号方案分别对应着平峰流量和高峰流量,复杂一些的自适应控制系统如SCATS等的信号方案分别对应着不同的短期流率。基于此,可以建立从配时方案到特定流量(流率)的映射,见图1。对于一个正常工作的变周期信号系统,可以根据它当前采用的周期方案,推测出当前流量(或上一个周期流率)所处的阈值区间,一般来说,系统的周期方案越多样化,通过反推可以确定的阈值精度就越高。对于大部分方案形成式控制系统(比如SCOOT系统)和实际周期方案十分多样的方案选择式控制系统(比如,SCATS系统),由于它们实际采取的周期方案可以有无数种,可以认为其周期方案多样化程度高,根据周期方案反推可以确定的阈值精度可以满足拟合需求。

1.2SCATS系统信号控制效率的定周期拟合

假定某SCATS系统控制十字交叉口高峰时期各向流量为Q0,(Q0是一个数组(q1,q2,q3,q4),对于非十字路口的多路交叉,数组内的元素个数可以相应改变),系统依次采用周期方案为T1,T2,…,Tn,对应的短期流率分别是Q1,Q2,…,Qn,高峰时期交叉口的平均每车延误为t0,设当流量恒为Qn且系统恒采用配时方案Tn时交叉口的平均每车延误为tn.设t1,t2,…,tn的最大值为tmax,最小值为tmin,则tmin≤t0≤tmax,且必存在周期方案Tm (Tm不一定在集合(T1、T2,…,Tn)中)及其对应的流量Qm,使得当流量恒为Qm且系统恒采用配时方案Tn时交叉口的平均每车延误.因此,只要计算出周期方案Tm及其对应的流量Qm,就可以实现对变周期信号系统信号控制效率(本文采用交叉口平均每车延误为总指标)的定周期拟合。但是计算出周期方案Tm及其对应的流量Qm是相当困难的,在n足够大时,可以在(T1,Q1),…,(Tn,Qn)中选取一个典型周期方案到流量的映射来近似代替(Tm,Qm),近似地实现对变周期信号系统信号控制效率的定周期拟合,见图2。

1.3SCATS系统典型周期方案到流量映射的选取

在SCATS系统周期方案-流量映射中,周期方案是容易得到的,其对应的流量则难以确定。由于两者之间存在映射关系,选取典型周期到流量的映射可以简化为选取典型周期。典型周期应该具有如下特点:①对应流量在各入口道总流量上与调查所得平峰或高峰的平均各入口道总流量十分接近,使得对典型周期进行简单重复可以近似模拟连续变周期仿真;②与典型周期相似程度较高的周期数量在总周期数中占比较高,以保证样本的典型性;③典型周期对应各进口道流量与调查所得平峰或高峰对应各进口道流量的差异应该保持在一个合理范围。根据以上特点,确定选取典型周期的方法步骤如下。

1) 统计的调查时段内、周期各相位的平均时长,将所得各相位平均时长组合成一个新的周期。将这个周期方案称为“标准周期”。

2) 引入参数CY表征各周期与“标准周期”的“差异度”,CY值越大,表明该周期方案与“标准周期”差异越大,两者越不相似,CY值越小,表明该周期方案与“标准周期”差异越小,两者越相似。CY的值为一特定周期各相位时长与标准周期对应时长差的平方和。设标准周期各相位时长为(r10, r20,…, ri0),则第n周期(r1n, r2n,…, rin)与标准周期的差异度为:

$C Y_{n} = \sum_{k = 0}^{i} (r_{k n} - r_{k 0})^{2} (1)$

其中:i为标准周期的相位数,rkn为第n周期第k相位时长。计算出各周期CY值,把它们按从小到大排列。

3) 根据最大值和最小值将CY值分为5-10个区间,统计各区间的频数。选取频数最大的区间中CY值最接近该区间中位数的周期作为典型周期。

4) 根据上述步骤选取的周期对应的流率来验证该周期的典型性,验证条件为对应流率在总量和每个进口道的流量上与调查所得的小时平均流量的差异在5%以内。

1.4SCATS系统典型周期对应流率计算

在间断流设施下,特定周期对应的短时流率是难以直接调查得到的。在建立SCATS系统周期方案-流量映射的基础上,本文采取近似计算方法根据周期方案反推确定典型周期对应的流率。

假定SCATS系统在每一个绿灯开始的时刻就决定了这个绿灯时间的长度,这个长度由上个绿灯时间和红灯时间在进口道检测器检测到的车辆数决定,而且这些被检测到的车辆全部在本相绿灯时间通过。则每一个周期对应的各进口道流量可由下式求得:

$Q_{n m} = Ν_{n m} / t_{n m} (2)$

式中:Qnm表示第n周期对应的m进口道的车流量,Nnm表示m进口道在第n周期绿灯时间通过的车辆数,tnm表示第n周期m进口道绿灯亮之前该进口道上个绿灯时间、黄灯时间和红灯时间之和。

以上方法计算出的流率是近似值,由于流率在单一变量仿真对比实验中是常量,在设计计算方法时应重点考虑它们的合理性和典型性,而允许它们在精确程度上有所偏差。

2 设计定时控制配时方案对照

在没有提取周期相位数据的情况下,可以通过平峰和高峰的总流量数据运用韦伯斯特法来确定定时控制的配时方案。

Martin等对犹他州帕克市的SCATS系统作评价研究时提出了一种根据SCATS系统内部数据设计定时控制配时方案的方法[10]。他们选取SCATS系统内部的五种配时方案,按实际采用次数做加权平均,得出一个定时配时方案。由于SCATS系统具有自适应调整配时方案的特点,这个加权平均方案通常优于通过韦伯斯特法来确定定时控制的配时方案。他们的研究结果也证明了这一点。

本文确定定时配时方案时借鉴了上述研究的思路,直接采用了统计方法。

由于SCATS系统本身具有根据流量变化来改变周期的特点,其信号配时方案本身反应了各方向流量情况,故本文采取平峰、晚高峰各周期各相位的平均值组成的周期,即上文中的“标准周期”来作为平峰和晚高峰的定时控制配时方案。

确定了典型周期方案和对照周期方案后,就可以进行对比仿真实验,选用特定的评价指标(比如交叉口平均延误),用2种定时控制方案控制效果的差异来拟合自适应控制方案和定时控制方案的差异,见图3。

3 实例

长沙市芙蓉区松桂园路口是由南北走向的芙蓉中路与东西走向的营盘路相交而成的交叉口。松桂园路口南北向和东西向的车流量都很大,是一个非常典型的关键交叉口。

长沙市芙蓉区松桂园路口在采用SCATS系统之前采取的控制策略是定时控制,周期方案分4个相位:东西直行、东西左转、南北直行和南北左转。采用SCATS系统后,松桂园路口的自适应周期方案减少了东西左转相位,只保留了3个相位:东西直行、南北直行和南北左转。每相位的黄灯时间是3 s。

本研究采用摄像的方式记录了松桂园路口工作日平峰和高峰的车流运行情况。在平峰和高峰分别调查了连续39个周期和37个周期。本次仿真实验设置的延误检测点起点为各入口道离停车线150 m处,终点为出口道离出口50 m处。本次仿真实验采取的评价指标是交叉口平均延误。

通过数据处理得到的平、高峰典型周期方案及其对应流量构成见表1、表2。

仿真实验结束后,Vissim将自动生成延误数据。仿真实验结果见图4:

结果分析:在长约为250 m的检测段上,平峰时期通过交叉口的车辆的平均延误减少7 s,降低约13.1%,高峰时期通过交叉口的车辆的平均延误减少1.4 s,降低约1.9%。平峰时采用SCATS系统的延误降低要大于高峰时期,可能是因为平峰车流量较小,短时流量变化幅度大,采取大周期定时方案时绿灯损失比较大,所以定时控制和自适应控制的平均每车延误差别较大,而高峰时期因为车流量大,采取大周期定时方案时绿灯损失比较小,所以定时控制和自适应控制下的平均每车延误差别不是很明显。这个结果也说明在流量很大甚至接近交叉口通行能力时,采用SCATS系统对减小延误的作用是十分有限的。

4 结束语

针对国内一些城市路网的实际情况,指出国内SCATS系统的评价相比国外可能存在的差异,提出研究SCATS系统中单个关键交叉口控制效率的必要性,在此基础上,建立了从自适应信号系统周期方案到短期流率的一一映射,论述了构造单个典型周期定周期控制效果来拟合SCATS系统连续变周期的控制效果的可能性,定义了“标准周期”和表征非标准周期和标准周期差异程度的系数“差异度”,通过计算非标准周期的差异度并进行分区统计频数来确定典型周期,根据流量和周期的一一映射关系,结合调查和统计分析工具求得典型周期对应的流量,然后根据交通调查数据构造适当的定时控制方案,用典型周期对应流量分别在典型周期方案和构造方案下做定时控制仿真,从而实现用2种定时控制方案控制效果的差异来拟合自适应控制方案和定时控制方案的差异。

以长沙市松桂园路口为仿真实例,以交叉口平均延误为指标对比了SCATS系统自适应控制和传统定时控制两种方案的控制效果差异。结果显示Vissim仿真在信号控制效果上SCATS系统要优于传统定时控制系统,并且在平峰时期SCATS相对定时控制系统的优势要比在高峰时明显。结果同时反映高峰时期车流量已经接近路口的通行能力,采用SCATS系统对提升控制效率的作用十分有限,在此情况下,更应该考虑引导车流在路网更均匀的分布等措施来缓解交通拥堵。

摘要：现有SCATS系统信号控制评价是通过交通调查与其他系统进行对比实现的,这样的研究方法无法保证对照的外界条件一致,研究周期长,花费较高。为克服这些缺点,提出了一种在Vissim仿真平台上进行对照实验的方法,建立了变周期信号系统周期方案到流量的映射,论证了用定周期控制的延误来拟合SCATS系统连续变周期的控制延误的可能性,从而以2种定时控制方案延误的差异来拟合SCATS自适应控制方案和定时控制方案延误的差异。选取长沙松桂园路口应用上述方法进行评价,发现SCATS系统自适应控制效果优于定时控制,且平峰时期的优势比高峰时期明显。

关键词：SCATS,Vissim仿真,延误,信号控制评价,数据拟合

参考文献

[1]张蕊,童斌华.区域交通信号控制系统评价指标[J].北京建筑工程学院学报,2001,17(4):17-18.

[2]苑雷,祖永昶,王长君.城市交通信号控制系统评价方法研究[J].交通信息与安全,2009,27(2):39-40.

[3]Srinivasan D,Choy M C,Cheu R L.Neural net-works for real-time traffic signal control[J].Intelli-gent Transportation Systems,IEEE Transactionson,2006,7(3):261-272.

[4]Park B B,Schneeberger J D.Microscopic Simula-tion Model Calibration and validation:case study ofVISSIM simulation model for a coordinated actuatedSignal system[J].Transportation Research Record:Journal of the Transportation Research Board,2003,1856(1):185-192.

[5]Park B,Won J,Yun I.Application of microscopicsimulation model calibration and validation proce-dure:Case study of coordinated actuated signal sys-tem[J].Transportation Research Record:Journalof the Transportation Research Board,2006,1978(1):113-122.

[6]Wolshon B,Taylor W C.Analysis of intersectiondelay under real-time adaptive signal control[J].Transportation Research Part C:Emerging Tech-nologies,1999,7(1):53-72.

[7]LI X,Wang Z,Geng J.Application of Vissim insignal timing of ring intersection[J].Communica-tions Standardization,2009,194(4):171-174.

数据交叉篇6

所谓学科交叉是指突破已有的学科壁垒, 将不同的学科理论、方法或思维有机地融为一体的研究活动, 其实质是知识体系的渗透和融合[1]。20世纪后期, 随着科学科学技术的飞速发展, 以及人们认识自然、社会和人类自身能力的不断提高, 科学研究从高度分化走向交叉综合的发展趋势。环境、资源、经济、人口、健康甚至和平安全等关系到人类生存和社会可持续发展的领域在不断给我们提出单一学科的知识所不能解决的复杂课题, 学科之间相互融合与渗透, 在学科交叉的前沿领域, 新思想、新学科不断涌现, 并使得高水平的创新成果应运而生。学科交叉成为科学知识创新的主要途径。

著名科学家、教育家钱伟长曾说过:“很多关键性的新东西不属于哪一个专业, 常常是两个专业或几个专业合在一起产生的。”美国未来学家阿尔温·托夫勒指出:“当代重大的突破常常不是来自单项孤立的技术, 而是来自并列的几种技术或来自几种技术的综合。”英国著名学者贝弗里奇指出:“富有成果的研究路线, 出现于科学分支的交叉点上。”四川大学校长谢和平院士说过:“多学科交叉融合是优势学科的发展点, 新兴学科的生长点, 重大创新的突破点, 也是人才培养的制高点;当今世界科学前沿的重大突破、重大原创性科研成果的产生, 大多是多学科交叉融合的结果。”[2]近百年获得诺贝尔自然科学奖的三百多项成果中近半数的项目是多学科交叉融合取得的, 例如:DNA分子双螺旋结构的发现, 就是物理学、生物学、化学交叉融合的结果。

同时, 文理渗透、理工结合, 也是培养拔尖创新人才的有效途径。学理工科的一般长于逻辑推理和抽象思维;学人文科学的惯于直觉感受和形象思维。直觉与逻辑是科学思维和创造的两翼, 人文艺术与自然科学是人类文明进步的两轮[3]。俄罗斯莫斯科国立罗蒙诺索夫大学校长维·安·萨多夫尼奇教授在谈到如何留住拔尖人才的措施时, 强调开展多学科交叉研究是一条有效途径。

世界知名大学普遍高度重视推动多学科交叉融合与发展。麻省理工学院的跨学科研究中心和实验室已超过60个, 斯坦福大学实施了“生物学交叉学科”研究计划, 涉及生物工程、生物医学、生物科学三大领域, 跨越文理学院、工程学院、医学院三大学院。哈佛大学、密西根大学等普遍设立了合作基金或建立学科交叉专家委员会等机构, 以推动学科的交叉融合与发展。

在中国多学科交叉融合已成为许多综合性大学探索的热点。据教育部副部长吴启迪介绍, 多学科交叉融合分为两种方式:一种是北京大学、复旦大学等探索的“多学科融合”方式, 把理科、工科、医科、生命科学等结合起来, 搞平台实验室、中心等, 收到很好的效果;另一种是中国科技大学等探索的“多学科交叉”方式, 把物理、化学、生物等学科中间的东西放在一起, 有多位院士参与, 出人才、出成果、有可喜的前景。

北京大学校长许智宏院士在题为《北京大学创建世界一流大学的发展战略与实践》的演讲中, 把“适应科学发展进程, 促进学科交叉”列为北大建设世界一流大学的8项主要措施之一。学校还将本着鼓励大学科跨度研究, 以公共设施平台促进学科交叉, 建立实体研究机构, 探索新的运行体制的方针, 重点建设一批前沿交叉学科研究中心, 并组建交叉学科研究院。

当前交叉学科面临的困难和问题

交叉学科的研究需要多学科知识的交融和来自多学科专家学者的参与, 因而具有复杂性和综合特色, 需要观念上的转变和政策上的支持, 更需要高水平的队伍等保证。

1. 现行体制不鼓励多学科交叉融合

现行管理体制强化学科边界, 绝大部分高校学科点都在行政上隶属于学院或系, 学科资源分配主要以现有的相对固化的成熟学科、专业为根据, 人员编制隶属于单一学科基础上的院、系、所, 考核评价以传统学科标准为体系, 本专业同行评议为主, 森严的学科量限使我们失去了解其他学科发展动向的机会, 直接影响了高水平的交叉学科联合研究项目的实施。现行学科建设资金如“211工程”和“985工程”重点建设经费一般是按学科体系划分的学科进行投入, 交叉学科属于建设资金投入的“盲点”, 在各自的学科中极易受到排挤, 不易申请到建设资金或得到基金项目资助。现行管理体制造成学科人为条块分割, 学科之间产生壁垒保护, 限制了人员的流动和设备的共享, 这对学科交叉极为不利。

2. 教师本身素质缺陷

专业限制形成的教师研究方向偏窄, 多年来人们习惯于在有明确学科界限的范围内从事“纵深”式的研究, 各学科知识结构上的差异, 认识和探索方式上的不同, 都成为学科间“横向”交流与对话的障碍。由于受传统单一学科培养模式的局限, 知识面宽又懂得其他学科“语言”的科学家少, 从而使不同学科间的沟通困难;由于门户之见, 学科壁垒, 使一些科学家很难做到真正意义上合作交流, 寻找共同兴奋点、切入点的能力和意愿不够强, 习惯于关门研究的“小而全”模式, 超越本学科进行跨学科战略思维的科学家少。

3. 管理层面的问题

高校管理层缺乏战略思维, 认识不到位, 政策支持不到位, 措施落实不到位。大学的科研管理机构及其管理者必须相信其科研人员会努力工作, 营造诚信、责任、不断学习与合作的相互信任机制和提升科研能力的文化氛围, 建立客观的考评体系和合作激励制度, 特别要给那些酷爱科研、乐于独立思考、具有创新精神、虽然暂时还未出名的学术新人一个施展才华的舞台和机会, 鼓励他们对自己所承担的课题进行创新;还要探索完善鼓励创新和合作的考评、资源整合、组织管理等制度环境。

上述这些因素使处于学科交叉地带的新思想、新知识不易被认可, 队伍组织难以获得支持、成长壮大困难多。即使不少高校成立了“交叉学科中心”, 也由于上述原因而多以虚拟为主, 易流于形式。

建立学科交叉环境和培养土壤的措施

学科交叉涉及两个或以上的学科, 如何建立一套行之有效的管理机制, 既鼓励教师从事学科交叉的科学研究, 促进不同学科教师之间的合作, 建设一支在学科交叉领域培育创新人才的导师队伍, 又有监控和质量保证手段。借鉴国内外一流大学的经验, 并结合学校的实际, 在推进学科交叉发展, 加强教师队伍建设等方向采取必要的措施:

1. 成立学科交叉研究的专门机构

成立学科交叉专家委员会。委员会的成员背景应反映学校的学科布局情况, 同时应具备跨学科研究和教学的丰富经验。该委员会的职责主要有:对学校整体的学科交叉发展战略作出规划, 为学科交叉研究创造良好的学术氛围和文化氛围, 评审学科交叉的课题项目;评估学校跨学科研究机构的科研、教学情况, 考核教师参与交叉研究部分的工作情况。

成立学科交叉信息办公室, 建立学科交叉信息库。该办公室受学科交叉委员会领导, 主要职责有:搜集整理现阶段科学系统中已有的交叉学科, 了解其发展历程;通过对世界一流大学开展跨学科活动的研究, 找出现有跨学科科研与教学的模式, 对一些具有国际影响力的跨学科实验室、中心等进行案例分析, 确立开展学科交叉研究的要素;建立本校与跨学科工作有关的教师的基础信息库, 包括研究课题与进展等。定期组织学科交叉论坛, 开展学术交流, 为不同学科领域专家的合作和思想碰撞提供良好的条件, 促进研究人员的思想创新。

成立学科交叉研究中心。根据学校战略决策确定的重点发展领域和现有学科力量特色, 确定突破口, 组织建立一批跨学科的交叉研究中心, 以交叉研究中心为依托, 组织不同学科的学术力量, 开展跨学科的交叉研究, 并在研究发展的基础上, 促进学科水平提高。

2. 建立有利于学科交叉的管理机制

促进学科交叉必须建立一种适宜于多学科交叉的管理机制, 为学科交叉的发展创造良好的生长环境, 主要体现在以下几个方面:一是人才的培养机制。学校的建设、学科的发展需要具有创新的优秀人才作支撑。为培养优秀的学科交叉学术带头人, 学校应在政策上给予倾斜和支持, 让从事学科交叉领域的教师得到培养和发展机会, 在成果评审, 职称晋升等方面给予支持, 通过晋升、晋级、评奖、评估等有效机制培养一批有创新精神的新兴学科交叉的学术带头人。二是人才流动机制。建设开放式的由固定成员与流动成员结合组成的学科队伍, 鼓励学科队伍成员合理流动, 鼓励跨学科合作, 支持多学科联合申请课题, 使更多的学科在各种层次上实现交叉、融合、渗透, 寻求新的生长点, 促进学科可持续发展。三是资源共享机制。一个学科的自有资源是相对有限的, 综合性大学可以利用自身的资源优势, 一方面建立面向全校的开放式的仪器设备中心;另一方面出台政策鼓励不同学科间相互使用大型仪器设备, 使得学科自有设备与他有设备都能为我所用;为学科交叉提供设备保障。四是资金投入机制。设立学科交叉研究发展基金, 重点支持和扶持实质性学科交叉项目, 支持那些在国际科学前沿和国家重大需求结合点上新的研究方向, 促进原始创新, 研究发展基金提供合作平台, 使不同院系教师打破院系壁垒, 共同探讨科研合作契机, 从而营造一个鼓励实质性学科交叉的学术环境, 培育新的学科生长点, 形成和发展新的学科优势。增加人才引进的投入, 为学科交叉研究提供人力资源上的保障。五是激励机制。出台鼓励学科交叉的相关政策, 为学科交叉研究创造相对宽松的环境, 适当减轻交叉研究教师所在院 (系) 的工作量, 采用相对灵活的考核机制, 在晋升、晋职、评奖上给予倾斜和支持;鼓励研究生参与学科交叉研究, 对于参加多学科合作研究的研究生, 可以给予奖学金、助学金方面更多支持。

3. 调整学科结构, 建设优势交叉学科

学科结构的调整, 是实现学科跨越发展的关键, 为促进学科交叉融合, 加速学科新陈代谢, 承接重大科研项目提供更多的竞争机会, 通过学科结构的调整, 实行动态发展与滚动竞争, 突出学科的特色和优势, 促进学科交叉并凝练学科方向, 使学科发展向更高层次跃进。

通过学科课程化和课程综合化, 加速交叉学科的发展。一方面可以直接开设一些交叉边缘学科课程, 使学科发展向课程建设渗透;另一方面, 可以开设各类综合课程, 以促进各学科理论与知识的融合[4]。

4. 建设学科交叉学位点

以建设交叉性硕士点、博士点为契机, 进行学科交叉研究[5]。交叉性学位点建设, 由所涉及到的院系负责, 由研究生院学科建设办公室统一管理, 由相关学科教师组成导师指导小组, 导师指导小组对研究生各个培养环节全面负责, 并积极开设“新兴、前沿、交叉”特点的课程供学生选修, 为研究生安排跨学科的学术活动。

5. 以科研项目为纽带, 开展跨学科交叉研究

科研项目是学科的生存空间, 学科建设与科研项目之间相互作用, 互为依存, 有着不可分割的联系。高水平科研项目会带动学科发展, 促进学科水平提高, 而学科水平的提高, 又可进一步集中优势力量, 承担更重大的科研项目, 出更高水平的科研成果[7]。学科建设以科研项目为纽带, 以重大科研课题为牵引, 可集中人、财、物发挥综合优势, 形成对课题的联合攻关群体, 解决单一学科难以攻克的问题。促进相关学科的基础理论相互交融和技术手段的相互借用, 促进学科间的联合并形成多方优势。

6. 培养网络式协作研究的风气与环境

网络式协作研究的核心, 是引导知识的流通与碰撞。不仅指多学科间协作, 而且指产业、学校、政府部门协作, 也指市场、制造、研究之间的协作。不同行为知识主体之间的快速度多方向地输入输出。

参考文献

[1]路甬祥.学科交叉与交叉科学的意义[J].中国科学院院刊, 2005 (4) :32～35.

[2]谢和平.综合性大学的学科交叉融合与新跨越[J].国家教育行政学院学报, 2004 (5) :44～50.

[3]叶松, 张磊, 蒋国俊.深化体制创新促进学科交叉[J].广东工业大学学报 (社会科学版) , 2005 (6) :14～16.

[4]程莹.研究型大学开展学科交叉研究的问题、模式与建议[J].教育研究, 2003 (11) :77～80.

[5]赵伶俐、潘莉.发展交叉学科:21世纪高等学校创新的主题和难题[J].现代大学教育, 2003 (4) :31～41.

[6]余泽高, 张相乐.加强学科交叉促进学科建设[J].中国农业教育, 2003 (3) :17～19.

【数据交叉】推荐阅读：

道路交叉05-18

交叉配合05-22