模型发现教学模式

2024-09-20

模型发现教学模式（精选7篇）

模型发现教学模式篇1

1 建构主义理论

建构主义起源于认知加工理论流派, 其强调“以学生为中心, 强调学习者对知识的主动探索、主动发现和对所学知识意义的主动建构”, 学习者的学习过程应该发生在特定知识背景下, 根据他人有针对性的指导及必备的学习参考, 通过自身的主动学习来获取知识。因此在实际教学活动中教师应积极开发学习者已有“知识库”, 并将“素材”作为呈现载体, 提供学科理论及实践教学的配套内容。

1.1 建构主义理论知识观

建构主义理论知识观认为存在的知识无法完全客观真实地反映现实世界, 而是人类对客观存在世界的一种解释或假设, 并不是问题的绝对答案, 其认为随着人类历史的不断发展, 认知水平的不断提高, 取而代之的是更高层次的解释和假设, 即人类发展的过程就是向着真理不断迈进的过程。同时, 建构主义认为, 现存知识虽然能够通过不同工具等来表征知识的外在形式, 但这并不意味着不同的学习者会对相同的内容有着同样的理解和解释, 因为这些所谓的“知识”只能由个体通过自己的经验建构起来, 它取决于不同阶段的学习历程和经历。基于模型发现教学模式提倡“信息”与“知识”的内在联系, 强调学习者对所学内容的感性认识到理性认识的过程, 其遵循人类对未知事物认知的发展规律。

1.2 建构主义理论学习观

建构主义认为, 学习并不是知识的单方向传授, 而是师生在交流过程中, 学习者根据原有认知水平对新问题产生矛盾, 解决矛盾, 吸收内化的过程。强调在学习过程中学生并不是被动的知识接受者, 而是主动的建构者。构建过程中, 教师只能为学习者提供相关的辅助和引导, 知识内化的关键在于学习者的有意义建构过程。建构主义认为学习过程包含两方面:一是对新信息的意义建构, 二对原有经验的改造和重组。基于模型发现教学模式认为教师的“教”和学生的“学”是行为主体间的双边活动, 教师既是组织者又是参与者, 学生既是学习者又是研究者, 学生的学习就是在原有认知的基础上进行内化的过程。 (2)

1.3 建构主义理论师生观

建构主义强调学生学习的主动性和情境性, 倡导以学习者为中心的学习方式。布鲁纳就指出:“学生不是被动地接受知识, 要主动地学习、积极地发现和亲自的探索”。因此教学过程中教师应重视学习者对知识的构建及探索过程。建构主义的师生观来看, 教师的角色应由知识权威者转变为知识的传递者, 成为学习者构建知识过程中的合作者。建立教师主导、学生主体的教学思维理念, 强调教师的单边授课向师生互动的双边教学过渡, 实现保持和激发浓厚学习兴趣和学习动机的目的, 这与基于模型发现教学模式的师生观是一致的。

2 信息加工理论

信息加工理论起源于上世纪70年代计算机革命之后, 运用计算器的信息处理技术, 通过大量模拟研究而建立起的学习理论。信息加工理论将人视为信息处理器, 而人的活动就是信息处理过程, 即完成信息的输入、编码、加工储存、提取和使用。信息加工理论认为, 人类行为的产生是由有机体内部的信息流程决定的, 个体的学习过程是对外界信息的接受、分析和处理的过程, 其是主体与环境间信息交流的结果。信息加工理论应用于实际教学情境的关键是解决如何促进信息的短时记忆, 并将短时记忆转化为长时记忆进行储存, 从而实现信息的有效加工。 (3)

基于模型发现教学模式强调学习者的信息加工过程即从原型到模型的建构过程, 每个单元的协调运作, 即有效的完成了从信息环境到头脑认识的信息加工过程 (如图1) 。在信息加工过程中, 应充分尊重学习者主体性功能及认知变化规律, 应基本符合感知、注意、记忆、理解和问题解决的信息交换过程。同时针对不同学习内容要充分调动其学习的“兴趣”, 使其能够在快乐中学习, 在学习中成长。

3 教育模型理论

我国著名学者查有梁先生在《论教育建模》一文中提出了重要的教育建模思想, 并从理论和实践两个方面做了深刻阐释, 认为:建模是一种重要的科学操作和学科思维方法, 是为解决特定问题, 再现原形客体的某种本质特性, 它是作为中介, 从而更好地认识和改造原形客体、构建新的客体的一种科学方法。 (4) 从教育模型的方法来看, 主要包括两种, 分别为定性建模和定量建模。

3.1 定性建模

定性建模主要包括:建模目的、典型实例、抓住特点、确定关键词、简要表述、具体实施、形成子模式群、形成评价 (如图2) 。

3.2 定量建模

定量建模主要包括:建模目的、认识原型、初步模式、教学模型、求解方法、实施程序、最终模式、建模评价 (如图3) 。

模型构建过程, 教师应为学习者提供必要的“帮助”, 而这种“帮助”并不是“无目的”的, 而是在合适的时间对学习者进行有针对性的指导, 即符合在“最近发展区”范围内提供有效、必要的“支架”。支架理论是由美国著名教育学家布鲁纳借助建筑学术语提出的关于学习者认知的教育理论。这种暗喻形象地说明了学生在学习过程中, 教师辅助教学的重要性。其强调教师应发挥“脚手架”的功能, 即事先把复杂的学习任务加以分解, 以便于学习者更加深入地理解所学习内容, 在学习者能够自主完成学习任务的同时, 撤去“脚手架”, 便于留给学习者自由发挥的空间。 (5) 支架式教学主要以“最近发展区”理论为基础, 设定教师的合理、科学准入空间, 在一定程度上对学生的学习提供必要的支持的工程, 支架式教学是由搭手脚架、进入情景、独立探索、协作学习和效果评价等基本要素构成的。基于此, 延伸而来的PBL教学法是“以问题为基础”的教学法, 是近年来国际上受到广泛重视的一种教学模式。PBL教学法最早应用于临床科学, 主要指临床授课过程中以病人为基础、以学生为中心的小组讨论式教学。主要包括设置情景, 提出问题;自主学习, 收集资料;分组讨论, 分析归纳;总结评价, 检测矫正等过程。从教育学角度分析, PBL教学法真正做到了以学生为中心、教师为导向, 充分发挥了学生学习的能动性、创造性, 强调了学习能力的培养, 使学生在主动学习的过程中促进了基本能力的培养, 即观察力、记忆力、运用知识的能力、培养自主学习能力, 这样有利于学习者对学科知识评定与掌握。

综上所述, 基于模型发现教学模式的产生是以探究性教学模式理念为指导思想, 在信息加工理论、建构主义理论、教育模型理论、支架理论、最近发展区理论等的基础上, 经过一系列对学习者开放性知识认知模式的研究发展而来, 其相继经过了传统的探究性教学模式、认知过程中的双模理论等过程。基于模型发现教学模式的构建将为探究性理论体系的发展起到一定的借鉴作用。

摘要：基于模型发现的教学模式, 其以生活活动为基础, 知识背景渗透下的学科模型为研究核心, 在特定的条件下, 学习者完成从原型到模型再到理论的认知过程, 使知识源于生活而又高于生活。1本文主要从建构主义理论、信息加工理论、教育模型理论等几个方面阐释基于模型发现教学模式的理论基础, 旨在对该理论的进一步研究发展起到一定借鉴作用。

关键词：理论基础,教学理论,模型发现教学模式

注释

11毕吉利.“五元一体MBD”教学模式的构建与应用——以手持技术探究性实验教学为例[D].银川:宁夏大学, 2014.

22 王宝星.基于建构主义的大学实验课程教学设计研究[D].北京:北京工业大学, 2012.

33 周道明.基于信息加工理论的初中英语词汇教学模式研究[D].南京:南京师范大学, 2008.

44 查有梁.论教育建模.北京:高等教育出版社, 1998:101-110.

55 钟柏昌.支架理论视野下的局部探究教学模式及其类型——以信息技术课为例.中国电化教育, 2011 (1) :107-10.

模型发现教学模式篇2

关键词：支持度阈值,路径选择兴趣度,页面浏览兴趣度,综合兴趣度

一、引言

数据挖掘是指从大量的数据中挖掘或发现隐藏在数据中的知识。随着WWW的快速发展, Web已经成为信息制造、发布、加工和处理的主要平台。通过对Web用户的浏览行为进行挖掘可以发现许多有价值的信息, 如用户喜欢通过哪种方式, 哪种链接进入想要的网页, 用户喜欢点击哪些类型的链接, 喜欢查阅哪些方面的信息等。挖掘出来的信息可以广泛应用Web个性化服务、系统改进和个性化推荐等方面。Web挖掘[1,2]是通过数据挖掘技术来分析与网站相关的信息, 从而从这些信息中发现有用的模式。模式发现的目的是利用各种挖掘方法[3]从Web日志中挖掘出数据背后的用户访问规律。每个人上网都有自己的习惯和方式, 因此Web挖掘需要深入分析研究用户浏览行为和浏览兴趣, 从中挖掘出有用的信息, 再建立用户浏览路径发现模型。网上的网页具有网络拓扑结构, 可以根据拓扑路径找出用户的兴趣浏览路径的规律。Apiori算法是Agrawal提出的用于发现频繁路径的算法, 很多学者也提出了很多用于从Web日志中挖掘浏览模式的挖掘算法。文献[4]提出了最大向前序列法, 根据用户折返的特性形成若干浏览子序列, 文献[5]提出了参考长度法, 根据用户在网页上停留的时间形成浏览子序列, 文献[6]根据用户的浏览频度和网站的结构提出了支持-偏爱度概念, 并应用支持-偏爱度挖掘用户浏览偏爱路径。这些算法主要是根据浏览频度或者浏览时间来分析用户的浏览行为来发现用户浏览模式, 没有完全考虑用户浏览的兴趣或目的。本文中将网站的结构和内容以及用户的浏览行为相结合来定义用户的访问兴趣, 然后根据用户的访问兴趣挖掘用户的兴趣浏览模式。

二、基于用户浏览兴趣的路径发现模型

首先找不同背景、不同年龄的人, 让他们浏览网页, 从所有的网页中选择比较有代表性的, 对其进行研究。在选定的站点中, 经过很多人的点击浏览, 会留下大量的日志文件。我们先通过日志文件中的信息, 整合网页被访问的次数, 也相当于路径选择, 用一个n*n的矩阵将这几个网页之间的访问路径和次数记录下来, 命名为wnn, n代表要用研究的网页数, w[i][j]代表从网站i到网站j的次数。

当然, 用户浏览兴趣支持度有个限度, 即用户浏览兴趣支持度阈值。当实际用户路径选择兴趣和页面浏览兴趣的综合小于这个阈值, 就要放弃这个路径。通过求出路径选择兴趣度和页面浏览兴趣度的乘积, 便可以和这个阈值比较, 决定路径是否属于用户浏览兴趣路径集Interestpath, 那么路径选择兴趣度用公式表示就是:

其中sk代表某网页x到本网页任一个连接所到达的网页k的访问次数, 分母表示网页x到所有连接的总次数的平均数, 充分体现了用户选择k连接的兴趣度。

对于页面浏览兴趣度, 需要知道页面浏览兴趣矩阵Inn, 且将页面浏览兴趣划分为几个等级, 用数字表示, 数字越大代表页面浏览兴趣越大。I[i][j]表示从i页面到j页面后, 在j页面的兴趣和。页面浏览兴趣度的公式可以表示为:

其中Ik表示从页面x到该网页上某个链接k上的浏览兴趣和, 而分母表示网页x上所有连接页面的浏览兴趣总和的平均数。

将用户路径选择兴趣度和页面浏览兴趣度之积为综合路径兴趣度:

先求出某个页面到其余所有页面的路径选择兴趣度和与页面浏览兴趣度和, 再单独求出这个页面与其他某个页面的综合兴趣度。若这个路径的综合兴趣度大于阈值, 说明这两个网页之间的路径是备选的用户兴趣路径, 并将这些符合条件的路径放入2项集中。因为有的用户路径不仅仅只有这么长, 需要尽可能找出最长的兴趣路径, 且这条最长路径中的每一段都满足条件。然后对二项集中的路径进行合并, 如:路径<1, 3>, <3, 5>满足条件, 这两条子路径就可以合并, 得到的三项集<1, 3, 5>也是满足条件的。根据二项集的顺序将所有路径逐个查找有无可以合并的路径, 如果有不能合并的路径, 就放入Interestpath中。虽然他们不能再合并, 但还是满足条件的用户需求路径。接着对三项集、四项集……进行合并, 两个k项集路径是否合并, 看一个路径的后k—1位是否等于另一个路径的前k—1位。若相等, 则可以合并, 若不等, 则不可合并。一直到最后只有一个最长需求路径, 不能再合并, 把他放入Interestpath中。

三、分析

实验数据是以调查10个网页为例, 找一定数目的实验主体, 在这10个网站之间按着自己的兴趣和习惯点击, 然后通过查看其Web浏览日志, 获取路径选择的次数和兴趣选择的程度。

设浏览兴趣支持度阈值为2。

第一行:对于路径<1, 2>, (7/ (41/4) ) * (10/ (79/4) ) =0.345<2所以<1, 2>不满足条件, 而路径<1, 3>, (20/ (41/4) ) * (50/ (79/4) ) =4.95>2, 所以路径<1, 3>是浏览兴趣字路径;

第二行:同上, 浏览兴趣子路径有<2, 4>, <2, 6>;

第三行:浏览兴趣子路径有<3, 6>;

第四行:浏览兴趣子路径有<4, 7>;

第五行:无浏览兴趣子路径;

第六行:浏览兴趣子路径有<6, 5>;

第七行:浏览兴趣子路径有<7, 8>;

第八行:浏览兴趣子路径有<8, 9>;

第九行:浏览兴趣子路径有<9, 6>;

第十行:无浏览兴趣子路径。

2项路径集包括<1, 3>, <2, 4>, <2, 6>, <3, 6>, <4, 7>, <6, 5>, <7, 8>, <8, 9>, <9, 6>。

将2项路径集合并为3项路径集。<1, 3>与<3, 6>合并为<1, 3, 6>, <2, 4>和<4, 7>合并为<2, 4, 7>, <2, 6>和<6, 5>合并为<2, 6, 5>, <3, 6>和<6, 5>合并为<3, 6, 5>, <4, 7>和<7, 8>合并为<4, 7, 8>, <7, 8>和<8, 9>合并为<7, 8, 9>, <8, 9>和<9, 6>合并为<8, 9, 6>。3项集有<1, 3, 6>, <2, 4, 7>, <2, 6, 5>, <3, 6, 5>, <4, 7, 8>, <7, 8, 9>, <8, 9, 6>, <9, 6, 5>。

将3项路径集合并为4项路径集<1, 3, 6, 5>, <2, 4, 7, 8>, <4, 7, 8, 9>, <7, 8, 9, 6>, <8, 9, 6, 5>, 而<2, 6, 5>和<3, 6, 5>不能和其他2项路径集合并, 放入Interestpath中。

将4项路径集合并为5项路径集<2, 4, 7, 8, 9>, <4, 7, 8, 9, 6>, <7, 8, 9, 6, 5>, 而<1, 3, 6, 5>不能和其他4项路径集合并, 放入Interestpath中。

将5项路径集合并为6项路径集<2, 4, 7, 8, 9, 6>, <4, 7, 8, 9, 6, 5>。

将6项路径集合并为7项路径集<2, 4, 7, 8, 9, 6, 5>, 最长兴趣路径放入Interestpath中。

最后得到的兴趣路径集Interestpath有元素<2, 6, 5>, <3, 6, 5>, <1, 3, 6, 5>, <2, 4, 7, 8, 9, 6, 5>。

四、结论

发现用户的浏览模式是现阶段Web日志挖掘的主要目标。利用Web日志挖掘结果, 企业可以更好地组织已有资源为用户提供个性化服务。本文使用一种用户兴趣行为获取机制来获取用户的访问日志。在分析用户行为的基础上, 根据用户的兴趣设计了基于路径选择兴趣和网页浏览兴趣的Web日志挖掘算法。实验结果表明, 该算法能够准确地反映用户的浏览兴趣。

参考文献

[1]涂承胜, 陆玉昌.WEB使用挖掘技术研究[J].小型微型计算机系统, 2004, 7 (25) :1177-1184.

[2]Margaret H.Dunham著.数据挖掘教程[M].北京:清华大学出版社, 2005.

[3]韩家炜, Kamber M.数据挖掘概念与技术[M].范明, 孟小峰, 等译.北京:机械工业出版社, 2001.

[4]M.Chen M.S, Park J.S.Data mining for Path traversal Pattems in a Web environment[C].Proceedings of the16th International Conference on Distributed ComPuting Systems.USA:IEEEComPuter Soeiety, 1996:385-392.

[5]B.Mobasher and J.Srivastava.Data preparation for mining World Wide Web browsing patterns[J].Journal of Knowledge Information Systems, l (l) (1999) :2-9.

模型发现教学模式篇3

大庆油田矿区服务事业部物业管理二公司组建于2006年3月, 担负着大庆油田矿区东湖、乘风、八百垧、红岗地区48个居住小区18个工业区的物业与供热服务及部分居住区生活热水供应任务。公司下设10个机关业务部室、17个基层生产经营单位、7个直属中心, 现有劳动用工5034人, 共为服务区80039个热用户、76977个物业服务用户提供服务, 供热面积为914.76万平方米, 物业服务面积为751.7万平方米。

二、建立小区信息管理数据库

中小企业的物业管理的成本较低, 要实现小区的物业管理, 同时又考虑经济性因素而言, 则在可选择运行环境较为简单, 且便于操作的Access数据库。

1. Access数据库优势。

Acceess数据库是微软公司基于Windows桌面关系的数据库管理系统, 提供了7种模块建立了数据库系统对象, 通过通过多种向导、生成器、模板等, 建立了规范化的数据存储、查询、界面设计以及生成报表等, 便于数据库的管理, 同时也便于用户的开发和使用。Access属于关系型数据库管理系统, 其存储方式较为单一, 便于用户的操作和管理;Access是面向对象的系统开发工具, 通过面向对象的方式实现各种功能, 将各种功能封装在不同的对象当中, 通过定义方法和属性、对象的行为和外观, 从很大程度上实现了用户开发的简化;其可视化的界面也为用户生成对象及其应用提供了直观的体验, 操作简便也容易掌握;Access是基于Windows操作系统, 集成了各种向导以及生成器工具, 在很大程度上提高了开发人员的工作效率;同时利用Access当中的ODBC以及OLE特征, 在数据表格中嵌入各种文档, 同时还可建立动态数据库报表以及窗体, 实现了与网络上的动态数据库的联接。由此, 小区的物业管理可选择Access数据库, 而不需要使用类似SQL Server等大型数据库。

2. 系统数据库的设计。

在小区物业信息管理系统中, 所有与住户相关的信息表格, 都以业主在入住时物业公司内部产生的ID编号进行关联, 包括业主的详细资料、物业合同到缴费状况等, 都与业主ID为关键词进行关联, 而物业公司内部的各种表单都与业主的姓名以及房号相关联, 从而管理简便也不容易出错。

三、系统整体设计方案

1. 系统的管理层次。

当前随着人们所生活水平的逐渐提高, 人们对住宅的质量以及环境提出了更高的要求, 智能化的小区逐渐成为了小区发展的方向, 然而智能化的小区离不开智能化软件的应用, 小区的物业管理公司应使用现代化的计算机管理手段, 实现物业的硬件管理与软件管理的结合, 从而为小区实现现代化、制度化以及规范化的管理创造条件。物业管理的软件设计可分为三个层次:第一层次是单项数据的处理, 以手工管理方式为基础, 实现简单的事务性的工作, 当前大部分的物业管理公司的应用水平处于这个阶段;第二个层次则实现了数据的综合处理, 此时计算机呈现了网络化以及实时性的信息处理, 从而有效提高了物业管理的效率;第三个层次则为管理信息系统, 也就是将信息理论、控制理论以及系统工程理论等应用到软件程序当中, 从而建立计算机网络以及数据库系统, 实现了从单一系统到全面管理系统的转变, 而系统集成能力的高低以及决策功能的分析成为了物业管理水平高低的衡量标准。

2. 系统总体设计结构。

就数据库系统的设计上看, 可将系统分为两个部分, 一部分为小区日常事务管理以及内部资料管理中心, 实现小区内日常事务管理以及住户日常事务的处理, 同时提供最新的物业管理法律规范, 了解最近的物业管理纠纷案件的处理, 同时还可实现小区内部的信息通讯。而小区的日常事务管理, 则将小区的内部事务具体化之后将小区的日常事务分解为小区、业主、维修、合同、缴费、保安和投诉管理等几个部分, 每一项都与住户发生纠纷的内容联系起来, 从而保证问题的处理有依可循。而在内部资料管理中心, 根据物业管理的需求, 可将其分为消息、资料、法规、文献中心等四个部分, 包括范围较广的条例规范与案例资源, 便于在纠纷处理中进行查询。

3. 小区管理简述

(1) 业主管理。系统的业主管理模块当中, 业主管理模块中包括业主和家庭成员的信息, 包括房号、面积、工作单位、联系方式、居住状态、房屋用途以及闲置与否等状况。

(2) 维修管理。维修管理是物业管理中容易产生纠纷的模块, 由此应对其信息进行详尽的记录。记录每月报修、维修次数等信息登记起来, 同时通过信息的反馈了解问题的解决状况以及用户的意见, 房屋的管理者可了解其管辖范围内房屋的状况并了解经常发生的问题, 及时进行预防, 而延期的房屋可在未解决的数目当中, 提醒房屋管理人员解决问题, 防止由于房屋延期而产生矛盾。

(3) 合同管理。该模块记录物业合同以及房屋出租合同, 同时包括合同双方应该履行的权利以及义务, 便于在纠纷处理时进行查询。

(4) 缴费管理。详细记录物业管理费用标准、缴费日期以及欠费状况等。

(5) 保安管理。记录临时进场车辆, 进场时间以及约定出场时间;记录访客人数、姓名以及缘由和离开时间, 记录保安人员信息和值班时间以及值班状况。

(6) 投诉管理。记录投诉人员、原因、投诉次数以及当前的状况和解决的途径等。保安管理以及投诉管理两个模块都较容易发生冲突, 两个模块所涉及到的内容都应尽可能详尽, 从而为住户纠纷的解决提供案例依据。

(7) 具体的实现方法。在系统的设计过程中, 要实现相应信息的管理, 可通过Form之间的信息传递实现, 也就是在两个窗体之间相互传递数据。

4. 内部资料管理。

通过使用分词算法实现了对小区内物业管理条例以及有关案例的查询分析。分词算法是自动分词过程的形式化表达, 而分词算法以及系统的优劣程度的衡量标准在于系统的正确率以及分词的速度。

小区的物业管理系统可通过逆向最大匹配法, 以词库为基础实现分词算法。该种算法主要用于中文分词, 同时对一些较为特殊的词汇进行处理, 包括数量词、人名、书名以及全角符等。具体包括两个部分, 一个部分为特殊词汇的分词处理, 其具体算法可参考相应的规范和标准, 而另一部分则是对“物业管理”中的关键词进行划分。当前, 小区的持续发展和完善使物业管理成为了科学、管理的一个特殊的行业, 要提高小区物业管理水平, 则应划分物业管理的相关词汇, 从而便与其获取最为准确的内容。例如:住宅小区管理, 是指小区内部房屋建筑以及相关设备、公共设施、绿化、交通、卫生、治安等管理项目进行维护和修整。、

通过定义这些关键词, 从而便于管理者查询最新规范条例, 了解最近发生的物业管理纠纷案件以及其处理的结果等等。例如, 通过关键词进行筛选, 也就是使用分词算法, 在输入框中输入“广东物业管理公司”, 同时将其关系选择为“并且”之后, 则可将关键词自动划分为“广东, 物业管理, 公司”这三个关键词, 管理者和用户都可在右边的Listing中进行选取, 从而获得所需要的信息, 例如选择“广东”则将出现已经录入的广东物业管理行业的有关法律法规。由此, 当数据库中的相关数据逐渐积累时, 根据各个关键词所分配的权重的不同, 系统将逐渐实现智能化, 并逐渐实现自我学习, 最终达到智能化的管理, 不仅能记录并处理小区纠纷信息, 并达到了预防纠纷发生的管理效果。

参考文献

[1]綦玮.物业管理纠纷法律问题浅析[J].辽宁行政学院学报, 2009 (03) .

[2]郭有利.物业管理纠纷的现状及思考[J].法制与经济 (中旬刊) , 2009 (04) .

[3]于军峰.浅析物业管理纠纷的原因[J].硅谷, 2009 (16) .

[4]于军峰.浅析物业管理纠纷的表现[J].硅谷, 2009 (15) .

模型发现教学模式篇4

农业信息技术是实现农业高速、健康和可持续发展的重要推动力, 是一门新兴的边缘应用学科, 是农业科学和信息科学相互交叉渗透而产生的新领域。基于语义的Web服务发现技术是其中的一个重要组成部分。随着语义Web服务技术在农业信息系统中的广泛应用, 如何从海量的Web服务资源中快速查找出需要的一个或者多个Web服务, 来满足客户需求, 是亟待解决关键问题。

语义Web服务是语义Web与Web服务的结合体, 通过对Web服务进行语义封装可实现Web服务的自动化发现、调用、互操作、组合、执行和监控。普遍存在的问题是:多数基于语义的Web服务发现方法都是建立在全新的语义Web服务模型和描述语言的基础上, 如OWL-S[1,2], WSMO, WSML[3,4]等, 造成这些方法的应用实施难度较大。另外, 很多服务发现系统的实现需要用户输入有关Web服务请求的详细信息, 增大了系统应用的复杂度。

针对上述问题, 本文提出一种轻量级的语义Web服务发现模型。该模型采用语义Web服务描述语言WSDL-S[5]来描述Web服务, 其好处是WSDL-S与WSDL (Web服务描述规范) 兼容, 并且只需在现有大量的基于WSDL的Web服务描述文档中添加一些扩展的XML element和Attribute, 就能达到语义标注的效果。本文重点分析发现模型中各个模块的时间性能, 并实验验证了模块和词典匹配模块分别匹配成功的情况下有很好的Web服务发现准确率和召回率, 该模型可应用在农业信息化等领域。

1 轻量级语义Web服务发现模型设计

本文提出的基于查询语句的轻量级语义Web服务发现模型如图1所示。

工作流程是:在系统启动之初, 先由WSDL-S文件处理模块将文件库中所有WSDL-S文档定义的Web服务名、操作名、输入输出参数名以及相关的领域本体名等信息集中存放在一个数据结构wsdl_information中, 然后用户在服务查询界面上输入Web服务请求的查询字符串, 经查询预处理模块按照一定规则规范化后提交给服务匹配模块。匹配模块首先进行查询语句关键字与领域本体库中各个本体词汇的直接匹配, 如果没有相匹配的领域本体, 则调用词典模块, 利用同义词词典WordNet[6]查找查询关键字的同义词, 之后再进行本体匹配;如果匹配成功, 则本体匹配模块内的学习机制就会把关键字的同义词写进相应的本体文件, 以扩充文体词汇, 方便下一次用户查询。一旦获得了匹配的领域本体名, 接下去本体匹配模块会查找数据结构wsdl_information中存放的领域本体信息, 以确定用户查询对应的Web操作名。反之, 如果本体匹配不成功, 就要调用第2个匹配子模块—词典匹配模块, 用查询语句的关键字直接与存储在wsdl_information中的Web操作名进行单词匹配;如果不成功再次启动词典模块, 在WordNet中查找同义词, 然后再与Web操作名进行匹配;最后, 由WSDL-S调用预处理模块检查调用相关Web操作的输入条件是否满足, 并执行后续的补充操作[7]。

2 本体匹配模块中的自学机制

首先, 本体匹配模块将用户输入的查询字符串匹配服务请求所涉及的领域本体;然后, 用领域本体名确定对应的WSDL-S文件 (列表) 。该模块的重点是匹配领域本体名, 其具体步骤是先用查询语句中的关键字去匹配领域本体库中的各个本体模型, 匹配的顺序是概念、对象和谓词。

匹配过程中, 介词不参与匹配, 但是介词却可以帮助推断出服务请求的上下文信息。如从查询字符串“flight from Boston to Chicago”中能推测出介词from和to之间的内容是两个地址信息, 其中from后面的是源地址, to后面的是目的地址。假如flight域的本体模型结构如图2所示, 则能够确定该查询字符串涉及的领域本体名是flight。如果上述基于查询语句关键字的匹配没能确定领域本体名, 则调用外部的词典模块。利用同义词词典WordNet查找查询语句关键字的同义词, 然后使用同义词进行本体模型的匹配, 以确定领域本体名。

考虑到一词多义的情况, 为了确保查询到的领域本体最大限度地与用户的查询语句相关, 需要深入分析以下4种可能存在的同义词匹配情况:

1) 查询语句关键字和同义词都不能匹配任何一个本体模型;

2) 查询语句关键字能匹配某一个本体模型, 但是同义词不能匹配任何一个本体模型;

3) 查询语句关键字不能匹配任何一个本体模型, 但是同义词能匹配某一个本体模型;

4) 查询语句关键字和同义词都能匹配某一个本体模型。

在上述第3种情况下, 为了提高用户查询语句的匹配率, 需要添加一个学习模块, 通过自学机制把查询语句的同义词也添加到相应的本体文件中, 然后再重新生成本体模型, 以便于以后相似查询语句本体模型匹配率的提高。而其他3种情况则不需要调用学习模块。

3基于轻量级语义Web服务发现模型的农业信息原型系统实现

在原型化实现农业信息Web服务发现模型的过程中, 主要涉及到农产品 (Farm-produce) 、农产品价格 (Farm-price) 、天气 (Weather) 以及地域 (Location) 等领域本体。领域本体用本体编辑工具Protégé来创建, 并存储在MySQL数据库中, 本体文件选用OWL语言描述, 本体词汇的查询和操作使用OWL API。WSDL-S文件是在WSDL编辑器的基础上添加语义标注而生成的。词典模块利用JWNL[8]提供的接口来操作同义词词典—WordNet。Web服务调用模块利用Axis[9]工具提供的相关Java类来调用选中的Web服务。整个原型系统的开发使用Eclipse作为开发平台。

4 实验及结果分析

4.1 实验准备

为了测试系统中各个模块的时间性能以及该发现模型的准确率和召回率在不同情况下的变化, 输入503个不同长度的查询语句, 涉及的领域有Farm-produce, Farm-price, Weather和Location, 其相关的领域本体存储在本体库中。实验运行于IBM R60上, 软硬件配置为:1.66-GHz Intel T2300处理器;1G内存;Microsoft Windows XP操作系统。实验结果的记录和分析使用Eclipse的插件TPTP。

4.2 实验结果与分析

图3显示的是系统各个模块花费的平均处理时间。其中:1代表WSDL-S文件处理模块;2代表查询预处理模块;3代表是词典模块;4代表本体匹配模块;5代表词典匹配模块;6代表相关检查模块。从实验结果看, 系统中最花费时间的模块是WSDL-S文件处理模块和词典模块。但由于WSDL-S文件处理模块只在系统启动之初被调用一次, 因此该模块执行的快慢并不会影响系统性能。那么, 整个系统的性能瓶颈就在于词典模块的执行时间。该模块主要用来在WordNet中查找查询语句关键词的同义词 (synonym) 、上位词 (hypernym) 和下位词 (hyponym) , 以扩充领域本体的词汇。数据分析的结果表明, 词典模块的大部分时间花费在了为每一个查询语句关键词查找同义词时调用JWNL的接口上。

为了进一步详细分析本体匹配模块和词典匹配模块在不同情况下对系统性能的影响, 下面主要测试经本体模块单级匹配成功、词典模块单级匹配成功以及经本体与词典两级匹配成功的前提下系统准确率和召回率的变化。假设D代表WSDL-S文件库中提供的Web操作的个数, Qi代表第i个用户查询, RQi代表WSDL-S文件库中与第i个用户查询Qi有关的Web操作的个数。由于RQi⊂D, 所以D—RQi代表与用户查询无关的Web操作个数。接下来, TQi代表原型系统返回的与第i个用户查询Qi对应的Web操作个数, GQi代表系统返回的与第i个用户查询Qi有关的Web操作个数。二者的关系用公式GQi=TQi∩RQi表示。因此, 第i个用户查询发现Web操作的准确率Pi=GQi/TQi, 召回率Ri=GQi/RQi。

实验结果如表1所示。表1记录的是系统分别在经过本体模块单级匹配成功、词典模块单级匹配成功以及经过本体和词典两级匹配成功的情况下Web服务发现的召回率和准确率。实验结果显示:在词典模块单级匹配成功时, 系统的准确率和召回率是最低的, 因为词典匹配没能很好地利用语义信息;在本体模块匹配成功时, 系统地准确率和召回率就大大提高, 这是因为本体匹配模块有效地利用了语义和领域信息;最后, 经过本体匹配和词典两级匹配成功的情况下, 系统的准确率和召回率进一步得到提高, 因为那些在OWL本体文件中得不到匹配的查询关键字又经过了一次词典匹配, 所以匹配效率要高一些。

比较分析这3组数据发现 (见图4所示, 其中1代表词典匹配模块, 2代表本体匹配模块, 3代表词典和本体匹配模块) , 在整个语义Web服务发现模型中, 本体匹配模块对于系统准确性的提高起着至关重要的作用。如果没有本体匹配模块, 则系统准确率和召回率会下降23%左右。相反, 词典匹配模块对于系统性能的提高却无关紧要, 如果去掉词典匹配模块, 则系统准确率和召回率会下降1%左右。

5 结论

目前, 大多数基于语义的Web服务发现方法应用难度大, 使用不方便。为此, 本文提出一种基于用户查询语句的轻量级语义Web服务发现模型, 并在农业信息化领域做了原型系统的实现。农业信息用户只需输入简单的查询语句, 经过预处理、领域本体的匹配、词典级匹配以及一些优化措施, 最终自动查找到相关的农业Web服务操作。

实验结果表明, 本体匹配模块对于系统服务匹配准确性的提高起着至关重要的作用, 并且自学机制的使用在自动扩充本体词汇的同时也增加了系统的准确率和召回率。

实验结果充分证明了本文提出的轻量级语义Web服务发现模型的可行性和有效性。该模型在农业信息化领域的应用将为农业信息用户提供便利、快捷和效益。

摘要：针对现有多数语义Web服务发现方法应用实施难度大和对终端用户输入信息的完整性依赖度高的问题, 提出一种基于简单查询语句的轻量级语义Web服务发现模型。该模型将用户输入的查询语句经过领域本体匹配、基于WordNet同义词典匹配等步骤, 自动发现并调用相应的Web服务操作。实验结果表明, 采用该服务发现模型能够有效提高服务发现的准确率和召回率, 进而可推广应用到基于语义Web服务的农业信息化中。

关键词：农业信息化,Web服务发现,WordNet,自学机制

参考文献

[1]Anon.The OWL Services Coalition.OWL-S:semanticmarkup for Web services[EB/OL].[2006-11-08].http://www.daml.org/services/owl-s/view/.

[2]Wang X, Vitvar T, Kerrigan M, et al.A QoS-aware selec-tion model for semantic web services[C]//The 4th Interna-tional Conference on Service-Oriented Computing, 2006:12-24.

[3]Keller U, Lara R, Polleres A.WSMO Web service discover-y[EB/OL]. (2004-08-15) .http://www.wsmo.org/2004/d5/d5.1/v0.1/20041112/d5.1v0.1_20041112.pdf.

[4]Stollberg M, Keller U, Fensel D.Partner and service discov-ery for collaboration establishment with semantic Web serv-ices[C]//IEEE International Conference on Web Services, 2010:480-494.

[5]R Akkiraju, J Farell, J A Milleret, et al.Web service seman-tics-WSDL-S[EB/OL]. (2005-04-03) .http://www.w3.org/2005/04/FSWS/Submissions/WSDL-S.htm.

[6]邵东伟, 王俊发, 吴贵福, 等.国内外农业信息化建设对佳木斯地区的启示[J].农机化研究, 2010, 32 (8) :246-248.

[7]阮佳彬, 杨育彬.基于本体词汇的三维模型语义检索[J].计算机科学, 2009, 32 (2) :152-154.

[8]Bwalenz, Didion J.JWNL-Java WordNet Library[EB/OL]. (2010-05-14) .http://jwordnet.sourceforge.net.

模型发现教学模式篇5

1 发现系统相关性排序算法

目前, 具有代表性的主流发现服务系统有四个:分别是OCLC推出的Worldcat Local (WCL) 、Series Solution推出的Summon、Exlibris推出的Primo以及EBSCO推出的EBSCO Discovery Service (EDS) 。四大发现系统在系统架构、服务模式、移动界面、开放接口方面各具特色, 元数据获取来源和覆盖面各不相同, 笔者主要对四大发现系统的相关性排序方法与原则进行分析与对比[1,3], 见表1。

WCL通过确定关于图书馆馆藏的各种因素来提高本地拥有的资料在搜索结果的排名, 图书馆不可以按照自己的算法来配置相关性。Primo采用的相关度排序算法是专利技术 (Scholar RankTM) , 该专利考虑的排名因素有记录内容跟检索式的匹配程度、记录的学术价值评分、读者的身份信息以及读者实时的研究需求, 用户可以管理和调整相关度算法, 实现本馆馆藏与集中检索结果的混合显示控制, 给本地馆藏数据更高的权重, 方便读者查找和获取图书馆馆藏。

2 发现系统检索性能评价指标

由于用户查询条件中所固有的模糊性, 信息检索系统检索出来的文档集合不一定全是用户所希望的, 因此有必要对这些文档集合根据其与用户查询条件的相关性[4]进行排序, 并以此来判定信息检索系统检索出的文档集合满足用户查询条件的程度。

笔者对信息检索中的各种检索性能评价指标[5]做详细的介绍, 主要介绍查准率 (Precision) 和召回率 (Recall) 以及由此派生出的平均查准率 (MAP) 、平均排序的倒转 (MRR) , 此外, 介绍NDCG评价方法, 在本文的研究工作中, 主要使用MAP和MRR、NDCG来评价三大发现系统相关性排序算法的性能。

2.1 MAP和MRR

查准率 (Precision) 和召回率 (recall) 评价指标是基于系统返回的整个文件列表。对于系统来说, 返回的是一个有序的文件序列, 因此在查准率、召回率的基础上派生出一些其他评价指标, 如平均查准率 (Average Precision) 和平均查准率的均值, 其计算方法如下。对于某一个查询Qi, 其平均查准率计算公式为:

其中:j表示排序的位置, M是检索到的文档总数, Precison (j) 是前j个检索到的文档的查准率, pos (j) 是一个0-1函数, 如果第排在第j个文档是相关的, 其值为1, 否则为0。这样平均查准率的均值MAP的

平均倒数排名是统计学中, 依据排序的正确性, 对查询请求响应结果的评估。查询响应结果的倒数排名是第一个正确答案的倒数积。平均倒数排名是多个查询结果的平均值。对于某一个查询Qi, 其排序的倒转RR计算公式为:

平均倒数排名的计算公式为:

2.2 NDCG (Normalized Discounted Cumulative Gain)

尽管查准率、召回率、MAP以及MRR广泛用作信息检索系统中检索算法的评测方法, 但它们也有其限制, 以上三种评价指标都把查询和文档的相关简化称为0-1关系, 一个查询和一个文档要么相关, 要么不相关。而实际上相关是一个程度的量, 0-1关系并不能准确的反映查询和文档的相关关系, 例如在“相关”和“不相关”之间还可能存在着“部分相关”的文档。NDCG对传统的评价标准做出了改进, 这种改进基于以下两个原则, 在信息检索中, 相关可以分为多个级别, 高度相关的文档比部分相关的文档更有价值, 其在评价中应该赋予更大的权值;文档在序列中的位置越靠后, 这个文档的价值越小。在这种评价方法中, 每一个文档都对它所在的位置有一定的贡献, 其贡献值与文档的相关度有关, 然后, 从1到n的所有的位置上的贡献值都被加起来作为最终的评价结果。给定一个排序后的文档序列, 在第r位的NDCG值NDCG@r的计算公式为:其中r (j) 是第j个文档的级别, Nr是归一化参数, 它使得最优的排序的NDCG@r的值始终为1;如果结果序列中文档的个数n要少于r, 则计算公式返回NDCG@n的值。假设各个位置上的文档所贡献分值为G, 那么, 到第i位累计的贡献为从第1位到第i的贡献值之和。把第i位上的贡献极为G[i], 而从第1位到第i位的贡献之和记为CG[i]:

上述CG并没有反映出NDCG在提出的时候的第二点-文档所排的位置越靠后, 其重要性就越小, 因此对于具有相同贡献值的文档, 其所在的位置越靠后, 则其加在CG上的值应该越小。一个简单的办法就是在其贡献之上除以其位置值的对数函数, 这样就得到了DCG[i]:

为了便于比较, 我们需要对DCG进行归一化, 使得所有的值都在0~1之间, 因此在每一个位置上都除以其最有排序时的DCG值。形式化的表达为:给定一个根据某个排序计算出来的DCG序列:

DCG=〈v1, v2, …, vk〉而根据最优排序计算出的DCG序列为DCG=〈i1, i2, …, ik〉则这个排序对应的NDCG序列为:NDCG=〈v1/v1, v2/v2, …, vk/vk〉。

3 数据采集与评估

笔者选择清华大学的Primo系统、南开大学的EDS系统以及兰州大学的Summon系统进行评估。由于WCL系统目前在国内没有用户, 因此不能进行评估。三大发现系统对中文都有不同程度的覆盖, 选择数据集时主要针对社科领域, 查询式覆盖学术领域的图书馆学、教育学、哲学、经济学、法学。针对每个学科分别选择20个关键词或者研究专业方向作为查询式。如图书馆学的数字图书馆、云计算, 移动图书馆、用户体验等作为查询式。在三大发现系统的搜索框中输入查询式后对返回的前20个结果分别进行标记, 计算MAP值是用0和1进行标记, 代表相关和不相关。计算MRR值时对第一个最准确值的位置进行标记。计算NDCG值是笔者选择用0、1、2、3来进行标记, 分别代表跟查询式的相关程度。本文最后计算NDCG@6的值来进行评估。图1、图2、图3为计算出三大系统在各学科领域的MAP、MRR、NDCG@6分析对比图。

由图1可以看出, EDS发现系统在图书馆学、哲学、教育学的平均查准率高于Primo和Summon系统, 但在经济学和法学的查准率都明显低于其它两个发现系统, 在经济学和法学领域的中文资料覆盖率较低, 基本上查不到法学的任何中文文献。图2显示EDS的发现系统的MRR值波动较大, 由较高的值突然降到最低。Primo系统由开始的最高值最后趋于平稳, 只有兰州大学的Summom系统一直处于在各个学科领域的平稳区域。图3显示Primo和Summon系统在NDCG@6计算出的值在各个领域不相上下, 基本平稳, 而EDS系统由刚开始的较高值突然降到较低。充分说明EDS系统在查准率方面在图书馆学、法学、教育学是高于Primo和Summon系统, 但在经济学和法学的查准率和查全率方面, 明显低于其它两大系统。

4 结束语

发现服务跟书商、数据库商的合作使得发现系统内容覆盖程度的差距逐步缩小, 数据的大量增加保证了用户搜索时得到较高的查全率。发现系统在检索速度方面也有很大的提高, 通常检索时间1s。发现系统的检索界面已跟搜索引擎的检索界面一样, 统一的检索框, 使用比较方便, 高级检索界面基本上可以满足比较复杂的检索要求。对图书馆的用户来说, 图书馆的信息检索系统也即发现系统最重要的应该是查询结果与用户查询的相关性能达到多高。因此, 发现系统采用什么样的算法对检索结果的相关性进行排序显得越来越重要, 对发现系统进行研究分析, 发现隐藏于其后的相关性排序算法理论和评价模型, 有着十分重要的意义。通过本文阐述的上述方法, 可以让我们发现目前在图书馆学术领域采用的各种发现系统的相关性排序算法性能, 不但可以帮助我们选择相对适合本馆的发现系统, 也可以在此基础上, 对发现系统的相关性排序算法有所改进, 对图书馆的发展起到非常重要的作用。

摘要：发现系统以类似Google的单一检索框为用户提供一站式资源检索服务, 检索结果的相关性排序对用户非常重要, 是评估发现系统优劣的重要指标之一。对信息检索系统中的评价模型查准率 (Precision) 、召回率 (Recall) 、平均查准率 (MAP) 及平均倒数排名 (MRR) 、NDCG (Normalized Discounted Cumulative Gain) 进行深入的分析和研究的基础上。运用该指标对发现系统Summon、Primo、EDS相关性排序算法性能进行评估, 以帮助图书馆选择合适的发现系统。

关键词：发现系统,MAP MRR NDCG,评价模型,相关性排序

参考文献

[1]陈秀秀.网络级发现服务系统比较研究[M].长春:东北师范大学.2013.

[2]陈定权, 卢玉红, 杨敏.图书馆资源发现系统的现状与趋势[J].图书情报工作, 2012 (07) :44-48.

[3]包凌, 蒋颖.图书馆统一资源发现系统的比较研究[J].情报资料工作, 2012 (05) :67-72.

[4]David Bade, Relevance ranking is not relevance ranking or, when the user is not the user, the search results are not search results, Online Information Review, Vol.31 ISS:6 PP.831-844.

模型发现教学模式篇6

期货市场在经济中有着十分重要的地位，它主要有两种作用:价格发现和套期保值。套期保值是指在现货市场和期货市场对同一种类的商品进行数量相等但方向相反的买卖活动，以期在未来某一时间通过卖出或买进此期货合同来补偿因现货市场价格变动带来的实际价格风险;而价格发现是指期货市场通过公开、公正、高效、竞争的交易运行机制，形成具有真实性、预期性、连续性和权威性价格的过程，可以对未来供求关系及其价格变化趋势进行预期。套期保值功能的实现一定程度上依赖价格发现功能的实现，因此价格发现是期货市场最重要的功能，标志着市场是否成熟以及市场效率如何。

近20年来，我国的期货市场快速发展，在经济中扮演着越来越重要的角色。铜期货作为我国期货市场中最成熟的期货品种之一，其价格发现功能发挥的水平如何，一直是学术界和业界十分关心的问题。研究铜期货市场与现货市场之间的价格发现功能，对于分析我国铜期货市场的发展情况和运行效率有着十分重要的意义。国内外学者对于现货和期货之间的动态关系进行了大量研究。Bigman(1983)等最早利用简单回归模型对在CBOT交易的玉米、大豆和小麦期货合约的价格发现功能作了实证检验。华仁海(2005)借助协整检验、误差修正模型、冲击反应分析和方差分解，以上海期货交易所铜、铝和橡胶三个期货品种，研究了期货与现货之间的相互关系。本文将借助协整检验、格兰杰因果检验以及SVAR模型上的脉冲响应和方差分解，对我国沪铜期货市场和现货市场之间的价格发现功能进行研究。

2 模型介绍

传统的VAR模型的右端并没有包含相关内生变量的当期值，因而无法解释内生变量之间的当期相关关系，而这些当期相关关系又隐藏在误差项的相关结构之中。为了更全面地反映变量之间的相关关系，本文采用结构VAR模型(Structural VAR,SVAR)，该模型将内生变量之间的当期相关关系融入一般VAR模型之中，从而将内生变量间的当期相关关系从误差项中提取出来，能够全面揭示所有内生变量之间的动态关系。二元SVAR模型结构如下:

μt是作用在期货价格和现货价格上的结构式冲击，将上面的结构式方程转化为简化式方程为:

其中Aεt=μt反映了内生变量之间的同期相关关系。为满足SVAR模型的识别条件，对于具有k个内生解释变量的SVAR模型，需要施加k(k-1)/2个约束条件才能估计出结构式模型的参数。本文有两个变量，因此需施加1个约束条件。

3 实证研究

3.1 样本数据

由于期货合约大多是有交割期的，通常最长的合约期限也不超过一年，为了研究上的方便，很多行情报价系统都设立了连续合约。这里的连续合约并非指某一个具体的合约，比如“××连续”就是当前交割月后的第一个交易合约，“××连三”则是当前交易月后的第三个交易合约。这样设置的原因是根据长久以来行情变化的规律，交易者发现距离当前交割月份最近的一个月和三个月、四个月后的期货合约是价格最接近现货预期价格和最活跃的，因此把这样的合约价格连续起来加以研究。

本实验选取2010年1月4日—2013年3月29日的沪铜期货与现货价格数据。其中期货价格数据是连三、连四等价格数据，现货数据是沪铜期货合约标的物标准阴极铜价格。考虑到两时间序列数据的对应性，剔除只有期货价格而没有现货价格，或只有现货价格而没有期货价格的记录，最终获得748组数据。数据来源为同花顺数据库。数据分析通过EVIEWS 6.0实现。记期货价格序列为F，现货价格序列为S，为避免数据的剧烈波动，并消除时间序列的异方差性，分别对两序列取自然对数，记为LF和LS。

3.2 单位根检验

本文采用ADF单位根检验法对铜期货价格和现货价格序列进行平稳性检验，选择显著性水平为1%作为判断标准，检验结果见表1。由表1的检验结果可知，在1%的显著性水平下，序列LF和LS均不平稳，但其一阶差分序列是平稳，即它们是一阶单整序列，因此可对它们进行协整检验。

注:检验形式(C,T,L)中C、T、L分别表示截距项、趋势项和滞后阶数。C值为0，表示单位根检验方程中不存在截距项;T值为0，表示单位根检验方程中不存在趋势项。L值由SC信息准则确定。

3.3 协整检验

本文采用Johansen协整检验的方法检验期货价格和现货价格序列是否存在协整关系。由滞后阶数准则确定最优滞后阶数为2，选择协整空间有截距无趋势的形式，协整检验的结果见表2。从表2可以看出，迹检验和最大特征值检验两种方法均显示期货价格和现货价格存在一个协整关系。协整方程为:

注:*表示在5%的显著性水平下拒绝原假设。

3.4 格兰杰因果检验

选择一个较大的滞后阶数12，格兰杰因果检验的结果见表3。结果表明，在1%的显著性水平下，期货价格是现货价格的格兰杰原因，而现货价格不是期货价格的格兰杰原因。

3.5 SVAR模型的建立

由于铜期货价格对于现货价格存在单向的格兰杰因果关系，故现货价格对期货价格的影响可以设为0，即短期约束矩阵A设为:。SVAR模型的估计结果见表4。由结果可以看出，该模型估计结果比较理想。

3.6 脉冲响应函数

在上面建立的SVAR模型的基础上，观察脉冲响应函数图像，预测期为10天的结果见图1，预测期为100天的结果见图2。从图1可以看出，期货市场对于来自自身的一个单位正向冲击，开始即表现出较大的正向响应，之后响应程度缓慢减小，而现货市场的冲击对期货市场的影响很小。现货市场对于来自自身的冲击开始时受到正向影响，在第二天该影响迅速减小，之后缓慢减小;而对于期货市场的冲击，开始时就表现出正向响应，在第三天响应程度达到最大，之后缓慢下降。从图2的结果可以看出，期货市场对来自自身冲击的响应虽然在不断减小，但可以持续很长时间，现货市场的冲击对其造成的影响持续的时间同样较长。现货市场对于来自自身和期货市场冲击的响应在长期是不断减小的，而且现货市场受期货市场的影响程度大于受自身的影响程度。

3.7 方差分解

为了进一步分析每一个结构冲击对内生变量变化的贡献度，定量刻画各市场间的相互影响比例，我们使用方差分解技术。期货价格的方差分解见表5，现货价格的方差分解见表6。从表5的结果可以看出，期货价格的变动受现货价格的影响很小，基本源于自身的影响。从表6的结果可以看出，现货价格的变化受期货的影响较大，且该影响不断增大，而受自身的影响较小，且不断减小。

4 结论与建议

通过协整检验，我们发现沪铜期货价格和现货价格存在长期协整关系，从而得知沪铜期货市场已经具有套期保值和规避风险功能。另外，格兰杰因果检验表明沪铜期货价格是现货价格的格兰杰原因，即期货价格对现货价格具有引导力，因此我们可以认为沪铜期货市场具备了价格发现功能，通过期货市场能够形成真实性、预期性、连续性、权威性的价格信息，从而有效地引领现货市场价格发生变化。这为监管者进行价格监控，政府制定宏观经济政策都提供了参考依据。

从脉冲响应函数和方差分解的结果来看，价格波动的冲击对期货市场和现货市场的影响持续时间长，且期货市场对现货市场的影响要远远大于现货市场对期货市场的影响。期货市场本身是构成期货价格波动的主要因素，这说明期货市场的价格波动具有较强的独立性，另外期货市场对现货市场的影响也要大于现货市场本身对自身的影响。所以期货价格在市场价格的形成中起主导作用。我们应充分发挥期货市场功能，利用期货市场进一步规范沪铜市场价格形成机制。

但是，沪铜期货市场与现货市场只存在单向因果关系，也就是说从长远看，只有期货市场影响现货市场，虽然这说明期货市场具备了价格发现功能，但是这样产生的价格不完善，因为真正的价格发现体系是由期货市场和现货市场共同建立的，只有由期货市场和现货市场共同影响生成的对未来价格的预期，才是充分和有效的。所以我们要完善沪铜现货市场体系，夯实期货市场的基础，使期货市场和现货市场相互促进，实现两者的健康稳定发展。

摘要：本文通过协整检验、格兰杰因果检验以及SVAR模型上的脉冲响应和方差分解,对我国铜期货市场和现货市场之间的价格发现功能进行实证研究,结果表明铜期货价格和现货价格存在协整关系和单向的格兰杰因果关系,铜期货市场在价格发现功能中处于主导地位。

关键词：铜期货,价格发现,SVAR模型

参考文献

^[1^]Bigman^,D^,D.Goldfarb and E.Schechtman.Futures MarketEfficiency and the Time Content of the Information Sets^[J^].The Journal ^ofFutures Markets^,1983(3):321^-334.

[2]华仁海.现货价格与期货价格之间的动态关系[J].世界经济,2005(8):32-39.

[3]贺正楚,周贤军,文先明.基于SVAR模型的期货市场及其现货市场的价格发现功能实证研究[J].湖南大学学报,2011(7):87-92.

模型发现教学模式篇7

伴随我国航天工业的发展,围绕航天产品规划、研制、设计、制造、试验和管理的主线,以系统工程为核心,并逐步应用现代项目管理和多项目管理方法,发展形成了一套独具特色的航天型号研制系统工程管理模式。航天系统工程管理是航天型号研制管理的精髓,既是一个技术过程,也是一个管理过程。从技术过程来看,型号研制包括从用户需求、系统要求和结构、分系统设计、部件设计、部件制造、部件集成试验、分系统集成试验、系统集成试验到交付产品九个阶段。从管理过程来看,通过建立“两条指挥线”技术指挥线和行政指挥线),保证系统工程管理的组织、指挥、抓总与协调。

目前,在航天系统工程实施过程中,产生的信息均是以文档的形式来描述和记录。随着近年来我国来航天型号研制数量大幅度增加,系统复杂度和规模不断提高,跨学科交叉学科系统的出现,基于文档的系统工程难以保证产品数据一致性、数据的可追溯性等需求[1]。

为了应对类似的挑战,在国际航天领域,NASA在原有系统工程研制模式的基础上采用了国际系统工程组织INCOSE提出的基于模型的系统工程(Model-based Systems Engineering,MBSE)[2]管理新模式和实现技术。基于模型的系统工程思想是通过建立和使用一系列模型对系统工程的原理、过程和实践进行形式化控制,通过建立系统、连续、集成、综合、覆盖全周期的模型驱动工作模式帮助人们更好地运用系统工程的原理,大幅降低管理的复杂性,提高系统工程的鲁棒性和精确性,将整个系统工程作为一个技术体系和方法,而不是作为一系列的事件。

MBSE是一种正在发展的技术思想和体系,INCOSE规划了MBSE到2020年的发展目标,其中需要克服诸多技术和管理难题。文献[3]提出将实现MSBS的图形化建模语言Sys ML(The Systems Modeling Language)进行形式化描述并集成推理机制,以保证模型间信息的一致性;文献[4]和[5]提出将Sys ML与多领域物理系统建模语言Modelica进行集成,使建模结果能够进行动态仿真分析。这些研究主要是讨论如何在系统工程实现过程中进行建模描述,但是如何从已积累的产品数据文档中提取出MBSE模型所需的要素,尤其是不同阶段建模要素之间的关联关系,使得系统设计经验和知识能够传承,缺乏足够的讨论。因此,本文从提取MBSE模型关联关系角度出发,提出采用关联规则挖掘(association rules,AR)[6]方法,考虑从连续两个不同研制阶段数据中提取关键建模要素之间的演化关系。

1 建模要素跨阶段的演化过程

MBSE根据系统工程从需求到系统、子系统、组件以及实现之间的分解关系,通过定义型号研制各个阶段(例如用户需求、系统要求和结构、分系统设计、部件设计、部件制造等)的模型,实现产品研制过程和信息基于模型的管理,建立基于模型的系统工程机制。由于产品研制不同阶段具有不同的目的和模式,因此不同的研制阶段的模型所包含的要素和内容均有不同。MBSE通过Sys ML来实现不同阶段模型的在描述语法上的统一,而各模型内部概念以及关系等要素的定义往往依赖于面向对象或者本体的定义实现。尽管产品研制各个阶段模型描述内容不同,但不同阶段模型所包含的建模要素之间存在着内在的关联关系。这些要素随着产品研制的深入将会自上而下不断地进行层次分解和细化,例如:总体设计阶段航天器的总重要素,在详细设计阶段中对应为推进系统、制导系统、结构系统等分系统的重量。显然,处于不同阶段的建模要素之间存在一定的关联关系,是一个层次演化的体系结构。但是,这些关联关系的描述蕴含在不同阶段航天型号产品数据文档中。因此,本文将不同阶段要素的关系描述成事物的形式,采用臻于成熟的关联规则挖掘方法实现要素之间演化关系的获取。

2 挖掘建模要素演化关系的实现

关联规则挖掘是应用最广泛的数据挖掘方法之一,目标是建立在一个事物(transaction)中数据项(items)间同时出现的规律。它主要是针对关系数据提出来的,事务是指表中的一个记录,数据项是表表中一个属性的值,事务集合由一组记录给出,其中所有记录都共享相同的属性(即表中的列和字段)。虽然航天产品数据包以文本文档为主,但是由于系统工程对文档的记录要求,处于第k阶段的产品数据文档中不仅要描述组成本阶段产品信息的要素cik,而且需要利用关系表格等存储结构将上一个阶段的要素cik-1和cik之间层次化组织在文档中,以确定本阶段能够满足上一阶段的功能。这意味着如果将要素间的逻辑关系看作事物的形式,能够对产品数据文档进行结构化表示,如图1所示。因此,本文将描述第k阶段中研制信息的要素视为项ci,该阶段的数据文档视为项集I;描述要素cik-1和cik之间逻辑关系的、被实际挖掘的数据文档部分(称为关联规则的上下文)视为一个事物;事务集合由属于同一型谱内、不同产品的上下文形成。例如:图1(a)是某接口控制文件的内容,图1(b)是将该文档转换为关系数据中的事务集和项集。这样,通过利用关联规则挖掘算法发现要素频繁集,即经常在一起组合出现的要素,进而将其固定在一起生成关联规则,实现要素间在相邻阶段演化关系的形式化和规范化定义。

关联规则挖掘的核心问题是在数据项集的幂集中利用统计学的基本原理,通过多次扫描数据库找出频繁集。考虑产品数据描述的复杂性和挖掘算法的实现等方面,不同阶段要素关联关系挖掘分为三个主要步骤:第一步,以属于同型谱、已经定型的单机产品的阶段要素模型实例(即由该阶段研制信息所涉及的所有要素所构成的集合)和产品数据文档为输入,抽取和构造项集和事物集;第二步,为提高挖掘任务效率,避免多次扫描数据库的高价开销,采用垂直挖掘算法Eclat[7]获得频繁集;第三步,利用频繁集生成要素间的关联规则。

第一步:构造项集和事物集

首先,本文将阶段研制信息所涉及的要素实例ci作为项,两个连续阶段的所有要素实例构成了项集。对于在第k-1阶段的要素实例cik-1,在第k阶段保持与其有关联关系的要素不需要挖掘文档中包含的所有信息,而是存在于关联规则的上下文中。因此,为提高算法效率,需要进行上下文选择,后续事物集的获取以及规则的支持度和信任度只根据所定义的上下文来计算。

本文借鉴信息抽取系统STALKER[8]中提出的信息定位方法,以第k阶段产品数据文档中连续两个cik1-作为上下文区域左右边界的定位标识,应用逐步覆盖算法对其进行区域分割,每个区域形成规则的上下文。根据上下文的位置信息,在第k阶段要素模型实例文件CIMk中获取的所有cik-1并作为一个事物。

令CIMk-1和CIM k分别是第k-1、k阶段的要素模型实例,X=Factor Of(CIMk-1)、Y=Factor Of(CIM k)分别代表CIMk-1、CIM k中所涵盖的要素实例集合,则项集表示为

第k阶段的一份数据文档DFIlek被区域分割后,同时包含要素cik-1、cik的文档内容称为关联规则cik-1=>cik的上下文,记为context(cik-1)={cik-1,cik}。其中且

一个事物为与上下文内容相对应的、第k阶段要素模型实例文件中所蕴含的技术要素实例集合,表示为T=Factor Of(CIMk,context)。

同一型谱内所有产品对象在k阶段的事物组成事物集,表示为D={T1,T2,…,Tn},n为产品对象数量。

构造项集和事物集的Construct IT算法

输入:同一型谱内所有产品对象在第k阶段的数据文档DFILEk;第k-1、k阶段的要素模型实例文件CIMk-1、CIM k。

输出:第k阶段的项集I和事物集D

方法:

第二步:获得频繁集

关联规则算法中的数据通常采用水平数据形式,例如基于Apriori和FP-growth的迭代算法,即一条事务由事务标识符(TID)和项目组成,事务由TID唯一标识,一条事务可以包含一个项目或多个项目,如图2(a)所示。为避免多次扫描数据库的高昂开销,部分算法提出将数据排列方式改为垂直表示,即将项作为唯一标识,每个项可以包含一个或多个TID,如图2(b)所示。由于无需复杂的Hash数据结构、扫描数据库次数和所占用内存较少,采用垂直数据表示的挖掘性能优于水平表示[7]。由第一步可知,在挖掘过程中需要多次文件内容扫描和处理大量的事物集记录,因此提高算法效率,本文采用垂直数据表示的频繁集挖掘算法Eclat[7]。

设有项目item,在事物集D中,包含项目item的所有事物的标识符的集合成为项目item的Tidset,记为Tidset(item)。

例如:图2(b)中项目a出现在事物1、2、5中,因此项目a的Tidset为{1,2,5}。显然,对于项集X,其支持度即为对应T i d s e t中元素个数,s(X)(28)|Tidset(X)|;对于由项集X和Y组成一个新的项集R=XUY,则Z的支持度计数为二者交集,即

Eclat算法思想是:采用Tidset保存项集对应的TID;由两个项集的并集产生新的候选频繁集,通过计算这两个项集的Tidset的交集快速得到候选集的支持度;若候选集的支持度小于支持度阈值minsupp,从候选集中删除它。如此迭代,直到项集归一。

计算频繁集的Eclat算法

输入:事物集D,最小支持度minsup

输出:所有的频繁集L

方法:

扫描事物集一次,得到频繁1-项集项集是指含有k个项的项集

第三步:产生关联规则

根据项集和事物集的来源可知,由于进行了上下文选择,因此对于每个频繁集都含有项显然在获得所有频繁集L和用户给定最小可信度minconf的基础上,关联规则的产生分为2个步骤:首先,对于每个子项集Y,产生Y的所有非空子集y;然后对于每个非空子集y,如果信任度则输出规则从而建立连续二个阶段实例模型中要素的关联映射,明确要素产生的前因后果,确保了产品研制状态在需求到产品实现的全过程中连续、可追溯。

3 实例验证

本文以某一型号卫星太阳翼的研制为例,通过演化关系的发现实现产品需求阶段和产品总体设计阶段模型之间要素演化关系的挖掘。图3所示的是在产品需求阶段的功率需求要素在演化过程中分解为总体设计阶段的电压、电流、遮挡率和面积四个子要素。

4 结束语

本文针对产品生命周期阶段所产生的各类产品数据,提出面向MBSE的产品阶段模型的要素演化关系发现方法,基于数据挖掘的演化关系建立方法,将隐性的要素演化关系显性化,形成跨阶段可追溯的要素演化因果链。

参考文献

[1]刘玉生,蒋玉芹,高曙明.模型驱动的复杂产品系统设计建模综述[J].中国机械工程,2010,21(6):741-749.

[2]J Fisher.Model-Based Systems Engineering:A New Paradigm[J].INCOSE Insight 1(3):3-1,1998.

[3]Henson Graves,Yvonne Bijan.Using formal methods with SysML in aerospace design and engineering[J].Annals of Mathematics and Artificial Intelligence,2011,63(1):53-102.

[4]Thomas Johnson,Aleksandr Kerzhner,Christiaan J.J.Paredis.Integrating Models and Simulations of Continuous Dynamics Into SysML[J].Journal of Computing and Information Science in Engineering,2012,12(3):1-11.

[5]刘玉生,袁文强,樊红日.曹悦.基于SysML的模型驱动复杂产品设计的信息集成框架研究[J].中国机械工程,2012,23(12):1438-1445.

[6]陈耿,朱玉全,杨鹤标,等.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789.

[7]张玉芳,熊忠阳,耿晓斐,等.Eclat算法的分析及改进[J].计算机工程,2010,36(23):28-30.

【模型发现教学模式】推荐阅读：

发现教学模式05-31