语义分析技术

2024-10-15

语义分析技术（共7篇）

语义分析技术篇1

随着人类社会的不断发展, 信息量的不断积累, 以实物、图片、文字等形式存在的信息数量越来越大。在计算机网络技术的发展和应用下, 信息量更是得到极大的增长。面对如此海量的信息, 如果人们需要某种特定的信息, 利用计算机网络只能通过检索的方式查找。而在检索的过程中, 检索的准确度和完善度成为重要的问题。因此, 当前急需一种有效的技术方法提高信息检索的效率和精度。而基于语义分析方法的视频流媒体大数据技术就是一个十分有效的技术, 在实际应用中也取得了良好的效果。

1 相关的关键技术

1.1 视频语义分析技术

在视频语义分析当中, 提取和识别视频数据流当中的对象是最为基本的工作, 目前主要应用于物体检测、人体识别、动作识别、人脸识别、物体识别等领域[1]。其中, 在身份验证、办公考勤、公共安全等方面, 人脸识别具有十分重要的作用, 因此受到了相关领域的高度关注。其中, 图像特征提取技术是一项具有代表性的技术, 在视频语义分析当中, 帧是最基本的单元, 主要包括纹理、边缘、颜色等基本特征。其中, 可采用统计方法、模型法、信号处理法、小波纹理特征、几何法等方法来描述纹理;采用边缘分布直方图、傅立叶形状描述符、形状不变矩、几何参数法、边界特征等对边缘特征进行描述;采用颜色矩、颜色自相关图、颜色直方图等方面来描述颜色特征。

1.2 大数据技术

大数据指的是一种特殊的数据集, 这种数据集超出了典型数据库软件的分析、管理、存储和采集能力。由此可见, 如果达到了一定程度的数据量, 就无法采用传统的数据处理方法进行处理, 而是需要采用新的架构或技术来进行分析处理。而随着数据量的不断增大, 数据形式也更加多样化, 因此, 新技术应当能够对这种变化进行良好的适应。相比于传统数据, 大数据最大的区别就在于分析和存储等方面[2]。其中, 分析技术主要是为用户提供所需数据的结果, 目前常用的技术方案主要有Azure, Click Fox, Big Query等, 而存储数据库则主要应用了No SQL技术。

1.3 粒计算理论

粒计算理论产生于1979年, 是由L.A.Zadeh在其一篇论文中, 提出了粒计算、粒化、粒等概念, 从而创立了粒计算理论。在粒计算当中, 主要使描述事物的方法、尺度、相互关系等。在粒计算理论当中, 认为信息粒的概念是无处不在的, 在不同的领域当中, 其也具有不同的表现形式。而在1985年, Hobss提出了粒度的概念, 对粒的合并分解进行了探讨, 同时也分析了不同大小粒的获得问题, 也提出了相关的模型。具体的粒计算理论是由T.Y.Lin在1998年提出, 在邻域系统、数据挖掘的化简方程、粗糙集表示等方面, 对其进行了应用。

2 视频流媒体大数据存储架构

2.1 大数据存储架构

在存储架构当中, 基本的特征为磁盘数据块存储和数据库存储。以此为基础视频语义分析数据结构、视频存储数据结构等得以建立。通过这种方式, 能够有效地查询获得视频语义分析结构、视频帧数据快速定位等。通过以列为基础的数据库, 能够建立视频语义数据库、视频数据库。对此二者进行关联, 能够快速查询到视频语义数据和视频数据。利用数据操作接口, 在视频分析数据库、视频存储数据库之间, 能够解决系统连接模块、视频分析模块、视频采集模块等方面的问题[3]。

2.2 流媒体大数据存储架构

在大数据存储架构中, 将存储系统引入到了数据库技术当中, 因此, 在文件数据结构数据库模块中, 只需要对特定的数据类型表进行定义, 就能够存储具有特定数据结构的数据类型。基于对视频数据结构的系统分析, 就能够以此为基础对流媒体大数据视频存储架构进行设计, 从而使其应用于存储视频结构数据方面。基于这一架构, 在大数据存储架构中, 主要包括了流媒体大数据数据模块、流媒体大数据数据结构模块、流媒体大数据管理软件模块等。

2.3 基于语义分析的流媒体元数据存储架构

在一个完整的音视频综合系统当中, 以大数据技术为基础, 主要包括了大数据平台、文件系统、音频编码、视频存储数据库、视频采集终端、视频分析、视频分析数据库、视频存储数据、音频采集、并行运算环境等相关模块[4]。其中, 在数据存储系统中, 主要包括了大数据平台、文件系统、视频存储数据库、查询客户端、视频分析数据库、视频存储数据、并行运算环境等。在大数据存储系统中, 采用了流媒体大数据存储模型, 为视频存储数据、视频分析数据库及系统文件、Map Reduce分布式计算程序、配置文件、视频存储数据库文件等进行存储。

3 视频流媒体粒度模型

3.1 视频分层

在视频数据结构中, 主要包括故事、镜头、帧、子镜头、场景等层次。在不同层次中, 分别对不同的语义内容进行了表达。在视频数据结构中, 其余4层都是由连续帧构成的, 人们通过主观判断, 能够对各个层次进行清晰的界定[5]。但是, 如果利用其进行划分, 就需要很多相关技术的支持。例如提取关键帧、检测镜头、划分故事、聚类场景、切分子镜头等。要达到这些目的, 都需要帧语义检测技术的支持。

3.2 视频粒化

基于粒计算理论, 可以分层描述视频语义分析系统, 对图像对象层、语义层、视频对象层、图像特征层中涉及的元数据进行定义。其中具体包括了粒、粒属性、粒层等。从不同的角度入手, 可以对粒或粒子进行定义, 在一个粒层当中, 离子可以由更低层的离子组成, 同时也能够构建更高层次的离子。在粒层、属性集之间, 具有对应关系, 而粒子属性二元关系、属性集、粒层能够构成一个三元组, 也就是粒子属性三元组。

3.3 视频流媒体粒度分层模型

在视频分析中, 首先应当进行视频分割。对于后续的镜头运动分析、场景分析、对象识别等分析步骤来说, 前期分割的准确度将会产生直接的影响。因此, 利用准确的视频分割信息, 将视频语义分析的复杂度降低, 从而更好地应用各种视频语义分析算法进行分析[6]。在视频语义分析当中, 主要是为了自动识别和提取视频语义信息。通过粒化视频场景中的动作和物体信息, 建立视频粒度分层模型, 在大数据并行运算平台中计算不同层次的视频语义提取算法。

3.4 大数据视频分层模型

在大数据平台中, 采用了Hadoop技术, 利用分布式的方式在HDFS文件系统中存储帧、图像对象、语义对象、视频对象、特征等数据, 并且建立相应的HBase数据库[7]。通过采集和编码视频数据, 在HDFS中存储。不同于传统存储方法的是, 是以帧为单位进行视频的存储, 这样能够有效地提高检索视频数据的效率, 从而实现快速定位帧数据。这种方式在高并发性、大容量的视频数据访问环境中十分适用。在存储视频帧的同时, 也要建立Frame结构的数据, 并且在数据库中存储。

4 结语

在当前社会中, 随着计算机和网络的不断发展和普及, 每年互联网当中的数据量都会增长50%以上。在如此海量的数据中, 已经无法采用传统的数据处理方法处理。随着大数据技术的发展和应用, 为这一问题的解决提供了有效的途径。基于语义分析方法的视频流媒体大数据技术在这一领域中得到了极大的发展和应用, 并且取得了非常良好的效果。

参考文献

[1]黄铁军, 郑锦, 李波, 等.多媒体技术研究:2013——面向智能视频监控的视觉感知与处理[J].中国图象图形学报, 2014 (11) :1539-1562.

[2]王敏超, 詹永照, 苟建平, 等.面向视频语义分析的局部敏感的可鉴别稀疏表示[J].计算机科学, 2015 (9) :313-319.

[3]朱东华, 张嶷, 汪雪锋, 等.大数据环境下技术创新管理方法研究[J].科学学与科学技术管理, 2013 (4) :172-180.

[4]陈卓, 冯钢, 周江, 等.P2P流媒体网络中基于博弈理论的带宽请求分配策略[J].电子与信息学报, 2013 (7) :1725-1731.

[5]孔英会, 刘淑荣, 张少明, 等.基于语义的视频检索关键技术综述[J].电子科技, 2012 (8) :150-153.

[6]杨建锋, 孟利民.视频监控系统中实时流媒体传输控制方法的设计[J].浙江工业大学学报, 2012 (4) :454-457.

[7]杨海燕, 陈佳, 马翠霞, 等.基于草图的超视频构造方法及关键技术研究[J].计算机研究与发展, 2011 (2) :289-295.

语义分析技术篇2

1 需求分析

这里需要一种可以运行在云端的文本分类软件，软件主要运行在安卓客户端和云端服务器之间。要求软件使用最小数据量实现最大程度的云端数据整合和文本分析准确率。

1.1 流程分析

本文需求并不要求更智能化的识别方式，而是通过语义分析法，通过对特殊关键词和关键词组合的方式进行识别得到文本分类结果。本文的研究内容主要用于识别和分析500字符之内的自然文本。这部分自然文本主要应用在对网络页面文本进行分析，同时用于对捕捉到的超文本标识代码进行内容文本和代码段的识别，业务流程图如图1所示。

1.2 模块分析

传统语义分析算法来自人工输入的特定文本之间的判断，一般语义分析算法只能识别80～120个关键词[5]。但此种规模的识别字典完全不能适应本文要求对自然文本的识别，所以本文采用三层识别方法见图2。

P1.1：根据固定关键词，识别超文本标识语言中的标识段数据，并将其剔除。

P1.2：根据自学习关键词，识别自然文本中的关键词，根据词频和关联度进行价值估计。

P1.3：根据自学习关键词，识别自然文本的含义，评估不同文本段之间的相似度，对文本段进行归纳整理。

而本软件的自学习部分（P2）不从传统的人工智能算法中得到关键词字典，而是采用语义分析中常用的联系算法进行关键词管理[6]。自学习部分放在云端服务器上，自学习结果采用软件更新的方式发送到客户端。自学习产生的流量来自服务器与互联网之间的联系，并不占用GPRS通道。

软件的移动端部分（P3）通过相对固定的关键词字典集合，根据实际分析得到的数据匹配结果进行远端比较，但大部分数据需要提交到P1模块进行局端比较。在移动端形成比较字符串后，可以较大程度地实现GPRS链路的数据最小化。

1.3 数据流分析

P1模块输入数据D1.1为P1.1的关键词字典数据，该数据以数据库表的形式保存在数据库中，形成表dataPinSOL。该数据主要用于辅助识别字段中的无信息量字符串，如超文本标识语言中的标识字符串等。

P1模块输入数据D1.2为P1.2的关键词字典数据，该字典数据来自自然文本中经常出现的字符串，以及用户易搜索的字符串。这部分字符串来自对海量信息的比较，海量信息来自互联网遍历捕捉文本和搜索引擎的采集文本。

P1模块输入数据D1.3为P1.3的关键词字典数据，该字典数据来自对D1.2数据进行进一步挖掘得到的与D1.2数据经常合并出现的字典数据。这部分字典数据同样来自语义分析的分析法。

因为本文算法不采用无限递归法[7]，而是采用了三层计算的架构，而将语义分析段代码用于多层不限制递归。所以P1模块的数据流相对简单。P1模块的输出数据流为DL1，定义为比较结果字符串。该字符串作为搜索引擎对语义识别的结果字符串，不具备人脑识别的功能，但可以在计算机中给自然语言提供镜像，可以让较为模糊的自然语言在计算机中得到识别和模糊对比。

P2有两个输入量，P2.1来自合作搜索引擎的搜索字符串数据，该数据运行在光纤数据干线上，数据量较大，不会在GPRS链路中出现。此部分合作搜索引擎的数据采集内容主要包括搜索字符串，搜索时间，发生IP，发生IP地域，捆绑账号等。P2.2来自网络随机遍历采集的各种超文本，这些超文本数据采用单字段采集和多关键词分析的方式进行挖掘，所以数据结构较为简单。

2 算法设计

因为篇幅限制，本文仅讨论和展示部分核心代码和算法的设计，较复杂的算法过程不再给出伪码。P1.1是超文本对比算法，超文本对比算法使用了最经典的语义分析算法。而P1.2和P1.3采用的算法是在经典的语义分析算法的基础上做的扩增[8]，这部分扩增可以让语义分析算法更加适用于自然语言下的文本分类。

本文算法的最主要成果是使用最小的CPU和RAM资源，对自然语言文本进行比较，从而获得更高效的适应当前互联网云服务市场的软件[9]。

2.1 超文本对比函数算法（P1.1局部）

读字典数据表，做对比循环函数。

对比循环函数伪码如下：

2.2 数据逻辑网络的实现（P1.2局部）

数据逻辑网络主要是在数据库中使用数据结构实现数据的逻辑网络，每个数据都有若干个上级数据和若干个下级数据[10]。每个单个数据一般不超过15个汉字（32字符）。上级数据和下级数据使用专用字段存储，每个字段使用二维数组的方式进行管理。二维数组包括目标字符串（32字符），响应频率，最后响应时间3项。

为了充分调动数据逻辑网络，采用了全新的遍历算法，对每个记录下的两个二维数组字段进行分别遍历，以对文章内容进行逐一比较和计算。在比较中同时记录其他词语的词频，进一步对两个二维数组字段进行维护和更新。因为篇幅限制，只在本文模型下进行设计分析。

2.3 文本相似度评估算法（P1.3局部）

本文采用的文本相似度评估算法分为两段：

第一段对输入文本进行比较评估，对字典中每个关键词进行词频分析，同时对关键词出现的位置进行t检验和χ2检验，将结果使用Minmax处理为（0,1）值域。将每个处理结果进行汇总制表。与此同时，将输入文本与每个关键词的关联词进行词频分析，同时对关键词的关联词位置进行t检验和χ2检验，将结果同样使用Minmax处理为（0,1）值域。Minmax结果设计为小数点后12位小数。将每个处理结果进行汇总制表。

第二段将第一段中形成的两个数据表与系统中存储的数据表进行t检验和χ2检验，获取检验结果的P值。当P<0.05时，认为两篇文章具有相似度，且P值越小，文章的相似度越高。本文算法经过检验，完全相同的两篇自然语言文章输入系统后，两篇文章的P值接近于0，表示本文算法拥有较高的识别性。

3 结语

本文就基于语义分析在计算机技术文本分类中的应用进行了软件工程分析和设计，在面向对象的设计模型中，本文实现了不使用任何神经网络递归算法就可以得到高效率的软件系统。这个算法系统可以在移动互联网设备中得到较广泛的应用。

参考文献

[1]万源.基于语义统计分析的网络舆情挖掘技术研究[D].武汉:武汉理工大学,2012.

[2]李智星.用于文本分类的简明语义分析技术研究[D].重庆:重庆大学,2011.

[3]王奕.基于概率潜在语义分析的中文文本分类研究[J].甘肃联合大学学报(自然科学版),2011(4):55-59.

[4]钟将,刘荣辉.一种改进的KNN文本分类[J].计算机工程与应用,2012,48(2):139-142.

[5]季铎,毕臣,蔡东风.基于类别信息优化的潜在语义分析分类技术[J].中国科学技术大学学报,2015(4):112-114.

[6]何兆兴.文本分类相关算法研究[J].计算机工程与应用,2014(3):59-61.

[7]刘东华.计算机语义分析算法革新研究[J].计算机工程与应用,2013(4):41-42.

[8]刘海东.文本分类与计算机语义分析的关联研究[J].中国科学技术大学学报,2015(2):167-169.

[9]蔡虎燕.语义分析算法在文本分类中的应用研究[D].济南:山东大学,2013.

当语义技术遇上BI 篇3

商务智能主要包括以下部分:

ETL:即数据的抽取、转换或加载, 也就是将原来形式不同、分布不同的数据, 转换到一个已整理的、统一的存放数据的地方 (数据仓库) 。

数据仓库:即面向主题、集成、时变、非易失的数据集合, 它是支持管理部门决策的过程。简单地说, 数据仓库就是储存数据的地方。它既可能是原始的业务数据库, 也可能是另外生成的;既可能是标准的关系型数据库, 也可能是包括了一些特定面向分析特性的专门产品。

OLAP分析:多维数据分析, 从多个不同的角度、立体地、同时地对数据进行分析。

一直以来, BI都是数据库厂商们的必争之地。通过BI应用, 企业高层能够切实感觉到IT投资的价值。数据处理、应用实施、运行能力保障能够以比较直观的形式呈现给决策层;同时, BI还可以直接将风险控制和决策信息用于一线的联机事务处理 (OLTP) 操作, 并且提供面向未来的各种决策支持。

大多数人认为, 商务智能主要是从企业内部数据库系统中收集关键信息。然而, 足以支持一个决策的信息不仅仅限于来自数据库、数据仓库的结构化信息。大部分能够真实反应客户想法的信息都存储在非结构化信息源中, 如文档、邮件、媒体文件等。这些非结构化信息源是实现内容创建、共享、分析的资源, 应成为商务智能的一部分。但是, 企业一般都将应用和数据库中的结构性数据与这些非结构性数据区分开来进行管理。只有将结构性和非结构性数据结合起来整理和分析, 企业才可以获得全面的业务信息, 以改变运营模式, 提高效率。

对于定位与分析这些非结构化数据语义技术起到关键作用, 因此语义技术在现代商务智能中扮演重要角色, 它能够帮助企业从电子邮件、文档、博客、wiki和网站上的海量文本中抽取和挖掘非结构化客户信息。通过识别有价值的模式、趋势和问题, 企业可利用这些信息提高客户满意度、确定市场活动的新目标、提供每个客户的完整记录, 以及在出现相应情况时发出告警。

什么是语义技术?

语义技术就是通过一些语义标签将信息标识化, 主要目的是让纷繁的信息建立有机的联系, 便于挖掘和查询, 避免它们在浩瀚的数据世界中湮灭。

最近, 一份调查2000多家BI用户的报告显示, 随着信息的类型和数量在呈现几何量级的趋势增长, 尤其是社交网络、数字文件、数据中心和客户意见中的非结构性数据的迅速增加, 人们需要花费将近70%的工作时间用于搜寻各种相关信息。信息不够精确、信息不完整、信息的可信度不高、信息不够及时等因素始终困扰着需求信息的互联网用户。

显然, 那种仅限于查询功能和基于对既成事实的信息分析以提交报告的传统方法已经不能满足需求, 语义技术透过内容分析提供了协助分析消费者信心指数、购买趋势、市场交易等信息的手段, 它结合形态, 逻辑, 语法和自然语言分析, 提取更加精确的信息, 协助公司了解顾客真正的心声, 以及对于企业产品和服务的看法, 并从中获得新的启发。语义技术更多的是从非结构化的数据来源来披露这些信息, 发掘隐藏在非结构化信息中的宝贵知识。非结构化数据占据了企业数据的80%以上, 通过语义分析能够对这些数据进行分类、提取、集群, 提供了一个更为完整的企业情况, 帮助企业用户找到有用数据, 理解数据含义, 做出正确的分析和预测。

语义技术与商务智能的结合是具有无限的商业价值的。企业要在内部与外部的合作伙伴方便快捷地共享企业的数据和信息, 这是一个无法回避的问题。但对各种数据的整合却复杂且艰巨。所以, 很多大型机构开始使用具有语义整合能力的BI。BI以业务为中心的特性能够激发用户的热情;而且它使整合网络服务与提供商务决策成为可能, 这一特点更是让无数人产生了浓厚的兴趣。这就让语义技术有了用武之地。基于其服务能力和根据预定义条件获取相关信息, BI能够帮助企业迅速作出决策;加上语义技术的帮助, 能够充分地发挥出彼此的特长, 帮助各种规模的企业从业务信息 (包括结构和非结构化) 中获取实时的洞察力和价值, 满足成长中的企业对商务智能的需要。这对于我们进入下一阶段Web具有里程碑的意义———它将通过把信息用作战略资产的方式, 协助企业实现业务转型。总之, 语义技术与商务智能的结合也表明商务智能的发展步入新纪元。

进入Web3.0

Web3.0是语义网的时代, 语义网即是以语义技术为支撑能理解人类语言的智能网络。网络正朝着使人与计算机的差距不断缩减的方向进行演化, 它不但能够理解人类的语言, 而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。Web3.0让信息和用户创造的内容将更加“有意思”, 让网络更加“聪明”。

语义网基于XML (可扩展标记语言) 和RDF (资源描述框架) , 并在此之上构建本体和逻辑推理规则, 以完成基于语义的知识表述和推理, 能够为计算机所理解和处理。

由于网络的迅速发展使Web平台成为企业获取和处理信息的主要手段, 基于Web的企业信息集成已成为商务智能的重要环节。针对当前分布式、开放且动态的Web2.0, 虽然现在有各种信息处理技术来实现基于Web的信息交换、共享与集成, 但目前基于HTML的Web信息表达使这些技术的实现过于复杂而难以实现。为了实现对网络信息的智能化信息集成, 不仅要求在数据格式上实现信息的互操作性, 而且要在知识级上实现信息的共享和交换。因此, 不仅要从语法上来描述信息, 而且要从语义上来表达。基于语义网的信息表达正好为其提供了有利的基础。与当前的信息集成系统相比, 基于Web3.0语义网的企业信息集成具有以下几个优点:

(1) 语义网的目标就是使Web上的信息具有计算机可以理解的语义, 满足智能代理对WWW上异构和分布信息的有效访问、集成。运用基于语义网的信息表达, 可以真正实现语义级上的智能集成服务, 而不再将其停留在理论阶段。

(2) 在语义网中, RDF为Web资源描述提供了一种通用框架, 它以一种机器可理解的方式被表示出来, 可以很方便地进行数据交换, RDF提供了Web数据集成的元数据解决方案。

(3) 由于语义网中本体 (本体是对概念化结果的显式的解释, 可为某个领域提供一个共享的通用的理解) 的核心是知识共享, 本体描述具有良好的概念层次结构和对逻辑推理的支持, 可使不同的用户能相互理解, 并保持语义上的一致。分布式信息集成需要解决的主要问题是结构、设施的异构和缺乏统一的语义集, 因此本体特别适用于知识级的Web信息集成。

(4) 语义网无论在实现用户对信息的搜索, 还是指导企业集成应用或作出决策等方面都有不错的技术潜力。

一般来说, 语义网中基于语义检索与匹配都是在后台执行, 因而具有“幕后”的特点, 它可以充当商务智能的副手。例如, 利用BI进行远期宏观的决策, 而在具体的生产指挥和调度上, 则利用语义网快速分析出相关资源的使用情况。语义网和企业知识库的结合使用, 能够相对容易地建立起信息流之外的一个高效决策流。整体而言, BI在即时决策能力方面有些欠缺, 尤其是当状况因多种因素交织变得难于用一个或几个简单规则作出判断的时候更是如此。而语义网本身更加适合于应对即时决策的状况, 更容易提供多个替代的解决方案。

企业还可以把语义网作为连接不同信息源、不同业务实体间的业务总线, 在物理和逻辑上集成应用和决策。另外, 对于一些直接服务于大众客户的Web应用, 由于受众的多样性, 相应的需求和使用习惯在不同个体间将存在一定的差异, 利用语义网可以把这些差异中潜藏的联系关联在一起。不难看出, BI与语义网综合使用确实有着“一路看涨”的商业前景。

前文介绍的Attensity就是把Web3.0语义网应用到商务智能领域的一个成功范例, 它提供深度内容分析功能, 通过语义分析自动提取非结构化数据和分析处理“关联事件”, 这一应用可以帮助企业更好地管理自身急剧增加的“信息洪潮”, 提取和分析先前潜藏的事实和深层含义, 达到洞察风险、识别全新机遇和驱动效率的目的。

随着网络的不断演进, 用户生成内容将对企业决策发挥越来越重要的作用, 企业需要对各种来自外部的信息进行过滤和筛选。语义技术是能让这些信息得到充分利用的唯一途径。语义技术正成为Web3.0的催化剂, 它为信息赋予接近于人类语言的理解能力, 从而简化和促进人类对于网络的使用。这也是商务智能的未来趋势。对非结构化和结构化数据分析能力的结合是让企业在Web3.0时代获得蓬勃发展的重要因素。

语义技术正成为Web3.0的催化剂, 它为信息赋予接近于人类语言的理解能力, 从而简化和促进人类对于网络的使用。这也是商务智能的未来趋势。

参考文献

[1].http://www.cww.net.cn/article/article.asp?id=63386&bid=2795

[2].http://www.semantic-web.at/index.php

[3].http://www.cnw.com.cn/cnw07/Soft-ware/BI/htm2008/20080303_30556.shtml

语义分析技术篇4

从传统的计算机集成制造、并行工程到虚拟企业、大规模定制生产等新一代先进制造技术,产品信息交换与共享一直是需要解决的首要问题。长期以来,信息交换与共享技术侧重于数据本身的交换和共享的实现,如以基于STEP的产品数据交换发展而来的PDM、EDM,均侧重于对不同异构数据的交换共享的具体实现技术和方法。这种技术在传统的集中式环境下能够实现统一的产品数据交换与共享,但在基于Internet的分布式环境下,由于STEP本身描述机制的特点,要实现信息的网上交换与共享,就需要耗费大量的时间和人力来解决网上数据接口匹配问题,以及尽可能满足分布式环境下的动态性、临时性以及实时性要求,这是很难做到的。

事实上,从虚拟企业模式的提出到对虚拟组织更深入的理解,尤其在近年来我国大力提倡企业产品创新能力的形势下,围绕产品的设计、制造,要求以产品创新为核心的分布式企业之间实现知识级的共享和重用,传统的产品信息表达方式和处理模式已无法适应现代企业的需求。产品信息的交换与共享已不再局限于数据内容、格式的交换与共享,信息共享的层次已由数据共享上升为知识共享。随着网格计算、语义网以及语义网格研究的兴起,产品信息交换与共享研究层次也在不断上升,研究内容不断深入。语义网格的研究为分布式资源运作提供了可行的空间,虚拟组织的架构为产品的创新提供了更广阔的知识源,而语义网格环境下虚拟组织的产品信息交换与共享的研究则上升到对信息语义层次的理解、挖掘、推理创新层面,进而为支持产品创新能力的实现提供知识基础。

近年来国内外许多研究机构已经在不同范围和层次中对产品信息交换与共享进行研究[1,2,3],其中最典型的国际组织EuroSTEP长期注重于STEP产品数据的网上XML转换表达[4]。但是由于XML本身的局限性,导致STEP转换后带来语义信息的损失,即这种转换是单向不可逆的,遇到这种情况国际标准采用的是原文直译法以保留不能解析的语义信息。目前EuroSTEP等组织一直致力于该方面的完善和补充。随着近几年语义Web、网格计算以及语义网格研究的深入,为实现网络信息语义层的理解、推理提供了可能[5,6],因此结合语义网格研究虚拟组织的产品信息具有其独特的优势。针对产品信息语义描述共享层次的研究,当前较多地侧重于产品信息本体研究[7,8,9,10]。STEP采用EXPRESS描述已经经过多年的应用论证,而语义Web的OWL还处于发展试验中。抛弃当前已经推出的STEP的EXPRESS描述或XML表达国际标准,完全采用语义Web的OWL来实现产品数据的语义表达还需要更长的时间,因为从语义描述上它没有EXPRESS功能强大,从语法表达上它没有现行的STEP XML表达国际标准严格,同时OWL本身缺少严格的数据模型作为理论基础,它的许多地方还正在完善中。

本文从上述角度出发,在充分利用已有研究成果基础上,寻找一条新的解决方法,既能够满足分布式环境下产品信息的知识级交换与共享,又无需类似采用RDF、OWL完全取代EXPRESS对STEP进行重新的语义描述。本文将系统阐述语义在线重组实现的思想方法及其体系架构,并论述其相关关键技术。

1 异构产品信息语义在线重组的方法及其架构

针对虚拟组织中各成员间产品信息交换和共享的动态性、临时性的特点,围绕虚拟组织的某个产品信息交换需求,通过产品语义的在线重组来实现产品信息语义交换,这种重组目的并不是为了完全取代原有产品信息描述方式,而是在区分语法与语义的前提下,在语法层次上对原有信息实现信息转换,在语义层次上对原有语义内容进行解释、添加补充,或引用新的适应语义网格环境的语义标识和对语义补充注释机制。它既保留原有信息的完整性并使双向性成为可能,同时又具备了面向语义网格环境的知识交换和共享的功能。通过这种机制能够根据虚拟组织的临时需求对各网格节点异构产品信息的语义建立动态关联,实现语义的自导航和重定位,从而实现对产品信息知识级的动态交换与共享。这种对语义的在线重组是动态的、实时的,也是临时性的,称为“虚拟重组”。

Internet为实现产品信息网上交换与共享提供了通用的物理平台,解决了异地异构平台兼容的问题,XML提供了数据层异构产品网上交换的数据格式,而结合语义网/语义网格可以提供语义层的语义交换中介。图1所示为虚拟组织异构产品信息语义交换的在线重组架构。图2所示为异构产品信息语义在线重组的过程。它在整体上可分为三个层次,底层为数据交换层(简称数据层),中间层为语义交换层(简称语义层),顶层为实现语义在线重组而提供的LEV(linked-entity visualization)语义标注功能层。

底层的数据交换是建立在XOEM(extensive object exchange model)数据模型基础上并基于XML的异构产品信息网进行数据交换的。XML只是在语法上实现了统一的数据交换表达,并没有提供充分的语义表达方式。因此,为了实现对产品信息的语义共享和交换,需要在语义层上解决语义的描述。语义交换层是建立在数据交换层基础上实现的,通过由数据模型到语义模型的映射来实现。与数据交换层不同的是,产品信息的语义在线重组并不是将异构产品信息语义全部进行统一转换或重新描述,而是通过对原有内容的语义部分进行解释或引入语义标注或引入注释机制。那么这种语义标注的具体描述方法就是我们需要实现的语义统一描述与识别的研究内容[11]。

顶层的LEV语义标注功能层不仅解决了产品信息在数据层和在语义层之间的映射,而且更为重要的是解决了产品信息间的语义关联和语义导航。语义的动态关联是指分布的异构产品信息之间存在的语义联系,这种联系是根据虚拟组织某一阶段的需求建立的,同时也是动态的、临时的。语义的自导航就是在临时建立的语义关联基础上,能够根据产品信息交换与共享意图,通过对语义关联的理解和推理自动检索出相应的语义路径。语义的重定位是指根据语义自导航能力,按照相应的语义路径最终定位到实现产品信息交换与共享意图的语义信息节点中,完成语义信息的交换共享。语义的动态关联是产品信息在线重组实现的前提,语义的自导航是产品信息在线重组实现的过程,语义的重定位是产品信息在线重组的结果。

由于数据层的XML数据交换已经在前期工作中基本解决,因此主要涉及的关键技术存在于语义交换层和LEV语义标注功能层。

2 关键技术

2.1 面向产品信息语义描述的语义模型

建立语义网格环境下面向产品信息语义描述的语义模型是语义在线重组研究的理论基础。目前面向多样化异构产品信息网上表达的数据模型均侧重于数据表达的严格完整性,即满足语法层次的要求,但缺乏语义信息。而语义网格环境的语义模型侧重于语义关系的理解和推理,但是语义描述的方式在语法层次上不能满足产品信息表达的严格完整性要求。

近年来,在有关产品信息语义描述的研究中,大多数是通过采用本体语言来描述产品信息的。最普遍的是采用OWL语言来重新定义产品语义本体,然后利用OWL语言的特点实现产品语义的描述和推导。国外有代表性的是wikiSTEP组织[12],该组织主要针对产品信息STEP国际标准,完全采用语义Web的OWL来实现产品数据的语义表达。在当前基于本体和语义网的研究过程中,产品信息本体的定义存在较大的随意性和不确定性。目前国内的大多数研究中,对本体的定义本身就涉及本体的一致表达规范性问题,从而产生了对本体库的管理、搜索、定位、接口、服务等一系列有待解决的问题,而产品数据STEP协议就不存在类似的问题。事实上STEP协议中的EXPRESS描述本身就是不够严格规范的弱本体定义。OWL语言只是一种本体描述语言工具,不能提供本体的设计方法和原则,如果不能有严格规范的约束和定义,单靠OWL语言是无法解决上述问题的。因此研究面向产品信息统一描述的语义模型具有非常现实的意义。

直接将XOEM模型和OWL匹配是比较困难的。因为OWL是属于本体论的范畴,侧重于推理,其约束表达能力极强;而XOEM模型侧重于数据的描述,且描述能力强,而约束表达能力极弱。可以通过添加OWL标签来弥补XOEM模型的缺陷。对于模型的不一致,我们需要通过中间的过渡桥梁来解决。考虑到XOEM模型可用有向图表示,因此我们可以建立类似RDF简单数据模型的模式有向图,将XOEM模型有向图转换成该模式有向图,同时将OWL模式转换到该模式有向图中,从而实现了XOEM和OWL有机结合即所谓的XOEM+OWL,图3显示了其结构关系。表1和表2分别给出了二者相对应的XOEM+OWL模式图表达关系。

我们在原有研究成果中提出的数据模型———基于带根连通有向图的数据模型即可扩展对象交换模型XOEM[13]的基础上,引入OWL语义标注,提出了基于XOEM+OWL的统一的产品知识表达语义模型[14],研究了XOEM+OWL模型的模式图表达定义。数据层遵循原有的数据模型XOEM实现STEP数据转换,语义层通过OWL语义标注引入STEP语义,数据层与语义层之间通过XOEM+OWL模型内的映射匹配约束建立关联。根据XOEM+OWL,针对数据层的STEP数据模式图和语义层的OWL模式图,分别给出了相应的匹配表达方法。最后研究二者之间的映射匹配约束关系的表达,给出了匹配系数的表达式。由此实现了对任何产品信息的数据表达和语义描述均规范于统一的XOEM+OWL模型内,根据该模型我们可以得到统一的基元,利用对基元的控制操作来实现对产品信息语义的在线重组。

2.2 基于XOEM+OWL的异构产品信息语义描述

由于产品信息的XML表达的语义局限性,使得许多研究者先后采用RDF、OWL等来描述STEP产品信息,他们的思路类似于STEP采用XML数据表达,均是尝试用RDF或OWL来取代EXPRESS进行描述。这种方法的局限性在于:不同于数据格式的转换,OWL的语义描述方法多种,对同一种产品信息,可以采用多种不同的OWL方式来描述其内部语义,即使是同一种OWL语言描述也难以规范对语义理解的一致性。因此企图只通过OWL的描述来实现对产品信息的统一语义描述是困难的,这也是目前这些研究难以再进一步深入的原因。事实上将产品信息的数据表达和语义描述有机结合在一起研究能够有效解决这个问题。

从上述思路出发,在研究已取得的面向产品信息统一描述的语义模型的研究成果基础上,我们提出了基于XOEM+OWL的异构产品信息统一描述方法与实现技术,研究了数据层和语义层实现的统一关联方法。数据层遵循原有的数据模型XOEM实现STEP数据转换,语义层通过OWL语义标注引入STEP语义,数据层与语义层之间通过XOEM+OWL模型内的映射匹配约束建立关联。对于二者关联的媒介,我们设计了语义基元,因此我们研究的产品信息语义描述所组成的单元就是语义基元,它建立在XOEM+OWL的基础上,实现了STEP模式与OWL模式的关联映射。表3所示为语义基元内部二者映射关系表达式。

Cos(sc,oc)是由两个不同层次的衡量系数计算组成的:元素级匹配(ElementMatch)和语义级匹配(OWLMatch)。元素级匹配侧重于XOEM+OWL模型基元的数据级层次相似度,而语义级匹配侧重于基元的语义级层次相似度。Cos(sc,oc)的计算公式如下:

式中,wsc和woc分别为元素级匹配和语义级匹配相对应的权重系数;ElementMatch和OWLMatch分别为元素级匹配和语义级匹配的值。

在具体实现过程中,我们针对STEP Part21数据文件进行研究并设计了相应的基元。产品数据的表达依然是遵循XOEM模型并采用规范统一的XML数据来描述的[15]。我们通过对STEP Part21的实例进行设计来构造语义基元,语义基元间通过ID进行联系,从而不会影响到现有的STEP XML数据表达。但与现有的STEP XML数据表达区别的是,对实例ID的处理是通过引入语义标注来关联相应的OWL语义描述信息[16]。对于语义描述,可通过自我解释和语义标注两种途径生成相应的OWL语义描述信息。对于XML数据层和OWL语义层的关联,在自我解释途径中,依靠当前已有的研究成果,按照STEP协议进行OWL描述,此时会产生相应的OWL语义描述信息。此外,语义标注途径给用户提供了对语义关联的对象及其语义内容进行动态增加、修改、删除的功能。产品信息的语义统一描述不仅是只针对类似STEP Part21文件级的产品信息,而且可以处理任何级别的跨平台异构产品信息。因此,单纯靠自我解释途径是不够的,语义标注是一种有效的补充方法。

2.3 异构产品信息在线语义标注

产品信息的网上动态关联是实现产品信息网上共享的重要手段。通过这种动态关联为多样化异构产品信息之间的沟通建立了新的联系桥梁,并且能够根据需要进行动态的调整改变。

要实现异构产品信息的在线语义标注,关键在于如何将异构产品信息语义关联信息可视化[17]。由于基于XOEM+OWL的异构产品信息统一描述是通过我们设计的语义基元实现的,因此我们以语义基元为基本对象,重点研究了语义基元之间语义关联信息的可视化。可以将语义基元间的语义关联转换成实体链接关系(linked entity),表4列出了二者的匹配关系。

2.4 语义描述实例

以圆的描述为例,图4为其STEP XML Schema初始的数据描述实例。根据表1可得到STEP的XML模式图(图5),采用OWL进行语义描述时,根据表2可得到相应的OWL模式图(图6),遵循XOEM+OWL模型,可以看出两种模式的有向图基本趋于一致,也基本实现了数据层和语义层的有效匹配。在此基础上,根据表4,得到其相应的LEV数据描述,LEV系统通过分析LEV数据描述来展示相应的可视化结果。

3 基于SVG+AJAX的语义标注可视化系统——LEV设计与实现

根据上述方法,我们设计与实现了异构产品信息语义关系可视化系统——LEV[18]。该系统完全基于浏览器的跨平台功能,采用SVG实现二维矢量图形的显示,采用AJAX实现异步数据的传输与保存,支持多用户并行操作。系统不仅实现了可视化功能,同时提供多用户在线并行修改创建语义关联的功能,语义基元的在线重组可以通过该系统进行扩充。

系统特色主要表现在以下几个方面:

(1)语义设计功能。该系统不仅提供了语义关系可视化功能,同时提供了语义在线标注功能,通过对Entity的编辑修改实现对语义基元属性的构建,通过对Link的编辑修改实现对语义基元间的语义关联。此外,该系统的一大特色在于语义匹配、扩展和检索功能强大。

(2)系统操作功能。对系统图形对象的操作,不仅可以控制某个图形对象,而且可以控制与该图形对象所有语义关联的图形对象进行同步操作。这种功能便于我们观察所有相关语义的Entity对象间的关系。

(3)支持异步数据传输的并行功能。系统支持多用户并行地对系统图形对象进行操作,同时支持基于AJAX的异步数据传递,有效解决了并行操作的数据不一致问题。

4 结束语

语义Web关键技术浅述篇5

语义Web研究的主要目的是使网络中信息具有语义, 因而其研究的重点就是如何把信息表示为计算机能够理解和处理的形式, 而XML、RDF和Ontology用于表示信息的结构、内容及语义基础, 是语义Web实现必不可少的三大关键技术。

1语义Web概念

Web是互联网上最重要的应用, 为解决网络上资源语义缺乏的不足, “互联网之父”—Tim Berners-Lee提出了语义Web的概念。语义Web[1]并非是全新的Web, 而是对现有Web的扩展。语义Web研究的主要目的是扩展当前的Web, 使得网络中信息都是具有语义, 便于人和计算机之间的交互与合作。因而其研究的侧重点就是如何把信息表示为计算机能够理解和处理的形式, 即带有语义。

语义Web的建设分成三个步骤:通过标记语言 (如XML) 定义一套术语, 用RDF对其进行基本的语义描述, 形成某个领域的本体, 这样不断地在网络中建设很多本体;然后编制软件, 能够根据本体之间的关系进行推理;最后基于推理软件建设应用。

语义Web需要一个多层次的技术框架, 以帮助建立合理的信息层次结构, 使Web上的信息结构良好且有序。Berners-Lee描绘了语义Web的层次关系[2] (如图1所示) , 它主要基于XML和RDF、RDF Schema, 并在此之上构建本体和逻辑推理规则, 以完成基于语义的知识表示和推理, 从而能够为计算机所理解和处理。

2语义Web三大关键技术

语义Web主要基于XML和RDF/RDFS, 并在此基础上构建本体和逻辑推理规则, 以完成基于语义的知识表示和推理, 从而能够为计算机所理解和处理。语义Web的实现依赖于三大关键技术[3]:XML、Ontology和RDF, 用于表示信息的结构、内容及语义。

2.1 XML

XML (Extensible Markup Language, 即可扩展标记语言) 可以让信息提供者根据需要, 自行定义标记及属性名, 从而使XML文件的结构可以复杂到任意程度。它具有良好的数据存储格式和可扩展性、高度结构化以及便于网络传输等优点, 再加上其特有的NS机制及XML Schema所支持的多种数据类型与校验机制, 使其成为语义Web的关键技术之一。

2.2 Ontology

Ontology (本体或本体论) 是语义Web体系中的核心[4]。本体是语义Web的基础, 能描述Web资源的概念及其相互关系, 使计算机对Web资源无二义的自动处理成为可能。本体的定义有很多, 其中最著名并被引用得最为广泛的定义是由Gruber提出的, “本体是概念模型的明确的规范说明”[5]。本体作为某个领域内 (可以是特定领域的, 也可以是更广的范围) 不同主体 (人、代理、机器等) 之间进行交流 (对话、互操作、共享等) 的一种语义基础, 即由本体提供明确定义的词汇表, 描述概念和概念之间的关系, 作为使用者之间达成的共识。因此, 本体的用途包括交流、共享、互操作、重用等。

在基于本体的实际应用中, 构建本体是一基本任务, 本体构建是一个旨在研究有关构建本体的方法和方法学的领域。出于对特定问题域和具体工程需求的考虑, 构造本体的过程各不相同[6]。近年来, 本体逐渐成为计算机领域的一个研究焦点, 它是一份正式定义名词之间关系的文档或文件。一般Web上的本体包括分类和一套推理规则。分类, 用于定义对象的类别及其之间的关系;推理规则, 则提供进一步的功能, 完成语义Web的关键目标即“机器可理解”。本体的最终目标是“精确地表示那些隐含 (或不明确的) 信息”。

在语义Web中, 本体具有非常重要的地位, 是解决语义层次上Web信息共享和交换的基础。语义Web中, 本体的构建是语义表达和应用的关键, 只有正确构建本体, 才能对本体进行基于概念或推理的查询。如何正确构建领域本体, 从而基于本体构建规则进行逻辑推理, 是近年来语义Web领域的一个重要的研究和应用方向。

2.3 RDF

为了知识共享和表示本体需要某种本体语言来对概念化进行描述, 本体通常以基于逻辑的语言来表示, 因此可在类、属性和关系之间做出详细、准确、一致且完备的区别。现阶段也有许多语言可用于表示本体, XML提供了一种结构化文档的表层语法, 但没有对这些文档的含义施加任何语义约束。资源描述框架 (RDF) 是W3C推荐的一种信息描述方式, 为本体对象提供一些常见的模型限制, 为描述Web资源而开发的RDF允许在XML的基础上以一种标准化、互操作的方式对数据语义进行定义。它的数据模型与语义网络形式等价, 其目的主要是为元数据在网络上的各种应用提供一个基础结构, 使应用程序之间能够在网络上交换元数据, 以实现网络资源的自动化处理。在RDF的基础上, RDF (S) 用来建立类模型、属性层次以及其他可从RDF模型中引申出的基本模型限制。也就是说RDF (S) 定义了一套简单的本体, 可以控制RDF文档的一致性[7]。OWL是对RDF和RDFS语义描述能力的一种补充, 添加了更多的用于描述属性和类的词汇, 是在RDF (S) 建立的元数据模型的基础上扩展的本体语言。

不论选择哪种正式的语言, 还必须在语言的易处理和表达性之间采取折中原则。因为RDF (S) 要应用于大量的网络资源中, 它已经十分接近最基本的表示。与常用的知识表示语言相比, RDF有自己的特性, 并不是一个最优的建模语言, 但它已经成为了一种事实标准, 拥有足够的表达能力, 可以作为构件其他层的基础。它并不是所有知识表示问题的最终解决方案, 而仅是一种可扩展的核心语言。RDF (S) 的命名空间和具体化机制使得不同领域的用户, 通过扩展核心的定义和语义, 以RDF (S) 的形式定义自己的标准, 包括不同命名空间之间的映射、版本升级或者本体公理的定义等。可见, 在语义Web中RDF (S) 对资源进行描述, 是语义Web的基本构建模块, 是诸多本体语言中用于描述网络资源并为其赋予语义的基础。

结语

尽管语义Web是在XML基础上并未完全成熟的技术, 但当前Web已经到了向语义化发展的一个转折点, XML提供了通用的表示语法, RDF提供了语义上描述知识的数据模型和一组基本的描述原语, Ontology更是作为语义Web体系中的核心起到了关键的作用。这三个关键技术为语义Web的实现提供了技术基础。

参考文献

[1]World Wide Web Consortium.W3C Semantic Web Activity[EB/OL]. (2001-05-01) [2010-6-16].http://www.w3.org/2001/sw/.

[2]Dan Brickley, R.V.Guha.Resource Description Framework[EB/OL]. (2000-3-27) [2010-6-16].http://www.w3.org/TR/2000/CR-rdf-schema-20000327.

[3]J.Heflin and J.Hendler.A portrait of the semantic web in action[J].IEEE Intelligent Systems, 2001, 16 (2) :34-46.

[4]BERNERS-LEE T, HENDLER J, LASSILA O, et al.The semantic Web[J].Scientific American, 2001, 284 (5) :34-43.

[5]GRUBER CF TR.A Translation Approach to Portable Ontologies[J].Knowledge Acquisition, 2003, 5 (2) :199-220.

[6]袁金平, 鲍爱华, 姚莉.语义Web技术及其逻辑基础[J].计算机工程, 2008, 34 (24) :180-196.

语义网格核心技术及其应用研究篇6

关键词：网格计算,语义网格,语义网,Web服务

1 网格

关于网格和网格计算,至今还没有一个被普遍接受的定义。美国科学家、美国著名的网格计算项目G1obus的主持人之一Lan Foster曾在《网格:21世纪信息技术基础设施的蓝图》一书中指出:“网格是构筑在互联网上的一种新兴技术,它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为用户提供更多的资源、功能和交互性。”

2001年,Lan Foster等人进一步将网格计算和它的基础构件定义为支持动态的、可扩充的分布式虚拟组织(VO,Virtual Organizations)中可控和平等的使用和共享资源的协作系统。

2002年,Lan Foster提出网格是一个满足如下3个条件的系统:能协调不服从集中式控制的资源,使用标准的、开放的、通用的协议和接口,提供非常的服务质量。Lan Foster对网格计算的定义强调网格具有异构性、可扩展性和动态适应性。认为网格计算就是在动态变化的、拥有多个部门或者团体的复杂虚拟组织(Virtual Organization)内,灵活、安全的协同资源共享与问题求解[1]。

总之,网格是一种信息社会的网络基础设施,是利用互联网把分散在不同地理位置上的多个资源,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等全面连通和统一分配、管理及协调起来,通过逻辑关系组成一台“虚拟的超级计算机”。网格是把信息技术具体化、计算资源虚拟化,并把所有通过联网的计算资源都按共享原则参与进来,达到资源的共享[2]。

2 语义网格

2.1 基本概念

David DeRoure等学者2001年Research Agenda for the Semantic Grid:A Future-Science Infrastructure中第一次提出了语义网格(Semantic Grid)概念,把语义网格作为未来e-Science的基础架构[3]。语义网格概念的提出结合了语义Web、网格和Web服务的优点并弥补了彼此的不足。图1[4]表明了Web、网格、语义Web和语义网格的关系,网格是Web在计算能力上的提升,而语义网格是网格在语义能力上的扩展;从另一个角度说,语义Web是在现有Web上增强了语义能力,而语义网格是语义Web对计算能力的扩展。

语义网格使用元数据来描述网格中的信息。将信息转化为一些更有意义的东西,而不只是一个数据集合,这意味着要正确理解数据的内容、格式和重要性。语义Web就遵循这种模型,即提供其他一些元数据来帮助描述在Web页面上显示的信息,这样浏览器、应用程序和用户就能够更好地决定如何处理数据。语义网格对于在网格环境中使用的信息也适用类似的准则。

2.2 语义网格的研究内容[5]

语义网格的研究重点是用语义和知识工程的方法来解决目前网格平台建设和应用中存在的各种问题。其研究内容可以概括为以下几个方面。

1)智能实验室(Smart Laboratories)

智能化的实验室是e-Science成功不可或缺的,同时配置智能实验室可以充分挖掘Grid的能力。

2)面向服务的结构(Service-Oriented Architectures)

研究语义网格设施的预备和实现,研究基于语义的服务描述语言。

3)基于代理的方法(Agent Based Approaches)

研究Agent Based架构使用,研究交互语言以便开发制定维护e-Science marketplaces。

4)信任和证实(Trust and Provenance)

研究网格系统中计算信任建立的过程方法技术,决定内容种源和品质,这些涉及到数字权管理问题。

5)元数据和注释(Metadata and Annotation)

元数据设施已经以RDF的形式存在,进一步工作研究支持ontology设计和运用的方法和工具,研究Annotation工具和方法。

6)知识工具(Knowledge Technologies)

知识捕获工具和方法动态内容连接(dynamic content linking)基于注解搜索(annotation based search)annotated reuse repositories自然语言处理方法(natural language processing methods)(for content tagging,mark-up,generation and summarization)数据挖掘(data mining)机器学习(machine learning)Internet推理服务(internet reasoning services)。

7)集成媒体(Integrated Media)

把一系列的媒体合成到e-science基础设施中,包括视频音频各种图像方法研究metadata和annotation同这些多样媒体格式的关联。

8)内容表达(Content Presentation)

研究内容的可视化技术和方法。

9)电子科研工作流和协作(e-Science Workflow and Collaboration)

理解现在和未来e-Science合作的工作流,拥护应该能够形成,维护和解散基于一定成员限制规则和操作规则的合作环境。

10)普适电子科研(Pervasive e-Science)

不仅关注计算能力,更包括对所有资源的访问。

2.3 语义网格的核心技术

1)Web服务(Web Services):OGSA以网格服务为中心的架构,非常有利于我们构建语义网格环境。在OGSA网格体系结构中,由于网格环境中所有的组件都是虚拟的(指对相同的接口不同实现的封装),因此通过提供一组相对统一的核心接口,所有的网格服务都基于这些接口实现,就可以很容易构造出具有层次结构的、更高级别的服务(语义服务、知识服务)。

2)软件代理(Software Agents):多Agent系统研究提出的问题空间与语义网格是相一致的,(Agnet)中决策、分散、对等、自治的行为,正是构建网格虚拟组织所必须的。基于Agent的计算模式也是一种面向服务的模式,Agent与面向服务的网格可以建立直接的映射,Agent可以是服务的生产者、消费者和代理者。

3)元数据:元数据是关于数据的数据,是对语义网格上信息的一种描述方式,这种描述方式使得信息变成计算机可以理解的信息。元数据最基本的作用就是管理数据,从而实现查询、阅读、交换和共享。

4)本体和推理:本体是共享概念模型的形式化规范说明,目标是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。

5)语义服务(Semantic Web Services):现有的Web Services围绕着UDDI、WSDL和SOAP,提供了有限的机制来实现服务的发现、配置、组合和自动协商,对服务的调用来说抽象层次较低。语义服务的目标是通过提升服务的描述,来指明服务的能力和任务完成的特性,使得在同一语义空间下的服务更容易整合[6]。

2.4 语义网格(Semantic Grid)的框架

语义网格的框架可表示为图2[7]。随着网格的发展和语义网格概念的提出,语义网技术不仅在知识层起作用,而且渗透到整个语义网格架构中。语义网格以OGSA和WSRF为基础,采用了面向服务的结构,提供了基本网格服务,语义网格服务,包括了以此为基础的知识网格,提供了高级网格应用的接口。语义网格服务可提供知识服务,基于知识的信息服务,基于知识的数据计算服务。语义网格提供了更高级的知识共享和管理平台,使数据挖掘,文本挖掘等变得更为容易。语义网格在网格中间件和知识网格,高级网格应用间实现了机器的语义理解,为整个网格系统的语义互联提供了强有力的支撑。语义网格不仅能提供数据计算服务和信息服务,而且引入知识层处理,提供知识的获取使用,检索,发布等知识服务,体现了下一代网格的特点。

3 应用

面向语义的网格承诺带来语义可互操作性,智能自动化,行动指南以及灵活重用的优势,它日益被认为是网格计算演变中的一个重要阶段。我们将语义网格广泛的应用场景概括为以下几个方面的网格应用。

1)服务发现[8]:英国e-Science的领头项目myGrid寻求提供开放源代码的高层网格中间件,用于形式化表达,管理以及共享生物信息实验中的密集数据。MyGrid所用资源是开放网格体系结构的服务,这些服务能够静态或动态的与上下文结合。这里的上下文包括用户信息,执行代码,执行速度,可靠性和对用户有用的适当的认证机制。能否找到正确的服务依赖于服务的知识。服务的语义描述对服务的自动发现,查找,选择,精确匹配,组合,交互操作,调用以及执行的监控都是必要的。在开放网格体系结构中,服务规范提供了描述接口的语法,但服务除了按照一定的参数和返回值要求执行操作,还应该按照一定的用户需求来响应。

2)知识注释,通知和指南:Geodise试图用网格技术,设计优化技术,知识管理技术,Web服务和本体技术来构建一个具有目前最高水平的知识密集性设计工具,该工具要与OGSA基础设施保持一致。Geodise正使用知识工程方法学来对设计知识进行建模,封装,以便航空引擎部件等新设计能够一更低的成本更快的开发出来。

4 结论

语义网格结合了网格,语义网和Web服务的优点,打破了网格,语义网和Web服务各自独立发展的限制,体现了三种技术走向融合的趋势,体现了下一代网格的发展方向,是为所有人服务的大众网格。语义网格已成为网格研究的一个热点,语义网格所蕴含的思想有着广阔的发展前景,语义网格的研究必将进一步推动网格、互联网和数字图书馆技术的发展。

参考文献

[1]胡引翠.网格计算技术的应用及其发展趋势[J].测绘通报,2005(3):23.

[2]曹来发.网格计算[J].兵工自动化,2004(23):14.

[3]李明生.语义网格:语义网技术和网格的结合[J].情报技术,2005(10):47-48.

[4]郭韦钰,丁连红.语义Web和语义网格[EB/OL].(2004-12-16).http://cisco.ccxx.net/cisco/tech/netman/2004/1216/2304.html.

[5]DAVID DE ROURE,NICHOLAS R.JENNINGS.The Semantic Grid:Past,Present,and Future[A].见(In):PROCEEDINGS OF THEIEEE[C].2005,93:671-672.

[6]张海,关伟豪.下一代的网格技术——知识网格[J].中山大学学报:自然科学版,2005(44):172.

[7]李明生.语义网格:语义网技术和网格的结合[J].情报杂志,2005(10):48.

词典中词的语义分析篇7

1.它们分属不同的范畴。词义是语言词的内容;概念是逻辑思维的单位,是精确的科学工作和逻辑思维的结果。概念概括反映客观对象的全部本质属性,体现思维的全人类性; 词是用来作为区别符号,词义可以包括事物的全部本质特征,也可以只是事物的部分区别性特征,体现了语言的民族特点。例如“火车”, 汉语用“火”和“车”两个语素造词;英语用train表示,原意指的是一长串活动的物体。两种语言造词所选择的角度和特点不同。作为概念,显然应该指明火车的性质、结构、形态、功用等一系列本质特征,作为词义,只要求反映区别性特征就可以了。但这并不妨碍“火车” 这个词所表达的事物。随着人类认识的发展, 概念的内容在不断深化,不断丰富。现代词典对词义的解释要求精确化而接近概念的定义, 这是十分值得重视的趋向。

2.有些词并不指称客观世界的一个部分, 我们很难确切指明它所表达的概念,如叹词、语气词、助词(的、得、地)等。它们表达说话人的态度和感情等,并不表示概念。

3.概念可以由单独的词来表示,还可以由词的组合来表达,例如“人民代表大会”。另一方面,一个概念只表示客观世界的一个事物或观念,而词义往往表示相联系的几个概念,多义词现象表明一个词的意义可以包含多个概念。

4.词除了表示一定概念外,还包含不能纳入概念范畴的附加内容。即补充意义、语体色彩、语用特征和语法功能等。

语义是语言不同单位的内容。语言可以划分为不同单位,相应地也有不同的语义单位。广义上说,语言的单位包括语素、词、句、句群、篇章,语义单位相应有语素义、词义、句义、句群义、作品义。词作为语言的最小自由运用单位,从语义学角度看词义也可以分析出大大小小的组成单位:

1.词义。词义的整体意义,正如词是话语片段中分析出来的最小自由运用单位一样,词义是义丛中分离出来的同词的单位对应的语义单位。对一个词来说,词义是最大的语义单位。一个词总是顶着一个词义。有些词义由单一的义位构成,是单义词,有的词义则是许多义位的组合体,是多义词。

2.义位。词义的构成单位;有的词义只包含一个义位,有的包含多义位。话语序列中的词义实际上总是以一定的义位出现的,义位是组成言语作品的基本的语义单位。我们写文章、说话,就是把义位组成一个个句子的过程。词义在发展过程中总是由单一的义位发展成为多义位的统一体。传统训诂学把一个字的单一义位作为词义的整体来研究,现代辞书立足于一个词的多义位的平面的比较和历史发展的分析。

3.语素义。是话语片段中不能再切分的最小的语义单位。从语法看,词或固定词组是由语素构成的;从语义看,则是由语素义组成的。汉字的字义一般就是语素义。同构词成分词根和词缀相应,有实语素义和虚语素义;人、民、语、言表示实语素义,性、化、头、老作为词缀时表示虚语素义。单纯词由一个词根组成,单纯词的词义或义位也就是语素义;复合词和派生词包含两个或两个以上语素义。

4.义素。是组成义位的最小的语义单位, 是“意义的基本要素”;是通过对义位的详尽分析而得出来的微观语义单位。例如“追赶”这个词的词义,包含了一个义位(义项)、两个同义语素;义位的义素构成是:[ 努力+ 移动+ 方向+ 距离+ 缩小],共五个义素。它的意思是努力向前方移动并使距离缩小。一个义位所包含的义素比语素义多得多,而由于许多词都具有共同的义素,义素的数量反而比语素义少得多了。

以上语义单位可以统称为词的词汇意义。词的内容除了词汇意义,还有各种决定于不同性质义位并附丽于义位的超语义成分或附加成分,即感情色彩、语体色彩、语用特征和语法功能。

义素是义位的微观层次,是对义位进行分析而得出的最小语义单位。传统训诂学以语素义的研究为极限,现代语义学探索语义的微观层次,对义位的合成进行义素分析,这对辞书的编纂具有实际的价值。

义素分析法就是把义位分解为最小的义素, 并找出具有区别性特征的义素。如果我们以“+” (正号),表示“是”,以“-”(负号)表示“非”, 那么,下列词的义素组成应是:

父亲 :[+ 男性 + 直系亲属 + 父辈 ]

女儿 :[- 男性 + 直系亲属 + 子辈 ]

姑母 :[- 男性 + 旁系亲属 + 父辈 ]

叔父 :[+ 男性 + 旁系亲属 + 父辈 ]

这样,为数不多的义素可以组合成表示亲属关系的许多义位。同理,其他类别的义位也可以这样来分析。例如“距离、移动、方向、缩小、扩大”这几个义素可以合成许多动词义位, 如:

出去 :[+ 移动 + 方向 + 距离 - 缩小 ]

进来 :[+ 移动 - 方向 + 距离 + 缩小 ]

立定 :[- 移动 + 距离 - 扩大 - 缩小 ]

后退 :[+ 移动 - 方向 + 距离 + 扩大 ]

前进 :[+ 移动 + 方向 + 距离 + 扩大 ]

词典对词语的解释就是对义位进行义素分析的过程。分析表明,许多词语的词义差异在于个别义素的差别。例如,《现代汉语词典》[ 厚] 的解释是:“扁平物上下两面之间的距离大”, [ 薄] 的解释是:“扁平物上下两面之间的距离小”。这里都包含了“扁平、物、上下、距离、大(小)”五个义素。两个义位的区别在“大” 和“小”两个义素。

当然,词典释义并不要求同义素分析完全一致,但词典释义却不能违异义素分析的结果, 义素分析可以检验词典释义。《辞海》[ 飞] 的解释是:“鸟类及虫类在空中拍翅行动。”这个定义包括三个义素:鸟类及虫类、空中、拍翅。《辞源》[ 白琥] 定义是:“古代祭祀用的虎形白玉”, 包含了:古代(时间)、祭祀(用途)、虎形(形状)、白(颜色)、玉(物)五个义素。从义素看, 这两条释文在特定义位范围内,没有遗漏必要的义素,没有增加不必要的义素,义素之间不存在交叉重复现象,应该说释文是正确的。

通过义素分析可以从一类词中归纳出共同义素,组成一簇簇义素序列,用以准确地、以简驭繁地解释义位的特点和组成。我国传统上以“六书”分析造字,包含了义素分析的特点。

超义位(或语义)成分是词的内容的组成部分,决定于义位特征,又依附于义位。它们是不能纳入义位概念范畴的词的内容的附属成分。揭示超义位成分是从整体了解词和准确用词所必要的。它包括:

1.感情色彩。是词在指称功能的基础上, 伴随着的褒贬色彩。除了部分中性词,许多词都具有爱憎美丑、文野雅俗的感情。汉语词汇的情意色彩丰富多样。表涵养的,如文雅、谦逊、和气、自傲、粗鲁;表态度与评价的,如祝愿、敬意、赞誉、礼貌、郑重、轻蔑、诅咒;表喜怒的, 如喜爱、欢愉、憎恶、厌烦;表情景与气氛的,如庄严、悲哀、和谐、肃穆;表礼俗的,如禁忌、委婉;表欢娱的,如戏谑、诙谐;等等。

2.语体风格。词语由于使用于不同场合而形成各种语体风格上的特点和变体。在表达形式上,有书卷语与有教养人的口语、一般口语, 在从业上,有不同学科领域的专门用语和行业用语;在通用面上,有流行于各种社会集团的用语,如学生中的惯用语,行帮中的隐语、黑话;在时限上,有旧词、废弃词;在使用频率上,有常用词、罕用词、趋于罕用词;在地域上, 有方言词、外来词等。

3.语法功能。词的语法特征表现为一定的词性;词类不同,用法不同,在结构中的地位和作用也不同。语法特征还表现为词与词的搭配功能。在语言交际中,词和词是搭配起来使用的,词的搭配远不是任意的。词的搭配能力要受到词的本身特点的限制,还同词的语义联想、风格特点有关。语言中具有广泛搭配可能的词是不多的,如看、打、买、有等;多数的搭配都有严格的选择性,例如“皑皑”,可供搭配的几乎只有一个“雪”。在叙述词的搭配功能时,特别值得重视的是动词同特定宾语、名词同一定量词的连用。

4. 语用特征。“语用”具有广泛的涵义,就词的内容看,词因使用于不同语境和对象,而形成种种特征。词语各有适用的场合和情景。如“不要脸”用于骂人,“不害臊”通常情况都可以用;“会晤”用于隆重的身分高者的会见, “会见”用于一般的正式见面。有些适用于特定的对象。例如“宠幸”,旧时用于帝王对妃妾、臣僚或地位高的人对地位低的人的宠爱;“宠爱” 表示一般上对下的喜爱。现时书信结尾的敬语不分上下长幼多用“敬礼”,旧时书函对长辈常用“金安”、“福寿”、“福安”,对同辈用“时绥”、 “曼福”、“撰祺”,对已婚子女用“俪福”、“俪祉”, 对未婚子女常用“时安”,“近祺”,等等。

四、词义的变化

词是概念意义、语法、修辞、风格、语用等多种功能的聚合体,它组成了一个词的应用域。词的意义总是按着社会、民族的心理因素、习惯和语言特点等的变化,在不断发生变化。词义变化产生多义词和词义的新旧交替。这就造成古今词义的差别。词义变化是词汇发展的一个经常性因素。

词义变化有语言外部和内部两种原因。就前一原因说,变化往往反映人的思维从具体到抽象,从特殊到一般。例如“元”,本义是“脑袋”,发展为“开始”,“原始”,“原来”,“大” 等抽象意义;“方”,现行意义是“方向”,“道”、 “方面”、“地方”等意义,也是从原始意义“方圆”而来的。

社会物质和精神文明的发展和人类认识的深化,也引起了词义的变化。例如“博士”,原指教授官,自六国到清代都设有教授五经、医学、数学等的博士官,现行意义指学位的最高一级。 “乌”,《说文》“孝鸟也”,现在释为嘴大而直、全身羽毛黑色,翼有绿光的鸟,“孝鸟”显然是荒诞之说。此外,如“轮回”、“天堂”、“月食”、 “阴阳”等,古今词义也起了变化。

【语义分析技术】推荐阅读：

语义、语用分析06-27

语义特征分析08-23

语义分析方法09-24

聚合词语语义分析08-28

语义分析实验报告10-14

三乡壮语汉语借词语义分析09-14

语义Web技术08-30

经验语义10-15

语义类型06-05

语义数据06-06

>> 查看更多相关文档