信息标注(精选11篇)
信息标注 篇1
随着信息时代的到来, 网络技术和计算机技术得到了迅速发展, 在地理信息服务的发展过程中, 通过地理信息和专业信息的集合和共享的, 能有效地避免信息孤岛效应的发生, 提高对已有信息资源的利用效率, 减少地理空间框架建设过程中的重复建设。为了能最大限度地满足用户需求, 提高地理信息的集成效率, 对地理信息服务集成的关键技术从以下几个方面进行了具体论述。
1 地理信息服务集成概述
1.1 地理信息服务的概念
地理信息服务从本质上来说一项网络服务功能, 这项功能是在网络环境的基础上形成的, 是一组和地理信息密切相关的软件功能的外在表现, 通过借口的方式就能暴露出其封装的功能。
1.2 地理信息服务语义集成的特点
从服务本身的不具有所有权的属性出发, 使得它更能适应业务用户进行编程的需要, 所以在以信息服务位置主导的地理空间框架之下, 只需要将业务级服务进行组合, 就能实现业务端的编程。要想完全实现用户的主动参与和应用构建还必须面对很多挑战, 这是由语义标注环境下地理信息服务的特点所决定的。
1.2.1 业务用户是集成的关键所在
业务用户始终是集成服务的中心对象。在地理信息服务集成的框架之下, 业务人员需要对服务的任务进行分解和搜索, 然后利用这一领域内的专家在业务模板的基础上对实施方案的场景进行模拟, 通过语义支持下的关联服务来实现服务框架和W EB服务之间的联系和绑定。
1.2.2 集成的基础是语义支持
基于语义标注的地理信息服务集成, 它的基础就是在语义的支持下对相关的业务组成结构和模板进行描述, 完成W EB服务的语义标注, 实现业务组成部分和W EB服务语义标注上的关联性。在语义标注基础之上的地理信息服务可以通过注册、查询、描述和集成等步骤, 为业务用户构建一个精准迅速的服务集成环境。
1.2.3 基于业务模版的重用
地理信息服务通过业务模板的反复利用, 就可以将领域内一些共性的需求进行抽象化的处理, 这样就能使业务领域内服务组合透明化, 而且还能够实现重复的利用。
2 地理信息服务集成框架的结构分析
2.1 地理信息服务集成框架的主要构成角色
地理信息服务集成在实际的应用中是一个非常复杂的过程, 在它整个服务周期中, 需要不同人员以及组织单位共同参与到整个集成框架的创建、调用和运行的过程中来。如果按照这些人员和组织单位所扮演的不同角色功能进行划分, 可以将集成框架的参与者分成领域专家、业务用户、普通用户和提供服务者四种。
2.2 地理信息服务集成框架的功能分区
地理信息服务服务集成框架是以服务运行环境等地理信息服务基础设施为基而建立起来的。在这个框架之中, 业务人员对地理信息服务集成定义的界定、发布、管理和调用等操作都是在服务支撑平台的基础上完成的。从地理信息服务集成框架的组织结构和功能上来说, 这个框架主要是由服务集成终端、业务逻辑设计模块、语义服务发现模块、集成服务执行引擎、管理、监控模块和资源管理模块等6个功能分区所组成。
3 地理信息服务集成的实现方法
随着全球空间信息服务迅速的发展, 地理信息系统会慢慢发展成为网络条件下的方便集成的一种信息服务系统, 地理信息服务能够为用户提供较为灵活的空间处理功能以及使用空间数据, 其所提供的空间数据的处理功能是一种特殊的W eb服务。根据O G C和ISO/TC 211共同发布的质量认证中, 将服务链作为实现地理信息服务的主要的方法。如果按照用户对系统的控制程度进行划分, 可以将服务链分成用户自定义链、流程管理链和集成链三种。
3.1 用户自定义链
在此链条之中, 需要注意用户定义和控制服务之间操作的顺序。在这种模式之下, 需要用户具备如下几种能力, 一是组合服务知识的能力;二是发现可能产生服务的能力;三是对可获取的服务进行评估的能力。只有具备上述这三种能力, 才能对所发现的服务资源和需求的适合程度进行判断。
3.2 流程管理链
在流程管理链中, 用户依赖工作流服务来执行预先定义的服务链。用户已知道存在一个能够满足应用需求的服务链, 并可能需要根据具体情况而提供相应的参数, 但是服务链的执行需要依赖工作流服务来完成。用户了解工作流服务的调用方法, 并能够发现和选择能够满足应用要求的服务链, 用户通过和工作流服务进行交互来执行服务链。
4 结束语
综上所述, 为了促进地理信息服务的发展, 实现地理信息资源的共享, 更快捷、更准确地为人们提供服务, 我们有必要对语义标注下的地理信息服务的关键技术进行更深入地研究, 在集成框架的基础上, 充分掌握三种链条的特点, 并根据用户的实际情况, 选择最合适的服务链。
参考文献
[1]刘勇.基于语义的地理信息服务集成研究[D].山东科技大学, 2011.
[2]蔡畅.三维地理信息网络服务的理论与关键技术研究[D].解放军信息工程大学, 2011.
[3]李博霏, 李欣, 李艳明.基于浏览器的地理信息服务客户端技术研究[J].计算机工程与设计, 2011.
[4]吴张峰.多源地理信息服务关键技术研究[J].测绘与空间地理信息, 2012.
[5]梁汝鹏, 李宏伟, 李文娟等.基于知识标注的地理信息语义服务框架研究[J].地理与地理信息科学, 2012.
参考文献标注法 篇2
示例:引用单篇文献
……德国学者N.克罗斯研究了瑞士巴塞尔市附近侏罗山中老第三纪断裂对第三系褶皱的控制 [235];之后,他又描述了西里西亚第3条大型的近南北向构造带,并提出地槽 是在不均一的块体的基底上发展的思想[236]。
……
2同一处引用多篇文献时,只须将各篇文献的序号在方括号内全部列出,各序号间用 “,”。如遇连续序号,可标注起讫序号。
示例:引用多篇文献
裴伟[570,83]提出……
莫拉德对稳定区的节理格式的研究[235256]
3多次引用同一著者的同一文献时,在正文中标注首次引用的文献序号,并在序号的“[ ]”外著录引文页码。
示例:多次引用同一著者的同一文献
主编靠编辑思想指挥全局已是编辑界的共识[1],然而对编辑思想至今没有一个明 确的界定,故不妨提出一个构架参与讨论。由于“思想”的内涵是“客观存在反映在人的意 识中经过思维活动而产生的结果”[2]1 194,所以“编辑思想”的内涵就是编辑实 践反映在编辑工作者的意识中,“经过思维活动而产生的结果”。……《中国青年》杂志创 办人追求的高格调——理性的成熟与热点的凝聚[3],表明其读者群的文化的品位 的高层次……“方针”指“引导事业前进的方向和目标”[2]354。
信息标注 篇3
目前, 飞机制造技术正向全数字化的设计、制造、试验一体化的方向发展。其突出特点是数字化已不仅仅是设计和制造的局部应用, 而是向具有跨地域的全数字化协同设计制造发展, 数字化技术贯穿了整个飞机的设计制造流程[1,2], 由此MBD (Model Based Definition) 技术应运而生。MBD即基于模型的定义, 是一个用集成的三维实体模型来完整表达产品定义信息的方法体, 它详细规定了三维实体模型中产品尺寸、公差的标注规则和工艺信息的表达方法。也改变了传统由三维实体模型来描述几何形状信息, 而用二维工程图纸来定义尺寸、公差和工艺信息的分步产品数字化定义方法及其设计制造模式[3]。
MBD技术涉及产品研制周期中不同阶段信息要素, 如总体设计信息、结构设计信息、工艺信息、制造和检验信息等。三维标注技术作为MBD的数据基础, 即是将飞机研制中面向不同阶段、不同对象所涉及的几何及非几何信息集成到三维模型之中, 体现设计者的设计思路, 产品的制造工艺, 同时保证了数据的标准性、唯一性。
从本质来看, 三维标注是一个产品数字化定义的过程, 三维标注所涉及的信息保证了飞机设计及制造的正常运行, 这使得无论是产品的几何设计信息, 还是非几何制造工艺信息都可以在三维模型空间上表达, 从而省去二维工程图, 实现设计制造过程的三维化, 使其更加直观、明确[4]。三维标注在CA-TIA中的示例如图1所示。
三维标注信息中除尺寸和公差外, 还包括零件的属性信息、零件的材料信息、零件的注释说明、零件加工工艺过程所必须提供的产品描述性定义信息、装配连接定义等[5]。这些信息数量大, 类型多, 贯穿于整个飞机设计制造流程[6]。所以, 构建三维标注信息本体, 以促进人工智能在三维标注上的应用, 可以极大提高三维标注的效率, 是十分必要的。
1 本体构建流程
本体构建是本体形成的具体过程, 其构建方法直接关系到整个本体能否成功建立, 能否实现预想的功能。关于本体构建, 目前一致认同的是:规范化的领域知识本体的构建应该基于一定的专业领域, 在领域专家的参与和协作下, 遵循某种构建知识本体的方法。当前有很多通用本体构建方法, 如TOVE法[7], METHONTOLOGY法[8]等, 这些方法各有特点, 也都有不完善之处。本文在这些方法的基础上, 参考文献[9], 结合所研究问题的特点, 提出了飞机三维标注信息元素本体构建方法, 如图2所示。
本体的构建步骤中, 数据收集、本体评价和形式化描述都有较为通用的方法, 可适用于各种不同的本体, 因此, 本文针对三维标注的具体特点, 重点说明领域知识分析、概念和类的定义两个部分的内容。
2 领域知识分析
数字化设计中存在不同的设计阶段和层次, 每个阶段主要涵盖不同的标注信息, 这些主要是根据标注对象的不同而划分的, 标注的对象是机加件、钣金件还是装配件, 都会给标注带来各自的内容特点。但分析这些标注对象可以发现, 标注内容都有其共同的格式和关联, 即本文的基本标注类别。整个飞机的设计标注过程实质上是这些基本标注类别的集合。
根据飞机设计制造过程中的标注流程, 结合具体经验, 提取出飞机三维标注过程中基本标注类别, 这些标注单元按照几何信息标注和非几何信息标注分为两大类, 具体如下。
2.1 几何信息标注
(1) 基准标注:表示有形位公差要求的理论精确点、轴线或平面的定位基准; (2) 几何图形公差标注:表示有形状和位置要求的几何特征; (3) 尺寸标注:表示有配合的尺寸或功能要求的尺寸; (4) 粗糙度标注:表示有特殊要求的表面特征; (5) 连接定义标注:表示装配件中零件之间的连接关系; (6) 密封定义标注:表示零组件的密封区域和密封工艺。
2.2 非几何信息标注
(1) 模型编号标注:零组件、装配件的编号; (2) 模型名称标注:零组件、装配件的名称; (3) 产权标注:模型的产权所有者; (4) 材料描述标注:包括材料的牌号、材料状态、材料规范和毛料尺寸; (5) 设计依据标注:包括协调单或其他协调类文件; (6) 模型属性标注:包括模型重量、有效性、阶段标识、对称性、对称说明、单元件类别、版次、更改说明等; (7) 工程注释标注:包含通用附注、旗注说明。
几何信息标注与非几何信息标注语义元素两部分包含的内容可以涵盖三维标注中涉及到的大部分元素, 通过基本标注单元的提取, 将整个飞机数字化设计三维标注过程进行归纳, 得到一个具有代表性的简化模型, 以此来代替整个飞机标注操作。
3 本体的形成
数字化设计包括各种概念性、规则性、经验性和过程性的知识, 其中的大部分将通过三维标注展现出来。所以, 三维标注信息的数据模型包含大量的知识内容, 不仅包括产品的几何数据, 还包括设计依据、没学术性、工程注释、过程元素等多方面知识, 是相当复杂的。为方便描述三维标注信息的数据模型, 本章采用基于元数据的方法建立其概念和层次关系。
元数据是帮助查找、存取、使用和管理信息资源的信息。在这个定义里, 元数据既适合于电子资源, 又适合于非电子资源;不仅包括编目信息, 也包括其他存取和管理资源的信息[9]。
采用元数据技术描述三维标注信息本体的概念模型, 主要包括业务元数据、联系对象和数据模型。业务元数据是用来描述有标注对象的信息;数据元数据表达标注文件的属性并指明文件在计算机网络中的存储位置, 数据文件就是数据元数据中指针所指的物理数据。联系对象可以将业务元数据和数据元数据以及数据模型在逻辑上集成为一个整体, 将其组成为完整的标注文件。
下面首先对不同的业务元数据进行定义。
(1) 几何信息业务元数据 (Geometric information Business meta-data, GIBD) , 描述三维模型所涉及的几何标注信息, 包括基准标注、几何图形公差标注、尺寸标注、粗糙度标注、连接定义标注、密封定义标注等方面的标注业务元数据属性。
(2) 数模信息业务元数据 (Mathematical model information Business meta-data, Mm IBD) , 描述三维模型相关的基本对象属性, 包括零部件标识号、名称、更改号、以及处理状态等业务元数据属性。
(3) 过程信息业务元数据 (Process information Business meta-data, PIBD) , 标注过程中所涉及的过程元素, 以及外部参考信息等业务元数据属性。
(4) 数模属性业务元数据 (Mathematical model property Business meta-data, Mm PBD) , 表示数模对应的主要属性信息, 包括模型重量、有效性、阶段标识、对称性、对称说明、单元件类别、版次、更改说明等业务元数据属性。
(5) 规范基准业务元数据 (Specification and Datum Business meta-data, SDBD) , 描述与产品零部件有关的各种各样的资料文件, 如设计标准、设计准则、制造要求等业务元数据属性。
(6) 材料信息业务元数据 (Material information Business meta-data, Mi BD) , 描述数模所对应实体的材料信息, 包括材料的牌号、材料状态和毛料尺寸等业务元数据属性。
(7) 工程注解业务元数据 (Engineering comment Business meta-data, Ec BD) , 描述数模中的工程注解标注信息, 包括注解文本、旗注说明等业务元数据属性。
(8) 审签信息业务元数据 (Audit information Business meta-data, Ai BD) , 描述数模中完整的审签流程信息以及发布信息等业务元数据属性。
与业务元数据对应的为数据元数据, 分别为几何信息数据元数据 (Geometric information Data metadata, GIDD) , 数模信息数据元数据 (Mathematical model information Business meta-data, Mm IDD) , 过程信息数据元数据 (Process information Business metadata, PIDD) , 数模属性数据元数据 (Mathematical model property Business meta-data, Mm PDD) , 规范基准数据元数据 (Specification and Datum Business meta-data, SDDD) , 材料信息数据元数据 (Material information Business meta-data, Mi DD) , 工程注解数据元数据 (Engineering comment Business meta-data, Ec DD) , 审签信息数据元数据 (Audit information Business meta-data, Ai DD) 。不同类型的数据元数据除继承其对应的业务元数据的属性, 同时记录了这些数据文件的格式、使用的系统、在计算机中的储存方式等属性。
通过上文对元数据进行的分析, 对大量的三维标注内容进行总结, 可定义其本体为一个三元组。
其中, C表示标注信息数据中概念实体元素的集合, 描述的是产品数据本体中的概念或类, 与上文所提到的元数据相对应;E表示标注信息数据中概念实例元素的集合, 描述的是产品数据本体中的实体的集合, E集合中的元素E (i) 与C中的元素C (i) 一一对应;R描述标注信息数据中概念间的相互关系, 概念之间关系主要有聚集关系 (“part-of”) , 表达概念实体之间的部分与整体之间关系;继承关系 (“kindof”) , 表达类中的父类与子类的关系;同类关系 (“same-as”) , 表达概念之间为同一类别与层次;实例关系 (“instance-of”) , 表达概念实体与概念实例间的关系;属性关系 (“attribute-of”) , 表达概念实体键的属性关系等。
对标注信息本体的元数据进行定义后, 需要明确其层次关系, 才能完成本体构建。参考文献[10], 结合上文提到的标注信息元数据定义, 得到了三维标注信息基于元数据的数据本体的体系结构, 如表1所示。在该本体的体系结构中, 标注信息数据元模型层主要包括其业务元数据、联系元数据以及数据元数据;模型层主要针对业务元数据、联系元数据和数据元数据进行进一步地分解, 从而得到元模型的实例。实例层描述的是由这些模型层所描述模型的实例组成的具体标注信息实例。
上文中定义了三维标注信息中的元数据的概念, 继续完成其层次关系的定义编完成了本体框架的搭建, 并可以通过概念和关系的填入, 使本体逐渐成形。由于在本体中, 层次关系是最重要的关系, 它确定了概念在本体中的位置, 确定了概念的上下层关系, 因此, 它是关系分析中重要的组成部分。层次关系的确定是一个复杂的过程, 在文献[11]方法的基础上, 首先判断新概念所属的基本概念, 然后从这个基本概念开始, 逐层细化, 不断与此概念的子概念进行比较, 最终确定新概念的层次关系。具体步骤如下:
Step1根据经验, 确定一个包含概念C的基本概念C0。
Step2选取C0的子概念C1i, 比较C与C1i的层次关系。若C1i的概念层次高于C且C1i包含了C, 则取C1i的子概念C2i, 比较C与C2i的层次关系, 以此类推。直到Cni, 转Step3;若C与C1i有相同的层次关系, 则转Step4。
Step3若Cni存在子概念Cin+1, 则转Step5;否则转Step7。
Step4取C1i的层次关系即为C的层次关系, 更新本体。
Step5比较C与Cin+1的层次关系, 若Cin+1为C的子概念, 则转Step6;否则转Step7。
Step6取Cni为C的父概念, 更改Cin+1的父概念为C, 更新本体。
Step7取Cni为C的父概念, 更新本体。
本体模型往往需要囊括一个领域中所有的知识, 强调知识的完备性, 因此本体的建立是一个不断重复、不断迭代的过程。同时, 建立好的本体还需要保证其可扩展性, 能够随着知识的发展变化而不断更新完善, 以符合实际情况, 满足使用的需要。在建立和更新的过程中, 当有新的概念要加入时, 只要重复以上的步骤, 就可以完成相应的工作。
4 应用实例
上面是经过深入分析飞机数字化设计中三维标注知识, 并且对原始数据进行再处理后得到的有关三维标注知识本体的一个数据模型。根据以上分析结果, 参考某型号飞机的翼肋标注内容, 给出了其本体的数据模型, 如图3所示。标注信息本体将某型号翼肋的多方面标注信息联系到一起, 设计人员根据需求在对相似翼肋或对该翼肋改进进行标注时, 只需从这些子数据特性表中选择相应的实例或作出简要修改就可快速、准确地得到满足设计及工艺需求的标注。同样可采取这样的方式描述组成飞机三维设计中的其他钣金件、装配件等。这样就构建成一个完整的三维标注数据模型。该数据模型可方便、准确、快速地为MBD中的三维快速标注提供所需的数据。
为使本体从自然语言的表示格式转化成为机器可读的逻辑表达格式, 从而可以直接被计算机存储、加工、利用, 并且在不同的系统之间进行互操作, 还需要使用本体描述语义对本体进行形式化描述。本文采用框架表示法对三维标注知识本体进行描述, 其BNF (Backus Normal Form, 巴科斯范式) 描述形式如图4。图4中标注知识由两部分组成, <Knowledge Head>是对知识的一般描述, 使知识更易识别, <Problem Domain>是问题描述, 包含了三维标注信息的层次结构和标注内容。
5 结论
本文提出的MBD中三维标注信息数据本体, 能够对飞机三维标注所涉及的元素进行一致性的存储和描述, 可快速为设计者提供有效、准确的标注信息数据。通过对飞机三维标注信息进行分析, 建立了三维标注信息中的元数据, 在此基础上, 形成了标注信息的本体框架, 建立了标注信息知识本体。最后, 给出了某型号飞机翼肋的三维标注信息数据模型。本文通过建立三维标注知识本体, 为MBD中的三维标注信息的快速标注和重用奠定了基础。
参考文献
[1]冯潼能, 王铮阳, 宋娅.MBD技术在协同设计制造中的应用[J].航空制造技术, 2010, 18:64-67.
[2]符磊, 余剑峰, 张杰.基于多级骨架模型的关联设计方法研究[J].锻压装备与制造技术, 2013, 48 (4) :94-98.
[3]周秋忠, 范玉青.MBD技术在飞机制造中的应用[J].航空维修与工程, 2008, 3:55-57.
[4]周秋忠, 查浩宇.基于三维标注技术的数字化产品定义方法[J].机械设计, 2011, (1) .
[5]刘俊堂.全三维飞机设计技术及其应用[J].航空制造技术, 2010, 20 (18) :68-71.
[6]李晓枫, 王仲奇, 康永刚.基于DELMIA的装配过程仿真及其在飞机数字化柔性工装设计中的应用[J].锻压装备与制造技术, 2012, 47 (6) :92-95.
[7]Mike Uschold, Michael Gruninger.Ontologies:Principles, methods, and applications[J].Knowledge Engineering Review, 1996, 11 (2) :93-155.
[8]Fernandz, Mariano.Overview of Methodologies for Building Ontologies[C].In Proceedings of IJCAI99’s Workshop on Ontologies and Problem Solving Methods:Lessons Learned and Future Trends, 1999.
[9]赵庆峰, 鞠英杰.国内元数据研究综述[J].现代情报, 2003, 11 (11) :42-45.
[10]顾巧祥, 祁国宁, 纪杨建, 等.基于元数据的产品数据本体建模技术[J].浙江大学学报:工学版, 2007, 41 (5) :736-741.
产量表现标注责任 篇4
品种的.产量表现,受栽培技术、使用条件等多种因素影响。在品种审定公告里,用参试品种在特定方案、特定时间、特定地点、特定使用条件下的产量平均水平表示其适用性,用相对于特定对照品种增产的百分率表示其先进性,同时用适用性和先进性两个指标表示品种的产量表现。审定公告的产量表现,是一个相对值;是品种在特定的栽培技术、特定的使用条件下已经得到表现的产量。其既不是不管栽培技术和使用条件的放之四海而皆准的“一般产量”,也不是在大田生产条件下可望而不可及的“增产潜力”。
同一个参试品种在各参试点的单产是不同的,有的高于审定公告的平均产量,有的低于审定公告的平均产量,但是,品种在单个试验点的产量表现,不能代表品种的适用性和先进性。个别试验点的产量不一定具有代表性,必须采用田间试验统计方法,计算出多个试验点的平均单产,以平均单产作为对一个品种产量能力的评价值。
不同的品种试验,可以得出不同的试验结论。为评价品种的推广经营价值而进行的包括区域试验和生产试验的品种试验,可对参试品种的丰产性、适应性、抗逆性和品质等农艺性状以及配套栽培技术进行鉴定和验证。对经试验证明具有适用性和先进性的主要农作物品种,由农业行政主管部门发布审定公告;对非主要农作物品种,由农业行政主管部门提供包括品种登记、品种认定、品种鉴定等试验验证的依据。为测定品种的丰产潜力而进行的丰产试验,可对品种的丰产性能和丰产潜力进行鉴定和验证。如郑单958在玉米竞赛中的高产表现,超级杂交稻创造出的高产纪录,都是由丰产试验得出的结论。中国的农民不都具有袁隆平的生产技术,中国的农业生产大田也不都具备丰产试验田的使用条件,销售的种子也不都是育种家种子。品种在丰产试验中的产量表现,不是在农业行政主管部门组织下经多点多年区域试验并在接近大田生产的条件下生产试验证明的结果,不能证明试验品种在推广地区的适用性和先进性,不能证明试验品种的栽培使用价值。农民不具有农业科学家的栽培技术,农田不具有丰产试验田的使用条件,品种在丰产试验中的产量表现,不能标注在种子的销售包装上向在农业大田生产中使用的广大农民“推广经营”。
上述论证,是对种子标签的产量表现不能作类似于“一般产量1.125万kg/hm2左右,具有1.500万kg/hm2的增产潜力”标注的“情理”所在。
美国为何反对标注转基因 篇5
虽然这是“国家级”的法规,但美国各州具有立法权,可以实施与联邦不同的规定。2012年,加州就出现了一份提案,要求对含有转基因成分的食品“强制标注”,而且这样的食品不能称为“天然食品”,这就是引起世界关注的37号提案。这份提案中“豁免”了一些食品,比如有机产品、餐馆食品、酒类、肉类、奶制品以及用于医疗的产品等。
37号提案的目标是引发公众对转基因食品安全的担心。这样的目标,中国的转基因反对者往往通过制造和传播谣言来实现,比如宣称转基因食品“导致断子绝孙”、“致癌”、“ 导致老鼠消失”等等。但在美国,权威性受到全社会尊重的机构国立医学研究院(NIH)、国家科学院(NSF)、农业部(USDA)等,对转基因的态度跟FDA都是一致的。美国的反转人士不敢像中国的同道那样去用谣言来反转,于是把着眼点放在了“公众有权利知道吃的是什么”。用民主权利来影响公共决策,最后迫使FDA妥协,在美国历史上不乏成功的先例 。而“标注转基因”,在世界上的其他国家,甚至可以说是主流。这一诉求一提出,果然得到了广泛的认同。在2012年7月中下旬的民意调查中,支持提案的有61%,而反对的只有 25%。
如果这一提案通过,占美国食品市场主流的大食品公司会最先受到影响。所以,这些大公司纷纷行动起来,向公众宣传这一提案的危害。针对提案的诉求,他们的反对理由主要有:1.目前的制度已经可以保证公众知道“吃的是什么”,比如有机食品就没有转基因成分,而不加以特别标注的就默认含有转基因成分;2.根据政府机构的评估,实施这一法案 需要上百万美元的政府开销,而这最终还是由纳税人承担;3.根据一家咨询机构发表的分析评估,这一法案的实施会增加食品成本,每个家庭每年将不得不多支出几百美元。反对方认为,这份提案“漏洞百出”,“有欺骗性”,而且让一些产品获得不公平的优势。比如这份提案的支持者中,除了“有机消费者基金”之外最大的捐款者是一位“替代医师”,其事迹类似于中国的“养生大师”,他不仅受到主流医学界的批驳,而且多次被FDA警告制止进行虚假宣传。而他的产品,几乎都在“例外”之列。
提案反对方投入的宣传费用超过了4600万美元,而支持方则只有800多万。支持方的主张本来吸引力就不大,在反对方猛烈的宣传攻势下,越来越多的投票者选择了反对的立场——毕竟,跟每年多花几百美元的代价相比,一个不为自己带来实际利益的“权利”吸引力比较有限。在两个月的宣传大战中,民意迅速反转。到了10月下旬,民意调查的结果变成了 39.1%支持,50.5%反对。
2012年11月6日,与总统大选同时进行37号提案投票,印证了“反对37号提案运动”发言人之前说的话:“公众越了解37号提案,就越不喜欢它。”最终结果,加州人民以53%对47% 否决了这个提案。
实际上,美国的反转人士已经先后在十几个州寻求后“转基因强制标注”,都没有获得成功。而加州的这一次,是直接由公众作出的选择。
(摘自《中國周刊》图/冯印澄)
信息标注 篇6
用户逐渐成为互联网资源贡献的主体,由此导致互联网上的资源迅速增长,如何有效管理和组织这些资源逐渐成为用户面临的一个难题。协作标注系统(Collaborative Tagging Systems),即一种允许用户按照自己的理解和喜好选择特定词汇来标注资源、方便用户组织和分享互联网资源、基于Web的互联网系统,就逐渐进入人们的视野,那些被选择的词汇就被称为标签(Tags)[1]。协作标注系统是从2004年初开始发展起来的,比较著名的协作标注系统有Delicious、Flickr、Cite Ulike等[2]。
关于协作标签系统研究的一个重要问题,是系统中资源上的标签分布问题。Golder和Huberman通过研究实际的协作标注系统Delicious中实际运行的数据后发现,不同用户对某一资源上的标签使用情况会在一定的运行时间后达成一致,并且这种一致性会一直随着系统的发展而持续、稳定的存在。Valentin Robu等通过对现实的协作标注系统Delicious中收集到的数据分析,同样发现并验证了协作标注系统上的标签分布是典型的幂律分布,同时利用信息论中的KL距离验证了标签幂律分布产生的动态过程[3]。对于标签分布稳定性出现的机制研究,Harry Halpin等基于已被学界认可的标注三元组理论(UserTag-Resource) 模型[4,5],提出了用户标注行为的一个生成模型,认为用户在对资源做标注时,一方面要考虑自身的组织和检索资源的需求,另一方面也要受其他用户对于该资源所做的标签的影响,但该模型仅仅是在理论上可以解释,缺乏必要的数据分析验证模型本身的合理性[6]。
对于协作标注系统标签分布产生的内在机制,已有的研究或从数据统计分析角度验证了协作标注系统标签分布各种规律的存在,或是提出一些理论模型对各种规律进行解释,但对于基础和关键的用户标注行为并没有做深入的研究。Agent建模的方法,能够将复杂的模型简单化,通过设置一定的交互机制,较好的对现实世界中复杂的模型建模和分析难题。本文结合Agent建模仿真的方法,将仿真程序获取的数据分析结果与现实的协作标注系统收集的数据分析结果进行对比,从而验证本文提出的用户标注机制模型的合理性,以求为以后的相关研究提供一个新的思路。
2 协作标注系统中用户标注机制建模
2.1 信息值模型和优先连接模型
用户在标注具体资源时,综合考虑信息值模型和优先连接模型。
信息值模型是用标签信息值的大小来确定其在用户个人资源集合中检索目标资源的能力大小的模型,针对的是用户个人资源集和个人标签集,其值为0 到1 内的数,值越大则表示该标签在该用户使用空间中检索目标资源的能力越强。该模型相应的假设如下:
(1) 若一个标签t能检索出用户资源集合中的所有资源,则认为该标签的信息值I为0 ;
(2) 若一个标签t不能检索出用户资源集合中任意一个资源,则认为该标签的信息值I为0 ;
(3) 若一个标签t能够检索出用户资源集合中的n个资源,则认为该标签的信息值I为1/n ;
(4) 用户标签集合中不同的标签有着不同大小的信息值,当用户采用联合标签检索用户资源时,联合标签的信息值不等于各个分标签的信息值之和。
下面用一个抽象例子来说明信息值模型的应用。
在本文前面提到的信息值模型中,用户标注行为可以解释为:用户Ux1用标签ty来标注了,其实质就是用户通过一系列的标签来获得一系列的资源。遵从著名的“最小努力理论”,用户往往会在保证检索效率的前提下,注意控制个人空间中标签的总数,因为标签越多管理越费力。在前述例子中,用户u2想用一组标签来检索目标资源r2。在用户标签集合中,标签t1 和t5 都只能检索出唯一的资源,所以二者的信息值I(t1)=I(t5)=1,标签t3 能够检索出数据集中所有的资源,所以其信息值为0,即I(t3)=0,标签t2 和t4 能够分别检索出资源r1、r2 和r2、r3、r4,所以二者的信息值分别为1/2、1/3,即I(t2)=1/2、I(t4)=1/3,而标签t2 和标签t4 联合使用能够唯一检索出资源r2,故I(t2,t4)=1>I(t2) 和I(t4),即说明了联合标签的信息值并不等于各个分标签的信息值之和,见图1。所以,在该例中,用户使用标签t2 和t4 联合检索的效率最高,能够唯一检索出目标资源r2。
注:虚边及虚箭头代表了可能的选择,实边及实箭头代表了特定用户在对阴影资源检索实例的检索行为。
优先连接模型即“富者越富模型”,用户在为资源做标注时,往往会受到该资源上已有标签的影响,并优先选择那些使用次数较多的标签,这样会导致本来使用次数较多的标签使用次数会继续不断增加,已有标签和资源之间的联系会被不断加强。优先连接模型是导致标签出现幂律分布的主要原因。
基于对上述两个模型的理解,本文从用户的标注行为出发,综合考虑信息值模型和优先连接模型,提出了基于用户标注行为的用户标注机制模型,见公式(1):
式(1) 的前半部分体现了信息值模型的作用:用户在为资源做标签时,首先考虑的是自己组织和检索资源的需求, 表示用户空间中特定标签x检索资源能力的大小,其值等于标签x在用户空间中能够检索出的资源数目的倒数,其取值为0 到1 内的数;式(1) 后半部分体现了优先连接模型的作用:用户的标注行为还要受到其他用户对该资源已有的标注标签的影响,即在选择已有标签进行添加时,会在一定程度上受到他人标注情况的影响,具体到某一个标签x可能被标注的概率,R(x) 表示用户空间中已有的对标签x的标注次数,∑ R(i) 表示用户空间中所有的标签的标注次数,P(R(x)/ ∑ R(i)) 表示标签x被选择使用的概率。λ表示平衡参数,调节两个模型之间的比重,使其能够最合理地解释用户的标注行为机制。
2.2 用户标注机制模型框图
在现实的协作标注系统中,用户往往会使用2 到10 个标签来标注一个资源,为简化模型我们假设用户对一个资源只使用1 个标签标注。基于上面的分析,我们提出了用户标注机制模型程序框图( 图2)。
在图2 中用户的一次典型标注过程具体如下:程序每次随机选择一个用户Ui,该用户随机选择一个资源Rj,首先根据资源上的标签维度属性( 资源类的属性为标签)判断该资源是否被标注:
(1) 若该资源Rj从未被标注过,则随机从与资源无关的标签集( 即未标注过该资源的标签集合) 中随机选一个标签k,计算并确认标签k在该用户资源空间Ui中的信息值大于设定的最小信息值,则用该标签k标注该资源Rj,即表示完成一次标注;若该标签在该用户资源空间中的信息值不满足条件,则重新从无关标签集中选取一新标签并加以判断,直至满足条件为止;
(2) 若该资源Rj已被标注过,则分别有一定的概率选择新标签和旧标签,用随机数r表示。
若r>p,则选择旧标签,首先取出标注该资源的标签集合,然后根据模型公式(1) 计算集合中各个旧标签被添加的概率,随机取概率值较大的一个标签k,计算并确认标签k在该用户空间中的信息值大于设定的最小值,则用该标签k标注该资源Rj,即完成一次标注;否则,重新从标签集合中取,直至取得满足条件的标签为止;
(注:与资源无关的标签即为资源的“新标签”)
若r<p,选择新标签,则从与该资源无关的标签集合中随机选取一个标签k,且标签k在该用户空间中过的信息值满足条件,则用该标签k标注该资源Rj ;否则,重新从该无关标签集中选择,直至取得满足条件的标签为止。
基于图2,我们采用JAVA语言编程实现该程序,并获取运行数据用于仿真分析。
3 仿真分析及模型验证
本文设计的仿真程序的参数初始化为:100 个资源、200 个标签、50 个资源、λ 和p取一系列不同的值,分析得到的仿真数据,与获取的现实运行的协作标注系统中的数据分析(Delicious中数据) 结果进行对比。本文从标签幂律分布规律的检测角度对所提出的用户标识机制模型的合理性进行了验证。
在现实的协作标注系统中,占标签系统比例最多的是“非热门标签”,尤其存在很多属于用户私人的、标注次数很少的标签,这些大量的“非热门标签”是协作标签系统不可分割的一部分,对标签系统分布规律的形成有着重要的作用。因此,探讨这些“非热门标签”在标注过程中对标签分布所起的作用及其分布规律,能够验证我们提出的模型的合理性。
图3 表示Delicious中500 个资源的标注次数随时间变化的曲线,即500 个资源上的标注次数总体上都是不断增加的,其中有少部分增加趋势比较明显,这取决于资源本身的特性和其所处的环境不同[3],而对应的仿真程序中由于设定其资源是同质的,且资源选择时又是随机的,所以在运行足够多的步骤数后,每个资源被选中的累积次数是相近的,所以反映在图5 中为一条较为规律的递增曲线。 图4 中,程序一开始热门标签标注次数占标注总次数的比重很大,随着标注次数和标签数目的不断变化,曲线在横坐标为10 的点斜率发生急剧变化,在之后曲线变化规律趋缓,最终趋于一个稳定值,且该稳定值不会随着系统中标签数目和标注次数变化而发生变化。而对应的仿真程序数据分析图6 中,曲线虽然整体上不如图4 中的变化规律明显,但也能看出以横坐标为21 的点为界,前后两部分斜率也存在较大的差异,也能得出热门标签所占标注总次数的比例会随着时间变化而趋于一个稳定值的结论。总之,在上组图中,将图3 和图5 作为对照、图4 和图6 作为对照,分别从标签系统中标注次数比例随时间变化的规律和其中热门标签的标注次数占总标注次数比例随时间变化规律的角度,基于仿真实验数据和真实获取的统计数据的对比分析,验证了本文提出的用户标注模型的合理性。
4 结语
本文针对近年来涌现的协作标注系统进行研究,从用户的标注行为出发,借鉴该领域已有的研究成果,提出了一个用户标注机制模型,并结合Agent仿真建模方法,通过将对模型程序运行得到的数据分析结果与现实的协作标注系统Delicious中数据分析结果对比分析,验证了本文提出的模型合理性,为协作标注机制的相关研究提供了一种新的思路。
摘要:从协作标注系统的用户标注行为出发,提出综合信息值模型和优先连接模型,并建立一个新的用户标注机制模型,同时验证用户标注机制模型的合理性,为进一步开展相关科研工作提供一个新的角度。
关键词:云计算,协作标注系统,用户标注机制模型,Agent仿真
参考文献
[1]Au Yeung,C.M.From User Behaviours to Collective Semantics[D].UK:University of Southampton,2009.
[2]Tony Hammond,Timo Hannay,Ben Lund,et al.Social bookmarking tools(ll):A general review[J].D-Lib Magazine,2005,11(4).
[3]Valentin Robu,Harry Halpin,Hana Shepherd.Emergence of Consensus and shared vocabularies in collaborative Tagging Systems[J].TWEB,2009,3(4):1-34.
[4]C.Marlow,M.Naaman,D.Boyd,et al.Position paper,tagging,taxonomy,flickr,article,toread.In Collaborative Web Tagging Workshop[M].UK:Edinburgh,2006.
[5]P.Mika.Ontologies are us:A unified model of social networks and semantics[C]//In Proc.Of the 4th Int.Semantic Web Conference(ISWC'05).Springer LNCS,2005,3729.
信息标注 篇7
关键词:标注集,词性标注,扩充
一、英语的标注集
目前, 通行的英语标注集有几种, 多数是从Brown语料库中的87个词性标记发展而来的, 常用的标注集有3个, 一是Penn Treebank标注集, 适合于小型语料库, 二是Lancaster大学的自动词性标注集CLAWS5 (C5) , 用于中型语料库, 第三个标注集是应用于大型语料库的CLAWS7 (C7) 。大多数情况下的语料标注都使用Penn Treebank标注集, 因为Penn Treebank标注集是个相对简单的词性标注集, 其标注符号简洁清晰, 易于标注。
二、词性标注
词性标注, 是给语料库中的每个单词指派一个词类或者词汇类别标记的过程, 通常这种词类的符号是特定的符号, 标记通常标在每个单词之后, 中间用斜线隔开, 如:The/DT, nice/JJ, son/N.
词性标记可以根据语料库的不同进行修改, 添加或合并, 如LOB语料库采用了135个词性标记、LLC口语语料库采用197个词性标记等, 其操作的基本原则为:可重获性 (Recoverability) 、一致性 (Consistency) 、句法功能 (Syntactic function) 及不确定性 (Indeterminacy) 。
三、《圣经》标注集的扩充
1、专有名词 (NP)
在Penn Treebank标注集中, NP是专有名词的标注符号, 但是对《圣经》进行标注时, 不能把所有的专有名词都笼统的用NP来表示, 因为《圣经》中即有上帝, 耶稣, 撒旦等表示“神”的专有名词, 也有节日礼节的专有名词, 还有一些专有的地名人名, 因此进行更细致的划分对《圣经》专有名词的研究更具有更大的意义。
2、动词 (VB)
Penn Treebank标注集中对动词的分类较为详细, 如:动词原形VB, 动词的过去时VBD, 动词的过去分词VBN, 因为《圣经》是在公元前12世纪到公元前2世纪完成的, 并在十六世纪以后被逐渐被译成各国文字, 因此在《圣经》中会用用到一些古代英语, 这类词要单独表出来, 古语动词应用/VBO表示, 例如:原形beget/VBO过去式begat/VBDO。另外, 对BE动词和助动词应做进一步标注:
3、代词 (PP)
代词在Penn Treebank标注集中只用PP来表示, 没有对人称代词进行详细的标注, 而对《圣经》的词法进行研究中对人称代词的研究是必不可少的, 因此应对人称代词进行进一步的标注:
4、其他词类
在《圣经》中除了名词、动词、代词以外还有形容词、副词、连词、介词等词类, 而因连词、介词等封闭类词, 在词性标注中有固定的标注符号, 因此不必进行进一步的扩充, 而形容词、副词在《圣经》中的标注较为简单, 可分为褒义词、中性词和贬义词, 只要在Penn Treebank标注集中的形容词、副词标注符号的后面加上数字1, 2进行区别即可 (JJ1为褒义形容词, JJ2为贬义形容词) , 中性词不做任何标记。
参考文献
[1]胡壮麟:《语言学教程》[M]北京大学出版社2001.[1]胡壮麟:《语言学教程》[M]北京大学出版社2001.
[2]冯志伟、孙乐[译]:《自然语言处理综论》[M]电子工业出版社2005.6.[2]冯志伟、孙乐[译]:《自然语言处理综论》[M]电子工业出版社2005.6.
本刊摘要的标注规范 篇8
摘要应着重反映研究中的创新内容和作者的独到观点;不要简单地重复题名中已有的信息。论著类文章摘要的内容应包括研究目的、研究方法、主要发现(包括关键性或主要的数据)和主要结论,一般应写成冠以“目的(Objective)”、“方法(Methods)”、“结果(Results)”和“结论(Conclusions)”小标题的结构式摘要。综述类文章摘要的内容应包括综述的主要目的、资料来源、综述时所选择的研究数目及这些研究是如何选择的、提炼数据的规则及这些规则是如何应用的、数据综合的最重要的结果和结论。可以写成结构式摘要,也可写成指示性或报道-指示性摘要。
中文摘要一般使用第三人称撰写,不列图、表,不引用文献,不加评论和解释。摘要中首次出现的缩略语、代号等,除了公知公认者外,首次出现时须注明全称或加以说明。中文摘要一般置题名和作者姓名下方,摘要前应冠以“摘要(Abstract)”字样。
摘要:<正>摘要应着重反映研究中的创新内容和作者的独到观点;不要简单地重复题名中已有的信息。论著类文章摘要的内容应包括研究目的、研究方法、主要发现(包括关键性或主要的数据)和主要结论,一般应写成冠以“目的(Objective)”、“方法(Methods)”、“结果(Results)”和“结论(Conclusions)”小标题的结构式摘
本刊摘要的标注规范 篇9
摘要应着重反映研究中的创新内容和作者的独到观点;不要简单地重复题名中已有的信息。论著类文章摘要的内容应包括研究目的、研究方法、主要发现(包括关键性或主要的数据)和主要结论,一般应写成冠以“目的(Objective)”、“方法(Methods)”、“结果(Results)”和“结论(Conclusions)”小标题的结构式摘要。综述类文章摘要的内容应包括综述的主要目的、资料来源、综述时所选择的研究数目及这些研究是如何选择的、提炼数据的规则及这些规则是如何应用的、数据综合的最重要的结果和结论。可以写成结构式摘要,也可写成指示性或报道-指示性摘要。
中文摘要一般使用第三人称撰写,不列图、表,不引用文献,不加评论和解释。摘要中首次出现的缩略语、代号等,除了公知公认者外,首次出现时须注明全称或加以说明。中文摘要一般置题名和作者姓名下方,摘要前应冠以“摘要(Abstract)”字样。
摘要:<正>应着重反映研究中的创新内容和作者的独到观点;不要简单地重复题名中已有的信息。论著类文章摘要的内容应包括研究目的、研究方法、主要发现(包括关键性或主要的数据)和主要结论,一般应写成冠以“目的(Objective)”、“方法(Methods)”、“结果(Results)”和“结论(Conclusions)”小标题的结构式摘要。综述类文章摘要的内容应包括综述的主要目的、资料来源、综述时所选择的研究数目及这些研究是如何选择的、提炼数据的规则及这些规则是如何应用的、数据综合的最重要的结果和结论。可以写成结构式摘要,也可写
社交媒体的语义标注应用现状研究 篇10
关键词:语义标注 社交媒体 信息抽取
中图分类号: TP311 文献标识码: A 文章编号: 1003-6938(2013)05-0095-05
1 引言
社交媒体的数据文本短、噪声大,多为对话,数据实时发生,需要基于时间和上下文的即时分析处理。如何实时、有效和经济地去访问和集成这些多语言的数据,是一个严峻挑战,目前的各种技术在准确性、可伸缩性和便携性方面都有所欠缺。
语义标注把语义模型和自然语言结合在了一起,可以看作是本体和非结构化或半结构化文档之间的关联进行双向动态的生成过程,从技术的角度来讲,语义标注是通过参照在本体里的URI的元数据, 从本体(类、实例、属性或者关系等)里标注在文本里出现的概念。使用文本里出现的新的实例去增强本体的方法也称为本体填充。
社交媒体的自动语义标引可以用于基于语义的搜索、浏览、过滤、推荐、可视化分析用户以及用户之间的社交网络和在线行为的语义模型建立,还有其他的应用场合例如知识管理、竞争情报、客户关系管理、电子政务、电子商务等。
目前的语义标注技术主要是针对新闻文章或者其他较为正式、篇幅较长的Web内容,由于社交媒体自身具有内容较短、噪声大、跟时间相关、用户产生内容等这些鲜明的特点,给语义标注技术的发展带来新的挑战。
2 社交媒体语义标注的方式
语义标注可以采用手工、自动化或半自动化等多种方式进行。
Passant等[1]提出了语义微博框架模型,以便用户给博文手动的添加机器可读的语义,该框架也支持通过主题标签与关联开放数据进行连接。Hepp等[2]提出了一个新的对微博进行手工语义标注句法,能映射成RDF语句,该句法支持标签、本体属性,例如FOAF和在同一个微博里多个RDF语句之间关系。尽管手工语义标注具有一定的价值,但是每天腾讯、新浪等百万条微博的涌现,亟需自动的语义标引方法。
信息抽取,作为一个自然语言分析的方式,日益成为在非结构化文本和在本体中的规范化知识之间建起沟通桥梁的关键技术。基于本体的信息抽取就是适用于语义标注的任务,传统的信息抽取和基于本体的信息抽取的一个显著区别就是规范化的本体作为系统的输入和输出,有些信息抽取系统只是把系统输出和本体做一个映射,這些系统严格来讲,应该称为面向本体的系统。基于本体的信息抽取另一个显著的特点是它不仅仅发现被抽取的实体的类型,而且还要把它跟目标知识库里的关于它的语义描述关联起来,通常用一个URI方式识别它,在抽取过程中需要在文档内和文档间进行命名实体、术语、关系等自动识别和共指消解。
关联开放数据资源,例如DBpedia,YAGO和Freebase等已经成为语义标注本体知识的关键来源,也作为用来消歧的目标本体知识库,他们提供了交叉引用、领域无关的数万条类和关系以及数百万条的实例,一个关联、互补的代名词的资源集合,对应于维基百科的条目和其他外部数据的概念和实例,丰富的类层次用于细粒度分类命名实体,而关于数百万实例和对应维基百科条目的链接的知识也是基于本体抽取系统的一个特点。
3 社交媒体语义标注的主要方法
3.1 关键短语抽取
自动抽取出的关键句可以表示出一个文档或文档集的主题,但不能有效的表达论点或者所有的观点,关键短语抽取因此被认为是一种浅表知识抽取,它也作为降维手段,允许系统处理较小集合的重要的术语而不是全文,用于上下文的语义标注和索引。
一些关键词语方法利用了术语共现形成术语的图,边为一对术语共现的距离,给顶点分配一定的权重,W Wu等研究表明这一类的术语抽取方法相对依赖于文本模型的方法,在Twitter数据上表现更优。这些基于图的方法在从Twitter中抽取关键短语之所以取得了良好的效果,原因在于这个领域包括了大量的冗余,有利于形成关键词摘要。但主题的多样性增加了抽取一系列相关和准确的关键词的难度,Xin等[3]在关键词组抽取中结合了主题建模来解决该问题。
当前的相关研究主要是使用该方法来产生新的标签,Qu等[4]在基于词性标签的基础上,从n-gram产生候选的关键短语,然后使用一个监督逻辑回归分类器进行过滤。该方法还可以和分众分类法进一步结合,产生标签签名,例如把分众分类法中的每一个标签和加权的、语义相关的术语联系起来,针对新的博文和帖子,进行比较和排序这些标签,从而推荐一些最相关的标签。
3.2 社交媒体中的基于本体的实体识别
基于本体的实体识别一般分为两个步骤:实体识别和实体联接,实体识别阶段主要根据一个本体识别出文本中出现的所有的类和实例,而实体联接阶段则是使用文本中的概念信息,结合从本体中的知识,来选择一个正确的URI。
3.2.1 基于维基百科的方法
目前实体识别和联接的主要研究都是使用维基百科作为庞大的、免费的、人工标引的训练语料库。典型的目标知识库例如DBpedia和YAGO等都是来源于维基百科,提供了一个实体URI和相应的维基百科页面的直接映射。
基于实体消歧的方法主要是使用一个字典,里面有每个实体URI的标签,包括维基百科的实体页面,重定向(用于同义词和缩写),消歧页(对具有相同名称的多个实体)和链接到维基百科页面时使用的锚定文本。这本词典用于识别所有候选实体的URI,然后把这些候选的URI进行排序,给出一个置信分数。如果在目标知识库里面,没有匹配的实体,就返回空值。
nlc202309030515
一个广泛使用的基于维基百科的语义标注系统是DBpedia Spotlight[5],这是一个免费的可定制的Web系统,它通过DBpedia的URIs标注文本,它的目标是DBpedia本体,包含了三十多个顶级类和272个类,通过显式地列出他们或一个SPARQL查询,来限制哪些类(或者它的子类)用于命名实体识别,这个算法首先通过查找一个来源于维基百科的URI词汇字典挑选候选的实体,然后使用向量空间模型对URI进行排序,每一个DBpedia资源都和一个文档相关联,构建的每一段文字里都使用到在维基百科里的概念。
LINDEN框架[6]在基于维基百科的信息外,还充分利用了YAGO里更丰富的语义信息,这种方法很大程度上依赖于Wikipedia-Miner工具,该工具用来分析有歧义的实体的上下文和发现出现在维基百科里的概念。在TACKBP2009数据集上的评测表明LINDEN超过了所有的只基于维基百科的系统,但目前LINDEN还没有和DBpedia Spotlight在同一数据集进行测试比较。
3.2.2 面向社交化媒体的方法
命名实体识别方法一般都是在较长、较常规的文本上进行训练,当作用在较短和更多噪声的社交媒体内容上的时候,效果较差。面向社交媒体的方法融合了语言和社交媒体专门的特性,尽管每个博文提供了很少的内容,但可以从用户资料、社交网络和回复中发现更多的附加信息。
Ritter 等[7]通过使用Freebase作为一个大规模已知实体来源,提出了命名实体分类的问题,如果没有考虑到上下文,直接进行实体查找和类型分配,只能得到38%的F值,其中35%的实体是歧义的,具有多个类型,而30%的实体没有在Freebase中出现过。如果使用被标记的主题模型,考虑到每个实体字符串出现的上下文和在Freebase类型上的分布,命名实体分类的F值提高到了66%。
Ireson 等[8]研究了在Flickr网站上命名标签的地名消歧问题。这个方法是在Yahoo! GeoPlanet语义数据库的基础上,为每一个地点实例都提供一个URI,与一个相关地点的分类,这个标签消歧的方法利用了其他分配给照片的标签,用户上下文(一个用户分配给他所有照片的标签)和扩展用户上下文(考虑到用户联系人的标签),这种基于社会化网络上下文的使用显著地提高了整体消歧的准确性。
另一个附加和隐藏的语义是微博里的主题标签,Laniado 等[9]详细调查了三千六百多万条微博里的主题标签语义,使用了四种度量指标:使用频率、使用的一致性、稳定性和专门性。这些度量用来决定哪些主题标签可以被用作标示符,连接到Freebase URIs上,通过从分众完成的在线词汇表,添加主题标签的定义,主题标签也可以作为语义信息的附加来源。Mendes等[10]通过简单地在DBpedia里查找,而没有进一步的消歧就完成了语义标注。用户相关的属性和社会关系都在FOAF里了,而语义标注通过MOAT本体来实现。
Gruhl等[11]关注了语义标注的消歧元素,审视了处理高度歧义的情况,例如歌曲音乐专辑的名称。他们提出的方法首先限制用于产生候选的MusicBrainZ本体的部分,通过过滤掉所有在给定文本里没有提到的音乐家的信息,然后运用词性标注和名词词组组块,把这些信息作为支持向量机分类器的输入,在此基础上进行消歧。这个方法对关于三位音乐家的MySpace帖子的语料集做了测试,尽管本体很大,但有关文本很快被找到,具有较高的效能。
3.2.3 商业化实体识别服务
现有大量的商业在线实体识别服务用实体标注文档,给文档指派关联数据URIs,NERD在线工具可以轻松地在用户上传的数据集上进行比较,还可以整合他们的结果,把结果映射到关联开放数据云上。
Zemanta[12] 是一个在线标注工具,最初专门用于博客和邮件内容,帮助用户通过推荐来插入标签和链接。Open Calais[13]是另外一个语义标注的商业化Web服务,Abel等利用它在新聞相关的微博里识别命名实体,目标实体一般是地理位置、公司、人员、地址或联系电话等,而被抽取出来的事件和事实一般涉及以上的实体,例如公司竞争者、联盟等。实体标注包括URL,允许通过http访问在关联数据中的这个实体的更多信息。目前OpenCalais连接到8个关联数据集上,包括它自带的数据库,如DBpedia,Wikipedia,IMDB等,广泛涉及到了本体中的实体类别。Calais的主要局限性是专有的性质问题,例如用户通过Web服务发送文档来进行标注,接受标注的结果,但是他们不能给Calais一个不同的本体来进行标注,或者定制实体抽取的方式。
3.3 情感监测和观点分析
自动情感监测技术主要分为基于词汇的方法和机器学习的方法,基于词汇的方法主要依赖于一个情感词汇库,包含了已知和预先收录的情感术语,而机器学习的方法利用浅表语法或语言的特性。大多数情感和观点分析方法没有或者很少利用到语义,例如把博文分为积极、消极或中性情感,是建立在n-grams和词性信息的技术上。这些方法会导致数据量少的问题。Saif等[14]证明了使用语义概念代替单词能显著提高极性分类的准确性,这个方法使用了AlchemyAPI来进行语义标注,它包括了30个实体类,绝大部分是人物、公司、城市和组织等。这个方法在斯坦福Twitter情感数据集上作了评估测试,性能超过了其他没有使用语义的现有方法。语义标注还可以用来完成挑战性的观点挖掘任务,结合来源于WordNet等上的情感词汇,使用基于规则的实体识别器来识别出微博里的人物、政治团体和所持观点,然后进行语义分析,使用模式来产生三语组,表示出观点持有者和投票意愿。
3.4 跨媒体联接
由于微博内容比较短,如果不参考外部资源的上下文内容,很难被理解,所以需要跨媒体的自动联接。Abel等把微博和当前的新闻故事连接在一起改善微博的语义标注的准确性,探索了一些联接策略:利用出现在微博里的URL,微博和新闻文章的TF-IDF相似性,主题标签和基于实体的相似性(例如OpenCalais识别出来的语义实体和主题)等。Hubmann-Haidvogel等[15]使用在线新闻从Twitter,YouTube和Facebook上汇总关于社交媒体关于气候变化的内容。
nlc202309030515
4 社會媒体的语义标注改进途径
目前的社交媒体语义标注方法有很多的局限性,很多方法就像关键词和主题抽取一样,只能解决浅表问题,而基于本体的实体和事件识别并没有取得在较长的文档上那样高的准确度和召回率。语义标注方法只适用于它们训练和评估的数据,在社交媒体标准数据集的训练算法也是有限的,使用命名实体类型和事件标注的微博条数一般都小于1000条,需要来自不同社交媒体类型更大的共享评测语料集,如果通过传统人工的方法进行,则不可能完成。
4.1 众包
一种改善自动标注的途径是进行众包,ZenCrowd[16]系统把大规模的实体和在Amazon Mechanical Turk上的微任务,能够自动连接到LOD云上的文字部分不交给标引员,只是在难以解决的情况下才咨询标引员,这样显著提高了标注结果。欧盟FP7资助的Xlike项目[17]也尝试众包去解决社交媒体广泛使用的非正式语言的非规则性,提高标注的准确性。Gate Teamware[18]是一个基于网络的协同标注工具,支持分布式团体工作,可以为非专业的标引员进行个性化定制使用。
4.2 利用Web of Data上的海量知识
另一种改善社交媒体语义标注的途径是更好的利用Web of Data上的海量知识,目前大部分局限在维基百科、DBpedia和YAGO上,使用网络数据的一大问题是,由于常用词和停用词的大量使用等造成的歧义,需要自动化的领域分类的步骤,确保特定领域的LOD(关联开放数据)资源被用于标引相关领域内的社交媒体。使用网络数据面临的第二大问题是健壮性和可伸缩性,在面临LOD资源的噪声知识时,在处理有噪音的、语法不规则的语言的时候,能保持一定的健壮性,考虑到Web of Data的规模,设计基于本体的算法时,算法要在维持较高的计算水平的同时,又能有效的加载和查询这些大规模的知识库。最后一个有效利用网络数据资源的障碍是相当有限的可用词汇信息。除了维基百科上的资源,其他的词汇信息大多数局限在RDF标签。这就限制了他们在基于本体的信息抽取和语义标注上的使用。近期很多学者都专注于利用协作完成的维基学科去建设跨语言词汇资源。它包含了很多外来词和新词,并且不断被贡献者社区进行更新,可以在分析用户内容时作参考使用。针对英语和德语,目前正在进行的工作有建立UBY[19],这是一个综合的、大规模、语义-词汇资源,它基于维基百科、WordNet和其他的LOD资源。有些研究还关注基于语言的本体建设,提出把语言信息和本体元素进行关联的模型,这些都为跨语言语义标注系统的建设进行了有益的尝试。
5 结语
尽管社交媒体的语义标注技术还有很多的改进空间,但语义标注的结果已经被应用在从社交媒体流的隐形信息中自动获得用户和社交网络的模型的方法上。为了更好的挖掘出隐含语义信息,处理多噪声的动态社交媒体流,我们需要探索更加稳定、准确的大规模实体和事件识别方法,需要进一步细化意见挖掘算法用于目标识别,解决时间波动性问题,对冲突意见的探测和建模以及意见汇总。
参考文献:
[1]A. Passant, J. G. Breslin, and S. Decker. Rethinking microblogging:open, distributed, semantic[C]. Proceedings of the 10th International Conference on Web Engineering,2010:263-277.
[2]M. Hepp. HyperTwitter: Collaborative knowledge engineering via Twitter messages[C].Knowledge Engineering and Management by the Masses-17th International Confe
rence EKAW 2010,2010:451-461.
[3]W. Xin, Z. Jing, J. Jing, H. Yang, S. Palakorn, W. X. Zhao,J. Jiang, J. He, Y. Song, P. Achananuparp, E. P. Lim, andX. Li. Topical keyphrase extraction from Twitter[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, HLT ’11,2011:379-388.
[4]L. Qu, C. Müller, and I. Gurevych. Using tag semantic network for keyphrase extraction in blogs. In Proceedings of the 17th Conference on Information and Knowledge Management,2008:1381-1382.
[5]Dbpedia Spotlight[EB/OL].[2013-06-02].http://sourceforge.net/projects/dbp-spotlight/.
[6]W. Shen, J. Wang, P. Luo, and M. Wang. LINDEN: Linking named entities with knowledge base via semantic knowledge[C].Proceedings of the 21st Conference on World Wide Web,2012:449-458.
nlc202309030515
[7]A. Ritter, S. Clark, Mausam, and O. Etzioni. Named entity recognition in tweets: An experimental study[C]. Proc. of Empirical Methods for Natural Language Processing (EMNLP), Edinburgh, UK, 2011.
[8]N. Ireson and F. Ciravegna. Toponym resolution in social media[C]. Proceedings of the 9th International Semantic Web Conference (ISWC),2010:370-385.
[9]David Laniado and Peter Mika. Making sense of Twitter[C].International Semantic Web Conference(1),2010:470-485.
[10]P. N. Mendes, A. Passant, P. Kapanipathi, and A. P. Sheth. Linked open social signals[C]. Proceedings of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2010:224-231.
[11]D. Gruhl, M. Nagarajan, J. Pieper, C. Robson, and A. Sheth. Context and Domain Knowledge Enhanced Entity Spotting in Informal Text[C]. Proceedings of the 8th International Semantic Web Conference (ISWC’2009), 2009.
[12]Zemanta[EB/OL]. [2013-06-03]. http://www.zemanta.com.
[13]Opencalais[EB/OL].[2013-06-03]. http://viewer.opencalais.com/.
[14]H. Saif, Y. He, and H. Alani. Alleviating data sparsity for Twitter sentiment analysis[C]. Proceedings of the #
MSM2012 Workshop, CEUR,2012.
[15]A.Hubmann-Haidvogel,A. M. P. Brasoveanu, A. Scharl, M. Sabou, and S. Gindl. Visualizing contextual and dynamic features of micropost streams[C].Proceedings of the #MSM2012 Workshop, CEUR, 2012.
[16]G. Demartini, D. E. Difallah, and P. Cudré-Mauroux. Zen-Crowd: Leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking[C].Proceedings of the 21st Conference on World Wide Web, 2012:469-478.
[17]Xlike[EB/OL].[2012-06-05]. http://www.xlike.org/.
[18]Kaling Bontcheva, Hamish Cunningham, Ian Roberts, Angus Roberts, Valentin Tablan, Niraj Aswani, and Genevieve Gorrell. GATE Teamware: A Web-based, Collaborative Text Annotation Framework[J/OL]. [2013
-06-03].http://eprints.whiterose.ac.uk/75937/.
[19]Iryna Gurevych, Judith Eckle-Kohler, Silvana Hartmann, Michael Matuschek, Christian M. Meyer, and Christian Wirth. UBY: A large-scale unified lexical-semantic resource based on LMF[C]. 13th Conference of the European Chapter of the Association for Computational Linguistics, 2012:580-590.
作者簡介:刘振(1979-),男,中科院文献情报中心、中国科学院大学博士研究生,徐州工程学院讲师,研究方向:文本挖掘、知识组织。
本刊摘要的标注规范 篇11
摘要应着重反映研究中的创新内容和作者的独到观点;不要简单地重复题名中已有的信息。论著类文章摘要的内容应包括研究目的、研究方法、主要发现(包括关键性或主要的数据)和主要结论,一般应写成冠以“目的(Objective)”、“方法(Methods)”、“结果(Results)”和“结论(Conclusions)”小标题的结构式摘要。综述类文章摘要的内容应包括综述的主要目的、资料来源、综述时所选择的研究数目及这些研究是如何选择的、提炼数据的规则及这些规则是如何应用的、数据综合的最重要的结果和结论。可以写成结构式摘要,也可写成指示性或报道-指示性摘要。
中文摘要一般使用第三人称撰写,不列图、表,不引用文献,不加评论和解释。摘要中首次出现的缩略语、代号等,除了公知公认者外,首次出现时须注明全称或加以说明。中文摘要一般置题名和作者姓名下方,摘要前应冠以“摘要(Abstract)”字样。
摘要:<正>摘要应着重反映研究中的创新内容和作者的独到观点;不要简单地重复题名中已有的信息。论著类文章摘要的内容应包括研究目的、研究方法、主要发现(包括关键性或主要的数据)和主要结论,一般应写成冠以“目的(Objective)”、“方法(Methods)”、“结果(Results)”和“结论(Conclusions)”小标题的结构式摘要。综述类文章摘要的内容应包括综述的主要目的、资料来源、综述时所选择的研究数目及这些研究是