非结构化流程图

2024-07-13

非结构化流程图(共3篇)

非结构化流程图 篇1

在数据分析行业, 大致的统计是, 世界上约80%的数据都是非结构化数据。此前, 数据分析对象绝大部分是结构化数据, 比如姓名、性别、年龄这些信息, 可以以Word, Excel等形式呈现的数据。而非结构化数据是更加“莫可名状”的:它们通常藏在我们的聊天记录、邮件、发布的图片、语音以及视频中。

在中美两国科技界对未来技术的甄选中, 大数据分析通常位列其中, 而非结构化数据又被认为是大数据产业的一个核心。目前, 国内的现有数据绝大部分是结构化的, 对于非结构化数据的分析处在“有概念、无工具”的状态。

点评:大数据分析, 特别是对非结构化数据的分析, 是未来技术发展的方向。对于非结构化数据的分析工具来说, 电商平台海量的商家数据、客户评论就是一个富矿。如果利用好这些非结构化数据, 未来就能打开庞大的市场。

非结构化流程图 篇2

陈英副司长在讲话时表示, “大数据”已经成为当今信息领域一个新的热点, 此时成立标准工作组正当其时, 工作组的成立是我国软件行业的一件大事。他要求工作组力争在非结构化数据管理领域不但制定出适合当前产业需要和技术发展的国家标准, 同时也要使我国的标准化成果能够走向国际, 影响国际标准化的进展, 体现中国的实践, 发出中国的声音。

四位院士对工作组的成立给予了充分肯定, 对工作组的未来工作提出期望。他们一致认为, 非结构化数据管理对于“大数据”时代具有重要意义, 在文化教育、数字传媒、医疗保障、社会管理、互联网服务、电子政务、电子商务、企业高端信息应用服务以及行业应用等国家社会经济的重要领域都有着广泛的应用前景。“大数据”是当前全世界都在关注的技术领域, 在非结构化数据管理标准化工作上, 我国和外国同行站在同一起跑线上。他们希望我国的标准化工作一定要从中国的实际情况出发, 积极把握国际标准动态, 切实提高国内非结构化数据管理标准水平, 促进产业和应用的发展。

据悉, “十一五”期间依托国家“核高基”科技重大专项“非结构化数据管理系统”课题, 北京航空航天大学、清华大学、浙江大学等课题承担单位紧密围绕国家、社会和产业需求, 突破了四面体数据模型、分布式柔性事务模型以及跨媒体计算理论及方法等一批非结构化数据管理的核心技术, 成功研制了三款自主的非结构化数据管理系统产品, 并应用于多媒体数据管理、数字图书馆、舆情分析、中国科技资源共享服务平台、智能交通信息服务、流程工业集成、航空航天制造服务、医学影像数据处理等若干重大领域。

为凝练、固化“核高基”重大专项课题的研究成果, 推动非结构化数据管理技术与产业的发展, 2012年3月31日, 经全国信息技术标准化技术委员会2012年第一次主任会议批准成立“非结构化数据管理标准工作组”。工作组负责制定和完善我国非结构化数据管理领域的标准体系, 制定我国非结构化数据管理相关国家标准, 并对口ISO/IEC JTC1/SC32/WG4国际标准化组织。该工作组组长由北京航空航天大学计算机学院院长马殿富教授担任, 工业和信息化部软件服务业司副司长陈英、中国工程院院士潘云鹤和孙家广、中国科学院院士李未和梅宏担任工作组顾问, 秘书处设在中国电子技术标准化研究院。

工作组组长马殿富表示, 工作组将系统深入地研究非结构化数据管理领域的标准体系、制定非结构化数据管理体系结构、数据模型、特征抽取、语义标注、查询语言、应用模式以及相关数据挖掘和系统集成等国家标准, 以及与关系型数据库等的互操作标准;支持非结构化数据管理产品开发商产品研制, 提出面向不同领域和应用服务的非结构数据管理规范, 支持高端信息应用服务企业产品系统开发;建立基于国家标准的非结构化数据管理公共测试平台;提供非结构化数据管理标准应用实施的咨询服务。同时, 我们也要注重非结构化数据管理工作组与国际相关标准化组织联系, 推进我国的非结构化数据管理标准在国际相关标准化组织推广。

非结构化文档的标记方法研究 篇3

1 基于Dublin Core的外表特征标记

本文参考了DC (Dublin Core, 都柏林核心集) 的15个核心元素, 剔除若干不需要的元素, 保留了其中的主要元素:标题Title、作者Author、日期Date、标识符Identifier和格式Format, 同时结合企业环境需要增加了3个元素:

Document Department:与文档相关的部门。企业是一个按职能划分的系统, 文档可来自不同的部门, 且会带有明显的部门特征, 增加这个元素, 可以更好地对文档进行归类管理。

Document ID:文档编号, 对文档按照统一的编码方式进行编码。

Access Control:权限控制。企业中对于权限的设置十分严格, 查看、修改、删除都必须有相应的权限, 增加权限控制项可满足企业安全管理需要。

2 基于语义标注的内容特征标记

要对文档进行内容标记必须对文档进行全面的内容理解, 这种理解是通过语义标注来实现的。语义标注, 就是利用本体中定义的词汇来显示揭示和表达文档中的内容, 主要可分为命名实体识别和实体关系识别。

经过语义标注之后, 即可形成关于源文档的标注文档。标注文档中的词汇能在一定程度上表达文档的内容, 但其没有对这些表达文档内容的词汇进行排序, 所以无法判断哪些词汇更能表达主题。本文采取的方法是:通过词汇之间存在的语义关系来计算词汇的语义加权值, 来表示词汇所能反映主题的程度, 下面先介绍下计算语义权重值过程中涉及到的几个定义:

上位词:同一本体中, 父概念是其子概念和实例的上位词, 父属性是子属性的上位词

词频:将词汇i在文档中出现的频数为词汇i的词频, 一般可记为frei。

影响值:文档中的两个词i和j, 若i是j的上位词, 那么称对i有影响, 否则无影响, 并j对i的影响程度称为影响值, 记作

具体语义加权值计算方法如下:首先将文档中包含的领域词汇的权重值weight[i]初始化为相应词汇的词频frei, 然后再按照词汇之间存在的上下位关系, 对权重值进行更新和叠加, 若在文档中存在该词汇的上位词, 则直接将影响值加到上位词的权重中;若不存在, 则将上位词加进来, 并初始化其权重值为该词汇对其的影响值, 具体计算公式如下:

经过加权语义标注后再综合考虑, 内容标记元素包括:分类Class、主题Subject、相关主题Related Subject、带权值的特征词汇Weighted Key Words、特征词汇所在的句子的摘录Key Sentences。

3 标记语言Schema设计

前面已经通过DC和语义标注完成了对非结构化文档在外表特征标记和内容特征标记两方面的研究, 接下来就是分析如何对这些标记进行完整的描述并形成一个完整的XML Schema规范, 并按照此Schema来填充和校验非结构化文档标记。

本文设计的标记Schema结构如下:MarkupLanguage为根元素, 以下再包含Head、Body及Foot三个子元素, 各子元素再往下细分。Head包含的是关于标记文档本身的一些管理控制元素, 以实现对标记文档自身的有效管理和应用, 具体元素有:作者、日期、语言、版本信息、权限控制、生成工具及所用的本体等;body元素是标记文档的主体, 包括外表特征和内容特征两个元素, 具体子元素前面已说明;Foot则包含了一些补充信息, 如版权和联系方式等。

文中的Schema文件、结构图和具体的XML标记文档, 都可以通过XML SPY工具软件来编写, 本文所采用版本为XML SPY2006企业版中文破解版。

4 小结

本文构建的非结构化文档标记方法重点是两方面:基于DC的外表特征元素和基于语义标注的内容特征元素, 之后添加了一些管理控制元素, 形成完整的Schema规范。对于文档的标记都按照Schema设计的元素规范来填充, 形成统一结构化的描述, 实现非结构化向结构化的转换, 以便进行下一步组织/存储, 实现更高层次的应用。

参考文献

[1]张德政, 张萍萍.非结构化信息管理[J].微计算机信息, 2006, 22 (9) .

[2]张晓艳, 王挺, 陈火旺.命名实体识别研究[J].计算机科学, 2005 (4) .

[3]刘建华, 张智雄.基于Stanford Parser的实体间关系识别[J].现代图书情报技术, 2009 (5) .

上一篇:低碳保定下一篇:高校简介