文档格式

2024-06-16

文档格式(通用8篇)

文档格式 篇1

办公软件是一类应用广泛的基础软件,用于对文档信息的处理。文档格式是关于文档信息逻辑结构和物理存储结构的定义,是办公软件文档信息交换的重要基础。目前,办公软件的文档格式主要有三项标准,分别是我国国家标准“标文通”(GB/T20916,也称UOF)[1],国际标准ODF (ISO/IEC26300)[2]和OOXML (ISO/IEC 29500)[3]。

随着“核高基”科技重大专项“办公软件文档格式标准研制与测试”课题的实施以及“标文通”制修订计划项目的立项,我国将启动对“标文通”的修订工作。为了确定“标文通”修订工作在专利和知识产权方面的工作策略,需要检索、统计和分析文档格式相关的专利,并分析其对“标文通”系列标准研制和实现的影响。

1 技术路线

专利分析的技术路线如图1所示。

专利分析工作分为四个阶段:方案论证阶段、专利检索阶段、专利分析阶段和形成报告阶段。

(1)方案论证阶段

科学的检索方案是保证检索结果全面性和准确性的重要保障,为保证查全性和查准性,课题组与专业的专利检索机构共同制定检索方案,并组织专家对检索方案进行论证。

(2)专利检索阶段

专利检索严格按照检索方案进行,按照IPC分类号和关键词筛选进行专利检索。为确保查全性和查准性,采用背对背双查方案,相互验证。

(3)专利分析阶段

专利检索仅获取了目标专利,建立了专利库。尚需深入分析专利对文档格式标准研制及产品实现的影响。为保证专利分析的科学性和客观性,组织办公软件厂商对专利进行综合分析,并根据每个厂商的技术路线进行针对性分析。

(4)形成报告阶段

通过专利分析形成了分析报告草案,为保证分析报告的权威性,引入第三方评审。通过向第三方征求意见、组织专家评审进一步完善分析报告,形成最终的分析报告。

2 专利检索

2.1 专利检索方法

文档格式专利检索方法如图2所示。

对办公软件文档格式相关专利的检索采用了关键词和国际专利分类号(IPC)相结合的方式进行。在中文库的检索中,以文档、XML、文档格式、文档处理等为关键词,结合国际分类号G06F17/21、G06F17/24、G06F17/20、G06F17/30、G06F9/45、G06F9/44,并以申请人为入口对中文文献进行补检,经过数据筛选、处理后最终得到相关专利文献。

同时,为保证办公软件专利服务项目检索数据的全面性、准确性,对第一阶段检索结果,通过相关引文数据进行扩展,包括发明人引文数据及审查员引文数据。通过第一阶段检索到相关度较高的中英文专利文献,对其中的发明人引文及审查员引文数据进行深度标引,提取出中文专利文献中的发明人引文和审查员引文中的相关专利数据。

对检索得到的中文和外文数据进行处理,包括去重、筛选、同族处理、摘要整理等。

2.2 专利检索目标

本次专利分析的检索目标是办公软件三大应用(文字处理Word Processing、电子表格Spreadsheet、演示文稿Presentation)的文档格式和功能实现相关的专利,特别是与微软、IBM、Sun公司相关的专利,以及与基于XML的文档处理相关的专利。专利检索所涉及的专利限于2010年之前申请的专利,其中部分2008年、2009年申请但尚未公开的专利不在检索范围内。

2.3 专利检索数据源

针对上述检索目标,课题组咨询了专利检索领域的专家,确定采用中国专利文献数据库(CPRS)作为检索中文专利的数据源,采用欧洲专利局专利文献数据库(EPODOC)及德温特世界专利索引数据库(WPI)作为检索英文专利的数据源。

2.4 中文库检索

(1)按分类号检索

本次专利检索所关注的主要分类号包括:G06F17/21、G06F17/24、G06F17/20等。

(2)按关键词检索

本次专利检索所关注的主要关键词包括:办公软件、文档、格式等。

(3)按申请人机构代码检索

本次专利检索所关注的主要组织机构代码包括:Microsoft、IBM、SUN、金山和永中科技。

2.5 外文库检索

在外文数据库的检索中,采用关键词结合国际分类号、关键词结合申请人、国际分类号结合申请人的检索策略,以XML+Microsoft/IBM/Sun Microsystems、G06F17/24+Microsoft/IBM/Sun Microsystems、G06F17/21+Microsoft/IBM/Sun Microsystems等作为检索式进行检索,并采用其他检索方式进行补检,进行数据筛选、过滤处理之后最终得到相关专利文献。

2.6 专利检索结果

经对中国专利数据库及国外专利数据库的检索,得到与办公软件相关的专利3 154项,其中Microsoft、IBM、SUN三家公司专利数分别是1 019项、1 212项、197项,占总数的77,占据着主要申请人的地位。另外,检索结果中2 800项专利在国外申请、354项专利在国内申请,国内申请的专利中多数为外国企业在中国申请,本土企业及科研机构申请数量极少,不足1。

3 专利分析

3.1 专利分析方法

专利分析主要包括两种方法,分别是专利统计分析和专利技术分析。专利统计分析主要对专利库中的数据进行专利现状统计,形成申请量统计等状态图。专利技术分析主要通过技术专家对各条专利的摘要及全文进行技术研究,将专利映射到文档格式、产品实现及文档处理几大分类的各个子类,并分析该专利对标准研制或产品实现的具体影响。

3.2 专利统计分析

本次专利分析主要从分类号统计排序、国别统计排序、专利权人统计排序、年度申请量统计、国别-年度申请量统计、专利权人-年度申请量统计、国别(中国)-专利权人统计和国别(中国)-年度申请量统计等八个维度进行统计分析。限于篇幅,下面仅给出三个统计分析图。

图3展示了Microsoft、IBM、SUN在国际专利分类号IPC G06F17/21、G06F17/24、G06F17/20、G06F17/30、G06F9/45、G06F9/44下的专利申请对照图。

图4展示了2000年以来历年办公软件文档格式领域专利申请量,可见2005年达到峰值。从图4中可以看出,2005年左右国内外办公软件文档格式领域的技术研究水平达到了成熟阶段,之后该领域的专利申请量呈现缓慢增长的趋势。由于专利申请通常是在18个月之后公布,因此专利申请量的统计存在年度误差。但可以肯定的是,随着新技术的不断发展和用户的不断需求,办公软件文档格式领域的专利申请仍将保持快速增长。

图5展示了2000年以来历年Microsoft、IBM、利申请图。从图5中可以看出,相比而言,IBM的申请量呈现行业领先趋势,仅在2004~2007年Microsoft申请量超越了IBM。SUN申请量相对较少。

3.3 专利技术分析

为了深入进行技术分析,需要将检出的专利映射到文档格式相关的技术领域。本次分析主要将专利映射到置标语言处理、文字处理、电子表格、演示文稿、图形、办公软件界面和办公软件存储等七个领域。下面以文字处理领域为例,给出技术分析结果。

3.3.1 功能分析

文字处理作为文档编辑和排版软件,主要用于编辑文字图形、图像、声音、动画,还可以插入其他软件制作的信息,也可以进行图形制作、编辑艺术字、数学公式等各种文档处理要求。文字处理的功能如下:

(1)具有中英文输入、编辑、排版和打印等功能;

(2)创建“所见即所得”的文档;并提供字符和段落的字体、大小、颜色、左对齐、右对齐、居中对齐、两端对齐、横排与竖排、段落间距设置等多种格式编辑功能;

(3)具有图文混排功能;

(4)在文档中设置项目符号、段落名称和项目或段落的数字编号,并具备自动更新功能;

(5)提供表格、自选图形、艺术字和商业图表功能;

(6)在文档中插入域的功能;

(7)在文档中设置书签和插入超链接的功能;

(8)在文档中插入注释、脚注和尾注;

(9)生成索引与目录;文字处理可以根据各种特殊标记,自动生成文档的目录和索引;

(10)提供文档保护,提高了文件的安全性;

(11)提供稿纸、信笺的编辑和打印功能,满足中国人特有的写作需求。

3.3.2 专利分析

数据源中文字处理相关专利198项,主要包括编辑方法、文档布局、文档管理、字体字符处理、拼写纠错、文本或图形信息获取与识别、格式转换等方面,其中英文专利163项,中文专利35项,按照申请年限分布如表1所示,对办公软件实现的影响级别如表2所示。

本次专利分析检索了与办公软件三大应用(包括文档格式和功能实现)相关的2010年前申请的专利,检索的数据源包括中国专利文献数据库、欧洲专利局专利文献数据库及德温特世界专利索引数据库,共检出3 154项专利。通过对检出专利的分析可以看出:(1) Microsoft、IBM和Sun公司在办公软件领域的专利申请中占据着较大份额;(2)我国办公软件企业及科研机构在办公软件领域中申请的专利较少,需进一步加强;(3)大部分专利与文档格式标准无直接联系,专利主要集中于功能实现的方法上;(4)随着Web Office的兴起,会出现新一轮专利申请高峰期,需密切关注该领域的专利申请。

摘要:为确定“标文通”修订工作在专利方面的工作策略, 需检索办公软件文档格式相关的专利, 并分析其对“标文通”修订工作的影响, 阐述了办公软件专利分析的四阶段技术路线, 并重点分析了专利检索和专利分析的技术方案和实施方法。

关键词:办公软件,文档格式,标文通,专利,专利检索,专利分析

文档格式 篇2

标题二号 楷体GB2312 加粗 居中

正文字体统一为四号 楷体GB2312(或者宋体 小四),正文中出现的英文字符以及数字统一为Times New Roman。行距为固定值25磅。段落首行缩进2个字符,一般段前段后间距无需调整。正文字体大小具体分为以下:

1、章(即为计划或总结的摘要、简介等)字体为

二号黑体加粗居中

2、节(即为章下面的小标题)数字字符为

Times New Roman 三号;文字字体为楷体GB2312 三号

3、小节(即为节下面的各项小标题)数字字符为Times New Roman 四号;文字字体为楷体GB2312 四号

文档中的图表说明文字统一为五号宋体,参考文献的具体内容为小四,楷体。如果文档中含有附件,则其“附件”字体为宋体四号,各附件的名称为宋体小二加粗。各附件的具体内容为四号字体。

页面设置的要求:上下页边距为2.54厘米;左右边距3.18厘米。备:“目录”两个字

二号 黑体 加粗 居中;

产学研 齐聚商讨文档格式新方向 篇3

会上中国软件行业协会副理事长赵小凡指出,“十二五”规划把信息技术放在很重要的位置,在高新技术产业中有七项,其中第一项就是信息技术。他同时强调,信息很重要的表现就是以文档形式保存,所以研究文档是非常重要的。

众所周知,UOF是国家发起制定的标准,面对成为事实标准的微软office文档格式,以及开源的Open Office文档格式,人们不禁会有所怀疑:国产UOF可以获得成功吗?

本次大会上,来自学术界、产业界的各位代表都带来了自身研究UOF的新进展,据永中软件的技术经理宋学永介绍,目前他们已经针对国内文档标准推出了一套整合方案,并表示:“UOF虽然现在只是国家标准,但将来一定会成为市场标准。”

中文办公软件文档格式标准探究 篇4

关键词:文档格式,格式标准,UOF

UOF(Uniform Office-document Format),全称为“统一办公文档格式标准”,是基于XML置标语言、拥有自主知识产权的中文办公软件文档格式国家标准。

UOF以中文办公软件的普遍需求为出发点,合理解决了各国产中文办公软件间的差异性,形成了适合中文应用的、涵盖了从文档逻辑内容到显现格式、合理完整的技术体系架构,奠定了办公软件文档信息交换的基础。

1 中文办公软件文档格式与文档标准

1.1 格式与标准的制约模型

办公文档的格式标准是一个影响着办公文档编辑程序复杂度及显示质量的重要问题。办公软件的文档格式与格式标准之间存在着制约模型,如图1所示:

文档格式的标准严格控制着文档格式的定义,而格式的定义决定着格式的封装和解析,并同时受封装与解析的影响。 而作为文档格式标准,本身应该符合一定的准则,这样才能有更好的性能[1]。

1.2 UOF标准满足的若干准则

1.2.1 开放性

采用开放文档格式标准的意义在于确保用户的信息拥有权,实现信息的共享和互操作性。一个开放的文档格式标准,保证了用户文档中不会存在一些隐藏信息,可以保证任何用户今天保存的文档不会在未来因为技术因素而无法存取。这一点对于政府部门等机构来说具有非常重要的实际意义。

1.2.2 互操作性

在信息时代里,文档是信息的重要载体。但是这种重要性也是一种限制,资料始终是需要传阅的,该文档资料使用保存资料的该版本的办公套件才能阅读,而用其它版本的套件根本无法阅读。因此作为文档格式标准,必须解决文档的互操作问题。这不仅涉及到不同操作平台下文档格式的互操作,也涉及到统一操作系统平台上不同厂商的文档格式的互操作。而互操作性的实现,从很大程度上取决于开放性。

UOF就是因其开放性,各个办公软件厂商都能很清晰的了解到UOF格式的架构及源码,这很好的解决了互操作的问题,在促进文档的互通互换的同时,也实现了不同系统之间的集成,使得在多种环境之下的实现和部署更具有灵活性和可靠性,如此一来,用户存储数据的形式就有了更多的选择,而不是依存于某个单一厂商。

1.2.3 兼容性

事物都是不断发展的,文档格式也不例外,这就要求同种文档格式的不同版本要具有兼容性,对于这一点,更多地是需要解释程序的支持。当然格式标准需要对文档格式的兼容性做出定义,以延长文档格式的寿命。

另外,UOF与当前世界上主流的其它办公文档格式,OO XML(Microsoft Office Open XML Format)与ODF( OASIS Open Document Format)的兼容,对于UOF的今后的发展将起到关键作用。由于它们都基于XML置标语言,都基于三种应用——text、spreadsheet、 presentation;在主体层面上都有一些功能涉及,因此它们有相关的属性结构,句、文字段落等,很多方面可以做到一一对应。从这些可以看到,三者是可以融合的。

1.2.4 扩展性

可扩展性是考察文档格式是否良好的一个重要指标。文档格式如何在保持其基本特性不变的情况下增加对新的内容的支持,是可扩展性所要考虑的问题。可扩展性同时也影响了文档格式的兼容性方面的表现。

UOF是基于XML置标语言、采用了协会标准组织W3C定义的XML Schema作为模式定义语言、拥有自主知识产权的中文办公软件文档格式国家标准,在整个模式文档的描述上,UOF更多采用元素定义。多用元素而少用属性虽然增加了模式文档的大小,但是却增加了模式应用的灵活性和扩展性。

2 UOF文档格式框架及存储结构

2.1 文档结构

UOF文档格式中基本文档的正文部分的结构采用了XML的结构,具有结构化的优点。

UOF格式文档标准的根元素为UOF,在UOF格式标准里,根元素UOF顺序声明了元数据、书签集、链接集、式样集、对象集、用户数据集、文字处理(或电子表格或演示文稿)、扩展区、数字签名等子元素,涵盖了文字处理、电子表格和演示文档三种办公应用共同具有的基本要素,根元素UOF的层次结构如图2所示:

其中,元数据用来提供有关文档的基本属性说明,UOF文档格式中的元数据作为根元素UOF的子元素存储在基本文档中的文档属性信息段中,每条元数据以标记开始,并以标记结束,其中包含了标题、创建者、创建日期、编辑次数、编辑时间、字数、页数、段落数等文档的基本属性说明。UOF文档格式的元数据信息段是可扩展的。

而书签集、链接集、对象集、用户数据集、扩展区、数字签名这几个元素是可选的,它可以在包含元素UOF中出现,也可以不出现,书签集、链接集分别是书签和超级链接的集合,对书签集与链接集实行统一管理,可以方便用户进行检索和引用;式样集是式样的集合,包括字体、句、段落、文字表、单元格等对象的式样。在UOF格式标准中,式样集由复杂类型式样表类型定义;对象集是文档中使用的图形、OLE等各种对象的集合,对其进行统一管理,可方便文档中的对象引用,同时减少文档的存储空间;用户数据集是对用户数据的支持,用于电子公文等应用。

文字处理(或电子表格或演示文稿)分别是UOF标准中对文字处理应用(或电子表格应用或演示文稿应用)文档格式描述,在UOF格式规范中,这三种元素是作为选定组定义的,即允许且仅允许此选定组中包含的一个元素出现在UOF中。

图3显示了文字处理的层次结构,其格式主要由“字:文字处理文档类型”定义。

其中,“公共处理规则”包含了文档的全局设置、批注、修订信息、文档用户等内容;“主体”是文字处理文档主体部分格式的描述,其有四个子元素,即分节、逻辑章节、段落和文字标。

“分节”是两个章节的分割,一个文档至少有一个分节,且文档最前处必须有一个分节,它只含一个子元素,即“节属性”,描述紧随分节的章节的页面属性。

“段落”声明了六个子元素,“段落属性”、“句”、“域开始”、“域代码”和“删除”。其中“段落属性”描述段落的格式信息,它可以不出现,若出现,则必须作为段的第一个子元素;子元素“句”主要用来描述文本信息,包括“句属性”、“脚注”、“尾注”、“文本串”、“锚点”、“制表符”、“换行符”、“分栏符”、“空格符”、“分页符”、“引文符号”、“区域开始”和“区域结束”共十三个子元素。“句属性”描述句子的格式信息,同样,其若出现,则必须作为句子的第一个元素,“文本串”就是纯文本流,即句子的文本内容,一个句子可有多个文本流。元素“段落”不仅可以用于“主体”类型中,还可用于“逻辑章节类型”、“字:页眉页脚类型”等。

“逻辑章节”含四个子元素,“逻辑章节”、“分节”、“段落”、“文字表”,由此可以看出,章节支持逻辑章节结构。

2.2 UOF文档存储结构

UOF格式文件存储格式的基本结构如图4所示,包括XML文件、用户定义XML文件、二进制文件(文档外部引用的多媒体文件)以及文件定位信息(存储文件包中组成模块的位置信息)。

XML文件和用户定义XML文件都是XML文件。XML文件是一个纯文本结构树,由前述的文档格式规范定义,用以描述办公软件文档的基本信息。XML文件可以压缩,也可以不压缩,由用户自行决定。当压缩时,XML文件(包括内嵌的Base64编码数据)一并采用文本文件用的压缩方法。压缩后的文件,也由文件头和文件数据构成。用户定义XML文件是用户定义的逻辑格式文档,与XML文件通过标志符关联,提供了办公软件文档支持用户定义逻辑格式的途径。

文档中对于多媒体文件的处理采用两种方式。一种是内嵌的Base64编码多媒体数据;另一种是外挂多媒体数据文件。对于外挂多媒体数据文件方式在存储结构中就会出现二进制文件块。

为了表示存储结构中各个模块的位置,在存储结构中包括了文件定位信息。

图4中的二进制文件File1至Filen,是UOF的外挂多媒体数据文件,由文件头信息和文件数据信息组成。可以通过文件的文件头信息定位各个文件。XML文件的外挂文件通过内部文件名进行关联[2]。

3 UOF格式特点

3.1 内容与表现的融合

UOF建立在可扩展置标语言XML基础之上,采用协会标准组织W3C定义的XML Schema作为模式定义语言,置标语言产生的一个初衷是要做到文档内容和表现的分离。然而,UOF作为文档编辑工具使用的文档记录格式,一方面要尽可能地支持“所见即所得”的友好的编辑风格,这要求格式与内容混合编排;另一方面为了支持与其它应用的集成,还要做到格式与内容分离,这两者本身存在一定的矛盾。

现有技术中公开的文档记录格式一般是通过定义与显现格式相关的XML Schema来支持混合的文档格式与内容信息。目前,无论国际主流的、基于XML的办公文档格式(例如ODF,OOXML),还是中文办公软件文档格式UOF,所描述的内容主要是格式信息,文档的数据内容散布在格式信息之中,也就是说,为了支持办公软件“所见即所得”的第一类编排方式,办公文档格式采用内容与格式混排的方法[2]。

3.2 对用户逻辑数据的支持

为了支持与其它应用的集成,做到格式与内容分离也是必要的。办公文档格式中支持格式与内容分离的关键是要支持用户数据,即文档中真正的逻辑内容。为了解决这个问题,UOF中采用的方法是:将文档描述分为UOF格式树(格式描述)和UDS实例树(用户数据)两部分,通过关联机制建立起两者的联系,同时记录在文档之中。

为了支持用户数据,在UOF中建立了“用户数据集”,如图5:

“用户数据集”作为一个UOF格式树和UDS实例树关联节点的索引,记录每一对关联节点的对应关系。图中“用户数据”的子元素“用户XML”包含三个属性:“schema”即UDS;“文件名”(可选)指明存放用户数据的XML文件;“节点路径”通过XPath指向UDS实例树的节点。另一个“用户数据”子元素“UOF”则指向对应的UOF格式树节点。子元素“限制”用于指定具有这种对应关系的UOF文档节点是否可以修改、打印或浏览,以替代常规的“公文域”。子元素“名称”则用于命名映射关系[3]。

这个方法的优点是:文档的格式信息与用户数据互不影响,可以很方便地分别提取,并用UOF和UDS验证。因为有“用户数据集”显式指定对应关系,用户数据不再依赖于格式信息。另外,XML节点的对应十分灵活方便,可以把格式树的任何节点与任何用户数据对应。在实现中要注意的是,“用户数据集”的内容应在UOF格式树构造完成后生成。另外,办公软件的开发仍然需要考虑如何实现用户数据的导入导出,如何使用户可以随时建立用户数据节点和格式树节点的关联,如何在文档的编辑过程中维护这种关联等[3]。

4 结论

本文阐述了格式标准与格式的制约关系,UOF标准符合的若干准则,并分析了UOF格式的基本框架和特点。通过这些,我们可以看到,UOF文档格式是具有良好性能、符合中文办公软件要求的。在UOF规范推出后,中文办公软件的文档格式会迅速的从以前的多种集中到目前的一种,即UOF。UOF将为打破封闭办公软件文档格式的垄断,确保政府和用户对信息的拥有权创造有利的条件。

参考文献

[1]孔小玲.移动阅读电子文档格式与标准探究[EB/OL].

[2]ECMA-376,Office Open XML File Formats[S].

[3]李宁,牟永敏等.文档格式中“内容”与“表现”的分离与融合[J].电子学报,2007(02).

[4]李宁.中文办公软件标准化几个问题的探讨[J].信息技术与标准化,2003(12).

[5]胡萍,陈志鹏.XML文档与关系数据库数据转换中间件的研究[J].哈尔滨大学学报,2006(4).

DWG文档格式化存储方法研究 篇5

本文对CAD矢量图形的转换方法进行探究。通过对DWG实例文件的二进制剖析, 重点研究了DWG文件的内部格式, 包括其总体结构, 以及各部分的组织方式。在具体数据类型方面包括基本数据类型, 扩展数据类型和三维信息等的内部表示方法。分析了其数据表示的不对齐, 不定长, 表示域大等特点。

1 DWG文件的组成与解析

1.1 DWG文件的结构

如图1所示, DWG文件按照地址偏移量依次分为定位器部分, 图像部分, 环境变量部分, 实体部分和对象映射表部分。各部分相互指向, 共同表达了DWG文件中实体的复杂逻辑关系。各个部分组成了一个有机整体, 用户可以访问任何部分, 在访问具体对象前要通过对象映射表。定位器部分实质是整个DWG文件的总起部分, 它用相对于文件首部的偏移来记录其他各部分的位置。其中定位器的编号与其内容是一一对应的, 在所有DWG文件中保持不变。

1.2 DWG二进制格式文件

DWG采用二进制格式的文件形式, 一方面可以节省文件占用的空间, 另一方面提高读写文件的效率。为了防止用户对D W G文件无意损坏而造成的Auto CAD崩溃, Auto CAD采用循环冗余校验, 对DWG文件的正确性进行检查。

DWG二进制格式文件, 共有5种数据形式:字符型、字节型、整型、长整型、IEEE标准的浮点数, 用户可以直接对这些数据进行存取和处理。文件DWG的数据结构由5部分组成, 分别是:头部、实体部、表部、块实体部和应急头部。总体结构如图2所示。

(1) 头部结构。

DWG文件的头部存放着DWG文件的一些重要信息, 如DWG文件标志、版本信息、各种索引用的地址以及Auto-CAD软件中的一部分系统变量。头部的信息对于AutoCAD来讲是至关重要的, 因为AutoCAD对DWG文件的所有寻址操作的地址均从头部的有关参数计算而来, 而且头部还保存着与该文件中所保存图形密切相关的系统变量的值。

(2) 实体部。

实体部保存着该图形中的全部实体。所谓实体是指Auto CAD中的基本图形单元。如:点, 线、圆、弧、块、尺寸标注等。为了识别实体, AutoCAD将实体进行编码, 如点实体的编码为02H, 直线实体的编码为01H。对于每一个实体, 其数据结构都可以分成两个部分:实体头部和实体尾部。实体头部的长度固定, 包含有实体类型编码、实体性质、实体长度。不同实体, 其尾部数据结构不同。

(3) 表部。

表是AutoCAD为方便索引而引入的数据结构。在DWG文件中所有的表均按一定顺序集中存放在表部。这些表包括块表、层表、字型表、线型表。每一种表的格式、长度均固定。例如层表, 它包含了该层的全部信息:层名、该层实体的颜色、线型以及该层的状态, 而每一种表的长度、个数和起始地址保存在头部的索引信息段。

(4) 块实体部。

块是用AutoCAD进行绘图时经常遇到的一个概念。它是为了减少图形文件的长度和方便操作而引入的。AutoCAD将用户所做的块集中存在一起, 这就是块实体部。每生成一个块时, AutoCAD同时自动地生成一个相应的块表以便检索。对于每一个块, 其两端均为块起始实体和结束实体, 中间为该块所包含的各种实体元素。

(5) 应急头部。

为了防止由于头部的重要索引信息的损坏而使整个D W G文件中的信息丢失, AutoCAD将一些重要索引信息的副本保存在DWG文件的尾部, 称为应急头部。它包含了恢复受损图形文件的重要信息。

2 DWG文件数据类型

2.1 基本数据类型

作为一个工程软件, AutoCAD必须有能力处理很大范围的数据, 同时极大地节省空间, 因此在DWG文件中广泛存在着可变长度的数据类型, 这是其数据类型的典型特征, 并在大多数的数据类型中得到体现。根据具体处理数据的方式不同, 可分为2种典型的表示方式。

第1种典型表示方式主要用于表示浮点型及双精度型。这种处理方式对一些特别而常用的数据如1.0, 0.0只采用两位标识表示, 与IEEE双精度浮点数占用8字节相比, 节约了62位。DWG文件中存储的数据没有按要求对齐字节, 这给读取DWG文件带来了麻烦。由于数据不定长、不对齐, 在实践中采用以下编接的方法。

上面的基本数据类型主要用来表示几何坐标。DWG文件中有大量的对象需要定位, 模式字符常用来表示地址数据。模式字符也是一种变长类型, 但都是对齐的。它可表示任意大小的整型数, 实际操作时可按32位整数处理。

第2种典型表示方式, 基本数据类型常用来记录对象的句柄。在DWG文件中, 每一个可绘制或不可绘制的对象都有一个句柄唯一的标识。句柄采用下面的数据结构:

DWG文件最多可包含128个对象, DWG文件还有巨大的潜力有待挖掘。需要指出的是, DWG文件中并不是所有的句柄都采用这种格式表示, 有些句柄记录在扩展数据类型中。

2.2 扩展数据类型

DWG文件中一般存储有大量的附加属性信息, 这些信息可以是文本, 整数, 浮点数或其他任何自定义数据。用户常遇到的BLOB在DWG文件中就表现为这种类型, 其类名XRecord。它们的具体存储方式灵活多变, 基本方式是用一个词典对象与一个或多个XRecord对象共同表示一组扩展数据。

2.3 三维信息

AutoCAD的造型能力来自ACIS, 这是一个集成了目前最先进造型方法和技术的几何造型平台, 采用文本方式记录造型信息。从DWG文件内部数据格式来讲, AutoCAD将其通过造型界面获取的ACIS文本造型信息通过简单转化后直接存储, 而当用户用ACISOUT命令输出模型信息时, AutoCAD将这部分文本信息输出为单独的SAT文件。因此这类信息既不是基本数据类型, 也不同于附加属性信息。

3 读取文件对象

3.1 读取DWG文件

用简单的代码就可以实现对DWG文件的读取。要读取某个DWG文件, 需要将其所有对象或实体的句柄, 绝对地址, 组代码一一读取。

从定位器部分读取对象映射表的绝对地址;

在对象映射表开始处读取对象映射表的长度;

上述代码可以生成一个XML文件。一幅AutoCAD图形中包含着多个对象, 其数据库结构如下:层表和层表记录, 块表和块表记录, 包括模型空间和图纸空间。AutoCAD中所有的实体可见对象均属于块表的这两个记录。

在文件读取的过程中, 根据这些对象可以建立相应的对象集合。层表对象包含图层的信息, 可生成集合LAYER={L1, L2, L3, …, Ln};块表中包含所有的实体和可见对象, 可以生成集合:

这样DWG文件在图纸上就被表示成点、线或三角形, 把复杂的的DWG文件转换成可以存储在数据库中的实体对象。

实体是一类特殊的数据库对象, 在AutoCAD图形中表现为如下的基本实体组合:线、圆、弧、文本、区域、复合线和椭圆。用户可以在AutoCAD的图形编辑器中使用命令来编辑这些实体, 通过访问实体数据库来改变获得这些实体的值。利用一些软件来自动提取DWG文件标题栏字符串信息的模块, 实现图纸标题栏信息的自动提取并保存到数据库。服务器端利用SQL Server数据库实现对设计图纸的自动化管理。

3.2 DWG文件入库

图纸需入库保存时, 在AutoCAD环境中加载该程序, 执行图纸入库命令, 选择所需入库的图纸文件。系统调用AutoCAD内部函数limmax () 获得图纸幅面大小, 得到标题栏位置, 再根据标题栏中各个字符串的相应位置, 即可实现标题栏中图名、图号、比例、材料、设计者、审核者、批准者、日期等字符串信息在AutoCAD后台数据库中的自动提取, 最后将所提取的信息保存到服务器端SQL Server数据库中。附着的外部参照经过绑定和插入操作后即与图块相同, 可按相同方式处理。定义好的外部图块和绘制好的图纸都存成DWG图纸的形式。它们用两种不同方法插入到当前图纸中, 即图块和外部参照, 命令分别是INSERT和XREF。关键问题是图元在外部图块或被插入图纸中的参照坐标系与当前图纸坐标系不同, 因此要进行坐标变换, 具体可分为4种情况。

DWG图纸作为图块插入, 则图纸中图元坐标不变, 基点坐标为 (0, 0) 。DWG图纸作为外部引用插入, 则图纸中图元坐标不变, 基点坐标为 (0, 0) 。图块作为外部引用插入, 则图纸中图元坐标不变, 基点坐标变化。图块作为图块插入, 则图纸中图元坐标变化, 基点坐标为 (0, 0) 。4种情况分别处理会很复杂, 经分析归纳出统一的坐标转换公式。设图元在当前图纸中的坐标点为 (xc, yc) , 图元原始坐标点为 (x0, y0) , 基点坐标为 (xb, yb) , 插入点坐标为 (xi, yi) , 其中 (x0, y0) , (xb, yb) , (xi, yi) 可从DXF文件中获得, 坐标转换公式为 (xc, yc) = (x0, y0) - (xb, yb) + (xi, yi) 这样就把复杂的图元转换成可以存储的实体元素, 为入库及文件的读取提供方便。经过处理, 复杂的DWG文件被解析成可以存储、转换、可供用户调用的元素。

4 结语

DWG文件是高度紧凑的数据与可表示数据域的完美结合。在DWG图纸中发现知识, 其中用到的很多技术都是一些崭新的技术。本文给出了一种从AutoCAD的DWG图纸中提取数据信息解析DWG文件的方法。解析后的DWG文件将会给文件的入库和数据提取带来方便, 减少文件不易转换, 文件过大等实际应用方面的缺陷。DWG文件数据信息入库为工程概算提供条件, 方便用户进行模糊匹配, 实现工程造价的预算。解析DWG文件将对研究CAD, 实际操作应用等方面都能提供极大的帮助。将提高在海量的图纸中发现知识的能力。这是一种尝试, 相信不懈的努力会有更大的成果。

摘要:基于CAD的DWG文件解析是解决DWG文件不易读取的唯一方法, 也是CAD在实际操作中遇到的主要问题。本文阐述了如何解析DWG文件, 分析DWG文件数据结构及数据类型, 将DWG二进制格式文件分解成可以存储的实体元素, 并将得到的实体元素存入数据库, 可提取数据库中DWG文件信息, 为实现工程概算和模糊匹配提供方便, 同时简要介绍了DWG文件转换成XML文件的方法。

关键词:DWG,文档格式化,研究

参考文献

[1]唐译全, 李新友.计算机图形学.

[2]徐彦欣.基于产生式规则的二维不规则零件的排料算法.

[3]黄艳群, 徐燕申.基于遗传算法的不规则零件近优板材排料.

[4]刘嘉敏, 张胜男, 黄有群.二维不规则形状自动排料算法的研究与实现.

[5]张建勋.零件二维视图轮廓信息和封闭图形信息的自动提取.

[6]张淮声, 方贤勇.基于矢量积的二维封闭图形轮廓信息提取方法.

[7]钟世彬, 郑长之.AutoCAD和MAPGIS间的数据转换.

[8]张立强, 刘冬林.三维地形的动态生成及空间分析.

[9]马文祥, 金芳丽.在AutoCAD中实现高程信息的快速提取.

文档格式 篇6

电子文件已经发展成为当今社会重要、核心的信息资源, 并且涉及到国家利益和国家安全。加强电子文件管理, 确保电子文件的真实、完整、可用和安全, 对促进信息资源开发利用和推动国家信息化健康发展意义重大。标准化是电子文件管理和产业发展的技术基础, 制定版式文档格式规范对保存和使用电子文件具有积极的指导意义。

版式技术是指可以将文字、图形、图像等多种数字内容对象按照一定规则进行版面固化呈现的技术。版式文档格式简称OFD (Open Fixed-layout Document) 是一种独立于软件、硬件、操作系统、呈现/打印设备的文档格式。

目前, 国际上广泛采用的同类格式标准主要是PDF、SVG、XPS等。为了让读者更加理解我国自主制定的版式文档格式规范, 下面就该标准与这些同类标准进行比较分析。

2 格式介绍

2.1 OFD

OFD是一种适合交换和保存的文档格式。它定义了一套版式技术的标准集, 包括图形、图像、文字、复合对象、视频、音频、标注、签名、水印、交互、大纲、元数据等描述。未来会扩充安全、流式信息、表单等应用。

其主要特性如下:

(1) 低技术门槛。支持版式技术的基本集, 体系简单, 易于实现。

(2) 用XML描述, 容易理解和扩展。

(3) 接触式注释。标注位于文档节点下, 与页面正文分开, 易提取和访问。

2.2 PDF

PDF (Portable Document Format) 是一种适合交换的文档格式, 由美国著名排版与图像处理软件公司Adobe公司于1993年首次发布1.0版。PDF格式在国际上已被政府机关、业务部门、档案馆、图书馆和其他机构广泛采用作为电子文件长期保存格式, 在电子文件管理领域与档案管理领域中凸显强劲优势, 并引起国际上高度重视。

PDF特性如下:

(1) 先进的图像模型

Adobe是图形图像处理方面的翘楚, PDF在完整的二维透明矢量处理方面考虑的非常完整、全面、复杂。这是其他版式标准所不能比的。

(2) 支持设备自适应

PDF通过加入文档逻辑结构信息, 可以同时融合版式阅读和流式阅读的特性, 既可以在普通的计算机屏幕上对数字内容进行原版原式的呈现, 更可以通过页面对象的逻辑结构信息。

(3) 功能强大的交互性支持

PDF支持静态表单、动态表单、脚本编程, 以及各种业务逻辑控制和多种事件处理, 甚至应用实现控制。这些支持对于信息采集, 多媒体教学, 电子政务等公文流转非常重要。

(4) 完整的印前处理和印前交换支持

PDF是公认的印刷数据交换工业标准, 充分考虑了颜色空间、套印、呈色意向等。

(5) 递增更新和版本维护

PDF支持文件的线性化处理, 加快文档的获取、传输速度, 并可以记录版本修改历史。

2.3 SVG

SVG (Scalable Vector Graphics) 是W3C 1999年推出的一个基于XML描述的二维矢量图形格式。SVG目前仅支持单页描述, 多数情况下嵌入在其他文件格式中出现。其定位并不是电子文档, 而是互联网应用。

其特性如下:

(1) 非常适合嵌入

SVG目前的定位仅限于图元描述及单页描述, 不支持多页描述。而其本身反倒非常适合作为图元描述在其他文档格式中, 如在HTML5中就借助SVG描述其静态外观。

(2) 较强的动画效果支持

作为互联网应用中动画是一个重要的功能, SVG中的动画与SMIL (Synchronized Multimedia Integration Language) 兼容, 目前在考虑加入对SMIL全集的支持。

2.4 XPS

XPS (XML Paper Specification) 是微软公司开发的一种文档保存与查看规范。这种规范本身描述了这种格式以及分发、归档、显示以及处理XPS文档所需遵循的规则。最为显著的特点是, XPS所用的置标语言是WPF (Windows Presentation Foundation) 所用的XAML的一个子集, 因此显示Windows应用程序所用的方法可以用于XPS文档。

其特性如下:

(1) 支持更高精度动态颜色范围转换

XPS支持s RGB颜色空间, 并且完美的与Windows颜色管理系统结合, 能够保障颜色转换的精度。

(2) 与打印驱动结合兼容较好

XPS描述的许多效果如3D图像, 炽热效果及渐变能被Windows打印驱动认出而不被光栅化。

3 性能分析

3.1 OFD的性能分析

优点:

●国家自有知识产权;

●基于XML标准, 易于理解和扩展;

●支持标准的XML签名标准;

●支持版式技术的基本集, 体系简单, 易于实现;

●支持与流式兼容的底纹模型;

●标注采用非接触式, 易提取和访问;

●资源集中存放。

缺点:

●版式技术的应用描述较少, 有待扩充;

●全新标准, 有待推广。

3.2 PDF的性能分析

优点:

●完全开放;

●具备良好的动态交互特性;

●具备较高的安全可靠性;

●基于PDF的文件便于阅读和打印;

●具备线性化能力;

●支持Open Type、True Type、Type1等多种类型的字体;

●支持高质量打印;

●支持高压缩比;

●支持视力受限者阅读;

●应用领域广泛;

●目前支持该格式的软件多。

缺点:

●技术体系庞大, 实现门槛高;

●标记性PDF描述支持的晚, 造成多数PDF丢失结构化信息。

3.3 SVG的性能分析

优点:

●完全开放;

●基于XML描述, 易理解和扩展;

●较好的支持动画效果;

●较容易和互联网应用接轨;

●适合嵌入。

缺点:

●仅能做单页文档和图元描述;

●定位是互联网应用。

3.4 XPS的性能分析

优点:

●完全开放;

●包含的HD Photo图形文件格式可支持较高的色域空间;

●XPS文档在Windows环境下查看和打印效果好。

缺点:

●应用少, 主要是微软及一些相关应用中采用;

●目前支持该格式的软件少;

●为静态文档格式, 不包括类似于PDF所具有的动态特性;

●有操作系统倾向性。

4 功能比较

表1是OFD与PDF、SVG和XPS的功能对比研究。

由表1可以看出, 版式文档格式规范基于XML标准, 采用具有自主知识产权的页面描述方式, 在功能对比方面与国际同类标准相比具有一定优势。此外, 为了推动该标准的应用领域, 结合国家电子公文、电子证照等领域的应用需求, 目前已初步形成以版式文档格式规范为基础格式的电子公文标准、电子土地证标准、电子法人登记证标准等的技术方案, 体现出自主页面描述方案的优势。

5 结语

文档格式 篇7

关键词:成果地质资料,电子文档,编排,格式

2002年3月国务院令第349号《地质资料管理条例》明确规定:成果地质资料不仅需要汇交纸介质资料, 而且还要汇交相应的电子文档。国土资源部2002年3月亦下达了“关于开展成果地质资料电子文件汇交工作的通知” (国土资发[2002]93号文) , 要求“汇交的数字化地质资料, 应符合《成果地质资料电子文件汇交格式要求》 (试行) 的规定”。自从新的资料归档办法实施以来, 作为资料汇交人感到汇交工作中存在的最大问题是电子文档的制作与验收, 笔者就电子文档制作的格式编排问题根据自己的实际工作经验与大家交流, 以完善电子文档的制作方法和技术要求。

成果地质资料电子文档分8个类别文件, 即:正文类、审批类、附图类、附表类、附件类、数据库和软件类、多媒体类、其他类。其中正文类、审批类、其他类是必须有的, 另5类视项目情况而定。重点介绍正文类、审批类、附图类电子文档制作过程中应注意的编排格式。

1 正文类电子文件制作应注意的编排格式

原地质矿产部对汇交的地质报告在编制格式上有一套严格的要求, 随着计算机技术在地质领域的广泛应用和电脑的普及, 部分要求已不完全适用, 但新的地质报告编辑格式尚未出台。为此我们在实际工作中参照原地矿部对地质报告的编辑格式结合现行电子文档汇交要求, 总结了一套切实可行的编排格式。

正文类页面规格为A4, 由报告封面、扉页、目录、正文、摘要5部分组成。

1.1 字体

1) 报告封面由报告名、工作单位、提交时间3部分组成: (1) 报告名字体为黑体、小一号、加粗、居中; (2) 工作单位字体为仿宋粗体、三号、居中; (3) 时间字体为汉字仿宋体、小三号、居中。

2) 报告扉页包括两部分内容: (1) 报告名字体为宋体、二号、加粗、居中; (2) 项目编号、任务书编号、工作起止年限、项目负责人、报告编写人、提交单位、提交时间等字体为仿宋、四号。

3) 正文字体、字号不作具体要求, 但字号不应小于五号, 行距最少不得低于单倍行距。

1.2 标题定义

报告封面、篇名、章名、节名等标题用2~5级标题命令定义, 标题阶次依次降低, 中间不跳级, 标题同一层次标题的阶次应相同。在此特别说明, 对各级标题级次不作限制, 可从1级, 也可从2级、3级起定义, 实际工作中报告题名、标题命令定义一般从2级起定义, 以防中间有漏、错需定义标题, 以免整篇报告修改, 增加工作量。

1.3 目录

地质报告的目录包括:正文目录、审批类目录、附图类目录、附表类目录、附件类目录、其他类目录。

1) 正文目录通过字处理软件的插入目录命令自动生成, 应具有超链接。

2) 审批类目录排列顺序以审批级次由高到低排列。目录须写明审批文件的审批文号、审批形式, 无审批文号的, 写上审批机构简称和审批形式。

3) 附图类目录包括:报告附图、附表附图、附件附图等。目录标题部分要包括顺序号、图号、图名、比例尺, 顺序号以张为单位, 一张一号, 连续编号, 有多少张图编多少号。

4) 附表类、附件类目录编排以册为单位编排, 附表中又含有一套附图、附表、附件等类文件时, 应将它们合并到相应的类别中, 并在电子文件登记表中进行说明。

5) 其他类目录包括:任务书、勘查许可证、地质档案文件目录、实物地质资料目录清单、成果资料著录单、汇交地质资料涉密情况登记表。

1.4 正文

1) 正文中的插图、插照、插表在计算机屏幕的显示方向向上。

2) 正文中的插图、插照、插表不能采用超链接方式, 超过A4页面, 按实际尺寸定。

3) 正文中插入的插图、插照在插入位置须先插入文本框。

4) 正文中的插图编号有两种编排方法, 一种是按章节编号, 另一种是所有插图连续编号;插照、插表编号参考插图编号。

5) 正文中插表要有表名、表头栏, 如果插表超过A4页面时, 可用续表, 续表要有表头和加“续表”字样及编号。

6) 插图、插照、图版的源图形文件要放入插图文件夹, 且图名 (照片名) 要与正文内名称相一致。

1.5 内容摘要

单独一页附在正文后面, 300~500字。摘要应反映报告主要内容、成果及重要技术参数等。

1.6 页码

1) 页码位于页面底端, 对齐方式为“居中”或“外侧”, 奇数页在右侧, 偶数页在左侧。对于特殊页面, 也可采用其他对齐方式。

2) 封面、扉页、目录、正文、内容摘要, 这几部分之间页码不连续, 用分隔符分隔开, 便于页码的编制。

3) 封面、扉页、内容摘要不编页码, 目录与正文页码编排样式应不同。

4) 对于特殊情况, 如插图、插表超过A4页面时, 可不编页码。

2 审批类电子文件制作时应注意的编排格式

1) 审批类电子文件采用栅格图形文件插入Word。

2) 注意审批文件扫描后用Photo-shop等软件整饰美观, 擦除无用信息, 再插入电子文件中。

3) 当存在多个审批验收文件时, 应按照审批级次由高到低进行编排, 同级、同类的审批文件, 按时间先后顺序由新到老进行编排。

3 附图类电子文件制作时应注意的编排格式

1) 比例尺小于或等于1∶10000的附图既要有经纬度, 又要有方立网;比例尺大于1∶10000的附图可以只有方立网。

2) 附图电子文件中的信息内容清晰可读、线条连续, 数字、符号和颜色清晰无歧义, 图上地质体的颜色与图例一致, 不丢色、严重偏色、丢线条、丢失地质信息, 图例齐全、图面注记不能重叠。

3) 附图责任签齐全, 责任签格式有两种规格, 比例尺小于或等于1∶10000的附图一般采用小责任签, 见表1;比例尺大于1∶10000的附图一般采用大责任签, 见表2。

4) 附图图名、图签图名、正文附图目录图名, 三者图名一致。

5) 用MAPGIS制作的图件, 一定要考贝系统库、字库, 并且在电子文件登记表中说明存放路径。

6) 存档类图件的分辨率不低于300dip。

4 存在的问题及建议

1) 电子文档的制作是新近几年推出的成果地质资料归档方法, 目前仍在不断修改和完善之中, 统一电子文档的编排格式是十分必要的。

文档格式 篇8

HTML语言是超文本标记语言 (HyperText Markup Language) 的缩写, 也译为“多媒体文件语言”, 它是一种描述文档结构的语言, 而不能描述实际的表现形式。

随着WWW的普及和人们对Web日异增长的需求, 就需要不断地有新的Web语言产生。

在WWW中发布HTML文档, 大多数信息还是静态的, 而且要求服务器响应用户的交互。DHTML (Dynamic HTML) 的出现, 使Web范例从要求服务器交互改变为创建Web站点和Web应用。由于DHTML允许HTML文档与用户交互及客户机的巨大变化, 则可以创建丰富的Web应用。

DHTML并不是什么新的技术, 只不过是一些现有网页技术与标准的整合, 主要包括以下一些内容:1.HTML 4.0;2.CSS;3.浏览器对象模型;4.Script.

总结以上技术, DHTML的结构如下所是:DHTML=HTML+浏览器对象模型结构+CSS+Script

DHTML的特点如下:

1. 动态内容

通过浏览器与网页文字的对象模型, 网页不用下载, 其内容与对象即可以动态的增, 删除, 或是改变显示内容。

2. 动态样式

CSS除了可以扩展HTML标记的样式属性外, 还可以通过Script程序来改变这些属性。传统网页的内容与样式编排, 在下载到浏览器后, 即使固定的, 相比之下, 以CSS定义的样式网页, 只要通过Script控制, 网页就算已经下载显示来了, 还是可以改变其字体, 颜色, 甚至是样式的编排内容。

3. 绝对定位

以前的HTML只能定位网页对象的X, Y坐标, 现在DHTML可以定位网页对象的X, Y, Z坐标, 也就是说, 可以在网页上建立三维的立体空间。如:

尽管DHTML实现的基础 (HTML、CSS、JavaScript) 两大浏览器Netscape和IE全都支持, 但是它们实现DHTML的方法仍然是不相同的, 书写能在两种浏览器顺利执行的DHTML页面就成了一桩复杂的工作。CSS是DHTML的基础, CSS用于设定HTML元素在页面上的显示风格, 而CSS-P则是CSS的一个扩展, 它可用来控制HTML元素在网页上或者说在窗口的位置。

近来又产生了新的Web语言VRML (Virtual Reality Modeling Language) 。它是一种模型语言, 用来描述一个目标对象是如何呈现在Web上的。和HTML一样, VRML也是可由浏览器解释的描述语言, 只不过VRML不是描述成一个Page的格式, 而是描述成3D环境和目标的布局。HTML和VRML的差别与建筑物的蓝本和它的模型的差别是同一个道理。

用VRML, 我们将“看到一个新的虚拟的时代, 它将改变人们生活和工作的方式--虚拟企业、虚拟旅行、虚拟商业会谈、虚拟办公室、虚拟大学以及其他许多虚拟体验。

VRML (Virtual Reality Modeling Language) 为虚拟环境的建立提供了规范, 综合了现有三维软件的景象描述语言的优点。它有基本元素, 顶点, 线和面的定义, 坐标变换有缩放 (Scaling) , 旋转 (Rotation) 和平移 (Translation) , 并有优化的数据结构。

如果说VRML是一种语言的话, 显然VRML浏览器就是它的解释器。VRML浏览器的主要功能是读入VRML代码文件, 并把它解释成一图形映象。目前VRML浏览器软件种类很多, 如:Netscape公司的Live3D, Paper Software公司的WebFX, SGI和Template Graphics Software公司的WebSpace, InterVista软件公司的World View, 以及Microsoft公司的Virtual Explorer等等。它们基本上实现了物体的变换效果, 如灯光, 视角变换, 模糊, 裁剪, 阴影, 投影, 碰撞?

VRML语言具有的基本物体有:球体, 锥体, 柱体, 立方体, 文本等为创建景象提供了方便, 如下面为建立一球体的实例。

目前有许多创建VRML文件的模型软件, 并且有许多软件可以把其他三维格式的文件转换成VRML文件, 如3DS, RAW等。VRML的出现使得虚拟现实象多媒体和因特网一样逐渐走进我们的生活, 简单地说, 以VRML为基础的第二代万维网=多媒体+虚拟现实+因特网。第一代万维网是一种访问文档的媒体, 能够提供阅读的感受, 使那些对Windows风格的PC环境熟悉的人们容易使用因特网, 而以VRML为核心的第二代万维网将使用户如身处真实世界, 在一个三维环境里随意探xiong因特网上无比丰富的巨大信息资源。每个人都可以从不同的路线进入虚拟世界, 和虚拟物体交互, 这样控制感受的就不再是计算机, 而是用户自己, 人们可以以习惯的自然方式访问各种场所, 在虚拟社区中“直接”交谈和交往。事实上, 目前采用VRML技术取得成功的案例已经很多, 例如探路者到达火星后的信息就是利用VRML在因特网上即时发布的, 网络用户可以以三维方式随探路者探索火星。

总之, VRML将创造一种融多媒体、三维图形、网络通讯、虚拟现实为一体的新型媒体, 兼具先进性和普及性。

HTML只是一种表达的技术, 它并不一定能揭示HTML tag中说揭示的含义.举一个最简单的例子,

Apple

这句话在网络浏览器中有特定的表现, 但是HTML却并没有告诉我们它倒底是什么, Apple只是一个英文单词罢了, 它在不同的环境之下可能会有不同的意义, 是一个计算机公司, 还是一个水果?HTML并没有告诉我们Apple具体的内容, HTML中有一个大问题就是它的tag的集合是固定的.用户不能新增有意义的能供他人使用的tag, 网络浏览器是一个应用平台, 以HTML作为数据标准, 网络上的应用程序依赖服务器上的CGI (公共网关接口) 脚本来处理网页上的数据, 这样的结构是非常清晰的, 但HTML却使在服务器的一端要处理的数据量过大.这使得网络速度降低, 效率不高.SGML (通用标记语言标准ISO 8879:1986) 是HTML的前身技术.它是文件和文件中信息的构成主体.SGML与HTML不同.它允许用户扩展tag集合, 允许用户建立一定的规则.SGML所产生的tag集合是用来描叙信息段特征的, 而HTML仅仅只是一个tag集合.所以我们可以说HTML是一个SGML的子集。

XML开发者源于SGML的设计和应用者, 他们已经在SGML上投入了大量精力, 但却发现SGML并没有完全发挥作用。早在Seattle会议之前, Bosak和一些精心挑选的SGML结构信息专家就已向W3C提出了“网络上的SGML”计划.W3C支持并赞助了他们的努力。工作于1996年7月正式开始起动。工作的早期, 有较大的阻力。因为也存在反对SGML的人, 一些制定XML标准的W3C代表甚至声称“网络上的SGML”是不可能实现, 工作组 (原称“SGML编辑审议委员会”) 并未退缩。他们打算让SGML以全新的面目出现在网上, 给SGML以全新的面貌, 故给它命名为“可扩展标识语言”, 即XML。

工作组制定了一个计划来展示XML特色的计划, 计划的实施分三部分:

(1) XML的句法。

(2) XLL (可扩展链接语言) :XML的语义链接。

(3) XSL (可扩展类型语言) :XML的表现。

XML 1.0版本标准由W3C正式批准公布于1998年1月10日.XLL和XSL的工作还正在进行。

XML语言, XML名域和DOM是W3C建议的, 这是W3C发展过程中决定性的一步。由于它们已经成为正式的规范, 开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型, XML可以从存在的数据中产生出来。使用XML结构化的数据可以从商业规范和表现形式中分离出来。

CSS仍然被应用于结构简单的XML数据, 并且也很有用。但是, CSS不提供与数据源结构不同的数据显示结构。使用XSL, 可以产生与原来的XML数据结构完全不同的表达结构。

XML的一个主要目标市场是电子商务。传统EDI (电子数据交换) 机制依靠不同商业之间的强大计算机系统来实现压缩的信息传输, 每一条信息在传输使用, 提供给用户之前都必须编码。电子商务在网上运作时用户端每填完一个HTML的表格之后, 都要把表格法还给初始的服务器处理。产品交易, 谈判签约, 后勤管理, 税收报表等等这一些活动的数据处理都集中在了一端。可以预测到, 有了XLL所链接的行为控制机构和XSL所提供的客户端评价功能, 将来的数据可以从屏幕上抓取, 有必要的话可在客户端处理, 在处理数据时, 传输给相关用户而不必要改换数据格式, 一个类似的协议是OTP (开放网络贸易协议) 。它的草稿最初是于1998年1月发布的。这个协议的制定是为了满足在网上。消费者和销售者之间交易时消息的传输。它同时也允许第三方, 比如说供货商, 市场评估机构, 消费者保护机构等来参与使用。

XML的应用弥补了许多HTML的缺陷, 我们把它在网上的应用总结为四点:

1.当网络客户必须在不同的数据库之间传递信息时的应用。

2. 当需要把大部分从网络服务器载下的数据在用户端处理时的应用。

3. 当相同的数据对于不同的用户需要有不同的界面时的应用。

4. 当网络情报供货商要把发现的信息精心裁减, 并发送给不同的个人用户时的应用。

可以看到, 网络继续以很快的速度在发展。“无论XML和元数据标签过时与否, 可以肯定将来的网络会以比现在的网络文档更灵活的方式提供更多的信息。网络代表着很多人的艰苦工作, 这些人遍布全球各地, 但希望和他们所关心的同事和客户交换信息的愿望使他们组织到一起。XML和元数据的使用——或其他—些相似的技术——将会使用户管理大量的信息, 并使信息的选择和表现形式符合他们明确的需求。” (选自 (2) )

参考文献

[1]《贝尔实验室》

上一篇:教学质量考核下一篇:农民健康体检