文档格式化(精选9篇)
文档格式化 篇1
CAD作为一种功能强大的计算机辅助设计软件被广泛使用, 在建筑、规划、测绘中用它来绘制图形, 例如建筑设计图、城市规划图等, 其绘制的结果被保存为以DWG为扩展名的矢量图形文件中, 这种矢量图形在许多软件中不能直接使用, 必须经过各种方法的转换后方能调用。因此传统的DWG文件不易读取, 不易转换的特性就成为实际操作应用的瓶颈, 所以开发解析DWG文件, 将DWG文件解析成可以读取的, 字符串形式的数据或方便转换存储形式的数据, 就成为十分必要的, 也是现在软件实际应用中主要面临的问题。
本文对CAD矢量图形的转换方法进行探究。通过对DWG实例文件的二进制剖析, 重点研究了DWG文件的内部格式, 包括其总体结构, 以及各部分的组织方式。在具体数据类型方面包括基本数据类型, 扩展数据类型和三维信息等的内部表示方法。分析了其数据表示的不对齐, 不定长, 表示域大等特点。
1 DWG文件的组成与解析
1.1 DWG文件的结构
如图1所示, DWG文件按照地址偏移量依次分为定位器部分, 图像部分, 环境变量部分, 实体部分和对象映射表部分。各部分相互指向, 共同表达了DWG文件中实体的复杂逻辑关系。各个部分组成了一个有机整体, 用户可以访问任何部分, 在访问具体对象前要通过对象映射表。定位器部分实质是整个DWG文件的总起部分, 它用相对于文件首部的偏移来记录其他各部分的位置。其中定位器的编号与其内容是一一对应的, 在所有DWG文件中保持不变。
1.2 DWG二进制格式文件
DWG采用二进制格式的文件形式, 一方面可以节省文件占用的空间, 另一方面提高读写文件的效率。为了防止用户对D W G文件无意损坏而造成的Auto CAD崩溃, Auto CAD采用循环冗余校验, 对DWG文件的正确性进行检查。
DWG二进制格式文件, 共有5种数据形式:字符型、字节型、整型、长整型、IEEE标准的浮点数, 用户可以直接对这些数据进行存取和处理。文件DWG的数据结构由5部分组成, 分别是:头部、实体部、表部、块实体部和应急头部。总体结构如图2所示。
(1) 头部结构。
DWG文件的头部存放着DWG文件的一些重要信息, 如DWG文件标志、版本信息、各种索引用的地址以及Auto-CAD软件中的一部分系统变量。头部的信息对于AutoCAD来讲是至关重要的, 因为AutoCAD对DWG文件的所有寻址操作的地址均从头部的有关参数计算而来, 而且头部还保存着与该文件中所保存图形密切相关的系统变量的值。
(2) 实体部。
实体部保存着该图形中的全部实体。所谓实体是指Auto CAD中的基本图形单元。如:点, 线、圆、弧、块、尺寸标注等。为了识别实体, AutoCAD将实体进行编码, 如点实体的编码为02H, 直线实体的编码为01H。对于每一个实体, 其数据结构都可以分成两个部分:实体头部和实体尾部。实体头部的长度固定, 包含有实体类型编码、实体性质、实体长度。不同实体, 其尾部数据结构不同。
(3) 表部。
表是AutoCAD为方便索引而引入的数据结构。在DWG文件中所有的表均按一定顺序集中存放在表部。这些表包括块表、层表、字型表、线型表。每一种表的格式、长度均固定。例如层表, 它包含了该层的全部信息:层名、该层实体的颜色、线型以及该层的状态, 而每一种表的长度、个数和起始地址保存在头部的索引信息段。
(4) 块实体部。
块是用AutoCAD进行绘图时经常遇到的一个概念。它是为了减少图形文件的长度和方便操作而引入的。AutoCAD将用户所做的块集中存在一起, 这就是块实体部。每生成一个块时, AutoCAD同时自动地生成一个相应的块表以便检索。对于每一个块, 其两端均为块起始实体和结束实体, 中间为该块所包含的各种实体元素。
(5) 应急头部。
为了防止由于头部的重要索引信息的损坏而使整个D W G文件中的信息丢失, AutoCAD将一些重要索引信息的副本保存在DWG文件的尾部, 称为应急头部。它包含了恢复受损图形文件的重要信息。
2 DWG文件数据类型
2.1 基本数据类型
作为一个工程软件, AutoCAD必须有能力处理很大范围的数据, 同时极大地节省空间, 因此在DWG文件中广泛存在着可变长度的数据类型, 这是其数据类型的典型特征, 并在大多数的数据类型中得到体现。根据具体处理数据的方式不同, 可分为2种典型的表示方式。
第1种典型表示方式主要用于表示浮点型及双精度型。这种处理方式对一些特别而常用的数据如1.0, 0.0只采用两位标识表示, 与IEEE双精度浮点数占用8字节相比, 节约了62位。DWG文件中存储的数据没有按要求对齐字节, 这给读取DWG文件带来了麻烦。由于数据不定长、不对齐, 在实践中采用以下编接的方法。
上面的基本数据类型主要用来表示几何坐标。DWG文件中有大量的对象需要定位, 模式字符常用来表示地址数据。模式字符也是一种变长类型, 但都是对齐的。它可表示任意大小的整型数, 实际操作时可按32位整数处理。
第2种典型表示方式, 基本数据类型常用来记录对象的句柄。在DWG文件中, 每一个可绘制或不可绘制的对象都有一个句柄唯一的标识。句柄采用下面的数据结构:
DWG文件最多可包含128个对象, DWG文件还有巨大的潜力有待挖掘。需要指出的是, DWG文件中并不是所有的句柄都采用这种格式表示, 有些句柄记录在扩展数据类型中。
2.2 扩展数据类型
DWG文件中一般存储有大量的附加属性信息, 这些信息可以是文本, 整数, 浮点数或其他任何自定义数据。用户常遇到的BLOB在DWG文件中就表现为这种类型, 其类名XRecord。它们的具体存储方式灵活多变, 基本方式是用一个词典对象与一个或多个XRecord对象共同表示一组扩展数据。
2.3 三维信息
AutoCAD的造型能力来自ACIS, 这是一个集成了目前最先进造型方法和技术的几何造型平台, 采用文本方式记录造型信息。从DWG文件内部数据格式来讲, AutoCAD将其通过造型界面获取的ACIS文本造型信息通过简单转化后直接存储, 而当用户用ACISOUT命令输出模型信息时, AutoCAD将这部分文本信息输出为单独的SAT文件。因此这类信息既不是基本数据类型, 也不同于附加属性信息。
3 读取文件对象
3.1 读取DWG文件
用简单的代码就可以实现对DWG文件的读取。要读取某个DWG文件, 需要将其所有对象或实体的句柄, 绝对地址, 组代码一一读取。
从定位器部分读取对象映射表的绝对地址;
在对象映射表开始处读取对象映射表的长度;
上述代码可以生成一个XML文件。一幅AutoCAD图形中包含着多个对象, 其数据库结构如下:层表和层表记录, 块表和块表记录, 包括模型空间和图纸空间。AutoCAD中所有的实体可见对象均属于块表的这两个记录。
在文件读取的过程中, 根据这些对象可以建立相应的对象集合。层表对象包含图层的信息, 可生成集合LAYER={L1, L2, L3, …, Ln};块表中包含所有的实体和可见对象, 可以生成集合:
这样DWG文件在图纸上就被表示成点、线或三角形, 把复杂的的DWG文件转换成可以存储在数据库中的实体对象。
实体是一类特殊的数据库对象, 在AutoCAD图形中表现为如下的基本实体组合:线、圆、弧、文本、区域、复合线和椭圆。用户可以在AutoCAD的图形编辑器中使用命令来编辑这些实体, 通过访问实体数据库来改变获得这些实体的值。利用一些软件来自动提取DWG文件标题栏字符串信息的模块, 实现图纸标题栏信息的自动提取并保存到数据库。服务器端利用SQL Server数据库实现对设计图纸的自动化管理。
3.2 DWG文件入库
图纸需入库保存时, 在AutoCAD环境中加载该程序, 执行图纸入库命令, 选择所需入库的图纸文件。系统调用AutoCAD内部函数limmax () 获得图纸幅面大小, 得到标题栏位置, 再根据标题栏中各个字符串的相应位置, 即可实现标题栏中图名、图号、比例、材料、设计者、审核者、批准者、日期等字符串信息在AutoCAD后台数据库中的自动提取, 最后将所提取的信息保存到服务器端SQL Server数据库中。附着的外部参照经过绑定和插入操作后即与图块相同, 可按相同方式处理。定义好的外部图块和绘制好的图纸都存成DWG图纸的形式。它们用两种不同方法插入到当前图纸中, 即图块和外部参照, 命令分别是INSERT和XREF。关键问题是图元在外部图块或被插入图纸中的参照坐标系与当前图纸坐标系不同, 因此要进行坐标变换, 具体可分为4种情况。
DWG图纸作为图块插入, 则图纸中图元坐标不变, 基点坐标为 (0, 0) 。DWG图纸作为外部引用插入, 则图纸中图元坐标不变, 基点坐标为 (0, 0) 。图块作为外部引用插入, 则图纸中图元坐标不变, 基点坐标变化。图块作为图块插入, 则图纸中图元坐标变化, 基点坐标为 (0, 0) 。4种情况分别处理会很复杂, 经分析归纳出统一的坐标转换公式。设图元在当前图纸中的坐标点为 (xc, yc) , 图元原始坐标点为 (x0, y0) , 基点坐标为 (xb, yb) , 插入点坐标为 (xi, yi) , 其中 (x0, y0) , (xb, yb) , (xi, yi) 可从DXF文件中获得, 坐标转换公式为 (xc, yc) = (x0, y0) - (xb, yb) + (xi, yi) 这样就把复杂的图元转换成可以存储的实体元素, 为入库及文件的读取提供方便。经过处理, 复杂的DWG文件被解析成可以存储、转换、可供用户调用的元素。
4 结语
DWG文件是高度紧凑的数据与可表示数据域的完美结合。在DWG图纸中发现知识, 其中用到的很多技术都是一些崭新的技术。本文给出了一种从AutoCAD的DWG图纸中提取数据信息解析DWG文件的方法。解析后的DWG文件将会给文件的入库和数据提取带来方便, 减少文件不易转换, 文件过大等实际应用方面的缺陷。DWG文件数据信息入库为工程概算提供条件, 方便用户进行模糊匹配, 实现工程造价的预算。解析DWG文件将对研究CAD, 实际操作应用等方面都能提供极大的帮助。将提高在海量的图纸中发现知识的能力。这是一种尝试, 相信不懈的努力会有更大的成果。
摘要:基于CAD的DWG文件解析是解决DWG文件不易读取的唯一方法, 也是CAD在实际操作中遇到的主要问题。本文阐述了如何解析DWG文件, 分析DWG文件数据结构及数据类型, 将DWG二进制格式文件分解成可以存储的实体元素, 并将得到的实体元素存入数据库, 可提取数据库中DWG文件信息, 为实现工程概算和模糊匹配提供方便, 同时简要介绍了DWG文件转换成XML文件的方法。
关键词:DWG,文档格式化,研究
参考文献
[1]唐译全, 李新友.计算机图形学.
[2]徐彦欣.基于产生式规则的二维不规则零件的排料算法.
[3]黄艳群, 徐燕申.基于遗传算法的不规则零件近优板材排料.
[4]刘嘉敏, 张胜男, 黄有群.二维不规则形状自动排料算法的研究与实现.
[5]张建勋.零件二维视图轮廓信息和封闭图形信息的自动提取.
[6]张淮声, 方贤勇.基于矢量积的二维封闭图形轮廓信息提取方法.
[7]钟世彬, 郑长之.AutoCAD和MAPGIS间的数据转换.
[8]张立强, 刘冬林.三维地形的动态生成及空间分析.
[9]马文祥, 金芳丽.在AutoCAD中实现高程信息的快速提取.
[10]解云琳, 彭明军.用MapInfo快速提取高程点信息.
文档格式化 篇2
文档撰写时的格式、字体、标题、序号以及菜单设置等使用的一般要求作如下规定。各班以后所交文档均需参照此标准。
一、文档名
(一)电子文档版本: Microsoft Word 2003/2007文档,如果为2007版的文档,最好使用2003-2007版的兼容模式。
(二)文档名:统一格式
比如说:
1.XX(级)XX(专业)X班XXXXXXX(学号)XXX(姓名)实验报告
2.XX(级)XX(专业)X班XX月工作总结或者计划书
二、标题
标题前面应为宋体小四,行距为固定值22磅空两行,标题之后空一行再进入正文。
(一)总标题:小二黑体字加粗、自然居中。
(二)一级标题:四号宋体字加粗、左缩进2字符。
(三)二级标题以下:均采用小四号字,左缩进2字符,独立标题的字尾不加标点,独立标题可加粗,标题与正文连用时不加粗。以上用法在全文中的同级标题应统一。
(四)标题及文中不使用“斜体字”,确实需强调的可用以下方式:
1.加粗;
2.加灰底;
3.行首强调可用★、☆、▲、△、■、●等符号,但需隔0.5个字符开始正文
三、正文
(一)正文格式统一为WORD编辑,A4纸排版,行距固定值22磅。
(二)页面设置:
纸张大小:A4(宽度:21厘米,高度:29.7厘米)页边距:上:2.54厘
米,下:2.54厘米,左:3.00厘米,右:2.00厘米,方向:纵向
(三)英文和数字的字体设为Times New Roman,段落首行缩进2个字符,标点符号使用中文半角。
(四)文章右下角插入阿拉伯数字页码。
四、符号使用
(一)中文序号后的标点用顿号“、” ; 阿拉伯数字序号后不用顿号只用原点“ • ” ;中文序号加了括弧的不再用其它标点。
(二)序号数码的使用
1.技术性文档可用标准论文格式的数字隶属分层方法。
如: “1”、“1.1” “1.1.1” „“1.2” “1.2.1” “1.2.2” „„
2.在只有五级以内的标题时,不使用英文字母代替;
3.在无“章” “节” “条” “款” 的情况下,五级标题序号码连用的顺序应为(以一为例):一; ㈠ ; 1 ;⑴;①。
五、文尾落款
1.最后一字需右缩进4字符,年月日在文字落款下居中,不隔行;
产学研 齐聚商讨文档格式新方向 篇3
会上中国软件行业协会副理事长赵小凡指出,“十二五”规划把信息技术放在很重要的位置,在高新技术产业中有七项,其中第一项就是信息技术。他同时强调,信息很重要的表现就是以文档形式保存,所以研究文档是非常重要的。
众所周知,UOF是国家发起制定的标准,面对成为事实标准的微软office文档格式,以及开源的Open Office文档格式,人们不禁会有所怀疑:国产UOF可以获得成功吗?
本次大会上,来自学术界、产业界的各位代表都带来了自身研究UOF的新进展,据永中软件的技术经理宋学永介绍,目前他们已经针对国内文档标准推出了一套整合方案,并表示:“UOF虽然现在只是国家标准,但将来一定会成为市场标准。”
办公软件文档格式专利分析 篇4
随着“核高基”科技重大专项“办公软件文档格式标准研制与测试”课题的实施以及“标文通”制修订计划项目的立项,我国将启动对“标文通”的修订工作。为了确定“标文通”修订工作在专利和知识产权方面的工作策略,需要检索、统计和分析文档格式相关的专利,并分析其对“标文通”系列标准研制和实现的影响。
1 技术路线
专利分析的技术路线如图1所示。
专利分析工作分为四个阶段:方案论证阶段、专利检索阶段、专利分析阶段和形成报告阶段。
(1)方案论证阶段
科学的检索方案是保证检索结果全面性和准确性的重要保障,为保证查全性和查准性,课题组与专业的专利检索机构共同制定检索方案,并组织专家对检索方案进行论证。
(2)专利检索阶段
专利检索严格按照检索方案进行,按照IPC分类号和关键词筛选进行专利检索。为确保查全性和查准性,采用背对背双查方案,相互验证。
(3)专利分析阶段
专利检索仅获取了目标专利,建立了专利库。尚需深入分析专利对文档格式标准研制及产品实现的影响。为保证专利分析的科学性和客观性,组织办公软件厂商对专利进行综合分析,并根据每个厂商的技术路线进行针对性分析。
(4)形成报告阶段
通过专利分析形成了分析报告草案,为保证分析报告的权威性,引入第三方评审。通过向第三方征求意见、组织专家评审进一步完善分析报告,形成最终的分析报告。
2 专利检索
2.1 专利检索方法
文档格式专利检索方法如图2所示。
对办公软件文档格式相关专利的检索采用了关键词和国际专利分类号(IPC)相结合的方式进行。在中文库的检索中,以文档、XML、文档格式、文档处理等为关键词,结合国际分类号G06F17/21、G06F17/24、G06F17/20、G06F17/30、G06F9/45、G06F9/44,并以申请人为入口对中文文献进行补检,经过数据筛选、处理后最终得到相关专利文献。
同时,为保证办公软件专利服务项目检索数据的全面性、准确性,对第一阶段检索结果,通过相关引文数据进行扩展,包括发明人引文数据及审查员引文数据。通过第一阶段检索到相关度较高的中英文专利文献,对其中的发明人引文及审查员引文数据进行深度标引,提取出中文专利文献中的发明人引文和审查员引文中的相关专利数据。
对检索得到的中文和外文数据进行处理,包括去重、筛选、同族处理、摘要整理等。
2.2 专利检索目标
本次专利分析的检索目标是办公软件三大应用(文字处理Word Processing、电子表格Spreadsheet、演示文稿Presentation)的文档格式和功能实现相关的专利,特别是与微软、IBM、Sun公司相关的专利,以及与基于XML的文档处理相关的专利。专利检索所涉及的专利限于2010年之前申请的专利,其中部分2008年、2009年申请但尚未公开的专利不在检索范围内。
2.3 专利检索数据源
针对上述检索目标,课题组咨询了专利检索领域的专家,确定采用中国专利文献数据库(CPRS)作为检索中文专利的数据源,采用欧洲专利局专利文献数据库(EPODOC)及德温特世界专利索引数据库(WPI)作为检索英文专利的数据源。
2.4 中文库检索
(1)按分类号检索
本次专利检索所关注的主要分类号包括:G06F17/21、G06F17/24、G06F17/20等。
(2)按关键词检索
本次专利检索所关注的主要关键词包括:办公软件、文档、格式等。
(3)按申请人机构代码检索
本次专利检索所关注的主要组织机构代码包括:Microsoft、IBM、SUN、金山和永中科技。
2.5 外文库检索
在外文数据库的检索中,采用关键词结合国际分类号、关键词结合申请人、国际分类号结合申请人的检索策略,以XML+Microsoft/IBM/Sun Microsystems、G06F17/24+Microsoft/IBM/Sun Microsystems、G06F17/21+Microsoft/IBM/Sun Microsystems等作为检索式进行检索,并采用其他检索方式进行补检,进行数据筛选、过滤处理之后最终得到相关专利文献。
2.6 专利检索结果
经对中国专利数据库及国外专利数据库的检索,得到与办公软件相关的专利3 154项,其中Microsoft、IBM、SUN三家公司专利数分别是1 019项、1 212项、197项,占总数的77,占据着主要申请人的地位。另外,检索结果中2 800项专利在国外申请、354项专利在国内申请,国内申请的专利中多数为外国企业在中国申请,本土企业及科研机构申请数量极少,不足1。
3 专利分析
3.1 专利分析方法
专利分析主要包括两种方法,分别是专利统计分析和专利技术分析。专利统计分析主要对专利库中的数据进行专利现状统计,形成申请量统计等状态图。专利技术分析主要通过技术专家对各条专利的摘要及全文进行技术研究,将专利映射到文档格式、产品实现及文档处理几大分类的各个子类,并分析该专利对标准研制或产品实现的具体影响。
3.2 专利统计分析
本次专利分析主要从分类号统计排序、国别统计排序、专利权人统计排序、年度申请量统计、国别-年度申请量统计、专利权人-年度申请量统计、国别(中国)-专利权人统计和国别(中国)-年度申请量统计等八个维度进行统计分析。限于篇幅,下面仅给出三个统计分析图。
图3展示了Microsoft、IBM、SUN在国际专利分类号IPC G06F17/21、G06F17/24、G06F17/20、G06F17/30、G06F9/45、G06F9/44下的专利申请对照图。
图4展示了2000年以来历年办公软件文档格式领域专利申请量,可见2005年达到峰值。从图4中可以看出,2005年左右国内外办公软件文档格式领域的技术研究水平达到了成熟阶段,之后该领域的专利申请量呈现缓慢增长的趋势。由于专利申请通常是在18个月之后公布,因此专利申请量的统计存在年度误差。但可以肯定的是,随着新技术的不断发展和用户的不断需求,办公软件文档格式领域的专利申请仍将保持快速增长。
图5展示了2000年以来历年Microsoft、IBM、利申请图。从图5中可以看出,相比而言,IBM的申请量呈现行业领先趋势,仅在2004~2007年Microsoft申请量超越了IBM。SUN申请量相对较少。
3.3 专利技术分析
为了深入进行技术分析,需要将检出的专利映射到文档格式相关的技术领域。本次分析主要将专利映射到置标语言处理、文字处理、电子表格、演示文稿、图形、办公软件界面和办公软件存储等七个领域。下面以文字处理领域为例,给出技术分析结果。
3.3.1 功能分析
文字处理作为文档编辑和排版软件,主要用于编辑文字图形、图像、声音、动画,还可以插入其他软件制作的信息,也可以进行图形制作、编辑艺术字、数学公式等各种文档处理要求。文字处理的功能如下:
(1)具有中英文输入、编辑、排版和打印等功能;
(2)创建“所见即所得”的文档;并提供字符和段落的字体、大小、颜色、左对齐、右对齐、居中对齐、两端对齐、横排与竖排、段落间距设置等多种格式编辑功能;
(3)具有图文混排功能;
(4)在文档中设置项目符号、段落名称和项目或段落的数字编号,并具备自动更新功能;
(5)提供表格、自选图形、艺术字和商业图表功能;
(6)在文档中插入域的功能;
(7)在文档中设置书签和插入超链接的功能;
(8)在文档中插入注释、脚注和尾注;
(9)生成索引与目录;文字处理可以根据各种特殊标记,自动生成文档的目录和索引;
(10)提供文档保护,提高了文件的安全性;
(11)提供稿纸、信笺的编辑和打印功能,满足中国人特有的写作需求。
3.3.2 专利分析
数据源中文字处理相关专利198项,主要包括编辑方法、文档布局、文档管理、字体字符处理、拼写纠错、文本或图形信息获取与识别、格式转换等方面,其中英文专利163项,中文专利35项,按照申请年限分布如表1所示,对办公软件实现的影响级别如表2所示。
本次专利分析检索了与办公软件三大应用(包括文档格式和功能实现)相关的2010年前申请的专利,检索的数据源包括中国专利文献数据库、欧洲专利局专利文献数据库及德温特世界专利索引数据库,共检出3 154项专利。通过对检出专利的分析可以看出:(1) Microsoft、IBM和Sun公司在办公软件领域的专利申请中占据着较大份额;(2)我国办公软件企业及科研机构在办公软件领域中申请的专利较少,需进一步加强;(3)大部分专利与文档格式标准无直接联系,专利主要集中于功能实现的方法上;(4)随着Web Office的兴起,会出现新一轮专利申请高峰期,需密切关注该领域的专利申请。
摘要:为确定“标文通”修订工作在专利方面的工作策略, 需检索办公软件文档格式相关的专利, 并分析其对“标文通”修订工作的影响, 阐述了办公软件专利分析的四阶段技术路线, 并重点分析了专利检索和专利分析的技术方案和实施方法。
标准文档格式 篇5
为了更好的提升公司管理水平,突出企业形象,使公司的文件格式更加规范化、制度化、科学化。结合公司的实际,特拟文件格式规范制度,如下:
一、适用范围:
下发的所有文件。
二、文件用纸
文件用纸统一采用国际标准A4型纸。(特殊文件除外,例如:报表等)
三、字体排版
正文位于主送单位或部门的下一行,每自然段开始左空2个字距(首行缩进),回行顶格,采用3号仿宋字体。
四、排版
一般文件每面排22行,每行28个字(缩进左3.1字符、右2.27字符)。
段落格式行距为1.5倍,对齐方式为两端对齐。
五、结构层次
正文中结构层次第一层为“一”,第二层为“
(一),第三层为“1”,第四层为“(1)”。
一般文件均需有落款,注明发文单位及日期,并加盖印章。
六、附件
文件中含有附件,在正文下空一行,左空2个字距用3号仿宋字体标识“附件”,后标冒号及名称,附件如有序号可使用阿拉伯数字,如:“附件:
1、******”,附件名称后不加标点符号,附件应与文件正文一起装订,并在附件左上角第一行顶格标识“附件”,有序号时标识序号,附件的序号和名称前后标识应一致。
七、装订
文件的装订应一律采用左侧装订,超过1页以上纸张的文件必须装订成两钉式,装订规格为距离左边约1厘米处,距离页面上方8——9厘米处,距离页面下方8——9厘米处,非正式性文件可装订为左上45度角单钉式。
起草的各类报告、条例、制度等文件,需加页眉、页脚,页眉(一般用小五号仿宋字)采用两边对齐方式或居右式标注文件的题目,页脚通常设为加页码,选择居中位置。
浅谈文档类电子文件格式及其特点 篇6
关键词:电子文件,文档文件,文件格式
当今, 计算机技术和网络技术正在日新月异的向前发展, 计算机的操作系统、计算机语言和应用软件不断推陈出新, 由此产生的计算机文件格式也在不断增加, 往往是新的文件格式取代旧的文件格式, 由此给档案部门带来了难题, 我们长期或永久保留的电子文件选择哪种格式呢?如果今天保存的电子文件, 几十年之后谁也打不开阅读, 那保存的东西还有什么价值呢?
电子文件是指在数字设备及环境中生成, 以数码形式存储于磁带、磁盘、光盘等载体, 依赖计算机等数字设备阅读、处理, 并可在通信网络上传送的文件。电子文件是按照一定的组织形式, 具有文件名的一组相关信息的集合。计算机操作系统以文件为单位对数据进行管理, 每个文件具有自己的属性, 如文件类型、文件长度、文件建立的日期和时间等。文件的类型通过文件的扩展名来区分, 在Windows操作系统中, 还为每种文件类型赋以不同的图标, 使我们很直观地区分出各种文件的类型。文件类型不同, 意味着文件格式不同, 数据在不同的文件格式文件中的存储结构、所包含的信息类型、适用的操作系统和适用的应用软件往往就不一样。
文件格式是多种多样的, 依据的标准不同, 分类的结果也不一样。从文件编码的方式来看, 文件可分为文本文件和二进制文件两种。文本文件文件在磁盘中存放时每个字符对应一个字节, 用于存放对应的ASCII码, 如果一个文件中的每个字节的内容都是可以表示成字符, 就称这个文件为文本文件。文本文件可在屏幕上按字符显示, 可读性比较好, 几乎所有编辑软件都能打开使用。二进制文件是按二进制的编码方式来存放数据信息的, 图形文件、音频文件、视频文件和计算机程序等绝大多数属于二进制文件, 这些文件含有特殊的格式及计算机代码, 二进制文件存储速度快, 但可读性差, 需要相应的专门软件读取。
按电子文件包含的信息类型分类可分为:文档文件、声音文件、图形文件、图像文件、视频文件、数据库文件。本文主要对文档文件进行探讨。文档文件指用文字处理软件形成的电子文件。档案部门所保存的电子文件绝大多数都是文档文件。
一、文本文件
文本文件是指以ASCII码方式存储的文件, 更确切地说, 英文、数字等字符存储的是ASCII码, 而汉字存储的是机内码。文本文件中除了存储文件有效字符信息外, 不能存储其他任何信息, 因此文本文件不能存储声音、动画、图像、影像等信息。文本文件中信息是按单个字符编码存储的, 如存储2010则分别存储“2”、“0”、“1”、“0”这四个字符的ASCII编码。文本文件的最大优点是能够被所有的文字编辑软件编辑, 也能被计算机语言和数据库管理系统存取。
二、Word文件
Microsoft Word是微软公司的一个文字处理应用程序。第一个Windows版本的Word出现在Windows3.0发行之后的1989年, 由于编排过程中“所见即所得”, 比起那些用控制符号来设置格式, 模拟或打印时才能看到结果的其他排版软件直观、方便, 因此受到人们的普遍欢迎, 它的出现改变了人们文字编辑习惯。Microsoft Word是当前国内用户最多的文字处理软件, 成为事实上最通用的办公文字排版标准。
Word97到Word2003之前的Word文件格式都是二进制文件格式。跟其他Microsoft Office程序一样, 从Word97以来就变成Visual Basic语言开发, 随Word软件本身的更新, 文件格式也会或多或少地改版, 旧版word软件往往不能很好地处理新版word编排的文件格式, 比如Word2003就打不开Word2007编排的文档。微软对Word编排的DOC文件格式的详细资料并不对外公开, 只有少数人清楚其格式, 微软声明他们接下来将以XML为基础的文档格式, 作为他们办公室套装软件的格式。国产的WPS文字可以兼容其文档格式, 并且比其功能更全面, 使用更方便。
三、WPS文件
1989年, DOS版本的中文字处理软件WPS研发完成, 经过三年发展, 迅速占领中国办公软件的大部分市场, 从1988年到1995年, 金山WPS办公软件在国内的使用率非常高, 一度达到90%以上, 曾经是一统天下。但是, DOS版本的WPS格式文件, 现在已经没人能打开了。
作为第一款国人自主研发的文字处理软件, Windows版本的金山WPS Office凭借其中文办公特色、绿色小巧、易于操作、最大限度地与微软Office产品兼容等优势, 完全能满足目前企业日常的工作办公需要。2009年, 金山软件旗下的办公软件品牌WPS Office获得微软Windows7兼容性认证。2010年5月4日, 金山软件正式推出WPS Office2010个人版, 在内存占用、打开速度、兼容性、扩展应用等方面已非常接近甚至领先于Office2007。与微软Office双向深度兼容, 还突出了互联网协同办公功能, 让用户随时随处享受到高效协同的“网络办公”环境。用户可以随时随地将自己的办公文档存储在网络空间中, 只要能上网, 就可以随时随地打开查看、编辑、修改、使用, 还可以直接共享给其他用户, 能省去发邮件和传文件的麻烦。
金山WPS产品已经成为中国政府、企业普及最为广泛的国产办公软件之一, 截至到2010年, WPS Office个人版产品用户量超过5000万, 专业版产品政府采购量超过25万套, WPS产品已经成功在国务院50多个中央部委及300多个省市级政府单位和众多大中型企业中获得应用。
四、PDF文件
PDF是Adobe公司开发的电子文件格式, 支持跨平台多媒体集成的信息出版和发布, 尤其是提供对网络信息发布的支持。PDF文档以二进制文件的形式来传输和存储数据, 采用8位二进制字节描述, PDF的文件结构包括四个部分:文件头、文件体、交叉引用表和文件尾, 一个PDF文件还包含文件中所使用的PDF格式版本, 以及文件中一些重要结构的定位信息。PDF文件格式可以将文字、字形、格式、颜色及图形图像等封装在一个文件中, 还可以包含超文本链接、声音和动态影像等电子信息。PDF文件不管是在Windows、Unix和苹果公司的Mac OS操作系统中都是通用的, 使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。PDF格式文件目前已成为数字化信息事实上的一个工业标准, 越来越多的电子图书、产品说明、公司文告、网络资料和电子邮件在使用PDF格式文件。
PDF文档即可以使用Adobe公司Illustrator软件编辑制作, 也可以使用Word2007、Wps文字等应用软件产生的页面转换成PDF文档, 对普通读者而言, 用PDF制作的电子书具有纸版书的质感和阅读效果, 保留制作当时的格式与版面, 而显示比例可任意调节, 给读者提供了自由的阅读方式。PDF支持多种不同工业标准的数据压缩算法, 通常可以得到30%—80%的压缩率, 易于在网上传输。为保护文档的真实性、完整性和机密性, PDF还提供了口令加密和数字签名两种安全保护模式, 防止未授权的用户查看或转发机密信息。
五、XML文件
XML是可扩展标记语言的缩写, 是由万维网联盟于1998年2月发布的标准, 是一种用来描述数据的标记语言。XML作为下一代Web的第一块重要基石, 为分布式的、异构的数据交换提供了强大的功能, 并且将数据本身和数据的表现分离, 同时, 就数据本身而言, 数据的值和语义也是适当分离的。XML基于ASCII的树状数据结构, 相当于层次型数据库系统, 数据可以装入简单的文本编辑器中, 这就使得数据可在多种平台上查看。XML文件中不仅包含数据的描述, 还包括显示方式的描述, 对于显示方式的描述不仅限于对文本的描述, 还可以包括矢量图形、图像、声音。数据的描述与显示方式是分开进行的, 数据的显示由XSL (可扩展样式语言) 决定, 你可以灵活的设置文档显示样式, 用户就可以将同一数据制作成HTML、PDF、WML、HDML等不同格式, 供不同的硬件显示。正因为XML文档有这么多的好处, 未来的应用程序都将使用XML的形式来存储数据, 这样, 我们所使用的字处理器、电子表格软件和数据库应该能够以纯文本的格式相互读取数据, 而不需要专用软件进行格式化才能显示出来。
我国在推动国产办公软件的同时, 也制订了基于XML的开放文档格式UOF, UOF标准在2007年5月份, 正式认定为文档格式国家标准 (GB/T 20916-2007《中文办公软件文档格式规范》) , 为今后推广和普及国家标准UOF奠定了坚实的基础。由IBM、Sun等多家大公司参与的国际标准ODF文档格式, 于2007年5月正式成为国际上第一份文档格式标准。随着国际开源浪潮的风涌, 采用开放式文档标准已是大势所趋, 办公软件文档国际标准ODF与国内标准UOF的相继确立, 无论是中国标准UOF还是国际标准ODF都是真正开放的, 可以在多个操作系统平台上、由多家厂商的软件进行支持。在微软Office2007出现之前, 微软文档格式采用二进制的封闭格式, 即大家常用的DOC、EXL、PPT等, 微软在各方势力的强大压力下, 于2007中启用开放式文档标准OOXML。由于目前支持UOF或ODF的软件, 都不能很好兼容微软Office2007, 所以, 它们产生的UOF/ODF文档与OOXML文档之间的转换只能有部分的成功。
通过以上文档格式的分析, 本人认为:PDF文档格式可以将文字、图形、图像等信息封装在一起, 一旦生成通常无法修改, 国产的WPS软件很容易将WORD文档制成PDF格式文档, 作为档案部门是一种比较好的可选择的文件格式。基于XML的开放文档格式UOF标准制成的XML文档, 是将来的文档存贮格式的发展方向。
由于计算机技术和网络技术在不断进步, 几十年后的技术发展很难预测, 现在保存的最恰当文件格式将来可能非常落后, 并且无法使用。因此, 作为档案部门, 应该随着技术的发展也要与时俱进, 不断更新技术和设备, 提高人员素质, 有专人来管理电子文件, 每隔一定的年份就将本单位保存的电子文件进行格式转换, 只有这样才能将保存的电子信息长久服务于社会。
参考文献
[1]张伟娟.中文办公软件文档格式标准探究[J].软件工程, 2008 (6) .
[2]许芳.电子文件格式转换及归档[J].中国档案, 2004 (9) .
[3]许文辉.城建影像档案电子文件的格式选择[J].城建档案, 2008 (3) .
文档格式化 篇7
电子文件已经发展成为当今社会重要、核心的信息资源, 并且涉及到国家利益和国家安全。加强电子文件管理, 确保电子文件的真实、完整、可用和安全, 对促进信息资源开发利用和推动国家信息化健康发展意义重大。标准化是电子文件管理和产业发展的技术基础, 制定版式文档格式规范对保存和使用电子文件具有积极的指导意义。
版式技术是指可以将文字、图形、图像等多种数字内容对象按照一定规则进行版面固化呈现的技术。版式文档格式简称OFD (Open Fixed-layout Document) 是一种独立于软件、硬件、操作系统、呈现/打印设备的文档格式。
目前, 国际上广泛采用的同类格式标准主要是PDF、SVG、XPS等。为了让读者更加理解我国自主制定的版式文档格式规范, 下面就该标准与这些同类标准进行比较分析。
2 格式介绍
2.1 OFD
OFD是一种适合交换和保存的文档格式。它定义了一套版式技术的标准集, 包括图形、图像、文字、复合对象、视频、音频、标注、签名、水印、交互、大纲、元数据等描述。未来会扩充安全、流式信息、表单等应用。
其主要特性如下:
(1) 低技术门槛。支持版式技术的基本集, 体系简单, 易于实现。
(2) 用XML描述, 容易理解和扩展。
(3) 接触式注释。标注位于文档节点下, 与页面正文分开, 易提取和访问。
2.2 PDF
PDF (Portable Document Format) 是一种适合交换的文档格式, 由美国著名排版与图像处理软件公司Adobe公司于1993年首次发布1.0版。PDF格式在国际上已被政府机关、业务部门、档案馆、图书馆和其他机构广泛采用作为电子文件长期保存格式, 在电子文件管理领域与档案管理领域中凸显强劲优势, 并引起国际上高度重视。
PDF特性如下:
(1) 先进的图像模型
Adobe是图形图像处理方面的翘楚, PDF在完整的二维透明矢量处理方面考虑的非常完整、全面、复杂。这是其他版式标准所不能比的。
(2) 支持设备自适应
PDF通过加入文档逻辑结构信息, 可以同时融合版式阅读和流式阅读的特性, 既可以在普通的计算机屏幕上对数字内容进行原版原式的呈现, 更可以通过页面对象的逻辑结构信息。
(3) 功能强大的交互性支持
PDF支持静态表单、动态表单、脚本编程, 以及各种业务逻辑控制和多种事件处理, 甚至应用实现控制。这些支持对于信息采集, 多媒体教学, 电子政务等公文流转非常重要。
(4) 完整的印前处理和印前交换支持
PDF是公认的印刷数据交换工业标准, 充分考虑了颜色空间、套印、呈色意向等。
(5) 递增更新和版本维护
PDF支持文件的线性化处理, 加快文档的获取、传输速度, 并可以记录版本修改历史。
2.3 SVG
SVG (Scalable Vector Graphics) 是W3C 1999年推出的一个基于XML描述的二维矢量图形格式。SVG目前仅支持单页描述, 多数情况下嵌入在其他文件格式中出现。其定位并不是电子文档, 而是互联网应用。
其特性如下:
(1) 非常适合嵌入
SVG目前的定位仅限于图元描述及单页描述, 不支持多页描述。而其本身反倒非常适合作为图元描述在其他文档格式中, 如在HTML5中就借助SVG描述其静态外观。
(2) 较强的动画效果支持
作为互联网应用中动画是一个重要的功能, SVG中的动画与SMIL (Synchronized Multimedia Integration Language) 兼容, 目前在考虑加入对SMIL全集的支持。
2.4 XPS
XPS (XML Paper Specification) 是微软公司开发的一种文档保存与查看规范。这种规范本身描述了这种格式以及分发、归档、显示以及处理XPS文档所需遵循的规则。最为显著的特点是, XPS所用的置标语言是WPF (Windows Presentation Foundation) 所用的XAML的一个子集, 因此显示Windows应用程序所用的方法可以用于XPS文档。
其特性如下:
(1) 支持更高精度动态颜色范围转换
XPS支持s RGB颜色空间, 并且完美的与Windows颜色管理系统结合, 能够保障颜色转换的精度。
(2) 与打印驱动结合兼容较好
XPS描述的许多效果如3D图像, 炽热效果及渐变能被Windows打印驱动认出而不被光栅化。
3 性能分析
3.1 OFD的性能分析
优点:
●国家自有知识产权;
●基于XML标准, 易于理解和扩展;
●支持标准的XML签名标准;
●支持版式技术的基本集, 体系简单, 易于实现;
●支持与流式兼容的底纹模型;
●标注采用非接触式, 易提取和访问;
●资源集中存放。
缺点:
●版式技术的应用描述较少, 有待扩充;
●全新标准, 有待推广。
3.2 PDF的性能分析
优点:
●完全开放;
●具备良好的动态交互特性;
●具备较高的安全可靠性;
●基于PDF的文件便于阅读和打印;
●具备线性化能力;
●支持Open Type、True Type、Type1等多种类型的字体;
●支持高质量打印;
●支持高压缩比;
●支持视力受限者阅读;
●应用领域广泛;
●目前支持该格式的软件多。
缺点:
●技术体系庞大, 实现门槛高;
●标记性PDF描述支持的晚, 造成多数PDF丢失结构化信息。
3.3 SVG的性能分析
优点:
●完全开放;
●基于XML描述, 易理解和扩展;
●较好的支持动画效果;
●较容易和互联网应用接轨;
●适合嵌入。
缺点:
●仅能做单页文档和图元描述;
●定位是互联网应用。
3.4 XPS的性能分析
优点:
●完全开放;
●包含的HD Photo图形文件格式可支持较高的色域空间;
●XPS文档在Windows环境下查看和打印效果好。
缺点:
●应用少, 主要是微软及一些相关应用中采用;
●目前支持该格式的软件少;
●为静态文档格式, 不包括类似于PDF所具有的动态特性;
●有操作系统倾向性。
4 功能比较
表1是OFD与PDF、SVG和XPS的功能对比研究。
由表1可以看出, 版式文档格式规范基于XML标准, 采用具有自主知识产权的页面描述方式, 在功能对比方面与国际同类标准相比具有一定优势。此外, 为了推动该标准的应用领域, 结合国家电子公文、电子证照等领域的应用需求, 目前已初步形成以版式文档格式规范为基础格式的电子公文标准、电子土地证标准、电子法人登记证标准等的技术方案, 体现出自主页面描述方案的优势。
5 结语
文档格式化 篇8
关键词:成果地质资料,电子文档,编排,格式
2002年3月国务院令第349号《地质资料管理条例》明确规定:成果地质资料不仅需要汇交纸介质资料, 而且还要汇交相应的电子文档。国土资源部2002年3月亦下达了“关于开展成果地质资料电子文件汇交工作的通知” (国土资发[2002]93号文) , 要求“汇交的数字化地质资料, 应符合《成果地质资料电子文件汇交格式要求》 (试行) 的规定”。自从新的资料归档办法实施以来, 作为资料汇交人感到汇交工作中存在的最大问题是电子文档的制作与验收, 笔者就电子文档制作的格式编排问题根据自己的实际工作经验与大家交流, 以完善电子文档的制作方法和技术要求。
成果地质资料电子文档分8个类别文件, 即:正文类、审批类、附图类、附表类、附件类、数据库和软件类、多媒体类、其他类。其中正文类、审批类、其他类是必须有的, 另5类视项目情况而定。重点介绍正文类、审批类、附图类电子文档制作过程中应注意的编排格式。
1 正文类电子文件制作应注意的编排格式
原地质矿产部对汇交的地质报告在编制格式上有一套严格的要求, 随着计算机技术在地质领域的广泛应用和电脑的普及, 部分要求已不完全适用, 但新的地质报告编辑格式尚未出台。为此我们在实际工作中参照原地矿部对地质报告的编辑格式结合现行电子文档汇交要求, 总结了一套切实可行的编排格式。
正文类页面规格为A4, 由报告封面、扉页、目录、正文、摘要5部分组成。
1.1 字体
1) 报告封面由报告名、工作单位、提交时间3部分组成: (1) 报告名字体为黑体、小一号、加粗、居中; (2) 工作单位字体为仿宋粗体、三号、居中; (3) 时间字体为汉字仿宋体、小三号、居中。
2) 报告扉页包括两部分内容: (1) 报告名字体为宋体、二号、加粗、居中; (2) 项目编号、任务书编号、工作起止年限、项目负责人、报告编写人、提交单位、提交时间等字体为仿宋、四号。
3) 正文字体、字号不作具体要求, 但字号不应小于五号, 行距最少不得低于单倍行距。
1.2 标题定义
报告封面、篇名、章名、节名等标题用2~5级标题命令定义, 标题阶次依次降低, 中间不跳级, 标题同一层次标题的阶次应相同。在此特别说明, 对各级标题级次不作限制, 可从1级, 也可从2级、3级起定义, 实际工作中报告题名、标题命令定义一般从2级起定义, 以防中间有漏、错需定义标题, 以免整篇报告修改, 增加工作量。
1.3 目录
地质报告的目录包括:正文目录、审批类目录、附图类目录、附表类目录、附件类目录、其他类目录。
1) 正文目录通过字处理软件的插入目录命令自动生成, 应具有超链接。
2) 审批类目录排列顺序以审批级次由高到低排列。目录须写明审批文件的审批文号、审批形式, 无审批文号的, 写上审批机构简称和审批形式。
3) 附图类目录包括:报告附图、附表附图、附件附图等。目录标题部分要包括顺序号、图号、图名、比例尺, 顺序号以张为单位, 一张一号, 连续编号, 有多少张图编多少号。
4) 附表类、附件类目录编排以册为单位编排, 附表中又含有一套附图、附表、附件等类文件时, 应将它们合并到相应的类别中, 并在电子文件登记表中进行说明。
5) 其他类目录包括:任务书、勘查许可证、地质档案文件目录、实物地质资料目录清单、成果资料著录单、汇交地质资料涉密情况登记表。
1.4 正文
1) 正文中的插图、插照、插表在计算机屏幕的显示方向向上。
2) 正文中的插图、插照、插表不能采用超链接方式, 超过A4页面, 按实际尺寸定。
3) 正文中插入的插图、插照在插入位置须先插入文本框。
4) 正文中的插图编号有两种编排方法, 一种是按章节编号, 另一种是所有插图连续编号;插照、插表编号参考插图编号。
5) 正文中插表要有表名、表头栏, 如果插表超过A4页面时, 可用续表, 续表要有表头和加“续表”字样及编号。
6) 插图、插照、图版的源图形文件要放入插图文件夹, 且图名 (照片名) 要与正文内名称相一致。
1.5 内容摘要
单独一页附在正文后面, 300~500字。摘要应反映报告主要内容、成果及重要技术参数等。
1.6 页码
1) 页码位于页面底端, 对齐方式为“居中”或“外侧”, 奇数页在右侧, 偶数页在左侧。对于特殊页面, 也可采用其他对齐方式。
2) 封面、扉页、目录、正文、内容摘要, 这几部分之间页码不连续, 用分隔符分隔开, 便于页码的编制。
3) 封面、扉页、内容摘要不编页码, 目录与正文页码编排样式应不同。
4) 对于特殊情况, 如插图、插表超过A4页面时, 可不编页码。
2 审批类电子文件制作时应注意的编排格式
1) 审批类电子文件采用栅格图形文件插入Word。
2) 注意审批文件扫描后用Photo-shop等软件整饰美观, 擦除无用信息, 再插入电子文件中。
3) 当存在多个审批验收文件时, 应按照审批级次由高到低进行编排, 同级、同类的审批文件, 按时间先后顺序由新到老进行编排。
3 附图类电子文件制作时应注意的编排格式
1) 比例尺小于或等于1∶10000的附图既要有经纬度, 又要有方立网;比例尺大于1∶10000的附图可以只有方立网。
2) 附图电子文件中的信息内容清晰可读、线条连续, 数字、符号和颜色清晰无歧义, 图上地质体的颜色与图例一致, 不丢色、严重偏色、丢线条、丢失地质信息, 图例齐全、图面注记不能重叠。
3) 附图责任签齐全, 责任签格式有两种规格, 比例尺小于或等于1∶10000的附图一般采用小责任签, 见表1;比例尺大于1∶10000的附图一般采用大责任签, 见表2。
4) 附图图名、图签图名、正文附图目录图名, 三者图名一致。
5) 用MAPGIS制作的图件, 一定要考贝系统库、字库, 并且在电子文件登记表中说明存放路径。
6) 存档类图件的分辨率不低于300dip。
4 存在的问题及建议
1) 电子文档的制作是新近几年推出的成果地质资料归档方法, 目前仍在不断修改和完善之中, 统一电子文档的编排格式是十分必要的。
文档格式化 篇9
HTML语言是超文本标记语言 (HyperText Markup Language) 的缩写, 也译为“多媒体文件语言”, 它是一种描述文档结构的语言, 而不能描述实际的表现形式。
随着WWW的普及和人们对Web日异增长的需求, 就需要不断地有新的Web语言产生。
在WWW中发布HTML文档, 大多数信息还是静态的, 而且要求服务器响应用户的交互。DHTML (Dynamic HTML) 的出现, 使Web范例从要求服务器交互改变为创建Web站点和Web应用。由于DHTML允许HTML文档与用户交互及客户机的巨大变化, 则可以创建丰富的Web应用。
DHTML并不是什么新的技术, 只不过是一些现有网页技术与标准的整合, 主要包括以下一些内容:1.HTML 4.0;2.CSS;3.浏览器对象模型;4.Script.
总结以上技术, DHTML的结构如下所是:DHTML=HTML+浏览器对象模型结构+CSS+Script
DHTML的特点如下:
1. 动态内容
通过浏览器与网页文字的对象模型, 网页不用下载, 其内容与对象即可以动态的增, 删除, 或是改变显示内容。
2. 动态样式
CSS除了可以扩展HTML标记的样式属性外, 还可以通过Script程序来改变这些属性。传统网页的内容与样式编排, 在下载到浏览器后, 即使固定的, 相比之下, 以CSS定义的样式网页, 只要通过Script控制, 网页就算已经下载显示来了, 还是可以改变其字体, 颜色, 甚至是样式的编排内容。
3. 绝对定位
以前的HTML只能定位网页对象的X, Y坐标, 现在DHTML可以定位网页对象的X, Y, Z坐标, 也就是说, 可以在网页上建立三维的立体空间。如:
尽管DHTML实现的基础 (HTML、CSS、JavaScript) 两大浏览器Netscape和IE全都支持, 但是它们实现DHTML的方法仍然是不相同的, 书写能在两种浏览器顺利执行的DHTML页面就成了一桩复杂的工作。CSS是DHTML的基础, CSS用于设定HTML元素在页面上的显示风格, 而CSS-P则是CSS的一个扩展, 它可用来控制HTML元素在网页上或者说在窗口的位置。
近来又产生了新的Web语言VRML (Virtual Reality Modeling Language) 。它是一种模型语言, 用来描述一个目标对象是如何呈现在Web上的。和HTML一样, VRML也是可由浏览器解释的描述语言, 只不过VRML不是描述成一个Page的格式, 而是描述成3D环境和目标的布局。HTML和VRML的差别与建筑物的蓝本和它的模型的差别是同一个道理。
用VRML, 我们将“看到一个新的虚拟的时代, 它将改变人们生活和工作的方式--虚拟企业、虚拟旅行、虚拟商业会谈、虚拟办公室、虚拟大学以及其他许多虚拟体验。
VRML (Virtual Reality Modeling Language) 为虚拟环境的建立提供了规范, 综合了现有三维软件的景象描述语言的优点。它有基本元素, 顶点, 线和面的定义, 坐标变换有缩放 (Scaling) , 旋转 (Rotation) 和平移 (Translation) , 并有优化的数据结构。
如果说VRML是一种语言的话, 显然VRML浏览器就是它的解释器。VRML浏览器的主要功能是读入VRML代码文件, 并把它解释成一图形映象。目前VRML浏览器软件种类很多, 如:Netscape公司的Live3D, Paper Software公司的WebFX, SGI和Template Graphics Software公司的WebSpace, InterVista软件公司的World View, 以及Microsoft公司的Virtual Explorer等等。它们基本上实现了物体的变换效果, 如灯光, 视角变换, 模糊, 裁剪, 阴影, 投影, 碰撞?
VRML语言具有的基本物体有:球体, 锥体, 柱体, 立方体, 文本等为创建景象提供了方便, 如下面为建立一球体的实例。
目前有许多创建VRML文件的模型软件, 并且有许多软件可以把其他三维格式的文件转换成VRML文件, 如3DS, RAW等。VRML的出现使得虚拟现实象多媒体和因特网一样逐渐走进我们的生活, 简单地说, 以VRML为基础的第二代万维网=多媒体+虚拟现实+因特网。第一代万维网是一种访问文档的媒体, 能够提供阅读的感受, 使那些对Windows风格的PC环境熟悉的人们容易使用因特网, 而以VRML为核心的第二代万维网将使用户如身处真实世界, 在一个三维环境里随意探xiong因特网上无比丰富的巨大信息资源。每个人都可以从不同的路线进入虚拟世界, 和虚拟物体交互, 这样控制感受的就不再是计算机, 而是用户自己, 人们可以以习惯的自然方式访问各种场所, 在虚拟社区中“直接”交谈和交往。事实上, 目前采用VRML技术取得成功的案例已经很多, 例如探路者到达火星后的信息就是利用VRML在因特网上即时发布的, 网络用户可以以三维方式随探路者探索火星。
总之, VRML将创造一种融多媒体、三维图形、网络通讯、虚拟现实为一体的新型媒体, 兼具先进性和普及性。
HTML只是一种表达的技术, 它并不一定能揭示HTML tag中说揭示的含义.举一个最简单的例子,
Apple
这句话在网络浏览器中有特定的表现, 但是HTML却并没有告诉我们它倒底是什么, Apple只是一个英文单词罢了, 它在不同的环境之下可能会有不同的意义, 是一个计算机公司, 还是一个水果?HTML并没有告诉我们Apple具体的内容, HTML中有一个大问题就是它的tag的集合是固定的.用户不能新增有意义的能供他人使用的tag, 网络浏览器是一个应用平台, 以HTML作为数据标准, 网络上的应用程序依赖服务器上的CGI (公共网关接口) 脚本来处理网页上的数据, 这样的结构是非常清晰的, 但HTML却使在服务器的一端要处理的数据量过大.这使得网络速度降低, 效率不高.SGML (通用标记语言标准ISO 8879:1986) 是HTML的前身技术.它是文件和文件中信息的构成主体.SGML与HTML不同.它允许用户扩展tag集合, 允许用户建立一定的规则.SGML所产生的tag集合是用来描叙信息段特征的, 而HTML仅仅只是一个tag集合.所以我们可以说HTML是一个SGML的子集。
XML开发者源于SGML的设计和应用者, 他们已经在SGML上投入了大量精力, 但却发现SGML并没有完全发挥作用。早在Seattle会议之前, Bosak和一些精心挑选的SGML结构信息专家就已向W3C提出了“网络上的SGML”计划.W3C支持并赞助了他们的努力。工作于1996年7月正式开始起动。工作的早期, 有较大的阻力。因为也存在反对SGML的人, 一些制定XML标准的W3C代表甚至声称“网络上的SGML”是不可能实现, 工作组 (原称“SGML编辑审议委员会”) 并未退缩。他们打算让SGML以全新的面目出现在网上, 给SGML以全新的面貌, 故给它命名为“可扩展标识语言”, 即XML。
工作组制定了一个计划来展示XML特色的计划, 计划的实施分三部分:
(1) XML的句法。
(2) XLL (可扩展链接语言) :XML的语义链接。
(3) XSL (可扩展类型语言) :XML的表现。
XML 1.0版本标准由W3C正式批准公布于1998年1月10日.XLL和XSL的工作还正在进行。
XML语言, XML名域和DOM是W3C建议的, 这是W3C发展过程中决定性的一步。由于它们已经成为正式的规范, 开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型, XML可以从存在的数据中产生出来。使用XML结构化的数据可以从商业规范和表现形式中分离出来。
CSS仍然被应用于结构简单的XML数据, 并且也很有用。但是, CSS不提供与数据源结构不同的数据显示结构。使用XSL, 可以产生与原来的XML数据结构完全不同的表达结构。
XML的一个主要目标市场是电子商务。传统EDI (电子数据交换) 机制依靠不同商业之间的强大计算机系统来实现压缩的信息传输, 每一条信息在传输使用, 提供给用户之前都必须编码。电子商务在网上运作时用户端每填完一个HTML的表格之后, 都要把表格法还给初始的服务器处理。产品交易, 谈判签约, 后勤管理, 税收报表等等这一些活动的数据处理都集中在了一端。可以预测到, 有了XLL所链接的行为控制机构和XSL所提供的客户端评价功能, 将来的数据可以从屏幕上抓取, 有必要的话可在客户端处理, 在处理数据时, 传输给相关用户而不必要改换数据格式, 一个类似的协议是OTP (开放网络贸易协议) 。它的草稿最初是于1998年1月发布的。这个协议的制定是为了满足在网上。消费者和销售者之间交易时消息的传输。它同时也允许第三方, 比如说供货商, 市场评估机构, 消费者保护机构等来参与使用。
XML的应用弥补了许多HTML的缺陷, 我们把它在网上的应用总结为四点:
1.当网络客户必须在不同的数据库之间传递信息时的应用。
2. 当需要把大部分从网络服务器载下的数据在用户端处理时的应用。
3. 当相同的数据对于不同的用户需要有不同的界面时的应用。
4. 当网络情报供货商要把发现的信息精心裁减, 并发送给不同的个人用户时的应用。
可以看到, 网络继续以很快的速度在发展。“无论XML和元数据标签过时与否, 可以肯定将来的网络会以比现在的网络文档更灵活的方式提供更多的信息。网络代表着很多人的艰苦工作, 这些人遍布全球各地, 但希望和他们所关心的同事和客户交换信息的愿望使他们组织到一起。XML和元数据的使用——或其他—些相似的技术——将会使用户管理大量的信息, 并使信息的选择和表现形式符合他们明确的需求。” (选自 (2) )
参考文献
[1]《贝尔实验室》
【文档格式化】推荐阅读:
文档格式06-16
文档格式转换08-04
常见文档格式02-17
word文档合同格式09-10
公司文档格式规范通知11-16
办公文件文档格式规范12-10
word文档报告规范格式10-20
工作证明word文档格式11-24
国际工程招标文档格式12-04