结构化Word论文

2024-09-12

结构化Word论文(共4篇)

结构化Word论文 篇1

一、引言

Office文档所采取的“复合文档二进制结构”一直是微软公司的技术秘密,至今未向外界公布。但是随着宏病毒的出现,一些反病毒技术人员对Word、Excel文件进行了逆向分析,基本上了解了微软Office文档的组成和其中的含义。本文基于“复合文档二进制结构”对Word文档的结构进行分析,并针对由于文件头的损坏,文档不能正常打开或打开后乱码这种现象,提出一种Word文档恢复的方法。

二、Word文档结构分析

“复合文档”是微软引入的一种在文件内部存放结构化信息的方法。如果一篇文章没有任何格式信息和嵌入的图像,那么使用没有任何结构的文件格式就可以了;但是一篇完善的文章里面可能有不同的段落,每个段落可能有不同的格式、字体和颜色,段落之间可能还有插图,这样简单的无格式文本就无法满足需要了。所以,需要在文件的内部存放很大结构,包括段落的文字、段落的字体,甚至段落本身的信息等。针对这种需求,微软开发了一种“文件中的文件系统”,也就是“复合文档”结构。Microsoft Office的Word(97-2007)生成的文档的结构属于Microsoft Compound Document即微软复合文档类型。

1、复合文档总体结构

复合文档的原理就像一个文件系统(文件系统:如FAT与NTFS)。复合文档将数据分成许多流(Streams),这些流又存储在不同的仓库(Storages)里。将复合文档想象成你的D盘,D盘用的是NTFS(NT File System)格式,流就相当于D盘里的文件,仓库就相当于D盘里的文件夹。

每个复合文件都有一个根仓库(Root Storage),某个仓库(storage)下的仓库(storage)和流(stream)不能同名,一个流(stream)可以属于多个仓库(storage)。复合文件这些特点与文件系统也是一致的。微软复合文档结构如图1所示。

所有的流又分成更小的数据块,叫做数据扇区(sectors)。Sectors可能包含控制数据或用户数据。整个文件由一个头(Header)结构以及其后的所有Sectors组成。Sectors的大小在头中确定,且每个Sectors的大小都相同。Sectors简单的以其在文件中的顺序列举,一个扇区的索引(从0开始)叫做扇区标识(SID:sector identifier)。SID是一个有符号的32位的整型值。如果一个SID的值非负,就表示真正存在的那个Sector;如果为负,就表示特殊的含义。用于存储流数据的所有Sectors的列表叫做扇区链(Sector Chain)。这些Sectors可以是无序的。因此用于指定一个流的Sectors的顺序的SID数组就称为SID chain。一个SID chain总是以End Of Chain SID(-2)为结束标记。流的SID链是通过扇区配置表构建的。

主扇区配置表(MSAT:master sector allocation table)是一个SID数组,指明了所有用于存放扇区配置表(SAT:sector allocation table)的sector的SID。MSAT的大小(SID个数)就等于存放SAT的sector数,在头中指明。

扇区配置表(SAT:sector allocation table)是一个SID数组,包含所有用户流(短流除外)和内部控制流的SID链。SAT的大小(SID个数)就等于复合文档中所存在的sector的个数。SAT的建立就是通过按顺序读取MSAT中指定的sector中的内容。

当一个流的大小小于指定的值(在头中指定),就称为短流(short-stream)。短流并不是直接使用sector存放数据,而是内含在一种特殊的内部控制流———短流存放流(short-stream container stream)中。短流存放流象其他的用户流一样:先从目录中的根仓库入口(root storage entry)获得第一个使用的sector,其SID链从SAT中获得。然后此流将其所占用的sectors分成short-sector,以便用来存放短流。

短扇区配置表(SSAT:short-sector allocation table)是一个SID数组,包含所有短流的SID链。用于存放SSAT的第一个sector的SID在头中指定,其余的SID链从SAT中获得。

目录(directory)是一种内部控制流,由一系列目录入口(directory entry)组成。每一个目录入口都指向复合文档的一个仓库或流。目录入口以其在目录流中出现的顺序被列举,一个以0开始的目录入口索引称为目录入口标识(DID:directory entry identifier)。根目录入口(Root Entry)由很多目录入口(Directory Entry)组成,每一个目录入口都指向复合文档的一个仓库或流。

2、Word文档头部特征

Word文档头在文件的开始,且其大小必定为512字节。这意味着第一个Sector的开始相对文件的偏移量为512字节。Word文档头描述着这个文档的重要参数信息,其结构如表1所示。

三、Word文档头部重组

Word文件主要由文件头部、数据流、SAT、根目录、SSAT、短数据流组成,且他们的存放顺序相对固定,关于它们的一些参数存放在文件头部。因此如果文档头部遭到破坏,与文档结构相关的参数信息就会丢失,文档必然无法打开或打开后乱码。

本文提出的Word文档头部重组的思路是:根据文档结构,结合各部分特征值,分析出头部遭到破坏所丢失的各个参数。具体方法是,首先拷贝一个正常的文件头至待修复文件的头部,然后修改相应参数。需要分析的参数包括,SAT的Sec ID、SAT的sector总数、目录流的Sec ID、SSAT的Sec ID、SSAT的sector总数、MSAT的Sec ID、MSAT的总数。具体分析过程如下:

第一步,根据目录流的标识Root Entry,查找目录流的Sec ID。

第二步,在目录流之后,根据SSAT的特征,确定SSAT的Sec ID和扇区总数。即扇区相对偏移00H~03H取值为01 00 0000,确定SSAT的Sec ID;SSAT的结束为FF FF FF FF,确定SSAT的sector总数。

第三步,在目录流之前,根据SAT的特征,确定SAT的Sec ID和扇区总数。特征与SSAT相同。

第四步,根据SAT的扇区总数,确定MSAT的Sec ID和扇区总数。如果SAT的扇区总数没有超过109,MSAT的Sec ID应为FE FF FF FF(结束标志)、扇区总数应为0;否则,SID链的前后位置关系Sec ID和扇区总数。

第五步,把以上分析出的参数转换为十六进制,填写到文档头部相应的位置上去。

至此,Word文档头部重组完成,与文档头部相关的问题即得到解决。

四、结语

本文针对Word文档头部遭到损坏,给出了具体的解决方法,经验证具有良好效果。该方法适用于Office 2007以前版本的MS Word文档恢复,即.doc文档的恢复,对基于OPEN XML结构的.docx文档的恢复有待进一步研究。

摘要:文档打不开或打开后乱码,是计算机用户处理Word文档时经常遇到的问题。本文首先基于“复合文档二进制结构”对Word文档结构进行了分析,然后针对文档头部遭到破坏,提出了基于文件结构、进行特征匹配的数据恢复方法。该方法经验证具有良好效果。

关键词:Word,复合文档,数据恢复

参考文献

[1]沙晶,钱伟.微软复合文档结构分析及文件恢复[J].中国司法鉴定,2011(6):59-61.

[2]胡敏等.Windows下基于文件特征的数据恢复算法[J].计算机应用.2011(2)528-529.

[3]张雪峰,黄志炜.基于编码方式的文档恢复技术[C].第26次全国计算机安全学术交流会论文集,2011(9):157-158.

[4]作者不详,Excel文件碎片数据恢复方法研究[D],山东科技大学工程硕士学位论文,33-44.

[5]复合文档文件格式研究[EB/OL].http://hi.baidu.com/lvoids/item/5bdf3259ca6c8214da1635ec

结构化Word论文 篇2

第1步,打开Word2007窗口,切换到“视图”功能区。在“视图”功能区的“显示/隐藏”分组中选中“文档结构图”复选框,如图1所示,

第2步,在打开的“文档结构图”窗格中可以看到文档的标题结构,如图2所示。

点击阅读更多学院相关文章>>

分享到

结构化Word论文 篇3

编排Word长文档关键是要合理组织文字、图形、表格的结构和框架,统一格式,顺序编号,前后一致。

一、应用“样式”规范文字格式

样式是一组用于编辑的格式命令,它把字体、段落、边框、语言、制表位、图文框和编号等格式的设定整合为一体,便于用户直接应用。应用样式既可以保持文档的一致性,如同级别的各个标题的字体、字号、字形、行距等完全一致;又可以大幅度减少编辑工作量,如当将某个段落样式应用到一个段落后,该段落即具备了该样式所规定的各项格式,而不必进行单项格式的设置,如果要对排版格式做调整,只需一次性修改相关样式即可。

应用样式是建立长文档框架结构的关键。在Word长文档编排过程中,除正文外,一般标题需直接应用Word提供的标题样式,这样才可以由Word自动生成各种目录。当然,用户可根据需要修改样式和自定义样式。

1、应用样式

先选定需要运用样式的文字或段落对象,单击格式工具栏左侧的样式下拉列表框,选择定需要的样式,即可应用样式。

2、新建样式

(1)单击“格式”/“样式和格式”菜单,打开“格式和格式”窗格;(2)为了减少工作量,在“格式和格式”窗格中选定中一个与将要新建样式的格式差别不大的样式,单击“新样式”按钮,打开“新建样式”对话框;(3)在名称框中键入新建样式的名字;(4)单击“格式”按钮,再逐个单击需要更改的格式类别,然后进行设置;(5)新建样式若需添加至模板中,则选中“添加到模板”,若需自动更新,则选中“自动更新”,结果如图1所示。

3、修改样式

(1)选择需要修改样式的文字;(2)单击“格式”/“样式和格式”菜单,打开“格式和格式”窗格;(3)单击样式框右侧的下拉列表箭头,单击“修改”命令,打开“修改样式”对话框;(4)单击“格式”按钮,再逐个单击需要更改的格式类别,然后进行设置,其操作过程如新建样式类似。

二、应用“多级符号”自动编号标题

在Word长文档中,章节的顺序号并不是由手工来计数的,而是由Word按照一定的规则自动编号的。自动编号既能保证编号数据不发生错误,章节顺序更改后编号数值也能自动调整;还能为图形、表格等按章节顺序分章编号提供依据。

目前流行的多级标题编号是“1、1.1、1.1.1……”格式,一般来说,符号等级与标题等级是相匹配的。即1对应标题1、1.1对应标题2、1.1.1对应标题3…。如图2所示就是一个多级编号标题的样例,其中,标题1对应的是“第1章”。

多级符号自动编号标题的方法:

(1)在文档中选择一级标题,应用“标题1”样式,选择“格式”/“项目符号和编号”菜单,打开“项目符号和编号”对话框,选择“多级编号”选项卡,选中一种编号方案,再单击“自定义”按钮,打开“自定义多级符号列表”对话框,选中“级别”列表框内的“1”,然后选择编号样式为“1、2、3”,在编号格式框内“1”字符之前输入“第”,之后输入“章”。这样设置表示文档中一级标题段落按“第X章”格式编号;

(2)在文档中选择二级标题,应用“标题2”样式,在“自定义多级符号列表”对话框中选中“级别”列表框内的“2”,先通过“前一级别编号”添加一级标题编号“1”到“编号格式”处,再直接键入分隔符“.”,再选择编号样式为“1、2、3”,就可以把二级标题设置成“1.1”编号格式,如图3所示。

(3)同样的方法可以设置三级标题编号“1.1.1”。

三、应用“题注”和“交叉引用”配对标注图表

长文档中,图形和表格要求按在章节中出现的顺序分章编号,如图1-1,表2-1。同样图、表的编号和引用也不是手工实现的,否则会给文档的修改带来无穷的后患。

图形和表格的编号是通过设置题注的编号来完成,而正文文字中的引用{如“参见第x章、如图x所示”}则是通过使用交叉引用来实现的。当文档插入或删除新的图表以后,所有的编号和引用都将自动更新,无需人力维护,并且可以自动生成图、表目录。

1、插入题注

(1)在Word长文档中,选中插入的图片,单击鼠标右键,在弹出的菜单中选择“题注”命令,打开“题注”对话框,单击“新建标签”按钮,在弹出如图4所示的“新建标签”对话框中输入“图”,“确定”后即可生成图的题注;

(2)在“题注”对话框中,单击“编号”按钮,打开“题注编号”对话框,选择“包含章节号”,选择“章节起始样式”和“使用分隔符”,插入的题注就变成图X-X格式。

2、使用交叉引用

将光标定位在正文文字中需要引用图表说明的位置,执行“插入”/“引用”/“交叉引用”菜单命令,打开“交叉引用”对话框,在“引用类型”下拉列表内选择“图”,在“引用内容”下拉列表内选择“只有标签和编号”,然后在“引用哪一个题注”列表框内选中“图X-X”,确定后,就设置了图X-X的引用说明。

四、应用“目录”自动生成文档框架

目录是文档中各级标题的列表,它通常位于文章扉页之后。目录的作用在于方便阅读者可以快速地检阅或定位到感兴趣的内容,同时比较容易了解文章的纲目结构。

目录一般放在正文的前面。先在正文前插入一新页,光标移到新页的开始,添加“目录”二字,并设置好格式。再新建一个段落,选择“插入”/“引用”/“索引和目录”菜单项,在弹出如图7所示的“索引和目录”对话框选择“目录”选项卡,在“格式”列表框中选择目录的风格,在“显示级别”列表框中选择应用样式的级别,单击“确定”按钮,就可以生成目录。

五、应用“节”任意调整页码

长文档中间需要调整页码时,在该页或前一页插入一个“分节符”,就可以任意设置该页的页码数字。

1、插入分节符

单击“插入”菜单中的“分隔符”命令,出现一个如图8所示的“分隔符”的对话框,插入分节符。

2、插入页码

光标定位到需要调整页码的页面,执行“视图”/“页眉页脚”菜单命令,光标出现在该页的页眉处,并自动弹出“页眉页脚”工具栏,单击“页眉和页脚”工具栏上的“在页眉和页脚间切换”按钮,将光标切换到页脚处,单击“页眉页脚”工具栏上的“与上一节相同”按钮。

单击工具栏上的“插入页码”按钮,把页码插入到页脚上。

单击“页眉页脚”工具栏上的“设置页码格式”按钮,弹出如图9所示的“页码格式”对话框,将“起始页码”设为“1”,当前页

六、应用“大纲视图”组织文档

制作长文档要养成良好的工作理念,先建立好文档的纲目结构,然后再进行具体内容的填充。这样不仅有利于指导自己快速地完成实际内容的写作,而且也方便了阅读者的理解。

1、在大纲视图下进行工作

建立Word空白文档后,单击“大纲视图”按钮,切换到大纲视图。

2、建立纲目结构

直接在页面输入一级标题、二级标题文字,设置文档纲目结构。可通过大纲工具栏上的“提升”、“降低”、“降为正文文本”按钮来更改标题级别,还通过大纲工具栏上的“上移”或“下移”按钮来改变标题位置。

3、合理创建子文档

主控文档是子文档的一个“容器”。每一个子文档都是独立存在于磁盘中的文档,它们可以在主控文档中打开,受主控文档控制;也可以单独打开。

选定要拆分为子文档的标题和文本,直接用鼠标单击标题前的空心十字符号即可。再单击大纲工具栏中的“创建子文档”按钮,选定内容将创建为子文档。

摘要:本文通过详细讲解如何灵活运用Word的各种命令来编排Word文字、图形、表格混合的长文档,使人们在日常的Word办公应用中的排版更简单直接,且达到更好的图文效果。

关键词:Word长文档,命令,灵活运用,编排

参考文献

[1]万德年.计算机应用基础[M]人民邮电出版社2006.

结构化Word论文 篇4

查字典地理网小编特为老师们整理了名师地理教学工作反思范例,希望能帮助老师们的教学。

在高中地理必修2《城市的空间结构》中,课程标准是运用实例,分析城市的空间结构,解释其形成的原因。对于本节中应重点认识城市各功能区的空间分布特点,如果运用传统教法,必然枯燥乏味,学生没有积极性。本人在教学中尝试运用网络探究式教学,通过案例分析,养成学以致用、理论联系实际的习惯,学生整节课兴趣大,探究热情高,教学效果好。

1.在探究城市空间结构的概念中,如何摆脱平铺直叙、枯燥和乏味的概念讲解,使地处山区的学生通俗易懂地理解城市空间结构的有关知识。在教学中我设计如下探究问题:①城市有哪些要素组成?②这些要素的分布有规律吗?让学生带问题探究思考,然后用googleearth点击进入北京市,让学生直观接触城市的各个组成要素(如商场、工厂、居住区、学校、科研机构、行政中心、公园、体育场等)通过网络探究,学生很容易知道城市的各个组成要素在空间分布上相对集中,并形成有规律的组合,即形成城市地域结构,自然而然得出城市空间结构的概念。

2.如何探究城市主要功能区的空间分布规律及其特点?

①运用googleearth直接进入纽约曼哈顿,让学生观察得

第 1 页第 1 页 出中心商务区的位置──市中心;特点──建筑物高大密集、交通通信发达、经济活动最繁忙。

②运用电子地图进入北京市,通过查找主要商业区,如王府井、西单、前门等,学生很快看出商业区主要由百货商店、专业商店、酒店等组成及其处于市中心的位置。

③通过googleearth很容易观察看出住宅区是分布最广泛的一种土地利用方式。

④运用googleearth进入燕山石化工业区,观察工业区分布的位置有何特点?通过观察,学生容易直接看出工业区里有大厂房、高烟窗、铁路、公路、职工住房,和位于市区边缘的这些特点。

总之,本节课通过问题的设计和运用网络探究的效果明显,信息丰富,直观易懂,学生兴趣大,易接受。但也存在一些问题,图像不是很清晰,最好的办法是开展第二课堂活动,由学生进行实践操作查找,培养学生自主探究、合作以及查找和处理资料、信息的能力。

更多地理教学经验分享,尽在查字典地理网!

上一篇:多媒体课件使用之误区下一篇:加固地基