科技格式

2024-09-22

科技格式(通用9篇)

科技格式 篇1

中国对于科技图书的格式体例有系统而完整的规范, 这些规范非常严格, 又是图书质量检查的重要方面, 同时, 国内的作者们对于格式体例的要求却非常不熟悉, 大多数时候也不在意, 因而按规范校正各种体例成了国内理科图书编辑们的一项重要而压力很大的工作, 占用了大量的人力。随着与国外科技交流的密切进行, 国内学者及学生对于国外科技图书的阅读逐年增多。同时, 国内一些学者也开始在国外以外文出版他们的学术著作。同时还发现, 国外和国内对于科技图书的体例要求并不相同。相比较而言, 国外对体例的要求较为灵活, 但也有约定俗成的一些习惯。该文的目的是选择一些典型的例子, 对二者的规范或习惯加以比较, 目的是既能给予中国的读者和作者以帮助。也希望能从二者的对比中得到对于国内编辑工作的一些启发。

1 具体的一些体例对比

在这一节中我们会选择一些科技书中常见的, 但在中外书籍中非常不同的一些体例约定做对比, 目的是为下一节的讨论建立基础。

1.1 正斜体

目前, 已经进入电子稿件时代。在这种稿件中, 作者原稿的正斜体其实基本是统一的, 但一般都不符合国内的标准, 因此, 需要重新标注。有过科技图书编辑工作经验的人, 一定会对标改正斜体的工作印象深刻。这是一个非常烦琐而极其容易出错的点。例如:

(1) 圆周率π。

圆周率π在中国的标准中应该排成正体。但在国外的绝大部分图书中, π都排成斜体, 如图1所示。只有少部分排成正体。

(2) 虚数单位i。

虚数单位i在中文图书中规定用正体, 但在国外图书中多用斜体, 如图2所示。同样, 也有少部分国外图书用正体。

(3) 自然对数底e。

在中文图书中, 自然对数底e用正体, 但在外文书中多用斜体, 如图3所示。依然有少部分国外图书用正体。

1.2 图表中单位的表示法

图表中对于单位的表示, 国内图书普遍采用一种称为“量代数”的表示法, 用“/单位”的形式表示, 如图4所示。这种规范的出发点是, 一个物理量的值是由数值和相应的单位相乘而成, 因而图表中的数值就是该量除以单位所得, 因此, 在单位前面要加上斜线为除号。

而国外的图书中, 几乎全部用的是“ (单位) ”的表示法, 如图5所示。这种写法意义更加自然, 就是告诉读者, 图表中数值对应的单位是什么。

1.3 参考文献

文后的参考文献著录格式, 在中国和外国科技图书中区别很大。在国内的规范中, 文献的各主要构成因素间, 基本以句点“.”相分隔, 各因素内部再以逗号、冒号等分开。如图6所示。

国外用这种格式的较少, 多数以逗号分隔各要素, 如图7所示。这与国外英文条目中经常有缩略点, 容易与句点相混淆有关。

2 对于中外不同格式体例的分析

国内国外格式体例的不同, 当然有习惯问题, 但也有一些其他原因。我们在这里分析一下这种原因, 也讨论一下二者的优劣。

(1) 国内对于数学常数规定为正体, 事实上便于区分有特殊意义的常数和没什么意义的普通数, 或者区分意义不同的常数。比如:虚数单位i, 规定为正体, 就可以和一般表示序数的i, j, k中的i相区别。又比如自然对数底e规定为整体, 就可以和物理中的电子电荷e相区别等等。在这个意义上, 国内的规定是有其作用的。至于国外, 并没有考虑对正斜体加以规范, 而只是加以统一。特别地, 国外科技图书多用latex软件来排版。在这一软件中, 公式中的字母排斜体是默认的, 无论是变量还是常数, 而排正体则要输入特殊的命令, 花费额外的精力, 这也是造成国外图书中常数多为斜体的原因。

一方面, 中国的规定在多数时候的确更清楚, 但也要看到, 在比较复杂的公式里, 这些正斜体的规定并不能很好地区分各种量, 有时还会引起混乱。比如:在量子场论中, u既表示夸克粒子, 也表示夸克场算符, 如果按规定, 则前一种意义应该用正体, 后一种意义应该用斜体, 然而这会导致公式和行文中这一字母忽正忽斜, 容易造成遗漏不说, 对于读者阅读也会造成不便。

从另一方面说, 能够读懂科技图书的读者, 其实并不需要编辑去设置正斜体来避免误解, 甚至对这一设定完全没有印象, 这在我们作为读者时是深有感触的。而且, 国外的正斜体不加区分, 也并没有造成教育或科技水平的退步。

(2) 单位表示法。

关于这一点, 笔者认为, 中国采用的量代数的表示法并无任何好处和必要, 相反还会造成很多不便。物理量除单位这种表示方法, 与国外的加括号, 括号中给出单位的方法相比, 表达的意思并没有变清晰, 所谓的严谨性也无从谈起, 不能说物理量除单位这种表示就比括号里写单位这种严谨。

无论从作者还是读者的角度, 国外的表示方法都更加方便, 更加清晰易懂。而且, 广大作者对出版的这种规定并不熟悉, 原稿中多是用加括号的形式, 强制使用量代数的表示法给编辑工作也带来了很大负担, 有时还难以获得作者的支持。

(3) 参考文献。

参考文献的规定与前面的几处规定并不同。可以说中国的参考文献著录格式是根据中文的特点而设定的, 正如外国的格式是根据英文的特点设定的一样。因此, 对于中文参考文献, 执行中国的规定既符合规范, 也是比较好看的。但是, 现在很多科技图书的参考文献都是中英文混杂的, 甚至英文参考文献比中文还多。在这种混编的情况下, 使用国外的习惯有时也会显得方便。

3 讨论

编辑工作是总结、传递知识的重要工作, 读者是编辑所服务的主要对象, 而作者则是编辑重要的合作者。从这一性质考虑, 科技图书编辑工作的基本目标是审核、整理、订正作者所提供的书稿, 保证成书时所传递内容, 在科学性没有问题的前提下, 正确传达作者意图, 而且结构严谨、叙述条理清晰, 便于读者理解。至于体例、格式等等, 无一不是为这一目标服务的。另外, 对读者来说, 体例格式最重要的是全书自身统一。

当今编辑工作量非常饱和, 可否在保证图书本身质量的前提下, 对于并不能带给作者和读者益处的一些纯粹的规矩, 比如:正斜体、量代数等等, 是否可以放松一些, 使得编辑们能够把精力投入到更重要的把握知识内容中去?

参考文献

[1]教育部语言文字信息管理司.标点符号用法:GB/T 15834-2011[S].北京:中国标准出版社, 2012.

[2]宋菲君, Jutamulia S.近代光学信息处理[M].2版.北京:北京大学出版社, 2014.

[3]Ridley B K.Electrons and Phonons in Semiconductor Multilayers.Second Edition[M].New York:Cambridge University Press, 2009.

科技格式 篇2

论文的题目是科技论文的必要组成部分。它要求用简洁、恰当的词组反映文章的特定内容,论文的主题明白无误地告诉读者,并且使之具有画龙点睛,启迪读者兴趣的功能。一般情况下,题目中应包括文章的主要关键词。题名像一条标签,切忌用较长的主、谓、宾语结构的完整语句逐点描述论文的内容,以保证达到“简洁”的要求;而“恰当”的要求应反映在用词的中肯、醒目、好读好记上。当然,也要避免过分笼统或哗众取宠的所谓简洁,缺乏可检索性,以至于名实不符或无法反映出每篇文章应有的特色。题名应简短,不应很长,一般不宜超过20个汉字。

2 署名

著者署名是科技论文的必要组成部分。著者系指在论文主题内容的构思、具体研究工作的执行及撰稿执笔等方面的全部或局部上作出的主要贡献的人员,能够对论文的主要内容负责答辩的人员,是论文的法定权人和责任者。署名人数不该太多,对论文涉及的部分内容作过咨询、给过某种帮助或参与常规劳务的人员不宜按著者身份署名,但可以注明他们曾参与了哪一部分具体工作,或通过文末致谢的方式对他们的贡献和劳动表示谢意。合写 论文的著者应按论文工作贡献的多少顺序排列。著者的姓名应给全名,一般用真实姓名。同时还应给出著者完成研究工作的单位或著者所在的工作单位或通信地址。

3 文摘

文摘是现代科技论文的必要附加部分,只有极短的文章才能省略。文摘是以提供文献内容梗概为目的,不加评论和补充解释,简明确切地记述文献重要内容的短文,应包括目的、方法、结果、结论。文摘有两种写法:报道性文摘—指明一次文献的主题范围及内容梗概的简明文摘也称简介;指示性文摘—指示一次文献的陈述主题及取得的成果性质和水平的简明文摘。介乎其间的是报道、指示性文摘—以报道性文摘形式表述一次文献中信息价值较高的部分,而以指示性文摘形式表述其余部分的文摘。一般的科技论文都应尽量写成报道性文摘,而对综述性、资料性或评论性的文章可写成指示性或报道、指示性文摘。文摘可作者自己写,也可由编者写。编写时要客观、如实地反映一次文献;要着重反映文稿中的新观点;不要重复本学科领域已成常识的内容;不要简单地重复题名中已有的信息;书写要合乎语法,尽量同文稿的文体保持一致;结构要严谨,表达要简明,语义要确切;要用第三人称的写法。摘要字数一般在300字左右。

4 关键词

为了便于读者从浩如烟海的书刊中寻找文献,特别是适应计算机自动检索的需要,应在文摘后给出3-8个关键词。选能反映文献特征内容,通用性比较强的关键词。首先要选列人似语主题词一劫的规范性词。

5 引言

论文的引言(前言、序言、概述)经常作为科技论文的开端,主要回答“为什么”(Why)这个问题。它简明介绍科技论文的背景、相关领域的前人研究历史与现状(有时亦称这部分为文献综述),以及著者的意图与分析依据,包括科技论文的追求目标、研究范围和理论、技术方案的选取等。引言应言简意赅,不要等同于文摘,或成为文摘的注释。

6 正文

论文的正文是科技论文的核心组成部分,主要回答“怎么研究”(how)这个问题。正文应充分阐明科技论文的观点、原理、方法及具体达到预期目标的整个过程,并且突出一个“新”字,以反映 科技论文具有的首创性。根据需要,论文可以分层深人,逐层剖析,按层设分层标题。科技论文写作不要求文字华丽,但要求思路清晰,合乎逻辑,用语简洁准确、明快流畅;内容务求客观、科学、完备,要尽量让事实和数据说话;凡用简要的文字能够说清楚的,应用文字陈述,用文字不容易说明白或说起来比较繁琐的,应由表或图来陈述。物理量和单位应采用法定计量单位。

7 结论

论文的结论是整篇文章的最后总结。结论不是科技论文的必要组成部分。主要是回答“研究出什么”(What)。它应该以正文中的试验或考察中得到的现象、数据和阐述分析作为依据,由此完整、准确、简洁地指出:一是由研究对象进行考察或实验得到的结果所揭示的原理及其普遍性;二是研究中有无发现例外或本论文尚难以解释和解决的问题;三是与先前已经发表过的(包括他人或著者自己)研究工作的异同;四是本论文在理论上与实用上的意义与价值;五是对进一步深人研究本课题的建议。

8 参考文献

参考文献是反映文稿的科学依据和著者尊重他人研究成果而向读者提供文中引用有关资料的出处,或为了节约篇幅和叙述方便,提供在论文中提及而没有展开的有关内容的详尽文本。被列入的论文参考文献应该只限于那些著者亲自阅读过和论文中引用过,而且正式发表的出版物,或其他有关档案资料,包括专利等文献。

附:如何写科技论文

一篇好的科技论文不光主题突出,论点鲜明,还应结构严谨,层次分明。要安排好结构,一般应遵循以下5个原则:

一是围绕主题,选择有代表性的典型材料,根据需要,加以适当安排,使主题思想得到鲜明突出的表现。

二是疏通思路,正确反映客观事物的规律,就是说,必须反映客观事物的实际情况,内部联系,符合人们的认识规律。

三是结构要完整而统一,符合客观事物的实际情况;客观事物的发展必然经过开始、中间、结尾3个阶段,同样每篇文章也必然经过3个阶段。

四是要层次分明,有条不紊。文章结构中最重要的是层次。层次就是文章中材料的次序。写文章时把所选材料分成若干部分,按照主题思想的需要,适当安排,分出轻重缓急,依次表达,前后连贯,充分而鲜明地把主题思想表达出来。

科技格式 篇3

本模板由大众科技 (Popular Science&Technology, PST) 杂志社编委会制作, 提出了PST出版各种科技论文的格式要求, 为作者提供文章排版的格式规范。本模板用MS Word制作, 适用于使用MS Word编排论文的作者。PST建议所有向PST投稿的作者使用本模板, 既为了方便排版, 也为了统一论文格式并确保所有论文符合PST的出版规范要求。科技论文的一些元素的格式, 包括页面空白、分栏、行距、图、表等, 均在本文或本文电子模板中被定义。此外, 本文档的格式也严格遵守PST论文标准格式, 作者可直接从网页下载, 并以本文档为例, 了解掌握论文基本的标准格式。需特别说明的是, 为了给出一种示例, 本文的一些元素仅表示格式。

2 页面设置

2.1 纸型

本刊物采用A4纸型印制出版。请务必确保您的论文采用A4幅面 (21厘米×29.7厘米) 进行排版。

2.2 排版规范的完整性

本模板可直接用于论文及其文字的编排, 请勿改动这些元素, 如页边距、栏宽、行距、字体等, 尤其是页边距, 由于论文集在后期制作过程中需要在页眉、页脚添加各种信息, 所以所有论文务必确保现有的页边距不被修改, 页面空白不被占用。

3 论文写作注意事项

不要使用空格、制表符设置段落缩进, 不要通过连续的回车符 (换行符) 调整段间距。

3.1 英文缩写

除了一些众所周知的英文缩写, 如IP、CPU、FDA, 所有的英文缩写在论文中第一次出现时都应该给出其全称。论文标题中尽量避免使用生僻的英文缩写。

3.2 单位

统一使用国际标准单位 (公制) , 如厘米、千克、秒, 特殊情况可使用英制单位, 如“3.5英寸磁盘”, 避免公制与英制混合使用。

不要把单位的全称与缩写混合使用。例如, 可以使用“Wb/m2”或“Webers每平方米”, 但不要写“Webers/m2”。

小数前面的0不可省略, 如“0.25”不能写作“.25”。立方厘米使用“cm3”, 不要写“cc”。

3.3 公式

简单的公式, 可以直接以文本方式输入;复杂的公式, 建议使用公式编辑器。编辑公式的过程中要特别注意减号与连字符的区别, 前者较长, 后者较短。

对于需要标注编号的公式, 编号应写作“ (1) ”, 不要写“Eq. (1) ”或“Equation (1) ”, 靠右对齐。

4 论文格式编排

4.1 纸型、页边距与版式

论文采用A4幅面进行排版。论文页面设置为:上边距2厘米, 下边距3厘米, 左边距2厘米, 右边距1.6厘米;页眉1.5厘米, 页脚1.75厘米。

论文的页眉和页脚不要添加任何内容, 必须为空白。页面设置中须指定“无网格” (页面设置>>文档网格>>无网格) 。

论文的标题、摘要和关键词 (包括中文版和英文版) 不分栏;正文部分直到文章末尾采用2栏, 栏宽相等, 栏间距1.5字符。

4.2 标题、作者信息、摘要和关键词

4.2.1 中文标题

中文标题置于论文第一页的最上方。主标题采用黑体, 居中, 24磅, 单倍行距, 段前空2行, 段后空0.5行。如有需要, 可在主标题下方增加子标题, 子标题采用宋体, 居中, 15磅, 单倍行距。

4.2.2 中文作者信息

中文作者信息置于中文标题下方。所有作者的姓名列于第一行, 间空一个字符。姓名采用华文中宋, 居中, 14磅, 单倍行距。

姓名下方放置作者的单位信息 (中文) , 单位信息采用楷体, 居中, 12磅, 单倍行距。如果有多名作者并且单位不同, 用阿拉伯数字进行标注, 分号隔开。

4.2.3 中文摘要和关键词

中文摘要置于中文作者信息下方, 间空一行。摘要采用楷体如有英文则使用Times New Roman字体, 9磅, 行距12磅, 两端对齐, 首行缩进2字符。

关键词置于中文摘要下方, 采用楷体 (如有英文则使用Times New Roman字体) , 9磅, 行距12磅, 两端对齐, 首行缩进2字符。

4.2.4 作者简介

科技期刊作者简介内容应包含:姓名 (出生年-) , 性别 (民族) , 籍贯, 单位, 职称, 研究方向。采用楷体, 9磅, 行距12磅。

4.2.5 英文标题

英文标题置于中文摘要之后。主标题采用Times New Roman字体, 居中, 14磅, 加粗, 单倍行距, 段前间隔0.5行。如有需要, 可在主标题下方增加子标题, 子标题采用Times New Roman字体, 居中, 12磅, 单倍行距, 段后间隔0.5行。

4.2.6 作者及单位英文信息

目前, 本刊不要求作者英文信息和单位英文信息, 作者的Email可以置于作者简介之中。

4.2.7 英文摘要和关键词

英文摘要及关键词均采用Times New Roman字体, 两端对齐, 首行缩进2字符, 9磅, 单倍行距, 段后空一行。

4.3 正文

4.3.1 章节标题

章节标题建议最多使用三个级别。为简化程序, 除1级标题使用华文中宋字体外, 其余各级别的标题均使用宋体 (如有英文或数字则使用Times New Roman字体) , 加粗, 行距14磅。标题用阿拉伯数字进行编号, 数字与文字间空一个字符。

●一级标题华文中宋字体, 14磅;段前、段后各空0.5行, 两端对齐, 顶格。

●二级标题宋体加粗, 10.5磅;段前、段后各空0.5行, 两端对齐, 顶格。

●三级标题宋体加粗, 9磅;段前空0.5行, 段后不设置, 两端对齐, 顶格。

4.3.2 正文

正文使用宋体, 9磅, 各段落首行缩进2字符, 两端对齐, 行距14磅;数字、英文字符则统一为Times New Roman字体, 并取消英文的“孤行控制”设置。

4.3.3 致谢或结语、结论

文章需写明“致谢”信息时, 致谢置于文章末尾和参考文献之间, 致谢采用一级标题的格式, 但不使用阿拉伯数字编号, 结语或结论则使用阿拉伯数字编号。

4.3.4 参考文献

参考文献的标题采用二级标题的格式, 但不用阿拉伯数字编号。参考文献的标题使用中文 (宋体) , 加粗, 字体为10.5磅, 段前空1行, 行距为单倍行距, 以[x x x x]方式居中。

参考文献英文采用Times New Roman字体, 中文采用楷体, 9磅, 行距12磅, 并采用“[x]”的方式以数字形式编号。

在正文中需要标注对参考文献的引用。标注时也使用“[x]”的形式, 但采用上标格式[2]。

4.4 图、表和公式

4.4.1 图片

文中的图片应确保内容清晰。图片的尺寸可以根据需要适当放大或缩小, 但是其长宽比例应与原图保持一致。对于比较大的图片, 如果缩小后会导致内容不清晰, 可以对该图片采用不分栏的格式。

所有图片应尽可能采用“嵌入式”环绕方式, 尽量避免采用“四周型”环绕方式, 否则排版过程中极易出现图片位置难以控制的情况。

图片居中。图片的标题放置于图片下方, 所有图片必须列出中文标题, 采用宋体, 7.5磅, 居中, 加粗, 行距14磅, 并使用“图x”的形式进行编号, 间空一个字符。图片的上方和图片标题的下方各设置一空行, 行距14磅。

4.4.2 表格

表格中的文字5.5磅, 居中, 行距10磅。对于比较大的表格, 如果按照双栏方式难以容纳, 可以对该表格采用不分栏的格式。

所有表格应尽可能采用“无环绕”环绕方式, 尽量避免采用“环绕式”。

科技论文表格采用三线表, 社科类论文视情况可适当改变, 应居中。表格的标题置于表格上方, 采用中文宋体, 7.5磅, 居中, 加粗, 行距14磅, 并使用“表x”的形式进行编号, 间空一个字符。表格标题的上方和表格的下方各设置一空行, 行距14磅。

4.4.3 公式

对于嵌入在正文段落中的公式, 如果因为正文段落14磅行距的设置导致公式不能完整显示, 可以将该段落的行距设置为“单倍行距”。

对于单独占据一个段落的公式, 通常建议采用居中设置, 并在段前、段后设置0.5行间隔。

为求美观, 应注意公式中的字体大小。字体过大会导致比例失调, 字体过小会导致看不清楚。

摘要:为了让作者掌握《大众科技》的论文格式要求, 文章提出了本刊出版的各种中文学术论文的文章格式。文中定义了标题、作者、单位、摘要、章节标题、正文、图、表、参考文献等元素, 并且本文各种元素所采用的格式以及电子文档即符合本刊的标准格式要求, 期望为本刊作者提供参考模板。

关键词:模板,格式,杂志,论文

参考文献

[1]MENG Xiangping, GAO Yan.Electric systems analysis[M].Beijing:Higher Education Press, 2004.

科技类报告格式 篇4

参赛作品(科技作品类)说明书格式规范

1.总体要求

全文控制在8页A4纸以内,并按以下顺序编排:作品名+“设计说明书”、设计者、指导教师、学校名+院系名+学校所在城市+邮编、摘要、关键词、正文[可自行组织,但应包括下列内容:作品背景(国内外相关研究现状)、设计制作中解决的关键技术问题的描述、作品实物或模型的照片、创新特色、预计应用前景等]、参考文献。不加封面。采用word 2003及以上版本编排。

2.页面要求

A4页面。页边距:上25mm,下25mm,左、右各20mm。正文采用小四号字体,标准字间距,单倍行间距。不要设置页眉,页码位于页面底部居中。

3.图表要求

插图按序编号,并加图名(位于图下方),采用嵌入型版式。图中文字用小五号宋体,符号用小五号Times New Roman(矢量、矩阵用黑斜体);坐标图的横纵坐标应标注对应量的名称和符号/单位。

表格按序编号,并加表题(位于表上方)。采用三线表,必要时可加辅助线。

4.字号、字体要求(仅作参考)

家用电器节能系统设计说明书

设计者:×××,×××,×××,×××,×××

指导教师:×××,×××

(XX学院,×××,×××)

(空一行)

作品内容简介

通过实验设计了一套家用电器节能系统……(400—600字以内)。联系人、联系电话、EMAIL

(空一行)研制背景及意义设计方案

2.1 电器控制

电器部分采用自动控制比较容易实现,考虑到电器元件易发热等问题…… ……

2.2 机械部分

机械部分设计如图1所示,……

设计时考虑的主要问题:

……理论设计计算

……工作原理及性能分析

……

完成制作后,作品实物外形照片见图9。创新点及应用

1)适用于不同类型家庭电器。

2)操作和控制简便,容易地使用它。

3)……。

在全国大中城市,家用电器普及数量很多,所有电器都有待在节能措施实施改进,因此应用前景很广。

……

正文中表示物理量的符号,表示点、线、面的字母均用Times New Roman斜体;

表示法定计量单位、词头的符号、函数等,化学元素符号均用Times New Roman正体。

(空一行)

参考文献

[1] xxx,xxx.家用电器节能现状和发展.节能机械,2001,23(3):275-279

[2] xxx.节能技术基础.xxxxxx出版社,1996:15-47

[3] xxxxx,xxxx.xxx,xxx译.机器人操作的数学导论.xxxx出版社,1998:11-67

[4] Lee H Y, Reinholtz C F.Inverse kinematics of serial-chain manipulators[J].ASME

科技格式 篇5

1. 标题:

应尽可能简练,准确表述论文内容即可,一般不超过20个字。

2. 作者姓名、单位:

格式为“作者姓名(单位全称,所在省/城市邮政编码)”;作者单位不一致的在作者姓名右上角注出序列列(1.第一作者单位全称,所在省/城市邮编;2.第二作者单位全称,所在省/城市/邮编)。

3. 摘要:

根据论点、技术要点、实施过程和结论,概述200字以内大摘要,并用第三人称写法(不以“本文”“作者”等为主语,可用“文章”)。

4. 关键词:

选取3~8个,中间用分号相隔。

5. 内文标题:

标题最好不要超过4个层次,一般用阿拉伯数字分级(如1,1.1,1.2……,1.1.1,1.1.2……,2.1.1,2.1.2……),例如3.3.3表示文章第3章第3条中的第3个小标题。

6. 数字用法:

凡是公历世纪、年代、年、/月、日、时刻、各种记数、计量均用阿拉伯数字;夏历和清代以前的历史纪年用汉字,并以圆括号加注公元纪年;邻近的两个数字并列连用以表示的概数,采用汉字。

7. 计量单位:

一律采用《中华人民共和国法定计量单位》,例如1秒应写为1 s,2分钟应写为2 min,3小时应写为3 h,6天应写为6d,7年应写为7a,1公里应写为1km,1米应写为1m等。固定词汇在文中应统一表述。

8. 公式:

所用公式必须准确无误,除函数或固定词组和数字外,所有变量符号一律使用斜体。

9. 图表:

使用图表应在内文中明确表述图和表的位置(如图1所示,见表1等),图下应注明图号和图名,表上应注明表号和表名,图表像必须清晰美观。每篇论文不超过6个图和表。表格制作应符合统计学制表原则,一般采用卡线表、三线表。

1 0. 注释:

用于对文内某一特定内容的解释或说明,使用序号①②③……按出现先后顺序标注。

11.参考文献:

参考文献应是公开出版物,按在论文中出现的先后用阿拉伯数字连续排序;参考文献中外国人名书写时一律姓前、名后,姓用全称;参考文献中作者为3人或少于3人应全部列出,3人以上只列出前3人,后加“等”或“et al”。各种参考文献类型标准格式如下:

(1)专著格式:主要责任者.题名[M].出版地:出版者,出版年.

示例:[1]沈玉良,浦再明.中小企业产业选择[M].上海:上海财经大学出版社,2001.

(2)论文集格式:作者.题名[A].编者.文集名[C].出版地:出版者,出版年.

示例:[2]傅斯年.中国历史分期之研究[A].关鸿,魏凭.人生问题发端[C].上海:学林出版社,1997.

(3)期刊文章格式:主要责任者.题名[J].刊名,年,卷(期).

示例:[3]李兴昌.科技文稿的编辑文字加工[J].中国科技期刊研究,1999,10(4).

(4)报纸文章格式:主要责任者.题名[N].报纸名,出版年月日(版次).

示例:[4]谢希德.创造学习的新思路[N].人民日报,]1998-12-25(10).

(5)学位论文格式:作者.题名[D].保存地点:保存单位,出版年.

示例:[5]金宏.导航系统的精度及容错性能的研究[D].北京:北京航空航天大学自动控制系,1998.

(6)专利格式:专利所有者.专利名称[P].专利国别:专利号,出版年月日.

示例:[6]姜锡洲.一种温热外敷药制备方案[P].中国专利:881056073,1989-07-06.

(7)国际或国家标准格式:标准编号,标准名称[S].

示例:[7]GB/T 16159—1996,汉语拼音正词法基本规则[S].

(8)参考网页格式:上传者.文章名[EB/OL].网址,上传年月日.

示例:[8]王明亮.关于中国学术期刊标准化数据系统工程的进展[EB/OL].http://www.caj cd.edu.cn/pub/wml.txt,1998-10-04.

(9)科技报告格式:作者.题名[R].报告题名及编号,出版年.

示例:[9]Kyungmoon Nho.Automatic landing systemdesignusing fuzzy logic[R].AIAA-98-4484,1998.

参考文献的不同类型用不同的大写字母标注,如专著[M];论文集[C];报纸文章[N];期刊文章[J];学位论文[D];报告[R];标准[S];专利[P];其他[Z];电子文献类型标识[DB、CP、EB/OL。

12.基金项目:

获得基金赞助的论文应注明基金项目名称,并在圆括号内注明项目编号。

13.作者简介:

作者姓名(出生年一),性别,籍贯,学位或学历,现任职单位名称和职务,职称,研究方向或成果。

14.联系方式:

科技格式 篇6

1. 标题:

应尽可能简练,准确表述论文内容即可,一般不超过20个字。

2. 作者姓名、单位:

格式为“作者姓名(单位全称,所在省/城市邮政编码)”;作者单位不一致的在作者姓名右上角注出序列(1.第一作者单位全称,所在省/城市邮编;2.第二作者单位全称,所在省/城市邮编)。

3. 摘要:

根据论点、技术要点、实施过程和结论,概述200字以内的摘要,并用第三人称写法(不以“本文”“作者”等为主语,可用“文章”)。

4. 关键词:

选取3~8个,中间用分号相隔。

5. 内文标题:

标题最好不要超过4个层次,一般用阿拉伯数字分级(如1,1.1,1.2……,1.1.1,1.1.2……,2.1.1,2.1.2……),例如3.3.3表示文章第3章第3条中的第3个小标题。

6. 数字用法:

凡是公历世纪、年代、年、月、日、时刻、各种记数、计量均用阿拉伯数字;夏历和清代以前的历史纪年用汉字,并以圆括号加注公元纪年;邻近的两个数字并列连用以表示的概数,采用汉字。

7. 计量单位:

一律采用《中华人民共和国法定计量单位》,例如1秒应写为1s,2分钟应写为2 min,3小时应写为3 h,6天应写为6 d,7年应写为7 a,1公里应写为1 km,1米应写为1 m等。固定词汇在文中应统一表述。

8. 公式:

所用公式必须准确无误,除函数或固定词组和数字外,所有变量符号一律使用斜体。

9. 图表:

使用图表应在内文中明确表述图和表的位置(如图1所示,见表1等),图下应注明图号和图名,表上应注明表号和表名,图表像必须清晰美观。每篇论文不超过6个图和表。表格制作应符合统计学制表原则,一般采用卡线表、三线表。

1 0. 注释:

用于对文内某一特定内容的解释或说明,使用序号①②③……按出现先后顺序标注。

11.参考文献:

参考文献应是公开出版物,按在论文中出现的先后用阿拉伯数字连续排序;参考文献中外国人名书写时一律姓前、名后,姓用全称;参考文献中作者为3人或少于3人应全部列出,3人以上只列出前3人,后加“等”或“et al”。各种参考文献类型标准格式如下:

选取3~8个,中间用分号相隔。

(1)专著格式:主要责任者.题名[M].出版地:出版者,出版年.

示例:[1]沈玉良,浦再明.中小企业产业选择[M].上海:上海财经大学出版社,2001.

(2)论文集格式:作者.题名[A].编者.文集名[C].出版地:出版者,出版年.

示例:[2]傅斯年.中国历史分期之研究[A].关鸿,魏凭.人生问题发端[C].上海:学林出版社,1997.

(3)期刊文章格式:主要责任者.题名[J].刊名,年,卷(期).

示例:[3]李兴昌.科技文稿的编辑文字加工[J].中国科技期刊研究,1999,10(4).

(4)报纸文章格式:主要责任者.题名[N].报纸名,出版年月日(版次).

示例:[4]谢希德.创造学习的新思路[N].人民日报,1998-12-25(10).

(5)学位论文格式:作者.题名[D].保存地点:保存单位,出版年.

示例:[5]金宏.导航系统的精度及容错性能的研究[D].北京:北京航空航天大学自动控制系,1998.

(6)专利格式:专利所有者.专利名称[P].专利国别:专利号,出版年月日.

示例:[6]姜锡洲.一种温热外敷药制备方案[P].中国专利:881056073,1989-07-06.

(7)国际或国家标准格式:标准编号,标准名称[S].

示例:[7]GB/T 16159—1996,汉语拼音正词法基本规则[S].

(8)参考网页格式:上传者.文章名[EB/OL].网址,上传年月日.

示例:[8]王明亮.关于中国学术期刊标准化数据系统工程的进展[EB/OL].http://www.cajcd.edu.cn/pub/wm1.txt,1998-10-04.

(9)科技报告格式:作者.题名[R].报告题名及编号,出版年.

示例:[9]Kyungmoon Nho.Automatic landing systemdesignusing fuzzy logic[R].AIAA-98-4484,1998.

参考文献的不同类型用不同的大写字母标注,如专著[M];论文集[C];报纸文章[N];期刊文章[J];学位论文[D];报告[R];标准[S];专利[P];其他[Z];电子文献类型标识[DB、CP、EB/OL]。

12.基金项目:

获得基金赞助的论文应注明基金项目名称,并在圆括号内注明项目编号。

13.作者简介:

作者姓名(出生年一),性别,籍贯,学位或学历,现任职单位名称和职务,职称,研究方向或成果。

14.联系方式:

科技格式 篇7

1. 标题:

应尽可能简练,准确表述论文内容即可,一般不超过20个字。

2. 作者姓名、单位:

格式为“作者姓名(单位全称,所在省/城市邮政编码)”;作者单位不一致的在作者姓名右上角注出序列(1.第一作者单位全称,所在省/城市邮编;2.第二作者单位全称,所在省/城市邮编)。

3. 摘要:

根据论点、技术要点、实施过程和结论,概述200字以内的摘要,并用第三人称写法(不以“本文”“作者”等为主语,可用“文章”)。

4. 关键词:

选取3~8个,中间用分号相隔。

5. 内文标题:

标题最好不要超过4个层次,一般用阿拉伯数字分级(如1,1.1,1.2……,1.1.1,1.1.2……,2.1.1,2.12……),例如3.3.3表示文章第3章第3条中的第3个小标题

6. 数字用法:

凡是公历世纪、年代、年、月、日、时刻、各种记数、计量均用阿拉伯数字;夏历和清代以前的历史纪年用汉字,并以圆括号加注公元纪年;邻近的两个数字并列连用以表示的概数.采用汉字。

7. 计量单位:

一律采用中华人民共和国法定计量单位》,例如1秒应写为1 s,2分钟应写为2 min,3小时应写为3 h,(6天应写为6d,7年应写为7 a,1公里应写为1 km,1米应写为1 m等。固定词汇在文中应统一表述

8. 公式:

所用公式必须准确无误,除函数或固定词组和数字外,所有变量符号一律使用斜体

9. 图表:

使用图表应在内文中明确表述图和表的位置(如图1所示,见表1等),图下应注明图号和图名,表上应注明表去号和表名,图表像必须清晰美观。每篇论文不超过6个图和表。表格制作应符合统计学制表原则,一般采用卡线表、三线表

10. 注释:

用于对文内某一特定内容的解释或说明,使用序号①②③……按出现先后顺序标注

11.参考文献:

参考文献应是公开出版物,按在论文中出现的先后用阿拉伯数字连续排序;参考文献中外国人名书写时一律姓前、名后,姓用全称;参考文献中作者为3人或少于3人应全部列出t.3人以上只列出前3人,后加“等”或“et al”各种参考文献类型标准格式如下:

(1)专著格式:主要责任者.题名[M].出版地:出版者,出版年.

示例:[1]沈玉良,浦再明.中小企业产业选择[M].上海:上海财经大学出版社,20011.

(2)论文集格式:作者.题名[A].编者.文集名[C].出版地:出版者,出版年.

示例:[2]傅斯年.中国历史分期之研究[A].关鸿,魏凭.人生问题发端[C].上海:学林出版社,1997.

(3)期刊文章格式:主要责任者.题名[J].刊名,年,卷(期).

示例:[3]李兴昌.科技文稿的编辑文字加工[J].中国科技期刊研究,1999,10(4).

(4)报纸文章格式:主要责任者.题名[N].报纸名,出版年月日(版次).

示例:[4]谢希德.创造学习的新思路[N].人民日报,1998-12-25(10).

(5)学位论文格式:作者.题名[D].保存地点:保存单位,出版年.

示例:[5]金宏.导航系统的精度及容错性能的研究[D].北京:北京航空航天大学自动控制系,1998.

(6)专利格式:专利所有者.专利名称[P].专利国别:专利号,出版年月日.

示例:[6]姜锡洲.一种温热外敷药制备方案[P].中国专利:881056073,1989-07-06.

(7)国际或国家标准格式:标准编号,标准名称[S].

示例:[7]GB/T 16159—1996,汉语拼音正词法基本规则[S].

(8)参考网页格式:上传者.文章名[EB/OL].网址,上传年月日.

示例:[8]王明亮.关于中国学术期刊标准化数据系统工程的进展[EB/OL].http://www.caj cdedu.cn/pub/wm1.txt,1998-10-04.

(9)科技报告格式:作者.题名[R].报告题名及编号,出版年.

示例:[9]Kyungmoon Nho.Automatic landing systemdesignusing fuzzy logic[R].AIAA-98-4484,1998.

参考文献的不同类型用不同的大写字母标注,如专著[M];论文集[C];报纸文章[N];期刊文章[J];学位论文[D];报告[R];标准[S];专利[P];其他[Z];电子文献类型标识[DB、CP、EB/OL]

12.基金项目:

获得基金资助的论文应注明基金项目名称,并在圆括号内注明项目编号。

13.作者简介:

作者姓名(出生年一),性别,籍贯,学位或学历,现任职单位名称和职务,职称,研究方向或成果。

14.联系方式:

科技格式 篇8

1.标题:应尽可能简练,准确表述论文内容即可,一般不超过20个字。

2.作者姓名、单位:格式为“作者姓名(单位全称,所在省/城市邮政编码)”;作者单位不一致的在作者姓名右上角注出序列(1.第一作者单位全称,所在省/城市邮编;2.第二作者单位全称,所在省/城市邮编)。

3.摘要:根据论点、技术要点、实施过程和结论,概述200字以内的摘要,并用第三人称写法(不以“本文”“作者”等为主语,可用“文章”)。

4.关键词:选取3~8个,中间用分号相隔。

5.内文标题:标题最好不要超过4个层次,一般用阿拉伯数字分级(如1,1.1,1.2……,1.1.1,1.1.2……,2.1.1,2.1.2……),例如3.3.3表示文章第3章第3条中的第3个小标题。

6.数字用法:凡是公历世纪、年代、年、月、日、时刻、各种记数、计量均用阿拉伯数字;夏历和清代以前的历史纪年用汉字,并以圆括号加注公元纪年;邻近的两个数字并列连用以表示的概数,采用汉字。

7.计量单位:一律采用《中华人民共和国法定计量单位》,例如1秒应写为1s,2分钟应写为2 min,3小时应写为3 h,6天应写为6 d,7年应写为7 a,1公里应写为1 km,1米应写为1 m等。固定词汇在文中应统一表述。

8.公式:所用公式必须准确无误,除函数或固定词组和数字外,所有变量符号一律使用斜体。

9.图表:使用图表应在内文中明确表述图和表的位置(如图1所示,见表1等),图下应注明图号和图名,表上应注明表号和表名,图表像必须清晰美观。每篇论文不超过6个图和表。表格制作应符合统计学制表原则,一般采用卡线表、三线表。

10.注释:用于对文内某一特定内容的解释或说明,使用序号①②③……按出现先后顺序标注。

11.参考文献:参考文献应是公开出版物,按在论文中出现的先后用阿拉伯数字连续排序;参考文献中外国人名书写时一律姓前、名后,姓用全称;参考文献中作者为3人或少于3人应全部列出,3人以上只列出前3人,后加“等”或“et al”。各种参考文献类型标准格式如下:

(1)专著格式:主要责任者.题名[M].出版地:出版者,出版年.

示例:[1]沈玉良,浦再明.中小企业产业选择[M].上海:上海财经大学出版社,2001.

(2)论文集格式:作者.题名[A].编者.文集名[C].出版地:出版者,出版年.

示例:[2]傅斯年.中国历史分期之研究[A].关鸿,魏凭.人生问题发端[C].上海:学林出版社,1997.

(3)期刊文章格式:主要责任者.题名[J].刊名,年,卷(期).

示例:[3]李兴昌.科技文稿的编辑文字加工[J].中国科技期刊研究,1999,10(4).

(4)报纸文章格式:主要责任者.题名[N].报纸名,出版年月日(版次).

示例:[4]谢希德.创造学习的新思路[N].人民日报,1998-12-25(10).

(5)学位论文格式:作者.题名[D].保存地点:保存单位,出版年.

示例:[5]金宏.导航系统的精度及容错性能的研究[D].北京:北京航空航天大学自动控制系,1998.

(6)专利格式:专利所有者.专利名称[P].专利国别:专利号,出版年月日.

示例:[6]姜锡洲.一种温热外敷药制备方案[P].中国专利:881056073,1989-07-06.

(7)国际或国家标准格式:标准编号,标准名称[S].

示例:[7]GB/T 16159—1996,汉语拼音正词法基本规则[S].

(8)参考网页格式:上传者.文章名[EB/OL].网址,上传年月日.

示例:[8]王明亮.关于中国学术期刊标准化数据系统工程的进展[EB/OL].http://www.cajcd.educn/pub/wml.txt,1998-10-04.

(9)科技报告格式:作者.题名[R].报告题名及编号,出版年.

示例:[9]Kyungmoon Nho.Automatic landing system de—signusing fuzzy logic[R].AIAA-98-4484,1998.

参考文献的不同类型用不同的大写字母标注,如专著[M];论文集[C];报纸文章[N];期刊文章[J];学位论文[D];报告[R];标准[S];专利[P];其他[Z];电子文献类型标识[DB、CP、EB/OL]。

12.基金项目:获得基金赞助的论文应注明基金项目名称,并在圆括号内注明项目编号。

13.作者简介:作者姓名(出生年一),性别,籍贯,学位或学历,现任职单位名称和职务,职称,研究方向或成果。

科技格式 篇9

在科技文献中包含大量数学表达式,为了对这些表达式进行检索、保存、编辑和复用,需要对它们加以提取和识别。对于纸质科技文献,可以通过扫描得到图像后借助OMR(Optical Mathematics Recognition)系统进行表达式识别[1]。但随着互联网技术的迅猛发展,越来越多的科技文献是以电子文档的形式在网上发布的,其中最常见的文件格式是PDF(Portable Document Format)和PS(postscript)格式。

由于PS和PDF文档的广泛应用,如何对它们所包含的数学表达式进行提取和识别,成为数学表达式识别领域的一个新的研究方向。与对OMR的研究相比,针对PS或PDF文档的研究十分罕见。文献[2]将PDF电子文档转化成图像,再由OMR系统进行表达式的识别工作。但是这种方法依然是基于图像的,因而在图像识别过程中易产生错误,并且增加了系统的开销。文献[3]则从PS文档的代码着手,研究了由Latex生成的dvi文档转换得到的PS文档中的数学表达式识别问题,但是其应用范围具有相当大的局限性,且缺乏细节。

鉴于Word和Latex是目前最流行的两种科技文档编辑系统,本文主要针对以它们为生成源的PS文档进行了研究,提出了一种基于内容的PS文档数学表达式提取方法。根据Postscript语言的文本与图形显示机制,提取出各种字符并识别出其中的数学符号,然后将孤立的数学符号归并为表达式。本文的工作囊括了数学表达式识别过程中的前两个步骤——表达式定位与符号识别,至于表达式的版式识别与语义识别则不属于本文的研究范围。

1 PS文件中文本的显示机制

1.1 字符、字形和字体

在PS中,文本的显示有三个要素:即字符、字形、字体。

字符是指抽象的符号,用来描述文本的内容。在PS中字符由字符串表示,字符串中的每个元素都被转换为一个0到255之间的十进制数字,即字符编码。

字形(glyph)是字符在显示上的某个特定实现,它与字符是不同的概念。例如:字形“A”、“A”和“A”都是抽象字符“A”的不同实现。在PS中每一个字形实际上是一个图形,由一段绘图代码绘制而成。而绘制某一字形的代码,由对应此字形的字符名称索引。一般的,英文字符的字符名称同其本身,而数字等其他符号则具有特定的字符名称。例如,“α”的字符名称为“alpha”、“+”的字符名称为“plus”。

字体则定义了一个字符集的具有某特定风格的字形。某一字符显示为怎样的字形,由采用的字体决定。在PS中,字体还特指字体词典。每个字体词典有一个名字,并由若干条目组成。这些条目包含了字体必要的信息,

其中最重要的是字体类型和编码表。在PS中最常用的字体类型是Type 0、Type 1、Type 3和Type 42;编码表则定义了字符编码到字符名称之间的映射关系。

1.2 PS中的字符映射机制

我们来看PS中一段简单的显示文本的代码[4]及其显示结果:

在此例中,首先由findfont命令选择Times-Roman字体,由scalefont命令设置字号为15,setfont命令将前面的字体信息设置为当前字体,moveto命令将当前位置移动到坐标(72 200)处,show命令根据当前字体在当前位置上显示括号内的字符串“typograghy”,最后showpage命令将当前页的图形状态中的所有内容显示在页面上。

PS中隐含着由字符串到字形绘制代码的映射机制。其原理是:在show命令执行时,Postscript首先将show命令要显示的字符串转换为字符编码,然后根据当前字体词典的编码表,在其中查找字符编码所对应的字符名称,最后以字符名称为索引,调用对应的字形绘制代码(如图1所示)。

2 数学符号提取

从PS文档中提取数学表达式,第一步是进行数学符号的提取。这里数学符号是广义的概念,指的是能组成数学表达式的所有符号,包括数字、各类数学符号、字母等等。

2.1 字符信息提取

首先要提取出PS文档中的所有字符,然后判断它们是否为数学符号。判断的依据是字符的相关信息,包括字符名称、字体信息以及位置信息。

字符名称是判定数学符号的最重要的依据,可以由字符串的字符编码通过字体词典的编码表去得到相应的字符名称。

字体信息(包括字体类型和字体名称)也是判断数学符号的重要依据。例如,一般来说普通文本和数学函数中的英文字符为正体,而作为数学变量的英文字符为斜体。在以Latex为生成源的PS文档中,普通文本中的英文字符多用CMR字体;表达式中的英文字符则多用CMMI字体;而大多数数学符号用的是CMSY字体和CMEX字体。在以Word为生成源的PS文档中,常见的字体类型有Type 0、Type 1和Type 42。汉字作为复合字体,其字体类型为Type 0,由于汉字一般不会出现在数学表达式中,因此可以丢弃字体类型为Type 0的字符。部分数学符号的字体类型为Type 1。英文字母和其他字符的类型为Type42。字体类型和字体名称的获得比较简单,可以通过直接访问字体词典得到。

此外,数学表达式与普通文本的区别很大程度上在于数学符号的二维空间排列性质。字符位置信息对判断其是否属于数学表达式的一部分至关重要。我们以字符的最小外接矩形来标识字符的位置信息。

2.2 线段提取

在PS中,存在一些数学符号不是字符,而是由直线段顺次连接形成的图形。例如在以Word文档为生成源的PS文档中,根号“”表示为4条线段顺次连接。而在由Letex文档转换得到PS文档中,分号表示为由四条线段封闭连接形成的狭长矩形。为此,需提取每条直线段的位置信息以得到这些特殊的数学符号。

2.3 实现方法

在PS中,与显示文本有关的命令包括show、ashow、widthshow、awidthshow、kshow、xshow、yshow、xyshow等。我们重载了这些命令,以执行以下操作:

1)加载当前字体词典,访问其字体类型和字体名称;

2)根据每个字符的字符编码,在字体词典的编码表中索引对应的字符名称;

3)对每一个字符,根据显示命令的位置参量,设置正确的当前位置,并用charpath命令得到其应字形的图形构造路径,之后用pathbbox命令得到字形的最小外接矩形;

4)对外接矩形坐标进行坐标变换,由PS用户坐标变换至最终显示的页面坐标。

为了得到直线段信息,我们重载了PS中绘制图形的stroke和fill命令,在其中使用pathforall命令跟踪每一个moveto和lineto命令的参数,从而得到每一条线段的位置信息。

将上面的重载代码命名为psTextExtract.ps,作为头文件与要提取表达式的目标PS文档一起由Gostscript解释器执行,命令格式为:

这里,psfile.ps为目标PS文档,output.dat为输出结果

我们给出一个范例,对图2所示的PS文档执行上面的操作,可以得到如下的字符提取和线段提取结果:

图2—个由Word文档转换得到的PS文档中的一段内容

……(此处省略原文中“standard deviation is defined as below:”的字符提取信息。)

输出结果中的每一行表示了一个字符(行首标识为C)或一条线段(行首标识为L)的信息。对于字符行,依次为字体类型、字体名称、字符名称、外接矩形坐标(xmin、ymin、xmax、ymax)1。对于线段行,则给出了两个端点坐标(x0、y0、x1、y1),并且在行尾标记S或F,S表示该线段最终由stroke命令绘制,而F则表示其由fill命令绘制。

2.4 线段连接及图形识别

接下来的一步,是要找出相互连接的直线段,并且根据它们连成的图形判断出相应的数学符号。这些直线段可以连接成开放或封闭的图形,需要注意的是fill命令总是自动将所绘制的图形路径的起点和终点连接,以形成封闭的图形,因此在遇到fill命令时,添加一条连接终点到起点的直线段用以封闭图形。

线段之间有重合端点时,即可将它们连接。对于完成连接而生成的图形,我们给出一个绘制方向的定义:对于开放的图形,即折线段,规定起点为两端点中x坐标较小者(x坐标相等时,取y坐标较大者),另一端点则为终点,沿各直线段由起点到终点的行进方向即为绘制方向;对于封闭的图形,起点选择为各端点中x坐标最小者(x坐标相等时,取y坐标最大者),规定绘制方向为由起点以顺指针沿各直线段行进最后回到起点的方向。

规定了绘制方向后,以图3所示的8方向编码依次对图形中各相连直线段进行标记。这样,可以得到整个图形的编码。我们构造了图形编码与数学符号的映射表,根据图形编码可以识别出它是什么数学符号。例如,在2.3的范例中,我们得到了六条直线段的信息,其中第三至第六条线段依次相连,这四条直线段组成的图形的编码为1710,它对应的正是根号“”。

2.5 数学函数提取

如前所述,一些数学函数,如“min”、“lim”等是由英文字符组成,它们与普通文本中的英文字符都为正体。对数学函数的识别提取需要分为两个步骤:

1)英文单词构造从PS文档中得到的英文字符是孤立的,我们通过单词内各字符间距与单词之间间距的统计规律[5],将各英文字符分别合并为英文单词。

2)函数名检索在数学函数词典中检索构造得到的英文单词,找出数学函数。

2.6 组合数学符号提取

在PS文档中,有一些数学符号由若干字符组合形成。例如,以Latex为生成源的PS文档中,根号由“radicaltp”、“radicalvertex”和“radicalbt”三字符组成。我们把这些组成数学符号的字符合并为单一的数学字符。

3 数学表达式提取

经过前面的处理,已经提取出了各种数学符号。下一步,是将这些孤立的数学符号合并,从而提取出完整的数学表达式。这一过程还可以解决数学符号提取中存在的两个问题:1)一些符号的含义并不能确定,例如,由一条水平直线段构成的字符可能是减号,也可能是分号,还有可能是上划线。2)PS中还有些数学符号用标点符号所代替。例如,减号有时被英文破折号替代,这种情况造成有个别数学符号被遗漏。OMR系统在提取内嵌表达式时,往往首先识别出特殊的数学符号,再以这些符号为中心向周围扩展,根据位置关系和启发式规则合并相邻字符[6]。本文提取表达式的工作与之相似,因此这里不再赘述。

4 实验与分析

实验样本包括20篇PS格式的科技文献,其中10篇以Latex为生成源,10篇以Word为生成源。图4是一篇文献中某段内容的表达式提取结果。

根据文献[7]中的表达式提取正确率公式计算,实验使用的20篇文档的表达式提取正确率为98.56%。从实验结果看,绝大多数表达式可以被正确定位,但是存在一些符号被错认为数学符号,例如图4中的表达式标号。这些错误需要在数学表达式的后续识别过程中予以纠正。

5 结论

从PS文档的内容出发,提取出数学表达式,是一项罕有研究的工作。通过重载PS显示与绘图命令,可以提取和识别出数学字符,从而避免了图像识别中的错误。同基于图像的表达式识别相比,本文提出的基于内容的表达式提取方法在正确率和效率上都具有优势。但存在一些问题有待进一步的研究:

1)本文提出的方法适用于由Word和Latex文档以及部分PDF文档转换得到的PS文档,需要进一步完善字符提取方法以扩大适用范围。

2)如何不经转换,直接从PDF文件中提取数学表达式。

3)取出的表达式,完成版式识别或语义识别,将其转换为MathML或Latex代码。

摘要:从Postscript格式的科技文献中提取识别数学表达式,是数学表达式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的PS文档,提出了基于内容的数学表达式提取方法。首先重载了PS语言中的一些相关命令,以提取PS文档中的字符与线段信息;之后根据字符名称、字体、位置等信息对字符进行分析,同时连接线段并加以识别,从而提取出数学符号;最后,根据符号问的空间位置关系和启发式规则,将数学符号归并,提取出最终的表达式。实验结果表明该方法正确率达到98.56%。

关键词:数学表达式提取,Postscript,文本抽取

参考文献

[1]靳简明,江洪英.数学公式图像处理综述[J].模式识别与人工智能,2005,18(4):429-440.

[2]InftyProject.Infty reader version 2.5[EB/OL].http://www.inf- typroject.org/.

[3]Yang M,Fateman R.Extracting mathematical expressions from post- script documents[C].Proceedings of the International Symposium on Symbolic and Algebraic Computation.Santander,2004:305-311.

[4]Adobe Systems Incorporated.Postscript Language Reference,Third Edi- tion[M].Massachusetts:Addison-Wesley Publishing Company,1999.

[5]Digital Equipment Corperation.Pstotext[EB/OL].http://www.re- serach.compaq.com/SRC/virtualpaper/pstotext.html.

[6]杨捧,田学东.基于Parzen窗的印刷文档数学公式抽取的研究[J].计算机工程与应用,2005,41(23):200-202.

上一篇:中学生生命教育下一篇:外国文学翻译