中文字体

2024-08-07

中文字体（共12篇）

中文字体篇1

标志设计是视觉传达设计中的一部分, 色彩、图形、文字是组成标志的三个重要部分。在现在所能接触到的标志设计作品中, 以文字为主要构成内容的标志设计作品十分多见, 并且颇受大众欢迎。中文字体组成的标志, 往往比字母组成的标志更难出好的作品, 追其根源, 往往是复杂的构成使中文字体比抽象的字母更难设计。

一、中西文字体在标志设计中的差异

由于经济的发展和科技的进步, 越来越多的异国标志漂洋过海, 于是国内很多人开始青睐使用外文, 尤其是英文来成为自己标志的组陈部分, 认为这样才“洋气”“高级”。其实不然, 中西文字各有各的的优点长处, 但是也要结合实际情况使用, 有时候, 不合时宜的“洋气”“高级”会让受众摸不着头脑, 标志到底想要表达一个什么信息, 对此不得而知了。

西方语系字体大致可分为三类。文字前端的笔画有爪形修饰的称为“衬线体”, 没有爪形修饰的则称为“无衬线体”, 其余的则是其他字体。“罗马体”是衬线体中最具有代表性的字体之一。这种字体兼具传统问文化气息和易于阅读的特点, 经常在正文、标题中使用。字母的形态不含有直接的象形意义, 带有一定的抽象性, 更容易进行变形, 从而受到设计人员的喜爱。虽然所有的字母的书面功能相同, 但是同一字母在视觉设计上的微妙的变化, 就可能会表现出不同的“个性”。

通常这类标志中的字体都具有一定的变形, 这使得标志可以更简单、美观、紧凑, 而且带有一些趣味性, 尤其是西方语系字体更适合做这种变化, 二十六个字母大小写可以千变万化。在一些常见的字母组成的标志范例中, 有一些常见的设计方式:在同一水平线的结合、相反字母的结合、字母大小写的结合等等。 (如图1) 中文字体同样也会有以上的一些结合方式, 但是过程更为复杂, 而且常常会弄巧成拙。中文字体的结构也决定了一些改变方式的艰难性, 这一点在接下来的一节中会有详细的介绍和解释。

有一些关于字体设计的例子——富有想象力的设计师们基于美学原理或时尚流行而设计出来的, 却不易于被大众解读和理解, 所以, 标志设计在给受众留下深刻印象的同时也要有易读性, 以便于传播继而扩大受众面, 使其带有的信息可以准确的转达出去。

二、中文字体在标志设计中呈现方式

古罗马工程师马可·维特鲁威提出建筑的三要素:“实用、坚固、美观”, 用在标识上也是契合的。实用, 标识或字, 必须满足其功能方面的需要, 识别、传达等;坚固, 本意是指建筑不易被时间侵蚀, 这里可以引申为标识不随时间风尚的变化而被遗弃, 即不易过时;美观, 这是个比较主观的方面, 每个人都有自己对于美的定义。标志与广告或其它宣传品不同, 一般都具有长期的使用价值, 不轻易改动。于是, 标志要在一个比较小的平面载体上综合许多内容和信息, 在一段时间内稳定的直接的传达这些内容和信息。

具有一定的商业性的标志设计, 它所包含的的内容往往是具有信息传达的意义。想要传达给受众一定的信息量, 那必须先让受众注意到标志的存在, 那标志必须具有醒目这个特性, 让人留下深刻的印象。一些带有强烈的个性的字体, 在设计上非常具有特点, 但是不适合用于大段的文字, 而是适合于简短的标题。比如一些经过设计的书法体字体。

平衡相对于失衡, 人们更喜欢前者。这源于人生来便是在平地上直立行走的动物。在设计中也可以感受到协调性, 虽然设计师们经常有意用失衡的构图来吸引受众的注意力。中文字形是一个正方形的框架内的, 有独体结构、左右结构、上下结构、全包围结构和半包围结构这五种。中文书写追求端正、平稳, 所以平衡是一个很重要的特点, 无论是横排还是竖排。所以在许多中文标志中, 常常使用的便是稳定的横排版, 竖排版也是常见的方式, 这些排版方式都源于中文字结构的稳定和对称性。

三、中文字体在标志设计中的实际运用

现代中国企业标志通常采用中英双语, 产品在国内市场销售的同时, 以便于走向国际市场。企业标志通常承载着展现企业产品的形象和风格作用, 以博取消费大众的注意力和喜爱为目的。

例如图2, 图中从上至下分别是国内电器企业海信和海尔的英文标志。这两个中国企业主要经营电器类商品, 所以他们想传达给消费者的信息是:高科技、先进、安全、值得信赖。这两个标志有一个共同点, 就是它们标志的英文部分都使用了无衬线的字体。在中文部分, 海尔使用了一款手写体的中文字体作为中文标志, 而海信使用了和英文部分相似的等线字体。选用尽可能排除装饰要素的文字, 文字的构成要素越简单, 有生命力的印象越淡, 抽象感越强, 从而呈现出一种现代感、科技感。在西方语系字体中, 无衬线体的线条形状比衬线体更简单;在东方语系字体中, 则是黑体的线条形状比宋体简单。若是想进一步让人有科技感, 得将文字变得更简单, 呈现“图形化”。例如只用直线来呈现文字, 或是只用直线和圆角相互连接来构成文字。将文字图形化, 并不适合东方语系字体, 特别是像中文这种复杂的文字。文字越是图形化, 越难当做“文字”来阅读。例如图3, 图中右一光明乳业的旧标志中, 图案和文字是分开的两个独立个体, 而新标志中, 文字和图案结合在了一起, 颜色由原来的红蓝两色变成了红白两色, 显得更加清爽活力, 犹如牛奶流动光泽的图形和字体由红色色块结合在一起, 字体几乎没有变化, 给人的感觉就是虽然图标改变了, 但是仍旧给人一种熟悉的感觉, 同时不失新鲜感, 所以同样的中文字体与不同的图形结合, 推陈出新也能给标志带来不一样的效果。

除了现代商业性标志, 各种带有文化性质的标志, 例如一些中华老字号的商标, 它就不仅仅具有商业意义, 文化历史底蕴也是其中的重要的一部分。这些品牌常常从原有的、具有历史传承意义的匾额上拓下的字迹作为其标志的重要部分, 甚至就是标志的来源。因此, 这些标志上的字体常为书法篆刻字体, 或为横排, 或为田字形。书法体的轮廓比较宋体、黑体, 相对不是很清晰, 所以需要单个字之间的间距放大, 便于受众的辨识。以此同时, 这些标志字体原本带有的一些历史特质很难让其有更新的发展空间。

同样, 博物馆也是一个具有很浓郁文化气质的场所, 许多博物馆通常都是以名字作为标志, 比较没有进一步的设计感, 博物馆的标志需要直接的传达博物馆的性质和其特点。上海笔墨博物馆是一个专门收藏和展示以笔墨为代表的文房四宝的博物馆, 所以标志想要传达的信息是——文化、古典、收藏。原本该博物馆根本没有真正的标志存在, 只是用行书书写了“上海笔墨博物馆”这几字。 (见图4) 在上海笔墨博物馆的VI中的标志设计这部分, 该方案直接使用了“笔墨”这个两个字作为标志的主题。在标志草稿初期, 考虑过用图形作为标志, 例如毛笔的形态、墨滴的形状等。经过思考和草图的进一步修改, 该作者想使用图形和字体的结合——毛笔的形态和“笔”字结合, 简体的“笔”字的竖弯钩这个笔画很难和毛笔的形态结合做出合适的形态, 于是, 繁体的“筆”字出現在草图上。“筆”字的中间的一竖相对于适合与毛笔的形态相契合, 但是笔墨博物馆的主题在于“笔墨”二字。最后“笔墨”二字成了该标志的基础内容。首先考虑的是使用什么字体, 先使用了手写体、黑体、书法体等各种字体, 认为书法体是比较合适笔墨博物馆的主题内容的, 但是过于直白, 辨识度不高, 而且不易缩小作为标志使用。行书、草书对文字结构略加破坏, 属于不过于严肃正式的字体。其次要考虑“笔墨”二字的摆放位置, 是上下结构还是左右位置, 间距紧凑还是宽松。 (见图5) 整个标志是由“笔墨”两字的抽象化和黑色正方形组成, 以虚线构成的田字格, 给人以初学者字帖的感觉, 又暗示了中文书写的规范。其中“墨”字中红色点是字本身的一个笔画, 同时也代表了朱印, 给整个标志中带来了活力和生机。整个标志给人直观的一面, 即“笔墨”二字, 让人可以直接阅读, 并且可以知道该博物馆的展示主题和内容, 又有含蓄的一面, “笔墨”被形象得简化为线条的组合, 而不是直接的书法字体。

结语

设计需要不断的创新和进步, 这样才可以让大众和市场都接受。标志设计作为一个十分重要而且需要设计者投入更多的心血的部分, 在其方寸之间, 需要展示的东西实在太多太多了, 所以面对中文标志难设计这个问题时, 需要做的是, 不是无视它, 不是绕过它, 而是直面这个关卡。在大多数设计师眼中, 中文字体是很难将它进行合适美观的改变的字体, 与之相比的西方语系的字母字形更抽象更易于创新, 所以许多设计师钟爱于字母组成的标志设计。但是, 在现代中国商业发展愈加快速, 商家也开始重视到企业文化发展, 中文标志是必不可少的代表之一。中文本身就是一种象形文字, 经过千百年的发展变化, 其实它本身就含有许多的规律, 这些规律性需要我们去认真研究和发掘, 相信在掌握了这些规律之后, 中文字体的创新将是源源不断的。

参考文献

[1].《文字设计的原理》[日]伊达千代&内藤孝彦译.悦知文化.出版社:中信出版社.

[2].《设计之美》[英]罗伯特.克雷译.尹弢.出版社:山东画报出版社.

中文字体篇2

久闻贵校是培养人才的重要基地，教师成长展才的沃壤，重视教育，重视能力，上下团结一心，有坚实的教育基础，对此，我十分仰幕。现把一个真实的我以自荐书的形式展现给您，望贵校给我一个展示才华的机会，为贵校出力争光，同时也圆我的育人梦想。

选择了教育事业，选择了XX大学，春风化雨育桃李的信念便铭刻于心。进入大学以后，我抓紧每一天进行专业知识的积累和教学基本功的培养，不断充实自己的头脑。才高为师，身正为范。作为师范生，我在思想上积极要求进步，乐观向上，对大是大非保持清醒认识，不畏难繁，有信心、有责任感。在能力培养上，校内积极参加各项活动，校外广泛尝试，多次进行教学实践，既实践了所学，又锻炼了能力。

大鹏展翅，骏马飞驰都需要有自己的天地。贵校科学管理体制和明达的***人理念；使我坚信到贵校工作是我的明智选择。

最后，祝贵校广纳贤才，再创佳绩！

此致

敬礼

XXX谨呈

中文字体篇3

fileslap 在线共享多种格式直接预览

fileslap是个文件共享网站，一个人把文件传上去，会得到一个网址，再把这个网址发给另外一个人去下载，这不新鲜。fileslap的特色是支持各种格式在线预览：比如图像、视频、音频、Word、PowerPoint、Excel，冷门的有Markdown，甚至支持PSD。当然fileslap最独特的是提供了命令行命令（其实是个Python脚本），用命令行的人可以直接上传文件得到链接。fileslap免费注册，如果不注册也可用，但此时文件保留时间只有几十分钟，仅能作为暂时分享，但是优点是会将文件保存至Amazon Web Services，下载速度和稳定性非常好。Fileslap提供付费和免费方案，使用者可以免费注册并享有3个星期的试用期，在试用期结束后如不付费会自动变成免费账户，将有1MB文件大小和最多20个文件数量的限制。

中文字体篇4

美国青少年文化中心执行长陈健当天表示, 在当今学中文热潮风行之际, 湾区儿童中文识字比赛越来越受到家长和老师的重视。本次比赛共有145人报名参赛, 许多家庭都是全家出动。

当天的比赛竞争非常激烈, 多次出现参赛小朋友分数相同, 需要通过附加赛才能排定最终名次的状况。评委刘莉莉表示, 参加本次比赛的学生都很优秀, 很难区分高低;显示家长和老师都付出心血, 孩子们更是刻苦努力。评委马露娜表示, 比赛总有胜负, 没

有获得第一名的孩子也同样优秀, 希望家长●

周吉

继续鼓励自己的孩子学习中文。

主办单位还请来多位侨领及小区人士吉为优胜小朋友颁奖。其中最受瞩目的是旧金

山奥运火炬传递的第一棒火炬手、前奥运游泳冠军林莉。

(来源:世界日报)

国际交流从语言开始。通过语言在国际交流中增进信赖。基于这种理念, 日本冈山县新见市的共生高中从今年4月开始把中文课设为学生的必修课。日籍华人吉井菜水出任该校第一任中文专任讲师。

据吉井菜水老师介绍, 共生高中目前总共有250名学生, 其中还有来自中国、韩国的43名学生。学校与中国吉林省、福建省教育部门签订国际文化交流协定, 接受了来自这两个省份的21名学生。许多日本学生都希望能够和中国学生用中文交流, 因此向学校提出了增设中文课的建议。

与此同时, 日本近年来改革高考制度, 报考外语不再是单一的英语, 中文也已经成为可供选择的外语科目之一。于是, 学校决定将中文课设置为必修课:一则促进日本学生和中国学生之间的相互交流;二则让日本学生从上高中时就掌握两门外语, 将来报考大学的时候也可以有更多的选择。

4月16日, 共生高中一年级学生的中文课正式开课。吉井菜水老师颇为自豪地说, 在日本的高中里面, 大约有200多所学校开设中文课, 但都是选修课程。将中文设置为必修课的, 共生高中是日本高中里面的第一所学校。因此, 我感到肩上的担子很重, 同时也下决心要培养出几个拿得出手的“中文弟子”。

中文毕业论文正文字体规范范本篇5

×××××××××

（小2，黑体，居中，段前段后0.5行间距，1.5倍行距）

文学院中国语言文学 081 ××× 指导老师：×××（小5，楷体，居中，各信息间空1字，段前段后0.5行间距，不再空行，1.5倍行距）

摘要：（小5，黑体，左空2字）××××××××××××××××××××××××××××××××××××。（小5，宋体，1.5倍行距，换行顶格）

关键词：（小5，黑体，左空2字）×××；××××；××（小5，宋体，分号隔开，最后不加标点）

××××××××××××××××××××××。（5号，宋体；1.5倍行距；与关键词空出一行；上下右页边距均为2.5厘米，左边页边距3.0厘米）

一、×××××××××（黑体，4号，左空2字，1.5倍行距，后面不加标点符号）

×××××××××××××××××××××××××在《×××××××》中有这样的诗句：

名理孕异梦，秀句镌春心。庄骚两灵鬼，盘踞肝肠深。古来不可兼，方寸我何任？所以志为道，淡宕生微吟。（楷体，5号，首行左空4字，第2行起空2字，不加引号）

（一）××××××（黑体，小4，左空2字，1.5倍行距，后面不加标点符号）

×××××××××××××××××××××××××××××××。他的诗“在艺术形式上鲜明地表现其独创性„„”

[1]1

2（上标，用[]标出，若同一文献引用多次，只能用一个序号，但需在上标括号外标出页码，如12、25等，参考文献中就不需标注页码了。若只引用1次的，页码只需在参考文献中标出即可。）

参考文献：（黑体，小4，左顶格，1.5倍行距，后加冒号）

[1]司马迁.史记·老子韩非列传[M].北京：中华书局，1973：258-260.（宋体，小5，1.5倍行距）[2]金显一,王昌伙,江磊等.一种用于检测的的技术[J].清华大学学报(自然科学版),1993(3):34-39.[3]谢田.创造学习的新思路[N].人民日报,1998-12-25(10).XX学院20XX届毕业论文（设计）

The Inheritance Breakthrough（黑体，4号，居中，1.5倍行距）

Li Dan-hua Supervisor:Yang Jun-cai（Times New Roman体，小5号，居中，1.5倍行距，只需写作者和指导师）

中文字体篇6

【关键词】中文字库印刷字体计算机字库设计与应用

我国计算机字库字体在80年代中期以后得到开发，像文鼎、华文、方正、汉仪、华康等等，其设计技术能力和系统捆绑销售的优势，占领了报刊出版业市场。汉仪则大举进军广告用字市场，华康字库在日本市场曾创下年销售十万片软磁盘（每片软盘装一套字库）的记录。90年代初期，激光照排机的研制成功促进了印刷字体开发，汉文印刷字库产品快速发展到100多种风格的400多款，这个领域在最短时间内为中国印刷业字体设计做出了卓越贡献。我国开发较早的文鼎字库字体，在90年代已有130多款字库字体，不仅有书报用的字体，也推出一些专用艺术字库字体。艺术字库字体作为中文印刷字体的一种规范统一的笔画模式出现，这在中文印刷字体发展过程中还是第一次，为推动中文汉字印刷字体多元化的发展奠定了基础。

1 中文字库字体设计的规范性

计算机字库字体设计的规范性是中文字库字体设计的一个基本原则。印刷字体从笔画塑造，部首库，统一字体风格到整套字体设计，制定有严格的设计程序审核。如宋体字其笔形横平竖直，横细、竖粗，横划的收笔有突出的装饰顿头，结构平稳；仿宋字笔形风格是横划倾斜，竖划斜直不一，横竖划粗细接近，竖划的收笔有钝角，笔形挺秀，结构兼有楷、宋特点，这是印刷字体设计最基本要求。字库设计除新字体设计，还要对现有字体改良和补字。如1995年谢培元先生创作“新报宋”时，考虑到报纸正文宋体是读者视线接触最多的文字字体，需要考虑快速阅读的功能，“新报宋”在结构上参考日本印刷字体的设计风格，适当将文字中宫放开，笔画清新、疏朗，既体现汉字个性的表现，又注重整体结构的统一。可见，如何改良和创新字体定位阶段非常重要。

2 字库字体创新与多样化

铅字时代由于受字号的局限，字体不可能印刷得很大，初号字就已经到了印刷字的最大数值，过细和特小的铅字印刷会出现断笔现象，其字号和字型也受到局限。利用计算机设计制作字库字体与编排版面可以自由缩放，字距、行距更加自由，计算机将印刷字体设计从手绘制作的枯燥工作中解脱出来，转向对文字解析和创意表现。因此，在90年代中期之后北大方正电子科技公司的字体设计师们创造了一些具有影响的印刷字体。比如“新报宋”、“博雅宋”、“俪宋”、“毡笔黑”、“细珊瑚”、“少儿体”、“水黑体”、“稚艺”、“兰亭宋”、“微软雅黑”、“超细黑”字体。可以说，正是这些新字体设计的出现，才有效地推动了中文印刷字体设计的历史进程。

2003年，北大方正电子科技公司开发设计了一批报版正文印刷字体，在分析正文字体利弊基础上，专题研讨开发出一些新艺体。如方正雅艺、魏碑、新秀丽、正黑、兰亭特黑、邢体隶、大草、悬针隶变、剑体等印刷字体，促进了中文印刷字体设计大跨步的创新。2007年，微软公司在其最新发布的 Windows Vista 操作系统中使用方正专门设计的微软雅黑，作为新的印刷系统字库。雅黑从技术层面上看，针对LCD 液晶显示器平滑显示状态下小字号正常阅读的问题，在一定程度清晰度更好，雅黑打破了长期以来宋体为正文字体的局面（中文宋体+英文Tohom2点阵字方案），由于字体中宫放开，比较适合视频屏幕文字显示，被广泛应用于视屏界面的广告的副标题和正文文字。这些新的字库字体的不断开发设计，带动了出版行业对常用字体、字形进行改革的趋势。

3 纸质媒体中的字库字体

长期以来无论是报刊还是网络，多选用“标宋”和“黑体”作为媒体识别字体。多数报纸正文排印使用的“老报宋”，其基本字型是90年代改进的计算机排版印刷字体，后来北大方正电子有限公司开发的第三代印刷宋体字（博雅宋）迅速得到报业采用。目前我国报刊杂志应用最多的印刷字体是方正兰亭宋、博雅宋、报宋、书宋。在特殊稿件评论类的文章中会采用楷体、粗黑体、细圆体来增强视觉效果。“报刊字体混排应用会对整体的视觉传播造成一定的影响，会影响传媒的品质。在一种报纸或杂志的标题字体的应用中，主流规范字体要占整个传媒产品的80%标题字。辅助字体要根据传媒的个性传媒的产品特性来决定辅助字体的配合与应用”。这说明报刊杂志正文字体在一定程度上具有相对要求，正文一般使用宋体类字体，字号设为五号或小五号。版面正文之间的行距应当选择适当，行距过大显得版面稀疏，行距过小阅读困难。

4 视屏媒体中的字库字体

计算机字库字体给屏幕媒体提供了大量可选择的字体，丰富了屏幕媒体视觉表现的语言。字库字体应用于视频媒体相对于静态视觉来讲，由于屏幕媒体界面字体设计具有动态效果，其传达的信息量更大，视觉冲击力更强。视屏媒体的字体设计可以是活灵活现的，上一秒钟字体所处的位置，可以在下一秒钟发生位移或转变，加上字体设计是由丰富的色彩而构成，字体可以在有限的时间内对字体的颜色进行多种变化式的搭配、渐变、投影立体、光感效果等。

文字载体的多样化对中文印刷字体提出了新挑战，由于受到文本呈现与解读方式的影响，中文印刷字体设计突破了静态平面印刷的基本概念，屏幕媒体使得文本突破二维的线性阅读，进入更加活跃的、空间性的、可选择性的阅读，文本的这种新表现方式无疑影响字体的呈现，给印刷字体设计带来了新挑战。

参考文献

[1]贺圣鼐.《三十五年来中国之印刷术》，文章载于程焕文《中国图书论集》.商务印书馆，1994年8月第1版，第351页.

[2]何远裕，原伟民.《上海印刷技术研究所与汉字印刷字体之姻缘》，《印刷杂志》.2011年第7期，第67-68页面.

[3]陈际.《计算机字库产业的发展和保护》[J].《电子知识产权》，2011（4）.

[4]周今才.《印刷活字字体》，《印刷杂志》.2008年第3期，第84页.

[5]谢培元.《印刷字体的标准化及优化》[J].《印刷杂志》1999（12），第40页.

[6]罗树宝.《印刷字体史话（十二）——计算机排版字体》[J].《印刷杂志》，2004（8）.

中文字体篇7

中文期刊的发展情况与我国的社会大环境紧密相关。随着文化产业日益兴旺, 国内中文期刊的出版发行基本上呈现逐年增长的趋势。1978-2008三十年间, 国内中文期刊的种类由930种飞升至9549种, 以平均年增长297种的速度扩张了近10倍。20世纪80、90年代, 期刊出版异常活跃, 很多年份的期刊增长量都在千种以上。

与期刊数量的大幅跨越不同, 国内期刊每年的整体构成比例大致是稳定的。科技类期刊在种类上所占的百分比略高于社科类期刊, 但在总印数上却远远逊于社科类期刊。以2008年为例, 科技类期刊品种比社科类期刊多0.4个百分点, 但在总印数上甚至不及社科类期刊的五分之一。期刊的发行量及出版频率受读者群的影响很大, 科技类期刊由于读者群狭窄而发行量较小, 社科类期刊更易于被普通大众所接受。

表1-2的数据来源于《中国新闻出版统计资料汇编 (2009版) 》所公布的官方统计, 全国9549种期刊中包含高校学报、公报、政报、年鉴1742种, 内部发行的期刊数量未包含在内。

无论是从所占比例还是从绝对数量上来讲, 内部期刊无疑是中文期刊的重要组成部分, 也是近几年的研究热点——“灰色文献”的主要组成部分。由于出版相对自由, 目前国内内部期刊可达数千种, 自由带来了争鸣却给管理带来了难度, 各地新闻出版局也无法掌握内部期刊的确切数据, 因此精确数字无法统计。事实上, 内部期刊的数量可能超乎人们的想象。2005年新疆自治区出版局公布的准予发行的内部期刊有399家, 2008年安徽一次通过新闻出版局年检的内部期刊就高达231种。新疆、安徽不算出版大省, 内刊数量尚且如此, 在北京、上海、湖北这样新闻出版发达的地区, 内部期刊的出版会更为活跃。

总之, 随着种类的激增, 针对国内中文期刊的分类标准也更为多样, 逐级的划分使当前的期刊出版情况变得纷繁复杂。

(注:“正规出版”项下可依多种方式进行细分, 上表仅列出国图常用的两种分法, 虚线部分为忽略的其他分类方法)

2 国家图书馆中文期刊入藏情况

2.1 正式期刊

从数量上看, 截止2010年, 国家图书馆入藏现行正式期刊9162种, 少于官方统计的9549种 (见表1-2) 。

数量上的差异源自以下两个方面: (1) 《中国新闻出版统计资料汇编》 (2009版) 所提供的为2008年的统计数据, 国家图书馆的数据则是根据2010年3月系统数据得出的; (2) 《中国新闻出版统计资料汇编》 (2009版) 中的数字包含年鉴和专利公报, 专利公报有专门的收藏机构, 国家图书馆就不再重复入藏, 而年鉴在国图归入图书管理, 因此期刊统计数字未将这两项计入在内。

从比例上看, 国家图书馆入藏的社科类期刊在种类上要多于科技类期刊, 这与统计年鉴所反映的国内期刊出版情况相悖。

该情况的出现由诸多原因造成: (1) 社科类期刊多版本的情况较多, 原则上版本数量再多, 也属于同一种 (即官方将其计数为1) , 但为了便于记到与读者借阅, 国图编目员采取了分编数据的方式, 在统计时系统会将每一个版本分别计为1种; (2) 国图的馆藏统计涵盖了内刊数量, 社科类内刊要比科技类刊多, 正式刊和内部刊的数量相加之后, 社科类期刊总数就会高于科技类期刊。

在对正式期刊进行分析时, 作为特殊形式的少儿类期刊往往被单独提及。少儿期刊, 一般是指以少年儿童为主要目标读者对象的期刊。按照联合国有关“未成年人”的规定, 其年龄段大致为0-18岁。2008年, 官方公布的少儿刊种类为98种, 而国家图书馆入藏的少儿读物要远远超出这个数字。

国图所入藏的少儿期刊大致可分为三种类型, 即综合性少儿期刊、少儿画刊和教辅类期刊, 其中少儿画刊类占的比重较小, 教辅类期刊所占比重相对较大。在官方统计中, 教辅类期刊是不被列入少儿刊之中的, 因此在数量上会大打折扣。

2.2 内部期刊

由于受空间、人力等因素的限制, 国家图书馆目前只能择优入藏一部分内部期刊, 截止2010年, 国图入藏的内部现刊有1169种 (见表3) , 入藏量可能仅为内刊总数的冰山一角。需要指出的是, 在考虑一种内部期刊是否具备入藏条件时, 国家图书馆并不以该刊是否拥有准印号为决定因素, 而是考察其内容价值, 因此这一千多种内刊馆藏主要集中在民间诗文集、政府公报、军队内部资料以及在业内影响较大且发行稳定的行业内刊等方面。

3 影响期刊发展及馆藏优化的一些因素

由上可知, 作为国家总书库的国家图书馆中文期刊的入藏情况和国内中文期刊出版发行情况存有一定的差异。产生差异的原因除了前面提到的合理因素外, 还有其他因素, 这些因素给国内期刊的发展和图书馆馆藏优化造成了不良影响。

3.1 假刊盗号现象严重

新闻出版机构严格控制统一刊号的审批, 许多期刊在无法得到正式刊号后会采取买卖、盗用刊号等违规方式发行。还有一些获得正式刊号的期刊由于各种原因不再出版, 但将刊号卖于多家杂志社以谋取利益, 这就产生了“一号多刊”的情况。

3.2 版本泛滥、频繁更名

随着市场经济的发展, 期刊经营也由事业向产业转化, 一些期刊为了占据更大的细分市场, 针对不同的读者群相应出版了多种版本, 一时间大量的多版本期刊开始涌现。为了吸引读者, 这些版本的题名会频繁变更, 由更名产生的大量数据垃圾给书目数据维护和读者检索造成了困扰。

3.3 擅自改频, 总期混乱

一些经济类、生活类期刊为了获得更大的经济效益, 擅自将双月刊改为月刊, 月刊改为半月刊、旬刊甚至周刊, 恶意增加印刷量。由于实际发行的频率和新闻出版署的备案频率相矛盾, 这些期刊多半采取“半明半暗”的出版方式, 比如某刊自称为月刊, 但实际上每月出版两期甚至三期, 这种做法产生的后果就是该刊的总期号极为混乱。擅自更改频率加大了编目员维护数据的难度, 同时也给到馆期刊的“登到”造成影响。

3.4 无法通过刊号确定归属

近几年, 国际上的一些期刊通过版权合作等方式进入中国期刊市场, 它们往往只具有国外的ISSN号而不具备我国新闻出版总署审批的统一刊号。随着香港、澳门的回归, 一些期刊利用香港、澳门的ISSN号在大陆编辑出版。由于以上两种期刊不使用国内刊号, 其真伪就无从考证, 而且即便是真刊, 它们的归属也存在异议, 归为海外中文期刊或国内中文期刊均有欠妥当。

3.5 获取信息渠道有限, 新刊信息滞后

目前国家图书馆的采访信息主要来自订刊公司提供的订刊目录、编辑部寄送的征订单和样刊, 以及定期浏览新闻出版署网页查看新刊公告, 以上这些方式提供的期刊信息十分有限。无法获取完整的期刊目录, 也就无从完全入藏。

3.6 样本呈缴问题凸显

新闻出版总署虽然规定正式期刊必须向国家图书馆呈缴样刊, 但有些编辑部却置若罔闻, 不予配合。对于内部刊物, 新闻出版总署没有强制规定其必须向国家图书馆缴送, 因此开展工作更是困难。呈缴不全直接影响了馆藏的连续性和完整性。

4 利于馆藏建设的一些建议

中文期刊工作的理想状态是:辨别真伪有据可查、入藏与否有规可循、样本呈缴有法可依。针对如何实现上述三点, 笔者提出以下建议:

4.1 有效联系各级机关

4.1.1 联系新闻出版署, 获取正式期刊出版明细

建议新闻出版总署每年将正式正规期刊目录发至国家图书馆及各地方馆、高校图书馆, 每季度更新期刊变更情况目录, 同时及时更新网站数据, 增加检索方式, 扩充可查询的内容, 以利于各级图书馆辨明期刊真伪。

4.1.2 联系地方出版局, 获取内部期刊出版详情

建议各地方新闻出版管理局对自己管区内的内部期刊进行登记, 尽量将其都纳入有准印号内刊的范畴。每年向新闻出版总署和各级图书馆提供有准印证号内刊的详细目录, 同时, 将图书馆随时提供的没有准印证号的期刊逐步纳入自身监督范围。

4.1.3 联系各编辑部, 了解期刊最新状态

建议新闻出版总署每年发文至地方出版管理单位, 再由地方出版管理单位向自己所辖各编辑部发出通知, 配合各图书馆采编人员了解刊物详情。

4.2 严格规范中文期刊入藏标准

(1) 正式出版、公开发行、正规经营的中文期刊要全面入藏, 年鉴及专利公报仍做特殊处理。

(2) 少儿刊由于其读者群特殊, 需特殊对待。原则上正式出版的少儿期刊均应入藏, 但有部分种类建议不予入藏, 如儿童挂图、识字卡片、手工读物等。教辅类的少儿刊也应该酌情处理, 具有学习指导性质的期刊可以入藏, 单纯的习题集、练习册则不应收藏。

(3) 内部期刊要择优采选, 重点放在有研究价值和实用价值的刊物上, 如政府出版物、科技报告、学术会议文献等, 同时要注重刊物的出版频率是否具有规律性, 便于连续性收藏。

4.3 推进图书馆立法进程

新闻出版总署颁布的是公文而不是法律, 因此督促国家尽早出台《图书馆法》十分必要。《图书馆法》是图书馆事业发展和兴旺的保证, 也是确保中文期刊缴送的法律依据, 呈缴问题应成为《图书馆法》规章的重点部分。总之, 立法才是解决国内中文期刊出版问题的根本。

摘要：随着数量的迅速增长, 国内中文期刊的出版发行情况日益复杂。通过对统计数据进行比对, 发现国家图书馆中文期刊馆藏和国内中文期刊出版现状存在着显著差异。分析造成差异的诸种因素, 以及这些因素给期刊发展和图书馆馆藏优化造成的负面影响, 并提出了弱化负面影响的相关建议。

关键词：中文期刊,出版现状,图书馆馆藏

参考文献

[1]中国新闻出版统计资料汇编[M].北京:中国ISBN中心, 2009.

中文字体篇8

1.1 背景介绍

诗歌被誉为人类智慧的结晶, 中国古典诗词的历史可以追溯到五千五百年前。中国唐代 (公元前618-907年) 国力强盛, 经济繁荣, 为文化发展创造了有利环境。中国古典诗歌在唐代得到空前发展, 达到极盛时期。

自从1815年马礼逊第一次翻译并发表了一首唐诗, 世界各地的学者便开始研究并翻译唐诗。1919年, 英国汉学家弗莱彻出版的《中国诗文萃珍》成为第一本专门针对唐代诗词翻译的著作后 , 越来越多的学者研究中国唐代诗词, 发表了许多关于唐诗词翻译的文章或书籍, 包括《宝石山》和《英译唐诗三百首》。

唐代伟大的写实诗人杜甫被称为“诗圣”, 其作品深刻反映当时社会的动荡、政治的黑暗和人民疾苦, 记录了唐代由盛转衰的历史巨变, 表达强烈的忧患意识。杜甫生活在战乱的时代, 他的生活充斥着各种战争。“三吏三别”诗组, 即《新安吏》《石壕吏》《潼关吏》《新婚别》《垂老别》《无家别》 (依杨伦《杜诗镜铨》, 上海古籍出版社, 1980年版, 第219-225页) 作于公元前七五九年安史之乱期间, 深刻描绘了战争的残酷和对老百姓的同情, 被称为杜甫的杰出代表作。戴维斯指出“三吏三别”标志着杜甫诗歌创作的顶峰。 (Davis, Tu Fu, p. 65) .

1.2研究目的和方法

诗歌包含了一个国家或民族特有的文化, 杜甫的作品反映了当时社会的动荡以及战争带来的灾难。翻译“三吏三别”时应注重形和意的传达。文章旨在探究翻译“三吏三别”的方法, 使译文达到奈达所提出的动态对等。

文中将筛选杜甫“三吏三别”诗中能反应中国文化的词汇, 并按照特有文化词汇、具有文化内涵的词汇、文化术语把六首诗中包含中国文化的词汇分为三组, 并对其翻译进行比较研究。

二、文献综述

2.1 诗歌与文化

奈达指出语言是文化最重要的组成部分, 语言构成了各个文化所独有的特点。“文化是由社会的信仰和风俗构成, 在这些风俗习惯中, 而语言在文化中有着举足轻重的作用” ( 奈达《语言、文化与翻译》p. 139) 。这表明语言是文化的一部分, 文化通过语言得到传播。“诗歌被誉为语言艺术, 构成中国文学语言的标志”。语言是文化的重要组成部分, 而诗歌能讲述事实、传达思想、表达情感, 由此可见诗歌是文化的重要组成部分, 诗歌包含并反映社会文化。

2.2诗歌翻译

“读诗难, 写诗难, 译诗更难。”因为诗歌具有一定的结构和韵律, 并反映社会文化, 诗歌的翻译是要将原诗的形式与内涵用另一种语言忠实地再现出来, 使译作与读者之间的共鸣达到或接近原诗与读者之间的共鸣。一些学者认为“诗歌中的深厚内涵和文化底蕴可以通过语言表达, 但是无法在不同语言之间转换。” (Constructing cultures, p. 57) 翻译的诗歌无法再现原诗的韵律和文化, 所以认为诗歌不可译。苏姗·巴斯奈特则认为诗歌经过翻译不会变得索然无味, 相反翻译能丰富诗歌内涵。

诗歌翻译中常用到“直译”和“意译”这两种文学翻译方法。约翰·德纳姆爵士指出“诗歌翻译不仅仅是一种语言到另一种语言的转换, 而是把原语言的诗歌转换成目标语的诗歌。诗歌所传达的意境很微妙, 诗歌翻译需要再现其意境, 否则无法称之为诗歌。” (Savory, The art of translation, pp. 79-80) .

中国现代著名作家茅盾先生提出诗歌翻译不仅要做到“形似”, 还应该达到“神似”, 而意译能传达诗歌所包含的内涵, 从而做到“神似”。

2.3文化不可以性

语言反映一个民族的文化特点、文化传统、文化心态、习俗风尚和宗教信仰等。那么在语言相互转换的时候, 其所包含的文化是否能够得到再现, 也就是诗歌中的文化是否可译。卡特福德认为“当源语言所描述的场景与源语言文化联系紧密, 而这些文化无法在目标语中得到体现时, 文化不可译。” (Catford, A linguistic theory of translation , p. 93)

诗歌体现一个社会或者地区的文化, 翻译诗歌不仅要译其形式、内容、情感, 更应该注重文化内涵的翻译。所以诗歌的可译性和不可译性更多取决于其所包含的文化是否可译。巴西诗人奥古斯都·德· 坎波斯认为诗歌没有地区限制, 是无国界的。这便提出诗歌翻译的可能性和必要性。

2.4动态对等

“对等”被视为翻译中所遵循的中心概念, 是指“原文本 (ST) 和目的文本 (TT) 之间的关系, 这种关系使得目的本文可以作为原文本的翻译”。奈达所提出的动态对等理论是指“源语和目的语对各自的读者产生同样的效果”。 (Baker & Malmkjar, Routledge encyclopedia of translation studies , p.77) 关注“译语接受者与译语信息之间的关系以及原语接受者与原文信息之间的关系基本相同”。 (Nida, Toward a science of translating, P167) 动态对等注重译文自然地表达原文的意思。

三、数据分析

杜甫“三吏三别”诗中能体现中国文化的词语被分为三组, 分别为特有文化词汇、具有文化内涵的词汇以及文化术语 . 其中特有文化词汇包括 :“中男”、“笙竽”; 具有不同文化内涵的词汇为 :“贼”;文化术语为“拜姑嫜”。

1. 吴钧陶将“中男”译为“teen-agers”, 采用了意译的方法来告诉读者“中男”是没有成年的男性。这达到了奈达所提出的动态对等的要求。然而萧涤非先生在《杜甫全集校注》中指出, 根据唐代的法律, 刚出生的男婴被称为“黄”, 十四岁之前称为“小”, 年龄到十六岁被称为“中”, 当男孩年到二十岁才被称为“男”。所以“中男”一词原意为年龄超多十八周岁且低于二十周岁的男性。而英文中“teenager”和“boys in their teens”则是指年龄在十三到十九岁青少年 (Soanes & Stevenson, Oxford dictionary of English) 。翻译虽达到动态对等, 但是没有完全传递中文古诗中所包含的文化。所以“中男”应译为“teenagers or man, aged from eighteen-year-old to twenty-three”, 采用意译加注的翻译方法。

2. “笙竽”是中国古代两种非常流行的乐器。“笙”是竹管制成的吹奏乐器, “竽”为古簧管乐器, 两种乐器均为中国特有, 具有浓烈的中华民族文化特征。吴先生将其翻译为“martial music”, 而“martial”是和战争相关的事物, 无法传达源语言所包含的文化达到动态对等。“笙竽”的翻译应采用“直译”加注的方式 : “Sheng and Yu ;Sheng:a reed pipe wind musical instrument used in ancient China; Yu: an ancient wind musical instrument”。

3.“贼”在中国文化中不仅指小偷, 而是指邪恶的人。“三吏三别”中特指反叛势力。译者采用意译方法, 将其译为“foes”和“the rebellion”, 体现了诗词中所包含的深层意思, 达到动态对等。

4. 按照中国传统习俗, 已婚女性居住在自己丈夫家里, 并且要照顾丈夫的父母。

“拜姑嫜”便是指结婚后拜见丈夫的父母。诗中描写的这对新婚夫妇, 新良还未来得及拜见公公婆婆, 新郎就被应征入伍。译者采用意译的方法, 将其译为“treat yourparents as mine”和“go and serve his parents”, 传达了中国的文化, 达到动态对等。

四、结论

首先, 杜甫的边塞诗和三吏三别中所包含的文化难以通过翻译传达。为了探究这些诗歌中文化的翻译, 本文选取带有文化含义的字词进行研究发现, 不论是特有文化词汇、具有文化内涵的词汇还是文化术语, 都应该采用意译和直译加注解的方法。

中文情感分析综述篇9

关键词：网络评论,主题发现,网民导向

情感分析是目前文本挖掘中比较主流的应用领域,情感分析涵盖的内容很多,诸如电商平台中评论信息分析、社交媒体平台中用户的评论导向等都属于情感分析的范畴。情感分析能够发现用户评论数据中极性,对于分析用户的思维导向具有很好的指导价值。

情感分析能够辅助电商和社交等平台更好地提升用户体验,以电商平台(淘宝)为例,淘宝的用户量级和商品量级都非常巨大,通过提取分析用户评论中情感特点,可以动态的对淘宝店铺和淘宝商品的排序进行调整,最大适度的提升用户的满意度。情感分析对社交平台的辅助性也是巨大的,很多热点社会时政信息都会在社交平台上暴露出来,通过对当前热点事件下网民的跟帖信息分析,能够发现网民对当前热点事件的趋势,一方面网民遍布全国各地,网民跟帖信息能够在一定程度上帮助验证事件的真实度。

1 情感分析流程

情感分析包括很多的内容,例如需要对用户评论信息进行分词,分词之后需要对各个分词结果的词语进行词性分析,词性分析的结果是希望通过对单个词语的词性分析来分析整个句子的极性,需要通过机器学习的方法对每条评论信息进行极性标注,极性标注的方式可能存在多个类别而非简单的积极和消极两种情况。需要对用户产生的新评论信息进行极性分类等。

1.1 评论分词

用户评论信息以句子和短文本为主,情感分析很重要的一步是依赖情感词典,通过将评论信息中词语与情感词典进行映射,发现可以匹配的结果,以此来界定词语的极性。因此对评论信息进行情感分析的首要工作是分词,分词的好坏决定了最终情感分析的结果。分词可以采用多种算法,最简单的方式是词典匹配的方式,即通过能够匹配词典的词语作为分词单位,分词时采用最大匹配单位为准,还有诸如最大熵分词算法,既保证当前规则的分词切分方式能够最大化的保留句子的主要信息。值得一提的是,目前应用最为广泛的应该是隐马尔可夫模型的分词算法,隐马尔可夫模型将句子切分后的各个单元概率最大化,这样做的目的是保证切词后的划分是基于统计意义下最可能的切分,分词系统结构如图1所示。

1.2 句法分析

句法分析是分词之后的步骤,分词的目的是为了分析用户评论中各个词语的极性,分析极性的目的是为了对整个评论语句进行分析。句法分析涉及多个细节,需要对句子的组成成分进行分析,常用的分析方法是隐马尔可夫模型,隐马尔可夫模型通过对句子拆分后的各个词语进行动态组合,找出最佳的句子匹配成分,对句子成分的分析是为了能够更加准确地分析句子。

1.3 句子主题识别

句子主题识别在电商平台应用尤为明显,用户评论的句子千差万别,需要在如此海量的评论数据中找到评论中共通的信息,以淘宝为例,淘宝评论分为有限的类别,然后评论数据量确实非常巨大,需要从海量的评论数据中识别出有限的类别。依赖于前两个流程的帮助,评论分词和句子分析,可以试图提取句子中共现次数较多的词语,并评估这些词语在整个评论数据中占据的信息量大小。

1.4 评论分类

对海量评论数据的处理之后,如何对产生的新评论数据进行分析,即需要对新评论数据进行分类,分类的依据是之前通过历史数据学习的类别数据。以淘宝为例,淘宝评论的类别有很多种,诸如物流信息、尺寸信息和颜色信息等有限的几个类别,这些类别都是通过对历史评论信息进行动态的划分,新评论产生之后,通过分词和句法分析等步骤,对新评论进行类别分类,将新评论映射到具体的类别中。

2 情感分析实践

情感分析是指发现作者在对某个话题或某个事物发表评论时的态度和观点。这个态度或许是他当时的情感流露,又或者是作者透露出来的情感交流或者只是本人简单的判断和评估等。在进行情感分析时,需要分清逐级区分,可以是最基础的词语级别的、也或者是句子级别的再或者是最上层整个评论主体级别的。文本情感分析的要义就是对评论中词语进行细粒度的极性分析,从而实现对整个句子级别的极性判断。总体来说,可以将情感分析划分如下几个步骤。

第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。英文已经有伟大词典资源:Senti⁃Word Net.无论积极消极、主观客观,还有词语的情感强度值都一并拿下。

但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋地(最近还发现了大连理工发布的情感词汇本体库,不过没用过,不好评价)。中文这方面的开源真心不够英文的做得细致有效。而中文识别主客观,那真的是不能直视。

中文领域难度在于:词典资源质量不高,不细致。另外缺乏主客观词典。

第二步,就是识别一个句子是积极还是消极,是主观还是客观。有词典的时候,好办。直接去匹配看一个句子有什么词典里面的词,然后加总就可以计算出句子的情感分值。

但由于不同领域有不同的情感词,比如看上面的例子,“蓝屏”这个词一般不会出现在情感词典之中,但这个词明显表达了不满的情绪。因此需要另外根据具体领域构建针对性的情感词典。

如果不那么麻烦,就可以用有监督的机器学习方法。把一堆评论扔到一个算法里面训练,训练得到分类器之后就可以把评论分成积极消极、主观客观了。分成积极和消极也好办,还是上面那个例子。5颗星的评论一般来说是积极的,1到2颗星的评论一般是消极的,这样就可以不用人工标注,直接进行训练。但主客观就不行了,一般主客观还是需要人来判断。加上中文主客观词典不给力,这就让机器学习判断主客观更为困难。

中文领域的难度:还是词典太差。还有就是用机器学习方法判断主客观非常麻烦,一般需要人工标注。另外中文也有找到过资源,比如这个用Python编写的类库:Snow NLP.就可以计算一句话的积极和消极情感值。但我没用过,具体效果不清楚。

到了第三步,情感挖掘就升级到意见挖掘(Opinion Mining)了。这一步需要从评论中找出产品的属性。拿手机来说,屏幕、电池、售后等都是它的属性。到这一步就要看评论是如何评价这些属性的。比如说“屏幕不错”,这就是积极的。“电池一天都不够就用完了,坑爹啊”,这就是消极的,而且强度很大。

这就需要在情感分析的基础上,先挖掘出产品的属性,再分析对应属性的情感。分析完每一条评论的所有属性的情感后,就可以汇总起来,形成消费者对一款产品各个部分的评价。接下来还可以对比不同产品的评价,并且可视化出来。如图2所示。

3 总结

本文以文本情感分析为主要切入点,分析了文本情感分析在当前诸多领域中应用场景,文本情感分析可以发现用户在特定场景下的情感特性,通过对情感特性的分析,可以了解用户对当前话题或者世事的态度。很明显这种研究具有非常重要的社会价值。情感分析包括句子分词、句子成分分析、主题发现和句子分类等多个部分,通过诸多环节的协调组合共同组成了最终的情感分析。

参考文献

[1]徐健.基于网络用户情感分析的预测方法研究[J].中国图书馆学报,2013(3):96-107.

[2]蒋宗礼,金益斌.结合点评情感分析的推荐算法研究[J].计算机应用研究,2016(5):1-5.

[3]江腾蛟,万常选,刘德喜,刘喜平,廖国琼.基于语义分析的评价对象-情感词对抽取[J].计算机学报,2016(39):1-17.

[4]息行雨.音乐与情感结合的教学方法分析[J].中国培训,2016(6):121.

中文分词算法研究篇10

1 分词技术综述

1.1 全文检索技术

所谓全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。在中文文档中根据是否采用分词技术,索引项可以是字、词或词组,由此可分为基于字的全文索引和基于词的全文索引。

基于字的全文索引是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字和词有很大分别。此方法查全率较高, 但查准率较低。有时会出现令人啼笑皆非的检索结果,如检索货币单位“马克”时,会把 “马克思”检索出来。

基于词的全文索引是指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文文字则需要切分字词,以达到按词索引的目的。对中文文档进行切词, 提高分词的准确性, 抽取关键词作为索引项, 实现按词索引可以大大提高检索的准确率。

1.2 中文分词技术

中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。

目前国内外对于中文分词的主要研究成果分为以下几种:正向最大匹配法、反向最大匹配方法、分词与词性标注一体化方法、最佳匹配法、专家系统方法、最少分词词频选择方法、神经网络方法等[1]。

纵观众多研究成果,可以看出当前中文分词还存在一下两个基本的问题需要解决[2]:

(1)歧义问题。汉语中存在大量的歧义现象,对几个字分词可能有好多种结果。简单的分词往往会歪曲查询的真正含义。

(2)未登录词识别问题。理想的系统应该能对未登录词进行记录和识别,并通过不断整理,增强未登录词识别的能力。

2 分词算法研究

下面各节,对当前研究的分词算法进行了分析,并设计了分词原型选择实验,对当前流行分词模块进行测评和比较。

2.1 中文分词基本原理

中文分词的基本处理是针对输入文字串进行分词、过滤处理,输出中文单词、英文单词和数字串等一系列分割好的字符串。中文分词模块的输入输出如图1所示。

2.1.1 ICTCLAS模块

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是由中国科学院计算技术研究所研究的基于多层隐马尔可夫模型HMM的汉语词法分析系统。HMM是一个双重随机过程,两个组成部分:①马尔可夫链:描述状态的转移,用转移概率描述;②一般随机过程:描述状态与观察序列间的关系,用观察值概率描述[4]。

基于HMM的分析系统的功能有:中文分词;词性标注;未登录词识别。

该模块包含的词典是通过统计方法建立的,对其进行了封装,以.dct格式存储。

2.1.2 最大正向匹配算法模块

最大正向匹配算法是项目中常用的分词解决方案。最大正向匹配算法模块采用机械式匹配算法的原理,通过建立词典并进行正向最大匹配,对中文进行分词。尽管最大匹配法分词是常用的解决的方案,但是无疑它存在很多明显的缺陷,这些缺陷也限制了最大匹配法在大型搜索系统中的使用频率。最大匹配法的问题有以下几点:

2.1.2.1 长度限制

由于最大匹配法必须首先设定一个匹配词长的初始值,这个长度限制是最大匹配法在效率与词长之间的一种妥协。

(1) 词长过短,长词就会被切错。例如当词长被设成5时,也就意味着它只能分出长度为5以下的词,例如当这个词为“中华人民共和国”长度为7的词时,我们只能取出其中的5个字去词典里匹配,例如“中华人民共”,显然词典里是不可能有这样的词存在的。因此我们无法下确的划分出“中华人民共和国”这样的词长大于5的词。

(2) 词长过长,效率就比较低。效率是分词算法、甚至是整个算法理论体系的关键。算法书里所有的高深的查询或排序算法都是从效率出发的,否则任何办法都可以解决分词效率低的问题。必须要在词长与效率之间进行妥协,既要求分词尽量准确,又要求词长不能太长。

2.1.2.2 掩盖分词歧义

中文是如此复杂的语言,机械的电脑是很难理解这么复杂的语言,因此它必然会带来歧义性,两个简单的例子:

(1)“有意见分歧”(正向最大匹配和逆向最大匹配结果不同)。

有意/ 见/ 分歧/,有/ 意见/ 分歧/

(2)“结合成分子时”(正向最大匹配和逆向最大匹配结果相同)。

结合/成分/子时/

由于词的歧义性使我们在使用最大匹配法分词会产生错误的结果,而且使用正向分词与逆向分词往往会产生截然不同的结果。尽管使用回溯法或计算计算词的使用频率,可以使出现歧义的可能性减少,这样的结果仍然是不可避免的。

2.2 分词模型比较实验

2.2.1 分词系统的评价准则

分词系统的最主要的工作是进行分词。对于分词而言,不仅要求所研制的软件在分词的正确率和速度方面满足一定的要求,而且要像开发大型传统软件那样,在各个阶段不断的进行评价,其目的主要是检查它的准确性和实用性,分词的评价主要有以下几个方面:

(1)分词正确率。书面汉语的文本可以看成是字符序列,分词的正确率直接影响更高一级的处理。

(2)切分速度。切分速度是指单位时间内所处理的汉字个数。在分词正确率基本满足要求的情况下,切分速度是另一个很重要的指标,特别对于算法不单一,使用了辅助手段,诸如联想,基于规则的,神经网络,专家系统等方法更应该注意这一点。通常中文信息处理的文本数量是相当大的,因此必须考虑方法是否能使系统总开销合理。

(3)功能完备性。自动分词方法除了完成分词功能外,还应具备词库增删、修改等功能。

(4)易扩充性和可维护性。这是提供数据存储和计算功能扩充要求的软件属性,包括词库的存储结构,输入/输出形式的变化等方面的扩展和完善。这项指标与系统清晰性、模块性、简单性、结构性、完备性以及自描述性等软件质量准则有直接的联系,随着开发版本的升级,需要不断提高与改进,使之适应中文信息处理的各种应用。

(5)可移植性。可移植性是指方法能从一个计算机系统或环境转移到另一个系统或环境的容易程度。一个好的分词方法不应该只能在一个环境下运行,而应该稍作修改便可在另一种环境下运行,使它更便于推广[5]。

本着以上几点原则,设计了分词模块测评实验。

2.2.2 实验参数

通常,我们用查全率、查准率来衡量信息检索系统的检索效率。查全率( recall ratio) 指系统在实施某检索作业时,检出相关文献的能力。查准率(precision ratio) 指系统在实施某一检索作业时,拒绝不相关文献的能力,是衡量信息检索系统精确度的尺度[6]。一般来说,查全率越高,精度越低,反之精度越高,查准率越低。由F1参数来综合查全率和查准率的结果进行比较。当然还有快速查找大量文本文件的速度和能力,例如:对单一项的查询、多个项的查询、短语查询、通配符等功能。但与分词模块直接相关的参数主要是查全率、查准率、F1参数和分词速度[7]。本实验中,也使用查全率、查准率、F1参数、分词速度几个参数来评价系统性能。公式如下:

查全率undefined

undefined

分词速度undefined

2.2.3 测试集

在实验中,选择测试集来自北京大学的《人民日报》1998年上半年的纯文本语料。共包含3,148篇文章1,673,069字。

2.3.4 实验步骤

(1)收集一个题材和体裁分布平衡的测试文本集(生语料)。

测试集的规模一般在50万至100万字次左右。

(2)编制一个分词评测软件。

软件的输入是两个文本:

①被测系统对测试集实施自动分词的输出结果。

②标准文本。

评测软件对这两个文本进行逐词对比和统计计算,然后分别输出被测系统的评测结果:查全率、查准率、F1参数、分词时间、分词速度。

2.2.5 测试算法

测试步骤如下,见图2:

(1)读取生语料,读取熟语料,进入2;

(2)是否存在下一个文件?是,进入3;否,进入12;

(3)滤掉标点,把句子分隔开,存在数组中,进入4;

(4)加载分词模块,进入5;

(5)对处理后的生语料进行分词,并记录开始时间,进入6;

(6)记录结束时间,进入7;

(7)将分词结果和熟语料对应输出,进入8;

(8)判断是否存在下一个句子,是,进入9;否,进入10;

(9)判断是否存在下一个词,是,进入11;否,进入8;

(10)计算相关参数,并进入2;

(11)在熟语料的对应句子中进行匹配,判断是否成功?是,accurate++,进入9;否,进入9;

(12)计算相关参数;

2.2.6 测试结果及分析

对测试结果进行整合得到:ICTCLAS耗时60.110s,分词速度为60.47KB/s;最大正向匹配算法进行分词,耗时25.763s,分词速度为141.09KB/s。

测评综合结果如表1所示。

对结果进行分析,可以看出最大正向匹配算法在速度上明显优于中科院ICTCLAS分词模块,但在查准率、查全率和F1参数上逊于中科院ICTCLAS分词模块。正确性比较见图3。

分析原因有以下两点:

(1)算法匹配方式:

最大正向匹配算法一般选择最长的词语进行匹配,而语料库中的熟语料并未按照最长词语进行划分。这是导致分词结果与熟语料存在一些不匹配的另一个原因。但这并不代表该算法正确率不高,而只是与语料库不完全匹配。这一点可以由人工从分词的结果中看出来。

(2)词典的质量:

最大正向匹配算法模块选用的通用词典在质量上可能与ICTCLASC存在差别。在机械式匹配算法中,词典的质量严重影响着分词的质量。所以,词典的质量可能是导致模块几个参数值下降的一个原因。因此,有必要进一步提高词典的质量。

综合分词结果来看,得到以下结论:

ICTCLAS模块在查准率、查全率、F1参数占有优势。但是,其词典存储形式不开源,不支持词典编辑,并且无法建立专业词典,功能完备性、易扩充性和可维护性上具有缺陷。在测试中发现,其稳定性不高,参数传递不精准可能会导致分词系统的分词结果出现乱码。

最大正向匹配算法在查准率、查全率等参数上测试结果逊于ICTCLAS。但其正向最大匹配算法的速度和精度上基本能够满足系统的要求。并且能够通过词典质量的进一步改进,使得分词效果得到改善。它在功能完备性、易扩充性和可维护性上优于ICTCLAS,更适用于在系统开发中的应用。

3 结束语

论文研究了当前搜索引擎技术中采用的分词技术,设计了分词模块的选择试验,比较了ICTCLAS和最大正向匹配算法模块这两种技术的优缺点。

由于是对中文自动分词技术的初步应用,所以工作还存在一些不足。比如:分词算法还存在切分歧义,切分处理技术还不能适应汉语丰富的构词变化等问题。

摘要：当前搜索引擎技术被广泛的应用,这使得全文检索技术和中文分词技术的研究逐渐深入。本论文致力于研究中文分词算法,通过实验对分词原理做出比较,对分词算法、词典对分词质量的影响做出判断和评估,并设计了分词原型比较实验,比较测评了当前流行的中文分词方式:中科院分词模块和最大正向匹配法模块。

关键词：全文检索,中文分词,查准率,查全率,F1参数

参考文献

[1]马玉春,宋涛瀚.web中中文文本分词技术研究.计算机应用,2004,24(4):134~136

[2]易丽萍,叶水生,吴喜兰.一种改进的汉语分词算法.计算机与现代化,2007,2:13~15

[3]Chien Lee-Feng.PA T-tree-based adaptive keyphrase extraction for intelligent Chinese information retrieval.Information Pro-cessing and Management,1999,35:501~521

[4]顾铮,顾平.信息抽取技术在中医研究中的应用.医学信息学,2007,20:27~29

[5]何淑芳.基于BBS文本信息的中文自动分词系统的研究.青岛:中国海洋大学,2006.

[6]张自然,金燕.知识检索与信息检索的检索效率比较.情报科学,2005,4:590~592

永恒的中文篇11

思考生命，追索未来，不能想象没有中文的土地是怎样的荒凉，它在不经意间，本能地叩击着我的一生。对于民族，母语是一种激昂，一种慰藉，漂泊异乡之时，偶遇中文，寂寥的灵魂犹如拥着冬雪时的壁炉，无以名状的幸福顿时浸润每一个细胞，如部落的图腾，深深刺入穴位，忘情而热泪奔涌。曾见西藏的佛教信徒，为着不朽的神灵，叩拜着登上山巅，在布达拉宫伟岸的躯体前长跪不起，双手合十，怀着一颗诚挚的心代代不息地仰慕着那至高无上的圣土。而唯有母语，让我甘做一个朝拜者，向你雪峰之巅叩拜，感受永生。抚摸汉字飘逸神骏的躯体，呼吸仓颉古老的气息。历经甲骨、青铜、竹简、布帛之纵横，亦未能消磨汉字纯正的血统，在惊滔骇浪中稳稳立足。纵有成吉思汗驰骋中原的霸气与努尔哈赤一呼百应的豪情，亦同化与包容于汉字足下，此无一不令外来文字黯然神伤，构成后无来者的灵魂傲气。

爱中文，它的尊严汇成浩瀚的史籍。文天祥在浪迹途中长吟：“人生自古谁无死，留取丹心照汗青。”谁能阻碍他“不指南方不肯休”的赤胆忠心。杜甫在落魄中感叹：“国破山河在，城春草木深。”孰能消却他“出师未捷身先死，长使英雄泪满襟”的悲怆。岳飞在“靖康耻，犹未雪”的遗憾中命绝风波亭。陆游在“家祭无忘告乃翁”的愤然下长逝病榻之上。唯有母语的魅力，激进士人的情怀，延伸民族的命脉，成为尊严的中流砥柱。回首四大文明古國，独有中文横贯千古，吐纳不息，舒展着民族的荣耀与浩然正气，这绝非偶然。当兰亭的流觞曲水、文人墨客相继离去，中文面临着外来文化的强烈冲击。轻视中文于不顾是一种悲哀，否认着自己炎黄子孙的血脉；拒外语于国门之外亦是一种愚昧，重蹈鸦片战争的覆辙，闭关保守酿成民族遗恨。当汉字已浸透自己的生命，诵着贺知章“乡音不改”的中国人，谁能忘却响彻世界的良机?

面对只有二百余载而根基浅淡的美国文化，却不得不承认它的世界语的地位与价值。文明的兴盛，永远依仗着国势的盛衰。唯有中国自身的崛起，方能使中文接受四方的顶礼膜拜。正如李阳所言：“我必将用中文折服世界。”

驾驭千里之风于黄河狂澜之上，炎黄之后应微笑着挥毫泼墨，用中文喝彩未来。

中文专利辅助阅读篇12

关键词：术语自动抽取,哈希索引,倒排查找,术语标注

一、本课题的研究意义及背景

随着社会的进步, 科技的发展, 社会各界对知识产权的保护越来越重视, 以致专利申报日益增多。然而专利中的术语专业性强, 业外人士难于理解, 已致影响到审批单位的工作进度和申请专利的效益时间。本设计就是解决将专利中苦涩难懂的专业词汇转化成人们易懂的词语, 使之轻而易举的了解专利的作用及其商业价值。

术语是指学科中的专门用语。以前主要依靠人工来进行获取, 其优点是由人这个最智能化的“机器”手完成。弊端也是显而易见的:在浩瀚的语料中, 无异于海底捞针, 代价巨大且进展缓慢。当今社会发展一日千里, 旧术语的逐渐消亡, 新术语的不断涌现。在不同的领域面对着近乎无限的语料, 全靠人工的方法是不现实的, 必须借助计算机的强大处理能力, 同时结合语言学研究的成果, 使术语抽取工作自动进行。

二、系统的总体设计

在接口自动抽取出文章中的术语后, 程序会把标注好的信息处理成连续完整的文章并标出专业术语显示在下方的文本框中, 在对文章分析过程中, 可能被抽取的部分术语不是按照理想的状况进行标记处理, 而出现了术语错误显示, 其有可能是不同领域的术语结构不同, 或不同的语言学知识产生的原因。如不对其进行相应处理便会使解释的术语产生歧异, 文章所表达的语意错误, 所以应对其采取相应的处理方法, 使之正确显示。

(一) 术语抽取的特点

术语的概念有广义和狭义之分。从狭义上讲一般指技术术语, 但在自然语言处理 (NLP) 领域, 一般用到的是术语的广义概念。其在语言学系统中看术语的内部结构有其固定的特点:1) 术语的长度特点:中文术语长度主要是2到6个字;2) 术语大多是名词性的短语;3) 术语形成模式特点, 如Noun+Noun, Adj+Noun+Noun等;4) 有些字几乎不可能出现在术语之中, 如“的”、“是”、“些”等。

术语具有单元性 (Unithood) 与术语性 (Termhood) , 单元性指术语结构上的稳定程度。术语性指一个语言单位与一个特定领域的概念相关联的程度。因此术语具有结合紧密性、语言完备性和领域性这三个特点。

(二) 基于工具抽取的术语及方法

基于规则的术语抽取方法:主要研究使用术语语言学上的知识, 如术语上下文 (外部信息) 和术语的内部组成成分 (内部信息) 来抽取术语。基于统计的术语抽取方法:这种方法简单、直接不需要额外的资源 (如词典) 来辅助, 是一种跨领域的方法。对于固定短语, 通过出现频率配合上一些词法过滤器, 则效果更佳。

基于规则与统计相结合的抽取方法:由于基于规则和统计的方法各有优缺点, 如把两者结合起来就能够取长补短。使用统计学的方法获取候选术语, 再利用语言学的特点来筛选、过滤或修正, 这已经成为当今术语抽取技术研究的主流。

CRF工具包在对专利文章处理后, 其文档中专业术语以自己规定的字符表示开头、结尾、术语等。段落开头以“-str-”标记。处理过程中将段落开头“-str-”处理成空, 并加一记录器count记录“-str-”出现的次数, 判断如果count不是1, 则去除“-str-”标记后回车换行;如果是1, 则去除“-str-”标记后正常显示。

显示术语时, 先记录下术语开始和结尾的位置, 并将开始前加空格, 结尾后加空格, 术语与非术语之间用“/”分隔, 术语间用“||”分隔。但要注意的是并非所有的术语都是以自己规定的字符开头和结尾的, 所以处理时应该加以判断, 并把标注符号去除来准确的显示专利文章。

(三) 系统设计及关键技术分析

考虑到术语的模糊性和词库的庞大, 要对术语进行模糊匹配, 先将术语处理成单个汉字再与词库做匹配处理, 同时对其在对术语中的每一个字符都在词库中做一次检索, 并对词库中的词条建立哈希索引, 进行倒排查找。在判断字符在词库中的某条语料里是否连续出现时, 需考虑汉字与英文的区别, 由于汉语词汇的后重性, 则要从最后的字符向前来判断, 找到相同的字符后, 再判断其前一个位置的字符是否也相同, 相同则记录器进行累加操作, 即字符在词库中出现了几次, 记录器便是几。还需考虑术语在语料中出现的连续性, 其程度越高, 显示的优先级就越高。同时把术语在词库中的哪条信息中出现过的位置分别记录下来进行存储。以方便下次查找, 即优化了程序也节省了时间。

三、机器学习的理论

已用于术语抽取的机器学习理论主要有基于决策树的方法和基于支持向量机的方法。本文主要介绍在实验中所用到的最大熵模型。

(一) 最大熵模型

熵是大量微观粒子的位置和速度的分布概率的函数, 即熵值高意味着无序性强。最可能接近它的真实状态, 这就是最大熵原理。信息时代定义的数学公式:熵

单位:bits

信息熵概念为测试信息的多少找到了一个统一的科学定量计量方法, 是信息论的基础。它将数学方法和语言学相结合。其优点为:建模时只考虑特征, 不需要考虑如何使用这些特征, 而且可以灵活地选择不同类型的特征, 特征易于更改等。

(二) 结论与展望

中文专利辅助阅读问题显然是汉语的专业术语自动抽取中的一个分支问题, 本文通过对术语的查询测试, 证明对词库进行哈希索引、倒排查找和词语优先显示等方法都是非常有效的, 使其系统的运行效率大幅提升并且基本实现了简单快捷的算法来设计程序, 使之达到更好的效果。

参考文献

[1].张勇.中文术语有动抽取相关方法研究[D].上海, 华中师范大学, 2006.

[2].何婷婷, 张勇.基于质子串分解的中文术语自动抽取[J].计算机工程, 2006.

[3].贾爱平.科技文献中的术语定义的语言模式研究[D].北京, 北京语言文化大学, 2002.