中文信息技术(精选11篇)
中文信息技术 篇1
长期以来,我国新闻行业没有统一新闻标准,因此,各个新闻单位不得不各自为政、自立标准,这种状况已严重影响了我国新闻行业之间、新闻行业和广大用户之间对新闻信息的交换和共享,造成了资源极大的浪费和不必要的重复劳动。
2000年以来,国际上的IPTC组织推出了一系列多媒体新闻信息技术标准(NewsML等),路透社等许多国际新闻媒体都把它作为战略性措施加以采用,如不抓住多媒体新闻在我国刚刚起步的契机,及时跟上,那么,随着互联网的迅猛发展和多媒体新闻信息的快速增长,我们又将丧失机遇,重蹈覆辙。
因此,尽快建立全国统一的中文新闻信息技术标准,已迫在眉睫,刻不容缓。
《中文新闻信息置标语言》和《中文新闻信息分类与代码》两项标准就是在这种情况下提出的。
中文新闻信息技术标准研制项目由两个分项目组成,即《中文新闻信息置标语言》和《中文新闻信息分类与代码》两个国家标准的研制。
《中文新闻信息置标语言》(简称CNML)标准是一套既与国际接轨、又符合中国特色的多媒体新闻信息元数据规范,满足了全球中文传媒多样化需求,具有前瞻性的、专业的、跨媒体的统一的新闻信息处理的技术标准。
《中文新闻信息分类与代码》是在深入研究和博采众长的基础上制定的,既借鉴了国际主要传媒机构分类标准的长处,又凝聚了我国主要传媒机构数十年来新闻资料分类的实践经验及近年来信息分类的探索成果,它是既与国际接轨、又有中国特色的全国统一的中文新闻信息分类标准与代码。
“中文新闻信息技术”两项标准草案于2005年5月形成,并于2005年11月,由科技部和国家标准化委员会联合组织了项目验收。专家一致认为:“中文新闻信息技术标准是具有我国自主知识产权的标准,它的研制成功,填补了我国乃至全球华语地区新闻信息技术领域标准的空白,是自主创新的成果,是我国新闻技术发展史上的里程碑。它的推广应用,将对“十一五”期间新闻行业的标准化、规范化发展开辟了一条崭新的道路。对新闻信息资源的交换、整合和挖掘起到积极地促进作用,极大地推动多媒体新闻在全球华语地区新闻行业的应用,有利于我国信息产业和信息咨询服务业的发展。”
这两项新闻标准实施以来,在新华社的大力推动和各方面的协助下,已经取得了很好的应用成果,新华社、中国评论新闻社、香港文汇报等新闻媒体以及方正电子公司、阿帕比公司、华光公司、新华紫光公司、高术传媒等公司、上海阿尔法、方正奥德,中科软,中软,中科大洋,中联兴达、青苹果数据中心、清华大学、TRS等高科技公司均在不同程度上采用了这两项新闻技术标准,海内外的新闻媒体和公司均已经不同程度的采用了标准,充分体会到了标准的优势。
通过标准的实施使得资源整合和共享程度大大提高,消除了大量跨部门、跨系统和跨平台的信息交换的障碍,大大促进了传媒产业的信息化发展;使得业务变化更加灵活、便捷,有效的降低了维护成本;有利于实现功能完整、互动性强、性能完好的集采、编、发、供、反馈一体化业务系统;可实现多媒体、全媒体发稿,做到一次生成,任意发布,满足受众多样化的需求。中文新闻信息技术两项国家标准不仅为我国新闻信息的整合与共享奠定了良好的技术基础,也为我国新闻行业的标准化、规范化发展描绘了一条崭新的道路。
中文信息技术 篇2
提示信息 说明
Drive A error 驱动器A错误
System halt 系统挂起
Keyboard controller error 键盘控制器错误
Keyboard error or no keyboard present 键盘错误或者键盘不存在BIOS ROM checksum error BIOS ROM 校验错误
Single hardisk cable fail 当硬盘使用Cable选项时硬盘安装位置不正确
FDD Controller Failure BIOS 软盘控制器错误
HDD Controller Failure BIOS 硬盘控制器错误
Driver Error 驱动器错误
Cache Memory Bad, Do not Enable Cache 高速缓存Cache损坏,不能使用
Error: Unable to control A20 line 错误提示:不能使用A20地址控制线
Memory write/Read failure 内存读写失败
Memory allocation error 内存定位错误
CMOS Battery state Low CMOS没电了
Keyboard interface error 键盘接口错误
Hard disk drive failure 加载硬盘失败
Hard disk not present 硬盘不存在Floppy disk(s)fail(40)软盘驱动器加载失败,一般是数据线插反,电源线没有插接,CMOS内部软驱设置错误
CMOS checksum error-efaults loaded.CMOS校验错误,装入缺省(默认)设置
二、BIOS刷新失败后,Bootblock启动时出现的提示信息
提示信息 说明
Detecting floppy drive A media...检测软驱A的格式
Drive media is : 1.44Mb1.2Mb 720Kb 360K 驱动器格式是1.44Mb、12Mb、720kb、360kb的一种
DISK BOOT FAILURE, INSERT SYSTEM DISK AND PRESS ENTER 磁盘引导失败,插入系统盘后按任意键继续
三、MBR主引导区提示信息
提示信息 说明
Invalid partition table 无效的分区表
Error loading operating system 不能装入引导系统
Missing operating system 系统引导文件丢失
说明:如果在计算机启动过程中,在硬件配置清单下方(也就时在平时正常启动时出现Starting Windows 98…的地方)出现不可识别字符,此时可判断硬盘分区表损坏。如果你的硬盘上有重要资料,这时你不要轻易进行分区,可找专业的数据恢复公司。
四、DOS活动分区中的提示信息
提示信息 说明
Invalid system disk 无效的系统盘
Disk I/O error, Replace the disk and press any key.磁盘I/O错误,替换磁盘后按任意键(当C盘系统文件丢失或被破坏时出现该提示信息。这时可能SYS C:为修复系统文件)
Invalid Media Type reaching Drive C: 无效的C盘媒体格式说明。也就是C盘没有格式化或者是其他操作系统的磁盘格式如NTFS
中文信息技术 篇3
在双方专家简单自我介绍后,全国科学技术名词审定委员会刘青副主任介绍了名词委在两岸中文名词术语对照工作的情况。资策会林庆隆顾问介绍了台湾在名词术语方面的审译情况,台湾在这方面也有多年的积累。近几年,通过两岸同仁的共同努力,两岸术语名词对照工作取得了重大进展。随着两岸经济、科技、贸易等的合作不断深入,加强两岸名词术语编译单位的合作和交流是十分必要的。
两岸专家还分别就建立学术名词信息网、两岸名词术语工作平台建设及新词收集等方面做了相应的报告,并就此展开了热烈的讨论,提出一些具有创新性的意见和建议。会议就如何推进下一步两岸名词术语对照工作进行了讨论。本次会议对两岸名词术语的工具具有重要的指导和推动作用。
最后,会议全体代表达成一致意见如下:
1两岸在中文名词术语工作的原则是:加强交流,积极推进,择优选用,逐步一致。
2两岸已有名词继续以现有方式整理对照,以电子文档方式交换资料以便双方对照、审定。
3针对新词的收集及编订:除双方既有审查程序外,为求时效,先以信息技术名词(计算机、通信、电子学等领域)为试点,成立联合工作组,建立工作平台进行编订,以最快时间发布试用,并作为未来法定名词编订基础。
4为扩大名词术语工作的影响力,双方可利用网站推广使用已对照的名词。
5以目前的工作模式为基础,积累经验,逐步推广到人文社会科学以及一般社会用语的交流合作中。
会议全体代表感谢新疆维吾尔自治区经济和信息化委员会对本次大会的大力支持。
中文信息技术 篇4
自电子计算机传入中国以来,人们一直在研究中文的输入法,从五笔字型到智能拼音,但总是有人试图设计一种更符合中文习惯的键盘,这在从前往往是信息技术研究者考虑的问题,而现在通过程序的帮助,普通学生也可以完成一个中文键盘的设计和测试的全过程,在以前这是很难想象的。
●基于数据的决策:中文拼音输入法中字母输入频率的研究
1.研究工具的设计
如果我们设计键盘,就需要一项基本的研究:研究汉语拼音所需要的26个字母在全拼输入状态下每个字母的出现频率,并且依据频率将比较常用的字母放在手指较为灵活的位置上。因此,我们设计了图1所示的研究工具,来记录输入的字母并且通过按键的大小完成数据的可视化。在程序设计的过程中,由于每个字母都有对应的按下次数,因此对于角色A,当A按下一次以后,变量次数加1并将大小增加1,在初始化时控制角色的初始大小和位置,如图2所示,就设定了角色A中变量次数的改变。
接下来,复制角色A,并修改造型为角色B,以此类推完成A~Z的键盘布局和变量位置的布局,使得图1所示的界面,能够用上方的变量显示出每个字母按下的次数,也能用下方该字母的大小将字母按下的次数可视化,这种可视化是接下来设计中文键盘结构的一个重要依据,图1所得出的初步结论说明,目前的英文键盘排布明显不适用于中文,字母UINOE显然应该放在手指直接触碰到的第二行比较合适。
2.数据的获取和分析
接下来用全拼输入法输入一段文字,如图3所示的代码将数据汇总在链表“结论-学号1”当中。
这时我们面临一个决策,是直接根据可视化结果当中比较大的字母放在手指灵活的位置,还是需要对数据进行进一步的分析。从工程上来讲,根据图1所示的可视化的结果的确可以做大概的设计,但是为了更加准确地研究该问题,还是有必要将数据在Excel当中作进一步的分析。
将数据导出到Excel中以后,各个字母的出现概率如图4所示。
图4只是一个学生的结论,将多组学生的结论汇总之后可以得出更具可信度的结论,如当字母总数N=3883时,频率出现由低到高的排序为表1所示,其中加粗的字母在大样本的情况下相比于小样本发生了比较大的改变,这说明有必要对学生的数据进行汇总以提高结论的可信度。
接下来,表1用不同的灰度背景将这些字母出现的次数作了3档的区分,依据手指的灵活程度和手指的移动距离两个指标进行了分类,按照常用的字母放在比较容易按下的位置的原则,对键盘进行了重新的设计,如表2所示。
至此,我们完成了对中文键盘的重新设计,接下来是对中文键盘的测试,看看其使用效果,只有完成了新键盘的技术测试才能完成一个完整的从研究到设计再到技术实现的过程。
●中文键盘的测试和评估
为了对新的键盘进行评估,接下来有必要对新键盘进行测试,如图5所示的程序,将角色A的造型按照表2所示的对照关系转换为T,并修改程序为当A按下之后,链表“新”增添字母t,同时将就键盘的结果保存在链表“旧”中。
由于对新的键盘并不熟悉,图6所示的这种新的键盘排列,仅仅输入下面文字的第一行,就需要比原有的键盘结构多出10倍的时间,因此新的键盘排列的学习成本将是影响新键盘设计能否成功的一个重要原因。因为如果没有人愿意付出更多的学习成本来学习新的键盘排列就完全没有意义。
然而对于图6的实验结论的另一种解读是,图6和图1比较起来,确实达到了“让出现频率较高的字母放置在手指比价灵活的位置”的实验效果,只不过新键盘的学习成本是一个需要解决的问题。
●键盘研究的拓展及反思
中文搜索引擎技术揭密:中文分词 篇5
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(www.baidu.com)、中搜(www.zhongsou.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。
什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
点击阅读更多学院相关文章>>
分享到 中文分词和搜索引擎
中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(www.google.com)、百度(www.baidu.com)、中搜(www.zhongsou.com)上以“和服”为关键词进行搜索:
在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:
“通信信息报:瑞星以技术和服务开拓网络安全市场”
“使用纯HTML的通用数据管理和服务- 开发者- ZDNet ...”
“陈慧琳《心口不一》化妆和服装自己包办”
“::外交部:中国境外领事保护和服务指南(版) ...”
“产品和服务”
等等。第一页只有三篇是真正在讲“和服”的结果。
在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。在第一页有以下错误:
“福建省晋江市恒和服装有限公司系独资企业”
“关于商品和服务实行明码标价的规定”
“青岛东和服装设备”
在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。
这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(www.hylanda.com)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。
点击阅读更多学院相关文章>>
分享到 中文分词技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率,
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
点击阅读更多学院相关文章>>
分享到 分词中的难题
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
1、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
2、新词识别
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
中文分词的应用
目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。
上一页 123 4
点击阅读更多学院相关文章>>
中文信息技术 篇6
文化对于购买意向有着怎样的影响力?为了回答这一问题,本文针对印尼四个文化群体和两种广告方式(一种是道德性广告,另一种是不道德性广告)进行研究,采用问卷调查方式,并通过深入访谈,基于分析模型得出结论。
调查结果表明,针对文化保守群体开展广告活动时,企业必须持谨慎态度。当文化保守群体不喜欢某个广告时,他们对此产品或服务的购买意向较低。此外,还有其他一些变量因素,比如如果文化保守群体认为某个广告不道德,他们对广告商的态度,也会成为决定他们购买意向的重要因素。而在更为宽容的文化中,上述这些因素,包括广告是道德性的还是非道德性的,都不会对宽容文化群体的购买意向产生明显影响。
本文还发现了一个“通用途径”(Universal Paths),与广告及企业相关的因素都通过这个途径影响人们的购买意向—无论是文化保守的群体还是更为宽容的文化群体,同时与广告的道德性无关。
中文信息技术 篇7
倪光南:大数据虽然是最近兴起的热点, 但它并不是从天上凭空掉下来的。在IT领域, 多年来, 数据挖掘、商业智能 (BI) 技术一直在发展、演变, 这是大数据的前身。当然, 与其前身相比, 大数据也有明显的特色。以它们所依托的数据本身而言, 商业智能发展到大数据, 无论是在数据量、数据特性和数据来源等方面都发生了重大的飞跃。例如: (1) 前者依托的数据量往往达到TB (1012Byte) 数量级就是较大的了, 而后者依托的数据量达到PB (101 5Byte) 数量级也不算很大; (2) 前者分析的数据主要是数据库那类结构化的信息, 而后者分析的主要是非结构化信息, 如文本、图形、音频、视频、遥感遥测信息……, 且大多是实时信息; (3) 前者的数据来源主要为企业交易数据, 而后者的数据来源主要是社会日常运作和各种服务中实时产生的数字数据, 如在线搜索、新闻、博客、微博等社交媒体、移动电话和短信、热线、电子商务交易、遥感遥测数据……。
应当指出, 大数据利用的所谓“实时”信息, 与工业控制这类场合所说的“实时”不同, 它并非是指短到“微秒”、“纳秒”那样的“实时”, 而是近似的“实时”。换言之, 大数据利用的实时信息是指在一个与场景有关的短时期里, 在一个能容许作出响应、并判定效果 (即形成一个反馈过程) 的时间段里所产生并可资利用的信息。
此外, 商业智能的应用主要是在企业的商业运作方面, 应用面较窄, 而大数据的应用领域已扩展到了社会科学的各个领域, 如经济学和社会学应用, 政治、政策应用等等, 应用面要宽得多。
当前我国正处在信息化建设以及社会经济发展的关键时期, 充分发挥大数据的作用具有重大的意义。例如: (1) 对各类危机提供早期预警。通过早期检测民众使用数字设备和服务中出现的异常情况, 可以在时间上快速地响应危机; (2) 对社会情况提供实时感知。通过分析各种实时信息, 可以获得对社会现实情况的一个细粒度的即时感知, 有助于制定各项政策和行动计划; (3) 对政策效果提供实时反馈。通过实时监测反映民众意愿和情感的信息, 可以了解特定地域的某项政策或行动计划的效果并作出必要的调整。目前, 在我们越来越强调顶层设计、统筹规划和科学决策的情况下, 应用大数据将能使我们的工作减少许多主观性和盲目性, 收到事半功倍的效果。
记者:确实, 您提出的问题和意见是很有代表性意义的。我注意到, 您对于云计算领域的发展也提出了很多真知灼见。那么您认为云计算与大数据有着什么内在联系, 区别又在哪里?我们应该如何理解他们呢?
倪光南:云计算和大数据有密切关系。首先, 云计算及其提供的众多云服务, 如搜索、各种社交网络等等是大数据依托的实时信息的主要来源;而且, 正是云计算使数据量的规模比传统企业数据库的数据量增长了几个数量级, 从这个意义上说, 云计算及其服务是大数据的数据基础。同时, 云计算又是大数据的技术支撑, 云计算强大的数据存储和处理能力, 使人们可以用低廉的硬件, 实现对超大数据集的及时处理, 这样, 大数据才能发挥应有的作用。当然, 大数据的越来越广泛的应用对于云计算又是一个巨大的需求牵引。总之, 两者相辅相成, 形成了良性循环, 使今后一个时期里, 云计算和大数据成为信息领域的热点, 使社会和国民经济的信息化走向一个新阶段。对此, 我们应当因势利导, 积极推进, 使云计算和大数据这些新兴技术更好地服务社会、造福人民。
记者:网络信息安全问题一直是业界热点话题之一, 您觉得从技术层面还应该做些什么?有什么办法既能够治标又能够治本?
倪光南:虽然关于网络信息安全一直是业界热点话题之一, 过去我们也作了很大的努力, 但是客观地说, 我国关于国家信息安全的顶层设计和战略规划还显著地落后于发达国家。十八大胡锦涛同志的报告中提出要“高度关注海洋、太空、网络空间安全”是一个里程碑, 标志着我国在网络空间安全领域进入了一个新阶段, 可望很快地赶上发达国家。
在技术层面上应当认识到, 加强网络空间安全不仅是网络信息安全产业的责任, 也就是说, 不仅是那些从事防火墙、防病毒、漏洞扫描、加密、身份认证、安全管理、安全服务……业务的企业等等的责任, 也是提供信息产品硬件、软件和服务的企业的共同责任。尤其是那些基础性的硬件、软件和服务, 与网络空间信息安全密切相关, 所以我们必须强调要采用自主可控的信息产品和服务, 因为这样, 至少具备了保障信息安全的前提, 在此基础上还要努力提高, 还要加上各种信息安全产品和服务进行增强, 还要通过持之以恒地实行严格的管理才能使网络空间安全得到较好的保障。总之, 只有既重视采用信息安全产品和服务增强信息安全, 又重视采用自主可控的硬件、软件和服务, 并始终坚持实行严格的管理才能从根本上提高信息安全保障能力, 才是标本兼治的做法。
记者:在之前的采访中, 您曾不止一次提到中国要从“信息大国发展成为信息强国”, 结合我国当前整体的发展形势, 您认为我国未来信息产业的发展机遇在哪里?路径是怎样的?
倪光南:中国是不是一个“信息大国”?对这个问题先要有一个清醒的认识。如果光从产值衡量, 2011年中国信息产业的产值是9.3万亿元, 而美国仅是3.2万亿元, 似乎中国信息产业的规模比美国大得多。但这是不正确的, 因为两国的统计口径不同。中国的数据中包括了软件和信息服务业, 而美国则没有。如果都将软件和信息服务业包括在内, 它在中国只占20%, 而在美国要占到70%左右。同时, 如果以产业的附加值和利润来衡量, 虽然没有很确切的数据, 但可以肯定地说, 美国要远超过中国。如果进一步以掌握核心技术、拥有知识产权和创新能力的状况进行比较, 美国更是遥遥领先了。由此可见, 单纯看规模而认为中国信息产业远大于美国是片面的, 容易造成误导。
这里不妨拿苹果公司的iPhone作为例子。它确实是中国“制造”的, 然而, 每台iPhone的利润苹果获得58.5%, 中国制造商仅获得1.8%, 结果还这被作为中国出口“顺差”, 美国“逆差”的依据。众所周知, 做“制造”的富士康有140万员工, 而做“创造”的苹果公司只有6万人, 究竟是富士康“大”还是苹果“大”?完全要看你以什么标准去衡量。
因此, 我们更应以是否“强大”来衡量一个产业。实际上“强”——核心技术强、人才队伍强、创新能力强等等是“大”的前提或保障, 真正“强大”的企业, 未必一定要刻意追求规模上的“大”。
由于历史的原因, 中国信息产业没有先做强, 而是先做大了, 那么现在我们就要努力做强, 从信息大国发展成为信息强国。应当说, 在这方面我们也有了可喜的进步。最近, 美国众议院情报委员会以“可能对美国安全造成威胁”为由, 阻止华为中兴进入美国市场, 对他们这种没有事实根据的指责和贸易保护主义做法我们坚决反对, 但从中也可以得到一些重要的启示。除了上面说到的, 这一事件增强了我们对于网络空间安全重要性的认识以外, 它还表明中国企业的竞争力已经从主要依靠廉价劳动力和自然资源向主要依靠核心技术、知识产权和创新能力的方向转变。在这个意义上, 它是一个里程碑式的事件。
请看一些数据:2010年PCT国际专利排名, 中兴、华为分别居第二和第四位, 大大超前于思科;此外, 华为的研发团队已接近7万人, 约为思科的三倍, 而且我们的科技人员性价比 (按工资和工作时间计算) 约是思科的十倍。所以在核心技术、知识产权和创新能力的竞争中思科已明显处于下风。在IT领域, 中国终于出现了使美国同行感到焦虑的企业, 这不能不说是一大变化。
实践表明, 发达国家对我国企业是区别对待的。对于那些主要依靠廉价劳动力和资源的中国企业, 它们并不在意;对于主要依靠品牌但不掌握核心技术的中国企业, 它们也不大在意;但对于主要依靠核心技术、知识产权和创新能力的中国企业, 它们则感到焦虑、极力进行遏制。如果设身处地, 我们不难理解它们的态度。因为如富士康和联想它们, 都处在Wintel架构PC产业链的低端, 而微软和英特尔处于产业链的高端, 微软和英特尔需要富士康和联想这样的公司作为合作伙伴, 反正微软和英特尔不会做低端的业务, 富士康和联想做大了对它们没有什么坏处。可是华为和思科的关系就完全不同了, 它们之间基本上是竞争关系。华为长大了就压缩了思科的空间, 反之亦然。显然, 今后中国企业要做强, 中国要发展成为信息强国, 必须像华为中兴那样, 过发达国家制约的这个坎。
尽管存在着上述困难, 但我国未来信息产业的发展机遇是存在的。信息领域正面临着重大的技术变革, 国家加快培育和发展新一代信息技术将开辟一个广阔的新领域, 在这里, 技术、产品、服务、标准等等都还没有定型, 市场也没有被哪一家所垄断, 这对于没有什么历史包袱的中国企业来说, 是发挥后发优势迎头赶上的绝好机遇。国家加快建设下一代信息基础设施和增强信息安全的举措将为中国网络、通信和信息安全相关企业提供巨大的市场, 这些基础行业将成为拉动增长的重要力量, 原来信息基础薄弱的中西部地区在这一轮建设中也有望形成新的增长极。此外, 国家科技重大专项等的深入推进, 将促进科技资源的整合, 完善“产学研相结合”技术创新体制, 帮助企业掌握核心技术, 扩展知识产权和增强自主创新能力, 从而帮助企业实现转型升级。可以期望, 中国将会出现更多的像华为中兴那样使发达国家同行感到焦虑的企业, 到了那一天, 中国成为信息强国将成为一个不争的事实。
记者:对于2013我国信息产业的发展, 您有哪些畅想与心愿吗?
倪光南:根据工信部的统计, 2012年前三季度电子信息制造业实现销售产值61233亿元, 增长10.4%;利润1593亿元, 下降12.7%。总的说来, 电子信息制造业增速有所减缓, 利润有所下降。相比之下, 软件产业是个亮点。2012年前三季度, 软件产业实现软件业务收入17531亿元, 增长25.8%;利润1949亿元, 增长11.2%。
在当前国际金融危机持续影响的大环境下, 我国电子信息制造业仍能基本上维持两位数的增长率, 可以说是“运行缓中趋稳”。在国际金融危机的阴影笼罩下, 这样的业绩来之不易, 应该归功于我国内需市场拥有的庞大消费群体, 以及国家一系列扩大内需政策的落实。
中文信息处理60年 篇8
顾名思义,“中文”就是中国的语言文字。从广义上理解,她可以是中国各民族使用的所有语言文字的总称。但是,由于汉族在人口数量和地域分布上都占有绝对优势,而且长期以来,中国境外(如新加坡、马来西亚等)华人使用的汉语文字被称为华文或中文,因此,在不引起混淆的情况下,我们认为“中文”与“汉语”指同一概念。根据国家标准GB12200.1-90“汉语信息处理词汇01部分:基本术语”的解释,“中文(Chinese)”特指汉语。本文不涉及民族语言文字信息处理的内容。
中文信息处理是自然语言处理领域的一枝奇葩,几十年来不断放射出奇光异彩,吸引着众多语言学家、计算语言学家和从事自然语言处理技术研究、开发的工程人员为之奋斗,取得了累累硕果。尤其近20年来,随着计算机网络和手机等现代通讯技术的迅速发展与普及,自然语言处理成为计算机科学与语言学交叉领域研究的热点。伴随我国经济实力和国力的不断增强,汉语在世界范围内逐渐成为一种继英语之后的强势语言,世界华人和中国市场对自然语言处理技术的巨大需求,吸引着众多科学家和企业界的目光。因此,不管是发达国家还是落后国家,没有人敢忽视或藐视汉语。中文信息处理技术已经不再是中国人自己关注的问题,而成为整个国际自然语言处理领域共同关注的焦点。
本文首先简要回顾中国语文现代化所走过的主要历程、取得的重要成果及其对中文信息处理的影响,然后重点对汉字信息处理和汉语信息处理的方方面面予以归纳阐述,并对这一领域的学术活动和国际交流情况做简要介绍,最后对中文信息处理目前所面临的挑战和未来发展的目标给予粗略的展望。
二 早期语文现代化工作回顾
语言文字的信息化或者说语言文字信息处理技术的发展水平是关乎国家现代化、社会信息化的大事。中国语文现代化的早期工作及其成果对后来汉字信息处理技术的发展起到了奠基性的作用[1]。
中国语文现代化的开始可以追溯到中华人民共和国建国前后。1949年8月7日,吴玉章等发起组织了中国文字改革协进会,同年10月10日,新中国的第一个全国性文字改革组织——中国文字改革协会宣告成立。1952年2月5日,新中国第一个主管文字改革工作的国家机构——中国文字改革研究委员会成立。整理和简化汉字成为中国文字改革研究委员会的既定工作任务之一。1956年1月,国务院通过了《关于公布〈汉字简化方案〉的决议》,并首次正式公布《汉字简化方案》。1986年10月,经国务院批准决定,国家语委重新发表了《简化字总表》,共收2235字,对原《简化字总表》中的个别字做了调整。1988年国家语委、国家教委发布《现代汉语常用字表》,1997年国家语委、新闻出版署发布《现代汉语通用字笔顺规范》[2]。
如果说汉字简化与规范化对汉字信息处理有重要影响,其重要意义更多地体现在有利于汉字教学和应用、提高国民文化水平,那么,与其并称为文字改革三大核心任务的制定推行汉语拼音方案和推广普通话则是汉字信息化进程中不可或缺的关键环节。从1958年2月11日全国人大一届五次会议通过决议,正式批准《汉语拼音方案》,到1982年汉语拼音被国际标准化组织(ISO)接纳,成为拼写汉语的国际标准,以及1984年10月中国文字改革委员会发表《汉语拼音正词法基本规则(试用稿)》,1996年正式颁布国家标准(GB/T 16159-1996)《汉语拼音正词法基本规则》,汉语拼音的推广使用对于普及汉字和汉语教学、促进国际交流起到了非常重要的作用,对中国社会生活的各个方面都产生了极其深远的影响[3,4]。尤其值得指出的是,汉语拼音对于计算机汉字输入和中文电脑普及起到了至关重要的作用。50多年的实践证明,汉语拼音方案是既能体现拉丁化优点、又符合汉语汉字本身特点的最优方案[5]。
纵观几十年来中国语文现代化的历史,老一代专家学者高瞻远瞩的战略思想和一系列英明举措对汉字信息处理技术的发展起到了重要的奠基作用。毋庸置疑,语文现代化与社会信息化、知识经济化有着密切关系。或许可以说,语文现代化是对我国工业现代化、农业现代化、国防现代化和科学技术现代化的重要补充,其历史意义和现实意义不容低估。
三 汉字信息处理概要
我们知道,语言和文字既是信息、知识、文化的载体,也是文化的组成部分[6]。汉字作为中华民族璀璨文化中独具特色的一项发明,在数千年一脉相传、源远流长的历史中,为记载、继承和传播中华文化建立了不朽的功勋。然而,当20世纪40年代电子计算机问世,并迅速引发席卷全球的信息技术革命,如何对汉字进行编码、存储、输入和输出等一系列关于汉字处理的难题,曾一度成为电脑在中国普及和推广的“拦路虎”。因此,从20世纪70年代中期到80年代末期,汉字信息处理技术成为当时的研究热潮。
汉字信息处理主要指以汉字为处理对象的相关技术,包括汉字字符集的确定、编码、字形描述与生成、存储、输入、输出、编辑、排版以及字频统计和汉字属性库构造等等[6]。一般而言,汉字信息处理关注的是文字(一种特殊的图形)本身,而不是其承载的语义或相互之间的语言学关系,因此,本文将其分离出来单独介绍,而后面将要重点介绍的“汉语信息处理”部分则是指对传递信息、表达概念和知识的词、短语、句子、篇章乃至语料库和网页等各类语言单位及其不同表达形式的处理技术。
在汉字信息处理中,有两个问题最引人注目,一是汉字的输入问题,二是汉字的排版、印刷问题。汉字输入问题又分为键盘输入和非键盘输入两种。所谓键盘输入是指通过对汉字进行“编码”,即利用普通计算机键盘上的英语字母键之间的组合,建立与汉字之间的对应关系,并将这种对应关系以编码对照表的形式存储在计算机内部,最终利用转换软件将键入的字符串转换为对应的汉字。最早的计算机汉字编码输入始于20世纪50年代的俄汉机器翻译研究,当时只能用电报码和四角号码做汉字编码。60年代完成了“见字识码”的方案设计和码本。1978年5月,上海推出了一台汉字信息处理实验样机。80年代,在联想汉卡、四通中文电脑打字机之后,中国的汉字编码出现了“万马奔腾”的局面,从五笔字型,到自然码、郑码、拼音输入法、智能ABC、智能狂拼等,较规范、易学易用的输入法层出不穷。国家七五、八五重点科技攻关项目“PJS普及型中文输入系统”“规范码汉字输入系统”和“认知码”等都对汉字编码输入方法进行了深入研究,并取得了一批研究成果[7]。尤其值得提及的是,速记专家唐亚伟先生发明的亚伟中文速录机,实现了由手写速记跨越到机械速记的历史性突破,这一成果被迅速推广应用,催生出了速录行业和速记师职业。2005年,92岁高龄的唐亚伟获得我国中文信息处理领域的最高科学技术奖——钱伟长中文信息处理科学技术奖一等奖。
非键盘输入是指不借助键盘直接将汉字或数字等字符输入计算机的技术,常用的方法包括文字识别、语音识别等。汉王文字识别技术是一个成功的代表。
以北京大学王选院士为代表的从事汉字照排和印刷技术研究的老一代专家,在解决巨量汉字字形信息存储和输出等问题中做出了卓越贡献。1981年,第一台汉字激光照排系统“原理性样机”通过鉴定,1985年,激光照排系统在新华社正式运行。1987年,《经济日报》采用激光照排系统出版了世界上第一张采用计算机屏幕组版、整版输出的中文报纸,成为国内第一家全部废除铅字排版的报纸。此后,国产激光照排系统迅速推广应用,在中国掀起了“告别铅与火,迎来光与电”的印刷技术革命[7]。
另外,20世纪80年代完成的《汉字频度表》《现代汉语频度词典》、GB2313-80、6763汉字属性信息库等一系列基础性工作,都为后来的汉语信息处理研究奠定了很好的基础。
四 汉语信息处理技术成果与应用
本部分重点关注在汉语词、短语、句子、篇章乃至语料库等各类语言单位处理方面所取得的研究成果及应用情况。为了便于描述,我们将其分为基础资源建设、理论方法研究和应用技术开发三个方面。
1.基础资源建设
语言资源库(包括语料库、词汇知识库、语法语义词典等)在不同层面构成了自然语言处理各种方法赖以实现的基础,有时甚至是建立或改进一个自然语言处理系统的“瓶颈”。因此,世界各国对语言资源库的开发建设都给予了极大的关注。自1979年以来,中国开始进行机读语料库建设,并先后建成汉语现代文学作品语料库(1979年,武汉大学,527万字)、现代汉语语料库(1983年,北京航空航天大学,2000万字)、中学语文教材语料库(1983年,北京师范大学,106万字)和现代汉语词频统计语料库(1983年,北京语言学院,182万字)[8]。近20多年来,北京大学、清华大学、教育部语言文字应用研究所、山西大学、哈尔滨工业大学、北京语言大学、东北大学、中科院自动化所、科技部中信所、中国传媒大学、台湾中央研究院和香港城市大学等相当一批大学和研究机构都对汉语资源库建设做了大量工作。其中,北京大学计算语言学研究所开发的“综合型语言知识库”、董振东等开发的“知网”(HowNet)是两项有代表性的成果,而中文语言资源联盟(Chinese Language Data Consortium,缩写:Chinese LDC)则是为推动我国语言资源共享所建立的第一个联盟性学术组织。
(1)综合型语言知识库
北京大学计算语言学研究所的语言资源建设工作始于1986年,从研制《现代汉语语法信息词典》[9]起步。该词典曾获1998年度教育部科技进步奖二等奖。在此成果的基础上,于1995年提出建立综合型语言知识库的规划,经过十多年的努力,综合型语言知识库取得了阶段性成果,并于2007年获教育部科技进步奖一等奖。
申报奖励之前,综合型语言知识库通过了教育部组织的技术鉴定:“其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平。”该项成果为推动以汉语为核心的多语言信息处理技术的发展做出了重要的贡献,并取得了显著的经济效益。作为单项技术成果,在北京大学创下了转让次数最多的纪录。
综合型语言知识库[10]在汉语计算语言学理论、汉语语言知识形式化描述、语言知识库构建技术以及多语言知识融合技术等方面都有所创新。目前它包含的语言资源包括现代汉语语法信息词典、现代汉语语义词典、中英文概念词典、汉语短语结构知识库、现代汉语大规模基本标注语料库、汉英双语对齐语料库以及多个专业领域的术语库。
综合型语言知识库仍在继续发展。研制中的综合型语言知识库系统不仅把现有的语言知识资源集成为一个有机的整体,各个成员知识库可以相互参照,互相印证,而且进一步挖掘深层的语言知识,发展概率型汉语词汇知识库,让语言知识库建设更上一层楼,同时,将有新成员不断加入综合型语言知识库的大家庭。
(2)知网
知网(HowNet)是董振东教授提出并创建的语言知识库,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
知网作为一个构思严密的知识系统,是一个名副其实的意义网络,它着力要反映的是概念的共性和个性。在知网中,义原是一个很重要的概念,指最基本的、不易于再分割的意义的最小单位。知网体系的基本设想是,所有的概念都可以分解成各种各样的义原,同时,也存在一个有限的义原集合,其中的义原组合成一个无限的概念集合。董振东教授认为,中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。因此,知网从大约6000个汉字中提取出了这个有限的义原集合[11,12]。知网的规模主要取决于双语知识词典数据文件的大小。由于它是在线的,修改和增删都很方便,因此,它的规模是动态的。目前知网已作为中文信息处理技术研究和系统开发重要的基础资源,被广泛地应用于词汇语义相似性计算、词义消歧、名词实体识别和文本分类等许多方面。
(3)中文语言资源联盟
在国家重点基础研究发展规划项目(973项目)“图像、语音、自然语言理解与知识挖掘”(资助号:G19980305)的支持下,由中科院自动化所、清华大学、教育部语用所和中科院计算所发起,于2003年成立了中文语言数据联盟。该联盟挂靠在中国中文信息学会,目标是建成达到国际水平的,具有完整性、系统性、规范性和权威性的通用中文语言资源库及中文信息处理的评测体制,为汉语语言信息处理的基础研究和应用开发提供支持,促进汉语语言信息处理技术的不断进步[13]。目前该联盟已拥有会员单位70多个、各类语言资源80余种,包括8~10万词的《汉语通用词表》、25000~30000词的《汉语语法信息词典(高频词)》、500万字的《分词词性标注语料库》、100万字的《汉语语法树库》、20万句对的《中英双语语料库》等。其中30%数据资源对会员免费,从而在全世界范围内实现中文语言数据资源的共享。Chinese LDC于2006年运营以来,平均每天都有数十人次的网站访问和电话咨询。到目前为止,该组织已共享资源200多套,授权使用单位40多个,包括美国、加拿大、德国、日本、澳大利亚等国内外著名科研机构和公司若干单位已经通过该平台获取了中文信息处理科研工作所需的基础资源[14,15]。
2.理论方法研究
我国最早利用计算机进行自然语言处理研究的项目是机器翻译。1956年国家把机器翻译研究列入科学工作发展规划并设立课题,1957年中科院语言所和计算所合作开展了俄汉机器翻译研究。机器翻译是一个高度综合性的研究课题,涉及词法分析、句法分析、语义分析和语言生成等各个层面,因此,伴随机器翻译研究,中文信息处理相关的各种理论方法研究随之展开。在过去50多年的曲折历程中,中文信息处理理论研究的脚步从来都没有停止过。
1958年刘涌泉、刘倬等提出的“中介成分理论”曾在早期的中国机器翻译研究中发挥了重要的作用。70年代末期冯志伟最先开展了对汉字信息熵的研究,经过几年的语料收集和手工统计,在当时艰苦的条件下测定了汉字的信息熵为9.65比特(bit),这与80年代末期北京航空学院刘源等通过计算机对大规模语料统计得到了汉字信息熵为9.71比特的结论相当接近。
进入20世纪80年代以后,汉语分词与词性标注方法研究得到了快速发展。全切分分词方法、最短路径分词方法、N-最短路径分词方法、基于隐马尔可夫模型(HMM)或n元语法(n-gram)的分词方法等一系列分词方法相继提出。1992年,《信息处理用现代汉语分词规范》被国家技术监督局批准(GB13715),并于1993年5月1日在全国正式实行[16]。
20世纪90年代,面向机器翻译提出的SC文法[17],从某种意义上拓展了复杂特征集理论和合一文法,而《现代汉语语法信息词典》和“知网”是我国学者结合汉语特点和规律对词汇主义思想的进一步发展和应用。
另外,概念层次网络理论的提出也是中文信息处理研究中一个有益的探索。
3.应用技术开发
相对于理论方法研究而言,中文信息处理应用技术开发和产业化进程中的成果可谓琳琅满目。除了前面提到的汉字存储、显示、输入、激光照排等实用技术以外,机器翻译、搜索引擎、文语转换等应用系统也如雨后春笋不断涌现。
20世纪80年代中期到90年代初期,我国的机器翻译研究开始走向繁荣。军事科学院研制的“KY-1”英汉机器翻译系统获得了国家科技进步二等奖,后来发展为“译星”,成为中国第一个商品化机器翻译系统。中科院计算所研制的“IMT/EC863”英汉机器翻译系统于1995年荣获国家科技进步一等奖,获得了可观的经济效益。
进入21世纪以后,基于大规模语料库的统计方法在自然语言处理中得到快速发展,以语料库为研究对象和基础的语料库语言学迅速崛起,并进一步推动了自然语言处理相关技术的快速发展,统计机器翻译逐渐成为国际机器翻译研究的主流。中科院计算所、自动化所、哈尔滨工业大学、厦门大学和中科院软件所等在统计机器翻译研究中进行了富有成效的探索和实践。中科院自动化所还在语音翻译研究方面做了大量开创性的工作,先后实现了基于个人电脑、PDA和普通手机的汉英、汉日双向语音翻译系统。
近几年来,以机器翻译技术为支柱发展起来的中科院华建集团公司和沈阳格微软件有限公司在机器翻译应用方面取得了十分可喜的成就。
与此同时,在语音识别、语音合成和人机对话系统等方面,中科院自动化所、声学所、中国科大、清华大学、北京交通大学、哈尔滨工业大学等都做了大量研究和开发工作。语音识别、语音合成系统已在实际应用中取得了丰硕的成果。
近10年来,随着国际互联网技术的迅速发展和普及,国内一批面向计算机网络的信息搜索系统脱颖而出,TRS、百度和中搜等一批优秀企业成为当前信息领域十分耀眼的明星。
值得提及的是,由国家语言文字工作委员会组织编纂发布的《中国语言生活绿皮书》[18]。《中国语言生活绿皮书》既是中文信息处理研究成果的具体体现,也是中文信息处理研究的重要参考。
五 学术活动与国际交流
随着中文信息处理研究的逐步深入和人才队伍的迅速壮大,由钱伟长、甄健民、安其春等老一代专家发起的中国中文信息学会于1981年6月宣告成立,成为具有独立社团法人资格的国家一级学会。在学会的引导和支持下,中文信息处理学术活动与交流蓬勃兴起。
每两年一次的全国计算语言学学术会议(CNCCL)(2007年前的名称为“全国计算语言学联合学术会议(JSCL)”)到2009年为止已经举办了十届,是中国中文信息处理领域最具影响力的全国性学术会议。自2002年开始的全国学生计算语言学研讨会(SWCL)到2008年为止举办了四届,是面向中文信息处理领域学生的全国性学术会议,整个会议由学生组织,深受同学们的喜爱。中日自然语言专家研讨会(CJNLP)自2001年起每年召开一次,奇数年在日本召开,偶数年在中国召开,旨在推动中日两国自然语言处理研究的学术交流与合作。自2004年起每年召开一次的自然语言处理青年学者研讨会则着眼于促进青年学者之间的学术交流,加强与国际学术界和企业界的联系。另外,中国中文信息学会下属各专业委员会的学术活动也呈百花齐放之势:每两年一次的人机语音通讯学术会议到2009年已经举办了十届;每两年一次的中国少数民族语言文字信息处理学术研讨会2009年为第十二届;每年一次的全国机器翻译研讨会和全国信息检索学术会议到2009年均已举办了五届。
值得一提的是,评测对于促进中文信息处理技术的发展起到了非常重要的作用。20世纪90年代初期,我国“863”计划中文与接口技术评测组就多次组织汉语分词与词性标注、机器翻译等技术评测。基于测试集与测试点的机器翻译评测系统MTE最早实现了译文质量的自动评测[19]。进入本世纪以来,汉语自动分词、词性标注、句法分析、机器翻译、信息检索、文本分类、语音识别、语音合成等针对不同技术和系统的评测如雨后春笋般迅速成长。2003年国际计算语言学学会汉语兴趣小组(SIGHAN)举办了首届汉语分词技术国际评测(Chinese word segmentation bakeoff),至今已经举办了四次。这些评测对于促进同行专家之间的互相交流、互相学习、共同提高,起到了不可替代的作用,同时,评测技术也在不断研究和实践中得到了改进和提高。
令人鼓舞的是,第23届国际计算语言学大会(COLING)将于2010年8月在北京举办。COLING是由国际计算语言学学会(ICCL)直接领导组织的学术大会,是国际计算语言学领域参加人数最多、涉及学科范围最广、历史最悠久的国际盛会之一,在40多年的风风雨雨中经久不衰,能够获得COLING大会的主办权是各国计算语言学专家追求的梦想。几十年来,我国几代计算语言学专家为了实现这一梦想付出了不懈的努力。我们相信,这一盛会在北京的成功举办必将为推动中文信息处理研究的发展产生积极而深远的影响。
伴随中国改革开放的步伐,中文信息处理国际交流与合作活动日益增多。早在20世纪80年代,中国参加了由日本发起,印度尼西亚、泰国和马来西亚共同参与的五国多语言机器翻译合作项目,对当时中国机器翻译研究的人才培养、技术传播和资源积累等都产生了重要影响。进入90年代以后,尤其是进入21世纪以来,包括IBM、微软、Google、Yahoo、Sohu、富士通、东芝、Nokia、法国电信等在内的一大批国际著名企业纷纷落户中国,在中国设立研究机构,其研究兴趣无不包含中文信息处理,这从另一个侧面为中国大学和研究院所直接与国际企业合作打开了方便之门。
在语音翻译研究中,中科院自动化所自90年代中期开始与美国CMU、日本ATR、法国GETA等开展国际合作,2001年以核心成员的身份加盟国际语音翻译先进研究联盟(Consortium for Speech-to-speech Translation Advanced Research International, C-STAR),近10年来,参与发起、组织和实施了一系列有关口语翻译的国际学术活动和联合实验。
近年来,随着国际交流的全面展开,一方面一批国际著名的自然语言处理专家频繁来访中国,他们的学术讲座、报告为中国学者开阔了眼界;另一方面,每年都有一大批中国学者走出国门参加包括讲学在内的各种学术交流与合作。在这种互惠互利的国际交往中,中文信息处理技术得到了长足的进步。
六 挑战与未来
中文信息处理60年的辉煌历史产生了一大批令人鼓舞的成果,这些成果概括起来可以归纳为如下几个方面:
(1)语文现代化取得丰硕成果,有关规范化汉字、汉语拼音和普通话的一系列的国家法规、标准及规范已经形成;
(2)汉字信息处理技术已达到实用化水平,并在实际应用中日趋成熟;
(3)已建设完成一批颇具影响的汉语信息处理用语言资源库,部分汉语信息处理技术已在实际应用中发挥作用;
(4)中文信息处理的国内外学术交流与合作环境已经建立,中文信息处理正在世界范围内迎来空前繁荣时期。
然而,在看到这些成果的同时,我们不能忘记中文信息处理毕竟是认知科学、语言学和计算机科学等多学科交叉的复杂问题,最终要达到汉语理解的目的,目前仍面临若干尚未解决的难题。首先,语义理解与计算问题成为当前中文信息处理面临的最大挑战。自然语言的语义如何表示?语义是否可计算?如何计算?这些问题仍没有答案。从目前情况来看,仅歧义消解这一个难题就已经让自然语言处理研究者左支右绌,力不从心,更何况人类运用语言还有多种多样的表现手法,诸如隐喻、幽默、夸张、双关、影射等,它们对自然语言理解研究都有深刻的影响。目前对有些问题刚开始研究,有的甚至尚未触及。显然,离自然语言理解这个目标尚有遥远的路要走。要实现机器对语言的理解,必须首先解开人类理解语言机制的秘密,这是有关人类认知机理、智能本质的科学难题[20]。
随着计算机网络和各种通讯技术的迅速发展,许多新的应用需求对自然语言处理技术提出了更高的要求。例如,网络内容管理、信息监控、有害信息过滤和概念搜索等,这些任务不仅与自然语言处理技术有关,而且涉及图像理解、情感计算和网络技术等多种相关技术。而语音自动翻译则是涉及语音识别、机器翻译、语音合成、表情识别与理解以及通讯等多种技术的综合集成技术。面对这些新的任务,研究才刚刚开始,离问题解决的最终目标仍很遥远。
在语言资源库建设方面,至今仍缺乏基本的国家规范和标准,语料库和知识库开发仍呈现“百家争鸣”的局面,许多成果难以共享和整合。而在理论模型和方法研究方面仍处于探索阶段,尽管许多理论模型和方法已经得到实际应用,如上下无关文法、HMM、噪声信道模型等,但是,许多重要的问题仍未得到彻底、有效的解决,包括汉语自动分词、命名实体识别等经典问题。综观整个自然语言处理领域,尚未建立起一套完整、系统的理论框架体系,许多理论研究甚至处于盲目的摸索阶段,如尝试一些新的机器学习方法或未曾使用的数学模型,这些尝试和实验带有很强的主观性和盲目性。在技术实现上,许多改进往往仅限于对一些边角问题的修修补补,或者只是针对特定条件下一些具体问题的处理,未能从根本上建立一套广泛适用的、鲁棒的处理策略。如何针对汉语自身的特点和规律,建立真正适合中文信息处理的一整套理论体系和实现方法,将是中文信息处理研究者长期面临的严峻挑战。
值得庆幸的是,“中文信息处理”已经被列入《国家中长期科学和技术发展规划纲要》,这不仅意味着中文信息处理已毫无异议地被公认为当今科学发展的前沿学科,而且开展中文信息处理研究符合我国的战略需求,这项研究将作为我国科学技术发展中的战略性研究方向得到国家的支持和保护,形成具有鲜明中国特色的自主知识产权。无论如何,我们相信中文信息处理像其他学科一样,需要经过众多学者长久的、坚持不懈的探索和实践。我们期待着语言学(包括计算语言学)、脑科学、认知科学、智能科学、哲学、数学等各个领域的专家密切合作,在中文信息处理中实现“规则与统计共舞,语言随计算齐飞”。
[附 注]
浅述中文信息自动标引的方法 篇9
1. 词典匹配标引法。
词典匹配标引法是一个传统的标引法, 在目前国内自动标引中应用得相当普遍。其思想是构造一个词典 (主题词典、关键词典、部件词典等) , 然后设计各种算法用文献数据去匹配词典, 文献中的词在词典中出现, 即表示为标引词, 作信息标引处理。词典匹配标引法在目前的自动标引算法中所占比重较大, 早期的研究主要是以此法起步的某些研究, 包括汉语科技文献标题的自动标引、部件词法的自动标引、语词结构类比的自动标引、词法的自动标引、科技文献全文的自动标引等。这些方法的共同特点是, 从标题或文摘头部或尾部开始截取一定长字串去搜索词典, 即正向扫描或逆向扫描处理。搜索成功记下该词, 再从该词的后部 (正向扫描处理) 或尾部 (逆向扫描处理) 截取字串继续搜索, 直至处理完毕。搜索不成功则正向扫描舍去后端, 或逆向扫描舍去前端继续搜索, 若到最后一字仍搜索无效, 则从该字的前部或后部再重新截取一定长字串进行搜索处理。这些方法的不同点在于具体的实现细节, 如有的采用最大 (最长) 匹配法;有的采用最小 (最短) 匹配法;有的经过切分抽词, 综合加权确定标引词;有的则将切分与后控标引相结合等。
2. 非用字字典。
在信息的自动标引处理中, 决定哪些词是非用词也是十分重要的。例如, “的”这种高频字, 几乎每篇文章中都会出现很多个, 但没人会检索它。中文信息导航系统的非用词选择范围可稍大, 对主题意义影响不大的代词和日常虚字, 如“关于”、“这是”、“能够”、“自己”、“的”、“以”、“及”、“在”, 都可以考虑作为非用词。在对中文信息进行标引处理时, 可先利用非用词词典和自然标点符号, 将文本切分为短语段集合。例如, 句子“关于汉语文献标引的词典结构”, 经以上处理后被划分为“汉语文献标引”和“词典结构”两个短语段, 然后再利用中文分词词典对各个短语段进行词切分。这样做, 可进一步提高标引速度, 非用字字典用切分标记法来实现。
3. 切分标记法。
中文文献的全文由若干句子组成, 句子之间由标点符号分隔, 而每个句子是由若干词组或短语组成。因此, 构造切分标记字典, 利用切分字典自动分词的思想由此而产生。切分标记法是将能够断开句子或表示汉字之间关系的汉字集合组成切分标记机读字典。这个机读字典称为切分标记字典, 既有用词首字、词尾字、不构词的单字或几种情况的组合来构建的, 也有用“非用字”、“条件用字”等来组成的。当原文句子被切分标记字典中的汉字构词属性分割成汉语词组或短语之后, 再按一定的分解模式分割成单词或专用词组。较具代表性的切分标记法包括:利用前、后位分割标志表进行文本切割, 切出的词段再利用分词知识库分出标引词;利用非用词后缀表法将汉字分为非用字、条件用字、表内用字和表外用字, 前三类字置于表中并给出区分标记, 处理时利用后缀表中每个字的联系来切分文本, 切分后的词段或短语利用多种分解模式确定标引词。
4. 词频统计标引法。
词频统计标引法的理论基础是著名的Zipf定律, 它建立在较成熟的语言学统计研究成果基础之上, 具有一定的客观性和合理性, 加之这种方法简单易行, 因而在自动标引中占有较重要地位。第一, 在加权统计标引法中, 逆文献频率加权标引和词区分值加权标引主要依赖于词的频率特征 (标引词在一特定文献中的出现频率或词的文献频率) 和词的区分能力。这两种方法的主要缺陷是与用户的相关性无关。而词相关性加权标引和价值测度加权标引模型不仅考虑了词在一特定文献或整个文献集合中的频率特征, 而且考虑了标引词在相关文献集合和无关文献集合中的频率特征以及检索结果的效益值。第二, n-Gram法是一种原理简单, 处理容易且实践证明又是较实用的标引方法。因为一种语言的n-Gram是有限的且较稳定, 所以, 这种标引方法几乎不受学科术语发展变化的影响, 同时它还可以检查文本中单词的拼写错误。第三, 统计学习标引法通过一个学习过程建立了标引词与其相关词和非相关词的关系, 并以此为基础确定标引词的标引值。试验表明这种方法是有效的, 用一特定标引词标引文献, 发现超过87%的相关文献被该标引词正确标引, 只有不到9%的非相关文献被错误地标引。第四, 中文统计标引法吸收了国外有关词频统计标引的思想, 把一些加权思想融入汉语文献的自动标引之中, 采用加权统计的方法确定标引词。该方法突破了我国早期研究中的仅以切分词替代标引词的局限。这方面研究包括利用词典先分词, 然后根据词频统计、位置加权、词的专指度级别、标引深度等进行综合选定标引词;利用统计分析对备用词进行频率统计来扩充词典;利用扫描原文, 通过对上下文的比较, 取出相同的词组或短语, 将抽出的词语分类, 最后使用加权函数来确定标引词等。
5. 语义分析分词法。
语义自动分词的基本思想是建立包括词类词典、句法和语义规则知识库、专门领域知识库、背景知识库等的分词知识库。这些知识库采用语义网络技术或扩充转移网络技术 (ATN) 构筑, 并以此作为语法、语义分析器推理和判断语句, 达到正确分词。语义分析标引法通过单值分解将词、文献和提问依语义相关程度组织在同一空间结构中, 在这一空间中, 分散在不同文献和提问中的同义词相近放置, 具有不同的词但主题语义接近的文献和提问相邻组织。语义矢量空间模型在现有的矢量空间模型基础上, 融入格式语义结构, 通过标引词的语义矢量构造描述文献的语义矩阵, 使文献的标引得以在语义层上得以实现。
参考文献
[1].陈立华.论文献检索系统中的自动标引技术.现代情报, 2004.6
信息时代中文书档案电子化应用 篇10
1 信息时代中文书档案电子化应用的重要性
1.1 提高了档案管理的服务质量, 保管信息很容易
跟传统的信息保存方式不同, 信息时代中, 电子档案的信息保存的载体是光盘和磁盘。传统的信息保存载体是纸质载体, 不但不能防止虫蛀, 还容易受潮。而信息时代的电子文书档案除了容易保存之外, 明显的降低其他化学损伤, 并且还能在重复使用、节能、环保等方面比较显著, 更加接近我国提倡的节约型社会的理念。如:氧化、老化、腐蚀等。另外, 光盘和磁盘稳定性高, 储存量比较大, 空间用地很小, 并且造价低、操作简便, 因此, 电子化被应用到了资源信息中, 提高了档案管理的服务质量。
1.2 便于检索, 使用方便, 提高了办公效率
计算机具有强大的信息处理能力, 运算速度很高。在传统档案管理中, 人们使用手工操作, 会出现很多问题, 如:字迹模糊不清, 漏抄、信息收集不完整等, 而电子档案将信息储存在光盘和磁盘上, 使用计算机能够很好的解决解决这些问题, 能够缩短时间, 使人们按照资料的分类进行收集、统计和查阅, 在进行档案管理的时候, 节约了人力也提高了准确性。因此, 信息化时代中, 文书档案电子化的应用可以提高检索效率高, 可以方便人们的使用。
1.3 实现资源共享, 实现电子传输的目的
在传统的手工操作中, 各个单位和部门之间的信息不能及时交流和共享, 大量的文书档案象古董一样保存着, 闲置着, 在一定程度上, 造成了文书档案资源的浪费。而信息时代中, 人们通过计算机, 利用电子网络传输资源, 适应了现代社会快节奏的工作特点, 加强了信息的沟通与交流, 拓展了信息的传递范围, 在瞬间就可以完成大量信息的传递, 比起传统手工传输或者交通工具辅助的传输, 信息时代中, 电子化的应用, 起到了无可估量的经济效益。并且, 为了方便人们共享资源, 人们将相关资料通过网络等载体, 将其放在相应的资料库中, 进行资料传输, 实现了信息系统的工联, 同时通过协议, 人们可以进行网上检索, 查找和利用更加便捷, 实现了人们交流共享同级部门之间的信息, 提高了部门之间的了解, 实现了交流共享历史不同时期的信息, 增强了业务联系。
1.4 保证文书档案的及时传输, 确保了其安全性
在传统的档案传输过程中, 会出现资料丢失的情况, 主要依靠人力进行传输, 并且安全性低, 是通过邮递进行传输的, 不但浪费时间, 还浪费人力。而信息时代中, 电子化的应用, 不但能够确保文书档案的安全性, 不会造成档案的延误和丢失现象, 保证了文书档案的及时传输, 还解决了这些问题。
2 信息化时代中, 文书档案电子化应用中存在的问题
2.1 无法鉴别真伪, 难以保障档案的真实性
电子介质具有可读写的特性, 没有修改后的特殊标记, 因此, 人们可以反复修改和输入电子档案。在某种程度上, 文书电子档案可以在不同的计算机中间传递, 其管理失去了它固有的形式, 很难象纸质文件那样确定那个是原件, 很难确定在不同的载体之间复制有没有被修改。其次, 一旦病毒入侵, 就会把电子文件破坏的面目皆非, 甚至会失去部分或者全部的文件。同时, 由于电子文件没有固定的载体, 在凭证、依据作用等方面, 还没有找到杜绝伪造、删改和抵御病毒侵袭的有效方法。另外, 电子文件离开了计算机及相应的软件, 就不能进行传递和识别, 也不能生成, 具有对设备的依赖性。这些都给电子文档的安全保管和长期保存带来了很大的威胁, 无法鉴别真伪, 难以保障档案的真实性。
2.2 电子档案的安全性问题突出, 对管理人员的要求极高
目前, 在信息时代中, 随着网络化不断的发展, 通过网络拦截电子信息的现象时有发生, 病毒的入侵使人们电脑中的信息丢失, 电脑瘫痪, 如:并且一些网络黑客也对电子档案的安全性构成了严重的威胁, 他们通过特殊的程序, 可以假冒的非授权用户, 拦截重要的数据信息内容, 侵犯了他人的合法权益。另外, 文书档案的工作人员要具有熟练使用电子计算机的能力, 要懂得操作理论、方法, 还要工作人员懂得数据传输的技术。但是目前, 信息化时代中, 电子化管理中缺少复合型人才, 文书档案管理人员根本不能适应电子化进程的需要, 使用电子化技术水平有限。
2.3 电子文件具有兼容的问题, 不同系统生成的不同电子文件不能识别
随着信息化的普及, 信息化时代中, 电子文件出现了不兼容的现象, 电子化应用使文件的问题越来越凸显, 如:不同系统生成的不同电子文件不能识别。并且由于电脑软件开发的通用性差, 不同软件生成的电子文件难以实现格式的转换, 这些问题成了信息时代中, 文书档案电子化管理中亟待解决的问题。
3 信息时代中, 文书档案电子化的应对措施
3.1 运用物理隔离, 进行信息化系统内、外网隔离
信息时代中, 运用物理隔离是一个有效的措施, 对于文书档案内部信息化网络和外网之间的设置具有重要的意义。内外网的隔离防护措施分别是路由器和防火墙的应用。内外网的隔离性价比较高, 能够提高有效性。一般情况下, 防火墙的功能不尽相同, 是具有认证必要的。从分类上说, 通过防火墙的信息内容和活动, 具有过滤进、出网络的数据、封堵某些禁止业务、管理进、出网络的访问行为等, 能够检测和告警网络攻击。另外, 为了就爱你测不安全的攻击行为, 通过设置防火墙的方法, 防止档案文件流向外网, 设置隔离带, 使档案文件只能在一定范围中的局部网络内传输。如:设置隔离的路由器, 屏蔽不在范围内的IP地址, 对网络数据进行过滤, 检测不安全的攻击行为。
3.2 不断的提高文书档案管理人员的业务技能等综合素质
为了改善硬件环境, 针对文书档案人员的综合素质, 可以从硬件建设和投入入手, 对文书档案管理人员进行培训, 提高文书档案管理人员的业务技能, 并且激励文书档案管理人员不断的学习获取知识, 提高其终身学习的积极性, 提高文书档案管理人员的基础素质, 促使单位实行一些激励员工学习进步的方法。另外, 把相关单位和科室作为对象, 不断加大档案部门间、区域间系统中的工作力度, 不断的创新, 对档案资源的内容进行分析, 从而扩大个人的交际面, 不断的积累经验, 发掘信息源。并且还要充分的利用现代网络通讯的相关高科技手段, 增添人员的创新思维, 促进文书档案的电子化应用。
摘要:文书档案是档案工作中一个重要组成部分, 反映了某一时期领导的决策、部门建设等过程和成果, 是社会发展的历史。信息化时代中, 文书档案电子化不但能够改善案卷质量, 还能提高工作效率, 开发信息利用资源, 具有重要的意义。本文通过分析信息时代中, 文书档案电子化应用的重要性以及文书档案电子化应用中存在的问题, 探讨了信息时代中, 文书档案电子化的应对措施, 以期能够促进文书档案的管理, 提高服务质量。
关键词:信息时代,文书档案,电子化
参考文献
[1]李克辛, 黄小华.农业科研院所文书档案管理工作存在的问题及建议[J].安徽农学通报, 2013 (18) .
[2]王丽梅.论文书修养与文书档案管理[J].吉林农业科技学院学报, 2013 (3) .
中文信息技术 篇11
随着网络时代的到来, 传统图书馆文献信息检索方式已经无法满足人们利用现代文献信息的需求。因此, 相关人员应加强对网络环境中文献信息运动模式的分析, 以便掌握更多文献信息的运动规律, 进而更好地加强对文献信息资源的利用。
二、网络环境中文献信息运动特点
在网络环境中, 文献信息将在网络信道中自由运动。就目前来看, 网络环境中拥有的主要文献信息资源包含联机馆藏文献目录、专利信息、电子出版物等等。依托先进的多媒体技术、通信技术和计算机技术, 网络环境中的文献信息以数字化的形式出现, 并且具有信息资源海量化、信息种类多样化、运动迅速化、信息交流双向化的特点, 能够为读者获取需要的文献信息提供便利。
三、网络环境中文献信息运动模式
分析网络环境中文献信息运动模式可以发现, 其运动以信源为起点, 并以信宿为终点, 多指读者获取文献信息的过程。从本质上来看, 文献信息的运动是一种功能效用的展示, 其依附于网络信道实现信息的时空转移和位移转换。在网络中, 由于信源可以与信宿进行实时信息交换, 所以两者能够互换角色, 从而完成信息反馈信道的构建。而文献信息运动的目的, 则在于信息内涵本身具有的实义, 即为信息的利用和再生提供服务。但在文献信息在信道中运动的过程中, 存在一些常规和人为干扰因素, 所以该种运动模式又具有一定的干扰性。对文献信息在网络中的运动规律进行分析, 有利于对运动模式进行优化。不同于传统文献信息的运动模式, 网络环境中文献信息在从信息源向读者运动的过程中, 将经过存储变换、网络信道和输出还原等过程。在这种运动模式下, 信源产生的文献信息I (例如语言文字、图像、符号、表格等) 需要经过网络和计算机等设备编码, 并被转换为数字信息X, 其最小单位为比特, 由“0”和“1”两个数字构成。在网络信道中运动时, 文献信息将成为一系列比特的排列组合。所谓的网络信道, 则是在依托计算机硬件和通信设备的基础上, 利用软件构建的数字式电信网络, 其具有高速、广域型和宽带的特点。[1]文献信息运用的主要形式包含文件传输、邮件通信组和远程登录等。受信息污染、网络技术和国家政策等因素的干扰, X在运动过程中将变为Y, 利用相逆方式进行Y的译码输出, 则能得到I′;而I′与I不完全相同, 两者间的差异取决于干扰因素N。在文献信息运动过程中, 如果信宿改变利用网络终端获得的信息的不确定性, 并对信息原有状态进行了完善, 就能够实现文献信息的再生。而在一定条件下, 遵循信息增强规律则能够使系统的有序效应得到增长。比如, 在现代图书馆信息分类体系中, 同位类设置时就可以利用该种运动规律。但就目前来看, 受诸多干扰因素的影响, 文献信息运动可能会遭遇信道拥挤、信息无序和运动阻力增大等问题, 从而在给读者的理解带来困难的同时, 影响了读者对文献信息的获取。
四、网络环境中文献信息运动模式的优化
在文献信息环境向着网络化方向发展的过程中, 文献信息运动规律发生了转变, 由过去的点对面传递方式转变为点对点和点对面共存方式, 进而使读者能够采取多种形式完成更多文献信息资源的主动获取。而对网络环境下的文献信息运动进行优化, 就是根据网络信息运动规律和各种工具实现网络环境的优化, 并对文献信息的处理进行深化, 通过减少文献信息运动阻力促进信息的存储、传播和还原, 进而使文献信息更加有序、科学和系统地运动。结合文献信息的运动模式, 可进行制定优化原则。具体来讲, 首先, 应遵循稳定性原则, 确保网络信道稳定可靠。为此, 相关人员还应确保图书馆有先进网络技术作为支撑, 以确保文献信息运动畅通无阻。其次, 应遵循有序性原则, 将大量随机、无序和分散的文献信息转变为有序、集中和有规律的信息, 进而使文献运动时间得到缩减。在这一过程中, 相关人员应利用信息守恒与转换规律进行指导, 以便按照固定特征值将信息排列成序列, 并使读者将需要的信息转换为对应的特征值。经过分类检索人员的编制, 读者则能从得到的信息序列中完成需要的文献信息的查找, 进而实现信息效应。再次, 应遵循方便性原则, 确保图书馆读者界面的友好性, 并能满足多层次水平的网络读者的不同信息需求。结合这些原则及文献信息运动模式, 相关人员可以直接以表达文献为主体, 以便利用直观、灵活的类目体系完成文献信息内容特征的直接揭示。而在类目体系的组织上采取多重列类法进行文献信息的重复反映, 则能完成网状结构的分类体系的构建, 进而使类目的设置更加富有规律。并且, 还应加强对网络分类使用的各种排列方式的探索, 以便相关人员对列类目间的相关性进行揭示, 并完成类目的展示。采用多重列类法进行文献信息的重复反映, 则能够使读者从不同的角度使用文献信息。最后, 还应使用链接技术, 以便相关人员对相关类目、交叉学科和总论等横向联系进行重复揭示, 进而为读者查找信息提供便利。[2]此外, 为给读者识别和查找文献信息提供便利, 还应利用特定的符号完成重复反映类目的标识。一旦采取这些措施, 就能有效减少文献信息运动阻力, 继而使文献信息在网络环境中更好地运动。
五、结语
通过分析可以发现, 研究文献信息在网络环境中的运动模式, 可以更好地掌握文献信息在网络中的运动规模。在此基础上, 还可以对文献信息运动模式进行优化, 从而更好地在网络环境中进行文献信息的存储、传递和还原的活动。
摘要:随着网络的普及以及文献信息资源的日益丰富, 越来越多的读者选择在网络环境中获取文献信息。因而, 想要更好地利用文献信息, 相关人员应加强对文献信息运动模式的分析, 以便更好地进行文献信息的整序和分类, 进而减小文献信息运动的阻力。基于这种认识, 本文对网络环境中文献信息运动模式进行了探究, 以期为关注这一话题的人们提供参考。
关键词:网络环境,文献信息,运动模式
参考文献
[1]王云梅.社会资本理论下的网络信息运动模式[J].现代情报, 2010 (05) :34-37.
【中文信息技术】推荐阅读:
中文信息09-07
研究中文信息处理10-01
美国签证申请表(DS-160)中文信息表06-01
中文分词技术01-30
中文语音识别技术06-19
中文智能搜索引擎技术10-15
生物技术专业毕业生中文求职信09-12
日语基本用语中文发音-中文谐音12-02
中文资源01-20
中文教学05-10