sql语言中文

2024-10-13

sql语言中文(精选9篇)

sql语言中文 篇1

数据库语言SQL标准 (ISO/IEC 9075《信息技术数据库语言SQL》) 最初由国际标准化组织ISO制定 (ISO 9075) , 后由ISO/IEC JTC1/SC21 (开放系统互连 (OSI) 的信息捡索、传输和管理) 接管, 从1998年开始ISO/IEC JTC1/SC32 (数据管理和交换) 接管了该标准的制定工作。SC32负责“数据管理与交换”方面的标准制定工作, 下设四个工作组, 其中WG3负责制定“数据库语言SQL”标准。

2 SQL标准演变过程分析

自ISO于1987年正式发布第一版ISO 9075:1987《信息处理系统数据库语言SQL》以来, 数据库语言SQL正式发布过12个版本, 如图1所示, 目前最新版本为2008年发布的ISO/IEC 9075:2008《信息技术数据库语言SQL》, 包括九个部分, 之前发布的版本均已废止。

2.1 ISO 9075:1987

ISO于1987年发布了ISO 9075:1987《信息处理系统数据库语言SQL》, 该标准是自数据库技术于20世纪60年代中期以来正式发布的第一个关于数据库查询语言的国际标准, 该标准提供了定义和操纵表数据的基本语言。

2.2 ISO/IEC 9075:1989

1989年, SQL标准第二个正式发布的版本是ISO/IEC 9075:1989《信息处理系统数据库语言SQL完整性增强》。该标准在1987版的基础上做了少量更新, 增加参考完整性和完整性约束的相关规定。该标准于1992年11月19日废止。

2.3 ISO/IEC 9075:1992

1992年, ISO/IEC JTC1发布了ISO/IEC 9075:1992《信息技术数据库语言SQL》 (简称SQL92) 。该标准是SQL标准的第三个版本, 对前一版本进行了修订, 提供了新的模式操纵和数据管理机制, 以及大量的数据定义和数据操作增强内容。

2.4 ISO/IEC 9075-3:1995

SQL92发布后, SQL标准在制定时被拆分为多个部分。1995年, ISO/IEC 9075-3:1995《信息技术数据库语言SQL第3部分:调用层接口 (SQL/CLI) 》正式发布, 该标准依据SQL92制定, 作为ISO/IEC 9075系列标准的部分标准发布, 未替代SQL92, 这两项标准同时有效。该标准是ISO/IEC9075-3第一个正式发布的版本, 定义了应用程序中执行SQL语句时用到的结构和过程, 通过这种方式调用过程将独立于SQL语句的执行。

2.5 ISO/IEC 9075-4:1996

1996年, ISO/IEC 9075-4:1996《信息技术数据库语言SQL第4部分:持久存储模块》发布, 该标准未替代SQL92, 与SQL92、ISO/IEC 9075-3:1995同时有效。该标准是ISO/IEC 9075-4第一个正式发布的版本, 定义了存储过程的语法和语义。

2.6 ISO/IEC 9075:1999

1999年, ISO/IEC 9075:1999《信息技术数据库语言SQL》 (简称SQL99) 以系列标准的形式正式发布, 同时替代了SQL92、ISO/IEC 9075-3:1995和ISO/IEC 9075-4:1996。该版本的ISO/IEC 9075分为5个部分:

—第1部分:框架

—第2部分:基础

—第3部分:调用层接口

—第4部分:持久存储模块

—第5部分:宿主语言绑定

其中, 第5部分是新增加的内容, 提供了在编译单元中绑定SQL语句的语法, 直接调用SQL语句语法以及动态准备和执行SQL语句的语法等内容。

2.7 ISO/IEC 9075-10:2000

2000年, ISO/IEC 9075-10:2000《信息技术数据库语言SQL第10部分:对象语言绑定》发布。该标准是ISO/IEC 9075-10第一个正式发布的版本, 对数据库语言SQL进行了扩展, 以使其支持将SQL语句嵌入到Java程序中。

2.8 ISO/IEC 9075-9:2001

2001年, ISO/IEC 9075-9:2001《信息技术数据库语言SQL第9部分:外部数据管理》发布。该标准是ISO/IEC 9075-9第一个正式发布的版本, 对数据库语言SQL进行了扩展, 以使其支持通过外部数据封装和数据链管理外部数据。

2.9 ISO/IEC 9075-13:2002

2002年, ISO/IEC 9075-13:2002《信息技术数据库语言SQL第13部分:使用Java程序设计语言的SQL例程和类型》发布。该标准是ISO/IEC9075-13第一个正式发布的版本, 增加了使用Java程序设计语言的SQL例程和类型方面的内容。

2.10 ISO/IEC 9075:2003

2003年, 以系列标准的形式发布了ISO/IEC9075:2003《信息技术数据库语言SQL》 (简称SQL2003) , 同时废止了此前发布的ISO/IEC 9075系列标准所有部分。该版本的ISO/IEC 9075系列标准包括9个部分:

—第1部分:框架

—第2部分:基础

—第3部分:调用层接口

—第4部分:持久存储模块

—第9部分:外部数据管理

—第10部分:对象语言绑定

—第11部分:信息和定义模式

—第13部分:使用Java程序设计语言的SQL例程和类型

—第14部分:与XML有关的规范

其中, 第11和14部分为第一次正式发布, 增加了信息和定义模式以及XML方面的内容。

2.11 ISO/IEC 9075-14:2006

2006年, ISO/IEC 9075-14:2006《信息技术数据库语言SQL第14部分:与XML有关的规范》发布, 该标准针对ISO/IEC 9075-14:2003进行了修订, ISO/IEC 9075-14:2003同时废止。

2.12 ISO/IEC 9075:2008

2008年, ISO/IEC 9075:2008《信息技术数据库语言SQL》 (简称SQL2008) 发布, 此前发布的ISO/IEC 9075系列标准所有部分同时废止。ISO/IEC9075:2008是目前SQL标准的最新版本, 包括9个部分:

—第1部分:框架—第2部分:基础

—第3部分:调用层接口—第4部分:持久存储模块—第9部分:外部数据管理—第10部分:对象语言绑定—第11部分:信息和定义模式

—第13部分:使用Java程序设计语言的SQL例程和类型

—第14部分:与XML有关的规范

3 标准版本间差异分析

在SQL标准的12个版本中, SQL92、SQL99、SQL2003和SQL2008被公认为最具影响力的四个版本。

3.1 SQL92和SQL99差异

SQL92和SQL99在标准结构、分级方式和内容上存在较大差异。

●标准结构:SQL92是一个独立的标准, SQL99是由5个部分构成的系列标准。

●分级方式:SQL92将级别划分为入门级、中间级和完备级, 标准中规定的每个特性包含一个分级规则, 声明该特性如何满足入门级和中间级要求。SQL99将标准划分为核心级特性和核心级之外特性, 核心级为必须支持的特性, 每个特性的符合性规则中声明如何满足核心级要求。

●标准内容:两个版本间有14处存在差异的地方, 如SQL99增加了游标操作冲突提醒、98个保留字、强制语句后加分号、删除状态参数SQLCODE等内容。但是SQL99的核心级和SQL92的入门级还是非常接近。

3.2 SQL2003和SQL99差异

SQL2003和SQL99间差异主要表现在废止了原来的第5部分标准, 同时增加了4个部分标准。ISO/IEC 9075-2:2003和ISO/IEC 9075-2:1999间有17处差异, 包括2003版删除了1999版定义的BIT和BIT VARYING两个数据类型、增加了14个保留字等内容;ISO/IEC 9075-3:2003删除了ISO/IEC 9075-3:1999表28“实现信息的代码和数据类型”中的10项内容;ISO/IEC 9075-4:2003在<例程调用>的“可空性”定义等内容上有少量差异。SQL2003的核心集和SQL99的核心集变化不大。

3.3 SQL2008和SQL2003差异

SQL2008和SQL2003标准结构完全一致, 依旧保持9个部分的内容。在<搜索或循环子句>、<二进制串字值>的声明类型、<非保留字>EXCEPTION等内容上进行修订, 同时增加了10个保留字。SQL2008的核心集和SQL2003的核心集变化不大。

4 结语

中文是那么美丽的语言 篇2

从上世纪50年代在牛津大学读书的时候起,我就一直很想到中国来生活。

在那个年代,牛津中文系教的还是文言文,教材都是文言文写的古代典籍。所以我们中文系学生读的是孔子、庄子、老子的作品,以及《春秋》、《左传》、《史记》、《唐诗三百首》和中国古代几乎所有时期的古诗。我很幸运,在当时遇见了一位很好的老师——著名红学家吴世昌,他对我的帮助很大。

我和我的同学一直想学习白话文,但苦于没有机会。当时我们读过的仅有两部白话文作品,就是鲁迅的《狂人日记》和胡适的一篇文章。

毕业之后,我获得了到中国留学的奖学金,但却因为历史原因无法成行。此后,我在牛津大学和巴黎第七大学执教中文和中国文化,前后共40年。其间尽管我娶了一位中国妻子,并数次被中国社科院邀请访问中国,但从来没能在中国“生活”——一直到我两年半前退休移居中国。

现代中文过于迎合外国语法

到了中国之后,我的第一个发现就是,今天的中文跟我读书时学的中文相比,演变得实在太多了!有的时候,年轻人讲的普通话在我听来完全像是一门外语,这一点让我觉得很有趣。

两年来,每听到别人说“早上好”,我都觉得很怪异。“早上好”应该是“Good Moming”的原文照译,但听起来显得那么不自然。我学中文的时候,只用这么精练的一个字:“早!”在我看来,这,才是原汁原味地地道道的中文。

到处使用后缀“们”,也是现代中文过于迎合外国语法的例子。从前的中文里,“们”的使用是很有限的。老舍和他同时代作家的作品中,就很少使用这个字。“人们”显得很累赘,使用“人家”或“人”再加上一个“都”字,在我看来是更加地道的中文表达方式。

或许这是一个“代沟”带来的问题,因为语言总是在不断演进的,而我这辈的人看到变化总会怅然若失。就像我经常看到英国的年轻人不正确使用“whether/if”,“might/may”和“will/shall”一样。我们无法阻止变化的发生,但我们应该让后辈知道,语言到底发生了怎样的变化。

我的学生在我说“结账”的时候,总是会纠正我应该说“买单”。但他们并不知道,我其实并不是学究,只是想坚持说一种我认为无论从视觉和听觉上都非常美丽的语言。

我的“必读书单”

是的,中文是那样美丽的一门语言,无论是字型结构还是发音。我对中国书法作品百看不厌,听到漂亮的普通话总是满心舒畅。而我尤其喜爱的,是略带南方口音的普通话,它像法语一样,特别适合唱歌和吟诗。

因此,我想跟中国的读者分享自己四十余年的中国文化研究中,认为永远值得一读的典籍,特别希望中国的年轻人把它们加入自己的必读书单。

哲学方面:《道德经》、《庄子·内篇》、《论语》、《孟子·告子》。其中《道德经》、《庄子》和《论语》应该是必读的书目。这些作品文风各异,但共同之处在于,它们都具有一种语言学上的美感,而道家的典籍尤为诗意。

史学方面:司马迁的《史记》。《史记》既是史学作品也是文学作品,叙事极为引人入胜。特别是其中的《项羽本纪》、《魏公子列传》、《廉颇蔺相如列传》、《商君列传》、《伍子胥列传》、《刺客列传》。这是因为,《史记》中英雄人物的品格是中国文化的人格支柱。今天還有多少人知道,“知己”一说是来源于《史记》中愿为知交的主人而献身的豫让?

儒学方面:张载《正蒙》、王夫之《张子正蒙注》、朱熹《大学章句》。这几本书读起来比较累,但是对于了解儒学的演进非常有帮助。

小说:《西游记》、《红楼梦》、《儒林外史》。

VF上机试题 SQL语言 篇3

【机试】

[1] 在练习文件夹中有一个数据库sdb,其中有数据库表student2、sc和course2。3个表结构如下所示:

STUDENT2(学号,姓名,年龄,性别,院系编号)

SC(学号,课程号,成绩,备注)

COURSE2(课程号,课程名,选修课号,学分)

用SQL语句查询“计算机软件基础”课程的考试成绩在85分以下(含85分)的学生的全部信息并将结果按学号升序存入noex.dbf文件中(表的结构同student2,并在其后加入成绩字段)。答案: SELECT STUDENT2.*,成绩 FROM STUDENT2,SC,COURSE2 WHERE

STUDENT2.学号=SC.学号

AND SC.课程号=COURSE2.课程号 AND 课程名=“计算机软件

基础” AND 成绩<=85 ORDER BY STUDENT2.学号 INTO TABLE

NOEX。

[2] 将order_list1表中的全部记录追加到order_list表中,然后用SQL SELECT语句完成查询:按总金额降序列出所有客户的客户号、客户名及其订单号和总金额,并将结果存储到results表中(其中客户号、客户名取自customer表,订单号、总金额取自order_list表)答案:(1)SELECT * FROM ORDER_LIST1 INTO TABLE ORDER_LIST

(2)SELECT CUSTOMER.客户号, ORDER_LIST.客户名,订单号,总金额 FROM CUSTOMER, ORDER_LIST WHERE CUSTOMER.客户

号=ORDER_LIST.客户号 ORDER BY 总金额DESC INTO TABLE

RESULTS.[3]将customer1表中的全部记录追加到customer表中,然后用SQL SELECT语句完成查询:列出目前有订购单的客户信息(即有对应的order_list记录的customer表中的记录),同时要求按客户号升序排序,并将结果存储到results表中(表结构与customer表结构相同)。

答案:SELECT * FROM CUSTOMER1 INTO TABLE CUSTOMER

SELECT * FROM CUSTOMER WHERE 客户号 IN(SELECT 客户号

FROM ORDER_LIST)ORDER BY 客户号 INTO TABLE RESULTS

[4]列出总金额大于所有订购单总金额平均值的订购单(order_list)清单(按客户号升序排列),并将结果存储到results表中(表结构与order_list表结构相同)。

语言交际中文化差异因素研究 篇4

语言交际中文化差异因素研究

一、前言 语言学家多拉在《语言教育:科学的方法》中指出:“我们不掌握文化背景就不能教好语言.语言是文化的一部分,因此不懂得文化的模式和准则,就不可能真正学到语言.”了解和掌握一种民族文化决不是记忆一些文化事实,而是要在交际中能够正确地运用.无论学习者将深层文化特点如国民性情、时间取向、美丑定义背得如何熟练,如果不会在交际中自觉地使用,那么他的交际技能仍然是零.

作 者:刘慧 作者单位:吉林师范大学外国语学院刊 名:职业时空(上半月版) PKU英文刊名:CAREER HORIZON年,卷(期):3(10)分类号:C912关键词:

SQL语言在财务软件中的应用 篇5

关键词:用友ERP,财务软件,SQL语言

目前大多数经管类院校开设了用友ERP等财务软件的实验课程, 建立起模拟企业运作的ERP仿真实验环境, 通过学习和实践来提高学生的学习能力、实践能力和创新能力, 有利于对信息化实务型人才的培养。在用友ERP实验教学的数据维护管理中, 笔者试从数据库管理角度, 运用SQL语言来实现对实验数据的快捷、高效处理。

一、用友ERP财务软件简介

大部分的财务软件采用C/S (客户/服务器模式) 或B S (浏览器/服务器模式) , 后台服务器通常采用Oracle、Sybase、SQL Server等大型的关系型数据库, 如国内流行的用友、金蝶等财务软件采用SQL Server作为后台数据库。

网络版用友ERP-U8财务软件采用C/S模式, 在学生实验用机上安装用友软件的客户端程序, 在服务器上安装SQL Server数据库和用友应用服务器, 学生用机通过局域网实现与用友数据服务器的连接。在安装用友财务软件过程中, 安装程序会创建用友的ufsystem数据库, 它是用友的“系统库”, 所有的账套信息、用户、权限等都是在这个数据库中保存的。而ufdata_×××_×××× (×××为账套名, ××××为会计年) 则为具体账套的数据库, 它是用户创建账套时生成的数据库, 主要用于存放账套的凭证、报表等数据。

二、SQL语言概述和数据库连接

1. SQL语言概述

SQL (Structured Query Language, 结构查询语言) 是数据库中使用的标准数据查询语言, IBM公司最早使用SQL在其开发的数据库系统中, ANSI对SQL进行规范后, SQL成为关系数据库管理系统的标准语言并得到国际标准化组织的支持成为国际标准。使用SQL的常见关系数据库管理系统有:Oracle、Sybase、Microsoft SQL Server。绝大多数的数据库系统遵守ANSI SQL标准, 但是它们同样做了某些程序的扩展和修改, SQL Server使用Transact-sql。SQL功能强大, 可概括为以下3组:

数据操作语言 (DML) , 用于查询、添加、修改或删除数据库中的数据的语句, 主要命令有SELECT, INSERT, UPDATE, DELETE;

数据定义语言 (DDL) , 用于定义和管理数据库及其所含各类对象的语句, 比如创建、修改或者删除数据库、表、视图、用户定义数据类型等对象, 主要命令有CREATE、ALTER、DROP;

数据控制语言 (DCL) , 用来设置或更改数据库用户或角色权限的语句, 主要命令有GRANT、DENY、RE-VOKE。

2. 数据库的连接

运用SQL语言对数据库数据进行查询、修改、更新或删除等操作, 必须先建立与数据库的连接。连接数据库的方法可使用SQL查询分析器, 它是一个界面友好的图形工具, 为编写、执行SQL语句提供一种交互式环境并返回执行结果。另外还可使用Osql实用工具, Osql工具通过ODBC API与SQL数据库服务器通信, Osql工具让我们能够直接在操作系统命令提示符下执行Transact-SQL语句、系统存储过程和TSQL脚本文件。Osql有许多命令参数, 可在DOS提示符下输入“Osql-?”来详细了解其参数命令功能, Osql连接数据库语法是在DOS模式下:

Osql–S server–U username–P password–d db_name

1>

其中server选项为要登录的服务器名, username和password为用户账号和口令, db_name为所要登录的数据库。本文中以下的SQL语句都是在已实现与用友后台数据库连接后的操作。

三、SQL语言应用的实例

用友财务软件支持999个账套, 在会计模块的实验教学实践中, 为每位实验学生开设一个独立的核算账套, 并建立用户名, 分配用户的操作权限, 通过上机实验来熟悉掌握会计电算化的系统流程和各个功能的操作。如为每位实验学生设立账套, 其账套名和ID号为101~180, 建立对应的用户名为st101~st180并分配相应的操作权限。在用友的系统管理中, 可先逐一建立80个用户, 然后在权限中找到其对应的账套, 再一个个添加操作权限, 这是一个重复且烦琐的操作过程。但如采用SQL语言来建立上述80个用户并分配相对应账套的权限仅需花费几秒的时间。

SQL语言使用Insert、Update、Delete等语句来插入新记录或修改记录, 建立单个用友的用户和分配权限等工作可采用Insert新的数据记录来实现, 而要批量完成80个用户记录则可以把Insert等命令加入到SQL语言流程控制———循环While的SQL-statement语句中:

设立整数变量并赋初始值为101, 当小于或等于180、条件成立时, 反复执行{sql_statement|statement_block}语句, 其中SQL_statement为需重复执行的一条或多条SQL语句。

1. 批量建立用户和修改用户口令

在用友Ufsystem数据库中, Ua_User表中存放用户的ID (c User_id) 、用户名 (c User_name) 及其口令 (c Password) 等数据。在用友系统管理的用户程序上建立用户时, 实际上是程序向后台数据库Ufsystem的Ua_User表中Insert新的记录, 因此可在上述循环语句中加入Insert的sql_statement:

VALUES ('st'+cast (@i as varchar (12) ) , 'st'+cast (@i as varchar (20) ) )

语句通过循环重复在向数据库插入新用户记录, 使用增加前缀'st'字符和cast () 函数把int变量转换为c User_name字段的varchar数据类型。

用友软件用户的密码是以加密的方式存在UA_User表的c Password字段中, 由于该字段允许NULL值, 所以当忘记用户密码时, 可通过SQL语言把该用户记录的c Password字段的值修改为NULL, 即空密码。SQL语言中更新记录数据的命令是Update。如当新学期开始后, 把上述80个用户的密码全部清空给下一批学生实验使用, 则可在循环语句中加入Update的sql_statement:

2. 批量赋予用户相对应账套的权限

用友UFSYSTEM系统数据库中的UA_auth表, 保存了权限的ID号 (auth_id) 和名 (auth_name) 的对应关系, 如权限名称为凭证处理, 其ID号为Gl0200, 出纳签字的ID号为Gl0203。用户的权限以账套ID、用户ID和权限ID的对应形式保存在表ua_hlodauth中, 假定需给用户ID为st101的用户分配账套ID为101的账套出纳签字的权限, 可使用如下语句:

其中c Acc_id为账套的ID号, i Year为会计年, c User_id则为用户ID, cauth_id为权限ID, 与表Ua_auth字段auth_id是一对一关系, i Isuser则判断是否用户以及区别用户的角色。当插入的新记录和表的字段及顺序一样时可省略以下字段, 只写出Values里的值。同理, 如需为st101增加账套101的凭证处理权限, 可按上述语句把GL0203改为GL0200值插入新记录。要批量完成80个用户权限设定, 可采用循环语句并设置变量把VALUES值循环插入ua_holdauth表中来实现用户权限的分配工作。

假定给一个用户公共目录设置和总账的全部权限, 就需要插入360多条记录, 可使用SQL事件探索器来更快捷地完成用户权限设定工作。SQL事件探索器其功能是监视SQL Server数据库系统引擎事件, 经常用于应用程序开发中的调试或测试所编写的sql脚本程序, 它能捕获很多SQL数据库事件, 其中能捕获SQL数据处理类事件, 即当在用友系统管理中设置用户权限时, SQL事件探索器能捕获到程序向后台数据库Insert记录的SQL语句。因此, 要得到设置一个用户权限的SQL完整语句, 可在SQL探索器中建立一个新的SQL跟踪器, 然后在用友的系统管理中给一个用户添加权限, 把SQL跟踪器中Insert auth_id所记录的复制起来, 在记事本中用替换方法去掉go命令, 并把账套ID和用户ID替换成变量, 同样使用cast () 函数把int变量转换为varchar变量, 把以下SQL语句加入上述循环语句的{sql_statement|statement_block}中:

INSERT INTO UA_Hold Auth VALUES (cast (@i as varchar) , 2004, 'st'+cast (@i as varchar) , 'GL0408', 1)

INSERT INTO UA_Hold Auth VALUES (cast (@i as varchar) , 2004, 'st'+cast (@i as varchar) , 'GL1511', 1)

INSERT INTO UA_Hold Auth VALUES (cast (@i as varchar) , 2004, 'st'+cast (@i as varchar) , 'GL1512', 1)

INSERT INTO UA_Hold Auth VALUES (cast (@i as varchar) , 2004, 'st'+cast (@i as varchar) , 'GL0214', 1)

……… (省略)

通过用友系统管理为80个用户分配权限是一项重复且烦琐的工作, 而使用以上循环语句只需几秒的时间就可快速地完成80个用户的权限设置工作, 大大地简化了实验数据的维护工作。

四、结语

SQL语言让我们能够管理数据库的数据而无须了解低层的数据结构。通过对80个用户的创建及其权限的快速分配, 可发现SQL是一种强大的关系数据库的通用管理语言, 在用友等财务软件的实验数据管理和维护中, 运用SQL语言可以使我们的工作更快捷、准确和富有效率。

参考文献

[1]用友软件股份有限公司.ERP财务管理系统应用专家培训教程[M].北京:中国物资出版社, 2003.

[2]Dejan Sunderic.SQL Server 2000高级编程技术[M].北京:清华大学出版社, 2002.

动物在英汉语言中文化寓意的异同 篇6

[关键词]语言 文化 动物 异同

语言中蕴藏着深厚的社会文化内涵,而文化是一个社会群体中各个成员的信仰、观念、风俗、行为、社会习惯等的总和,语言则是文化的具体表现形式。语言的学习不仅在于语音、语法、词汇和习语等语言本身的学习和掌握,更是文化的学习。下文就动物在英汉语言中的文化寓意和联想之异同作以比较和说明,以期对两种语言和文化进一步理解和学习。

英汉语言中,人们时常把某些动物与某些品质或特性联系起来。这些品质或特性又往往能使人产生某种反应或情绪,尽管这种联想很少或根本没有什么科学根据。而处在不同的文化环境中,人们对于同一种动物联想到的特性和所引起的情感往往有很大差异。

熊(bear):中文里“你真熊”大致相当于“你真笨”、“你真没用”、“你真软弱”、“你真窝囊”等义。而英语国家的人对于熊的聯想是不一样的。他们认为熊是很凶猛、危险的动物,也可能认为动物园或野生动物园林里的熊调皮淘气,滑稽可爱,但决不会像中国人那样,认为熊愚笨、无能、无用。

泥鳅(loach):在大部分英语国家里,人们把泥鳅看作是一种鱼,不会认为它很精明,不会理解“滑”的转义即“圆滑”、“狡猾”、“不老实”、“不可靠”等。不过,在英语中有另一种说法跟汉语中“滑得像泥鳅”这种比喻在意义上和感情上完全一样:slippery as an eel(滑得像鳝鱼)。

公牛(bull):它对中国人来说不会引起什么联想,不论是否常见,有用无用,无非是动物而已。中国人也许猜得出a bull in a china shop(瓷器店里的公牛)是什么意思,但想象不出说英语的人心目中的形象:一头喷着鼻息、怒气冲冲的公牛闯进摆满精致瓷器的店里。因此中国人既体会不到这个说法的生动性,也很难理解它的深层寓意:在一个需要举止灵巧得体、细致周密的场合,闯进一个行为粗鲁、手脚笨拙、会惹麻烦的人。

龟(tortoise)在汉语文化中,龟有两种象征意义。一方面龟象征长寿。古代的府第、庙宇、宫殿等建筑物前常有石龟,作为祈求长寿的象征。另一方面。龟也用来比作有外遇者的丈夫。骂人“王八”或“王八蛋”是极大的侮辱。在西方文化中没有这种联想,乌龟不过是行动缓慢、其貌不扬的动物而已。

猫头鹰(owl):在英汉语言中其象征意义完全不同。英语中有As wise as an owl(像猫头鹰一样聪明)这样的说法,表明讲英语的人把猫头鹰当作智慧的象征。在儿童读物和漫画中,猫头鹰通常很严肃、很有头脑。禽兽间的争端要猫头鹰来仲裁,紧急关头找猫头鹰求教。有时人们认为猫头鹰不实际,有点蠢,但基本上是智慧的象征。然而,中国人对猫头鹰的看法完全是贬义的,迷信认为,猫头鹰是不吉利的象征,谁看到猫头鹰或听到它的叫声是“要倒霉”的预兆。汉语中的“夜猫子进宅”意味着这家厄运将至,夜猫子就是猫头鹰。

蝙蝠(bat):西方人对它没有好感,通常联想到坏特征,也许是因为吸血蝙蝠的缘故,人们提到蝙蝠就会产生丑陋、凶恶、吸血动物等联想。英语中的相关表达有:as blind as a bat(瞎得跟蝙蝠一样,眼力不行,有眼无珠),crazies a bat(疯得像蝙蝠),He’s a bit batty, have bats in the belfry.(他有点反常,发痴;异想天开)。所以,西方人对蝙蝠的感情很像中国人对猫头鹰的感情,又怕它,又讨厌它。而对中国人来说,蝙蝠是吉祥、健康、幸福的象征。这些联想很可能来自蝙蝠的名称——“蝠”与“福”同音。有些图画或图案把蝙蝠和鹿画在一起,颇受欢迎,因为“福鹿”与 “福禄”同音,象征吉祥、幸福、权力、地位。

龙(dragon)和凤(phoenix):在中国,封建朝代的人们把它们视为皇权的传统象征。龙代表帝王,凤代表后妃。时至今日,这两种传说中的动物仍会在传统的中国图案中出现。汉语中龙是一种吉祥的动物,所以汉语中常说“望子成龙”,即希望孩子长大后能有所成就,但是如果将“望子成龙”译为“to long to see one’s son become a dragon”是很不妥当的,因为西方人视龙为邪恶的象征,认为龙是凶残肆虐的怪物,应予消灭。所以“望子成龙”应译为“to long to see one’s son become somebody”。有趣的是,中国图案上的龙没有翅膀,西方画上的龙却是有翅膀的怪物。在西方神话中,phoenix(凤)与复活、再生有关、根据希腊传说,凤再生时往往把巢烧掉,凤烧成灰烬,灰烬中又飞出一只新凤。因此,当一个城镇、一个场所或某团体的主要建筑物失火或因其他原因而毁坏时,好心人会祝愿它“像传说中的凤凰那样,以崭新的面貌从废墟中升起”。

当然,并不是所有的动物在英汉语言中都有不同的寓意。有些动物在英汉文化中的象征性意义是相同或相近的。如狐狸(fox)、驴子(ass)、鹦鹉(parrot)、蜜蜂(bee)等。中国人对上述动物的联想同美国人、英国人、加拿大人一样。在英汉两种语言里都有下列说法:狡猾得像狐狸(as sly as a fox)、蠢驴(stupid ass)、鹦鹉学舌(to parrot what other people say)、忙得像蜜蜂一样(as busy as bees)。

sql语言中文 篇7

高校中文专业本科生语言研究素质培养模式探索

近年来,提高高等教育本科教学质量已成为全球较为关注的问题之一.但就高校中文专业本科生的`语言教育来看,汉语教育和语言理论教育的质量并不十分理想.笔者认为,充分利用本土语言资源优势,通过高校中文专业语言类课程,实施本科生语言研究素质培养模式,是提高汉语教育和语言理论教育质量的有效途径之一.

作 者:周芸 ZHOU Yun 作者单位:云南师范大学,云南,昆明,650222刊 名:楚雄师范学院学报英文刊名:JOURNAL OF CHUXIONG NORMAL UNIVERSITY年,卷(期):22(10)分类号:H192关键词:语言教育 教育质量 语言资源 语言研究素质

sql语言中文 篇8

语言教学中的文化概念广受重视,而教师课堂决策中让文化概念渗入教学实践,让学习者体验到文化的深层张力,获取理性文化认知,更为重要的是培养学习者的跨文化意识,引导其形成跨文化交际的能力。体验性文化教学,作为文化教学中的一个重要概念,无疑深刻把握了文化教学的本质。因为通过体验才能真正获得跨文化交际意识和能力,这也符合我国目前倡导的综合实践教育的思想。当然,在目前的语言教学环境中,学生很难获得原汁原味的异国语言文化体验,因而,体验性文化教学的提出和实践适应并符合当前语言文化教学的发展趋势,具有较强的探索价值和实践意义。

文化体验(the cultural experience)是R·Moran (2001)提出的文化教学中的一个关键概念。他认为文化是一个复杂的混合体。要帮助学生理解文化,可以从三个框架入手:文化体验、文化知识、“体验式学习循环”。并认为文化的界定焦点应是文化体验——与另一种生活方式的碰撞。他认为文化体验包括五个方面的内容:文化内涵、学生界入这一内涵的活动、预期或实现的结果、学习内容和师生形成的关联的实质。他同时提出文化知识(cultural knowings)则包括四个因素的互动:文化信息(knowing about)、文化实践(knowing how)、文化观念(knowing why)、文化自知(knowing oneself)。Crawford-Lange & Lange(1987)也有把文化体验分为内涵和过程的提法。生活方式即内涵,学习者与另一生活方式的碰撞(即他们参与的活动和获得的结果)就是过程。而Kolb(1984)提出的体验性学习循环也备受推崇。他把这种学习模式分为具体经验、反思观察、抽象概念和积极试验四个阶段,每个阶段都有不同的学习内容、活动和目的。文化体验即学生与另一种生活方式的碰撞,与Kolb提出的所有的学习都是体验的观念不无相似之处,其中内涵和过程也是密不可分的。无论是跟目的语文化直接的碰撞还是间接的接触,如课本里展现的文化知识、一部影片欣赏还是一段旅外的经历故事,这种直接或间接的文化碰撞的本质都能体现在四个文化阶段之中。国内关于体验性文化教学的探索研究涉及不多,何高大(2006)从认知心理学角度探讨过英语教学中文化导入研究的理论架构,提出应重视培养学习者的“体验文化适应观”。而很少有人从实证角度来探讨过体验性文化教学,本研究试以教材为依托,在教学中体验文化并对体验性文化教学的实践应用作一粗浅尝试。

二、语言课堂决策中的文化教学实践

语言课堂决策中文化教学必定涉及学习者的文化经历。有两种框架来阐释教师的职责:文化知识框架和Kolb的体验式学习模式。按照学生学习需要动手去做的理念——即与另一种生活方式的碰撞,文化知识框架为我们提供了一个描述文化的方式。一旦这些交互式碰撞发生,接下来学习目的、教学和学习活动的选择以及合适的评价机制都需要得到认真的思考。

当然,教学活动中教师的角色转换也不可避免。从文化知识框架的四个相互关联的交互学习过程,教师需要确定学生学习的文化名称(内容),找到可能学习这些内容的方法(活动)以及需要达到的目标(结果)。下面,通过实践教学课堂决策去探寻文化知识框架在体验性文化教学中展示和渗透。

(一)文化信息的教学决策

语言教学实践决策中的文化信息获取是一个渐进式、螺旋式过程。这个过程包括所有收集和展示文化信息获得的活动。文化信息一般包括事实、数据、产品和实践的知识和文化的观点。这些信息具体来说涉及到特定的文化和语言,文化的本质以及一般学习和进入其它文化的过程,当然学习者自身的文化信息也包含其中。学习者需要掌握这些文化的信息。

课堂决策中首要关注点即学生在学习“关于创造力的培养——鼓励孩子思考”课文时需要哪些文化信息。首先,关于创造力的定义及它跟发明有什么异同点,这两点通过课文的准备部分学生就应有初步认识。话题可以围绕在美国学校和家庭怎样鼓励孩子思考这个主题来展开。因此,在课文学习中,学习者被要求在课前去收集关于美国孩子的思维和创新能力培养的策略和现状的情况,如学校老师的教学方法,在家里父母的行为等相关信息。同时对中国学校培养孩子思维和创新能力的现状和概况也要了解,当然,中国学校的创新情况也可以结合学习者自己的学习经历来阐释。希望通过课文学习把美国学校和中国学校培养孩子创造力和思维能力进行对比以发现其异同,并找出这种差异存在的原因,让学生在更深层次上去认识创新能力及中美两种教育体制在培养和教育孩子创造性方面的文化差异,从而提高学生的文化敏感性和文化适应能力。

(二)文化实践的教学决策

文化实践教学决策关涉一个互动本质及文化实践过程。文化实践包括具体的行为、行动、技巧甚至说、触、看、站等其它各种形式的实践活动。这就要求直接或模拟参与到目的语文化中人们的日常生活中去,按照他们的思维习惯及文化认知传统,运用他们的工具、技术和语言去跟这种文化本体建立直接联系。学习者需要能够适应和融入目的语文化-即用目的语文化中人们的方式去说话和行事。这就意味着学习者需要改变自身行为去适应目的语文化的语境。

我们的语言学习环境让我们没有直接融入异国文化氛围的条件,但在模拟环境中我们同样可以去感受和体验异国文化,这当然也是与另外一种生活方式发生“碰撞”,这同样也是一种间接文化体验。这个环节中最重要的核心是要让学生去动手,去体验。但在模拟环境下去体验一种文化环境,我们却没有一个可供模仿的模本。针对培养孩子思考的文章主题,学生们被分配两个任务,一批学生去模仿一个美国孩子课堂实践,而另一组学生去营造一个中国孩子的课堂。模仿美国课堂的学生们从模拟实践中了解和触碰到了美国孩子的思维和行为方式,而中国孩子的模拟课堂则让学习者对自身和本族语文化获得了更直观和深层次的理解。

互联网给了这种文化教学实践带来了更直接的媒介,也让教学实践中的文化素材丰富多彩。学习者通过模拟美国近年风行的“木匠教学法”。就是直接给学习者一些木块和量尺,让他们身体力行地去测量和拼造简单物体。这种实践过程中学习者对尺子和各种工具有了深刻认知也理解了线段长短及其数量加减关系。教师在这过程中只是起到一个帮助者角色的作用,布置任务和解答孩子们在动手过程中遇到的各种问题。学习者们可以比较熟练地运用英语口语完成这个模拟课堂。而模拟中国孩子课堂的学习者在模拟教学中时显沉闷。教师更多诉诸于不停的演算和讲授,大都强调记忆和背诵,学习者鲜有实际机会动手操作和停下思考讨论,更多是一种主导课堂实践进展的教学模式。两种课堂虽然都是模拟状态下课堂演示,但却相当直观地向学习者们展示了两种文化中的课堂学习模式,教学行为模式及其所凸显的思维认知模式。这种课堂演示让学习者获得了一种浸入式的文化体验认知,而两种课堂模式所传递的文化认知信息及其给语言学习者所带来的文化冲击却是了解中美教育体制及体验中美教育文化差异的最佳介质。

(三)文化观念的教学决策

文化观念的教学决策是帮助建立一种对基本文化观念的理解并让其消解于文化认知实践的过程。文化观念涉及理解、信念、价值及态度等,它植根于文化生活的方方面面。这是一个学习者寻求观察,收集信息和体验文化的过程。文化观念需要学习者具有对文化现象进行调查、分析和解释的技巧和能力,需要运用文化分析和比较能力来了解文化术语所蕴含的价值观念,这必定涉及对于自身和本位文化的认知和比较,目的语文化的基本价值观跟学习者自身的文化价值观的比较是学习者建立对基本文化观念理解的一个重要切入点。

在学习者获得对于两种文化课堂教学实践的初步认知之后,最重要是引导学习者深入到事物表象之后去探索这种表象差异的本质。因此,让学习者根据文本主题内容进行讨论并形成对于文化观念的概念认知至为关键。根据主题内容形成三个论题小组,三个论题分别是“中美教师在培养学生创造力方面有何差异”“中美学生在创造力的自主培养上有何不同”“中美教育体制在培养学生创新能力上有何利弊”,三个论题互为补充并相互呼应。为了让学习者获得更直接真实的文化体验,课题组邀请到美国外教与大家座谈,学习者能更直观地感受异国语言文化思维和语言冲击。同时学习者还被置于真实文化语境去采访美国留学生和美国游客,从各个角度和视角去理解美国文化和教育。克服了现实语境中的资源限制,学习者在互联网上跟美国学生进行沟通,这种资源获取过程让学习者获得了第一手的文化体验和文化认知。学习者的讨论深化焦点是两种文化现象及深层内涵的差异辨析和批判分析。中美教育体制中的教师、学习者、行政及政策等诸多文化因子对比让这种文化实践教学对教师的教学理念、教学方法和教育体制有了更深刻的认识,并让这种文化意识概念在使用文化术语解析文化知识和经历过程中得到消解。虽然这种探讨不能即刻对现实的教育问题觅到满意的解答方案,但它却为学习者理解社会现实、了解目的语文化和深入文化价值体系内核打开了一扇窗。

(四)文化自知的教学决策

文化自知的教学决策实际上是对学习者本身的认知和理解。学习者的价值、概念、感知、问题、反应、思维以及其本身的文化价值观是这个文化体验过程的重心部分,它关涉自我意识和自我认知。学习者需要了解自身及本位文化以更好的理解、适应和融入到目的语文化之中,他们需要认识和掌控文化学习过程中的情绪高潮和低落。当然,学习者参与、接受、探索或融入文化的程度以及作为文化学习者发展专业知识的能力都是由学习者对这个文化实践过程的理解来决定的。

课堂学习和讨论是对两种文化中的教学理念和教学方法的深刻的感性认识,而文化教学的最终目标就是实现学习者对文化差异的深层原因进行理性思考。学习者需要阐释他们的文化实践体验及对此的反应。这里的核心问题可以由教师直接提出,两种教学体制何以在培养孩子的创造力方面产生如此差异?这一问题涉及文化价值取向以及一个终极问题——两种文化的创造者的探讨。这里不能因为要求学习者进行语言的训练而让语言表达成为他们进行深层次思考的障碍,因此,学习者应该在尽量使用目的语的前提下,可以借助母语来表达深层次思想。学习者在讨论中从教学常规到教育方法再到教学理念,从学习者本身到教师再到教育制度的创造者的评价及对比,从而获得了两种文化在各个层次的全新认识和理解。学习者在与目的语文化发生碰撞时的体验以及他们在体验文化时对自身的认识和思考无疑会产生思想碰撞和文化冲击,甚至是文化认知矛盾。这种文化认同危机让他们面临的是保持还是放弃文化认同的选择,同时,这也就是学习者如何来看待自身和文化认同的命题。

三、结语

语言教学决策中的文化信息、文化实践和文化观念的界限是由学习者个体自身通过体验来决定的。当然,文化自知应该是整个文化知识的组织层面,它决定了学习者在文化体验中的理解和认识。学习者做出这些决定的能力取决于他们对自身、环境以及学习目的的意识,这种意识越清晰,在获得文化信息、技能和理解过程中学习者的学习投入程度就会越高。在整个学习过程中应该始终以学习者为中心,教师大多以帮助者的角色出现并在宏观上对整个学习过程进行调控和掌握。在参与、描述和理解阶段,学习者所关注的是文化,而在反思和反应阶段,学习者的重心则转向了对自身的认识,从无意识的文化体验转化为有意识的文化认知。

体验性文化教学对学生的学习文化知识的评价不应在于学生掌握多少文化知识史实和了解多少文化现象,而在于学生通过体验获得了多少文化沟通能力和在多大程度上获得对自身的了解。这种教学能在多大范围内实施和是否能给传统文化教学带来冲击,我们将拭目以待。

参考文献:

[1]Moran,P.R.Teaching Culture:Perspective in Practice[M].北京:外语教学与研究出版社, 2004.

[2]Crawford-Lange,L.M.,and D.L.Lange.Integrating Language and Culture: How to do it [J].Theory into Practice,1987,(4).

[3]Kolb,D.A.Experiential Learning:Experience as the Source of Learning and Development[M].Englewood Cliffs, NJ:Prentice-Hall,1984.

[4]何高大.英语教学中体验文化观点认知阐释.外语教学,2006,(3).

sql语言中文 篇9

1.1 自然语言处理技术的发展历程

语言在人类社会的形成和发展过程中有至关重要的作用, 只有掌握自然语言, 人与人之间才能更好地沟通和交流。在人类的大脑皮层中有专门处理自然语言的区域, 这也是人类智慧的根源和开发人工智能的关键。

自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称, 其目标是给计算机配备各种语言知识, 使其能够接受人们采用自然语言给它输入的命令, 理解人们所要表达的意思, 实现从一种语言到另一种语言的翻译等功能。

用自然语言与计算机进行通信, 这是人们长期以来所追求的。因为它既有明显的实际意义, 同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机, 而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。

最早的自然语言理解方面的研究工作是机器翻译。1949年, 美国人威弗首先提出了机器翻译设计方案。20世纪60年代, 国外对机器翻译曾开展大规模的研究工作, 耗费了巨额费用, 但人们当时显然是低估了自然语言的复杂性, 语言处理的理论和技术均不成熟, 所以进展不大。主要的做法是存储两种语言的单词、短语对应译法的大辞典, 翻译时一一对应, 技术上只是调整语言的同条顺序。但日常生活中语言的翻译远不是如此简单, 很多时候还要参考某句话前后的意思。

大约90年代开始, 自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是: (1) 对系统的输入, 要求研制的自然语言处理系统能处理大规模的真实文本, 而不是如以前的研究性系统那样, 只能处理很少的词条和典型句子, 只有这样, 研制的系统才有真正的实用价值; (2) 对系统的输出, 鉴于真实地理解自然语言是十分困难的, 并不要求系统能深层理解自然语言文本, 但要能从中抽取有用的信息, 例如, 对自然语言文本进行自动提取索引词, 过滤、检索、自动提取重要信息, 进行自动摘要等。

1.2 自然语言处理技术的主要研究问题

自然语言处理的研究分为基础性研究和应用性研究两部分, 这两类研究都是从语音和文本两方面进行的。基础性研究主要集中在语言学、数学、计算机科学等领域, 比如消除歧义、语法形式化、计算语言学理论基础以及语言资源库等。应用性研究主要集中在一些需要应用自然语言处理技术的领域, 比如信息检索、文本分类、自动文摘、机器翻译等。

作为计算机科学与数学建设所用的计算机语言, 通过建立形式化的计算模型来分析、理解和处理自然语言的学科, 自然语言处理致力于处理人和机器之间的交流沟通问题。目前科学家们已研制出了能处理计算机文本和语音的自然语言处理系统, 最终将会开发出能理解并生成人类语言的计算机系统。

1.3 自然语言处理技术的应用场景

自然语言处理技术研究的最终目的在于应用, 如机器翻译、智能检索、自动文摘、信息检索等。下面仅从机器翻译、搜索引擎两方面介绍国内企业对于自然语言处理技术的使用情况。

1.3.1 机器翻译

20世纪90年代以来, 国内机器翻译研究有了长足的进步。目前正在从事机器翻译研究的高校包括北京大学、清华大学、哈尔滨工业大学等, 研究所包括中国科学院计算技术研究所、自动化研究所等, 公司有译星公司、华建公司等。这些单位的研究成果在产品开发中得到了充分运用。例如, 译星、高立、通译等全自动翻译系统, 采用全自动机器翻译技术, 有简单的全自动翻译功能, 采用的主要技术不是全自动的机器翻译, 而是翻译记忆 (TM) 技术。

很多网站提供的在线翻译服务, 为网上阅读者快速理解和使用外文资源提供了方便, Google公司的快速翻译就是典型的应用事例。

1.3.2 中文搜索引擎

中文搜索引擎是以网络上的中文信息为主要对象, 可提供信息的自动收集、索引和检索等服务的数据库服务系统。常见的搜索引擎公司有Google、百度等。尽管这些企业所开发的搜索引擎产品各有特色, 其采用的自然语言处理技术却大致相近, 包括以下几种。

(1) 中文自动分词技术。目前大多数搜索引擎采用的都是关键词匹配查询方法。关键词查询的前提是将查询任务分解为关键词, 中文与西文的不同在于中文需要人为进行分词, 完善的中文自动分词技术可以有效排除各种歧义, 提高分词的准确率, 从而提高查询准确率。

(2) 短语自动识别技术。通常情况下, 用户所提出的查询请求以短语形式呈现, 如用户要查询“北京的建筑”, 应将“北京”和“建筑”联合起来作为一个短语查询, 过滤掉那些只有“北京”或只有“建筑”的文档。因此, 短语识别技术是搜索引擎公司常用的自然语言处理技术。

(3) 同义词处理技术。对专用领域的搜索引擎, 人工构造同义词表的方法能有效解决同义词问题。而对一般领域的搜索引擎, 需要从语料中自动取得同义词, 在给出一个关键词的情况下, 搜索引擎应能自动查找, 找到其同义词。

2 中文分词研究背景、目的及意义

2.1 背景

随着社会的发展和计算机科学的进步, 人机交互问题亟待解决, 虽然有了键盘和鼠标, 但依然不能满足人们日常生活的需要, 人们希望能有更方便、更快捷的方式与计算机进行交互, 语音交互成为一个研究的重点。语音交互特别是中文与计算机之间的交互问题, 对中国人来说是很重要的一个问题, 从使用中文与计算机进行交互以来, 一直没有完美的解决途径。中文与其他语言不同, 中文中字与字之间没有很好的标识符, 不像英文单词之间有空格, 所以, 中文中对句子进行分词, 是一个难点, 也是一个重点, 如果中文的分词问题都解决不好, 后面的处理效果就会非常差, 不能让人满意。

目前最常用、最基本的中文分词算法基于词典的方法, 正向最大匹配与逆向最大匹配的方法, 能对句子进行简单的分词。

2.2 目的

中文分词是自然语言处理技术中最基本和最重要的部分, 分词的好坏直接影响到后面的句法分析、语义分析, 只有分词分对了, 后面的处理效果才会好, 如果一句话连分词都分错了, 很可能这句话的意思就被理解反了, 例如, 一句话本来想表达的是“不高兴”的意思, 分词分错了, 可能就表达成了“高兴”的意思。所以, 研究中文分词, 如何提高分词的准确率, 是很重要的一个问题。

2.3 意义

解决了中文分词这个难题, 可以为后面的研究打下一个很好的基础。当自然语言处理技术的每一个小的方向都提高了以后, 就能方便快捷地与计算机使用自然语言进行沟通, 我们的生活也将变得更加丰富多彩。

3 现代中文词语切分的方法

中文自动切分就是把一句活自动转换为多个词的过程, 但由于中文的词汇间没有间隔, 同英语相比, 中文的切分较为困难。中文的切分是中文中句法分析、语义分析等的基础。

3.1 基本方法

(1) 基于词表的方法。

最大匹配法:正向最大匹配法、逆向最大匹配法。

全切分+路要选择。

(2) 字序列标记方法 (非基于词表方法) 。

3.2 中文分词的关键问题

在中文的切分中有两大关键问题至今仍未能得到很好的解决, 它们是歧义识别和未登录词识别。

3.2.1 歧义问题

切分歧义包括混合型歧义和交集型歧义以及二者结合所形成的组合型歧义。

(1) 交集型歧义。在一个字符串中若An与前m项和右P项都可结合成一个词, 此时对于字符An有两种不同的切法, 我们称对于此字符串中的An有交集型歧义。如字符串“从小学”中字符“小”既能与字符“从”组合成词“从小”, 又能与字符“学”组合成词“小学”。若不根据语境, 很难判断字符串“从小学”的正确切分方法, 那么这个字符串便存在着交集型歧义。

(2) 组合型歧义。对于字符串A, 若“Am Am+1”可成一个词, “Am”和“Am”也可以单独成词, 即称对于字符串A存在组合型歧义, 如“美军中将竞公然说”中的“中将”既可单独成词, 也可组合成词, 所以这句话存在组合型歧义。组合型歧义占常见的歧义问题的90%以上, 是最难避免的一类歧义, 值得研究人员予以重视。

(3) 混合型歧义。若字符串中存在混合型歧义, 那么此字符串中一定同时出现交集型和混合型两类歧义, 如“这样的人才能经受住考验”, 既可以切分成“这样的/人/才/能/经受住考验”, 也可切分成“这样的人/才能/经受住考验”。在这种情况下很难说清楚到底哪种切分才是正确的切分方式, 似乎各自有各自的道理, 所以混合型歧义是最难消除的一类歧义。

在上述歧义类型中有些歧义是可以避免的, 可以称为“伪歧义”。如对“切分成”能切分成“切/分成”和“切分/成”, 很明显只有后种切分方式是正确的, 即此字符串中不存在“真歧义”, 而是“伪歧义”。在真实的文本歧义中, 伪歧义的比例达94%, 可见大部分歧义在理论上是可以避免的。

3.2.2 未登录词的识别

未登录词即没有被收录在分词词表中但必须切分出来的词, 包括各类专有名词 (人名、地名、企业名等) 、缩写词、新增词汇等。

3.2.3 切分结果的评价指标

准确率在中文分词中能很好地评定一个分词系统的查准率, 主要针对单篇文章;召回率则能评定一个分词系统对于大量文档的覆盖范围, 即查全率;对于F值, 简单地来说就是两者的调和平均数, 对于一个分词系统的科学评定是非常重要的。例如对于文档“该书对地理学的贡献甚至达到了西方地理学的现代水平”, 分词系统的切分结果为“该书对地理学的贡献甚至达到了西方地理学的现代水平”, 正确的切分结果为“该书对地理学的贡献甚至达到了西方地理学的现代水平”。

4 中文分词基本算法介绍

基于词典的方法 (字符串匹配、机械分词方法) :按照一定策略将待分析的汉字串与一个提前生成好的词典中的词条进行匹配, 若在词典中找到某个字符串, 则匹配成功。按照扫描方向的不同分为:正向匹配和逆向匹配。

4.1 正向最大匹配算法MM

(1) 从左向右取待切分中文句的m个字符作为匹配字段, m为词典中最长词条个数。

(2) 查找词典并进行匹配。若匹配成功, 则将这个匹配字段作为一个词切分出来。若匹配不成功, 则将这个匹配字段的最后一个字去掉, 剩下的字符串作为新的匹配字段, 进行再次匹配, 重复以上过程, 直到切分出所有词为止。

4.2 逆向最大匹配算法RMM

该算法是正向最大匹配的逆向思维, 从右向左去匹配, 匹配不成功, 将匹配字段的最前一个字去掉。

5 结语

中文分词技术在数字资源处理、在线翻译、搜索引擎技术中有大量的应用, 值得我们关注并认真探究, 在不断的探究中, 不断开发更加便捷实用的算法以达到更好的效果。只有实践才是硬道理, 只有不断探索, 敢于创新才能总结出更佳的办法。

中文分词, 作为一个需要进行长期研究的领域, 虽然国内自然语言处理的研究已取得了不少成果, 但准确率还没有达到让人很满意的程度, 随着研究的不断深入, 分词技术会越来越成熟, 一定会推动自然语言处理技术向前发展。

摘要:中文分词是自然语言处理处理的基础, 有着极其广泛的实际应用。可以说, 在各类中文信息处理软件 (系统) 中, 中文分词都是不可或缺的环节。随着互联网在中国的兴起, 对中文信息处理提出更高要求, 即在语义层面上处理中文, 这使得中文分词算法的研究显得更加困难, 中文分词技术的发展显得更为重要。

上一篇:ohsas手册编写范例下一篇:上班时间嗑瓜子的检讨书