语种设置

2024-09-06

语种设置（精选7篇）

语种设置篇1

当前广西高校体育专业的外语课都是清一色的英语。通过在校生和参加工作后的体育人才了解到, 部分人在大学没有学到多少的英语知识, 对英语没有兴趣, 英语成绩不理想, 以至于他们放弃考研深造的机会, 少部分人考职称外语时选择考日语。这对我们的外语课程提出了更高的要求, 我们应根据学生的需要, 社会的需要, 在有条件的学校开设英语、日语、越南语、泰国语等数门外语课, 供学生根据他们的基础、特点、发展等因素选择一种语种进行外语学习, 满足以学生为主的需求。广西是壮族最集中的省份, 壮语与越南语、泰国语等东盟国家语种有一定的相似, 学生学习东盟国家语种能达到事半功倍的效果, 为将来的工作打下良好的基础。因此, 提出对外语课程的多元化的创新设想。

1 研究对象与方法

1.1 研究对象:

以具有代表性的3所高校为研究对象, 分别是广西师范学院体育学院、广西师范大学体育学院、广西民族大学体育与健康学院大一至大四的体育教育专业本科生。

1.2 研究方法

1.2.1 文献资料法

根据研究目的和内容查阅与研究课题相关的文献资料, 并对其进行整理归类, 以了解我国体育工作者在这一领域的研究成果, 为本课题研究提供理论依据。

1.2.2 问卷法

对3所具有代表性的高校学生发放问卷400份, 回收问卷360份, 有效问卷342份, 有效回收率为85.5%。其中有效的男生占274份, 女生占72份。

1.2.3 访谈法

对大学外语教学部的老师及体育学院分管教学的领导进行访谈, 了解学校开设体育教育专业公共外语多元化语种面临的困难、存在的问题及可行性。

2 结果与分析

2.1 学生对英语课程的态度

n=342

n=34

由表1可以看出, 目前体育教育专业的学生有41%左右喜欢英语, 38%的学生喜欢上英语课;还有59%的学生不喜欢英语, 也就不喜欢英语课。从表2不难看出, 体育教育专业的学生英语水平普遍不高, 虽然经过至少6年的英语学习, 但取得的效果并不理想, 因而课堂的情况也不是很理想, 学生的英语学习陷入“为英语而英语”和“哑巴英语”的怪圈。从调查问卷得到的数据, 有70%的学生对英语不感兴趣, 或多或少是基础打不好的缘故, “兴趣是最好的老师”。没有兴趣地去学习, 不但浪费时间、浪费精力, 还达不到好的效果。而如果你满怀兴致地去学习自己感兴趣的知识, 你的拓展能力和创新能力就会不断提高, 就可以收到较好的学习效果。由此可以理解为何有60%的学生不喜欢英语课了, 他们对英语没有兴趣了。但公共外语是大学生的必修课, 必修课是教学计划中规定学生必须学习的课程。既然是必修课, 就应该开设学生感兴趣的外语课程, 体育教育专业开设公共外语语种的多元化是可行的。

2.2 学生对开设外语多元化的课程调查情况

由表3可知, 经过4年的学习 (2年的教学, 2年的自学) , 只有45人, 所占比例为12%的学生认为能够到达考研或找工作的要求, 接近60%的人认为不可能达到要求, 30%的学生认为说不清。由此要令我们深思, 只有12%的比例算是优秀。大部分的学生都没有自信能把英语学好, 能够达到将来学习工作的需要, 事实不难看出来, 很多体育教育专业的学生毕业后, 参加工作, 评职称, 就要参加全国统一的英语职称考试, 评职称的其它条件都容易到达, 就是英语卡了不少的人, 有的考了几年才通过, 有不少人干脆放弃英语, 转入学习日语, 通过几个月的培训, 考试就可以通过。值得我们反思的是, 几个月的日语学习就能通过日语的职称考试, 假如在大学学习2年的日语, 毕业后对付日语的考试不是小菜一碟了吗?接近70%的学生希望公共外语必修课能像公共体育必修课一样, 能够有几种语种供学生选择, 让他们根据自己的兴趣爱好去学习外语。而中国-东盟永久落户南宁, 南宁每年都举行的中国-东盟拳王争霸赛、中国-东盟CBO男子篮球邀请赛、南宁国际龙舟邀请赛等体育赛事。龙舟邀请赛目前已经成为南宁市一张体育名片, 在国内乃至东盟国家影响广泛。东盟国家与广西的交往更为密切, 调查的3所高校都接收不少的东盟国家的留学生, 如此一来, 使学生有更多的机会接触到东盟国家的友人, 体育教育专业的学生都比较希望能够学习东盟国家的语言。

n=342

2.3 学生对开设外语多元化课程语种的调查情况

学生对除了英语课之外的外语语种表4显示, 最高的是越南语, 占到74%, 其次是泰语的65.8%, 日语也接近40%, 从中可以看出学生对外语语种的多元化感兴趣, 一个是受社会环境的影响, 一个也是跟广西的本地方言有关, 壮语跟越南语比较接近, 易学易说。通过学习东盟国家的小语种, 能够达到事半功倍。小语种, 顾名思义就是相对英语这些应用面很广, 用者甚众的外语而言, 只在少数国家应用的外语语种。对小语种的定义一般有两种。一种是指除联合国通用语种 (英语、中文、法语、俄语、西班牙语、阿拉伯语) 外的所有语种;而老百姓通常认为英语是通用语种, 其它语种都是非通用语种, 因此小语种的另一种定义就是指英语以外的其它语种。

2.4 学生对开设外语多元化课程基本要求的调查情况

n=342

由表5的调查显示, 学生对课程的授课采用方式比较平均, 但对教室的要求是较高, 目的提高学习的效率, 能在课堂上掌握更多的知识。从考核的方式看, 学生接纳的是考查及能力测评的考核方式, 学生认为这样的考核方式使摆脱应试教育, 进入到素质教育, 这样能全面提高学生的基本素质, 以注重开发受教育者的潜能, 促进受教育者德智体诸方面生动活泼地发展为基本特征的教育。

2.5 学生对师资观点

学生对开设外语多元化课程授课教师要求, 有150人选择有经验的教师进行授课, 有121人选择外籍教师, 还有63人选择有留学中国2年以上的留学生, 余下的认可社会上的专业翻译人员, 专业的翻译人员有着更多的社会实践的经验。从学生的选择, 有经验的教师和外籍教师所占比例约为80%。面前在广西高校里, 有体育教育专业的学校都有外语系 (学院) , 外语系的二外教师, 在本系里承担的教学任务并不繁重, 对于每周增加2次的教学任务, 并不存在困难。

2.6 访谈教师及领导的观点

n=25

从表6可以看出, 只有占12%老师认为学生经过2年的学习才能达到考研或找工作的要求, 而且大三大四还要努力学习英语的读、写、听、说。占72%的老师认为学生达不到这个要求, 只是能够达到毕业的基本条件 (还有部分学生要参加毕业前的学位英语考试) 。84%的老师认为有必要开设其它语种, 这样有利于调动学生学习的积极性, 课堂能够较活跃。68%的老师认为学生学习东盟国家的语言有利于学生就业, 学生经过6年的英语学习, 掌握了基本的知识, 再学基本的东盟语言, 就比别人占优势。通过对大学外语教学部的老师及体育学院分管教学的领导进行的访谈, 老师们反映英语的课堂不活跃, 学生的英语水平普遍较低, 对英语不感兴趣, 必然导致上课积极性不高。如果教师按照教学计划进行授课, 学生普遍认为枯燥无味, 使得学生是选择性的逃课。但是, 上课时讲授新的知识, 新的话题 (非英语书本上的知识) , 就可以把课堂气氛推到高点, 课堂就很活跃, 效果良好。对于外语语种多元化课程设置, 开设几门外语语种供学生选择性的学习, 老师和领导们都认可, 是可以考虑的开设公共外语语种多元化的课程。

3 对策与建议

小语种, 顾名思义就是相对英语这些应用面很广用者甚众的外语而言, 只在少数国家应用的外语语种。未来中国教育应大力改革。改革之一的便是外语课, 不该全国性的单一学英语一种语种, 应该多种语言并学列为中国外语语种。

3.1 开设的可行性

有着良好的大环境影响, 教育的改革在不断的变化, 外语语种的多元化选择性的学习是未来课程设置的一个趋势, 广西有这么好的地理环境优势, 人文优势及社会优势, 我们应该必备一个多元化的理念, 迎接社会的挑战。在广西高校体育教育专业的院系中, 学生约有60%不喜欢英语课, 我们就应该根据学生的兴趣爱好, 开设几种语种, 供学生选择的进行学习;开设几种语种课程的多媒体教室或者语音室在目前的高校中, 完全能够满足。对于师资的力量, 体育学院的领导与学校教务处的领导进行沟通, 借助外国语学院 (系) 的二外有经验的老师来给体育教育专业的学生授课。但请到外籍的教师, 难度普遍较大, 师资方面可以逐步改善。在授课的方式上, 可以根据教师与学生的意见及建议, 多采用讲座式、探究式或者采用几种教学方式的结合授课, 以达到最佳效果为目标。在课程的考核方面, 课程开设之初, 根据学生的学习效果进行考核, 主要是考查学生的学习效果。公共外语的培养要求是初级掌握小语种的日常交往的读、写、听、说, 体育运动项目、体育科学知识及体育经营管理。

大胆地进行课程的改革, 不断地进行课程的创新, 通过对体育教育专业的公共外语语种的多元化的课程开设, 在创新的理念中, 逐步改革。

3.2 开设的必要性

3.2.1 地理优势

中国教育学会会长顾明远先生提出, “我们要有目的地开展外语教学, 要重实效, 不能搞形式主义, 要因地制宜, 不能一刀切。”广西拥有特殊的地理位置, 广西南临北部湾, 面向东南亚, 是西南地区最便捷的出海通道, 也是中国西部资源型经济与东南开放型经济的结合部, 在中国与东南亚的经济交往中占有重要地位。

3.2.2 体育教育专业学生就业严峻

1999年全国普通高等教育招生计划为130万人, 然而, 2010年国家教育部网站公布了今年的普通高等教育招生计划人数为609.72万人, 在高等教育扩招的影响下, 11年的时间里, 我国的高等教育招生人数翻了4倍多。广西高校体育教育专业的学生人数也不例外, 人数翻了接近8倍, 不仅师范院校招体育教育专业的学生, 河池学院、钦州学院、百色学院等高校也招收体育教育专业本科的学生, 再加上几所独立学院, 2009年接近1000人的体育教育专业的本科学生。从面前的就业形式看, 学生的就业期望值较高, 不愿意到乡镇的中小学任教, 城市的中小学基本饱和, 如此多的毕业生无法找到工作。依据网站的调查, 体育教育专业近2年在全国的失业率位于倒数的十名内, 体育教育专业的就业不容乐观。通过对广西高校本科体育教育专业的学生问卷调查及老师的访谈, 开设外语语种的多元化课程供学生选择性学习, 能让学生能够在就业时增加砝码, 在激烈的竞争中提高就业率, 为将来的学习及工作打下良好外语的基础。

面对现代化的社会, 学生在校将有更多学习的机会, 将有更大的选择性和自主性。课程培养的目标要以国家的目标为指导, 结合地方政府及学校的目标, 有自己学校的特色。根据各自的需要, 自主的进行实践活动, 这样给课程设置带来了前所未有的冲击, 不得不趋于多元化。

4 结论

我们要充分利用广西的地理优势, 利用广西高校的有利资源。开设体育教育专业的公共外语语种的多元化的课程, 是为体育教育专业学生将来的学习、就业提供良好的学习环境及完善的课程设置, 提高体育教育专业学生的就业率及社会适应能力。开设体育教育专业公共外语语种的多元化是可行的, 也是很有必要的。

摘要：运用文献资料法、问卷调查法、专家访谈法, 针对广西高校本科体育教育专业公共外语课程设置情况, 分析、讨论实施公共外语语种多元化课程设置的可行性, 并指出开设外语多元化语种需要具备的条件, 并且在多元化语种的培养目标上, 使学生获得更多的就业机会。

关键词：体育教育专业,课程设置,公共外语,多元化

参考文献

[1]吴贻刚.体育学院英语专业办学定位与课程设置探讨[J].上海体育学院学报, 2005 (10) :90-93

[2]胡日查.关于体育院校开展双语教学的冷思考[J].沈阳体育学院学报, 2006 (6) :82-84

[3]周晶.娱乐与健康视角下高校女生体育课程设置多元化研究[J].体音美教学, 2009 (3) :188-189

[4]饶玲.课程与教学论[M].中国时代经济出版社, 2004

[5]丁念金.课程论[M].福建教育出版社, 2007

留学小语种国家篇2

“世界是平的”——全球化进程不断推进,我国与世界各国的各方面交流日益密切,小语种专业人才相对匮乏,尤其是既具备专业知识、又具备小语种能力的人才比较紧缺,前往非英语国家留学的学生人数明显呈上升趋势。

留学小语种国家,关键是语言。如果想留学小语种国家,在语言学习上一定要有坚强的意志。我们就学生关注度较高的意大利、西班牙几个小语种国家介绍一下,以便学生在留学时更好地根据自己的条件来选择。

1.费用低廉

非英语国家留学费用相对低廉。西班牙、意大利优厚的国家福利政策使得公立院校的国际学生能享受免学费,只交注册费的待遇;另外学生在住房、交通、文化生活中均有不同额度的费用补贴。而在国际学生的打工政策上,西班牙有较为宽松的政策,降低了留学生父母的经济负担。

2.知名院校

相对来说,学生到非英语国家申请名校的几率也远大于英语国家。在非英语国家中有很多首屈一指的名牌高校,对于中国学生来说并非遥不可及,它们享有声誉,却没有那么高的门槛。

3.就业率高

意大利学院教学质量较高,比如汽车工程、工业设计专业,学校与企业界关系较为密切,毕业生可以顺利地找到工作。

留学意大利

* 申请条件:

高中毕业——有高考成绩380以上,(以750分为满分),本科毕业申请硕士需要提供本科学位证。

* 留学费用:

公立学院不需要学费,只交纳注册费:500～1000欧元/年,不需要提供存款证明;私立学院需要存款证明、交纳学费,不同的学校,要求殊异。

* 生活费用:

公立院校—5～7万人民币/年,私立院校,从几万到十几万不等。米兰生活费用昂贵,费用一般在7万左右。

* 语言基础:

需要意大利语学习,参加使馆意大利语程度考试。

* 教育体制:

宽进严出,在国际上认可度高,本科学时3年,硕士学时2年,职业教育十分发达。

* 签证情况:

使馆面签,通过率可以达到90%。

* 医疗保险:

学生在申请赴意留学签证之前,都要先办理学生医疗保险。

学生可根据自己留学时间长短来选择合适的险种,以确保到国外可以享受医疗服务。

另一方面,据了解,在意大利合法居留的外国人可依法前往居住地卫生局登记,并领取医疗卡,从而享有与意大利公民同等的免费就医权利。

* 打工情况:

学生签证不允许打工。

* 就业前景:

汽车工程、设计类的专业在意大利就业相对容易。

日语中不同语种的词汇分析篇3

一、和语词

和语词因其是日本所固有的词汇, 所以它主要表示的是日本固有的事物, 具体的、比较形象事物, 以及和日本人生活密切相关的事物等。

日语中和语词音节的特点:和语词的音节中没有拗音节, 只有直音节, 词头没有ラ行音、半浊音, 浊音也非常的少。例如:りつあん立案、りょこう旅行、らいしゅう来週、ろんぶん論文等都是汉语词而非和语词。和语词与汉语词和外来语相比音节数较少。例如:かみ紙、ゆび指、つめ爪、みず水、たたみ畳等等都是和语词。音节较长的主要是外来语, 例如:ス—パ—マ—ケット。

和语词没有汉语词那么生硬, 用于口语中的较多一些。首先日语中表示自然环境、自然现象的词汇主要是和语词, 如:川 (かわ) 、草 (くさ) 、嵐 (あらし) 、風 (かぜ) 、空 (そら) 、雷 (かみなり) 、稲光 (いなずま) 、雪 (ゆき) 、梅雨 (つゆ) 、霧 (きり) 等等, 这些和语词汇非常的丰富, 分类也非常的细化, 其中尤其是表示天气、季节的词语非常丰富, 例如:五月下的雨叫さみだれ, 而秋冬之交下的雨叫しぐれ時雨。以及日本的地形、水势的词语也非常的细化。表示动植物名称的也主要是和语词, 牛 (うし) 、羊 (ひつじ) 、鳥 (とり) 、虎 (とら) 、犬 (いぬ) 等。表示衣食住行等和日本人的生活密切相关的词汇也主要是和语词。表示原始生产活动所必要的生产工具, 以及日本的传统节日的词汇也主要是和语词, 例如:お祭り、ひな祭り、おおみそか等等。从品词的角度讲, 日语中的助词、助动词、接续助词、拟声词、拟态词这些词汇完全是由和语词构成的。

和语词在词汇调查中, “異なり語数”没有汉语词多, 只居于第二位, 但是在“延べ語数”方面却远远超过了汉语词, 这说明和语词的使用次数较高, 适用范围也较广。同时也说明日语中助词、助动词、感叹词、动词这些词汇主要是和语, 因为这些词语基本上是句子的必要结构, 所以和语词在每句话都会出现, 所以在“延べ語数”方面远远超过了汉语词。而汉语词并非句子结构的必要要素。而且和语中很多都是基础词, 而且是“上位语”。

人们多认为和语的造词能力较差, 汉语词的造词能力较强, 其实和语在与其他语种结合构成混种语的方面, 能力是较强的。比如日语中“湯読み”的复合词就是由和语词和汉语词复合而成的。例如:“身分、株式、切符、家賃、場所、野宿、手本、手順”等。和语词在书写方面既可以使用平假名又可以使用汉字, 但如果书写用的汉字是『常用汉字表』以内的汉字的话, 则常用汉字书写。

在书写方面一般有:

(1) 用汉字来书写的:花, 犬, 猫, 若者, 手;

(2) 用平假名来书写的:だけ、それから、どの、ところ。

二、汉语词

汉语词顾名思义就是起源于汉语的词汇。严格来说, 是除了外来语的音译以外的音读词汇。主要用于表示抽象的事物, 多用于书面语, 学术用语、专业术语也多是汉语词, 汉语词多给人以生硬的感觉, 但汉语词也比较细化, 意思上比较严密。汉语词与和语词相比分类较细, 限定力较强, 例如:見る→監視、重視、直視、透視、直視。从这个例子当中, 我们就能看出和语词主要是基础词, 而且上位语较多。

日语中汉语词音节的特点:和语词的词头没有ラ行音、浊音, 而汉语词可以有。汉语词的音节中多见长音, 拗音, 促音, 而且经常是两音节和两音节的组合。例如:練習れんしゅう、訪問ほうもん、学習がくしゅう、拝見はいけん、根性こんじょう、必要ひつよう等等。

汉字当中有很多的和制汉字, 就是日本人自己造的汉语词, 例如:“大根、出張、見物、火事、物騒、返事、立腹、心配”。有一些已经反输入到了中国。反输入到中国的和制汉字有:“所得、不合理、経済、法律、批判”等等。

汉语词在书写上一般来说使用汉字。但如果汉字书写较难, 很多就只用平假名来书写了。

中国起源的汉字按其传入的先后顺序, 可以大致分为三种:

吴音:世間、人間、肉;

汉音:動物、愛、孝行;

唐音:和尚、瓶、杏子、行脚。

三、外来语

日语中的外来语主要是近代以来从欧美的语言中引入的, 其中以英语为主。外来语的增长速度非常快, 这增加了日语的词汇, 也丰富了日语的表达方式, 但也导致了日语中出现了很多同义词的并存, 例如:“書簡、手紙、レッタ—”, “宿屋、旅館、ホテル”等等。而且出现了很多的省略语, 和同音意异词例如:プロ→プログラム、プロダクション、プロパガンダ。

日语的音节除了播音以外其他音节都是“子音+母音”这种“开音节”结构, 而且在每个音节的开头只有一个子音, 而英语一般是“子音+母音+子音”这种闭音节结构, 而且在音节的开头有子音连读的情况, 所以英语在变成日语中的外来语时, 母音就会按照子音的数目相应的增加。例如:strike→su﹡to﹡ra﹡i﹡ku。当来也有本来是一个词汇却变成了两个发音、形状完全不同的日语的情况。外来语的音节中パ行音和ボ的长音较多。

外来语在进入日本时, 很多本来在英语中是不同的词汇在日语中却是一模一样的词汇。这是因为日语中的子音和母音与英语比起来相对简单, 所以英语中有些发音在日语中是无法区分的。例如:“r、l”。例如:

right、light、write→ライトfly、fry→フライ。

日语单词当中存在很多“和制外来语”, 所谓和制外来语就是日本人将两个外来语组合, 造出了一个在原语中找不到词源的词汇。例如:キ—ポイント、アルバイトサロン、ペンフレンド、テ—マソング等等。

外来语进入日语以后, 通过添加词尾是其词性发生变化。

(1) 添加“だ”使其变成日语中的形容动词:ナチュナルだ、オプンだ。

(2) 添加“る”使其变成五段动词:ダブる、ミスる、デモる、サボる。

外来语在日语中主要承担的作用有:表达新的事物或新的概念, 将事物细化, 表达新的语感, 表示一种委婉的说话方式等等。

以上关于日语中几种不同语种的词汇简单做一介绍。当然这些词汇在其他的方面也存在着不同的特征。就是这些不同来源, 不同语种的词汇共同构成了今天生动而丰富日语词汇。

摘要：日语中存在着和语、汉语、外来语这三类不同语种的词汇, 他们各自在发音、书写、文体、分布等方面有着不同的特征。本文就围绕这些不同的特征对这些不同语种的词汇做一分析。

关键词：和语词,汉语词,外来语

参考文献

基于支持向量机的语种识别篇4

语种识别技术是智能信息处理的研究热点问题之一。据统计,中国现有5000多万少数民族人口在使用本民族的语言文字[1],随着通信技术在我国少数民族地区的普及,电话已成为广大民族同胞快捷获取信息的主要方式,而本能的他们希望使用自己的语言交流。由于电话呼入具有跨地区和不可预知性,所以民族语语种识别对于电话信息服务变得尤为重要。当前主流的语种识别方法包括:并行音素识别器结合语言模型(PPRLM),基于混合高斯模型(GMM)和基于支持向量机(SVM)的方法等[2]。总体而言上述方法可以分成两类:一是基于音素识别器的方法, 如PPRLM;二是基于声学模型的方法, 如GMM和SVM。其中, SVM由于其良好的模型区分能力和理论基础,在图像识别、文本、视频处理等领域得到了广泛的应用。针对不断增加的民族语语种识别的需求和电话呼入语音来源的不确定性,考虑到性别对识别性能的影响,设计了从不同数据库中选择相应的民族语和外国语作为实验的语料数据,分别对男女声及其混合声音做了对比实验,研究支持向量机是否能忽略不同数据库以及性别的影响,得到良好的识别效果。实验分别选取了来自少数民族语电话语音数据库中的白语、纳西语和CSLU语音数据库中的英语、日语,以及两个数据库中共有的汉语普通话五种语言作为数据样本,采用SVM作为分类器,对多种声学特征及其特征融合的分类结果进行了比较。实验结果表明支持向量机在采用多种特征融合时对来自不同数据库中的样本具有较好的分类能力。

1 支持向量机

支持向量机(Support Vector Machine,SVM)是Vapnik等1995年提出的一种新型机器学习方法[3],它是专门针对有限样本情况的,根据有限的样本信息在模型的复杂性(即对训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷, 以期获得最好的推广能力[4]。

如果样本点是线性可分的,则直接对样本空间进行操作即可。若样本点不是线性可分,则首先通过一个非线性映射Ф将其投影到一个高维空间(称之为特征空间)使之线性可分,然后在特征空间中对Ф(x)操作。以下假设就用{xi}作为样本点,并设线性可分样本集为 (xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1}是类别标号。SVM选择超平面作为分类函数。在线性可分的情况下,可有多个超平面能将两类样本分开,选择其中能使得两类中离它最近的样本与它的距离最大的那个超平面,称之为最优超平面,如图1所示。

设超平面方程为(w·x)+b=0, (1)

使得

(w·x1)+b=1 (w·x2)+b=-1

[w(x1-x2)]=2

[w(x1-x2)]/‖w‖=2/‖w‖ (2)

分类函数就是g(x)=(w·x)+b。将分类函数归一化,使两类所有样本都满足|g(x)|≥1(只要样本集是线性可分的,就总可以做到),使距分类超平面最近的样本的|g(x)|≥1,这样分类间隔就等于2/‖w‖,因此使间隔最大等价于使‖w‖最小;要求分类线对所有样本正确分类,即满足

yi[(w·xi)+b]-1≥0,i=1,2,…,n (3)

因此,满足上述条件且使‖w‖最小的分类面就是最优分类面[5]。

目前经常使用的核函数主要有3类:

①多项式形式的核函数

Kpoly(x,xi)=[(x·xi)+1]q

其中,q为多项式的阶数;

②径向基形式的核函数:

Krbf(x,xi)=exp{-‖x-xi‖2/2σ2}

③S形核函数:

Ksigm(x,xi)=tanh[v(x×xi)+c]

SVM技术的关键是核函数的选取,不同的核函数对分类结果有很大的影响。上述3类核函数各有利弊,而且其参数选择也很重要,但目前SVM技术尚未得到合适的选取标准。

2 基于支持向量机的语种识别

2.1 语音样本选择

实验所采用的白语和纳西语来自少数民族语电话语音数据库, 该数据库由云南大学信息学院研制[6]。此外, 英语和日语来自语音数据联盟的CSLU语言数据库,而汉语语句有一半来自少数民族语电话语音数据库,一半来自CSLU数据库。这两个数据库中的语音均采用电话语音卡采集, 抽样频率为16kHz, 用16bit量化, 保存为.wav文件。但两个语音库采用的录制设备不一样,电话信道也有所区别。实验中我们对男声,女声和男女混合声音都分别做了实验。在做单独男女声实验的时候,我们对每种语言分别选择了16名男说话人,16名女说话人,而做男女声混合实验的时候,我们分别选取8名男说话人和8名女说话人。每人选10条语句样本, 每条语句样本长度为3秒～4秒, 每种语言共计160句作为样本数据,如表1所示。

2.2 特征参数提取

我们对所输入的语音进行语种识别,主要是通过语音的声学特征来进行的。实验对每个语句进行预处理后,用窗长30ms, 窗移10ms汉明窗进行加窗处理,提取出了MFCC(Mel frequency Cepstral Coefficients), 基音频率,第一共振峰,短时能量,韵律等5类基本声学特征及其派生特征参数。

①基音频率(F0)

基音频率是反映语音激励源的重要参数,是语音信号最重要的参数之一,尤其是对于有声调的语言。实验对预处理后的每个语句采用中心削波的自相关算法逐帧提取基音频率。

②短时能量(En)

语音信号的能量随着时间变化比较明显,一般清音部分的能量比浊音的能量小得多,语音信号的短时能量分析就是用来描述语音幅度变化的方法。

③美尔频率倒谱系数(MFCC)

MFCC考虑了人耳感知频率和音强时具有的非线性特性,被证明具有良好的识别性能和抗噪声能力,已被广泛应用于语音识别和说话人识别中。在本文实验中,对每个试验语句计算MFCC参数,提取其前12维,最后计算所有帧的MFCC平均值。

④第一共振峰(F1)

共振峰是反映声道特性的一个重要参数。实验首先用线性预测法(LPC)求14阶预测系数,然后用预测系数估计出声道特性的频率响应曲线,再用峰值检出法算出各共振峰的频率。

⑤韵律节奏

把每个语句音节数与语句发音时间的比值作为语速特征参数,统计每个语句中有声段和无声段的比例,由此得到2维的韵律特征参数,如表2所示。

2.3 SVM分类器训练与识别测试

针对实验提取的特征参数,选择基于高斯径向基函数的支持向量机,它能够准确的度量数据集上的距离,具有较好的分类效果[7];同时,实验中使用了五种特征参数集及它们的相应组合作为SVM分类器的输入。本文采用10层交叉验证的方法来训练和测试SVM分类器,实验的基本过程是: ①对语音样本集中的各语句样本分别进行特征提取,获得共800组的特征参数集,其中包含白语、纳西语、汉语、英语和日语的各16名说话人,每人采用10句语句样本的特征参数集;②选择不同的特征参数集作为SVM分类器的输入;③对得到的语音样本特征参数集分别进行10次循环训练和测试, 即每次选择15名说话人的语音样本特征参数集作为SVM分类器的训练样本, 余下的1名说话人的语音样本特征参数集作为SVM分类器的测试样本, 在10次循环中16名说话人的语音样本特征参数集依次作为SVM分类器的测试样本, 其余为训练样本。采取这种实验方法的目的是[8]:首先,在语音样本有限的条件下,能够去除系统的随机性, 提高识别系统的鲁棒性;其次,使训练和测试尽可能独立于说话人和语音样本的文本。

3 实验结果及分析

表3给出了基于不同特征及特征融合参数集的3个实验的识别结果。本实验采用的特征不仅分别用了五种单独的特征,还用到了其中两类、三类、四类、五类特征的融合(即将不同的特征同时作为支持向量机的输入)。在实验中,单独特征基音频率的识别率最高,融合特征的最高识别率达到了87.92%(四类特征融合)。从表中我们可以看出,单独特征集进行实验时,男声,女声和混合声三种实验的基音频率参数特征的识别率较其它特征都高,所以,基音频率是进行语种识别一个比较优越的特征。在融合特征中,可以发现并不是特征融合越多性能越好,五类特征融合的识别率比四类特征融合的识别率还要稍微低些,这是由于太多特征组合在一起,造成了特征数据的冗余,反而降低了识别率[9]。另外,混合声音的识别率都明显低于任何一种单独声音的识别率,这是由于男声,女声的特征参数有差异,支持向量机用超平面按语种划分混合声样本空间,比划分单一类声音(男声或女声)的样本空间要困难,因此增加了误识别率。

4 结束语

简要介绍了支持向量机原理,并构造了基于径向基函数的支持向量机用于对来自不同数据库中的语言进行语种识别研究。实验表明,在采用的不同声学特征集中,对于单个特征而言,基音频率在实验中得到最好的识别率,其原因可能是因为基音频率反映的是激励源的信息,对于不同的语种,声调语调对识别的贡献最大,所以它的识别率最高。另外,在本实验中,融合特征的识别率明显高于任意单一特征,其原因是对于语种识别而言,语言的不确定因素很多,至今为止没有找到一种特征能完全区别一种语言,所以多个特征的融合为分类提供了更多的差异信息,使其达到更好的效果。但实验结果也表明并不是融合的特征种类越多越好,融合的特征太多,导致数据冗余,反而降低了识别率。从实验中还可以看出,对于来自不同数据库中的实验数据样本,支持向量机还是可以达到较好的识别效果,但性别特征对其识别性能有一定的影响。

尽管支持向量机追求在现有有限信息的条件下得到最优结果的优点,它还有一些方面存在问题需要解决。比如,核函数中核参数的选取缺乏理论的指导,通常都是通过反复的实验,人工选取出较为满意的解。这些缺点影响了支持向量机的应用领域和效果,拓宽它的应用领域和改善它的应用效果还有待于这一模型自身的发展和完善。另外如果再增加数据库的个数,而且数据库采集的方式不一样,提取的特征参数不一样,其识别效果又会怎样,以及如何减小性别特征对识别效果的影响,这都是在今后的研究中值得探讨的问题。

参考文献

[1]中国少数民族[EB/OL].中国网:http://www.china.com.cn/ch-shaoshu/.

[2]雷文辉,宋彦,戴礼荣.一种基于层次化支持向量机的语种识别方法[J].小型微型计算机系统,2009,4(4):721-725.

[3]统计学习理论的本质[M].张学工,译.北京:清华大学出版杜,2000:96-116.

[4]朱志宇,张冰,刘维亭.基于模糊支持向量机的语音识别方法[J].计算机工程,2006,32(2):180-182.

[5]Bernhard Scholkopf.Support Vector Machines[J].IEEE IntelligentSystems,Trends&Controversies,1998(7-8):18-21.

[6]徐永华,杨鉴,陈江,等.一个面向少数民族语种识别的电话语音数据库[C].第十届全国人机语音通讯学术会议,兰州,2009,8.

[7]Sugiyama M.Automatic Language Recognition Using Acoustic Fea-tures[C].International Conference on Acoustics,Speech and SignalProcessing.Toronto,1991:423-430.

[8]徐翔俊,毕福昆,杨鉴.基于支持向量机的民族语口音识别[J].计算机工程与应用,2008,44(13):71-73.

我国外语语种的现状与需求分析篇5

建国以来,特别是改革开放以来,我国的外语教育成效卓著,为国家经济建设和社会发展培养了大批外语人才,满足了不同时期国家对外语人才的需求。目前,我国已成为外语学习的大国,学习外语的大约有3亿人。然而,我国却是一个外语资源贫国。世界上的语言约有五六千种,但我国所能了解的语言却非常有限,这种局面不利于中国走向世界,更不利于中国在世界体系各领域中获得越来越多的话语权。鉴于此,很有必要分析和探讨我国外语语种的现状和需求,使外语教育真正为国家发展服务。

1 我国外语语种的现状及存在的问题

改革开放以来,我国的外语教育呈现出一派欣欣向荣的景象。高校外语专业规模不断扩大,专业点布局更广、更全面。就目前高校开设的教学点而言,英语近1000所,日语400多所,俄语100多所,法语80多所,西班牙语50多所(戴炜栋、吴菲,2010:170-171)。开设的53种外语中有45种非通用语种,并已建立了9个非通用语种本科教学基地。到2007年,全国具有学士学位授予权的高校英语达899所,日语380所,俄语109所,法语78所,德语72所,西班牙语25所,阿拉伯语16所等(戴炜栋,2009:11)。

然而,我国在外语语种方面存在的问题首先是语种单一倾向严重。在我国的学校教育中,英语是第一外语,而且,所开设的语种仅限于英语、日语、法语、俄语、西班牙语等少数语种。而像韩语、蒙古语、越南语、阿拉伯语等对我国具有重要战略意义的语言却没有受到应有的重视。近十几年来,在中小学外语教育中,又出现了英语比例过高而其他语种被忽视的局面。学习英语与俄语的人口比例达198:1(胡文仲,2001),与学习其它非通用语种人口比例悬殊也不小。世界上的语言有五六千种,但我国经常使用的只有十来种(李宇明,2010)。这种现象虽有所改观,但力度太小,规划还不够得力(李宇明,2008)。

其次,外语语种布局不合理、不均衡。从前文列举的数据可以看出,我国高校的外语语种布局存在全局性与地域性失衡现象,尤其是通用语种和非通用语种比例差别较大,缺乏整体规划。英语专业点设立过多过快,其它通用语种发展缓慢,特别是非通用语种建设过于集中的现象有目共睹。40多个非通用语种的教学点主要在北外、北大、上外、解放军外国语学院、中国传媒大学等(戴炜栋,2008:12)。而在东北、西北、东南等真正急需非通用语种人才的地区,相应语种的确立和学科建设显得滞后。

上述这些问题得不到妥善解决,外语教育就无法满足国家日益发展变化的外语国情和国家社会经济发展的需求。

2 我国新时期对外语语种的需求

随着中国的和平崛起,中国不仅需要精通英语的人才,也需要掌握越来越多非通用语种人才。因为如果中国人只学英语而忽视其他非通用语种的话,就可能会失去大半个世界(李宇明,2007)。目前,国家的外语需求主要体现在以下三个方面。

2.1 一个国际型国家需要更多外语语种人才

世界上有200多个国家和地区,语言有几千种。随着国家开放程度越来越高,中国与世界上打交道的国家日益增多,交流与合作的领域越来越广,单一的外语语种显然不适合开放的国家需求(李宇明,2006)。因为,让世界了解中国,减少误解和冲突的最好途径之一就是用越来越多的语言介绍真实的中国。同时,作为一个负责任的国际型大国,中国必须承担愈来愈多的国际义务,积极参与国际组织和地区组织的工作等。而参与国际事务和游戏规则的制定,需要既懂得国际事务又精通外语的高质量人才来支撑。

2.2 外语语言服务或外语生活需要更多语种人才

中国的国家形象的改变、国际地位的提升使越来越多的外国人渴望了解中国,渴望来中国学习、工作、旅游甚至定居。在中国召开的大型国际性会议如奥运会、世博会、商贸洽谈会、学术交流会等也越来越多。这些都需要中国提供多语种的外语服务,涉及对大批涉外从业人员的语言培训。另外,出国旅游、留学、工作等的中国人也会越来越多,这也需要学习相应语言。

2.3 中国国际性程度需要多语种外语人才支持

20世纪90年代中后期至今,我国与周边国家关系日益改善,在政治、经济、贸易、文化等领域的交往日趋频繁和密切,这种密切交往必然需要有相应的外语人才的支撑。如地处东北亚窗口的东北三省尤其需要俄语、日语和韩语人才;新疆等地需要掌握俄语和中亚五国语言的人才,而西南地区则需要大量掌握东盟国家语言的人才,如越南语、泰语、老挝语、缅甸语和柬埔寨语等。此外,和中国在政治、经济、文化等方面往来密切的国家越来越多,其中有不少都不是英语国家。因而,中国的外语视野也应该随着国家的开放程度的增大而变得无限广阔。

3 对外语语种规划的构想

为了适应中国不断变化的外语国情,国家有关部门应在科学论证、仔细研究的基础上,合理规划和布局我国的外语语种。对此,我们有以下设想。

3.1 建立一个统筹和部署全国外语教育的专门机构,规划全国范围内的外语语种设置和区域划分等。外语语种单一和布局不合理的原因之一就是国家长期以来缺少一个专门机构统一规划和管理全国范围内的外语种类和区域划分。近年来,国内相继成立了“中国语言战略研究中心”、“中国外语战略研究中心”等学术团体和研究机构,这标志着我国政府和学术界已认识到语言对国家经济建设和社会发展的重要战略意义。然而,这些语言研究机构并不是管理和规划国家外语教育教学的专门机构。

3.2 在改变外语语种单一化问题上,我们可以在借鉴美国“关键语言”(王建勤,2010)经验的基础上,充分利用边疆地区优越的语言环境和文化环境,将周边国家的语言优先确立为国家的关键外语。我国疆域广阔,邻国不少,地处边境地区的各民族居民在与邻国进行商贸、旅游,甚至通婚等往来活动中可以潜移默化地学习邻国语言。同时,我国边疆地区的跨国、跨境民族不少,大约有30个,他们与其邻国之间相同或相近的民族文化能够为我国边疆地区居民学习和研究邻国语言提供天然的文化环境(李雪岩,2007)。另外,在确立关键外语之后,可以再根据国家发展需要,逐渐拓宽和延伸学习与研究其他国家和地区语言文化的范围。

3.3 要科学规划、统筹布局外语区域划分。首先可以利用东北、西北、西南边疆地区得天独厚的语言和文化环境,确立这些地区的优势外语和相应的重点外语学科,为国家培养和储备掌握周边国家语言的外语人才。如在东北可重点建设俄语、日语、朝鲜语等外语学科;在西北的内蒙古、甘肃、宁夏等地可重点建设蒙古语、俄语等外语学科;在新疆可重点建设俄语、蒙古语、以及中亚五国语言等外语学科;在西藏可把印度的几种重要语言作为重点学习对象,如印地语、乌尔都语、旁遮普语等,当然,也不能忽视尼泊尔、不丹等国家的语言。而在云南、广西等地可把东盟国家的语言作为主要语种来建设。其次,可在我国靠近边疆地区的省区进行外语优势资源延伸,逐渐确立非边疆地区的重点外语学科,以保障全国范围内各省区拥有各自的重点外语学科。而且,在确立各地区的优势语言时,应遵循培养通用语种和非通用语种人才两不误的原则。再次,在一些经济发达或国际化程度较高的北京、上海、广东、深圳等地,可充分利用外国人学习、工作、旅游以及定居等为当地带来的外语资源,重点为国家培养和储备既精通外语又具有外交、经济、金融、军事、贸易、科技等才能的高端型外语人才。

4 结束语

国家的全方位开放和经济的飞速发展不仅需要越来越多通用语种人才,更需要越来越多非通用语种人才。外语语种单一倾向和不合理的外语布局与新时期国家的外语需求之间差距不小。关键外语的确立、语种比例的设置和区域规划需要国家教育主管部门的统筹规划和均衡布局。

摘要：我国的外语教育存在语种单一倾向和语种布局不均衡现象,外语语种的这种现状无法满足新时期我国的外语需求。国家急需对外语语种进行规划和布局。

关键词：外语语种,外语需求,外语规划

参考文献

[1]戴炜栋.高校外语专业教育发展报告[M].上海:上海外语教育出版社,2008.

[2]戴炜栋.我国外语专业教育60年:回顾与展望[J].中国外语,2009,(5):10-15.

[3]戴炜栋,吴菲.我国外语学科发展的约束与对策[J].外语教学与研究,2010,(3):170-175.

[4]胡文仲.我国外语教育规划的得与失[J].外语教学与研究,2001,(4):245-251.

[5]李雪岩.中国外语教育品牌战略思考[J].太原师范学院学报,2007,(1):40-42.

[6]李宇明.中国的话语权问题[J].河北大学学报,2006(,6):1-4.

[7]李宇明.多元文明碰撞中语言的流变、认同与保护[N].中华读书报,2007-9-19(3).

[8]李宇明.当今人类三大语言话题[J].云南师范大学学报,2008,(4):21-26.

[9]李宇明.中国外语规划的若干思考[J].外国语,2010(1):2-8.

语种和台名的辨别方法探析篇6

关键词：语种,台名,辨别方法

0 引言

监测台24 小时的值班工作必须进行广播质量和效果的监测, 并且大部分监测台都承担着中国国际广播电台的质量监测任务, 只有过硬的语言功底, 才能准确的判断语言是否错播;此外, 频谱收测工作对语言和台名的要求更高, 如何快速准确地辨别上百种境外广播电台和语言, 是广电监测人员一直以来探讨的话题。作者根据自己多年来的工作经验以及在岗位练兵竞赛中的心得体会, 谈一谈语言台名的辨别方法。

1 掌握各种语言的服务区和台名的归属

每种语言都有特定的服务区, 如果只能够辨别某种语言或者台名, 却说不清楚语言被哪些国家所使用或者电台是哪个国家开播的, 即使掌握了语言台名的辨别方法, 也是没有任何意义的。所以熟练掌握语言的服务区和台名的归属是掌握语言和台名辨别的前提和基础。

要掌握语言的服务区, 首先要具备较好的世界地理知识和一定的历史知识。以中国国际广播电台为例, 现在使用四十多种语言对外播出, 通常一种语言的服务区是一个地区的一个国家或相连的几个国家, 比较容易记忆, 比如阿尔巴尼亚语、缅甸语、捷克语等语言的国际台服务区都是相对应的国家。但也有特殊情况需要特别注意, 比如葡萄牙语的服务区是葡萄牙、拉丁美洲和南非, 意大利语的服务区是意大利和东非, 西班牙语的服务区是西班牙和拉丁美洲, 查阅资料就可知道, 这些语言的服务区横跨了国家甚至大洲, 这都是历史原因造成的, 如果了解历史, 记忆服务区就不是难事了。还有些语言的命名跟国家没有什么关系, 比如豪萨语、波斯语、普什图语等, 查阅资料就会发现豪萨语是由非洲的起源豪萨人而来, 波斯语来源于古波斯民族, 普什图语归功于普什图族的普什图人, 所以了解语言的文化背景对服务区的记忆也很有帮助。

台名的归属问题在监管中心的《频谱台名和语言规范》中有详细的说明, 如表1 所示。研究方法主要是通过查阅《世界无线电手册》和网络资料进行确定。每一个电台的开播以及播音内容都有它特殊的历史背景, 同语言的服务区相似, 了解电台的历史背景会有助于记忆电台的归属。

2 语言辨别方法

2.1 掌握语系知识

单纯的学习语言辨别方法, 效果不是很好, 若能在掌握一定语系知识的基础上, 总结和积累语言的特点, 再不断加以练习, 会对提升语言辨别能力有很大帮助。

世界上比较公认的语言系属分类是将世界的语系分为7 大类:印欧语系、汉藏语系、阿尔泰语系、闪含语系、德拉维达语系、高加索语系和乌拉尔语系[1]。以印欧语系为例:印欧语系是最大的语系, 下分印度、伊朗、日耳曼、拉丁、斯拉夫、波罗的海等语族。印度语族包括梵语、印地语、巴利语等。伊朗语族包括波斯语、阿富汗语等。日耳曼语族包括英语、德语、荷兰语、斯堪的纳维亚半岛各主要语言。拉丁语族包括法语、意大利语、西班牙语、葡萄牙语和罗马尼亚语。斯拉夫语族有俄语、保加利亚语、波兰语。波罗的海语族包括拉脱维亚语和立陶宛语[2]。

根据语系将语言进行分类后, 因不同语族的语言特点相差较大, 相同语族的语言特点较为接近, 所以可以方便地对语言进行分类记忆。比如斯拉夫语族的俄语、保加利亚语和波兰语听起来很相像, 又与拉丁语族的语言有很大差异。比如听到斯拉夫语族的某种语言, 即使一时没有分辨不出具体是何种语言, 但是首先就能判断出来是斯拉夫语族, 这就为辨别语言种类缩小了范围, 大大提高了语言辨别的准确度。

2.2 掌握语言特点

可以根据自己记忆的习惯, 将语言按照大洲、民族或语系进行归类, 以便分类记忆。以中国国际广播电台所播语言为例, 作者按照自己的习惯将语言分类为:东亚语言 (日语和朝语) 、东南亚语言 (缅甸语、菲律宾、马来西亚语、印尼语、柬埔寨语、越南语、老挝语、泰语、柬埔寨语) 、南亚语言 (尼泊尔语、印地语、乌尔都语、孟加拉语、僧伽罗语、泰米尔语) 、西亚语言 (波斯语、普什图语、土耳其语、阿拉伯语) 、南欧语言 (匈牙利语、阿尔巴尼亚语) 、非洲语言 (豪萨语、斯瓦西里语、阿拉伯语) 、斯拉夫语系 (俄语、保加利亚语、波兰语、捷克语、塞尔维亚语) 、拉丁语系 (法语、意大利语、西班牙语、葡萄牙语、罗马尼亚语) 、民族语言 (乌兹别克语、蒙语、哈语、维语、藏语) 、方言 (客家话、厦门话、广州话、潮州话) 。

在进行语言辨别时, 要注意掌握每种语言的发音腔调、语速快慢、节奏强弱等方面的特点, 其中发音腔调是最重要的, 还要注意语言中出现概率较高的一些特定发音。因篇幅所限, 对于较易辨别的语言特点不再一一列出, 重点谈一谈较难辨别的语言, 比如马来西亚语和印尼语、泰语和老挝语、印地语和乌尔都语、保加利亚语和波兰语、西班牙语和葡萄牙语。马来西亚语与印尼语很相似, 但是发音没有印尼清脆, 卷舌音很少或没有卷舌音, 马来西亚语“中国”的发音是“几那”, 印尼语“中国”的发音是“定国”;泰语和老挝语相似度也很高, 区别是泰语语调更软, 语速更慢, 并且有很明显的拖音;乌尔都语与印地语相比, 尾音平稳, 无鼻音并且语速更快;保加利亚语和波兰语都属于斯拉夫语系, 跟俄语很相像, 但是保加利亚语的“夺”音很多, 波兰语的“坡罗”、“坡离斯诶”音频率很高;西班牙语比葡萄牙语清脆, 卷舌音明显且更长, 西班牙语“斯熊的”音较多。

2.3 语言辨别练习方法

最开始学习语言辨别时, 可以首先练习准确度, 当准确度较高时, 再练习辨别速度。

要练习准确度, 可以利用我们已有的较多版本的国际台语言练习材料, 根据语言特点, 做到将每一种语言都能够准确的辨别出来, 很多同志会觉得达到这样标准比较困难, 这时可以放慢学习速度, 将自己难以分辨的语种逐渐筛选出来, 多加练习, 直到熟练掌握。此外, 可以通过查找数据库频谱资料练习准确度, 我台当前使用的是频谱录音监测系统, 可以充分利用保存的录音文件进行练习, 方法是:打开全景系统数据库表“pinpu_measure_res_tab”, 将该表复制到excel, 如图1 所示。筛选出难以分辨的语种, 打开录音文件链接即可进行反复收听。练习准确度, 还可以利用RMC-01 中短波广播监测系统, 在新频率报警模块有不少外语节目, 收听的同时通过查找频谱资料进行确认, 逐渐增强辨别的准确度。

达到了一定的准确度, 就可以练习辨别速度了, 可以将语言进行拆分, 比如将一段音频文件利用软件拆分成几段, 达到无论是播放哪一段语言都很够准确快速的进行辨别;此外, 可以通过竞赛的形式提高辨别速度, 我台在准备岗位练兵竞赛前, 利用软件“零度网络抢答器”分组进行抢答, 如图2 所示, 提高速度的同时锻炼了选手的实战经验, 取得了较好的效果, 实践证明效果的确较好, 我台竞赛选手的语言台名实际辨别水平有了大幅度提高, 鉴于此, 在平时的速度练习中, 也可以采取此法, 提高辨别的速度。

3 台名辨别方法

每个电台的开始曲和报台方式都是独一无二的, 要熟练辨别台名, 记住开始曲和报台方法很重要。

3.1 谱曲法记忆开始曲

有读者会说, 我没有一点音乐基础, 更别说谱曲了。我在此指的谱曲其实没有多么高深, 举个例子大家就清楚了, 比如, 希腊之声电台, 可以这样谱曲“希腊希腊希腊腊”, 也就是将真正的台名哼唱到音乐节奏中去, 这样很容易就记住了曲调, 同时也记住了台名。

3.2 掌握台名的常用语种报台方法

使用谱曲法很容易记忆台名, 有的同志说自己五音不全, 谱曲法不适合自己, 那就可以通过掌握报台方法记忆台名。不同的电台使用不同的语种播音, 报台方法也各不相同, 其中英语报台是最容易掌握的。此外, 至少还要掌握该电台的该种语言报台方法, 仍以希腊之声为例, 即要掌握希腊语报希腊之声的报台方法, 希腊之声的其它语种的报台就要靠平时工作的不断积累、总结和完善了。

4 结束语

新技术日新月异, 但自动化程度毕竟有限, 很多语言和台名还是需要人工加以辨别, 文章主要谈的是怎样练就快速辨别语言和台名的方法, 当然, 在实际工作中, 特别是在频谱收测工作中, 还可以通过查阅《无线电手册》、频谱资料和网络资料的方法加以辨别。总之, 广播电台语言和台名的识别是开展广播监测业务所必须掌握的基本功, 广电监测人员只有熟练掌握这一基本功, 才能保证监测任务顺利地完成。

参考文献

[1]陈德泽.广播电视监测技术[M].北京:中国广播电视出版社, 2008年.

基于LPCC的多语种识别算法篇7

现代社会随着对多语种的语音识别/理解系统研究活动的增加,语种识别问题也受到各种领域的广泛关注,具有很重要的应用。在多语种信息服务中,语种识别系统可作为一个前端处理,预先区分用户的语种,以提供不同语种的服务。随着信息时代的到来以及国际因特网的发展,语种识别将越显示其应用的价值。

语种识别研究是从语言中的词汇开始的。虽然任何一种语言都可以单纯地通过自己的词汇就能区别于其他的语言,但是利用每种语言的词汇知识还需要有句法和语义的知识和所发音的主要连接词来作帮助。要把多语种的庞大语言学专业知识进行搜集、组织,并合并入语种识别系统中是很困难的;并且对这些信息进行计算来识别所说的语言也是不现实的。因此,人们把语种识别研究的目光转向主要利用语言间不同的语音特征上来。

在语种识别技术中,可以采用多种识别方法,例如离散/连续HMM、混合高斯分布模型等。在本文中则采用语音信号的线性预测倒谱系数的特征进行语种的识别。

1 语种识别的理论依据

1.1 语音信号的特征

语音的声学特征信息是语种识别时非常重要的判别信息。语音的声学特征与高等级的语言规则(如词法、句法等)可以认为是相互独立的。因此,可以对不同语种分别建立独立的声学模型和语言模型。在语种识别中,所应用的声学特征信息可以大体分为音位信息和韵律信息2个方面。连续的说话声音(音素)包括音位信息。一段口语发音的基频、强度、节奏、时长变化包含了韵律信息。

不同语言的口语发音的音位特性可能有很大的变化。有各种各样的音位特性能帮助决定一种语言的个性,这些特性在一种语言中包括音素集、音位结构约束和特定音素的声学实现等。例如,日语有严格的音位结构约束,禁止辅音后面跟辅音,而英语则有宽松的约束,允许多种辅音连续出现。

语言的韵律特征变化也是很大的。在口语发音的韵律结构中,基频、音段时长和话音强度是重要元素。在不同语言中,这些元素被结合到发音的韵律结构中的方式将会有所变化。语言中的这些变化可以通过韵律特征的实现被观察到,这些变化决定了一段发音中包括的节奏、音调和重音等特征。在声调语言中,如汉语,基频轮廓和音素持续时间被用来决定一个音调所依赖的特定音素,用特定音素来改变音调可能使音素所属词的词义完全改变。在声调语言中,基频和音段时长对音调类型具有很强的依赖性,并且具有相关的概率分布。

1.2 语音信号的产生原理

根据人说话的原理,肺部排出的气体通过气管后向上经过喉、声道和嘴,发出各种声音。图1的物理模型可以作为语音产生过程的物理近似。

语音信号可以看作是声门激励信号和声道冲激响应信号的卷积。声门激励信号的不同来自于每个人的声带的不同。而在与说话人无关的语种识别中,声道形状决定了语音信号中所发音的信息,这是语种识别中需要的信息。

为了把声门激励信号从语音信号中去掉,应首先把它与声道冲激响应信号分离。可以求取语音倒谱特征参数,它可以通过同态处理来实现。同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。对语音信号进行解卷,可将语音信号中的声门激励信号与声道冲激响应分离开来。

语音信号的线性预测倒谱参数(LPCC)属于倒频域上的语音特征。它就是利用了同态处理的算法将语音的声道冲激响应提取出来。

2 语种识别试验步骤

2.1 语种识别的实现步骤

语种识别的实现步骤如下:

① 从标准语音库中选择的不同语种语音,提取语音的特征参数——22阶LPC倒谱系数;

② 对多帧特征矢量进行矢量量化,选择每个语种的特征重心,并建立各语种的参考模板;

③ 提取测试语音的特征参数,进行矢量量化;

④ 通过欧式距离最小准则寻找与参考模板最佳匹配的语种,作为测试的结果输出。

2.2 线性预测分析

要寻找LPC倒谱系数,需要首先做语音信号的线性预测分析,得到线形预测系数,再通过叠带算法求取语音信号的线性预测倒谱系数(LPCC),作为区分不同语种的语音特征参数。

根据对发声器官和语音产生过程的了解,可以用一个源-滤波线性系统来模拟语音发音器官。而声道特性可以用一个全极点模型来模拟。

采用全极点模型,辐射、声道以及声门激励的组合谱效应的传输函数为:

$Η (Ζ) = \frac{G}{1 - \sum_{i = 1}^{Ρ} a_{i} Ζ^{- i}}$ 。

式中,P为预测器阶数;G为声道滤波器增益。由此,语音抽样s(n)和激励信号e(n)之间的关系可以用下列的差分方程来表示:

$s (n) = G e (n) + \sum_{i = 1}^{p} a_{i} s (n - i)$ 。

上式表示语音样点间具有相关性,可以用过去的样点值预测未来的样点值。对于浊音,激励e(n)是以基音周期重复的单位冲激,对于清音,e(n)是白噪声。

线性预测分析的基本思想是:用过去p个样点值来预测现在或未来的样点值:

$\tilde{s} (n) = \sum_{i = 1}^{p} a_{i} s (n - i)$ 。

式中,ai称为线性预测系数。从而p阶线性预测器的系统函数具有如下形式:

$Ρ (z) = \sum_{i = 1}^{p} z^{- i}$ 。

对语音的LPC分析即对线性预测系数ai的求解过程,即给定语音序列,使预测误差在某个准则下最小,得到最佳估值ai,这个准则通常采用最小均方误差准则。某一帧内的预测误差为:

$ε (n) = s (n) - \overset{⌢}{s} (n) = s (n) - \sum_{i = 1}^{p} a_{i} s (n - i)$ 。

短时平均预测误差定义为:

$E {ε^{2} (n)} = E {[s (n) - \sum_{i = 1}^{p} a_{i} s (n - i)]^{2}}$ 。

为使E{ε2(n)}最小,对ai求偏导,并令其为零,有

$E {[s (n) - \sum_{i = 1}^{p} a_{i} s (n - i)] \cdot s (n - j)} = 0 ‚ j = 1, \dots, p$ 。

通过自相关法可以得到关于ai的一组线性方程组,对方程组进行求解得到线性预测系数。

2.3 LPC倒谱系数

倒谱本来应该是信号Z变换的对数模函数的反Z变换,一般通过信号的傅里叶变换取模的对数,再求反傅里叶变换得到。既然线性预测分析是一种谱估计方法,而且其系统函数频率响应反映声道的频率响应和被分析信号的谱包络,因此用log(H(ejω))作反傅里叶变换求出倒谱系数,应该是一种描述语音信号的良好参数。主要优点是它比较彻底地去掉了语音产生过程中的激励信息,主要反映声道响应,而且往往只需十几个倒谱系数就能较好地描述语音的共振峰特性,因此在语音识别应用中获得了较好的效果。

基于LPC分析的倒谱存在一种非常简单有效的递推求解方法。得到了线性预测系数,可以用下述递推公式求得相应的倒谱系数(LPCC):

$\begin{array}{l} h (1) = a_{1}, \\ h (n) = a_{n} + \sum_{k = 1}^{n - 1} (1 - \frac{k}{n}) a_{k} h (n - k), k < n \leq p, \\ h (n) = \sum_{k = 1}^{p} (1 - \frac{k}{n}) a_{k} h (n - k), n \geq p 。 \end{array}$

式中,{a1,a2,…ap}为LPC系数;h(n)为得到的线性预测倒谱系数。

2.4 矢量量化

应用矢量量化技术对语音的特征矢量进行处理,这是由于在对语音信号处理过程中计算量太大,进行矢量量化的目的在于建立每种语言的声学模型,并且减少计算量增加识别效率。前面提到,每一帧语音信号可以用所提取的M个LPCC系数来表示,这就是一个M维特征矢量。用矢量量化方法对这些特征矢量进行聚类,每一类相当于一帧典型的语音,即一个类音素。类音素的个数一般取256,就可以较好地描述任意语音过程。同一语言的类音素组成了这种语言的声学模型。

矢量量化就是把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替,或者叫做被量化为这个代表矢量。矢量量化可以有多种方法,包括K-均值法和LBG算法。

通过对比仿真试验的结果,本文选择K-均值的量化方法,一方面运算量较小,另一方面,这种矢量量化的方法得到的码本用于测试时的识别正确概率更高。

3 语种识别仿真实验

3.1 语种训练模型

语音的训练数据和测试数据是从标准语音库中选择的,语音的特征参数采用22阶LPCC系数。分别对日语、英语、韩语、法语、德语和汉语进行实验,首先对6种语言的训练数据进行特征提取,然后采用K-均值法对6种语言建立参考模板。测试时,对待识别语音提取22阶LPCC系数,并矢量量化后与6种语言的参考模板进行比较,得到失真最小的模板所对应的语言作为判定语言。其识别系统如图2所示。

3.2 语种识别测试

试验中分别以一帧为单位长度和以数帧语音段为单位长度来进行实验和比较,来观察输入语音帧长度的大小与识别率之间的关系。

将一段测试语句经特征参数提取处理得到一连串测试特征矢量{x1,x2,…xN},接着进行语种识别测试,即将测试矢量输入矢量量化判决器,对语言库中的参考码本作完整的搜寻,找出语言库中码本与测试矢量距离失真最小的码字,输出语言库中此码本所对应的语种。

分别选择帧长为1 s、2 s和4 s进行语种识别试验,表1和表2中分别给出了当帧长为2 s和4 s时的语种识别结果,分别选择100帧(表1)和50帧(表2)无噪声标准语音作为训练语句,分别对100帧(表1)和50帧(表2)无噪声语音进行测试。从试验的结果也可以看出,当选择不同的帧长用来计算LPCC参数时,得到识别概率不同,当选择的帧长较长时,不仅包含了语言的音素特征,还完整的包含了语言的韵律特征,所以识别概率会增加。

4 结束语

本文讨论了一种基于LPCC的语种识别方法,对每种可识别的语种,通过在特定环境下计算其特征矢量得到训练向量,并通过矢量量化的方法得到此语种的特征重心,每一种可识别的语种都可以由这组特征矢量唯一刻画。对测试语音的识别建立在匹配模板的基础上,最大的匹配函数值对应的语种就是识别的结果。

语种识别的方法多样,相对于传统的PPRLM方法,或基于词图/音素的语种识别方法,本文采用的方法相对较简单,不用建立和利用复杂的语言模型,识别过程建立在语音信号的表示级上,更适用于工程化的实现。

实验结果表明,对于标准语音库中的信号,基于LPCC的语种识别方法用于训练和测试的单位帧足够长时,识别正确率可以达到85%以上。上面实验的统计结果可以看出,系统识别率的高低与用于训练和测试语音的单位帧长有关。另外汉语识别的正确概率最大,其次是英语;而德语、法语和韩语会出现混淆。

摘要：语种识别是多语种信息服务和机器翻译等处理任务的必要预处理过程。提出了基于线性预测倒谱系数的多语言识别系统,由于LPCC属于倒谱域的语音特征,能够比较简单地分离开语音信号中的声门激励信号与声道冲激响应,所以系统中选择使用LPCC作为特征参数,并使用K-均值的矢量量化方法进行聚类得到训练的初始码本。通过对不同帧长的测试,得到选择较长的帧长时可以获得较好的识别概率的结论。

关键词：语种识别,LPCC,矢量量化

参考文献

[1]杨行峻,迟惠生.语音信号数字处理[M].北京:电子工业出版社,1995.

[2]胡光锐,韦晓东.基于倒谱特征的带噪语音端点检测[J].电子学报,2000,28(10):95-97.

[3]张贤达,保铮.通信信号处理[M].北京:国防工业出版社,2000.

【语种设置】推荐阅读：

小语种专业08-02

小语种信息10-12

区域性小语种10-19

多语种网站论文07-07

小语种人才培养论文06-24

“通用”小语种人才市场10-23