词汇学知识点总结(精选6篇)
词汇学知识点总结 篇1
词汇学期末复习
1.In brief, a word may be defined as a fundamental unit of speech and minimum free form;with a unity of sound and meaning(both lexical and grammatical meaning), capable of performing a given syntactic function.2.The morpheme(词素)is the smallest meaningful linguistic unit of language, not divisible or analyzable into smaller forms.Example: One morpheme: nation Two morphemes: nation-al Three morphemes: nation-al-ize Four morphemes: de-nation-al-ize 3.An allomorph(词素变体)is any of the variant forms of a morpheme as conditioned by position or adjoining sounds.For example: go: went, gone-ion/-tion/-sion/-ation are the positional variants of the same suffix.4.Inflectional affixes(曲折词缀)
Affixes attached to the end of words to indicate grammatical relationships are inflectional, thus known as inflectional morphemes.For example: cats, walked, walking, John’s book„ 5.Derivational affixes(派生词缀)
Affixes added to other morphemes to create new words.They can be further divided into prefixes and suffixes.For example: re+write, mini+car, work+er 6.Connotative meaning(内涵意义)
In contrast to denotative meaning, connotative meaning refers to the overtones or associations which a word suggests or implies.Mother(a female parent)is often associated with ‘love’, ‘care’, ‘tenderness’, ‘forgiving’, etc.Home(a dwelling place)may suggest ‘family, warmth, safety, love, convenience’, etc 7.Stylistic meaning(文体意义)
Words may have stylistic features, which make them appropriate for different contexts.Examples: male parent, father, daddy ;
residence, home, pad 8.Affective meaning(情感意义)
Affective meaning indicates the speaker’s attitude towards the person or thing in question.Words that have emotive values may fall into two categories:
Appreciative or commendatory(褒义): words of positive overtones used to show appreciation or approval.eg: love, cherish, prize, admire, worship, charm.Pejorative or derogatory(贬义): words of negative connotations imply disapproval, contempt or criticism.eg : hate, vicious.9.Collocative meaning(搭配意义)
Collocative meaning consists of the associations a word acquires in its collocation.In other words, it is that part of the word meaning suggested by the words before or after the word in discussion.eg:pretty: girl, woman, flower, etc.handsome: boy, man, car, etc.10.a)Radiation辐射型:
It is the semantic process in which the primary meaning stands at the centre and the secondary meaning radiates out of it.Though all the secondary meanings are independent of one another, they can all be traced back to the primary meaning.face
head
11.b)Concatenation 连锁型:
It is the semantic process in which the meaning of a word moves gradually away from its primary meaning in succession so that the present meaning seems to have no connection to the primary meaning.E.g.candidate:
1)white-roped 2)office seeker in white gowns 3)a person who seeks an office 4)a person proposed for a place, award, etc.12.Linguistic context can be subdivided into lexical context and grammatical context.a)lexical context: refers to the lexemes that co-occur with the word in question.The meaning of the word is often affected and defined by the neighbouring lexemes.E.g“paper” : a term paper,today’s paper ;“do ” : do one’s teeth: brush,do fish: cook.13.b)grammatical context: In some cases, the meanings of a polysemant may be influenced by the structure in which it occurs.E.g.“become”
become + adj./n., means‘begin to be’
become + pron./n., means ‘suit, befit’
become + of, means ‘happen to, often in a bad way’ 1.Causes of changes in word meaning 1)historical cause :It often happens that though a word retain its original form, its meaning has changed because the object it denotes has changed, this is the historical cause of semantic change.eg.pencil(from Latin word meaning)—a little tail or a fine brush, like our Chinese pen
when it was made of wood and graphite石墨,it was still called a “pencil”
2)Social cause : Change in word meaning results from a constant verbal traffic between common words and various technical words.eg.hot and cold have changed their meaning in the field of politics, as in “cold war”,” hot war” and “hot line”
3)Foreign influences : The influence of foreign words is a particularly important cause.eg.stool: any kind of seat for one person including a king’s seat
The French word chair was adopted to denote a more comfortable piece of furniture.4)Linguistic cause
Towards ellipsis 省略
a general---a general officer;uniform—uniform dress
Towards analogy 类推
Energetic(精力旺盛)—formerly meant “to operate, effect” as in “the most energetic chemicals”, now energetic means “of , having or showing energy, vigorous, forceful” as if it had been derived from energy 5)Psychological cause 1)Euphemism(委婉词):
It refers that the word changed after people use mild, agreeable language when speaking of an unpleasant or embarrassing fact and of taboo subjects as sex and the excretive processes of the body such as death can be used as ' go west'.2)Grandiloquence(夸张):
It refers to the use of long, important-sounding words for effect.The desire to upgrade or raise the social status of a position, occupation, or institution by changing its common name to one felt to confer greater dignity or importance is another psychological factor in the change of word meaning.In a sense, it is a form of euphemism.e.g.'hair stylist' was upgraded as 'hairologist' for barbers.3)Cynicism(挖苦语):
It refers that the desire to sneer(冷笑)and to be sarcastic(讽刺)cause the semantic change.e.g.sanctimonious(假装神圣)means 'devoted, holy or scared' and now means 'pretending to be very holy or pious'.2.The difference between suffixation and conversion The difference between suffixation and conversion is whether the addition of an affix is needed.Suffixation is the formation of new words by adding suffixes to stems , and mainly change the word class.They may also add attached meaning to the stem.eg: hard harden,attract attractive.Conversion is a word-formation whereby a word of a certain word-class is shifted into a word of another without the addition of an affix.It is also called zero derivation(零位派生).eg:Verb-noun conversion : a three-year wait.It is a good buy.3.The fundamental features / the character of the basic word stock基本词汇
All national character 全民性:The basic word stock denote the most common things and phenomena of the world around us , which are indispensable to all the people who speak the language.eg: rain, head,brother.Stability稳定性: They are likely to remain relatively unchanged.Productivity 能产性:They are mostly root words, means they can form new words with other roots and affixes.eg.postman, chairman, workman.Polysemy : They often possess more than one meaning.Collocability 搭配性: many of them have many set expressions, proverbial sayings and so on.eg,heart: a heart of gold, learn by heart.4..The characteristics /features of compounds 1)Phonological features e.g.Compound
Free phrase
a ’fat cat
a fat ’cat
’greenhouse
green ’house
a ’dark horse
a dark ’horse
2)Semantic features : ‘one-wordness’: every compound should express a single idea just as one word;the elements are inseparable and the change of the element would result in the loss of the original identity.3)Grammatical features :Tend to fill a single grammatical slot in a sentence.e.g.He bad-mouthed me.In adjective-plus-noun compounds, the adjective element cannot take inflectional suffixes.e.g.hot line, red tape 5.homonymy
词汇学知识点总结 篇2
1 研究设计
本研究从定性和定量两个角度来探讨控制性产出性词汇量和词汇深度知识对作文质量及其各项指标的影响。定量部分提出了研究的问题, 研究对象, 研究工具及其材料收集的过程, 定性部分通过对部分研究对象的进一步采访印证了研究结果。
1.1 研究对象
受试来自某高校英语专业二年级两个班, 共61位学生, 其中一位学生没有完成所有的测试, 故有效研究材料来自60位学生。这些研究对象在语言输入环境上存在可比性。
1.2 研究工具
1.2.1 定量研究
定量研究的测试工具为:所有学生都在规定时间内完成了一篇作文, 三份词汇测试 (一份产出性词汇量和两份词汇知识深度) 。研究过程如下:
学生首先在课堂上用35分钟时间完成了一篇题为“Will Phones Kill Letter Writing?”的议论文。之所以选择议论文是因为议论文是专业四级考试的常考题型, 且该选题贴近学生生活实际, 不涉及到任何专用术语。写作时间刚好在四级考试前夕, 学生有很强的愿望要将作文写好, 作文得分能基本代表学生的真实水平, 这也使得本研究结果更有实际意义。
所有作文收上来后被原样输进电脑中, 每位学生单独一个文档, 接着研究者首先对每位学生的作文运用Wordsmith v4.0和VocabProfile这两个词汇分析工具得到了词汇运用的各项指标的数据。接着, 两位经验丰富的英语专业教师批改了这些作文。其中一位曾多次参加全国英语专业四级作文部分的批改。作文成绩按照专业四级作文评分标准, 采用总体印象评分法, 满分15分, 学生作文成绩取两位教师国给分的平均分。若这两位教师对同一篇作文评分相差3分或三分以上, 第三位经验丰富的老师会对同一篇作文进行评分, 学生的最后成绩取三位教师的平均分 (有5位学生的作文成绩是这样得出的) 。为了确保两位老师所改作文成绩的信度, 使得研究结果更加可信, 有必要进行Spearman Coefficient Reliability的信度评估。评估显示, 两位老师的信度值较高 (r=715, S i g.=.000) , 表明可以对这些调查对象的作文成绩进行进一步的统计运算。
Nation (1990) 设计了控制性产出词汇量测试 (controlled productive vocabulary test) , 这是具有一定的信度和效度、在国外被研究者普遍采用的测量工具 (Laufer, 1998;Laufer&Nation, 1995;Meara&Fitzpatrick, 2000) , 因此, 本研究中的产出性词汇量测试采用了其中的2, 000水平词汇量测试, 2, 000-3, 000水平词汇量测试和3, 000-5, 000水平词汇量测试来有效地测量受试在不同层面上对单词的掌握程度.这种测试所需时间短。每组共有18个不完整的句子, 要求受试根据语境和所提示的开头几个字母填入合适的单词, 但词性和词形 (时态、单复数等) 必须正确, 否则不给分。这样, 产出性词汇量测试中共有54个句子, 满分为54分。
词汇深度知识的测试成绩主要由两部分构成, 25题的单项选择题和一篇含15个空格的完型填空题。测试试题是根据下列标准随机选自陈爱敏 (2002) 的专业四级模拟试题:所选题型须能考察受试词汇知识深度的某一个方面, 或词汇意义, 或词汇的句群关系或词汇的语用功能。该两部分满分为40分。产出性词汇量和词汇深度成绩全部计算出来之后, 通过聚类分析 (K2 means cluster in SPSS 11.0) 把这些学生按照两类词汇成绩水平的不同分为好、中、差3类。之所以用聚类分析是为了避免分类时可能出现的主观性。分类结果显示:高分组、中等组、低分组3组学生的人数分别为15、28、17人。
1.2.2 定性研究
定性研究部分主要采用了采访的方法, 研究者通过对其中9名学生的采访, 目的在于了解学生关于词汇量和词汇知识对他们作文及写作用词的影响, 并且试图从学生那里了解其中的原因, 以印证定量研究部分的结果。
1.3 研究问题
本研究拟回答下列问题:
1) 产出性词汇量、词汇深度知识与写作成绩和各项词汇运用指标的关系如何?
产出性词汇量与写作成绩和各项词汇运用指标的关系如何?
词汇知识深度与写作成绩和各项词汇运用指标的关系如何?
2) 产出性词汇量或词汇知识深度不同的学生, 其写作成绩和各项词汇运用指标上是否有显著差异?
产出性词汇量不同的学生的写作成绩和各项词汇运用指标上是否有显著差异?
词汇知识深度不同的学生的写作成绩和各项词汇运用指标上是否有显著差异?
3) 产出性词汇量和词汇知识深度不同的学生, 其写作成绩和各项词汇运用指标上是否有显著差异?
2 结果与讨论
2.1 产出性词汇量、词汇深度知识与作文成绩和词汇运用指标的相关性
统计显示, 产出性词汇量、词汇深度知识与作文分数呈正相关, 也就是说, 词汇量大, 词汇知识掌握得好, 那学生的作文水平得分也高。同时, 表3也表明, 这两类词汇成绩与作文中复杂词汇的使用情况正相关, 这可能是因为较大的词汇量也就意味着一定量的低频词汇, 这使得学生在写作过程中更有可能运用这些词汇。
2.2 高分组和低分组在作文成绩和作文用词指标间的差异
如表1所示。
统计表显示, 高分组在作文用词指标如词类/标志比例 (词汇丰富性指标) , 词长, 复杂词汇方面明显好于低分组。词汇量大, 词汇知识好的学生倾向于运用较长的单词。而Zip (1935) 曾说过“词长与该单词的频率成反比”, 也就是说, 单词越长, 词频越低, 因此, 我们也可以说学生所用的单词越长, 越说明学习者的词汇量大。采访中有三个被采访者认为他们在写作中故意使用较长的单词, 而其他几位则认为短小的单词在写作中更有说服力。
3 结论及启示
3.1 结论
本研究所取得的结果主要有以下三点:
首先, 通过相关分析, 发现产出性词汇量, 词汇深度知识与写作成绩存在显著相关, 而独立样本T检验结果显示产出性词汇量越大, 词汇深度成绩越好, 学生的作文分数越高。
其次, 独立样本T检验显示, 产出性词汇量较大的学生, 其作文中词汇运用就更丰富, 作文单词长度更长, 也能运用更多的复杂词汇;词汇深度成绩较好的学生在词汇变化和复杂词运用等方面优于较差的学生。最后, 通过聚类分析, 把这些调查对象根据他们两部分的词汇成绩分成好、中、差三类, 然后比较了最好组和最差组在各方面的差异。产出性词汇量大和词汇深度知识好的学生在写作成绩和复杂词方面有明显优势。
3.2 教学启示或建议
在传统的写作教学中, 词汇量在写作中的重要性是不言而喻而且也被众多教师和学者所认识到的, 但本研究发现, 词汇知识, 即词与词之间的搭配及同义词、近义词等在一篇好的作文中也起着很重要的作用。因此, 在词汇教学中, 我们英语教师不但应该注重词汇的量也应该注重词汇的质并尽量多的为学生创设运用单词的机会。而对于学生来说, 他们自己也应该主动地通过精读和泛读来增加词汇量, 拓展词汇深度知识。
参考文献
[1]Astika, G.G. (1993) .Analytical assessment of foreign stu-dents’writing.RELC Journal, 24 (1) , 61-72.
[2]Engber C. (1995) .The relationship of lexical proficiency to the quality of ESL Compositions.Journal of second language writing, 4 (2) , 139-135.
[3]Laufer, B.&Nation, P. (1995) .Vocabulary size and use:lexi-cal richness in L2written prodution.Applied Linguistics, 16 (3) , 307-322.
[4]Muncie, J.2002.Processing writng and vocabulary develop-ment:Comparing lexical frequency profile across drafts.Sys-tem30:225-35.
[5]Nation, I.S.P. (1990) .Teaching and learning vocabulary.New York:Heinle and Heinle.
英语六级口语词汇知识点讲解 篇3
B: She was up to no good, I suppose. What did shesay to you?
我猜他没有什么好事,她跟你说什么呢?
A: She said that she wanted to help me to make afortune.
她说她想帮我赚大钱。
B: What did you say? Did you fall for her fast talk?
那你怎么说?你信了她的花言巧语吗?
A: Of course not. I didn’t want to be the one used by her.
才不会了,我不会被他利用的。
知识点讲解
Fast在美国俚语中有“圆滑的,油嘴滑舌的,靠不住的,骗人的”的意思。Fast talk这个名词短语的意思即为:花言巧语。
A: Let me see. How much should I pay for you?
让我想想,我应该付你多少钱?
B: Don’t think about it!
别想了。
A: No, this will not do. Let me see.
那不行,那我想想。
B: You pay for the taxi and dinner, then even things up.
你来付出租车费和晚餐费,这样就扯平了。
A: Good ideas.
好主意。
知识点讲解
Even up是指“使得局势或竞争尽量公平合理”。
A: Maybe you are right. But in most cases I get sickof people who keep smiling.
也许你是对的,在大多数情况下,我还是讨厌那些始终微笑的人。
B: Keeping a straight face may indicate a boredom.But if you fall for someone, I’m sure you will smile toher most of the time instead of keeping a straightface in front of her.
面无表情暗示着讨厌,但是如果你迷恋上某个人,我相信在大多数时间,你一定是对她微笑而不是神情严肃。
A: I don’t have a bone to pick with you on this point. By the way, did you fall for the manager?It seems you had a crush on him.
我不想在这个问题上和你争吵。顺便问一下,你是不是迷恋上经理呢?看上去似乎你已经爱上他了。
B: Nonsense! Don’t fall for anyone.
废话,你最好别迷恋上任何人。
知识点讲解
词汇学知识点总结 篇4
注:各项词汇列表清单不可能涵盖全部技能词汇,列出部分仅供激发思考。
知识技能:
1.概念:需要通过教育或者培训才能获得的特别的知识或能力,也就是个人所学习的科目、所懂得的知识。
2.可以在下面的知识技能词汇表清单中圈出你所知道的。如有可能,用一个更具体的词来替换这里的词汇。比如,如果你圈出了“外语”这个词,根据你所掌握的外语方面的知识,你可以把它替换成“英语”或“日语”。
美学、会计、管理、农业、解剖学、声学、青春期、杂技、飞机、动物、古董、人类学、制陶术、工程学、地理、开胃食品、庆典、发动机、构造、仪器、椅子、娱乐、设备、仲裁、化学药品、建筑、教堂、高尔夫球、数学、城市、政府、艺术、艺术史、家庭、机构、气候、图表、衣服、时尚、天文学、语法、运动、颜色、肥料、原子、喜剧、电影、金融、手工艺品、儿童养育、计算机、财务记录、卫生保健、信仰、消防、化妆品、急救、历史、生物学、园艺、插花、植物学、外语、卫生、卡通、地理学、新闻业、商品、心理学、养育
自我管理技能:
1.概念:通常被看作个性品质而非技能,因为它被用来描述或说明人具有的某些特征。
活跃的─活泼的,精力充沛的 好分析的─逻辑的,批判的
精通的─娴熟的,内行的,熟练的能说会道的─善于表达的,擅长词令的 胆大的─勇敢的,冒险的艺术的─美学的,优美的 攻击性强的─强有力的,好斗的随和的─放松的,随意的 坚持己见的─强调的,坚持的 有效的─多产的,有说服力的 健壮的─强壮的,肌肉发达的 有效率的─省力的,省时的平衡的─公平的,公正的,无私的同情的─理解的,关心的 心胸开阔的─宽容的,开明的 着重的─强调的,有力的,有把握的 有条理的─有效率的,勤勉的 精力充沛的─活泼的,活跃的,有生气的 正直的─直率的,坦率的,真诚的热情的─热切的,热烈的平静的─沉着,不动摇的,镇定的进取的─冒险的,努力的 仔细的─谨慎的,小心的康慨的─乐善好施的,仁慈的 清楚的─明白的,明确的,确切的富于表现力的─生动的,有力的 聪明的─伶俐的,敏锐的,敏捷的公平的─无私的,无偏见的 有能力的─熟练的,高效的 有远见的─明智的,有预见的 志趣相投的─愉快的,融洽的 灵活的─适应性强的,易调教的 有信心的─自信的,有把握的 坚定的─不动摇的,稳定的,不屈不挠的 常规的─传统的,认可的大方的─慷慨的,无私的,乐善好施的 有勇气的─勇敢的,无畏的,英勇的 温和的─好心的,温柔的,有同情心的 有创造性的─新颖的,有创意的 吃苦耐劳的─坚强的,坚忍不拔的
好奇的─好问的,爱探究的 健康的─精力充沛的,强壮的,健壮的 慎重的─小心的,审慎的诚实的─真诚的,坦率的 谨慎的─小心的,精明的特意的─有目的的,故意的 拘谨的─矜持的,客气的忠诚的─真诚的,忠实的,坚定的 反应灵敏的─活泼的,能接纳的小心翼翼的─精确的,完美主义的 负责的─充分考虑的,成熟的 严肃的─冷静的,认真的,坚决的精明的─机敏的,爱算计的,机警的 真诚的─诚恳的,可信的,诚挚的交际的─随和的,亲切的稳定的─坚固的,稳固的,可靠的有说服力的─令人信服的
有条理的─系统的,整洁的,精确的 观察敏锐的─专注的,留心的,警觉的 头脑开放的─接纳的,客观的 有秩序的─整洁、训练有素、整齐的 独创的─创造性的,罕有的
充满热情的─狂喜的,强烈的,热心的 完全的─彻底的,全部的
可迁移技能:
1.概念:一个人能做、会做的事。比如教学、组织、说服、设计、考察、分析、搜索等等。它们可以从生活中的方方面面,特别是工作之外得到发展,却可以迁移应用于不同的工作之中。可迁移技能也是个人最能持续运用和最能够依靠的技能。执行 声称 适应 管理 装配 劝告 开玩笑 分析 预测 申请 评价 安排 评估 权衡 协助 参加 审核 美化
照顾 巩固 编辑 建设 制图 联系 选择 控制 分类 烹调 打扫 协调 攀登 培养 训练 纠正 收集 联络 着色 咨询 交流 计数 比较 创造 完成 决定 集中 设计 构成 代表 领会 运送 计算 证明 调和 探测
指导 预算 洞察 购买 发现 计算 拆除 促进 展示 喂养 证明 感受 鼓励 填充 绘制 融资 训练 调整 驾驶 装配 编辑 收获 授受 识别 忍耐 举例 估计
执行
提高 即兴表演 娱乐 追随 建立 预见 膨胀
伪造
面对 联结 保存 领导 学习搬运 倾听 装载 定位 维修 激发 养育 观察 操作 创造 制造 管理 操纵
发展 发明 诊断 生产 编程 提升 校对 保护 提供 证明 回忆 描绘 研究 解决 找回 宣扬 测量 提问
分类 测验 构成 阐述 趋向 贸易 调解 收集 列表 翻译 阅读 推理 演讲 拼写 驾驶 激励 统治 最小化 引导 处理 给予
修改 教导 指导
减少 讲述 研究 招聘
建议
测量
记忆 记录
21世纪雇主们最重视的11项技能
1、沟通能力
2、积极主动性
3、团队合作精神
4、领导能力
5、学习成绩
6、人际交往能力
7、适应能力
8、专业技术
9、诚实正直
10、工作道德
11、分析和解决问题的能力
高中英语词汇学习策略课题总结 篇5
培养学生的书面表达能力要由浅入深,由易及难,一环扣一环地进行练习。从学英语开始抓好基本功训练,对字,词,句,段, 篇章进行最基本的书写训练,为培养初步的写作能力打下扎实的基础。
二、阶段侧重,突破写作的难点
写作是一个由浅入深、由易到难的过程。因此,在教学过程中应根据学生的学情,不同的阶段、不同的年级确定不同的目标和要求。不要操之过急,更不能拔苗助长,以免学生失去兴趣。初中一年级的上半个学期,主要狠抓学生的书写,包括字母书写的规范,大小写及句末的标点符号。初一以模仿为主,先说后写,让学生抄写一些精典语句,语篇以不断培养他们的兴趣;初中二年级时练习连词成句,看图说话,句子顺序的排列,以及短文段的写作。初二是培养写作能力的关键时期,教师要循序渐进,加强指导,如单元话题写作,坚持每天记英语日记等,使学生逐步养成良好的写作习惯;初三时抓围绕一个中心写短文,或者是根据信息点写短文。初三阶段应强化写作技巧的训练,以提高写作水平和综合运用英语的能力。
三、精讲精练,提高写作的技能
在指导学生的写作中,要注重对学生进行写作方法和技巧的指导;同时要充分发挥学生的自主合作精神,开展学生互评英语作文的教学活动,不断挖掘他们自身和集体的潜力,从而大幅度提高学生的英语写作能力。
四、五技并举,提高英语的素养
在语言学习中,“听、说、读、写、译”五种技能互为支持、互为补充、缺一不可。作为最高层次的“写”,更需要有听说读译的支撑,而写又是对其他四种能力的巩固和发展。
在教学中,五种技能的训练根据不同的阶段有所侧重,并要持续地交替进行,学生的写作能力才能有效提高。
五、所做的工作
通过网络资源组织她们一起学习了英语“四位一体”教学法的理论及内容,平时利用所发的资料利用空余时间自学,并通过会议的形式研究组员进行相互讨论,深入理解,体会这一新教学法的理念。收集了与本课题有关的研究资料,学习有关中外教学理论。撰写了研究方案,进行课题申报。
在研究中我们运用调查法,调查分析了本校七年级、八年级学生的心理和学习现状,教师在写作方面的教学方式及现状及期望,根据调查情况来制定实施新的教学方式的方法。
六、成果、1、通过调查了解了学生写作的现状,和老师关于写作的教学中的问题,对于课题研究有了目的性。
2、通过学习,收集有关“四位一体”课题研究的资料,使教师了解了一种新型的教学法,转变了观念,更新了思维,深入理解了本教学法的理念,更好地指导实验教师在下一阶段的研究。
七、体会和思考
1、如何把“循序渐进、阶段侧重、精讲精练、五技并举”16字教学原则有效地运用在写作教学中。
基于机器可读词典的词汇知识抽取 篇6
词汇知识库是自然语言处理系统不可或缺的组成部分, 词汇知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。这已经成为自然语言处理研究人员和系统开发者的共识。
国外对词典知识抽取起步比较早, 而在国内, 比较成熟的工作是董振东先生的知网 (HowNet) [3], 它是一个以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的概念知识库。另外一个重要的工作是北大的中文概念词典 (CCD) [9], 它是以1997年发布的WordNet 1.6版本为基础, 一方面从结构上继承了国际标准WordNet的概念及其词汇关系, 另一方面根据汉语特点和文化习惯进行了调整, 并对WordNet自身的部分问题进行了探讨。
当前这些语义关系库的建立, 还是采用手工的方法, 工作量很大[5]。按Atkins (1995) 的估计, 大概需要100人年才能构建一个和普通词典容量一致的语义知识库[10]。如果能够引进计算机的辅助提取, 那么建立这样词汇知识体系的效率将大大提高。
本文利用机器可读词典作为资源, 所关注的是基于词典的通常意义上的词汇知识, 不针对领域或者具体任务。通过研究词汇间关系后进行知识的抽取, 使用的方法是模板提取加上统计过滤。我们的基本想法就是, 一部词典是无数语言学专家知识的沉淀和汇总, 对词语的定义在形式上往往比较规范, 所以在释义项中可能蕴含了许多候选的关系模板, 我们通过标注词典中一部分词条的释义进行分析, 提取能明显指示语义关系的模板, 来构建词头 (被释义的词) 和释义项出现的词之间的语义关系。然后根据上下文中的形态、句法等特征, 建立相应的统计模型进行结果过滤, 尽可能地去除错误的抽取结果。在应用到《应用汉语词典》中取得了良好的抽取效果。
1知识抽取模型设计
抽取流程结构如图1所示。
词典释义项中, 事先定义好的同类别的词条释义在语言描述上往往有很大程度的相似性, 由此启发, 本文采取的方法是首先对词条进行分类, 然后针对某一类别的词分别进行知识抽取。
1.1释义分类
由于词典涵盖了比较全面完整的知识, 不同的类别词典中的释义内容差异也比较大, 为了提高知识抽取的准确率, 需要对不同词性, 不同类别的词条作不同的处理。在这里我们主要参考了董振东先生的知网 (HowNet) 中的概念分类和元概念图式, 比如在本文所做的工作中, 将名词分为动物、植物、药物、疾病等等。最后将分类结果以文本的形式分类存储于本地, 并提交给系统进行后续处理。
1.2文本预处理
文本的预处理就是对词头的释义项进行预处理, 它是知识抽取流程的重要部分, 关系到知识抽取的质量, 包括分词、标注、浅层句法分析等。分词处理是由汉语的特点决定的。而句法分析的目的是确定句子的结构, 分析句子各个结构元素及其相互关系, 并构造出表示该结构的语法树。句法分析是抽取中很重要的组成部分, 但是句法分析是自然语言处理的一个瓶颈问题。针对目前汉语句法分析遇到的问题, 我们采取了一种称为浅层句法分析的方法:仅识别释义项中的名词短语、动词短语等句法成分。
1.3抽取模板
我们选出上述工作所得的分类结果中的某一类, 从中选取部分结果作为训练数据集, 采用人工分析、手工标注的方法识别出所要抽取的实体/属性/属性值等概念特征。通过标注一部分词条的释义进行分析, 生成一些抽取模板, 用于整个范围内的知识抽取, 可以获取较为理想的结果, 实验证明确实如此。
1.4知识库标注
知识库的构建是为了有效的使用, 因此知识抽取结果的合理组织、有效存储是进一步数据分析和查询使用的基础, 知识库标注要求将信息抽取结果填入模板的属性槽中, 形成知识库中的记录。在这里知识的表示框架由框架名、槽、槽名和槽值组成。
从词典中抽取出来的结果, 以结构化的数据形式存储于数据库中, 形成一个全面而内容丰富的知识库, 可以用于机器翻译、信息抽取、知识挖掘等自然语言处理方向, 以满足不同研究的需要。
2词汇知识抽取
2.1模板的生成
模板匹配 (pattern matching) 是信息抽取系统普遍采用的方法[6], 它涉及自然语言处理的相关技术和方法。知识抽取模板是对词典释义项中的知识的共性结构或语义特性的一种概括, 它提示了释义内容与词条本身内在的各种语义相关性, 定义了可识别特定信息的方法。
抽取模板被看作是由项组成的有序序列, 每个项对应于一个词 (或者词组) 的集合。设信息抽取模板为P, 则P=[#1]Item1 [#2]Item2 [#3]Item3 …… [#n]Itemn, 其中Itemi={ wi1, wi2…… wim}, (1 ≤i≤ n) , wij为词或者词组。
例如:药物的释义可以形式化描述为:
#1<“由”> (material) #2<vp>#3<“而成”>#4<“成分”>#5<“为”>#6 (component) #7<“有”>#8 (function) #9<“的”>#10<“作用”>
其中#1, #2, #3……表示一个序列, 表明描述成分的位置。<>的内容是词, 亦即指示词, () 的内容表示为抽取项。
例如:针对 (药物) 组成的模板就可以描述为:由/ps/? (*/v ) 而/c成/v
说明:- 表示一段可以忽略的内容
/-后面跟着其前词的词性 (v代表名词, n代表名词等, 因为我们是对分词标注后的结果进行知识抽取)
*-代表一个单独的词
s-表示所求知识的位置
-表示可以忽略词性和长度
() -表示该部分可选
2.2模板的生成流程
由于相同的知识抽取模板的各实例间具有相似性。因此模板可以根据相互间的相似性进行分类, 每个分类对应一个类别, 将各个类别中的模板实例进行合并就得到知识抽取模板。整个流程可分三步:模板实例创建、模板实例聚类和模板实例合并。
在模板实例创建过程中, 我们将手工标注一部分实例, 系统将对相关文档进行一定程度的处理 (切分、标注) , 收集所有的字段, 生成模板实例集 (即描述同一特征的模板的集合) 。模板实例相似度针对不同模板实例间公共子序列而定义。只要模板实例与类别中任一实例的相似度满足阈值条件, 就将其加入类中, 避免遗漏模板实例。模板合并就是通过不断地将候选模板集中两个候选模板进行合并, 得到最终的知识抽取模板。
模板合并有两个基本操作:交换和忽略。
设候选片断为p1, p2合并结果为p3
交换:p1=ABC, p2=ADC;则合并结果为:p1+p2=A (B/D) C
忽略:p1=ABC, p2=AB;则合并结果为:p1+p2=AB (NULL/C)
分别将每个候选模板集中的候选模板进行合并, 就得到全部的知识抽取模板。
3结果过滤
对于自然语言来说, 由于语言的特殊性, 因此仅仅通过模板匹配出来的结果往往是不确定的[2]。为了提高系统的有效性, 有必要采取一些统计的方法对结果进行判定, 并且去除一些匹配错误的结果。在这里我们采用最大熵的模型。
最大熵模型的实施包括两个步骤[4]:特征选择和参数估计。特征选择的任务是选出对模型有表征意义的特征, 参数估计用最大熵原理对每一个特征进行参数估值, 使每一个参数与一个特征相对应, 以此建立所求模型。特征选取本身不属于最大熵原理的内容。
3.1最大熵模型的参数估计
在自然语言处理这一随机过程中, 所有最终输出值构成了语言学类别有限集Y (在这里就是结果正确与否Y={0, 1}) 。对于每个y∈Y, 其生成受信息x的影响和约束。已知与y相关的所有信息组织成的集合为X (X是特征的集合, 即结果信息x所包含的词性信息) , 则模型的目标是, 给定文x∈X, 计算输出为y∈Y的条件概率p (y|x) 。
每个特定特征须表示成一个二值约束函数的形式。每个约束函数与特定的类别y′相联系, 并取等式 (1) 的形式, 其中cp:X→{true, false}为文本中可观察的特征。
3.2最大熵模型中的特征表示
最大熵模型可以用于自然语言处理中的许多方面, 如文本分类、文本校对等等。场合不同, 模型选取的特征也不相同, 在加入最大熵模型前, 这些特征必须先表示成二值约束函数的形式。
特征描述的是抽取信息中某区域中某特性具有的特征, 特征是一个值, 也可以是值的集合中的一个元素。我们用表1中的4种表达式将特征的表现形式统一起来。
将这4种表达式替换式 (1) 中的cp (x) 即可。
4实验结果
我们从《应用汉语词典》中全部94557条记录作为词汇知识源, 对其中名词44646条 (能够分类出的释义项, 下同) , 人工物类5898条, 药物类641条, 形容词8752条, 其中颜色196条进行了知识抽取, 共使用模板72个, 在每类中我们使用15%的内容作为训练数据, 抽取模板, 然后对剩余85%的内容进行知识抽取。表2是我们目前针对一些较为明显的特征抽取的结果。
我们的工作涉及到整个词典中数万条释义项知识的抽取, 覆盖了一定的范围, 一些知识抽取的结果是令人满意。从上表可以看出, 一些知识比如颜色类比值, 颜色类比实体, 人工物功能, 药物用途等的抽取, 说明词典的文字组织是比较严谨和具有规范性的, 易于使用模板抽取, 和我们之前的假设是相吻合的。而药物组成等一些知识由于表述方式的灵活性, 很多没有明显的指示词, 因此造成准确率低于80%。从上表还可以看出, ME对结果过滤是一种行之有效的方法, 在一些知识过滤后准确率得到了较大的提高, 比如人工物的功能和材料等属性分别提高了将近7个百分点。
5总结
研究的目的是将人类广泛使用的词典来构造内容丰富且完备的词汇知识库, 用于自动解释概念术语。在当前的汉语语义Web、本体论、按概念和语义特征的检索、分类、安全过滤、非结构化知识的自动获取等应用中, 这是一种行之有效的新的方法, 当然, 我们的工作刚刚起步, 工作还仅仅限于对名词和少部分形容词的分析和研究上, 现在分析出的结果仅限于名词的上位、材料、功能/用途等一些较为明显的常识性特征, 将来的工作将是更加困难和具有挑战性的抽取词的实体概念的完备特征 (通过词典) 和内涵特征[1] (通过特征之间的联系) , 我们希望以本文作启发, 不断的深入下去, 最终实现对整个词典的完全解析, 那时必然可以构成一个庞大而完备的语义知识网络, 从而来推动中文信息处理的研究。
摘要:越来越多的实践证明, 词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源, 首先通过对释义项进行分类, 然后基于释义分析自动生成用于抽取词汇知识的模板, 然后采用模板匹配的方法, 实现词汇知识的自动抽取。通过一种基于最大熵模型的有监督的机器学习方法, 对结果进行过滤。在应用到《应用汉语词典》中后, 取得了良好的抽取效果。
关键词:词汇知识,机器可读词典,模板抽取,最大熵
参考文献
[1]Lu Ruzhan.Intensional Logic In Chinese and Its Applications.Proceed-ings of Conference of The20th Anniversary of CIPSC, 2001.11, The Press of Tsinghua University.
[2]陈笑蓉, 秦进.基于最大熵原理的汉语词义消歧.计算机科学, 2005, 32 (5) .
[3]董振东.HowNet.http://www.keenage.com/.
[4]常宝宝.自然语言处理的最大熵模型.北京大学计算语言学研究所, 100871.
[5]保利, 陈玉忠, 俞士文.信息抽取研究综述.计算机工程于应用, 2003, 39 (10) :1-5.
[6]朱靖波, 姚天顺.中文信息自动抽取.东北大学学报:自然科学版, 1998, 19 (1) :52-54.
[7]于江生, 俞士汶.中文概念词典的结构.中文信息学报, 16 (4) .
[8]Thomas Paul O Hara2005Empirical Acquisition of Conceptual Distinc-tions via Dictionary Definitions.
【词汇学知识点总结】推荐阅读:
知识产权词汇08-23
党建知识词汇11-26
电影词汇总结10-24
核心词汇总结08-08
教育类词汇总结02-18
电缆专业英语词汇总结07-23
英文简历词汇大总结09-27
四级阅读高频词汇总结12-04
交通类英语词汇总结02-01
德语经济专业词汇总结04-02