比较与分类

2024-11-05

比较与分类(精选10篇)

比较与分类 篇1

方程对于小学生来说, 是一种新的解决问题的模型。关于这一内容, 上海版教材先安排了3个例子抽象出方程式, 再揭示概念。

教材中的例1, 一架天平两边平衡, 左盘放了两个标有“x”的物体, 右盘250克。抽象出式子:2x=250

例2, 小丁丁身高为y, 站在25厘米高的小木凳上正好与身高173厘米的爸爸一样高。得到式子:y+25=173

例3, 给出如下图:

得到两个式子:x+7=12, 3y=12

如果只是在给出几个例子之后就直接揭示等式与方程的定义, 学生的理解是肤浅的, 虽然其过程会一帆风顺, 但这样的教学显然苍白无力。正当我苦苦思索, 如何丰富本节课的教学过程时, 有机会参加了一次教学研讨活动, 教学内容是圆的认识。教学中, 教师设计了很多生活中圆的例子, 力求帮助学生更好地认识圆。课后一位专家在点评中说, 本节课给出的全部是圆的例子, 学生的理解不一定深刻, 而如果引入椭圆的例子, 通过对比, 学生更加容易建立圆的概念。受此启发, 我联想到在建立方程概念的过程中, 也可以引入一些非方程的例子, 让学生在比较与辨析中建立概念。在教学中, 我采用了两次分类与比较, 帮助学生更好地理解这一重要的数学概念。以下是我的两个教学环节。

环节一:创设情境, 抽象数学式子。

1. (课件播放) 神舟七号太空行走的画面。

师:成功实现太空行走, 这是我们中国人的骄傲, 更让我们骄傲的是, 展示国旗的航天员穿的这套航天服是由我们国家自主研制的。

呈现桶装纯净水图片, 问:如果用五桶纯净水的重量与这套航天服的重量来比较, 你觉得谁更重呢?

出示数据:纯净水每桶20千克, 航天服一套重120千克。比较的结果是______。

问:现在你能用一个式子来表示他们之间的轻重关系吗?

板书:20×5<120或120>20×5

(用活动卡片贴在黑板上, 下同)

追问:到底需要几桶纯净水才和一套航天服的重量相等呢?

大家能用一个式子来表示吗? (板书)

2.看图列式。

谁能根据这些信息列一个式子?

对于教材中的例1, 我改编如下:

(课件演示) 右盘先放100克的砝码, 天平向左倾斜, 说明什么?

用一个式子来表示此时天平的状态。2x>100

要称出物体的重量, 天平应该怎么样?那该怎么做?

右盘加100克砝码, 天平仍然向左倾斜, 2x>200

再加50克砝码, 天平平衡了, 说明了什么?

现在让你用一个式子表示此时天平的状态怎样写呢?2x=250

环节二:引导分类, 揭示方程概念。

黑板上这么多的式子, 你能想办法给它们分分类吗?

(为每个小组预先准备好与板书同样的小卡片)

学生在小组里讨论、交流, 尝试分类。

第一次分类:

学生讨论的结果一般有两种分类标准, 即:连接符号或者是否含有字母。

师:我们先来研究按照连接符号分类的方法, 请一位代表到前面来把这些卡片分分类。

按照这种分类方法, 每一类式子有什么区别呢?

中间能用“=”连接, 说明等于号的左右两边是相等的。

出示:表示两边相等关系的式子叫做等式。

(用红色粉笔圈出所有的等式, 并板书。)

第二次分类:

师:如果把这些等式再分分类, 你可以怎么分?

学生独立思考后在小组里操作小卡片。

请学生上来操作卡片, 交流分类标准。

师:前面我们学过字母可以表示数, 这里字母表示的数不知道是几, 也可以叫做未知数。引出方程概念并板书:含有未知数的等式叫作方程。

(用黄色粉笔圈出所有的方程, 相应的地方完成板书。)

问:那么究竟什么是方程呢?方程必须具备几个条件?

我的思考:

采用分类与比较的方法进行方程概念的教学, 目的是帮助学生理解概念的内涵, 区别概念的本质特征和非本质特征。在建立等式的概念时, 把不等式与等式同时呈现出来, 让学生对抽象出来的式子进行分类, 分类的过程其实就是比较的过程, 有比较才能更深刻地认识每一类式子的特点。在分类的时候, 问每一类式子有什么不同, 有什么区别, 找到不同的地方, 也就找到了分类的标准, 学生对新概念的理解也就会更加深刻。建立方程的概念时, 让学生辨析含有未知数的等式与不含有未知数的等式, 从而理解含有未知数是方程的本质属性。分别用两个不同颜色的圈子圈出等式和方程, 可以一目了然地看出等式与方程二者之间的关系。相信学生经历这样的学习过程, 对方程这个概念的理解不再肤浅, 也不只是会背方程的定义。

比较与分类 篇2

青岛版一年级数学上册《分类与比较》教学反思

老师讲解基本的分类,让学生切身体会出分类与标准之间的关系,标准不同分类的方法也不同,通过帮妈妈来整理衣服,体会出分类的标准如何来制定,但是在出现将上衣裤子的标准分类的时候不是很顺畅,分析出原因可能是由于在平时的时候,在家里分衣物的时候,很少出现将上衣和下衣分开的习惯,是不是在出示标准的时候不要一定等到出现这个标准的时候再往下,可以引导着学生先说按季节分或者其他的方法按颜色,之后学生的思维被打开后可能会出现更多的方法和标准,教师与学生的对话比较亲切和蔼,知识点的讲解十分到位,张老师按照的课的设计一步一步的进行的`十分扎实。小学生的在刚进入学校的情况下,老师并没有运用更多的时间来培养学生的上课习惯,反而在上课的时候学生表现出的状态十分令人羡慕,分析原因可能是与教师的及时评价和及时奖励分不开的,时刻将学生的注意力都集中在了教师的身上,这点是本课的亮点之一。

比较与分类 篇3

摘要本文以《新华词典》修订为实例,论述运用分类比较法,即运用计算机技术,根据各种线索或关键字词,把词典中相同类别的条目从各种排列形式中抽调出来,从释义体例、释义语言、释义元素、释义层次、配套词等多方面分别加以分析比较,找出它们之间的内部联系和异同。通过内容和形式的比较,以发现条目本身的各种问题,诸如体例不统一、释义语言不规范以及条目缺漏、重要元素缺漏、重要信息缺漏以及多余信息等问题。

关键词分类比较法配套词信息缺漏释义元素

《新华词典》是一部综合性的辞典,原来以语词为主,兼收百科,2001年修订后,增大了百科的比例,语词和百科部分篇幅基本上各占一半,成为名副其实的综合性词典。这部词典实用性很强,在同类词典中质量堪称上乘,曾获得第四届国家辞书奖一等奖,是一部很好的工具书。这次修订笔者承担了地理类条目的编辑工作。地理类在《新华词典》百科内容里条目比较多,是大地理概念,实际上它包含了天文、气象、遥感、地质、风景区、交通运输、名胜古迹、少数民族概况、中国地理、世界地理等内容。

按照传统做法,依条目排列顺序逐条审读,也就是单条孤立审读,发现的问题并不多。实际上几次修订,在百科条目方面,除了新增内容外,真正修订的幅度并不大。一方面是因为条目出自专家之手,科学性基本是有保证的;另一方面因为编辑审稿基本上采用单条孤立审读的方式,即使分类也缺乏必要的分析对比。因此,长期存在的问题往往被忽略了。

现在我们完全可以利用计算机技术,根据各种线索和关键字词作穷尽式搜索,既可把比较容易分类的条目调出来,放到一起,又可以把不容易识别的、字面特征不明显或无特征但又属于同类的条目找出来,以避免遗漏。条目之间的系统性也可以通过这种方法检索,有无缺漏一目了然,从而确定需要增删的条目;关键字词的检索,还可以帮助我们找出原来不容易找到的一些配套词,从而发现问题所在;根据一些相关概念词,发现条目释义或收词立目方面的问题。这些问题往往是隐性的,不容易被发现的。

没有比较就没有鉴别。传统方法与分类比较法的最大区别就在于前者是分而不比,单条审读;后者是在分类的前提下,重点放在比较上,让有一定内部联系的条目形成信息链,通过比较,发现这些信息链上某个环节出现的问题。比较的内容包括释义元素比较、系统缺漏比较、定位语比较、体例位置比较、层次比较、语言规范比较、多余信息比较、数字使用比较等。

比较之前,首先需要进行系统分类,传统手工分类效率低、准确性差,容易遗漏,且易受编者的知识面的局限;利用计算机技术分类,虽然也需要一定的专业知识和技巧,但基本上可以做到不遗漏、效率高,准确性有保证。我们可以利用现有信息,找出它们的共同点,进行系统分类。如:

根据条目定性语性质,抽调出包括国家名称,中国城市,中国32个省、自治区和直辖市及省会,外国城市,首都,节气,少数民族等内容的条目;

根据条目字面的显著特征抽调出包括江、河、湖、海、洋、岛、洲、山、高原、平原、沙漠、海峡、星座、盆地、宇、宙、纪、界、代、岩、石、铁路、公路、人种等字样的条目;

根据关键字词找出相关的配套词,如:全国重点文物保护单位、中国古代水利工程、中国五大淡水湖、北美五大淡水湖、中国古代四大名镇、中国佛教四大名山、比邻中国三大海域、南海中四大群岛、中国古都、八大行星(当时是九大行星)等。

这种分类检索的方法,实际上还可以起到专项检查的作用。系统是否缺漏、体例是否统一、定位语是否准确等在这里可以得到全面的检查。以下三类比较是词典修订中最为常见的问题,也是重点要解决的问题:

一、释义元素缺漏比较

释义元素缺漏的问题,在词典修订中占相当大的比例,可以说是主要问题所在。词典中有关国家、首都、城市的人口数都存在资料过老以及缺漏的问题,有的材料是1981年的,最近的也在1997年。在注释这类条目时,人口数和国家面积是重要的释义元素。但比较后发现,有的条目中,既没有人口数,也没有面积数,致使条目信息模糊。如:称德国“是欧洲人口较多、面积较大的国家”,但究竟有多少人口?面积有多大?没有交待。这就属于释义元素缺漏的情况。称美国“面积和人口居世界前列”,而没有具体数字说明,这个描述就显得没有根据。

这次抽取了20个国家名称条目,其中只有5个国家标注了人口数,分别是中国、突尼斯、新加坡、尼日利亚、俄罗斯;标注国家面积的只有两个:中国和俄罗斯。其他释义元素也有交待不全的问题,比如国家建立的时间、首都、国庆日等,这些问题必须统一解决。

江、河这类条目的释义,除注明长度外,还应交待其流域面积,在已收的21条“江”中,有14条缺漏。

介绍中国岛屿的条目,应交待具体的地理位置、面积大小、基本特点、所属省份等,外国岛屿还应交待所属国家。在介绍中国岛屿的16条中,没有介绍面积的有9条,也就是说,有一半以上的条目存在释义元素缺漏的问题。没有介绍特点的也有5条之多,占三分之一。有的介绍更加离谱,完全没有内容,已经不是释义元素缺漏的问题了。如崇明岛,是我国第三大岛,作为我国唯一的由泥沙堆积而成的冲击岛,面积约有1000余平方千米,有着独特的资源与景观,且历史悠久,唐朝时该岛已经存在,可交待的内容很多,不知何故,原作者均无考虑,只交待“在长江口,属上海市”。这样的释义显然不符合要求。类似这样的问题绝不是仅此一例。再如:“燕山,山名。在河北北部。”这里既没有海拔高度介绍,也没有走向介绍,更无特点介绍,这样的释义连基本要求都没有达到,还有什么存在的意义呢?

外国岛屿的释义同样存在类似的问题,27条中有三分之一没有交待面积,更有甚者,近三分之一没有交待所属国。外国岛屿有些介绍了其气候类型,其实这是很重要的特点,它关系到该岛屿的生存条件、经济作物的生长等,但遗憾的是,作者并没有把这一重要信息落实到每一个条目中去。

平原、高原这类条目,其海拔、面积是必不可少的释义元素,其气候类型也应在介绍之列,但原作者似乎没有注意到这些元素的重要性,仍有缺漏,中国境内的5个高原中,有3个未注明面积,外国3个高原中,1个未注明面积;11个平原中,有3个未注明面积。

介绍我国55个少数民族,宗教信仰和劳动形式应该是重点内容,原稿中只有19个民族注明了宗教信仰,13个民族注明了主要从事的劳动形式。查阅相关资料发现,几乎所有的少数民族都有自己的宗教信仰,都有自己擅长从事的劳动形式,有的甚至是我国出口某种物品的重要来源。词典学中有一种“挂一漏万”的否定规则,即具有相同属性的同类事物,放在同一背景和条件下注释,对一部分强调或肯定某属性,而其余部分未被强调或肯定,其结果就意味着对未被强调或肯定属性的这部分的否定。对作者或编者而言,上述问题可能是由于某种疏忽所致;但是读者却往往会因这种缺漏产生某种误解。以少数民族注释为例,读者就有可能认为只

有那19个民族有宗教信仰,其他少数民族没有宗教信仰;只有那13个民族从事某种劳动,其他则没有任何劳动形式的存在。因为读者的查检,往往只是针对某一条,而不是整体,这也就是词典与一般图书的不同之处。因此,释义元素的缺漏,从某种角度说,就是对读者的误导。因缺漏而造成的误导,是词典注释中最不应该出现的问题。

从上面的举例中可以看出,释义元素的缺漏在词典中大量存在,用分类比较法去检查分析,能发现很多原来不被注意的漏洞。上述问题大部分经过两次修订而未被发现,说明了传统的审读加工手段的局限。

这些释义方面缺漏的都是非常重要的信息,有,则会使词典准确性加强,实用性增大;无,则会使词典的科学性大打折扣。通过这样的对比分析,不仅能看出释义元素方面存在的问题,同时也暴露了体例上不统一的问题。发现了问题所在,就给解决问题提供了基础。

二、系统缺漏比较

系统缺漏比较,对于相对封闭固定的配套词的检查非常重要。比如24个节气,55个少数民族,32个省、自治区及直辖市,八大行星,北美五大淡水湖,中国南海四大群岛,三大海域,中国佛教四大名山等等,从收词的角度检查缺漏情况,相对较容易。因为封闭固定,缺者补其缺即可。对于那些相对松散的配套词,从实用和照应的角度检查,就显得尤为重要。不仅查缺漏,更主要的是可以提出增补的意见,弥补原来在系统收词方面的缺欠。

比如,目前词典中收录中外高原只有8条,如果从中学生使用的角度考虑,显然不够。像亚洲的中西伯利亚高原、德干高原、阿拉伯高原、小亚细亚高原;非洲的埃塞俄比亚高原、南非高原(非洲三大高原,我们只收了一个东非高原,其他两个高原也同样重要);拉丁美洲的圭亚那高原、巴塔哥尼亚高原等。这些在中学生教材中是非常重要的内容,是必须掌握的,因此,我们不能不顾及其系统性。(《新华词典》的主要读者对象是中学生及中等文化程度的读者。)如果读者对需要的内容屡查不见,就会失去查检的兴趣。这里照顾到系统性,实际上就是增强了实用性。

中国的“江”收了22条,其中“漓江”的收录显然和其他“江”不在一个层次上。从“漓江”的释义看,它是“西江”的支流;从“珠江”的释义看,“西江”是珠江的干流。可见“西江”的重要。但是,22条江却不包括西江。收漓江可能是因为它联系着桂林山水,知名度较高。但它只是西江的支流,全长仅437千米(长度在释义中还没有注出);而西江全长2074.8千米,流域面积达35.5万平方千米,是一条非常重要的河流。从收词的级别考虑,西江应属于一级条目,从词典的照应角度考虑,“漓江”、“珠江”都提到“西江”,而且是作为重要因素提到的,不收似不合适。还有一种封闭性较强的配套词比较,可以发现一些比较隐性的问题。如,根据条目注释提供的线索得知,“佛山”是中国历史上四大名镇之一,那么,其他三镇在哪里?是否收录了?带着这个问题进行检索,结果发现,其他三镇中只收了“景德镇”,但未说明是中国历史上四大名镇之一,其余两镇没有收录。这种比较分析,需要查阅一些资料,需要编辑善于捕捉线索,善于从条目释义中发现有用的信息。这是通过系统比较发现的问题,增补了这些条目,就可以基本上做到系统的相对完整和照应的相对封闭。

三、定位语比较

定位语在词典注释中常常不被重视,表述往往比较随意,这类问题也是词典修订中最需要解决的问题。分类比较法的运用,可以解决这一问题。再以“江”的释义为例:

长江:中国第一大河。

黄浦江:长江下游支流。

嘉陵江:长江主要支流。

金沙江:指长江上游青海玉树到四川宜宾一段。

岷江:长江支流。

乌江:长江支流,贵州省最大河流。

雅砻江:长江第二大支流。

在众多的“江”中,长江最重要。只说明中国大河之最,虽然不错,但不够。它还是世界第三大河,其长度、水能、流域面积、流域范围、支流情况等都位居中国众江之首。如此重要的定位语,不说明不足以显示其重要。上述诸“江”,其定位语不能算错,但从目前的释义看,严格地说,又都不符合词典注释的要求。因为,它们的体例不统一,定位语过于随意。指出雅砻江是长江第二大支流,那么,第一大支流是哪条江?没有交待。长江主要支流是不是第一大支流呢?没有说清楚,“主要”不一定就是第一。如果以黄浦江释义为基本模式的话,那么,金沙江的释义就可以这样写:“长江上游支流。”如果以乌江的释义为基本模式,金沙江的释义应该是:“长江支流,四川省大河。”孤立地看,它们的定位语还说得过去,基本上把相关属性交待了,但放到一起就反映出体例的不完善或执行体例的不彻底。这类的问题很多,无法一一列举。同类事物具有相同属性,在注释时就要考虑它们之间的内在联系,考虑在各自条目中描述这些属性的方法及口径,不能顾此失彼,更不能挂一漏万。这里恐怕要提倡举一反三、面面俱到了。

一部曾经获奖的作品,为什么还会有如些之多需要进一步完善的地方呢?其实很正常,词典就是需要不断完善,不断修订,水平才能更高,质量才能更好。我们只是用了更高的标准、更专业的眼光去衡量,去要求,所以才又看到了这些不足。所谓瑕不掩瑜,尽管《新华词典》还存在一些问题需要解决,但仍不失为一部优秀的词典。特别是在当今辞书市场比较混乱的情况下,这部词典能够长销不衰,就已经证明了它的价值。

如果分析出现上述问题的原因,我认为有三种可能:

一是对于学科性较强的类别和条目,编辑由于自身的知识缺乏而过分信赖权威作者。《新华词典》各学科的作者在所属领域都堪称权威,但学科权威不一定是词典编纂的权威,在给条目释义时,他们考虑更多的可能是每一条的准确性,却忽略词典注释的特殊性,特别是相关条目的内在联系;在体例的执行贯彻过程中,往往强调自己的主导性,弱化或忽视体例的指导性。这类问题的出现,主要责任在编辑。如果编辑工作到位,功夫做到家,是可以避免问题的出现或把问题降到最小限度的。(顺便说一下,我曾经做过《新华词典》十年的责任编辑,参与过两次大的修订,上述问题的存在,我自己也难逃其咎。)

其二,词典体例的制订不够细致完善,使作者无所适从。

第三,经过两次修订仍没有解决的问题,除去编辑水平等主观因素外,客观上说明在检查的手段和角度上也存在问题,也许这正是传统修订方法的局限性所在。

文本自动分类算法的比较与研究 篇4

关键词:文本分类,特征项,支持向量机算法,K近邻法,贝叶斯方法

1 引言

20世纪90年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩如烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。

2 分类算法

简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定

文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下:

其中,A为待分类的文本集合,B为分类体系中的类别集合。

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。

2.1 文本的表示

计算机并不具有人类的智能,人在阅读文章后,根据自身的理解能力可以产生对文章内容的模糊认识,而计算机并不能轻易地“读懂”文章,从根本上说,它只认识0和1,所以必须将文本转换为计算机可以识别的格式。根据“贝叶斯假设”,假定组成文本的字或词在确定文本类别的作用上相互独立,这样,可以就使用文本中出现的字或词的集合来代替文本,不言而喻,这将丢失大量关于文章内容的信息,但是这种假设可以使文本的表示和处理形式化,并且可以在文本分类中取得较好的效果。

目前,在信息处理方向上,文本的表示主要采用向量空间模型(VSM)。向量空间模型的基本思想是以向量来表示文本:(w1,w2,…wn),其中wi为第i个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本,最初的向量表示完全是0、1形式,即,如果文本中出现了该词,那么文本向量的该维为1,否则为0。这种方法无法体现这个词在文本中的作用程度,所以逐渐0、1被更精确的词频代替,词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF-IDF公式,目前存在多种TF-IDF公式,如下是一种比较普遍的TF-IDF公式:

其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d中的词频,N为训练文本的总数,nt为训练文本集中出现t的文本数,分母为归一化因子。

2.2 训练方法与分类算法

训练方法和分类算法是分类系统的核心部分,目前存在多种基于向量空间模型的训练算法和分类算法,本文以下具体介绍三种分类算法:

1)简单向量距离分类法

该方法的分类思路十分简单,根据算术平均为每类文本集生成一个代表该类的中心向量,然后在新文本来到时,确定新文本向量,计算该向量与每类中心向量间的距离(相似度),最后判定文本属于与文本距离最近的类,它计算新文本特征向量和每类中心向量间的相似度的公式为:

其中,di为新文本的特征向量,dj为第j类的中心向量,M为特征向量的维数,Wk为向量的第K维。

2)贝叶斯算法(Bayes)

该算法的基本思路是计算文本属于类别的概率,文本属于类别的概率等于文本中每个词属于类别的概率的综合表达式,具体算法步骤如下:

Step 1:计算特征词属于每个类别的概率向量,(w1,w2,w3……wn),其中:

计算公式与计算互信息量的公式相同

Step 2:在新文本到达时,根据特征词分词,然后按下面的公式计算该文本di属于类Ci的概率:

其中,P(Cj|θ赞)=Cj训练文档数/总训练文档数,P(Cr|θ赞)为相似含义,|C|为类的总数,N(Wk,di)为Wk在di中的词频,n为特征词总数。

Step 3:比较新文本属于所有类的概率,将文本分到概率最大的那个类别中。

3)KNN(K最近邻居)算法

该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K篇文本,根据这K篇文本所属的类别判定新文本所属的类别,具体的算法步骤如下:

Step 1:根据特征项集合重新描述训练文本向量

Step 2:在新文本到达后,根据特征词分词新文本,确定新文本的向量表示

Step 3:在训练文本集中选出与新文本最相似的K个文本,计算公式为:

其中,K值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整K值,一般初始值定为几百到几千之间。

Step 4:在新文本的K个邻居中,依次计算每类的权重,计算公式如下:

其中,x为新文本的特征向量,Sim(x,di)为相似度计算公式,与上一步骤的计算公式相同,而y(di,cj)为类别属性函数,即,如果di属于类Cj,那么函数值为1,否则为0。

Step 5:比较类的权重,将文本分到权重最大的那个类别中。

除此以外,支持向量机和神经网络算法在文本分类系统中应用也较为广泛,支持向量机的基本思想是使用简单的线形分类器划分样本空间。对于在当前特征空间中线形不可分的模式,则使用一个核函数把样本映射到一个高维空间中,使得样本能够线形可分。

而神经网络算法采用感知算法进行分类。在这种模型中,分类知识被隐式地存储在连接的权值上,使用迭代算法来确定权值向量。当网络输出判别正确时,权值向量保持不变,否则进行增加或降低的调整,因此也称为奖惩法。

2.3 考虑词序的扩展算法(The Extending Algorithm Based on Word Order)

一篇文档中常有一些词串(又称n-grams)不止一次出现,且大部分构成有序的名词短语。例如“machine learning”,“imitation game”等在A.M.Turning所著的文档“Computing Machinery and Intelligent”中多次出现。这些词串应作为整体视为文档的特征词,并且当用户仅选定词串的部分单词作为查询时,剩下的单词应该首先被提交作为用户查询的扩展信息。

短语是词的搭配信息的一种,可以被视为单词之间的一种强关联关系。一般通过数据挖掘中的技术[韩家炜2001],如APPRI-ORI算法[Fürnkranz 1998]或者统计学理论,如互信息、假设检验等方法从大量的语料库中来抽取词与词之间的搭配关系。由于目前没有大量的相关文档测试集,同时APPRIORI算法会产生大量的侯选项集,我们采用以下相对较简单的方法从文档中抽取高频的二元词串作为文档短语。

我们假定文档的短语均由实词构成,即短语中不含有停用词表中的单词,如短语“of course”就不能被看作文档短语。系统首先利用停用词表从文档中去除频率极高且与文档主题无关的词,如the,a,there等等;然后通过词频统计,将低频词(出现频率低于2)去除,剩下的单词放入一个名为Concurrence Set的集合。文档中的每个句子被视为词的有序集合,对于Concurrence Set中的每个单词t,找出紧邻它的前一个单词或后一个单词k,判断它是否属于Concurrence Set。如果k属于Concurrence Set,并且作为词t的紧邻在文档中的不同句子中出现,则可以认为词k与词t构成了文档中的一个二元短语。

因此,利用词与词之间的有序关联与共现关系,可以较全面地反映一篇文档的主要观点,快速确定相应的类别,有助于新文档的分类,并且能够帮助用户方便地了解文档的主要内容,这一方面从一个侧面反映了用户的搜索兴趣,另一方面帮助用户确定检索领域。在本文中,笔者充分考虑词序关联与共现关系,提出了考虑词序的扩展算法,简写为Eab-Wo。

3 算法实验分析

本文实验数据是直接利用搜索引擎从雅虎网(http://news.yahoo.com)上按新闻的11个类别分别下载了一定数量的文档,保存到本地数据库中,然后进行分析,加入了部分人工处理后得到的一组数据来测试的。实验采用查全率和查准率的评定标准。实验结果见表1。

如表1所示,通过比较、分析各类算法表明,考虑词序可以更好的提高分类的查准率和查全率,得到更有效的分类结果。本实验是在封闭的数据集上进行的。由于实验条件、数据规模、个人技术能力等方面的不足,算法仍处在初步试验阶段。

参考文献

[1]Evgeniy Gabrilovich,Susan Dumais,Eric Horvitz.Newsjunkie:Providing Personalized Newsfeeds via Analysis of Information Novelty.WWW2004,May17-22,2004,New York,USA.

[2]Davi de Castro Reis,Paulo B.Golgher,Altigran S.da Silva.Automatic Web News Extraction Using Tree Edit Distance.WWW2004,May17-22,New York,USA.

[3]王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64.

[4]李杨,曾海泉,刘庆华,等.基于kNN的快速WEB文档分类[J].小型微型计算机系统,2004,25(4):725-729.

[5]厉宇航,罗振声,程慕胜.基于概念层次的英文文本自动分类研究[J].计算机工程与应用,2004(11):75-77.

比较与分类 篇5

一、教学内容及教材分析:

分类和比较都是重要的数学思想方法,本单元选取学生熟悉的家庭生活场景为基本素材,主要学习:按指定标准和自定标准对物体进行分类;比较事物的大小、多少、轻重、高矮、长短、宽窄、粗细、厚薄。通过帮妈妈整理衣服和存放衣服的活动,启发学生借助已有的生活经验,在动手实践与合作交流中学习分类和比较,把数学志士与学生生活实际联系起来。本单元设有的第一个信息窗是“帮妈妈整理衣服”,通过母子对话引出“怎么整理衣服呢?”这个问题,感受分类的必要性,体会分类与生活的紧密联系。第二信息窗“帮妈妈放衣服”通过妈妈与小朋友的对话,启发学生利用经验,学习“厚薄”、“长短”。同时根据图中提供的物品还可以比较大小、多少、轻重、高矮等。在“我学会了吗?”栏目中比较远近和宽窄,达到扩展、巩固的目的。

二、教学目标:

通过观察、操作,能按指定标准和自定标准对物体进行分类,并会比较事物的大小、多少、轻重、高矮、长短、宽窄、粗细、厚薄等。在分一分、比一比活动中,让学生形成初步的观察、分析、比较的能力。在教师的指导下,能在日常生活中发现并提出有关分类、比较的简单的数学问题,并能初步汇报交流自己的想法。学生在经历分类、比较的过程中感受数学与生活的密切联系,初步养成分类整理物品的习惯。

三、教学重、难点:

按指定标准和自定标准对物体进行分类;比较事物的大小、多少、轻重、高矮、长短、宽窄、粗细、厚薄是本单元的重点。在日常生活中发现并提出有关分类、比较的简单的数学问题,能初步汇报交流自己的想法是难点。

四、课时分配:

帮妈妈整理衣服及自主练习————————1课时

帮妈妈放衣服及自主练习—————————1课时

我学会了、丰收园————————————1课时

五、教学措施

1、实物分类教学,初步明确分类标准。

比较与分类 篇6

一、FASB与IASB对金融工具分类和计量准则修订建议的差异

1. 金融工具项目的范围

FASB金融工具项目的范围为《会计标准法典》的业主术语表定义的金融工具, 由于该定义包含金融工具术语得到了委员会的修订:金融工具是指现金、对一个主体利益所有权的证明、或形成一主体的金融资产, 并形成其他主体金融负债的一项合同。金融工具具备支付现金或利息所有权的合同义务, 满足概念框架第6号资产 (负债) 定义的合同权利 (义务) 。项目范围不包括:雇员福利及其计划的义务、包括健康生命保险金的退休金、保险的范围944的合同, 被合并子公司中非控制利益和权益投资、主体发行的权益性投资, 需合并的子公司利息收益以及在主题840解释的租赁资产和负债。

IASB颁布的IFRS 9和ED/2009/12的范围为IAS 39规范的金融资产, 重点修订了金融资产的分类以及减值内容。IASB准备结合对IAS 37负债计量的修订建议 (2010年1月15日发布了负债计量征求意见稿) , 展开金融负债的具体研究, 目前还没有考虑金融工具的定义和项目范围的例外情况以及项目与其他准则的相互衔接问题, 这应是IASB将来研究的议题。

2. 金融工具的分类

FASB认为公允价值是金融工具最相关的计量属性, (除特定类型自身债务) 所有金融工具都已以公允价值计量, 以公允价值计量的金融工具依据管理意图和现金流特征, 分为公允价值计量且变动记入净收益的金融工具 (FV-NI) 和公允价值计量且变动记入其他综合收益的金融工具 (FV-OCI) 。FV-NI和FV-OCI是金融工具的默认类型。主体具有摊余成本限制性选择权, 可用摊余成本计量长期负债等金融工具, 禁止金融工具的重分类。公允价值选择权有待进一步的研究。

IASB把金融资产分为以公允价值计量的金融资产和以摊余成本计量的金融资产, 以公允价值计量的金融资产又分为FV-NI和FV-OCI, 主体具有FV-OCI的限制性选择权和消除会计不匹配的公允价值选择权, 明确了摊余成本计量的目标和原则, 允许主体商业模式变化时进行重分类, 但没有分析默认的金融工具类型。

3. 摊余成本分类

FASB建议以摊余成本计量金融工具的标准为: (1) 主体对特定类型自身债务 (长期负债) 具有摊余成本计量选择权; (2) 必须满足FV-OCI的分类标准且以公允价值计量债务导致计量属性不匹配。主体以交易价格进行初始计量, 在收益表中单独反映当期利息的变动和实现的利得、损失。

IASB颁布的IFRS 9规定, 主体以管理金融资产的商业模式和合同现金流特征为依据界定以摊余成本计量的金融资产, 且主体商业模式是第一因素。摊余成本采用实际利率法使用剩余期间的现金流预期和实际利率计算现值, 分配利息收入和利息费用, 反映每个计量日对现金流量的估计, 提供金融资产实际回报信息。

4. FV-OCI和OCI的列报

FASB认为, 主体持有金融工具的经营策略是取得或收回债务证券的合同现金流, 而不是向第三主体出售或转让, 且具有本金金额特征, 债务证券工具确认为FV-OCI。FV-OCI初始取得时以交易价格计量, 交易价格与公允价值的差额以及相关的交易成本费用 (符合SFAS 91的标准) 均记入其他综合收益 (OCI) , 其他相关成本费用记入净损益。主体FV-OCI持有期间的公允价值变动记入OCI。记入OCI的利得、损失实现后, 应从OCI转入到净损益。FASB建议综合收益表包含全部的综合收益和净收益的小计数, 以净收益为基础确定每股收益。

IASB建议, 主体持有的非交易金融资产, 初始确认选择了公允价值变动记入OCI的债务证券应确认为FV-OCI。FV-OCI的公允价值变动记入OCI, 投资所带来的收益记入利得或损失, 记入OCI的利得、损失实现后, 不能从OCI转入到净损益。IASB规定主体对综合收益表具有选择权。

5. 减值

FASB认为, 主体需要在每一报告期期末确定分类为FV-OCI的金融工具是否存在信用损失, 信用减值损失以期望不能收回的现金流当前估计的现值来计量 (期望损失模型) , 主体需考虑与金融资产收回相关的过去事项、现有条件的所有有用信息 (延期支付条款、发行者的财务状况、预期的拖欠、担保价值以及预期合同现金流不能收回的经济、政治、行业的资料) , 不需考虑特定的可能情形, 当期信用减值在资产负债表上应以独立的项目反映净收益和累计信用损失。

IASB发布的ED/2009/12要求主体在每一报告期末, 判断以摊余成本计量的金融资产是否存在信用损失, 减值损失用期望损失模型来计算, 即主体最初取得金融资产时确认期望信用损失, 主体剔除初始期望信用损失后, 确认存续期内合同利息收入并建立期望信用损失的风险准备金, 每个会计期间重估期望信用损失, 及时反映期望信用损失变化带来的影响。

6. 混合金融工具

FASB认为, 包含在主题815下需进行单独核算的嵌入衍生工具的混合金融工具确认为FV-NI, 包含在主题815不需单独核算的嵌入衍生工具且满足FV-OCI的分类标准的混合金融工具应该在OCI中反映公允价值的变化。IASB认为, 具备主合同的混合金融工具应以金融工具的分类方法为基础进行分类, 合同性金融工具的持有者必须利用审核方法评价潜在金融工具的特征, 利用披露的潜在投资组合信用风险来决定金融工具类型, 非主合同的混合金融工具继续适用于IAS 39现行条款。

二、FASB与IASB对金融工具分类和计量准则修订建议的相同点

(1) 采用公允价值和摊余成本两种计量属性, 并以此为依据对金融工具进行分类, FASB建议所有金融工具 (除特定类型债务) 都以公允价值计量, IASB取消了IAS 39成本核算的例外情形, 所有权益性投资以公允价值计量, 因而都扩大了公允价值计量金融工具的范围。

(2) 减少了金融工具的分类, 提出了金融工具的新类型FV-OCI, 统一了金融资产减值核算方法, 简化了混合金融工具的会计处理, 取消了感染条款, 在一定程度上实现了简化金融工具分类和计量准则的目标。

三、结论

综上所述, IASB与FASB对金融工具会计准则的修订建议形式上大异小同, 实质上实现了一定程度的趋同, 但与建立统一的金融工具会计标准的目标还相差甚远。会计要实现财务报告目标必须建立在其服务主体的经济状况上, 美国作为世界上资本市场最发达的国家, 其金融工具会计准则的水平已走在了世界的前列, IASB作为全球会计准则的制定机构, 在修订金融工具准则时需要结合世界各国市场经济发展水平, 不能单方靠拢, 中国等新兴市场经济国家必须积极参与到IASB对金融工具修订的项目中, 促使IASB修订后的金融工具会计准则具有更高的质量和更高的实用性。

摘要:全球金融危机的爆发使FASB与IASB加快了修订现行金融工具会计准则联合项目的研究, 截至2009年底, IASB发布IFRS9和ED/2009/12, FASB也形成了关于金融工具分类和计量准则修订的建议, 基本完成金融工具分类、计量的研究。本文以两委员会研究成果为依据, 比较了FASB与IASB对金融工具分类和计量准则的修订建议的异同。

关键词:金融工具,分类,计量

参考文献

[1]IASB.IFRS9:Financial Instruments[S].2009.

比较与分类 篇7

关键词:Logistic回归,分类回归树,ROC曲线

0 引言

在统计方法中, 回归方程最常用于分类和预测, 而回归方程对变量的要求却都很高, 在分类过程中更多关注的则是全局的态势及走向。同时, 由于Logistic回归较易受到自变量间多重共线性的影响, 将无法估计各个自变量间可能存在的交互效应[1]。

在数据挖掘领域, 研发涌现了多种数据分类技术, 例如决策树、贝叶斯方法、神经网络等, 其中决策树算法是数据挖掘研究中高频活跃的领域项目之一, 而且也是解决分类问题最有效的方法[2]。与其它算法相比, 决策树算法有着更易理解、计算量较小、速度较快、生成规则简易快捷、且可理解性强[3]等优点, 更加适合研究者掌握、进而藉此做出最优决策。但由于决策树方法更多地考虑了细节上的划分, 在全局的把握上即呈现了些微欠缺。

基于此, 本研究将利用ROC曲线来检验如上两种方法的分类效能, 辨别两种方法孰优孰劣。具体即展开如下论述。

1 Logistic回归原理

Logistic回归是一种多变量分析方法, 方法中的回归模型为:

其中, Pi=P (yi=1|x1i, x2i, …, xki) 为在给定系列原因变量x1i, x2i, …, xki的值时的事件发生概率, 而K则为原因变量的总个数。

Logistic回归系数近似服从正态分布, 主要采用卡方检验和似然比检验。建模方法主要有向前法、向后法、逐步法等。而且, Logistic回归作为一个概率式模型, 可通过具体计算某事件发生的概率达到预测的目的。

2 决策树分类算法

本文采用分类回归树 (CART) 算法来进行分类预测。根据给定的样本集L构建分类决策树, 算法核心是首先从众多的输入变量中选择一个最佳的分组变量, 再从分组变量的众多取值中寻获一个最佳的分割阈值。在此, 采用Gini系数生成原始树, 即:

式中, c是数据集/子集Dj中决策类的个数, pi是第i个决策类在D中的比例。Gini系数表示从相同总体中随机抽取两个样本后, 而这两个样本来自于不同类别的概率。

其后, 再将数据集划分成多个数据子集, 这些数据子集划分前的Gini系数与划分后的Gini系数加权和的差为:

其中, A是候选属性, k是该属性的分支数;D是未使用A进行划分时的数据集, Dj是由A划分而成的子数据集。在所有属性中具有最大G (A) 的属性即当选为目前进行划分的结点。

针对多分支会降低决策树适用性这个问题, CART算法进行了相应的限制, 为生成二叉树, 使用Gini系数使属性值两两组合, 由此而得出最佳的二分方法[4]。CART算法则采用后剪枝法, 并遵循代价复杂度最小原则, 即:

其中, |T|为该树的叶节点的个数;a为复杂度参数, 在二分类问题中可选取a=2。

3 Logistic回归与CART分类效能的ROC曲线比较

对一组来华留学生适应性数据分别建立Logistic回归模型和CART模型, 从总适应性、社会文化适应、校园适应和心理适应四个方面, 建立四个分类模型。为了准确地评价四个模型在前述分类方法下的分类效果, 可通过计算各模型的ROC曲线面积, 来说明模型分类的实际效能。

本研究中利用非参数方法计算ROC面积大小, 假设常规组有nc个观察值, 记为Xj (j=1, 2, …, nc) , 非常规组有na个观察值, 再记为Xi (i=1, 2, …, na) 。如果观察值大, 则将其归为非常规组, ROC面积 (用Az表示) 就是非常规组每个观察值大于常规组每个观察值的概率, 具体计算方法如下[5]:

公式 (5) 的数学含义是将非常规组na个Xi与常规组的nc个Xj进行比较, 如果前者大于后者则比结果为1, 相等为0.5, 小于则为0;再将na×nc个比较结果相加并取平均即可得Az。Az的标准误差的计算公式可表述为:

其中, SE (Az) 为Az的标准误差, Q1是更可能划归为常规组的概率, Q2是更可能划归为非常规组的概率。根据A±uaSE (Az) 可计算Az的100 (1-α) %置信区间。

又设两个诊断试验ROC面积分别为Az1和Az2, 对应的标准误差分别为SE1和SE2, 比较ROC面积对应的公式则为[6]:

其中, z是标准正态离差值。Az1和Az2是两诊断试验的曲线下面积, SE1和SE2则是与其对应的标准误差。而r即为两个ROC曲线下面积间的相关系数。

ROC曲线一般位于参考线的上方, 因此AUC多在0.5到1之间, 越接近1就表明模型的判别效果越优秀[7]。对总适应性、社会文化适应、心理适应和校园适应的Logistic回归模型和CART模型分别绘制ROC曲线, 由其可得比较模型分类效能曲线, 具体可如图1所示。

对四个适应性模型经过两种方法拟合后, 再计算ROC模型面积并进行统计性检验, 检验结果则如表1所示。

由表1的结果来看, 所有模型标准误差都小于0.05, 说明这些分类具有统计学意义。从AUC数据来看, 除了总适应性模型, 其余三个适应性模型的曲线下面积相比较, CART分类方法都大于二元Logistic回归分类结果。从95%置信区间来看, 也均在0.5以上, 这即说明模型具有判别意义。心理适应模型可信区间略低, 则表明模型分类效果不够理想, 但这种拟合不好的情况应该和所使用的分类方法没有关系, 而只是受到了变量本身数据模糊性的影响。

从图1中可以看出, 所有模型曲线均位于参考线上方, 且都较为平滑。总适应性模型和校园适应性模型的逻辑回归曲线稍显不平整, 相比较而言, CART分类曲线较平整, 且其曲线下面积都稍稍大于Logistic回归模型的面积。为了验证两种分类方法的差异是否具有统计学意义, 可通过计算Z值来进一步判断两者的分类效能。经计算得出四个适应性模型两两之间的Z值分别为7.719 7、1.825 7、9.128 7、5.477 2, 通过比对U临界值表, 将检验水准α定义为0.05, 除了社会文化适应模型的两种分类方法差异不显著, 其余模型差异都具有统计学意义。总适应性模型的分类中, 二元Logistic回归表现分类效能更高;而在心理适应和校园适应的模型分类中, CART模型的分类效能则是较高[8]。因此, 本研究验证CART分类方法稍好于二元Logistic分类。但此结论却因情况而定, 所以两种分类方法各有利弊, 优劣则要根据具体的数据情况来表现与判定。

4 结束语

本文通过Logistic回归和决策树两种方法对心理学数据进行分类, 经数据分析发现, 总的说来两种分类方法各有利弊, 而经过Z值判断可知CART分类模型要稍好于二元Logistic模型。所以对心理统计这种具有一定模糊性的数据来说, 也许用数据挖掘的方法进行分析会更好一些, 当然也要考虑具体分析的心理特质的不同。

参考文献

[1]SPRENT P.An introduction to categorical data analysis[J].Journal of the royal statistical society series a-statistics in society.New York:Wiley-Inter-science Publication, 2007.

[2]MAJOR J A, MANGANO J.Selecting among rules induced from a Hurricane database[J].Proc, AAAI93 Workshop Knowledge Discovery in Databases, 1993 (15) .

[3]BRAMER M.Knowledge discovery and data mining[J].The Institution of Electrical Engineers London, 2003 (4) .

[4]胡可云, 田凤占, 黄厚宽.数据挖掘理论与应用[M].北京:清华大学出版社, 2008.

[5]METZ C E, HERMAN B A, SHEN J H.Maximum likelihood estimation of receiver operating characteristic (ROC) curves from continuously-distributed data[J].Statistics in Medicine, 1998 (9) .

[6]DELONG E R, DELONG D M, DANIEL L, et al.Comparing the areas under two or more correlated receiver operating characteristic curves:a nonparametric approach[J].Biometrics, 1988 (3) .

[7]NAKAS C T, YIANNOUTSOS C T.Ordered multiple-class ROC analysis with continuous measurements[J].Statistics in medicine, 2004 (22) .

比较与分类 篇8

关键词:《经律异相》,《法苑珠林》,分类差异,知识体系

《经律异相》和《法苑珠林》是六朝到唐初佛教类书的两部代表性作品,他们反映了六朝和唐初两个不同时期的佛教知识发展状况。《经律异相》是现今保存完整的最早的佛教类书,于梁武帝天监十五年(516)由宝唱等“抄经律要事”分类纂集而成,全书“博综经集,搜采秘要”,是一部重要的佛教故事总集。从知识发展的角度看,《经律异相》是展现《法苑珠林》之前佛教知识结构的代表作品,它比《法苑珠林》的成书早约一百五十年左右,对之后宋赞宁的《大宋僧史略》、道诚所集的《释氏要览》等书都有很大的影响。根据对两书相关类目的比较,我们可从中看出唐初佛教知识在前代基础上的发展及其在时代大思潮影响下所产生的变化。

佛教东传以来,大部分的佛教典籍都以汉译佛经为主。现存最早的佛教经录是由梁武帝时释僧祐所编的《出三藏记集》。[1]189-196在佛教经录大量涌现的同时,还产生了许多中国佛教僧侣自己纂集的作品。这些作品将不同的资料按一定的主题分类纂集起来,所涉知识十分广泛。不仅涵盖了佛教知识的各个领域,其所涉门类也十分之多,其中以摘录汉译经律论和僧俗故事与史实分类编纂而成的类书《经律异相》《诸经要集》《法苑珠林》等在佛教典籍中都具有十分重要的价值。

《经律异相》的编纂基本上不出传统类书“天、地、人”三才的模式,但其编纂也有些自身的特点:首先,《经律异相》所说的“经”、“律”实是佛教经、律、论三藏的泛指,其中资料主要取自“经”和“律”两类。其次,《经律异相》虽然编纂体例按照儒家“天、地、人”三才的宇宙观编排,但在现存中国佛教类书中,是仅有的一部不收中国本土资料的类书,体现了外来佛教在传入本土时竭力保持自身特色所作出的努力。其三,标题多能概括本类目的中心内容。如卷5“胸万字放光发音一”、“受阿耆请三月食马麦三”[2]54等。《法苑珠林》中也征引了大量摘自佛教“经”、“律”类的文献,可见二书在以佛教文献为基础,彰显宗教文化意义方面体现出大致相同的思想倾向。除此之外,在《法苑珠林》的分类格局中,虽然“劫量篇”和“三界篇”放在“诸天部”和“日月篇”之前,但其后紧接着安排了佛、法、僧以及世间君臣的位置,这同样展现了纂者以天、地、人秩序安排全书结构的主导思想。不过《法苑珠林》中所载的“天”是具有灵性的佛教诸神,表现出极强的神格化倾向。

在分类结构上,《经律异相》一共有四级类目:各卷部名;该卷的子目;子目下各条目;子目具体条文前另列科名。其次,《经律异相》以“圣凡差别”、“三界五趣”等进行分类。全书分十七部,部下又分子类和细目,全书从“天部”到“地狱部”,故事大致按照佛教宇宙观排列。其三,《经律异相》在天地部之下,国王部之上,设立了佛、菩萨、诸释等佛教教主的位置。又将人部分成几个阶层,如长者、优婆塞、优婆夷、外道、仙人、梵志、婆罗门、居士、庶人等,保持了鲜明的佛教色彩。与之大略相似的是,《法苑珠林》在其天人结构框架内设立了沟通天人的专部,如他以佛和菩萨等作为连接人、天二界的枢纽,体现了佛教知识体系中重视精神领袖的宗教作用等信仰特色。

从《经律异相》到《法苑珠林》的编纂成书,其间大约有一百五十年左右的时间,尽管前后二书的分类结构已有明显变化,但二书作为佛教类书,彰显佛法的基本立场并无多大变化。首先,二书形制上都有按类分部、标明出处等基本特点。其次,葛兆光先生说:“《法苑珠林》虽然特意把‘劫’和‘三界’放在‘诸天’与‘日月’之前,但这也只不过是佛教在顽强地显示其宗教特性,‘天地’依然在‘佛法僧’之前充当着合理性的基础依据。”[3]458与《法苑珠林》的宗教旨趣相一致,《经律异相》在类书编纂的指导思想上也是以弘法护教为目标。其三,《经律异相》广引佛教经、律、论原典,并借重佛经中故事传播的方式为其宣传佛法服务,这一点也被《法苑珠林》所吸收,从而在内典中广泛收罗相关的佛经故事,为其彰显佛法服务。其四,《经律异相》融合中印文学的特点,又吸收了中国诸子与史传文学的特长,具有极强的文学价值,而《法苑珠林》在广泛征引内典之外,同时也在“感应缘”中征引了大量中土文献,尤其是其中汉魏六朝时期的大量志怪小说文献,其文学色彩也相当突出。

《经律异相》《法苑珠林》二书的分类也存在很多差异:从二书的分类体例上看,《法苑珠林》兼采内外典籍,每篇、部前皆设有“述意部”以阐述作者设立此篇部的要旨。文中夹用“述曰”、“评曰”以说明作者思想观点,篇末“感应缘”则广引俗书记闻,这既反映了从《经律异相》到《法苑珠林》佛教知识系统发展更加成熟,同时也说明释道世在编撰《法苑珠林》之时,其知识观念也有了明显的完善。另一方面,从两书天、地、人的分类结构上看,同样是对佛教知识的阐释,《法苑珠林》所反映的宇宙观比《经律异相》更系统,而且更多地带上了中土文化的特色,其知识涵盖范围明显扩大。

《法苑珠林》对佛教宇宙空间的阐释主要集中在《三界篇》和《日月篇》中,《经律异相》在卷一《天部上》和卷三《地部》中有许多相同的阐释,不过《经律异相》在《天部上》中插入了“三界成坏”和“劫之修短”两部分。“劫”本来反映的是佛教的宇宙时间观念,《法苑珠林》和《经律异相》都分小三灾、大三灾两部分来论述这一专题,但释道世却将这一部分提至首卷作单篇讲述,说明他已经意识到时间和空间是两个不同的概念,需要分开说明这一事实。从知识分类的严谨和细致方面来讲,《法苑珠林》的处理无疑更进了一步。

首先,在宇宙空间的认识上,《法苑珠林》在《三界篇》和《日月篇》中分别进行了论述,其中《三界篇》又分四洲和诸天两部,日月等自然现象又另辟专篇,这与《经律异相》的处理也大不相同。这说明《法苑珠林》对宇宙的分类观念比《经律异相》更为成熟。

其次,在同属反映宇宙空间的洲土部分,《经律异相》有“阎浮提一”和“郁单曰二”两项,在“阎浮提一”部分中,《经律异相》分“国封所产一”、“精舍二”、“山三”、“树四”、“河海五”、“宝珠六”、“人饮乳多少及形寿同异七”几项分述,对“郁单曰二”部分则作了简单的介绍,这样显得两部分的内容轻重有别。而在《法苑珠林》“四洲部”中,道世以须弥山为中心,四洲八山即围绕这一中心而建构。书中广引经文:“四洲地心即是须弥山,山外别有八山围”[4]32须弥山东弗于逮、南阎浮提、西俱耶尼、北郁单越围绕着须弥山成为一个大的宇宙空间,《法苑珠林》对这东、南、西、北四个方向的河海树木、园观花食、物产珍宝分别作了具体的描述。从《经律异相》的“地部”二类到《法苑珠林》的四洲自成体系,说明《法苑珠林》较之前的《经律异相》知识表达更加系统。

第三,《法苑珠林》对阎浮提的描述,十分接近中土的现实世界。如书中引《长阿含经》之语:“须弥山南有天下名阎浮提,其土南狭北广,纵广七千由旬。人面像此地形。有大树王名阎浮提,围七由旬,高百由旬。枝叶四布五十由旬……”[4]47-48从文中所引经文可以看出,阎浮提洲的季节、昼夜、人情、民风,一如我们所居住的现实世界,实际上是中土文化的再现。其中所说东边的晋国、南边的天竺国、西边的大秦国、北国的月氏国都是当时实有的国名,东边的中国人民众多,南方的印度地产丰饶,西边的大秦国多有金玉,北方的月氏国则盛产宝马,这都与社会现实相符,反映了当时地理知识的完善与进一步成熟。

第四,关于星宿的认识,《经律异相》只用了简单的几句话,《法苑珠林》则将星宿与中国传统文化中的二十八宿结合起来,说明二十八星宿都有名有姓。按佛教的观念,他们都是由种种因缘投胎而生的人格神,其中有的是天神的亲属,有的是仙人的子孙。二十八星宿分别护卫于东、南、西、北四方,他们的职责都是由天上的仙人们布置安排的,具有“摄护国土,养育众生”的神圣职责。[4]98-104这样,《法苑珠林》对星宿的理解明显受到了中国传统文化的影响,体现了中印文化在中国佛教知识体系中互相融合的倾向。

从《经律异相》到《法苑珠林》的发展,反映了佛教知识从依靠印度文化传统向整合不同文化方向的转移。从某种意义上说,《法苑珠林》的编纂不仅完善了佛教自身的知识体系,还广泛吸收了中土的文化内容,体现出整合中印文化的价值取向。概言之,《经律异相》与《法苑珠林》二书的分类差异展现了佛教知识从印度传入中国,并逐步中国化的发展进程,动态地展示了佛教在中国生根、发展的历史轨迹,客观上揭示了中国古代知识发展过程中整合历史、融合文化差异等特征,具有重要的时代内涵和文化意义。

参考文献

[1]姚名达.中国目录学史[M].上海:上海古籍出版社,2002.

[2][梁]宝唱,等.经律异相[M].大正新修大藏经53册.

[3]葛兆光.中国思想史(第一卷)[M].上海:复旦大学出版社,2005.

比较与分类 篇9

1 资料与方法

1.1 一般资料

选取2010年10月-2012年10月期间我院收治120体检者的临床资料, 并收集其白细胞。白细胞总数为: (2.0~35.2) ×109/L, 其中男67例, 女53例, 患者年龄12~75岁, 患者平均年龄 (43.1±3.6) 岁。排除患有血液系统疾病的患者。

1.2 方法[3]

仪器试剂:日本生产Sysmex Xs-500 i全自动血液分析仪 (东亚公司) , 深圳迈瑞公司生产的BC-5500全自动血液分析仪。所有实际均为血液分析仪配套实际, 包括瑞氏一姬姆萨染液以及各种不同等级的质控品。人工分类采用Olympus显微镜。分析方法:在进行分析之前, Sysmex Xs-500 i以及BC-5500血细胞分析仪都经过原厂家的精确校准, 对其分别进行质控, 然后根据其各自的仪器操作规范对临床120例血液标本进行分析。根据《全国临床检验操作规程》[4]中的规定, 每一份标本都制作两张血液涂片, 以便于人工应用显微镜进行白细胞分类, 采用瑞氏一姬姆萨染液对血涂片进行染色, 随机选取其中的一份标本, 在100倍油镜下对120个白细胞进行分类计数, 并将其平均值计算出来, 作为不同白细胞相对应的靶值。

1.3 统计学方法

本次所有研究资料均采用SPSS 18.0统计学软件处理, 所有资料都采用秩相关分析方法。

2 结果

单核细胞相关系数为0.594, 淋巴细胞相关系数为0.92, 中性粒细胞相关系数为0.91, 嗜酸性粒细胞相关系数为0.712。

Sysmex Xs-500 i及BC-5500所得到的白细胞分类结果在相关性上表现为:单核细胞相关系数为0.652, 淋巴细胞相关系数为0.912, 中性粒细胞相关系数为0.913, 嗜酸性粒细胞相关系数为0.842。Sysmex Xs-500 i对超过1/10单核细胞标本的假阳性率为11%, 而BC-5500则为12%。

3 讨论

Sysmex Xs-500 i全自动血细胞分析作为Sysmex最新开发的紧凑型五分类血液分析仪之一, 其工作原理是:依据细胞产生的3种不同信号, 应用半导体激光对细胞标本进行照射, 产生区分, 分别出现侧向荧光、前向散射光及侧向散射光。出现侧向荧光, 则代表DNA和RNA的含量;出现前向散射光, 则代表细胞体积;出现侧向散射光, 则代表颗粒等。只要患者白细胞内部结构及表面改变不大, 则一般可得到正确分类结果。

BC-500血细胞分析仪, 具有检测标本快, 使用标本量少, 试剂消耗少, 操作方法方便等优点, 国内应用较广。其检测白细胞的过程是仪器利用激光流式细胞技术检测到全血细胞后再利用阻抗法原理进行白细胞检测, 该分析仪利用库尔特原理对白细胞、嗜碱性粒细胞进行计数, 检测标本经过二次稀释后进入白细胞检测单元, 分析仪通过对Diff通道散点图及其中Lym区域、Neu区域、Mon区域和Eos区域的分析, 再结合电阻抗法获得的白细胞数目进行计算得到相应的细胞数。

本研究通过对比人工白细胞分类法和全自动血液分析仪分类方法, 表明BC-5500及Sysmex Xs-500 i这两种全自动血液分析仪对白细胞具有快速高效的筛检功能, 具备较高统一性, 值得在白细胞分类中推广应用。

参考文献

[1]唐沪强, 许凯声, 吴敏良, 等.库尔特STKS血细胞分析仪对白细胞分类异常提示的可信性[J].临床检验杂志, 2000, 18 (3) :176-177.

[2]叶应抚, 王毓三, 申子瑜.全国临床检验操作规程[M].3版.南京:东南大学出版社, 2006:121-124.

[3]张清秀, 王艳, 宋文琪, 等.三种全自动五分类血细胞分析仪与人工分类儿童白细胞的比较[J].现代检验医学杂志, 2008, 23 (2) :68.

比较与分类 篇10

1 基于端口号匹配方法

早期的网络流量分类方法基于传输层端口号, 基于端口号的分类器检查每个数据包的端口号, 然后根据国际互联网代理成员管理局 (IANA) 公布的标准端口号和注册端口号列表来查找确定不同的应用类型。例如分类器要想知道服务器端一个新的客户机/服务器的TCP连接类型仅需查找TCP_SYN数据包 (这是TCP协议在建立会话过程中三次握手的第一步) , 通过查找IANA注册端口号表中的TCP_SYN数据包的目的端口号从而推断出应用类型。UDP协议是无连接建立也没有连接状态保持的协议, 它也使用类似的端口号匹配方法。

尽管端口号匹配法是最快和最简单的方法, 但其存在缺陷。首先, 有些应用并不在IANA注册其端口号。第二, 有些应用并不使用它的默认端口号以规避操作系统对它的存取控制限制 (例如在类似Unix系统中未被授权的用户运行HTTP服务时将被强制禁用端口号80) 。第三, 在一些情况下服务器端口号将根据需要进行动态分配。例如Real Video流允许采用动态协商服务器端口号的方式来进行数据传送, 在一开始使用默认的标准Real Video控制端口号建立起来的连接中, 服务器的端口号可以通过动态协商而得到。另外, 在一些环境下对IP层的信息加密也可能造成TCP_Header和UDP_Header模糊, 因此分类器不可能知道其实际的端口号。

Moore等人[1]指出, 若使用官方的IANA表, 使用基于端口号的分类器准确率将低于70%。Karagiannis等人[2]指出大量的P2P应用使用随机端口传输数据, 使得基于默认端口的流量识别方法难以准确标识P2P等新型网络应用。

2 基于数据包检测方法

数据包检测方法[3]是通过解析应用层协议数据包载荷特征字符来区分不同的应用。这种方法曾被誉为最为准确的流量识别方法, 目前仍为大多数商用系统所采用。但是这需要较高的计算复杂度和访问较多的数据包才能完成。例如, 根据Moore等人研究, 仅有少量特殊的应用可通过第一个数据包 (有载荷数据) 而被正确分类, 而其他的应用则需更详细的检测, 只能当检测到的载荷数据量达到1Kbyte时才能确定其应用类别。匹配特征值可通过公开出版的协议规范获得。

除了需要访问载荷数据, 这种方法也不能处理载荷数据加密的应用。首先, 面对应用协议的频繁更新、载荷加密技术的普及、新应用频出等状况, 该方法的有效性已逐步降低。第二, 维护特征库需耗费计算资源和计算时间, 其适用范围有限。第三, 采集和解析载荷记录受到侵犯用户隐私权等法律问题的约束。

3 基于传输层行为模式方法

Karagiannis等人提出一种基于传输层行为的流量分类方法即BLINC[4] (盲分类器) , 该方法利用不同网络应用在传输层连接模式的差异来划分网络流量, 无需解析数据包载荷或知晓端口号, 具有良好的可扩展性。其原理是通过描述网络主机在社会层、功能层和应用层三个层次的内在行为特性来识别主机的角色, 进而对该主机的相关流量进行分类。 (1) 社会层面:获取一个主机与其他与之通讯的主机的数量。凭直觉, 在这个层面将首先关注这台主机与其他主机交互的活跃性, 其次识别与这台主机通信的节点。 (2) 功能层面:捕获主机的行为特征, 分析其在网络中扮演角色是业务提供者还是业务接受者或两者兼有。例如若一台主机用一个端口与其他多台主机通信, 那么这台主机在这个端口上应该是一个业务提供者角色。 (3) 应用层面:捕获特定主机的特定端口传输层之间的互动识别业务的发起方。

BLINC分类器主要优点之一在于它的可调性。分类条件的严格性可按测量目标的不同而上下浮动。条件标准可松可紧便于在分类完整性与准确性之间的不同平衡点上得到分类识别结果。然而行为模式方法利用了网络应用的行为属性, 不仅极易受到网络环境的影响, 而且随着网络应用的自身完善而逐步失效。例如, 它依赖于每个主机产生的流是否包含了足够的行为信息, 所以使用BLINC的最佳位置应是单宿主的边缘网络, 只有在边缘网才能尽可能多地观察到主机行为信息。同样原因, 它不适合骨干网络, 骨干网仅能收集到很小一部分行为信息, 另外路由的不对称性使得双向的流并不总是经过同一链路, 往往会造成失去其中一个方向的流。因此这类方法的可用性仍然受到限制。

4 基于机器学习方法

这种方法的基本思想是根据TCP/IP网络中应用层传输协议 (WEB、P2P、DNS、SMTP、FTP等) 对流进行分类。流的定义:按照五元组[6] (源IP地址、源端口号、目标IP地址、目标端口号及IP协议) 的定义, 将网络流量的数据包 (Packets) 分成双向TCP或UDP流 (Flow) , 抽取与协议和端口无关的流的特征 (如报文长度, 持续时间等) , 形成特征向量。用特征向量来表示流, 以流的应用类型 (WEB、FTP、STREAMING等) 作为流的类别, 通过上述处理获得基于机器学习方法训练所需的样本流。然后根据样本流的特征向量, 用机器学习的方法构建分类器。最后用构建的分类器对未知的网络流量进行预测分类。

基于机器学习流量分类是近年的研究热点。其优点是不依赖匹配协议端口或解析协议内容来识别网络应用, 因而不受动态端口、载荷特征加密甚至网络地址转换 (NAT) 的影响, 其效率、灵活性以及可扩展性等, 较之上述各种方法都有所突破, 但也面临一些挑战, 需要考虑以下问题:

1) 及时和持续地分类

一个分类器应尽可能使用能判断出类标识的最低限度的数据包数量, 这样可减少缓存计算流特征数据包所需的内存空间。但是计算每条流最前的少量数据包是不够的, 有些恶意攻击在流的整个生命周期内把流的前数据包伪装成正常的数据包, 所以理想的分类器应能对每条流在其整个生命周期内持续进行分类判断。

2) 流的单向与双向

一般事先假定流是双向的, 并且流统计特征的计算是在流的前向和反向被分开进行计算。由于很多应用 (多媒体在线游戏或流媒体) 在客户机-服务器方向与服务器-客户机方向展现了不同的流统计特性, 因此分类器应该知道先前未知流的方向 (哪一端是服务器亦或哪一端是客户机) , 或者分类器识别目标应用不需要额外的流方向特征。

3) 内存与处理器的有效利用。

分类器的效率还有赖于构建分类器系统所需的硬件 (CPU时间与存储空间消耗) , 很难想像一个不考虑能在最短时间内训练建模并准确识别应用类别的分类器是有效率的。

4) 可移植性与健壮性

可移植性是指分类器能适应不同的网络即它能部署到网络的各种不同位置而不失准确性, 健壮性是指面对网络层的各种干扰, 例如数据包丢失, 流量整形, 数据包碎片, 抖动等, 分类器应仍能提供稳定准确的的分类结果。另外健壮性也指一个分类器能否快速识别未知的新应用类别。

5 基于流量分类方法的算法性能比较

将四种方法各选其现有的具有代表性的网络流量分类算法在若干重要评价指标等方面进行性能比较, 结果如表1所示。该文基于端口号方法选择Coral Reef, 基于数据包负载检测方法选择L7-filter, 基于传输层行为模式方法选择BLINC, 基于机器学习算法选择C4.5[5]。表1中适应性是指该算法能否适应不同的或正在变化的流特性。探测性是指该方法能否探测到新的或异常的网络应用。

6 结束语

本文介绍了四种网络流量分类方法, 并以典型算法为背景对四种分类方法的优缺点进行了比较分析。目前基于机器学习的网络流量分类方法比较灵活, 是当前主流的研究手段, 但是早期的基于端口的分类方法在特定的场合下也具有应用优势, 不宜全盘否定, 如何开发出能利用上述各类优点的组合分类方法是未来的方向。

参考文献

[1]Moore A W, Zuev D.Internet Traffic Classification Using Bayesian Analysis Techniques[C]//Proceeding of ACM Int’1 Conf.on Measure?ment and Modeling of Computer Systems, 2005:50-60.

[2]Moore A W, Papagiannaki K.Toward the Accurate Identification of Network Applications[C]//Dovrolis C.Proceedings of the Sixth PAM, 2005:41-54.

[3]Auld T, Moore A W, Gull S.F.Bayesian Neural Networks for Internet Traffic Classification[J].IEEE Transactions on Neural Networks, 2007, 18 (1) :223-239.

[4]Nguyen T T, Armitage G.A survey of Techniques for Internet Traffic Classification using Machine Learning[J].IEEE Communication Surveys&Tutorials, 2008, 10 (4) :56-74.

[5]徐鹏, 林森.基于C4.5决策树的流量分类方法[J].软件学报, 2009, 20 (10) :2692-2704.

上一篇:供水管网的管理与维护下一篇:进展与措施