情境连续化(精选3篇)
情境连续化 篇1
0 引言
所谓离散化是指将连续属性的值域划分为若干子区间, 每个子区间对应一个离散值, 最后将原始数据转化为离散值。连续属性的离散化是许多数据挖掘和机器学习算法的重要预处理步骤, 有效的离散化方法不仅可以减少系统对存储空间的实际需求、提高数据挖掘、机器学习算法的效率, 而且在离散数据集上获取的知识往往具有更简洁的表达形式, 更易于理解。理想的离散化算法应该能够在保持甚至提高后续算法精度的前提下, 尽可能地减少区间个数。自上世纪90年代开始, 连续值属性的离散化开始受到研究人员的关注, 迄今为止已出现许多离散化算法, 这些算法各有优缺点和适用范围。研究表明, 求取连续属性值的最优划分点集合是一个NP完全问题。离散化算法的效果不仅与需要离散的数据分布及阈值选择有关, 而且与后续的学习算法密切相关。因此离散化算法的选择要与具体的应用领域相适应。
离散化算法[1,2]有几种不同的分类方式: (1) 根据离散化处理时是否以目标属性信息做参考分为有监督离散化算法和无监督离散化算法。有监督离散化算法参考了目标属性信息, 而无监督离散化算法没有参考目标属性。有监督离散化算法包括基于信息熵方法[3]、基于粗糙集方法[4]、类—属性相关离散化[5,6,7,15,16]等。无监督离散化算法包括等宽离散化方法EW (E-qual Width) 、等频率离散化方法EF (Equal Frequent) 、近似等频离散化方法AEFD (Approximate Equal Frequency Discretization Method) [8]、基于局部密度的离散化算法、基于聚类的离散化算法[9]等。 (2) 根据离散化处理时是否考虑属性之间的相互关系, 离散化分为静态的和动态的。静态的离散化算法在决定每个连续属性的区间个数时, 并不参考其他连续属性, 比如1RD算法[1]。而动态的离散化算法通过考虑属性之间的相互关系, 将所有属性同时划分为K个区间。 (3) 离散化算法还可以分为自顶向下法和自底向上法。自顶向下法起始只有一个区间, 通过离散化过程逐渐增加划分点, 而自底向上法则是将所有的连续值都看作划分点, 再逐渐合并相邻区间减少划分点。例如, CAIM[5]属于自顶向下法, Chi-merge[10]属于自底向上法。
本文主要以有监督和无监督离散化为线索, 对典型离散化算法的基本思想进行了梳理总结, 并从时间复杂度以及对后续分类的影响等角度进行了对比。
1 无监督离散化算法
1.1 算法主要思想描述
(1) 等宽离散化方法EW与等频率离散化方法EF
等宽离散化方法EW与等频率离散化方法EF是最简单的无监督离散化算法。EW方法根据用户指定的区间数目K, 将属性值域[Xmin, Xmax]划分为K个宽度为 (Xmax-Xmin) /K的区间。EF方法则将属性的值域离散化为指定数目K的区间, 使每个区间包含的样本数相等。这两种方法容易实现, 但由于没有考虑数据分布的特性, 从而难以正确找到划分点;而且这两种离散化算法对噪声很敏感, 区间数目K的取值难以决定。
(2) PKID算法
PKID算法[11]相当于一种特殊的等频离散化方法。其基本思想是, 将连续属性值划分为 (n为实例总数) 个区间, 使每个区间包含的实例数目近似为PKID算法通过离散化后的区间数量与区间大小成比例, 来协调方差和偏倚之间的平衡。方差与偏倚的平衡可以反映为离散化区间大小与区间数量之间的平衡, 寻找最优平衡点问题也是寻找最优离散区间数量的问题。WPKID算法[12]在PKID算法基础上增加了每个区间至少包含M个实例数的停止条件, 增大了离散化区间的大小, 使得朴素贝叶斯分类器得到更可靠的概率估计, 确立一个偏倚与方差更平衡的策略从而弥补PKID算法在小型数据集上的缺陷, 同时也能够利用额外的训练数据来减小方差和偏差, 保留了PKID算法在大型数据集上的优势。
(3) 近似等频离散化算法
近似等频离散化算法AEFD[8]是基于数据近似服从正态分布的假设。若一个变量服从正态分布, 则其观测值落在一个区间的频率与变量在一个区间取值的概率应该相同, 利用正态分布变量的分位点将取值区间划分为若干初始区间, 然后对区间进行归并, 以使每个区间包含观测值的频率不至于太低。该算法不需要进行大量的分析和计算, 离散区间数不超过「log (n) ?。类似于等宽离散化、等频离散化方法, 近似等频算法也没有充分考虑样本分布信息, 在有些情况下也难以将区间的边界设置在最合适的位置上。
(4) 基于局部密度的离散化算法
基于局部密度的离散化算法的基本思想是发现属性取值的自然密度区间, 区间内部的点密度大而边界点的密度小, 当由一个区间过渡到另一个区间时, 在边界处密度必定取得极小值。该方法有以下优势: (a) 充分考虑了数据的密度分布信息, 通过计算每一属性值的邻域密度来近似数据的分布规律, 对于属性值自然形成的密度区间, 区间内部点的密度大, 而区间边界点的密度小, 当属性取值从小到大变化时, 密度取值呈现多峰变化, 谷底将属性取值划分为自然的密度区间。 (b) 根据各个连续属性的数据分布的不同, 自适应地调整区间的个数, 从而克服了直方图中密度选择的困难。
(5) 基于混合概率模型的无监督离散化算法
基于混合概率模型的无监督离散化算法[14]先将数值属性的值域划分为若干子区间, 再利用贝叶斯信息准则 (BIC) 逼近不同混合概率模型的贝叶斯因子, 以自动地寻求最佳的子区间数目和区间划分方法。该算法采用概率生成模型描述区间, 允许观测值相对于区间的不确定性, 而且便于采用贝叶斯信息准则来评价、比较不同的概率生成模型, 从而为自动确定区间数目、位置、宽度提供了较为系统的方法, 克服了以距离作为离散化依据所带来的问题, 它可以将不连续的数值, 根据各区间的后验概率划分到同一区间。但由于该算法中利用了EM算法, 它可以看成是蒙特卡罗逼近算法的一种特例, 而对蒙特卡罗算法来说, 何时收敛以及是否收敛都是不可判定的, 这也造成在离散化过程中针对不同的属性所用的离散化时间可能相差较大。
(6) 基于聚类的离散化算法
聚类是无监督的学习方法, 聚类过程充分考虑到对象在数据空间中的分布, 使具有相同或相似的对象聚集一起。因此, 通过聚类的离散化[9]更能保持原有属性的信息。由于在多维空间中, 不同类在同一坐标轴上投影往往产生重叠, 导致聚类离散化时, 聚类簇数不一定是离散区间数。在投影坐标上, 每类对应一个区间, 通过概率调整两类区间端点, 使得离散化的区间具有一定统计意义。基于聚类的离散化算法不仅能较好地确定区间端点, 还具有预测未知区间的作用。
1.2 多种无监督离散化算法对比
设n、m分别为实例数目、需要离散化的属性个数。从算法的效率来看, AEFD、EW算法时间复杂度为O (n×m) 。EF算法、FFD算法、基于局部密度的离散化算法及PKID方法的时间复杂度为O (m×n×logn) 。基于聚类的离散化算法时间复杂度取决于聚类算法的时间复杂度, 相对等宽离散化方法 (EW) 和等频率离散化方法 (EF) , 基于聚类的离散化算法时间复杂度还是较高的。但基于聚类的离散化算法能最大限度保留对象的属性信息, 不仅无须给定区间参数, 而且区间的大小也具有统计意义。从对后续分类算法的影响来看, 实验测试[8]表明基于局部密度的离散化算法比EW方法、基于混合概率模型的算法和PKID算法更有助于提高后续分类算法 (如C4.5, Ripper和Na6ve-Bayes) 的准确率, 而AEFD算法略好于基于局部密度的离散化算法, AEFD算法得到的区间数比其他算法也要少。
2 有监督离散化算法
有监督离散化算法具有充分利用目标属性信息的优越性, 比起无监督离散化算法, 可能找到更合适的划分点位置, 对后续分类效果相对理想, 但复杂度也相对要高。
2.1 主要算法思想描述
(1) 1RD离散化算法
1RD (One-Rule Discretizer) 是最简单的有监督离散化算法, 该算法在连续属性排序之后, 尝试采用贪婪法将属性值域分成不同的区间, 使每个区间只对应一个决策类。但为了避免过分拟合, 通过移动初始划分边界来增加观测值, 直到该区间主要决策类的对象数目大于M为止即可 (按经验M通常设为6, 数据规模很小时, M设为3) 。
(2) 基于信息熵的离散化算法
基于信息熵的离散化算法, 在把连续属性排序后, 不同目标类之间的边界设为候选划分点。在候选划分点中找出使熵最小的划分边界Tmin作为二分离散边界, 依此迭代进行二分离散化直至满足最小描述长度原理。如果目标属性值分布比较零散的话, 该算法不适用于大规模数据。文献[1]在最小长度描述原理作为停止条件的基础上, 增加了区间数不得小于目标属性取值个数的停止条件, 对基于信息熵的离散化算法在一定程度上进行了改进。
(3) 基于Chi-square的离散化算法[10]
Chi-square (X2) 是度量条件属性和目标属性之间关联程度的统计量, 两个相邻区间不应该有相似的目标属性频率分布, 否则这两个区间应该合并为一个区间。基于两个相邻区间的条件属性和目标属性相互独立的假设, X2在很大程度上评价了相邻区间的相似性。X2的计算方法如下:
其中, p表示目标属性个数。Aij表示在第i个区间中, 第j个目标属性的实例数。Ri表示第i个区间的实例数 (Ri=∑pj=1Aij) , Cj表示第j个目标属性的实例数 (Cj=∑mi=1Aij) , N表示总的实例数 (N=∑pj=1Cj) , Eij表示在第i个区间中, 第j个目标属性的出现频率
Chi Merge算法首先将不同的连续属性值置于各自单独的区间内, 然后计算各个区间的X2值以决定相邻两个区间是否需要合并, 自底向上依次迭代。该算法是基于相邻区间目标属性频率分布相互独立的假设。合并区间的停止条件由X2阈值控制, X2阈值越低, 合并的区间越少, 区间数目就越多。最终得到的每个区间的X2值均要超过X2阈值。X2阈值通常设为0.90、0.95或者0.99, 为了防止产生过多的区间, 最大区间数通常设为10或者15。还有基于Chi-square的离散化改进算法, Chi2算法合并相邻区间直到满足指定终止条件, 该算法在离散化的过程中还进行相关属性的选择, 移除冗余属性。
(4) 基于Hellinger的离散化算法
该算法[3]的基本思想是使各个离散区间所包含的信息量尽可能相等。关键在于选择一个每个区间相对于目标属性的信息量度量方法, 用来度量它的熵函数称为属性的偏差度。该算法使用Hellinger偏差:作为偏差度量, 其中Ii表示第i个区间, xj表示第j个目标属性值。Hellinger偏差适用于任何概率分布, 也是一种先验概率分布与后验概率分布之间距离的度量。而切分点的信息量与其两边相邻的区间信息量有关, 因此切分点Pi的偏差定义为:E (Pi) =E (Ii) -E (Ii+1) , 其中Ii和Ii+1表示以Pi为分点的相邻区间。该算法通过自底向上迭代合并Hellinger偏差值最小的相邻区间实现离散化。
(5) 基于粗糙集的离散化算法
粗糙集处理的对象是类似二维关系表的决策表。满足决策系统的最优划分就是在不破坏决策系统分辨关系的前提下, 对决策系统的属性进行最粗略的划分。基于粗糙集理论的决策系统最优划分的属性离散化算法[4]主要分三步: (a) 确定用于对各连续属性进行离散化的候选点集合; (b) 在基于条件属性重要度和贪心算法的基础上使用启发式算法确定结果划分点子集; (c) 利用划分点子集结果对决策系统的属性离散化。其中前两步决定了离散化结果的性能, 第三步只是整个算法的应用。该类算法具有多项式级的复杂性, 它不改变决策表的相容性, 在不影响不可分辨关系的前提下寻求最少的划分点。
(6) 类—属性相关离散化算法
该类算法通过统计学量化类—属性相关度, 以保证离散后的类—属性相关度最大, 离散区间数最小, 如CADD[15]、CAIM[5]、CACC[7]等。对于属性F, 在第i类第r区间上的联合概率估计定义为:其中qir表示在在第i类第r区间上的实例数目, M表示总的实例数。第i类和第r区间的边缘概率分别定义为:其中Mi+表示第i类的实例数, M+r表示第r区间的实例数。F属性上目标类C与相应属性值D的互信息定义为:类—属性熵定义为:CAIR标准定义为:算法在初始化时需要用户指定区间数, 类—属性相关度采用CAIR标准。CAIM不需要预先设定区间数, 而且采用的类—属性相关度标准在CAIR的基础上做了一定改进, 定义为:其中n表示区间数, maxr是所有qir的最大值。CAIM算法虽然弥补了CADD算法的一些不足, 但经常采用区间数近似目标属性取值个数, 而且对于一个区间, CAIM离散判别式只考虑该区间含有最多样本的类属性, 而忽视了其他类属性的分布情况, 会产生过多的区间而导致过度拟合。同CAIM类似, CACC也是自顶向下的离散化算法, 但CACC是通过计算区间的列联系数cacc以决定区间是否需要拆分, 从而弥补CAIM的不足。CACC定义如下:
2.2 有监督离散化算法对比
对训练集中的一个属性进行离散化, 设m为离散属性的不同取值个数, n为区间个数, k为增量迭代次数, c为目标属性取值个数。基于信息熵的离散化算法的时间复杂度是O (c×m×logm) , Chi2的时间复杂度是O (k×m×logm) , CAIM, CACC的时间复杂度都是O (m×logm) , 根据自底向上法和自顶向下法的离散化原理, 自底向上法比自顶向下法的计算复杂度要高, 因为自底向上法初始时将所有的连续值放在划分点列表中, 再逐渐合并相邻区间减少划分点。基于粗糙集和布尔推理的离散化算法的时间复杂度为O (m3) 。基于Hellinger的离散化算法的时间复杂度为O ( (m-n) ×m) 。由于朴素贝叶斯算法本身已作了属性独立性假设, 因此在朴素贝叶斯算法中如果也使用属性独立性假设的离散化方法, 如基于信息熵的连续属性离散化算法, 就再一次强调了属性之间的独立性, 使得整体上具有相当强的独立性假设。一旦属性之间违背了这种强独立性假设, 将会在很大程度上限制分类的性能, 而在现实数据集中这种违背情况是经常出现的。因此, 基于信息熵的离散化算法在决策树的学习方面起到的效果优于贝叶斯学习。实验结果表明, 从对后续分类学习C4.5和Na6ve-bayes的影响来看, 基于信息熵的离散化算法比1RD算法更有助于提高后续分类算法的准确率, Chi Merge算法比基于信息熵的离散化算法更有助于提高后续Na6ve-Bayes分类算法准确率, 自顶向下法CACC比自底向上法Chi Merge更有助于提高后续分类算法C5.0的准确率。
3 结语
本文对离散化算法研究现状进行了梳理。在实际应用中, 离散化算法的选择取决于用户需要和数据特征, 如果要在学习的过程中进行离散化, 可以选动态的离散化算法, 如决策树学习过程中的多区间离散化, 在学习的过程中进行离散化处理, 以提高效率。随着社会的发展, 需处理的数据量越来越大, 维数越来越高, 且有些应用中数据是动态的, 以流的形式出现, 这就要求算法高效甚至是实时的。为提高处理速度, 以及适应空间数据、时态数据甚至时空数据的要求, 面向数据流、时间序列和空间—时态数据的离散化算法的研究将会得到更多的关注。研究具有普遍适用性的高效离散化算法是个值得深入研究的方向。
情境连续化 篇2
区域活动不仅是幼儿园课程的重要组成部分,同时又是促进幼儿身心全面发展与进行个别教育的最佳手段。高效的区域活动不仅提高了幼儿积极参与活动的兴趣,而且还提高了幼儿在活动中的创造性和坚持性,使每个幼儿都能体验到区域活动带来的快乐。角色体验,以境引情
小班幼儿好模仿,他们乐于模仿生活中的各种角色,体验角色的不同行为,在模仿体验中习得经验。创设一个幼儿感兴趣的角色,不仅能大大激发孩子的游戏兴趣,让他们以积极的态度投入到游戏中,而且还能保持较长的游戏时间。例如:在娃娃家中,幼儿扮演“妈妈” “爸爸”;在建筑工地上,幼儿扮演“建筑工人”等。幼儿通过对成人生活的模仿,把真实性和虚构性巧妙地结合起来,使自己快乐地扮演着“小大人”的模样。营造情景,以境促动
小班幼儿其思维正处在具体形象思维阶段,游戏的目的性不明确,以独立游戏为主。这就需要我们为其营造一个自然逼真的、与他们生活有关的、能再现生活情境的区域游戏情境。让他们在真实的游戏情境中反映生活经验,让小区域真正成为幼儿熟悉的大社会的缩影。但在以往,我们的区域活动都是关上门自顾自地操作游戏。这种以独立组为单位,缺乏趣味性的区域活动往往只是孩子们的一种机械式练习,这与小班幼儿的身心发展相违背。如今,我们创设一个大区域主题下,按现实生活情境分成各个小部门,每个小部门里都有相应的角色,操作材料,及活动规则。小部门与小部门之间相互联系,相互作用。因此,在区域活动中,孩子们不再是盲目的、单一地、枯燥的重复活动,而是有序的、有目的的活动,真正体验到操作物之所用。例如:“糕点房”中的“饼干师”、“蛋糕师”制作产品再由“包装工”进行分类、装盘、包装,成品还可以放在中班的角色游戏“超市”中售卖。孩子们都在同一个区域中活动,虽然分工不同,但活动内容又相互联系,这充分提高了幼儿的操作积极性。提供材料,以境增趣
著名教育家陶行知在他的生活教育理论中指出:“在生活里找教育,为生活而教育”。新《纲要》也强调“教材内容来源于生活、又服务、回归于生活。”在区域活动中,游戏材料是幼儿进行区域活动的基础。教师为幼儿准备的游戏材料,包括游戏时所用的道具和各区域游戏中的成品与半成品材料,都要以小班幼儿的需要和兴趣为出发点,这是创设情境化区域的前提条件。在区域活动中提供适当的角色标志,能起到提醒幼儿认清自我角色的作用。如给扮演爸爸的小朋友提供领带,给扮演建筑工人的小朋友提供安全帽,给扮演糕点师的小朋友提供围裙等,使幼儿明确自己的角色身份,更快进入角色,产生角色行为。
在区域活动中,有些材料可以以物代物,而有些材料可以以真实物代替。例如:在“娃娃家”中为幼儿提供真实的黄瓜和塑料刀具,让幼儿切黄瓜。通过这一动作既促进了幼儿手部小肌肉的发展又让幼儿感受到游戏的真实性,增加了游戏的趣味性。
合理的材料准备可以激发幼儿的角色扮演情绪,尽快进入到情景表演中。教师作为幼儿活动的观察者、支持者、合作者应及时帮助幼儿提供幼儿喜欢的材料,使幼儿在游戏情景中再现自己的生活经验,在与同伴的互动中获得新的体验,这是体现区域活动价值的关键所在。注重指导,以境启智
语文情境化课堂识字教学方法研究 篇3
摘 要:识字教学是低年级语文教学的重要内容之一,新课标的出台进一步指明了识字教学的目标。文章对情境化课堂的内容进行简单介绍,通过论述情境化课堂对识字教学的意义,分析研究识字教学方法,从而激发学生的学习兴趣,降低学生学习难度,引导学生自主思考,激发学生情感共鸣。
关键词:识字教学;语文;情境化;教学方法
中图分类号:G623.22 文献标志码:A 文章编号:1008-3561(2017)15-0074-01
在新课程改革的推动下,情境教学法在中小学课堂中得到了广泛运用。情境教学法更符合学生的认知特点,利于营造出生动、活泼的课堂教学氛围,利于提高课堂教学质量。识字教学是小学语文教学的重要组成部分,同时,识字教学也是低年级语文教学的重点和难点。相关研究表明,情境教学法运用于语文识字教学可有效激发学生的识字兴趣,有利于提高识字教学质量。本文对如何在语文识字教学中有效运用情境教学法,不断提高语文识字教学质量进行研究。
一、创设游戏情境,开展识字教学
部分语文教师的识字教学方式过于枯燥乏味,很难激发学生的识字兴趣,不利于识字教学质量的提升。为激发学生的识字兴趣,教师可在课堂中有效创设游戏情境,让学生在快乐的游戏情境中进行识字学习。具体教学实践表明,在识字教学中创设游戏情境可有效提升识字教学质量,学生对于这样的识字教学方式也普遍能接受。例如,教师在教学“江”“河”“湖”“海”等汉字时,可设置一个组字闯关游戏,将三点水旁与“工”“可”“胡”“每”等汉字组合,组成一个新的汉字。在游戏闯关时,多媒体会发出其中一个汉字的音节,学生根据音节进行相关汉字组合,每答对一个汉字便可顺利进入下一关。这样的游戏情境创设,可让学生一边玩游戏,一边学习汉字,符合学生的认知发展规律。因此,教师在识字教学中应积极创设游戏情境,让学生在快乐的游戏情境中学习汉字。
二、创设生活情境,开展识字教学
生活情境创设是情境教学法在语文识字教学中的重要运用方式之一,教师应加强识字教学的研究与实践,让识字教学回归儿童的生活。生活情境的创设可拉近生活与识字之间的距离,让识字教学呈现出更多的生活化特征。为提高识字教学质量,很多教师会选择创设生活情境,进而激发学生的识字热情。例如,执教“明”字时,语文教师这样说道:“同学们,在生活中你们发现太阳有什么特征呢?”问题抛出后学生们纷纷思考问题。有学生答:“太阳是圆圆的,会发光发热。”有学生答:“太阳离我们很远。”听到这样的答案,教师接着问:“那么,月亮呢?月亮有何特征呢?”对于此问题,有学生答道:“月亮也是圆圆的,能绽放出皎洁的光芒。”学生回答完毕后,语文教师总结性地说道:“是啊,月亮和太阳都能发光,可以给世界带来光明。所以,古人造字时也非常有智慧,将‘日’和‘月’组合在一起,便形成了‘明’字。”这样的教学方式,很容易让学生记住“明”字的具体结构与写法,能在?W生的头脑中留下极为深刻的印象。很多汉字在造字时本就来源于生活,因此在生活情境的影响下识字更具高效性。识字教学看似困难,但只要找对方法同样容易,在识字教学中创设生活情境可以让识字教学更高效。
三、创设字谜情境,开展识字教学
字谜是中华民族传统文化的结晶。在日常教学之余,教师经常能发现有学生围在一起猜字谜。从他们猜字谜的表情和神态中,教师可深深感知到他们对猜字谜的热爱。基于此种情况,教师在识字教学中可积极创设字谜情境,让字谜情境的创设引领识字教学质量的提升。例如,执教“我”字时,教师这样说道:“同学们,我知道猜字谜是你们的最爱。接下来,老师也想让你们猜一个字谜,你们愿意尝试挑战吗?”听到教师提议猜字谜,学生们都跃跃欲试。于是,教师在黑板上板书字谜:天鹅飞去鸟不归。字谜呈现后,学生们苦苦思索,大部分学生脸上的表情非常凝重。但很快有学生答道:“谜底是‘我’,‘鹅’字去‘鸟’就是‘我’。”听到这个学生的准确回答,班里其他学生立即给予热烈的掌声。在识字教学中创设字谜情境,不仅可以活跃识字教学氛围,而且可以激发学生的识字学习兴趣。因此,教师应积极在识字教学中创设字谜情境。
四、结束语
总之,情境教学法在提升识字教学质量方面是极有帮助的,可解决识字教学质量不高的难题,可解决学生识字兴趣普遍不高的难题,可解决识字教学方法单
一、机械、死板的问题。语文教师在识字教学中应积极运用情境教学法展开教学,不断提升识字教学质量。在识字教学中,除了创设上述几种情境之外,教师还可通过创设联想情境、故事情境、体态情境来开展识字教学。
参考文献: