回归方法(通用12篇)
回归方法 篇1
一、问题提出
在多元线性回归模型中,如果解释变量之间存在着密切的线性相关关系,就称它们之间存在着多重共线性. 在出现多重共线性情形时,普通最小二乘估计不再适用; 回归参数的估计值方差会很大,从而影响自变量对因变量的解释;估计的精度会降低; 估计的效果也会变坏. 在实际经济问题的多元回归分析中,多重共线性的现象很多,这时我们就应该寻找另外的回归方法对参数进行估计.
二、方法介绍
如果在实际问题中出现了多重共线性的现象,我们可以选择用有偏回归方法———岭回归( RR) 和偏最小二乘回归( PLS) 来处理. 岭回归是利用岭估计( X'X + k I)- 1X' Y来替代普通最小二乘估计( X'X)- 1X' Y,从而消除了普通最小二乘估计中矩阵X'X无法求逆的问题. 偏最小二乘回归是先在自变量集和因变量集中分别提取第一潜在因子t1与u1,其中t1与u1分别是自变量与因变量的线性组合,要求t1与u1尽可能多地提取所在变量组的变异信息,且t1与u1的相关程度达最大,然后建立因变量与t1的回归方程,若回归方程不能达到满意的精度,则继续提取第二潜在因子,否则停止.
三、实例比较
根据理论及对现实情况的认识,拟建立以我国国民总收入( 单位: 亿元) 为因变量y,以就业人员数( 单位: 万人) 、财政收入( 单位: 亿元) 、能源生产总量 ( 单位: 万吨标准煤) 、国有单位工资总额( 单位: 亿元) 和城镇集体工资总额( 单位: 亿元) 分别为自变量x1,x2,x3,x4,x5的线性回归模型. 由《中国统计年鉴》查得相关数据如下:
在SAS软件上使用REG过程来建立最小二乘回归方程,所有自变量的方差膨胀因子都大于100,诊断出模型中存在非常严重的多重共线性问题. 用最小二乘法所得到的回归方程为y = - 431189 + 6. 13224x1- 0. 18088x2+0. 44051x3+ 5. 69125x4- 13. 63786x5.
可以看到方程中,自变量x2,x5的系数为负,这显然与事实不符,这正是由多重共线性所导致,因此最小二乘回归求出的回归方程不利于模型的解释,下面改用岭回归方法来建模.
用SAS软件中的REG过程,求解岭回归方程. 由岭迹图可以看出,当岭参数k≥0. 02后,岭迹曲线趋于稳定,因此,取k = 0. 02的岭回归估计来建立岭回归方程为
这时,回归系数的符号符合实际意义.
现在用偏最小二乘回归方法来进行处理,用SAS软件中的PLS过程建立偏最小二乘回归方程,用最常用的舍一交叉验证法来抽取偏最小二乘的成分,结果抽取了3个偏最小二乘成分,得到偏最小二乘回归方程为
这时,回归方程中的回归系数的符号也都符合实际意义.
根据前面得出的岭回归方程和偏最小二乘回归方程,计算出衡量模型拟合效果好坏的平均绝对百分误差和复测定系数,得到相应的数值如下:
四、总 结
从上例可以看出,在多元线性回归模型中出现共线性问题时,最小二乘回归方法已经不再适用,而用岭回归和偏最小二乘回归这两种有偏回归方法都可以处理多重共线性问题,且从表2的结果可知,两种方法建立的回归方程拟合的效果都不错,而偏最小二乘回归方法相对岭回归方法要更优.
摘要:文章介绍了处理多元线性回归模型中多重共线性问题的有偏回归方法——岭回归和偏最小二乘回归,并通过实例比较了两种方法建立的回归方程的拟合效果,而偏最小二乘回归方法相对岭回归方法要更优.
关键词:多重共线性,岭回归,偏最小二乘回归
回归方法 篇2
回归分析方法在环境领域中的应用评述
摘要:回归分析是一种处理变量间相关关系的有效数理统计方法,回归分析模型目前已应用于环境领域的多个方面,并在实际应用中证实了其准确性和可行性.基本回归分析方法有一元线性回归、多元线性回归和逐步回归等,通过概述了这几种基本回归分析方法的原理及其在环境领域中的`应用现状,评述了其应用效果,并预测了回归分析技术在环境领域中应用的发展方向;对在众多环境科学与工程研究领域中,更好地发挥回归分析的作用具有很好的参考价值.作 者:张菁 马民涛 王江萍 ZHANG Jing MA Min-tao WANG Jiang-ping 作者单位:北京工业大学,环境与能源工程学院,北京,100022期 刊:环境科技 ISTIC Journal:ENVIRONMENTAL SCIENCE AND TECHNOLOGY年,卷(期):2008,21(z2)分类号:X1关键词:回归分析 线性回归 环境预测 环境评价 地理信息系统
古诗文背诵方法的理性回归 篇3
我在多年教学实践中发现,属于后者的达60%左右。背诵能力强弱,一方面要与每个人的智力有关,另一个方面也与是否有好的背诵方法有关。背诵方法得当,完成背诵任务就快速,没有背诵方法或背诵方法不当或背诵方法单一,完成背诵任务的难度就会大些,花费的时间和精力就会多些。有些教师批评迟迟完不成任务的学生:“人家背上了,你为什么背不上?”“你看你,三天了,一篇课文还背得半生不熟,像话吗?”学生被批评得哑口无言。这种批评不但对学生完成背诵任务毫无效果,同时容易给学生心灵造成创伤,是不可取的。
像这样要求学生背诵,好比只教给学生“过河”的任务,没有帮助他们解决“桥”或“船”的问题。笔者认为,在要求学生完成古诗文背诵任务的同时,要教给学生有效的背诵方法,让背诵方法回归理性。在多年的教学实践中,笔者根据古诗文的内容特点,尝试指导学生运用以下方法进行背诵,收到很好的效果。
一、接龙背诵法
这是模仿成语接龙游戏的一种方法。教师在课堂上组织背诵,以要背诵课文的句子为单位,学生轮流背诵,背不出来的由下一个同学接上。这样,在口耳相传中,起到互相提示的作用,从而加深了印象,特别是背诵的难点,在接龙中得到强化,能提高集体背诵的效率。如果接龙时再分小组竞赛,则更能调动学生背诵的兴趣,使学生在轻松愉快的氛围中背熟课文。
《木兰诗》有62句,我指导学生采用接龙背诵法背诵,背诵一遍时全班学生刚好每人可以轮背一句,他们背诵的积极性很高。检查背诵结果显示,大部分学生能当场成诵。
《桃花源记》这篇课文较长,如果以逗号为单位,有73句,背诵一遍,全班学生每人轮背一句还背不完,有的学生轮背了两句,几遍接龙背诵后,大家的机会就差不多了。检查背诵结果显示,很多学生在第二天就能顺利背诵课文。
二、线索背诵法
这是一种常用的快速背诵的方法。选取有代表性的几个关键词语作为线索来提示背诵,用得好,能使背诵取得事半功倍的效果。
检索长时记忆中刺激信息存储的主要方法是回忆和再认。回忆是过去经历过的事物的形象或概念在头脑中重新再现的过程,分为两种。一种是自由回忆,即自由地提取刺激信息的过程;一种是线索回忆,即将某种刺激信息作为回忆提示而提取信息的过程。实验结果表明,有线索回忆的成绩要优于自由回忆,因此,抓线索背诵法不仅能快速地背诵课文,而且能锻炼学生的记忆力。
在指导学生背诵《陋室铭》时,我让学生抓住“陋室不陋”四字作为线索。前六句以类比的方式点题,中间八句写“陋室”的环境和生活情况,结尾四句用类比作结,让学生在理解的基础上背诵。检查背诵结果显示,学生很快记住了线索并顺利背出课文,也增强了学生的记忆能力,取得很好的背诵效果。
三、串字背诵法
串字背诵法就是在一定数量的诵读基础上,将语言材料几个句子的首字或关键字串在一起,并附加一定的意义,使之组合成为一句完整的句子,不能组成句子的,有时还要使用谐音的方法。这种背诵方法,对要求背诵的语言材料进行了深度的意义加工,从语言材料中抽取几个首字或关键字,就是对刺激信息的重新组织,把这些字组织成为一句有意义的话语,则能把语言材料顺利纳入自己已有的知识结构和经验当中,便于记忆、保持和提取。因此,串字背诵法是一种简便、实用、高效的背诵方法。
《岳阳楼》这篇课文,由于内容较长,而且二、三段写景很多,很多学生在背诵时漏了句子,我指导学生找出第二段几个写景句子的首字“雨”“连”“风”“浪”“日”“山”“商”“墙”“薄”“虎”组成一句话:雨连风浪,日山商墙薄虎。想象“这天,雨很大,连着狂风巨浪,日山商墙(商场名字)的薄虎也来了”。再找第三段写景句子的首字“春”“波”“上”“一”“沙”“锦”“芷”“青”组成一句话:春波上,一沙锦芷青。想象“春天,波光上有一只沙锦,它叫芷青”。这样,学生很快就记住了内容,再也不会漏掉句子了。
四、听读背诵法
生理学家认为,让视觉和听觉共同参与记忆,要比单用视觉和听觉,提高记忆效果30%~40%,这种记忆方法,人们称为“协同记忆法”。根据这一理论,在练习背诵时,可适当播放课文录音,使学生边读课文,边听录音,从而形成记忆信息的双重刺激,以强化记忆效果,达到背诵的目的。
比如在课堂上,可以以竞争的方式来背诵,先给学生一定的时间自由朗读,然后以小组为单位朗读,看谁读得好。这样,学生们在不自觉的情况下又认真地听了好几遍,最后由一组学生背诵,三组学生打分,不断轮流背诵。这样,学生不但加强了注意力,提高了对记忆内容的兴趣,同时也提高了记忆的目的性和积极性,从而达到背诵的目的。在课外,还可以让学生利用休息、做家务的时候,播放录音,强化记忆,从而达到背诵的目的。
五、图画辅助背诵法
俗话说,书画同源。其实,文画亦同源。“诗中有画,画中有诗”,就揭示了文与画之间的联系。如果教师能将抽象、凝炼的语言与具体的形象实物联系起来,将古诗文中的“形象”化为可作用于视觉的一幅幅栩栩如生的投影图片,可以使学生看得清楚,感受得真切,从画面线条、色彩、明暗、浓淡、深浅、主次中迅速地立体地感知诗文的内容,那么教学往往会受到事半功倍的效果。因此,通过恰当的图画把课文语言文字内容具体化、形象化,收到“一图穷万言,尺幅览千里”的效果。我常常利用课文的插图或教学图片或让学生自己画简图,指导学生进行背诵。如对于温庭筠的《梦江南》,让学生看着课文的插图背诵,准确率为100%。
我一向以来都鼓励学生根据诗意大胆想象,自己动手在画纸上为古诗《归园田居》《望岳》《黄鹤楼》等配画。一张张意象万千的图画,展现了学生对诗意的理解程度,也丰富了他们的想象力,更让他们在诗的意境中受到了美的熏陶。鼓励学生动手作画,其实就是让他们在“做中学”,通过为诗作画,反馈出他们对诗的理解,大大提高背诵的质量。
六、提问背诵法
提问是促进学生思维、深入理解课文的一种有效手段。在背诵前先把背诵内容分解为一个个小问题,然后看问题,凭记忆背诵文章。这个方法比较适合叙事性的古诗文。如指导《石壕吏》一文的背诵,我提出以下五个问题:
1. 在什么时候,什么地点,发生什么事?——暮投石壕村,有吏夜捉人。
2. 老翁和老妇怎么办?——老翁愈墙走,老妇出门看。
3. 面对官吏,老妇如何应付?——吏呼一何怒!妇啼一何苦!
4. 老妇家里还有什么人?他们的情况怎么样?——听妇前致词:三男邺城戍。一男附书至,二男新战死。存者且偷生,死者长已矣!室中更无人,惟有乳下孙。有孙母未去,出入无完裙。
5. 事情的结局如何?——老妪力虽衰,请从吏夜归,急应河阳役,犹得备晨炊。夜久语声绝,如闻泣幽咽。天明登前途,独与老翁别。
学生如果知道了这些答案,一定就能加深对课文的理解,加快对课文的背诵。
帮助学生解决“桥”或“船”的问题之后,不仅大大地加快了他们完成“过河”任务的速度,而且有效地提高了教与学的质量。尤其是在初三下学期,需要复习背诵大量古诗文,课堂上人声鼎沸的景象让人欣慰。“老师,我不再害怕背书了。我现在有点爱上背书了。”这是一个尝到背诵的甜头,由原来低分提高到八十多分的学生在周记上写的一句话。
当然,一文可用多种背诵方法,方法因文而异,因人而异,只要肯去摸索,一定还有很多好的背诵方法。学生只有掌握了有效的背诵方法,就一定可以积累更多的材料,从而提高学习积极性,进一步提高文学素养。
浅谈回归传统针刺方法 篇4
1 形神合一
临床上有些针灸治病的例子, 有的辨证准确, 选穴合理, 针刺治疗之后却不能得到令人满意的疗效, 也有针刺灸法拔罐放血等多种方法合用, 费了劲但病却没有治好, 这常常引起我们深思。引用《黄帝内经·汤液醪醴论》中原文:“帝曰:形弊血尽而功不立者何?歧伯曰:神不使也。帝曰:何谓神不使?歧伯曰:针石, 道也。精神不进, 意志不治, 故病不可愈。”形神相俱是关键, 中医不仅在养生摄神方面提倡形神相俱, 而且在针刺诊治疾病方面也强调。五花八门的操作技术好比是“形”, 有形可见。“意随针入、力伴针行、意力合一、以意领气”中意与气虽无形而可证, 终究易陈难入。意、气、针三者的结合才是形神相俱, 而独有操作技术只是有形而无神, 为下工所取。
2 人针结合
2.1 针灸现状
电针法是广泛应用于国内针灸临床的现代针刺技术产物的代表, 是将针刺入腧穴得气后, 在针具上通以接近人体生物电的微量电流, 利用针和电两种刺激相结合, 以防治疾病的一种方法。现代研究将针灸刺法刺激过程简单分解为刺激强度和时间的结合, 以电针法代替人做长时间的持续运针。这样的捷径让很多人忽略了扎扎实实练习基本功, 内容包括指力和运针。国内外著名的黑龙江中医药大学针灸大师张缙深刻回忆到他在向一位刘老先生学针灸时得到的诀窍仅是一“练”字。基本功练习过程是一个步步迎难的过程, 但每一次的突破又犹如登七星宝塔, 层层惊喜, 浑然不知疲倦。练针贵在坚持, 不练则为废。张老推荐练习指力的方法就是扎纸板, 常用快递及邮政瓦楞纸箱多层压缩粘合而成, 沿着突起的棱线间隔有致地扎针。扎针练习过程将手部肌肉和力量相结合, 练习久了握紧拳头时合谷穴附近及手背掌骨间肌肉明显隆壮, 更重要的是集中意念由指到针, 气随意到手, 力贯于针。运针的练习归于搓这个动作, “西北针王”的郑魁山老先生常众目睽睽十指搓手, 练习手指的灵巧。平时手中常搓着针、牙签或火柴杆都可以练习心手相应, 增强指感和灵活运针。指力练的是刚, 运针练的就是柔, 刚柔结合。人与针的结合将针做为人身体延展的部分, 自然使用起来转动自如, 进退毫芒之间。
2.2 贵在调神
诊病前需要调神, 包括调节医者自己和患者的神。医者先调整自己的呼吸, 平定心神乃可诊病人之色脉, 知脏腑气血虚实盛衰。患者受针前, 取好合适体位, 深吸缓呼, 舒缓身心, 方可予针。人与针的结合不仅仅是指医者与针, 也包括患者对针的接受, 所以消除患者顾虑以促使其从身心上接受针灸调理一样不可或缺。医者往往只注重个人自己与针的高度结合, 却忽略了患者与针的结合一样是人与针结合隐藏的重要一面。再者, “治之要极, 无失色脉, 用之不惑, 治之大则”察色按脉及问诊是诊治之要, 不可不查。患者的身体情况每天都在变化, 病情也在变化之中, 如果不细细体察, 针灸就没有治疗的方向和标准。针完之后最好能再把脉问诊从病人反馈评价治疗效果, 即“审视血脉, 刺之无殆”。最后, 叮嘱患者针灸后的注意事项, 避免针灸效果打折扣。
3 证-穴-法层层相扣
3.1 虚补实泻原则
针灸辨证应以“补之不足, 损其有余”为原则指导临床, 而取穴当先从阴阳着眼, 调整阴阳的偏盛偏衰, 以达阴阳平衡, 次从五行入手, 并结合五行之间的生克制化关系, 补虚泻实, 以此达到“阴平阳秘”的状态。
3.2 重视单式手法
针刺手法是针灸技术的核心。在辨证准、取穴精为前提, 结合得气的基础上行针刺手法, 达到气至病的效果为最佳。《灵枢》记载:“刺之要, 气至而有效, 效之信, 若风吹云, 明乎若见苍天, 刺之道毕矣。”生动描述了循经感传与起效标准, 是历代许多针灸临床家所努力去掌握的。张缙老先生30年来汲取历代针灸大家和近代针灸名家的针灸精华, 在循经感传和针刺手法的研究上做出非凡成就, 打开了针灸研究的新局面。在针刺手法上整理出了二十四式单式手法“揣、爪、循、摄, 摇、盘、捻、搓, 进、退、提、插, 刮、弹、飞、摩, 动、推、颤、努, 按、扪、搜、拨”, 集取穴、候气、催气、行气等手法于一体, 是针灸技术的高、精、尖部分, 也是提高针灸临床疗效的关键。
3.3 重视复式补泻手法
在“虚则实之, 满则泄之, 宛陈则除之, 邪胜则虚之”“热则疾之, 寒则留之”治疗原则下, 使用徐疾、迎随、开阖、呼吸、提插、捻转等补泻手法。往往针下感觉能给医者很多信息, 针下空虚如插豆腐且患者针感微弱应催气, 气至针下行补法;针下紧实且患者针感强烈当泻法。这是随经络实际情况行补泻。补泻是否有效针下亦有感觉。补法得当出针时感觉吸紧, 当按而出针, 患者自觉针感持久;泻法得当出针有松动感, 血出得泻, 无须按压针口, 擦去血迹即可, 针出而患者不知。再者, 调寒热中“烧山火”是一种用针刺使机体产生热感的手法, 《灵枢》里“徐而疾则实”, 即是此言。细言之是得气的情况下带力慢进针, 这是取热的最基本方法, 慢进针是主操作, 而快出针是相配合的从属操作。相反, “透天凉”是一种用针刺使机体产生凉感的手法。《灵枢》里“疾而徐则虚”所指即是此, 简而言之是在得气的情况下, 带力慢出针等, 这是取寒的最基本方法。补虚泻实调寒热, 最后“审视血脉, 刺之无殆”。
4 大医精诚
医生的医德是患者信任的根本, 技术是关键, 言语是桥梁。《老子》三十六章:“将欲夺之, 必固予之。”病在人之中, 想要拔除病根还得过病人心理这一关, 况且当下医患关系紧张, 病人皆带有防范心理, 加之社会压力大, 情志心理疾病重, 病必不好治。医者若心存大德, 必彰之有道。人其实心里藏着一杆秤, 事情看在眼里, 记在心上。若将医德体现于行动上, 少言多奉献于体恤病人上, 信任垒于分毫, 日久积可及丈。若遇患者倾诉苦衷, 予以语言调解, 涕泪聚下后如释重负, 针未下, 病已调好了大半。有医德, 语言才有了分量, 善于沟通很关键。心病还需心药医, 不能只靠针下。
综合上述, 传统针刺已经在中国沿用了上千年。现在临床多开展传统针法与现代物理疗法相结合, 产生了电针疗法、电热针疗法等, 其在普通的针灸治疗场所非常普遍, 而依靠单纯传统针刺的治疗已经是少之又少。管针在国外普遍使用的热潮, 似乎有向国内蔓延的趋势。现在针刺在高科技的包装下已经远失了2 000多年前的味道, 也渐失去了针刺的灵魂。于是, 就出现了不上电疗就不自信了的针刺治疗, 即使上了, 未必能与传统针刺疗效相比。电针与管针也只是当今针刺趋势的两个代表, 代表着传统针刺在退步, 在创新浪潮中淡出。然而, 电针与管针并不能给我们培养出国医大师。众多老一辈的针刺大师一再提倡回归到传统针刺上。“腠理至微, 随气用巧, 针石之间, 毫芒即乖。神存与心手之际, 可得解而不可得言也”, 扎扎实实练习指上功夫, 专研经典, 传承祖国医学之精髓。
参考文献
[1]赵耀东.传统针灸方法和现代针灸运用技术关系探讨[J].甘肃中医学院学报, 2005, 22 (1) :10-12.
[2]田代华整理.黄帝内经素问[M].北京:人民卫生出版社, 2005.
[3]田代华整理.黄帝内经灵枢经[M].北京:人民卫生出版社, 2005.
回归方法 篇5
利用中国1987~国内生产总值(GDP)和人口总数作为自变量,每年的用电总量作为因变量建立了多元线性回归模型.并根据中国GDP的增长率和人口自然增长率预测了~的.GDP和人口总数,并以建立的模型为基础预测了中国未来的用电量.
作 者:王鹏飞 WANG Peng-fei 作者单位:淮北国安电力有限公司,安徽,淮北,235000 刊 名:东北电力技术 英文刊名:NORTHEAST ELECTRIC POWER TECHNOLOGY 年,卷(期): 26(8) 分类号:F407 TM715 关键词:用电量 多元线形回归 预测
回归测试中机器挑选用例方法研究 篇6
【关键词】机器学习;回归测试;测试用例
1.引言
机器学习(Machine Learning, ML)是一门交叉型学科,它涉及到了多个领域,包括:概率与统计学、高等数学、逼近和凸分析等。机器学习人类的学习过程和学习行为,并且加以计算机的模拟或实现。在机器学习过程中,机器本身了获取新的知识或技能。
在机器学习和人工智能的壮大发展的时代背景,对传统的测试工作提出了一些新的挑战。研究通过机器学习的方法,提升传统的测试工作的效率,进一步的提高整个软件开发活动的劳动生产率。
2.软件测试工程的研究综述
软件测试是用于分析是否程序出现错误的过程,测试使用人工操作或者软件自动运行的方式。每个不同的软件有对自身错误的定义方式:通常是软件需求规格中定义了预期结果。
软件测试分类
1、从是否要变异/执行被测试软件分类,分为静态测试和动态测试。如基于代码审查的单元测试,以及相关代码审查工具,都属于静态测试的范畴。
2、从是否要针对软件结构、算法进行覆盖分类,分为白盒测试和黑盒测试。
3、从测试活动在软件开发过程中所处的不同阶段分类,分为单元测试、集成测试、系统测试、验收测试。
我们这里讨论的“回归测试”是属于系统测试的最后一个阶段。
在修改了旧代码后,需要对这部分子都进行测试,以确保这个代码修订没产生新的错误。在大多数情况下,回归测试占测试周期和测试自由的50%。因此,如果能够制定更有效的回归测试用例,将极大的提升整个测试的效率。
回归测试的流程如下:
(1)找出程序中因为新增需求或者故障解决,而被修改的代码
(2)从总的用例库中,去除掉不再合适的测试用例:这部分用例可能是修改没涉及的功能,也可能是一些系统性稳定性的低优先级的测试用例
(3)针对修改的影响部分,增加一部分相关模块的测试用例
(4)搜索出最基本的测试用例,纳入到测试计划:这部分测试用例保证软件不出现意外的基本功能错误
(5)用上述2~4的测试用例集合,形成回归测试的测试范围
3.现有回归测试用例选择方法
对于一个软件开发项目来说,项目的测试组在实施测试的过程中会将所开发的测试用例保存到“测试用例库”中,并对其进行维护和管理。当得到一个软件的基线版本时,用于基线版本测试的所有测试用例就形成了基线测试用例库。在需要进行回归测试的时候,就可以根据所选择的回归测试策略,从基线测试用例库中提取合适的测试用例组成回归测试包,通过运行回归测试包来实现回归测试。保存在基线测试用例库中的测试用例可能是自动测试脚本,也有可能是测试用例的手工实现过程。
针对修改部分的测试是我们希望改进的内容
当前是优秀的高级工程师逐一的查看开发提交的各个修改点,根据自己对相关部分的理解,以及对开发修改点的学习。整理出需要回归的测试点:这种方法的主要问题是:
需要优秀的工程师参与,这位工程师必须同时具备:既了解测试组的全部测试用例库,也需要能够理解开发提供的修订说明。
每一轮测试完成后,就需要人工干预,从而产生下一轮的测试用例
替代人工的方法是,为每一轮测试,执行类型level 0/1/2这样的测试用例等级。这样同样会带来冗余的测试用例执行,拉长了测试进度。
4.机器选择测试用例的方法
用机器来模拟和替代人工的挑选测试用例:是在回归测试中引入智能化方法的先决条件。整体按照如下的流程:
首先进行的是为每一条测试用例,生成不同的特征向量。在这个步骤中,将原始的测试用例转变成为“记录每个词出现的频率”的数学符号。最后生成如下表格:
其中行代表不同的测试用例,列代表不同的词语描述,数字代表不同的词语在不同测试用例中出现的词频。
然后,根据TFIDF算法将测试用例生成的文本特征向量,转换成为最终的文本特征向量。
这样,表一通过TFIDF算法最终转化的向量表示如下:
完成了特征词语的选择后,就要给选出的特征词语赋以权重。比如“测试”一词,在每个测试用例中都有出现,那么这个词虽然词频很高:但是“权重为零”——也就是说这个词对于描述不同测试用例的不同特征,无任何帮助。对于本研究方案而言,我们使用TF*IDF算法,计算出精确的统计量,以描述特征词语对于中文内容的重要性。
最后,将代码变更说明收集起来,计算特征向量。同时将测试用例库中的内容也做成特征向量。逐个的拿代码变更的特征向量,与用例库中的特征向量进行对比:选出与代码变更特征向量相识程度最高的。这个特征向量所代表的测试用例,既为下一轮回归测试的输入。在这个模块中,我们选择KNN算法,KNN算法也叫K最近邻算法。抽取测试用例库中的每个文本,逐一的与被测试的向量进行比较,每个比较完成后相似度被计算出来。下一步:找出K个最相似的测试用例。并在此基础上给每个被选出的测试用例打分,取分值大者作为比较结果。具体计算公式为:
其中:d为待测文本(开发提交的代码变更说明)向量,q为训练集中文本(原始的测试用例描述)向量。
这里给出一个具体实践:
开发提交了一个代码变更说明如下
最后机器推荐的相关性最紧密的四个用例,如下表:
可以看出,这四个被挑出来的点,都是对ACL重定向的测试:并且测试覆盖了物理端口、AP端口、SVI端口三种不同的端口类型。
进一步的,对这部分的测试进行基于代码覆盖率的验证,可以证明机器挑选出的四个测试用例,确实的有测试覆盖到开发修订的代码。
5.结束语
让机器来自主选择回归测试用例,然后将这个方法融入到自动化测试框架中。让自动化测试框架具有一定智能,能够“自主的产生回归测试用例的变化集合”。譬如整个ACL模块测试用例个数达到300,如果全部回归费时费力,而人工参与分析则会打断持续的自动化测试过程。新方法使用四个测试用例,就可以对开发修订提交的代码进行覆盖;这样一方面我们减少了回归测试的测试用例个数,另外一方面开发修订的代码,也被完整的测试了。
参考文献
[1]米歇尔(Mitchell,T.M.).机器学习.机械工业出版社,2008-03-01
[2]盧苇,彭雅.几种常用文本分类算法性能比较与分析.湖南大学学报(自然科学版), 2007.
[3]JOACHIMST.A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization Nashville:1997:143-151.
回归方法 篇7
“把握问题本质, 凸显数学方法, 发展思维能力”应是复习备考、落实《课程标准》的核心目标, 以此为标杆, 夯实基础, 回归课本, 把握重点, 融会方法, 培养能力.回归课本, 就是要求同学们回忆以前学过的数学基本概念及相关问题, 由此发现数学问题的本质, 找到数学问题的源头, 这有利于同学们在解题中能够展开有质量的联想与探究.
总之, 在学习中, 应该及时对解题方向和方法进行反思归纳, 从而把握数学思想方法的实质, 发展思维能力.
回归分析方法你用对了吗 篇8
谈及统计方法,大多数学过统计或经济的人首先想到的应该就是线性回归分析。回归分析,是用来研究一个变量(被解释变量)对另一个或多个变量(解释变量)的依赖关系,通过建立模型,寻找数据内部规律,可通过给定的解释变量预测被解释变量,是目前应用最广泛也是最为基础的一种分析工具。这种方法操作简便,结果易于观察和分析,因此许多调查公司、许多统计学、经济学等都非常乐于使用线性回归方法。在不考虑变量个数、变量类型、变量关系、变量限制条件的情况下就直接使用该方法,只要有足够数据,统计软件仍然可以输出估计结果,甚至通过检验。如果没有通过检验通过一定方法消除,正如我的那位朋友试图做的。那么,假如通过一定方法使模型通过检验,得到的结论就可靠吗?答案是否定的。这里的原因是多方面的,但变量的选取、使用方法是否正确等都是非常重要的原因。这里主要针对线性回归方法进行说明。
统计方法并非万能的,任何统计方法都有一定的前提条件,线性回归方法也不例外。因此清楚其前提条件对使用者来说是非常重要的。主要包括:①解释变量是非随机或固定的(同一数据不会因为重复抽样而变化);②随机误差项(模型中解释变量以外的部分)相互独立,且服从期望值为零、固定标准差的正态分布;③解释变量与随机误差项之间不相关;④解释变量之间互不相关;⑤回归模型的设定是正确的;⑥解释变量之间不存在严格的线性关系。利用各种统计软件对模型估计的结果,是通过严谨的数学计算得到的,然而在实际生活中,一些假设条件往往得不到满足,这时如果仍然用这些结果进行分析就会出现各种问题,估计结果也毫无价值。常见的情况主要有以下几种:
一是非因果关系。回归分析是用来处理一个变量与另一个或多个变量之间的关系,并不一定说明解释变量是原因,被解释变量是结果。如果把两个或者几个互不相关的变量做回归分析,也有可能通过检验,但毫无意义。因此,在针对相应问题选取影响因素时要以一定的实践经验和相关理论为基础。在分析方法上,可以借助格兰杰因果关系检验方法检验是否存在因果关系。
二是异方差和自相关。在许多应用线性回归方法的文章中,大部分都只是给出了参数估计结果、参数的显著性检验结果和拟合优度检验结果,并不会考察模型可能存在的异方差和自相关问题。但是在利用时间序列数据或截面数据进行回归时,很有可能存在异方差(随机误差项的标准差为非固定值)、自相关(随机误差项之间不相互独立),这可以说是最常见的回归分析的误用。
引起异方差的原因主要有:一方面遗漏重要变量造成,遗漏的变量包含在残差项中,当其与其他解释变量有相关关系时,就会引起异方差;另一方面采用截面数据时,由于不同样本点上解释变量以外的其他因素差异性大造成。引起自相关的原因主要有:第一,数据固有的惯性和滞后效应造成,尤其是采用时间序列数据时,变量在时间上的惯性往往是造成自相关的主要原因;第二,遗漏重要变量造成,遗漏变量在不同时间点上的相关造成残差项的自相关;第三,由生成数据造成,在实际问题中,一些数据是由已知数据生成的,新数据与原始数据之间就很有可能表现出序列相关性。因此,在建立模型之前,熟悉数据类型,抓住重点,对后面建立的模型有针对性的进行检验,保证模型的有效性。
三是大量解释变量。线性回归分析方法的应用中,一种非常普遍的现象就是:不管解释变量个数多少,先建立多元线性回归方程,直接进行估计,这就会造成严重的多重共线性(解释变量之间相关度非常高,违背解释变量之间互不相关的假设条件)。由于实际中各因素之间往往存在很强的共同趋势,会造成模型估计失效。当变量不是很多时,可以逐一删除不显著变量,反复试验,直到通过检验;但是当变量非常多时,逐一删除变量的方法可能会删除重要变量,或者变量不能删除时,就需要改用其他方法,比如主成分分析、因子分析等。理论上对多个解释变量进行回归分析是可行的,但对实际问题进行分析时,解释变量个数一般不要超过3个。
四是系数表示权重。在线性回归方程中,各变量的估计系数代表该解释变量变化一定程度引起的被解释变量的变化程度。在一元回归中,用估计系数表示二者之间的相关系数是可以的,但是多个变量时,由于模型本身就存在问题,以此为基础确定的权重会不准确。这正是我的那位朋友面临的问题:模型解释变量之间存在严重的多重共线性,又不能通过减少变量消除共线性。此时,如果采用主成分分析、因子分析、专家赋权、层次分析法(AHP)等方法,应该能够很容易解决问题。但是,面对如此多的变量,他不断试图运用各种方法对模型进行修正,我不得不表达对他这种钻研精神的敬佩。这位朋友的困境也警示我们选对正确分析方法是多么重要。
五是长期稳定趋势。建立经典回归模型时变量数据需要是平稳的数据序列,否则会出现虚假回归现象。但现实中许多变量又往往是非平稳的,如果对于非平稳数据直接建立模型,其结果就不可信。这就给经典回归分析方法造成很大的限制。如果利用差分法把非平稳数据序列变为平稳数据,会丢失一定的信息,影响分析结果,达不到预期分析目标。这种情况下,可以首先对所有变量进行协整检验,检验变量间是否存在协整关系。如果存在协整关系,则可以直接建立模型,而不需要对数据进行处理,模型分析结果也就具有较强的可信度。
通俗地讲,协整关系就是指变量之间存在长期稳定的均衡关系。如果几个非平稳的变量序列具有协整关系,则他们建立的回归模型就具有长期稳定的变化趋势,以此建立的模型分析结果也更具有说服力。例如从长期看,消费与收入之间存在一定均衡比例,虽然这个关系有时会偏离这个比例,但这种偏离只是随机的、暂时的,则消费与收入的这种关系就是协整关系。
基于逻辑回归的口语理解方法研究 篇9
口语理解( Spoken Language Understanding,SLU) 是口语对话系统( Spoken Dialog System) 的重要组成部分,其主要功能是分析用户输入语句,提取语义信息,获得语义表示[1]。目前的口语理解研究都是面向特定领域的(Domain-Specific)。口语理解的方法主要可以分为两大类:基于规则的方法以及数据驱动的方法。基于规则的方法使用人工编写的规则,通过文法分析来进行口语理解;数据驱动的方法则使用数据集建立统计模型。虽然基于规则的方法不需要大量标注的语料库,但由于语音识别结果并不完全准确,所以在实际应用中,其鲁棒性较差。数据驱动的方法则克服了基于规则的方法的这些缺点,其又可细分为生成式方法( Generative Approach) 和鉴别式方法( Discriminative Approach) 。生成式方法对输入语句u和其语义表示c建立联合概率模型P( u,c),根据贝叶斯法则计算后验概率。生成式模型往往假设语义序列为马尔科夫链,语义表示为隐藏状态,语句为观测值,这种方式不利于对语义序列进行长距离建模。 判别式方法直接对后验概率P( c | u) 建模,其语义分析结果通常优于生产式方法[2]。然而,以条件随机场为代表的判别式方法,需要对语料库增加额外的语义序列标注,这大大增加了语料库标注的工作量和难度。为了避免额外标注所增加的负担,近期的一些文献[3 - 4]提出了语义元组分类器模型( Semantic Tuple Classifier,STC),其是一种通过递归调用支持向量机分类器来建立语义树的口语理解方法。
本文提出一种基于逻辑回归的口语理解方法。首先,通过提取输入语句的N-Gram特征,建立所有可能的语义要素的二类逻辑回归模型。然后,根据应用领域的语义限制,利用语义要素的互斥性和独立性,建立联合后验概率模型。本方法与STC模型的区别在于,采用逻辑回归模型速度更快,参数直观易调,搜索空间更小,解码更迅速;此外还引入了应用领域语义限制,解码性能有所提升。
1 基于逻辑回归的口语理解方法
1. 1 语义的表示形式
不同的口语对话系统有不同的语义表示形式,但大多数都能抽象为语义框架(Semantic Frame)[5]。语义框架由两部分组成:对话行为(dialog act) 和槽(slot)。对话行为又称为意图(intent),表示语句的会话层意义,一个语义框架只有一个对话行为;槽可以用值(value)填充,槽- 值对(slot - value pair)表示语句中的具体信息,一个语义框架可能有零个、一个或者多个槽。假设语义框架的对话行为为d ,所有槽排列成向量,对应的值向量为,则语义框架可以表示为
本文使用的DSTC2 数据集的应用领域为餐馆查找,语种为英语。表1 列举了DSTC2 数据集中的语义表示的一些例子。第一列为人工转写( transcription) 语句,语句字母均为小写,无标点;第二列为该语句对应的语义框架。表中,ack是acknowledge之意,表示用户理解了系统提供的信息,reqalts是request alternatives的缩写,表示用户需要另外一个选择方案。对话行为可能包含槽- 值对,如inform包含pricerange,area等槽和对应值; 也可能不包含槽- 值对,如ack和reqalts;或者槽被省略,只有值,如request。为了一致性,将request省略的槽设为”slot”,则request(address,phone) 变为request(slot = address,slot = phone)。一个语句(utterance)可能对应一个语义框架或者多个语义框架,如第一二行均分别对应一个语义框架,而第三行语句则对应两个语义框架:ack()和reqalts()。
1. 2 逻辑回归
逻辑回归是一种广义线性模型,不仅可以对样本进行两类别分类,而且可以估计样本的后验概率[6]。本模型为所有可能的槽- 值对都建立对应的逻辑回归模型。设输入语句的特征为u ,对于槽s,其取值为v,则输入语句包含槽- 值对( s,v) 的逻辑回归概率为:
式中,ωT是 ω 的转置,ω 为逻辑回归的模型参数。参数的训练可以有多种方法,这里采用L2 规则化的逻辑回归,即解决如下无约束最优化问题[7]:
式中,L为训练集样本个数,ui为第i个样本的特征,yi为类别,取值 ± 1 ,yi= 1 表示第i个样本包含槽- 值对(s,v) ,yi= - 1 则表示不包含,C > 0 为惩罚参数。本文逻辑回归的参数采用Liblinear工具包[7]进行训练,惩罚参数C可以通过开发集来调节,直到逻辑回归模型在开发集的分类正确率最高,不过实际上一般取C = 1 便可以很接近最优模型。
对于有多个取值的槽s ,增加s = null的逻辑回归模型,PLR(s = null | u) 表示语句不包含槽s的概率。这便于下文进行1. 4. 1 节中的多类分类。
1. 3 联合概率模型介绍
只考虑用户输入语句(utterance)均能用一个语义框架来表示语义的情形。设输入语句特征为u ,某个语义框架F的对话行为为d ,F包含的槽- 值对的集合为 Λ 。文献[4]提出了如下联合概率模型:
其中,P(d | u) 采用一个多类分类器估计,P(s =v | u) 则用二类分类器估计。
此联合概率模型隐性地假设了所有槽- 值对都是相对独立的。这样笼统的假设有很大的局限性。第一,增大了解码的搜索空间,降低了解码的速度。假设所有可能的槽- 值对的个数为N ,如果不引入剪枝,则解码搜索空间为N的阶乘。第二,对无意义的语义表示(如inform(area = east,area = west))也赋予了概率,降低了有意义的语义表示的概率比重,影响解码性能。
针对联合概率估计公式(3) 的局限性,并考虑到DSTC2 数据集中用户的输入语句对应一个或者多个语义框架,即P(d | u) 不能简单地用多类分类器估计得到,本文提出了两种新的联合概率模型。
1. 4 基于合并语义框架及独立性假设的联合概率模型
1. 4. 1 互斥性假设以及独立性假设
在一个语义框架中,有些槽- 值对是互斥的。如槽area不会在inform中出现两次或两次以上,因为例如inform(area = east,area = west) 这样的语义表示,即寻找一家位于城市东部且位于城市西部的餐馆在现实中并不成立。对于在一个语义框架中最多只出现一次的槽,建立该槽的多类分类模型。设槽s的可能取值集合为V ,则输入语句(特征为u )的槽s取值为v的概率为:
式中,PLR(s = v | u) 由公式(1)计算而得。若v为null ,则表示输入语句不包含槽s的相关信息。
为了便于处理,可以认为在一个语义框架中,有些槽与槽之间是相对独立的。如语义表示inform(pricerange = moderate,area = north ),若假设槽pricerange和槽area相对独立,其联合概率则变成边缘概率的乘积,从而简化了模型,降低了计算难度。利用独立性假设时,需要先将语义表示补充完整。如inform至多有四个槽,语义表示inform(pricerange =moderate,area = north ) 的完整形式应该为inform(pricerange = moderate,area = north,name = null,food = null),然后再计算联合概率。
若某语义框架符合独立性假设,其对话行为为d ,将其所有可能槽排列为向量,对应的值向量为。对于该语义框架,其条件概率:
其中,P(si= vi| u) 可以用公式(4) 求得。由于不同的语义框架可能有相同的槽- 值对,为了共用这些信息,以上公式最后部分采用了近似的形式。
1. 4. 2 联合后验概率的计算
若语料库的用户输入语句均用一个语义框架来表示语义。则对于特征为u的输入语句,解码为语义框架的概率为:
其中,可以用公式(5)求得,P(d |u) 为对话行为分布。由于此情况下每个语句对应唯一的对话行为,即满足互斥性假设,所以可以用类似公式(4)的方法来计算P(d | u)。
然而,在有些语料库中,用户的输入语句可能对应一个或者多个语义框架。若语句能分解为多个语义独立的句子,则可以对分开后的句子分别进行解码后再联合在一起。但实际上,由于语音识别的结果带有错误,将输入语句分解成若干个语义上独立的句子难以实现。所以本文采用如下两种方法。
一是将输入语句对应的多个语义框架合并为一个新的语义框架,如将ack()&reqalts()合并为ack_reqalts() 。从而转化为输入语句对应一个语义框架的情形,联合后验概率与公式(6)相同。
二是进行独立性假设,如ack( ) &reqalts( ),假设ack与reqalts是相对独立的,则联合概率可以用边缘概率的乘积来表示。使用独立性假设时,需要将可能的对话行为补充完整。如,其中,Θ 为除ack和reqalts外的其他对话行为的集合。
两种方法各有利弊。方法一计算便捷,但新语义框架的引入会导致数据稀疏;方法二不需要增加或者重新计算底层逻辑回归模型,但搜索空间较大。
1. 5 特征选取
在语音识别的多候选结果(N-best list)中,选取N-Gram特征。具体来讲,设语音识别的N候选结果为asr_hypi,对应概率为pi,i = 1,2,…,N 。首先将概率归一化,即;然后计算语音识别候选asr_hypi的N-Gram特征,N-Gram特征的某个分量值为该N-Gram分量在asr_hypi出现的次数乘以概率pi; 最后将各个语音识别候选相同的N-Gram特征分量的值相加。
2 实验
2. 1 语料库简介
本实验使用的语料库为Dialog State Tracking Challenge 2[8]所提供。DSTC2 语料库不仅适合于对话状态跟踪研究,也适合于口语理解研究。语料库的应用领域为餐馆查询,用户可以指定地理位置、价格范围、口味等条件来查找合适的餐馆,并获得餐馆的电话、地址、邮编等信息。语料库提供了两种语音识别结果,在线(live) 语音识别结果和批量(batch)语音识别结果,本文使用在线语音识别结果作为口语理解的输入。语料库的一些信息如表2 所示,第一行为在线语音识别的字错误率(Word Error Rate,WER),第二行为口语对话数( Dialogues),第三行为用户语句数(Utterances)。在语义表示方面,语料库包含11 种对话行为,225 种槽- 值对。语料库提供了每个语句的基于人工规则的口语理解结果,这是本文的基线系统BASELINE。
2. 2 评价尺度
口语理解的评价尺度主要有F1值(F1score) 和项目交叉熵(Item Cross Entropy,ICE)。为了便于评价,将语义框架拆分为K个元组,即(d,s1,v1),(d,s2,v2),…,(d,sK,vK) ,则语义框架成为了一个集合,其K个元素是这K个元组。设输入语句真实的语义表示为集合Dref,解码后的语义候选( semantic hypothesis) 为Dhypi,Dhypi的概率为pi,i=1,…,M,p1≥p2≥…≥pM。
①F1值(F1score)
F1值是准确率(Precision) 与召回率(Recall) 的调和平均数,可以用来度量最优候选Dhyp1的好坏度。准确率,召回率,则F1值为:
式中,| S | 表示集合S的元素个数,Dref∩ Dhyp1表示集合Dref与Dhyp1的交集。F1值越接近1,表明最优候选越接近真实值。
②项目交叉熵(Item Cross Entropy,ICE)[9]
ICE可以用来度量语义假设分布的好坏度。设T为包含所有可能的元组集合,对于每一个元组t ∈T,所有语义候选包含该元组的概率和为,而真实的语义表示包含该元组的概率为,那么项目交叉熵ICE定义如下[4]:
ICE越接近0,表示语义候选分布越接近真实分布。DSTC2 数据集提供了计算F1值和ICE的工具。
2. 3 实验结果
为了处理用户的输入语句可能对应一个或者多个语义框架的情形,本文在1. 4. 2 节引入了两种方法,将合并为新语义框架的方法记为SLU1,将独立性假设的方法记为SLU2。输入特征采用N-Gram(n =1,2,3)特征。分别在开发集和测试集上进行实验,结果如表3 所示。SLU1、SLU2 性能均比BASELINE有很大提升。SLU1 则比SLU2 相比,在F1值上有所提升,而ICE则有所下降。
文献[10 - 11]均采用语义元组分类器模型在DSTC2 上进行了实验[10]。使用决策树作为分类器,记该方法为STC_DT[11];使用支持向量机作为分类器,记其模型为STC_SVM。由于STC_SVM只在开发集进行了实验,所以这里在开发集上进行SLU1与其他两个方法的比较,结果如表4 所示。可以看出,STC_DT性能与BASELINE相近,STC_SVM的性能则有一定提升,而本文SLU1 方法则比STC_SVM在F1值和ICE上都有明显提升。另外,SLU1 方法每个语句平均解码时间为15ms ~ 20ms,与STC[2]平均200ms解码时间相比,解码时间得到了大幅度下降。
3 结束语
本文提出了一种基于逻辑回归的口语理解方法。该方法能直接以语音识别多候选结果作为输入,降低了语音识别结果不准确带来的负面影响,同时不需要引入语义序列标注,减小了标注工作量。另外,该方法易于训练,能快速解码。在DSTC2 数据集上的实验表明,其解码性能优于基于人工规则的方法和STC方法。本文的特征提取采用的是单一的N-Gram特征,如何增加新的特征,如浅层语义类特征等将是今后的一个研究方向。另外,如何将输入语句正确地划分为语义独立的句子,使模型更精细,也是以后研究的一个主要课题。
摘要:针对语音识别错误导致口语理解系统性能下降的问题,提出一种易于训练且解码快速的鉴别式口语理解方法。首先为每个语义要素建立一个二类逻辑回归模型,随后根据领域中的限制关系建立联合概率模型。在英语公开数据集DSTC2上的实验结果表明,该方法优于人工规则方法和语义元组分类器模型。
关键词:口语对话系统,口语理解,逻辑回归,语义框架
参考文献
[1]De Mori,Frederic Béchet,Hakkani-Tür D,et al.Spoken Language Understanding-Interpreting the Signs Given by a Speech Signal[J].IEEE Signal Processing Magazine,2008,25(3):50-58.
[2]Wang Y Y,Acero A.Discriminative models for spoken language understanding[C].Pittsburgh,PA,USA:9th International Conference on Spoken Language Processing,2006:1766-1769.
[3]Mairesse F,Gaai M,Juríek F,et al.Spoken language understanding from unaligned data using discriminative classification models[C].Taipei:2009 IEEE International Conference on Acoustics,Speech and Signal Processing.2009:4749-4752
[4]Matthew Henderson,Milica Gaci,Blaise Thomson,et al.Discriminative spoken language understanding using word confusion networks[C].Miami,FL,USA:2012 IEEE Workshop on Spoken Language Technology,2012:176-181.
[5]Wang Ye-yi,Deng Li,Alex Acero.Spoken Language Understanding[J].IEEE Signal Processing Magazine,2005,22(5):16-31
[6]David A Freedman.Statistical Models:Theory and Practice[M].Cambridge,England:Cambridge University Press,2009:128.
[7]R.-E.Fan,K.-W.Chang,C.-J.Hsieh,et al.LIBLINEAR:A library for large linear classification[J].Journal of Machine Learning Research,2008,9:1871-1874.
[8]Matthew Henderson,Blaise Thomson,Jason Williams.The Second Dialog State Tracking Challenge[C].Philadelphia,PA,USA:15th Annual SIGdial Meeting on Discourse and Dialogue.2014:263-272.
[9]Thomson B,Yu K,Gai M,et al.Evaluating semantic-level confidence scores with multiple hypotheses[C].Brisbane,Australia:9th Annual Conference of the International Speech Communication Association.2008:1153-1156.
[10]Jason D Williams.Web-style ranking and SLU combination for dialog state tracking[C].Philadelphia,PA,USA:15th Annual SIGdial Meeting on Discourse and Dialogue,2014:282-291.
一种基于RVM回归的分类方法 篇10
(1)SVM必须给定一个误差参数C,这个参数对结果有很大的影响而又没有有效可行的方法确定最优参数值。
(2)支持向量的数目会随着样本数目的增长呈线性增长,模型虽然相对稀疏,但却不够稀疏。
(3)无法给出概率式的预测。
(4)核函数必须满足Mercer条件。
理论上SVM对噪声很敏感,因为它求解时限制所有的训练样本一定能被完美的分开,虽然是引入了误差参数C可以放宽这个限制,但同时也使使用者无法有效的决定使用什么样的参数C。面对这个问题,最常见的解决方法是引入概率的模型解释噪声,这样不仅可以解决误差参数C的确定问题,同时也可得到概率式的预测,这是相关向量机的核心思想。
相关向量机(Relevance Vector Machine,RVM)[2,3]是Michal E.Tipping 2000年提出,它与支持向量机(Support Vector Machine,SVM)有着相同的函数形式
其中,k(x,xj)为非线性核函数;wj为权值。训练相关向量机的本质就是在贝叶斯框架下为核函数估计适当的权值wj。
RVM与SVM一样是基于核函数映射将低维空间非线性问题转化为高维空间的线性问题。所不同的是,它的训练是在贝叶斯框架下进行的,在先验参数的结构下基于自动相关决策理论(Automatic Relevance Determination,ARD)来移除不相关的点,从而获得稀疏化的模型。RVM不存在SVM涉及到的诸多缺陷,而且与SVM有近似回归预测和分类识别精度。
RVM是一种在分类与回归领域可与SVM方法相提并论的先进技术,本文在RVM回归基础上,提出了一中RVM回归用于分类的方法(RVRC),并通过实验将其与SVM和RVM分类方法进行了比较,结果证明了RVRC分类的可行性。
1 RVRC方法介绍
在利用RVM进行回归分析时,目标值ti取的是连续值;进行分类识别时,相对应的值是类别标签值。在二类分类问题中,标签值是二元离散值。但实际上,在进行回归分析时并没有限制ti一定要取连续值而不能取二元离散值,因此用RVM回归方法对分类样本进行分析处理是可行的。下面介绍用RVM回归实现分类的方法。
1.1 样本数据预处理
以基本的二类分类为例,假定{xi}
p(ti)=N(ti/y(xi;w),σ2) (2)
其中,ti不再是样本标签中的值,而是样本标签添加了高斯噪声之后的值。
1.2 模型训练
训练相关向量机的本质就是为为核函数估计适当的权值wj。而为了避免过学习问题,RVM方法中为每个权值定义了先验概率分布
式(3)中aj是决定权值wj先验分布的超参数。wj为均值为0,方差为α
aj是wj与直接相关的参数,而σ2虽然与wj没有直接的相依性,但却与wj是相关的,估计wj之前应先得到αj和σ2的估计值[4]。对上述RVM模型中的重要参数进行推理的过程同RVM回归原理相同[4]。直到进行采用RVM的训练算法对参数进行训练时,假定采用的是快速边际似然最大化训练算法[5],由于σ2已知,将其设定为全局恒定值,对σ2相关的一些初始化及迭代求取过程一概省去,进行快速边际似然最大化的步骤省去了两步,变成了如下几步:
(1)以一个基本向量ϕi开始初始化,把αi设置为[5]
其它的αm理论上都设置成无穷大。
(2)明确计算∑和μ,同时初始化所有的M个基本向量ϕm的sm和qm的值,其中sm和qm的定义参见文献[6]。
(3)从所有M个基本向量中选择一个候选向量ϕi。
(4)计算θi≜q
(5)如果θi≥0并且αi<∞,重估αi。
(6)如果θi>0并且αi=∞,向模型中添加ϕi,更新αi。
(7)如果θi≤0并且αi<∞,从模型中删除ϕi,并更新αi=∞。
(8)重新计算/更新∑和μ和所有的sm和qm。
(9)收敛则结束,否则转到步骤4。
1.3 分类识别
模型训练完成,对分类样本进行样本回归分析,得到回归结果并不是二元离散值,还得将其转化为二元离散值,得到分类标签。用阈值方法可以方便地将回归结果转化为二元离散值,首先设定一个阈值,阈值可取二元离散值的中间值,将回归结果与阈值进行比较,从而得到模式分类结果。
1.4 RVRC方法用于多类分类
也可对上述RVRC分类方法进一步进行知识拓展,应用到多类分类中。就如前面所述,理论上,RVM回归方法并没有限定目标值不可以取二元离散值,同时RVM回归方法也并没有限定目标值不可以取N(N>2)元离散值。
当目标值取N元离散值时,RVRC方法就可处理N类分类问题。用RVRC方法处理多类分类问题时,数据预处理和模型训练过程与前面相同,而在分类识别当中有所区别,其中一种处理方法还是阈值法,但这里需要定义N-1个阈值。首先将样本标签顺序排列,之后将每两个相邻样本标签的均值作为其中的一个阈值,对于N类标签就可得到N-1个阈值。回归结果如果在最小阈值和负无穷之间,将样本归为标签最小的一类;如果回归结果在最大阈值和正无穷之间,将样本归为标签最大的一类;如果回归值落在了某两个相邻的阈值之间,则将样本判定为标签在相邻两个阈值之间的类别。
1.5 RVRC方法的进一步探讨
根据上面的分析,这样基于RVR的分类方法理论上是一种一次性实现N类分类的算法(N≥2),即进行一次模型训练得到的RVRC分类器模型可以识别所有N类样本,而不再和以往一样实现多类分类时必须要进行许多次的二类分类器的训练,如此一来,RVRC进行多类分类时将会大大减少训练时间。
此外,RVRC方法进行多类分类时,理论上不存在不可分类以及分类重叠现象。也不用理会多类数据的数据集偏斜问题。
2 实验结果及分析
实验是在基准数据集上进行模式分类,所用的数据有Breast-cancer,German.number,Mushrooms,Iris,Satimage,数据来源于UCI[7]和Statlog[8]。实验数据概况如表1所示。
实验中使用的核函数是高斯核函数
实验中RVM用有向无环的方法实现多类分类,SVM实验则用到了Libsvm-mat软件包[9]。
从实验结果看,在处理二类分类问题时,本文提出的基于RVR的分类方法在识别精度上与RVM方法和SVM方法相近,在其中一些数据集上识别率超过了RVM和SVM。
此外,由于SVM、RVM方法是针对两类分类问题提出的,基本的RVM模型只能实现二类分类和回归预测,而无法实现多类分类。要实现RVM的多类分类算法,就得采用一些多类分类方法,如有向无环方法等。如此一来,实现一个样本的多类分类要用到多个基本的RVM二类分类器,进行多次二类分类器的训练,训练时间较长。而RVRC方法则是一种N类分类器,训练一次分类器模型就可实现N类分类。在本实验中RVM采用的是有向无环方法,本文中用DAG-RVM表示。从实验结果看来,在处理多类分类时,本文中的方法略显力不从心,在进行3类分类识别率还较为理想,但当N增大时,虽能一次性地进行多类识别分析,但识别精度并不高,还有待进一步完善。
从模型的稀疏性比较上来看,本文中提出的方法使用的相关向量数(RVs)比RVM方法多,而少于SVM方法。相对于SVM方法来说还是更为稀疏的。
从训练时间的比较上看,本文中提出的方法训练时间要明显比RVM和SVM方法短。
3 结束语
分析了RVM相对于SVM方法的优势,并在RVM回归方法的基础上提出了RVRC分类方法。该方法理论上是一种N(N≥2)类分类器,进行多类分类问题时,不需像SVM和RVM方法那样进行多次的二类分类器训练。从仿真结果来看,RVRC方法在稀疏程度上要优于SVM但没RVM稀疏,在训练时间上,RVRC要比其他两种方法短一些,此外在处理多类分类问题时,当N很小时,如N=3,RVRC的识别率可达到与RVM和SVM相似,但当N值增大时,识别精度就不够理想。因此,RVRC实现多类分类方法还有待完善。综合考虑,RVRC方法进行分类是可行的,具有一定的实用性。
摘要:支持向量机是用于分类与回归的技术。由于其自身的诸多缺点,如无法获得概率输出,需要估计一个误差参数C,以及必须使用Mercer核函数等。相关向量机算法,克服了SVM上述缺点,RVM能获得与SVM相比拟的推广性能,并且更为稀疏。在此基础上,文中介绍了一种RVM回归用于分类的新分类方法,用RVRC来表示。并通过实验证明了它的可行性。
关键词:相关向量机,支持向量机,分类,回归,回归用于分类
参考文献
[1]Vladimir N Vapni.统计学习理论的本质[M].张学工,译.北京:清华大学出版社,2004.
[2]Tipping M E.Sparse Bayesian Learning and the RelevanceVector Machine[J].Journal of Machine Learning Re-search,2001,1(3):211-244.
[3]Tipping M E,Faul A C.Fast Marginal Likelihood Maximi-sa-tion for Sparse Bayesian Models[C].Key West,FL:In C M Bishop,B J Frey(Eds.),Proceedings of the NinthInternational Workshop on Artificial Intelligence and Statis-tics,2003:3-6.
[4]Faul A C,Tipping ME.Analysis of Sparse Bayesian Learn-ing[R].In Dietterich TG,Becker S,Ghahramani Z,Ad-vances in Neural Information Processing Systems 14,2002:383-389.
[5]Blake C L,Merz C J.UCI Repository of Machine LearningDatabases[R].Irvine,CA:University of California,De-partmentof Information and Computer Science,1998.
回归常识 回归原点 篇11
关键词:深入实际 新闻工作 规律 责任
凡事皆有“道”,新闻工作也是如此。
关于“道”,老子用四个字概括它的特点:大、逝、远、反。“大”和“远”是指“道”对于万事万物的主导具有绝对的全时空性;“逝”是指事物及“道”又不是一成不变的,它应该“与时俱化”。但是事物的发展变化又不能离其宗、背其道,一旦离宗背道,就必须加以校正,使之回归正道,回归本原,这就是“反”。
“道”并不神秘。明代哲学家王艮说过一句话:“百姓日用即道。”因此可以说,日常工作及生活中的“道”往往表现为一种常识。但由于种种主客观原因,常识往往也会被遮蔽、扭曲和背离,在这样的时候,重提常识、回归常识就具有重要意义。“实践是检验真理的唯一标准”其实是常识,所以关于真理标准的那场讨论本质上是回归常识。同样,新闻工作必须深入社会、深入群众也是常识,也是必须坚守之道。所以“走转改”的真谛也是要求新闻工作回归常识,站在新的时代的原点上重新出发。
今年是毛泽东同志《在延安文艺座谈会上的讲话》和《反对党八股》发表70周年。在这两篇文章中,毛泽东同志对当时文化工作脱离实际、脱离生活、脱离群众的作风以及八股文风提出了尖锐甚至是尖刻的批评。但如果把这两篇文章做面镜子,照一照一个时期以来新闻工作和新闻报道的现实,就会发现这种作风与文风具有多么强的劣根性、顽疾性。
可喜的是,自从新闻界开展“走转改”活动以来,广大新闻工作者不仅从基层群众中送来了新闻报道的一股清新之风,而且从一个方面践行了新闻工作的基本规律与责任担当。
一、深入社会实际是造就优秀新闻工作者的必由之路
宋代大诗人陆游说:“汝果欲学诗,工夫在诗外。”此言极是。无论是屈原的《离騒》、陆游的《示儿》、文天祥的《过零丁洋》、范仲淹的《岳阳楼记》,还是杜甫的《茅屋为秋风所破歌》、白居易的《卖炭翁》,成就其千古名句而让我们感铭至深的,其实是作者的情怀、情操、境界与气节,即他们的忧民之情、爱国之心和报国之志。这才是这些名诗、名赋的灵与魂。同样,一个新闻记者如果没有政治、思想、情操、境界、品德、作风、敬业精神等综合素养的支撑,一只妙笔再生花,也难写出动人之作。
卢梭曾经说:“我的第一位哲学老师是我的双腿。”新闻工作更是如此。要写出好的新闻,新闻工作者首先要迈开双腿,走到群众中去感知生活、发现生活。即便作为新闻大家的范长江、斯诺,如果当年他们不去大西北,不去延安,不深入军民中去,也一定写不出《中国西北角》和《西行漫记》。因此,衡量一个记者专业精神、敬业精神的一个起码的尺度,首先也是看他肯不肯到生活中去,到群众中去。
但仅仅善跑是不够的。诗人艾青在他的诗中写道:“为什么我的眼里常含泪水,因为我对这土地爱得深沉。”的确,一个对人民及其赖以生存的土地没有真爱的人,一个永远不会被感动的人,也永远不会感动别人。因此,一个优秀的新闻工作者必须对生活、对群众充满热爱与真感实情。感情不仅是记者感知生活的第一味觉,而且是成就动人之作的第一基因。因为感情决定立场,立场决定态度,态度则决定取向、决定作品。如果当年穆青同志对兰考人民的生存状态缺乏同情,对焦裕录立志改变兰考贫困面貌的忘我工作精神缺乏感动与敬意,他就不会发现焦裕录,即便发现了,也不会写出那样的经典之作。
毛泽东同志说:“群众是真正的英雄,而我们自己则往往是幼稚可笑的。”王朔则在他的《新狂人日记》语录里说:“严重的问题在于教育媒体自己,其次才是人民。”此话虽不失王朔一向的调侃风格,却不无道理。的确,要做一个优秀的新闻工作者,必须解决“我是谁”的问题,即必须摆正自己同人民群众的位置,老老实实地向人民群众学习。新闻工作者不会个个都是完人,但新闻工作这个职业又要求新闻记者具有完备的人格,如此他才能通过其作品引导人们走向高尚。新闻工作者如何完善自己呢?方法之一便是到生活中去、到群众中去,向生活学习、向群众学习。因为“人只有在人们中间才能认识自己”(歌德语),“人只有依赖社会,才能弥补他的缺陷”(休谟语)。的确,当我们的记者走进山区简陋的课堂,面对那些拿着微薄的薪酬,甚至每天凌晨先磨豆腐、卖豆腐,以便赚点钱为学生添补文具的山村教师时,当我们面对拒收残疾人的车钱,并淡淡地说:“我并不伟大,我只是赚钱比你容易”的出租司机时,我们都会受到心灵的净化与洗礼。读书自然会使人完善,“读政治书,以养大气;读业务书,以养才气;读文学书,以陶冶情操;读史书,以明己智;读诸子百家,以思圆行方”。但不容否认,社会既是一所综合性大学,又是一部百科全书,而群众则是最好的老师。只有把群众当老师来请教、当英雄来敬畏、当主人来敬重、当亲人来对待,我们才会在群众有形无形的熏陶下成长起来、完善起来,从而成为或接近成为一个优秀的新闻工作者。
二、深入社会实际是改进新闻报道的必由之路
当今信息时代,媒体增多,受众分散。一方面新媒体以其几乎无处不在、无时不在的触角,对生活做着近乎全景性、全天候的信息传播和言论发布,以致“想看新闻就上网,想听观点看微博”成了不少年轻人的触媒选择,从而对传统媒体形成了强力的市场挤压。与此同时,由于民众视野的开阔和主体意识的增强,其对传统媒体新闻报道的鉴别力、要求度、挑剔度越来越高。你献给受众的究竟是一棵带着泥土芬芳的真诚的小草,还是一支看似枝繁叶茂的假花,人们一看便知。在这种情况下,传统媒体如果不提高新闻报道的品质,就会被受众边缘化。而没有受众,何谈引导?没有市场,何谈阵地?
回归方法 篇12
哈尔滨第一工具厂十二分厂是包括有锻造、热轧、热冲、锻件退火以及中频炉炼高速钢的综合性加工分厂。分厂耗燃油量居全厂第一位, 用电量也名列前茅, 是工厂重点耗能大户之一。分厂燃油全部用来锻件加热、热轧件以及热冲件, 电力主要消耗在锻轧件退火以及重熔炼钢上。为了揭示能耗量与产量之间的关系, 我们以数理统计的方法收集、整理了近三年来生产中的实际数据, 并应用线性回归方法从这些分散不规则的数据中定量找出有规律的关系——回归直线。应用这条回归直线就可以定量预测能源消耗量与产量这两个变量之间所依存的关系。
1 回归线及回归方程的建立
1.1 数据的收集
从2006年到2008年按月份发生数收集90组产量与耗能量的数据。
1.2 绘制相关图
1.2.1 建立三个坐标系
纵坐标 (Y) :分别表示耗油量、耗电量。
横坐标 (X) :分别表示锻、轧、冲件重量;退火件重量;重熔炼钢产量。
1.2.2 描点
将收集的90组数据, 描点于坐标系中, 见图1、图2、图3。
1.2.3 绘制中位线
中位线按中值法绘制, 即在相关图中分别画两条与横坐标及纵坐标平行的中位线
1.2.4 统计各区点数
中位线
1.2.5 求回归直线
在X右部作两条分别平行于X轴、Y轴的X2和Y2直线, 把右部点子分成左右、上下数量相等的两部分, 并交于一点, 同样, 在X左边亦作X、Y直线, 可用Y=aX+b来表示。下面是分厂三种生产状态下的回归直线。
2 回归方程的相关程度
数理统计学规定, 回归方程与实际相关程度如何, 以相关系数r来确定, 相关系数r=1时表明方程与实际完全相关, 1>r>0.8时为高度相关;r=0.5~0.8为显著相关;r=0.3~0.5为低度相关。相关系数的数学求法非常繁杂, 本文以作图法与计算结合来求。
2.1 计算法求r
用简化近似法求
式中n——分布图上总点子数π=180°;
n1、n3——Ⅰ、Ⅲ象限点子数 (见表4) ;
r1=0.81, r2=0.98, r3=0.98;
相关系数都在0.8<r<1之间, 故判断为高度相关。
2.2 作图法
具体数字见前图和表4, 查散布图符号检查表, 当n=30时, 判断错误风险率在1%情况下, nα=7。而三个图中的n2+n4都小于nα, 所以二者相关可靠, 又因为n1+n3都大于n2+n4, 所以为下相关。
结论:作图法和计算法都说明三种生产状态是正相关并可靠度为99%。
3 回归直线方程的应用
从上述分析看出所求得的锻、轧、冲件产量与耗油量;退火件产量与耗电量;炼钢产量与耗电量之间的三条直线方程与近三年来的生产实际情况高度相关, 其可信度达99%。通过这三条直线我们可以定量判定某一产量下的合理能源消耗量, 根据某一时间所发生产量及消耗量有关的位置居线上线下;从而达到宏观分析预测, 检查、控制能源消耗的目的。
在进行回归分析时要注意的问题是随着能源管理工作的加强, 节能材料的应用及节能设备的改造都会给方程带来变化因素, 这些变动因素有待实际应用中进一步分析、校正。
摘要:为了揭示能耗量与产量之间的关系, 通过数理统计的方法收集、整理了三年来生产中的实际数据, 用线性回归方法从这些分散不规则的数据中定量找出有规律的关系——回归直线, 应用这条回归直线就可以定量预测能源消耗量与产量这两个变量之间所依存的关系。
关键词:产量,能耗,回归直线
参考文献