网络自主式作文教学

2024-10-16

网络自主式作文教学(共4篇)

网络自主式作文教学 篇1

摘要:通过对激励式自主学习的必然性的阐述, 分别对网络环境存在的问题和对策, 在此环境下教师和学生的角色转变, 浅析了网络环境和激励式教学模式下大学英语自主学习。

关键词:网络,激励式,大学英语,自主学

1 概述

《大学英语课程教学要求 (试行) 》中强调“大学英语的教学目标是培养学生的英语综合应用能力, 增强其自主学习能力, 应大量使用先进的信息技术, 推进基于计算机和网络英语教学, 使英语教学朝着个性化学习、自主式学习方向发展[1]因此, 网络学习和自主学习已成为大学英语教学改革和研究的重点。

2 激励式自主学习

激励式自主学习是一种起源于人本主义, 并随着认知主义、建构主义的兴起而逐步发展并成熟起来的新的教学理念, 它是指学习者自觉确定学习目的、学习目标、选择学习方法、监控学习过程、评价学习结果的过程。[2]

激励式自主学习是新型的学习模式, 也是对传统教学观念的一种挑战。Henry Holec最早将自主 (autonomy) 这一概念引入外语教学界, 开了外语自主学习研究的先河。他[3]提出:学习者自主性是一种担负起自己学习责任的能力, 是一种潜在的、在特定环境中可以实施的能力。Litt le[4]则认为, 学习者的自主性是“一种独立的、进行批判性思考、做出决定并能实施独立行为的能力, 是学习者学习过程内容的心理联系”。结合我国英语教学特点, 大学生自主性英语学习是学生在了解教师教学目标与要求的基础上, 能自己确定学习目标, 制订学习计划, 选择适合自己的学习方式, 有效地使用学习策略、监控学习过程, 评估学习效果的过程。[5]

3 网络环境和激励式模式下大学英语自主学习

3.1 网络环境存在的问题和对策

良好的自主学习环境包括“硬环境”和“软环境”。硬环境即物质环境 (电化设备, 英语资源库, 师资队伍) 。随着网络教学改革的深入, 一些问题也逐渐的显现出来。首先由于各高校对大学英语教学改革支持力度的不同, 所以在网络环境的基本构建中程度也不同。生学习策略的指导, 使学生正确认识和合理使用语言学习策略, 帮助学生形成适合自己的学习策略。 (四) 学习活动的组织协调者。在活动中, 教师应尽量放手让学生实行自我管理, 但可作“学习者”参与其中, 共同讨论。 (五) 学习效果的监督评估者。教师可以采用填写自主学习报告、网上布置作业、组织学生讨论、BBS交流、E-mail联系等方式进行监督评估。

基于网络的大学英语自主学习模式赋予了教师新的角色。为此教师不再只是语言知识的载体和传授者, 还必须拥有信息化的教学理论和技术来对学生的网络自主学习进行引导, 以达到增强学生的自主学习能力。 (一) 更新教师观念:教师对语言学习所持有的观念、态度、所采用的教学方法与教学效果、学习者能力的培养息息相关。 (二) 教师需不断提高自身业务水平:通过参加培训、国外进修和团队合作等方式建构多种学习平台, 以不断提高自身的业务水平。 (三) 强化教育信息意识, 注重各种信息能力的培养:教师利用计算机进行备课、制作电子教案, 游刃有余地在网上作业, 任意浏览、下载教学所需的资料, 并会制作网页和CAI课件, 进行网上教学.

3.3网络环境和激励式模式下大学英语的学生角色

在网络英语自主学习的学生角色更鲜活, 更富于创新, 更有生命力。 (一) 提出富有创新性的见解和解决问题的方案和摆脱对教师依赖的主导者 (二) 从自身角度分析案例和讲出自己的观点和结论的参与者。 (三) 互相传递知识、信息, 信息传递者。 (四) 对别人的分析提出质疑和挑战的人争鸣者。 (五) 合作者要善于进行合作学习的合作者。

学生通过学习各种理论知识并把它们运用到新的学习环境中去, 能够独立思考, 自主学习, 学生真正成为学习的主人。 (一) 端正网络大学英语自主学习的态度。 (二) 科学确定自主学习的目标。

电化设备的完善参差不齐, 英语资料库的建设水平高低不等。其次。 (三) 灵活运用自主学习的方法。 (四) 精心挑选自主学习的资源。

随着近几年高校学员的扩招, 学生数量的激增, 也使原有的教学资源变得匮乏。最后, 网络教室的管理过于松散, 使学生的学习因个体的差异而不同, 一些学生在网络教室里被丰富的网络内容吸引, 而浪费了很多的学习时间。

环境的好坏直接影响着改革的效果。首先, 各高校要加大对英语网络资源的投入, 更新旧的设备, 扩大网络覆盖的范围。或者也可以采取企业投资的方式来加大对网络资源的建设。其次, 提高高校英语教师的整体水平, 加深和扩展网络资源库的建设, 分门类, 分专业, 分章节的分配给每个参与的教师, 使资源库的建设达到最大的优化。同时也要注意平时上课时的积累和融合。最后, 加强网络教室的管理。制定各种规章制度, 并且在网络教室内进行必要的内容的隔离, 例如:网络游戏, qq聊天, 电影娱乐等。使学生只能登陆自主学习的网站。这些硬措施, 在大学英语教学改革中学生自主学习初期是很必要的。

3.2网络环境和激励式模式下大学英语的教师角色

在基于网络的大学英语自主学习模式中, 教师不再只是语言知识的载体和传授者, 教师的角色更多样、作用更重要, 对教师的教学能力都提出了更高的要求。 (一) 自主学习的激发鼓励者。教师要帮助学生维持自主学习的兴趣、建立信心, 鼓励学生坚持不懈地付出努力。 (二) 语言信息的处理者。在整个教学过程中, 教师要及时将收集、整理的资源素材分门别类传递给学生, 使之更符合学生的实际需要。 (三) 自主学习策略的指导者。教师应该在教学中加强对学 (五) 认真评估自己的学习。

4 总结

随着教学改革的深入, 我们在网络大学英语自主学习道路上应该继续探索, 努力进取, 不断开发新型学习策略, 使之更适合我国大学生的学习习惯, 为我国的教育事业腾飞做出应有的贡献。

参考文献

[1]教育部高等教育司.大学英语课程教学要求 (试行) [M].上海:上海外语教育出版社, 2004.[1]教育部高等教育司.大学英语课程教学要求 (试行) [M].上海:上海外语教育出版社, 2004.

[2]Little, D.Learner Autonomy:Definition, Issues and Problem[M].Dublin:Authentic.1991.[2]Little, D.Learner Autonomy:Definition, Issues and Problem[M].Dublin:Authentic.1991.

[3]Holec, H.Autonomy in Fo reign Lang uage Learning[M].Ox-ford:Perg amon Press, 1981.[3]Holec, H.Autonomy in Fo reign Lang uage Learning[M].Ox-ford:Perg amon Press, 1981.

[4]Little, D.Learning Autonomy 1:Definitions, Issues and Problems[M].Dublin:Authentic, 1991.[4]Little, D.Learning Autonomy 1:Definitions, Issues and Problems[M].Dublin:Authentic, 1991.

[5]徐锦芬, 徐丽.自主学习模式下大学英语教师角色探析[J].高等教育研究, 2004 (5) .[5]徐锦芬, 徐丽.自主学习模式下大学英语教师角色探析[J].高等教育研究, 2004 (5) .

网络自主式作文教学 篇2

【关键词】初中作文 学生自主式 评讲课堂 教学

【中图分类号】G4 【文献标识码】A 【文章编号】2095-3089(2016)32-0293-02

“一篇文章,三分写,七分改。”初中学生的习作初稿,就象一块粗糙的玉石要经过精雕细刻才能成为一件精美的艺术品一样,必须经过反复地精心修改,才能成为一篇上乘之作。可见,作文评改是由知识向能力转化的有效途径。因此,我们的作文教学也要在作文评改上下多功夫。

一、实施学生自主式作文评改的基本步骤

1、明确内容上的批改,文章的中心思想是否正确、清楚、突出;感情是否真实、健康;表现中心的材料是否切实、可靠、充分等。

2、明确结构上的批改,文章的开头、结尾写得怎样;过渡与照应安排如何;段落安排是否合理,意思是否连贯;结构是否完整;层次是否清楚等等。

3、明确语言文字上的批改,包括文章中的语言文字,标点符号,行文格式,书写等方面的批改。对那些错别字,不规范的繁体字,简体字,使用不当的标点符号进行修改;找出表达不准确或文理不清的地方;增补漏掉的字词;删去多余的字、词、句;调换一些字词的顺序;改换不恰当的词句等等。

二、课堂点评,给学生惊喜

在批改作文的过程中,发现优秀作文,随时可利用课前两三分钟的时间在全班朗读,时时给学生以惊喜。我们知道,作文教学是一个长期的过程,是一个潜移默化的过程。在批改作文的过程中发现优秀作文,我就会在全班朗读。在朗读作文的过程中,学生知道教师重视作文训练而不敢有丝毫的松懈。写出本篇作文的学生,知道自己的努力没有白费而更加勤奋。而其它的学生则心神向往之。例如:我布置了一篇以“感受生活”为话题的作文,第二天在批改的过程中,就发现了一篇佳作。此文写的是本班的一位同学在足球场上腿被踢折之后,他的父母每天背他上下教学楼。这位学生对这位同学伏在母亲背上的笑进行了细描细绘,因为他知道他沐浴在爱河中。我朗读完这篇作文之后,学生为之动容。这就是一场无声的心灵对话。课堂随评之后,又有几位学生自动重做了本次作文。在一次记事作文的训练中,其中有一篇寫的是本班的一个学生在上课中突然犯病,此病须平躺,老师为他脱衣垫在冰冷的地上,同学为他脱衣盖在冰冷的身上,让文章达到表达情感的高潮。我读完之后,教室同样是一片寂静,但传来那位同学的啜泣声。这就是文章的魅力所在。通过对作文的随改随评,不仅激发了学生的写作热情,同时学生也对关注生活、感受身边小事、表达情感从小处着笔有了全面的认识。

三、当面个别评,与学生平等对话

我们知道,每个学生都有被别人重视的需要,学生写作也是如此。老师不关注每个学生的写作过程,势必会有大部分学生对写作文兴味寡然。我每次对学生的个别评讲都作了详细记载,把每一次的作文得分等级登在记分册上,因此哪些同学还没有当面评讲过便一目了然。我把与学生的当面评讲当成是一次与学生平等的对话。先是讲作文中的可取之处,以给学生成就感,然后再将文章的不足一一指出,和风细雨化着甘露以润心田,每一次的当面评讲都是学生前进的动力。

四、评文评人,自评自改

我们说“文如其人”,那是很高的境界,但是在初中学生的作文中我们可以窥见学生对人生、社会的理解和看法。有的看法非常偏激,我们就要教他们辩证地看问题。一篇作文练不出好的写手,一次作文评讲讲不透彻,我们要将专门的作文评讲与课堂教学结合起来,穿针引线,才能让学生茅塞顿开、豁然开朗。

一个学期可让学生自改作文一到两次,让学生从高处来俯视自己的作文,进得去也要能跳得出来。自评前讲清中考作文评分标准,然后根据标准对书写、文意、思想内容、语言作自我评价,再自荐优秀作文。自评自改不等于放任自流,老师要抽查部分学生自评作文的情况,然后作适当的点评。

五、学生互评互改

这种课型是指学生在教师评讲的基础上,用已有的知识理论去指导实践,解决实际问题,可操作性强。具体的做法是,将学生的作文打乱分发给每一个学生(本人不批本人),按照老师评讲文章的方法、步骤进行操作,教师巡回指导,评讲完毕后,选择有代表性的学生作文(注意到好、中、差的结合,以好为主)在班级宣读,加深印象。这种评讲课的好处是:让学生动脑动手,调到学生的积极性,激发起他们热爱写作的兴趣和热情,同时,也进一步锤炼了学生运用语言、掌握章法等方面的能力。当然,这种评讲课是以教师做大量的辅导工作为前提的。

六、教师点评

作文本收回以后,老师的任务是通览学生的作文,一方面,判断学生作文的达标(本次训练目标)情况;同时,根据学生作文的综合质量给个评价,让学生了解自己的作文在老师心目中的地位;这样,可以使学生有更明确的努力方向(因为学生有自然的“向师性”)。另一方面,对学生的作文中的毛病有个大致的了解,便于以后的作文辅导能做到有的放矢。这最后一环尤其要务实,否则,老师以后的辅导会带有盲目性。需要说明的是,我强调的“务实”并不是传统意义上的需要额定数量的边批、总批;而是在需要的地方写个边批,或在文章末尾写个总评,也可以是个分数、或是个等级。另外,这一步骤之所以放在课后,主要是不想约束学生的手脚,让学生大胆的改、放心地评,充分展示学生的见解;不至于让老师的先入为主的评价影响学生,对培养学生的创造性大有好处。

“自主式”作文的教学策略 篇3

“转轴拨弦三两声, 未成曲调先有情”———策略之“放胆写话”

“写作兴趣是学生积极作文的先决条件, 是提高学生作文水平的心理保证。”新课标对小学作文教学的总的要求是:“能把自己的见闻、感受和想象写出来, 做到内容具体, 感情真实, 有一定条理, 语句通顺, 书写工整, 注意不写错别字, 会用常用的标点符号。养成留心观察、认真思考、勤于动笔、认真修改自己作文的良好习惯。”与原大纲相比, 新课标的要求降低了不少, 这样使儿章释放思想, 放胆作文的机会更大了。课标对各年段作文训练的坡度也变得更平缓了, 这样使学生的心理压力变小了, 写作的兴趣也提高了。

以往作文教学一般都安排在三年级以后, 可现在为了降低学生对作文的神秘和“恐惧”, 在学生学完拼音后就鼓励学生放开胆子, 运用已学的汉语拼音、汉字, 加上自己喜爱的图画, 开始写一句话的训练, 内容可由学生自己定。当觉得写一句话不难了, 就鼓励学生写两三句话, 这样他们会在不知不觉的写话中觉得很有成就感。《语文课程标准》中明确指出:“减少对学生写作的束缚, 鼓励自由表达和有创意的表达。”因此在批改孩子们的作品时, 应多用儿童的眼光去思考问题、观察问题、感受生活, 千万不要眼光过高, 横挑鼻子竖挑眼, 对“儿童世界”和“游戏乐园”, 我们更多的是去欣赏, 不要随意修“枝”剪“叶”, 这样才能让他们的“花朵”在心灵上得到快乐, 才更乐于表达、倾诉。还可以让他们把自己的作品装订成册, 自行设计喜欢的封面和封底, 把这些集子放在学习展示台上, 互相欣赏;利用学校开放日请爸爸、妈妈或家人一起欣赏, 也允许他们把作品相互带回家, 共同分享成功的喜悦。同时鼓励他们:平时我们看的书就是这样编写出来的, 只不过我们现在编得简单些, 长大后就可编更多更美的书卷。有了这种轻松、活泼、民主的作文教学氛围, 学生主体得到充分的尊重, 他们觉得写作不再是负担, 而是一种满足的倾吐、一种自我实现, 作文中那纯真的童年, 那桃红柳绿的春天, 以及泥土芳香也随之扑鼻而来。长此以往, 学生的写作能力和语文素养能获得较大的提高。

“问渠哪得清如许, 为有源头活水来”———策略之“开放空间”

当前, 儿童生活中出现了“三大三小”现象, “生活的欲望越来越大, 心灵的空间越来越小;住房的空间越来越大, 生长的空间越来越小;外来的压力越来越大, 内在的动力越来越小”, 这是造成小学生作文无话可说、无话可写的重要原因之一, 因此经常参与日常生活中的语文实践活动有助于形成学生的自主性写作。

教师要有一双慧眼, 善于和及时捕捉学生生活中的亮点, 带领他们去亲近大自然、亲近生活。如种花养鱼, 寻找春天, 在绿色学校劳动……以此去净化他们的心灵, 丰富他们的情感, 从而发现生活之美、生活之乐、生活之味, 让笔下流淌出潺潺的清泉。

教师要有一颗慧心, 做学生写作资源的开发者, 联系家庭生活, 抓住社会生活, 安排随文练笔。如针对小学生不懂孝敬父母的现状, 可在班内开展“听爸爸妈妈讲把我养大的故事”“爸爸妈妈, 让我来关心你帮助你”等活动, 活动后让学生动笔;抗震救灾期间, 不仅让学生懂得地震灾害及救助知识, 还要把抗震救灾中涌现的一个又一个感人故事讲给学生听, 活动后让学生动笔;北京举办奥运会、残奥会成功, 我们及时组织“我为中国喝彩”演讲会, 然后动笔写作……这样先让学生“心动”, 再让学生“笔动”, 学生才能有内容可写, 有话可说, 有情可抒。

教师还应让学生在阅读中感受到读书的快乐, 诵读佳句美文, 积累优美语句, 教学生做文摘卡, 启发学生设计读书摘记卡, 指导学生在不同的知识领域中搜寻、筛选和提取自己所需的材料, 鼓励学生主动运用, 让学生做到活学活用。

“海阔凭鱼跃, 天高任鸟飞”———策略之“自主命题、选材”

《语文课程标准》指出:“小学生习作要做到说真话, 表达真情实感, 发挥创造性;习作指导要有利于学生开阔思路, 自由表达。”要“为学生的自主写作提供有利条件和广阔空间, 减少对学生的束缚, 鼓励自由表达和有创意的表达。提倡学生自主拟题, 少写命题作文”。

有一句话说得好:“文章应该事真、情真、理真, 否则就犹如剪彩为花, 刻纸为叶, 不可能有生命力。”叶圣陶先生再三强调:学生作文必须“我手写我口”。然而小学生作文中普遍存在假话、空话、套话现象。这就要求教师要引导学生把自己心中所想口中要说的话无拘无束、自由自在地写下来;要“爱护学生的好奇心、求知欲, 充分激发学生的主动意识和进取精神” (《课程标准》) ;教师还要积极为学生营造良好的展示个性特点的习作环境。针对现在校园中“赛车族”“集卡族”“打球族”的日益壮大, 笔者让学生利用课余时间去观察、采访, 同时让他们去查阅相关资料。然后在交流会上, 学生各抒己见, 畅谈感受, 在交流中理清校园中发生一些事情的利与弊。写作文时, 则让学生自主命题, 选择不同的角度和侧面, 有感而发地去写。这样不仅令学生有话可写, 还能从中懂得今后该如何去做。此外, 在学生作文中, 凡有学生独特的发现和见解, 教师都应及时指导并将其着彩润色, 写出一篇篇有个性化的好文章。正是这种没有羁绊、没有约束的教学氛围, 学生主体意识也得到充分尊重, 写作的信心被大大激发, 这样, 异彩纷呈的佳作就会源源不断。

让学生自主命题、选材作文, 还可以让他们写自己熟悉的一些事物。如写自己喜欢的一处景物, 可在写作文前提示学生回忆学过的那些描写景物的课文, 看有哪些不同的写作方法, 应从中选择一种或综合运用其中两三种, 这样学生有的会像《记金华的双龙洞》一课那样, 按参观顺序描写景物, 也可能会像《海滨小城》一课由远及近描写景物, 或像《林海》一样, 按照景物类别一一描写。

“操千曲而知音, 观万剑后识器”———策略之“下笔成文, 放手写作”

学生的语言习惯和表达能力是各不一样的, 有的孩子语言丰富生动, 记叙事物往往描写细腻;有的思维严密, 语言准确, 却比较平淡;还有的词汇贫乏, 语病较多, 很难流畅地表情达意。教师要正视这种差别, 指导学生依据自己的表达能力遣词造句, 让他们自由表达, 写出自己的真心话。

写作文还在于多练, 要多让学生放胆去写作文, 写自己看到、听到、亲身经历的事情。如有的同学用左手吃饭, 爸爸总是会反对, 认为左撇子不雅观;而妈妈却认为左撇子聪明。究竟谁的说法对, 不妨让学生自己去进行探究后寻求答案, 可上网查询, 查找有关的书籍, 然后以《用左手拿筷子好小好》写一篇小论文。这种实践, 把知识探究与写作有机结合在一起, 培养的是学生们的综合素质, 又如学完了《将相和》一课, 要求学生利用文中的有关内容用自己的话来介绍一下蔺相如, 这不仅让学生对课文的人物有一个深入的了解, 而且学会了如何抓住人物的特点来介绍一个人, 从文章中领悟写作方法。

“奇文共欣赏, 疑义相与析”———策略之“自己修改, 自我评价”

《语文课程标准》指出:学生要“愿将自己的习作读给别人听, 与他人分享习作的快乐”, 懂得写作是为了自我表达和与人交流;教师要“重视引导学生在自我个性和相互修改中提高写作能力”。学生的习作经过自己创新, 都有各自的独特魅力和闪光之处, 因此作文后, 引领学生带有共性的问题指导讲评例文, 修改自己的作文。作文批改恰到好处, 评分合情合理, 会使学生的劳动成果得到充分的肯定, 他们会产生喜悦、自豪之情, 从而更加努力练习写作。反之, 则会挫伤作文的积极性。在修改时一定要尊重学生的原意, 肯定学生的点滴进步, 讲求实效。只有这样, 才能保护和发展学生作文的积极性, 才能实现“自由作文”的目的。高年级采用的方式较多, 如教师激励评价, 学生自己评价、互相评价。尤其在学生互相交流评论时, 教师应参与其中, 不过教师的参与不是居高临下, 而是像朋友之间那样娓娓倾诉。倾心的交流, 会让学生在交流中获得作文技巧, 提高写作能力。

网络自主式作文教学 篇4

自主式地面车辆(automated land vehicle,ALV)系统最早出现在美国国防高级研究计划局的“战略计算计划”任务书中。在20世纪80年代末期,ALV技术成为各发达国家竞相研究开发的对象。适应于未知环境的ALV导航系统应具备环境认知、行为决策、运动控制等能力,其研究内容主要包括体系结构、环境建模与定位、路径规划、运动控制等若干方面[1]。

在已知条件下的离线全局路径规划方法已经取得了许多成果,但在环境信息部分已知或未知环境下的在线全局路径规划目前还缺乏较为深入和细致的研究,为此有学者提出了基于进化算法[2]和广义预测控制[3]的在线路径规划器。文献[4]借助模糊逻辑方法模拟驾驶员的驾驶规则,将模糊控制本身具有的控制鲁棒性与基于生理学的“感知-动作”行为相结合,为ALV的在线全局路径规划提出了一种新思路。神经网络具有较强的自学习能力和非线性逼近能力,本文通过将模糊规则与神经网络相结合,构成模糊神经网络控制器来进行强化学习,使得在未知动态变化环境中,全局路径规划Agent能够有效、实时地进行最优行为的策略学习。

1 MAXQ递阶强化学习

强化学习研究的核心问题是学习过程的感知能力和算法的收敛速度[5]。为了提高算法的收敛速度,最常见的处理方式是通过分解任务空间来减少学习量,不少学者在这方面作了很多尝试。如Dietterich[6]提出了一种最大Q值(maxinum Q,MAXQ)方法,该方法是基于任务分解的递阶强化学习方法,它确保了被分解的子任务都属于MDP(Markov decision process),并将强化学习过程的奖惩函数与Q值函数进行相应分解,使之与被分解的子任务关联起来,最终达到让每个被分解的子任务都学习到最优策略解的目的。

1.1 递阶强化学习拓扑结构

MAXQ递阶强化学习的原理是:在复杂的MDP任务中,利用各个子任务的相对独立性以及状态空间的可分割性,将复杂的MDP任务和状态空间分解为不同层次的子MDP任务和子状态空间,通过递归调用该方法分解复杂的MDP任务和状态空间,直至达到子任务和目标状态空间,这样,复杂的MDP任务就变成了将基本任务的解进行集成以形成一个对最初任务的解。MAXQ递阶强化学习的拓扑结构如图1所示。

在图1中,矩形节点为根节点,表示整个MDP任务;椭圆节点Aij表示第i层的第j个为完成父节点(i-1层)任务所采取的动作,它是由Q值决定的完成上一级父任务的最佳动作,AijA,A为Agent联合动作集,A={A1,A2,…,An};三角形节点Mij为任务节点,该节点表示第i层的第j个子任务,它是由上一级任务(i-1层)所分解出的一个子任务(MijMi-1);六边形节点TN为叶节点,表示任务不可再分割并达到目标状态T,学习终止。

1.2 递阶强化学习策略优化的改进

递阶强化学习的一条策略πk指从根节点到目标节点,为递阶执行子任务而采取的子策略πij的集合。递阶强化学习的策略集π可定义为

π〉∷={πk} k=1,2,…,n

πk〉∷={πij} i=1,2,…,m;j=1,2,…,n

在我们开发的APP中,由于路径的起点与终点是动态变化的,即整个MDP任务(根节点)和目标节点是动态变化的、不确定的,所以在APP中策略集π是动态变化的,而子策略πij(一条路径)则是相对确定的。我们关心的是Agent对于子策略的选择和历史信息对子策略选择的收益影响,若每个子策略πijMij中都是优化的,则策略πk是优化策略。对于Agent在执行递阶策略πk后所获得的累积期望收益我们并不关注,为此,引入FMQ[7](frequency maximum Q)启发式学习的思想,对递阶强化学习的策略优化作了改进,即每次行为动作得到收益值后,Q值函数根据下式进行更新:

Qn(s,a)=(1-α)Qn-1(s,a)+α[R(s,a)+γmaxaAQn+1(s,a)](1)

式中,α为学习因子;γ为折扣因子;s′为状态s的下一状态。

每次Q值完成迭代后,Agent根据P(a)选择下一步动作:

Ρ(a)=Eπ(s)(a)/aiAEπ(s)(ai) (2)

Eπ(s)(a)为在状态s下选用策略π时对动作a的评估,如果对该动作的评估值高,则它被选择的概率就大。通过对动作评估的分析来调整Agent的动作选择。

Eπ(s)(a)=Qn(s,a)+f1maxR(s,a)Freq(R(s,a))+f2aia,aiA(maxR(s,ai)Freq(R(s,ai)))(3)

式中,max R(s,a)为状态s下动作a的最大收益值;Freq(R(s,a))为状态s下动作a达到最大收益的次数;f1、f2为深度影响算子,f1用于调整单次行为选择对评估值的影响程度,f2用于调整历史行为对评估值的影响程度。

在递阶强化学习中,对于每一个任务节点Mij,除维护正常的Q值表外还需要维护一张大小为S×A(S为各个状态s的集合)的二维表格Tableij,表格中的每一项值为一个二元组:

Item(s,a)∷=〈max R(s,a),

Freq(R(s,a))〉

在采用了改进的策略优化方法后,Agent不仅考虑了单次行为的收益,还考虑到了历史行为的收益,从而保证了Agent的动作选择是最优的。

2 基于强化学习的APP设计

模糊控制通过控制规则来表达、记忆专家的控制经验,并通过逻辑推理来推理决策,但模糊控制在知识的获取、模糊规则的自求精方面存在不足[8]。将模糊控制与强化学习相结合来进行ALV全局路径规划,在学习的过程中融入专家经验,可提高学习速度并增强ALV在道路信息未知环境中的自适应能力。

2.1 APP系统结构

如图2所示,模糊神经网络下基于强化学习的APP系统结构由模糊神经网络模块、预报模块、强化学习模块和随机策略探索模块四部分组成。

模糊神经网络模块根据当前输入的环境状态信号产生外部再励信号r;预报模块对当前状态信号进行预先评估,产生预测信号f;外部再励信号r和预测信号f通过再励信号转换产生内部再励信号r′;强化学习模块根据输入的内部再励信号r′进行强化学习,产生对本次策略学习的评估值E并对系统决策参数进行调整;随机策略探索模块根据学习完成后各个策略的评估值E以一定概率选择动作执行。

2.2 模糊行为规划

借助模糊规则来有效地处理各种不确定性和非线性问题,是当前控制领域中一种重要而有效的形式。在APP中,我们约定一条路径(Mij)的状态(s)由该路径的里程d、ALV行驶该路径所耗费的时间t和ALV在该路径上行驶的平均速度v构成,则输入的模糊变量为里程d、时间t和平均速度v。其中,里程d的论域分为{B,M,L};时间t的论域分为{B,M,L};平均速度v的论域分为{S,M,F}(B:Brief, L:Long, M:Medium, P:Poor, F:Fast)。输出模糊变量为对该条路径(Mij)的行驶状态评估W,其论域分为{P,M,G}(B:Bad, M:Medium, G:Good)。结合驾驶员的驾驶经验(驾驶员在选择路径时总是更倾向于选择里程短、行驶时间短和平均速度快的路径),得出控制规则如表1所示。

由表1模糊规则可以看出,在对路径总体行驶状态的评估中,凡是里程越短、行驶时间越短和行驶平均速度越高的路径,其总体状态评估W越好。

2.3 强化学习和预报模块设计

根据MAXQ递阶强化学习的思想,在APP中,ALV的动作集由当前任务节点Mij对应的为完成下一任务节点M(i+1)m的动作A(i+1)m动态组成(m=1,2,…,n),即当完成一条路径的行驶后,对连接到该路径的其他路径作出的选择集合构成了ALV当前的动作集。设计收益函数R(s,a)为

R(s,a)={exp(-αvmax-vvmax-vmin-βt-tmintmax-tmin-γd-dmindmax-dmin)-1v<vmin,tmax<t(4)

当ALV在一条路径的行驶中出现了速度最慢、耗时最长的任一情况时,对该路径学习的收益R将无条件被置为-1,在其他情况下收益R为(0,1)之间的连续值。其中,vtd分别表示ALV行驶平均速度、时间和里程,αβγ为相应权重,可根据不同的规划目的设定不同的值,其值越大,表明所对应的状态对APP的收益影响越大。例如,当设定ALV以最短路径抵达终点而不考虑行驶时间和速度时可设定α=0,β=0,γ=1.0。当ALV以越快的速度,越短的时间和里程完成一条路径的行驶时,Agent所获得的收益就越大。收益函数R(s,a)用于在模糊神经网络中对行驶状态评估值W进行量化。

由于强化学习是在动作执行后通过对环境状态的感知获得评价信号,故强化学习存在着时间滞后的问题[9]。预报模块根据当前环境状态产生对外部再励信号的预测信号,当环境只能提供稀疏的外部再励信号时,预测信号可作为补充强化信号,为APP提供更多的强化信息。预报函数为从当前环境状态到期待外部再励信号的映射,定义如下:

f(s(t))=E(σ=tλσ-tr(σ))=E(r(t)+σ=t+1λσ-t-1r(σ))=E(r(t)+λf(s(t+1)))(5)

式中,r(σ)为在σ时刻得到的外部再励信号;λ为预测信号的折扣系数。

通过对外部再励信号r和预测信号f进行再励信号转换,便可得到内部再励信号r′,供强化学习模块进行学习。

r′(t)=r(t)+λf(s(t+1))-f(s(t)) (6)

2.4 模糊神经网络设计

模糊神经网络模块由传统的模糊控制系统和神经网络组成。APP中的模糊神经网络模块采用一阶T-S模糊神经网络模型,模型结构及工作原理如下。

(1)输入层。包含3个神经元xi(i=1,2,3),分别输入路径里程d、时间t和平均速度v三个状态模糊变量。

(2)模糊化层。共有9个神经元,输出为xi所对应的模糊集合的隶属度μi(j)(xi),隶属函数采用高斯函数:

μi(j)(xi)=exp(-(xi-mij)2nij2)i=1,2,3;j=1,2,3 (7)

式中,mijnij分别为隶属函数的中心和宽度。

(3)规则层。根据表1可知,该层共有27个神经元,模糊规则形式Rule b:if x1=μ(i)1 and x2=μ(j)2 and x3=μ(k)3 then Wb=Rb(i=1,2,3;j=1,2,3;k=1,2,3;b=1,2,…,27)。输出为激活度βb=μ(i)1μ(j)2μ(k)3。

(4)输出层。该层只有一个神经元,输出为外部再励信号r:

r=b=127βbRb/b=127βb (8)

模糊神经网络模块直接输出动作后环境状态对ALV产生的外部再励信号供强化学习模块进行学习,其隶属度函数参数mijnij和神经网络权重的在线调整可采用BP误差反传的算法来进行修正[10]。模糊神经网络下基于强化学习的APP运行步骤如下:

(1)初始化Q值表和Table表值,以及模糊神经网络参数(mijnij、权重)和强化学习参数;

(2)得到t时刻环境状态st;

(3)将状态st传入模糊神经网络,得到外部再励信号rt;

(4)计算预测信号f(s(t))和f(s(t+1));

(5)对rtf(s(t))和f(s(t+1))进行再励信号转换,得到内部强化信号r′(t);

(6)计算动作的QQ(s,a),更新Q值表和Table表值;

(7)由BP误差反传算法计算反传误差,在线调整模糊神经网络参数;

(8)根据Q值表和Table表值计算路径的评估值E(s)sπ(a);

(9)以概率P(a)选择动作ai执行,得到新的环境状态st+1。

(10)未达到学习次数,转到步骤(2)。

3 APP适应性仿真实验

3.1 仿真方案设计

强化学习由系列尝试动作构成,需进行大量的探索,如果在ALV实际行驶中进行学习会耗费大量研发时间,通过在仿真环境下模拟行驶道路环境,不仅可缩短APP的开发时间,同时还可对APP的可靠性和适应性进行有效验证。为了增强仿真结果的针对性和可比性,我们设计了几种典型的道路情况用于仿真实验,并明确了各个路径的状态。

在ALV后台检测监控系统的组态环境中,行驶路径的组态如图3所示。其中,每一个圆点表示一个路口,即一个父节点;线段表示一条路径,即一个子任务Mij。在仿真环境中,假定各条路径上来去两个方向的行驶状态一致,对各路径的状态设定如表2所示。

3.2 仿真实验及结果分析

在APP中我们设定起点(根节点)为路口1,终点(叶节点)为路口3,总的强化学习次数为1000次。APP人机交互界面及强化学习参数的设定如图4所示。在设定了ALV的起点和终点后,APP首先通过深度搜索找到所有符合搜索条件的路径,并生成策略集合π,在强化学习之前进行深度搜索可以为APP进一步明确学习范围,减少对无效路径的学习,提高APP的学习效率。由图4可知,当搜索完成后,APP首先摒弃了不符合搜索条件的路径g,生成了规划路径的策略集合π={π0, π1, π2, π3},其中策略π0由路径a-c-e-f组成,π1由路径a-d组成,π2由路径b-c-d组成,π3由路径b-e-f组成。APP首先通过式(2)计算策略πi(i=0,1,2,3)的选择概率,由于初始化时各Q表和Table表中的值一致,可知各策略均被赋予相同的选择概率25%,在随机选择了一条策略πi后,APP开始根据前述的运行步骤进行强化学习。在仿真的路径环境中进行1000次强化学习后,各策略的评估值Eπ(a)、选择概率Pπ(a),以及各路径的Q值曲线如图5所示。

分析图5a可知,各路径的Q值在强化学习初期均相等,随着强化学习的进行,由于各路径状态设定不同,Q值开始发生变化,在经过对路径a、e、f的多次学习后APP认为ALV在这三条路径上的行驶状态较差,Q值随着学习次数的增加逐渐降低并收敛,特别是路径e对应的Q值曲线下降最为迅速,Q值最低,这与我们在仿真环境中设定的路径e的状态一致,Se={长,长,慢}。APP在经过对路径b、c、d的多次学习后认为ALV在这三条路径上的行驶状态较好,Q值随着学习次数的增加逐渐升高并收敛,尤其是路径b对应的Q值曲线上升最为迅速,Q值最高,这与我们在仿真环境中设定的路径b的状态一致,Sb={短,短,快}。在同样的仿真环境中,采用普通的Q学习算法,各个路径Q值曲线均在300步左右开始收敛,而由图5a可知,结合模糊神经网络的递阶强化学习方法,在100步左右就开始收敛。分析图5b可知,各条策略πi的评估值在强化学习初期均相等,随着强化学习的进行,由于路径a、e、f的行驶状态较差,故包含有这三条路径的策略π0、π1、π3的评估值逐渐降低并收敛,而策略π2全部由行驶状态较好的路径b、c、d组成,随着强化学习的进行,π2的评估值逐渐升高并收敛,同时,APP对策略π2的选择次数逐渐增大,在1000次的强化学习中,策略π2的选择次数达到了350次左右,明显高于其他策略被选择的次数。分析图5c可知,在强化学习完成后,策略π2的被选择概率P(a)达到了59.141%,远远高于其他策略被选择的概率,由此得出APP在该仿真环境下对ALV作出的全局路径规划为优化后的由路径b-c-d组成的最优策略π2,如图6所示。

4 结论

将模糊神经网络引入到强化学习中克服了模糊控制方法完全依靠参数调节和不具备记忆功能的缺点,改善了在强化学习时策略搜索过程相对缓慢的问题,提高了智能Agent的自学习能力,为智能Agent在动态变化的环境中提供了更强的适应性,满足了系统对实时性的要求。仿真实验结果证明了该研究的有效性和可行性。如何将APP优化得到的全局规划路径应用到ALV后台检测监控系统中,指导ALV进行基于传感器的局部路径规划是我们接下来将要展开的工作。

参考文献

[1]蔡自兴,贺汉根,陈虹.未知环境中移动机器人导航控制研究的若干问题[J].控制与决策,2002,17(4):385-390.

[2]Cai Zixing,Peng Zhihong.Cooperative Coevolu-ationary Adaptive Genetic Algorithmin Path Plan-ning of Cooperative Multi-mobile Robot System[J].Intelligent&Robotic System(S0921-0296),2002,33(1):61-67.

[3]席裕庚.动态不确定环境下广义控制问题的预测控制[J].控制理论与应用,2000,17(5):665-670.

[4]Xu WL,Tso S K.Real-ti me Self-reaction of aMobile Robot in Unstructured Environments UsingFuzzy Reasoning[J].Engineering Applications ofArtificial Intelligence,1996,9(5):475-485.

[5]陈卫东,席裕庚,顾冬雷.自主机器人的强化学习研究进展[J].机器人,2001,23(4):379-384.

[6]Dietterich T.The MAXQ Method for Hierarchical Re-inforcement Learning[C]//Proc.of the 15th ICML.San Francisco:Morgan Kauf mann,1998:118-126.

[7]Spiros K,Daniel K.Reinforcement Learning of Co-ordination in Cooperative MAS[C]//EighteenthNational Conference on AI.Alberta:ACM Press,2002:326-331.

[8]孟伟,洪炳荣,韩学东.多月球车定位/决策网络[J].机器人,2004,26(2):102-106.

[9]Kaelbling L P.Associative Reinforcement Learn-ing:Function in K-DNF[J].Machine Learning,1994,15(2):279-298.

上一篇:学会与互联网共同发展下一篇:状态监测装置