教育信息推荐表

2024-09-10

教育信息推荐表(精选12篇)

教育信息推荐表 篇1

教师学习社区以其零技术、个性化、协作性、交互性的特点为教师的专业发展开辟了道路, 为广大教师提供一个集工作、学习、休息于一体的多功能场所, 教师不受时间、地域、年龄等众多因素的限制, 只要连上网络就可以随时随地畅游于教育领域的海洋中。这里有丰富的教学资源、技术资源, 教师可将它们应用到自己的教学中, 使得教学方式多样化, 引起学生的兴趣;新的教学思想和理念, 帮助教师拓宽教学视野, 指导教学实践;教师通过与他人探讨教学感悟、反思, 从而创造更多的智慧, 还可以贡献自己的教学成果, 供其他教师分享学习。教师学习社区使得教育工作者之间的联系更加紧密, 彼此共同进步, 共同成长。

然而, 现在的网站如雨后春笋, 层出不穷, 这让广大教师无法辨别出专业与否。教师如果对网络不是很熟悉, 那么在网络上搜寻与教育相关的信息时, 恐怕会浪费较多时间。现笔者介绍六个优秀的教师学习社区, 为中小学教师的工作、学习提供帮助。

●天河部落 (见图1)

http://www.thjy.org/

“天上银河, 群星部落”。天河部落, 以博客技术为教学研究平台, 通过Blog平台将传统意义上的教研活动与网络有机地融合一起, 已成为广州市天河区中、小、幼教师个人研究学习的工具, 也成为区域教研的理想载体。

虽然“天河部落”在国内教育博客中兴起较晚, 然而凭借自身的特色, 网页累积访问量已突破了3000万人次。据统计, 目前“天河部落”注册人数超过1万人, 各类文章突破26万篇, 评论近27万条, 日均页面访问量约5万人。

为何“天河部落”发展如此之迅速, 仔细分析, 不难发现部落本身的特色让它成为博客群里的佼佼者, 其特色可以概括为以下几点。

(1) 不需要专业的网络技术, 教师只要简单注册, 就可以与其他同伴交流思想、学术, 创造更多的智慧。

(2) 它的兴起掀起了教师记录网络日志的热潮, 是教师感情凝聚力最强的地方。“天河部落”吸引了大批一线教师, 他们每天在博客上耕耘着, 与广大同行们分享交流自己的教学经验、心得、感悟。教师们通过在线交流对话、沟通协调、互助合作, 实现共同发展。

(3) 它是一条联结教师、学生、家庭、社会的绿色通道。教师通过博客让家长了解孩子在学校的情况, 家长也可以通过博客向老师反映孩子在家情况。通过“天河部落”, 家长和学校之间的沟通畅通了。

(4) “天河部落”教研与以往的定点、定时的区域常规教研相结合, 打破了传统的区域性教研活动受时空限制、内容受一定局限的局面, 大大提高了教研效率和教研的互动性。

新的教育思想和理念在这里交汇, 教师在这里进行一场场头脑风暴。另外, 该社区对教学资源的分类也是极为细致的, 真正体现了网站的精、准、小、巧特点。它涵盖了中小学的各个学科及各个年级的教学案例、习题、试卷、资料和一些重要的论文。在高中优秀生研究栏目内, 有对一门课程的专门解析, 对重点难点的提炼概括, 错题集锦解析、竞赛试题分析, 还有教学设计、教学素材、教学反思、教学课件、备课计划、总结等供教师参考学习。

●苏州教育博客 (见图2)

http://www.szeblog.cn/index.html

苏州教育博客让人印象深刻的不但是外观设计清新淡雅。还有它的不断创新求变。苏州教育博客是一个“学习—发展共同体”。通过Blog这一社会性软件, 用心灵书写日志建设起来的跨越时空的网上头脑风暴群, 开放、互动、交流是共同体的基本特征。

教学资源分类清晰, 涵盖量广泛是苏州教育博客的一大特色, 在它的主页上可迅速地找寻到相应的栏目。

在教育动态、教育信息化栏目内教师可以随时关注教育领域的信息, 对各地的教师培训, 教育部门新项目都能及时了解;分栏目内有各期的电子期刊, 教师可随时在线阅读;在文科教学、理科教学内可下载各学科的教案、课件、视频, 习题等;综合教研、技术园地为教师提供了丰富的教学软件;德育方略、教育叙事内的文章有助于提高教师的教学理论。社区就像一本教育领域的百科全书, 从学科教学到教育信息化;从理论研究到技术园地;从课程整合到教师研修, 都有相应的介绍。

以博客群为主是苏州教育博客的另一大特色。教育工作者用文字、多媒体等方式, 将自己日常的生活感悟、教学心得、教案设计、课堂实录、研究成果、课件等上传发表, 形成属于教师个人的资源积淀, 成为支持教师隐性知识显性化的重要途径。

●海盐教师博客 (见图3)

http://www.jsblog.cn/

在国内教育信息化的时代背景下, 海盐教师博客长期坚持不懈, 卓有成效地推动教师专业化发展, 故而在全国教师博客中成为佼佼者。教师博客教师专业成长有着重要价值, 领导重视, 专家支持, 教师们富有热情, 热爱教育事业, 热爱生活, 坚持不懈“热情制造热情, 热情传染热情”, 有人有热情, 是海盐教师博客发展的关键。

博客内有教学案例和教学宽带, 教师可在线观看视频课程;下载栏目内有各年级各学科的教程、教案、视频、案例、教案设计、习题、教学软件等;博客还可以为教师提供各期的电子杂志, 教师随时都可以在线阅读。

在教育叙事中, 教师记录日常的生活趣闻、教学感悟、甚至于教案设计, 将自己对教师事业的热情, 对博客的爱, 转至笔下。博客设有小论坛, 人气很高, 教师在上面踊跃发帖回复, 争当博客之星。通过社区交流平台, 教师认识了更多的朋友。教师学习社区为教师的工作、学习提供了极大的帮助。

●淄博市教育网 (见图4)

http://www.zbedu.net/

在新课改的驱动下, 淄博市教育网为教师的专业化发展提供了物质基础和技术支持, 其丰富的网络资源给教师的工作、学习、提供了极大的帮助。

网站最大的特色是体现新课改的指导思想。教师可以在教育技术研究、应用案例库、远程教育等栏目内接触到新课改的思想和理念, 也可借助教育技术动态、教育技术研究等栏目里的网络、教育技术工具来提高自身的教学方法, 促进学生的学习兴趣。

站内资源中心有大量的可借鉴、学习的资源, 教学软件, 教师可以免费下载。新课程改革、新课程网络教研、应用案例研究库等栏目介绍了新课改的思想理念, 提供了较多的理论来指导教学实践。有的栏目还设有课题研究、文理科教学、技术教学等。里面的教案、课件、图片、音频、视频、试题试卷资源都可以下载, 并且各科优秀教案紧跟课改步伐, 充分体现了新课标、新理念的教学设计。

●白下教育网 (见图5)

http://www.njbxjy.net/

白下教育网由南京市白下区教育局主办, 教师免费注册后即可进入网站浏览。

“研讨激发教育智慧, 博客贮存思维火花。”网站以博客群为主要板块。有教师博客、班级博客、博客评课、视频博客栏目, 这些模块内集聚了大量的教学资源:博客论坛里有教师教学心得和教学反思, 也有学生稚嫩的习作, 大家积极回帖点评, 这一互动环节使得教师、学生、家长之间交流增多, 关系变得更加融洽;博客评课内有专家对具体课程的点评, 通过对照, 教师可吸取课中精华, 反思并改正自己的课堂教学的不足;视频博客——在线授课让教师领略诸多名师的风采。教师不仅可以观看视频, 在线上传资源、课件, 还可以免费下载相关案例, 课件、视频、教学软件等。白下教育网还设有教师培训、白下自考等, 其相关程序都可在网上完成。

与白下教育网相呼应的有白下教育叙事, 二者相得益彰。

该网站最具特色的是课件资源丰富, 设计思路巧妙, 内容组织合理。这些课件有针对幼儿学习、饮食健康的课程;有单元课程的教学内容设计;有理科教学中对一个专题设计的教案;有对一单元概念整理总结;有对一个教学问题的深入研究, 并且大部分课件都能免费下载。在相关课件后面, 有教师的教学日记, 还有习题、试卷等教学资源供广大教师下载。

网站内高手如云, 他们不但给站内成员介绍新的教学软件, 教你如何借助这些软件使你的课件增色, 还把制作课件的心得体会拿出来与大家分享, 并且对你在课件制作过程中遇到的难题, 他们都会热情解答, 帮助你扫除课件制作过程中的障碍。

●教育大发现社区 (见图6)

http://socialearnlab.org/

“教育大发现”社区, 英文Social Learn Lab, 简称SLL。网站的主页设计以黑白两色为主调, 简洁大方又不失个性, 昭示着版主的美学情趣。

社区是由一群关注教育, 富有热情, 信任互联网的朋友们创建的, 借助Web2.0社会性软件, 以社区项目、活动为发展基础。

社区主要面向有志于学习网络、教育技术, 提升自己参与合作项目能力的教育工作者。发展前期定位于“社区项目”的实施。这也是该社区最主要的特色。社区内每一个项目无论大小, 都设有项目负责人、项目高级顾问。在这个网络和教育技术大发展的时期, 有志于学习网络、教育技术, 提高自己综合能力的教师可以在这个网站上一试身手。不论年龄与学历, 只要有实力与专长, 项目的任何职位都可以担任, 至今已有数位名师担任项目的高级顾问, 如庄秀丽、邹景平、陈坤、毛向辉、陈少钧等教育专家。通过项目实践, 教师可以提高自己的实战能力。

以上教师学习社区各具特色又有共性。

(1) 资源丰富, 免费下载。给教师的工作带来了极大的方便。

(2) 不需要技术支持, 教师只要注册就可以随意浏览。

(3) 与他人随时随地都可以交流, 不受地域、时间的限制。

(4) 专家名师的教学思想和理论指导教师教学实践, 更好的提高自己的教学效率。

摘要:随着网络的普及, 教师的专业发展越来越受到教育工作者的关注。教师学习社区为教师的专业发展提供了广阔的交流平台。作为教师专业发展主要形式的教师学习社区, 有教育部门的大力支持以及与商业网站的广泛合作, 像满山遍野的鲜花一样烂漫。本期作者在分析了大量的教师学习网站后, 精选出六个优秀的教师学习社区, 向广大读者推荐。

教育信息推荐表 篇2

(2011——2012学)

一、指导思想:

全面贯彻党的教育方针,坚持以学生发展为本,面向全体学生,以培养学生的信息素养为宗旨,结合我县教育现代化的创建工作积极开展信息化教学实践,突出重点,整体推进,以信息化带动教育的现代化,打造胡庄小学数字化校园。

二、总体目标:

在推进学校教育信息化的过程中,大力推进信息技术的应用,逐步达到三个转变,即:转变学校管理方式、转变教师的教学方式,转变学生的学习方式,努力构建学校教育信息化平台。

三、具体工作落实:

(一)硬件环境建设

良好的硬件环境是学校信息化工作的基础,目前学校已有的硬件要用好、用足,同时,还准备添置两台电脑,以满足教师的需求。在课余时间开放学校的多媒体室,让学生有更多的时间使用计算机,保证学生的上网时间。为进一步鼓励教师在教学中使用计算机,办公室摆放一台电脑,供教师备课、教学使用。

(二)资源建设

教学资源是教师教育、教学必不可少的内容,因此学校的教育资源建设是学校信息化工作的重要一环,本学期将逐步完善学校的教学资源库建设,鼓励教师将好的教学资源保存至学校资源库,使学校内 1

所有的教学资源得以共享。

(三)师资队伍建设

教师是信息运用的主体,近期学校一要加强教师的信息化理论和实践的培训。二要加强提高教师的计算机水平。进一步加强学校远教管理员和信息技术教师的培训,使学校的信息化工作有序开展。

(四)学生应用

以学校的信息技术课为抓手,平时进一步加强学生的信息素养的培养,注重学生的网络道德的教育,能抵制不良的信息。学校还将开展信息技术与学生社会实践相结合的活动,通过活动来提高学生的信息能力和信息素养。

四、措施保障:

1、制度保障:进一步健全学校信息技术领导小组,由校长任组长,确保学校信息化工作有效开展。同时建立学校信息化发展的评估制度,对于推动学校信息化工作开展得好的教师予以奖励。

2、经费保障:学校预时,信息技术的软硬件投入占学校公用经费的10%以上,将软件和硬件的投入比达到1:1。

本月招聘信息推荐 篇3

www.concept4.org

C4做什么?

C4为国内外游戏以及影视项目提供高质量的视效前期解决方案,C4年轻并热情,自由并个性,我们立志成为国际一流的精英设计团队并为此努力。

C4 的概念艺术家做些什么?

C4 概念艺术家的责任是帮助游戏或影视制作人员能够更直观地认识到游戏或电影将要达到的视觉效果。我们需要创作科幻、幻想、现实、历史等各种不同题材的人物、场景、机械或生物,以及其他新兴题材的游戏或电影。概念艺术家不但在前期帮助制作,在后期也会在游戏以及电影的宣传与销售上作出很大贡献。

概念艺术属于产品生产的早期阶段,C4的概念艺术家是高度专业化的,在项目全部启动前,我们会开始构思游戏与电影的视觉内容。

C4概念艺术家所面临的挑战是惊人而且令人兴奋的,要创造出令人震撼的效果图也需要准确和清晰的生产制作图。概念艺术家也可能需要改变其独到的见解,以便于项目的进展。

C4 概念艺术家的职业路线

事实上,要成为一个概念艺术家没有典型的职业路线可循。很多人是从图形艺术家,插画、平面设计师,特效、动画、故事板制作人员等其他职业,慢慢过渡到概念艺术家的,概念艺术家是一个完全开放的职业。

C4对于概念艺术家的要求

扎实的基本功、良好的艺术修养以及造型能力。

会使用电脑软件(Photoshop、Painter或其他2D软件)进行创作。

对场景、生物、人物或道具有敏感的洞察力。

在形式、外形、结构以及剪影的设计方面有敏锐的眼光。

对明暗、构图、色彩有清晰的认识,并且能够在设计中保持细节。

能够将一个想法转变成概念设计并进行插图创作。善于和团队沟通与协作。

三维空间的想象力。

对设计、游戏和电影有浓厚兴趣。

能够直观地用图像解释其他人的想法。

不断地努力提高专业能力。

Email:concept4@foxmail.com (请附上简历以及作品)

C4 期待您的加入!

北信酷卡文化传媒机构

www.bxcc.net

北信酷卡是为国际大型会展、政府机构和大型企业提供视觉传达、文化传播等服务的综合类创意型数字技术机构。机构包括北信酷卡(北京)文化传播有限公司和北信酷卡(天津)传媒科技有限公司,业务涉及的技术领域涵盖影视特效、3D动画、多媒体技术应用、影像数据库、在线三维展示等多个专业版块,在大型活动、演示汇报、科普教育、影视制作及城市数字化建设等方面为客户提供创新的视觉解决方案。

材质绘制

职位要求:

1.有两年以上工作经验,参加过大型三维项目,熟悉材质工作流程。

2.具备相应的色彩学知识和绘画能力,有良好的艺术审美观。

3.熟练拆分UV, 具备二维手绘功底,能够熟练使用 Photoshop制作材质贴图。

4.掌握Maya材质节点的连接,能够独立制作shade。

5.品质优秀,工作态度端正,有团队合作精神,勤奋好学,善于交流。

6.能胜任电影级别材质制作,有模型制作基础者优先。

请您将个人简历(文本的形式)及个人作品(视频格式)或作品链接网址以附件形式发送至guangyuebj.love@163. com,并请在邮件的标题处注明“应聘+后期合成”字样,以方便识别。在邮件正文中请提供个人信息、教育状况、工作状况和有效的联系方式,不要在简历中夹杂超链接文件,以免影响阅读。

经查阅通过后会及时通知您到本公司面谈。

电话:010-65267024 人力资源部李小姐

安徽时代漫游文化传媒股份有限公司

www.press-mart.com

安徽时代漫游文化传媒股份有限公司于2008年6月注册成立,是安徽出版集团有限责任公司投资控股的子公司,注册资金1000万元。时代漫游公司紧紧围绕集团的出版主业,专注于新媒体及动漫产业项目的投资与经营,主要业务包括互动阅读电子书的研发、计算机图形(CG)专业类杂志运营、动漫图书创作与营销、动漫手机媒体运营等,近年来,已获得数项国家大奖。

时代漫游拥有一支朝气蓬勃的创业团队,欢迎有抱负、有激情、有能力、勤勉笃信的你加盟我们,共同打造数字出版庞大产业链。

什么是互动阅读电子书?

它是图文、音频、视频、游戏四位一体,可以用眼看、用手摸、用耳听、用脑互动的电子书。

它不只是简单的“书的电子版”,而是一种全新的内容载体,不仅是由文字与图片组成,而且利用多媒体技术手段,嵌入手控触摸、视频、音频、CG动效、360?3D图像、跨文本、超链接、在线版本升级等达到超炫效果,是一种混搭型的数字阅读内容。

无论是产品形态、编辑思维、制作技术,还是传播手段,互动阅读电子书都区别于纸质图书,能提供辅助阅读的更多的附加值。

电子书策划编辑(文化解读类)(1人)

职位描述:

1.整合原创内容和数字技术,向读者提供新一代文化消费产品。

教育信息推荐表 篇4

关键词:情景感知,频繁序列,关联规则

1 引言

情景感知业务(Context-Awareness Services)是在现有的位置定位服务(Location-Based Services)基础上综合考虑用户所在环境的其他因素,为用户提供更具有针对性的信息服务。用时间、位置和需求三个维度来定义移动用户所处的情景较为完整。该业务可以感应到用户在特定情景下,即在特定时间特定位置下所产生的特定需求,并根据用户的个性特征为用户提供针对性很强的信息服务,以满足该用户的特定需求。该信息服务包括购物信息,房屋租售,娱乐休闲,商业办公,医疗保险等等可以涉及工作生活的方方面面,最大的便利用户在任何时间任何地点的信息搜寻。在这种情况下情景感知业务可以催生大量移动电子商务的应用模式。这里举一个较为简单的例子,当某用户在A位置看完电影时正值就餐时间,该用户当前的需求就是确定一家饭店就餐。情景感知业务可以感应到当前的时间和位置,并根据用户以前的消费行为分析出用户在饮食方面的消费特征,主动或者在用户发出请求后将这一位置的用户最有可能光顾的饭店的信息发送给用户。这些信息可能包括具体位置,价格,饭店特色等用户关心的问题。这样一方面有针对性地满足用户的就餐需求,另一方面提高商家营销活动的精准性。同时,情景感知还具备预测用户下一情景需求的功能,在本例中也就是在发送饭店信息的同时,会同时发送用户就餐后的时间、可能移动的位置和可能的需求所决定的相关信息,对用户的下一行为进行推荐和提醒。这一部分相关信息也正是本文的研究对象。目前情景感知业务的应用还不成熟,但是它极大的便利性和准确性对用户和商家带来很多好处,我们可以预见在不久的将来一定会得到很大的发展。像情景感知这样机器感知人的行为意图和行为趋势的业务一定是建立在大量数据挖掘的基础上,对大量的用户行为特征和行为习惯进行分析,并结合位置、时间和商家的信息才能得出准确性较高的信息。

情景感知使得移动用户可以在任何时间任何位置都能根据个人的特点和需要得到所需的移动业务信息,这也就是情景感知所能为用户提供的便利。移动用户个性化的情景需求是以大量的数据挖掘为前提的。当用户在当前情景主动发出移动信息需求时,相当于用户主动触发了信息推荐系统。用户主动触发需求可以及时获得当前情景下的信息,但是如何在用户主动索取信息后,抓住这一诉求点继续推荐预测性较高的相关信息来引导移动用户当前情景的下一消费以及下一情景的消费是一个十分重要且有意义的问题。

目前一些国际国内的研究团队都在进行移动用户情景感知的数据挖掘工作,但是他们大多侧重于当前位置下的业务需求的挖掘研究。本文是在用户主动提出移动信息需求的前提下,利用挖掘工具为用户提供当前情景以及下一情景所需信息以及相关信息。本文第二部分加入时间因素找到用户移动的频繁序列,从而得到用户可能移动至的下一情景。第三部分找到用户当前消费及相关消费与下一情景的消费之间的关联规则,为用户提供基于情景感知的准确性较高的推荐信息。第四部分是结论。

2 移动用户的移动频繁序列挖掘

在这一部分,我们首先对情景感知中的相关概念进行定义,以数学符号的形式表示出来更加直观易懂。然后利用挖掘工具找到了移动频繁序列,也就是发掘除了具有特定特征的一类移动用户的移动规律。

2.1 基本定义

移动用户的移动位置的变化可能是离散的也可能是连续的,我们可以用时间点或者时间段来表示。为了弄清移动用户的位置变化本文从微观着手从离散的角度进行分析。

定义1: 令undefined, 其中undefined,1≤i≤m。

我们将移动用户的位置l用二维坐标轴x和y来表示,其中lm∈L,是移动用户位置集合的元素。

定义2: 令undefined,其中undefined,1≤j≤n,undefined。

某个区域aj是由移动用户在其中不断移动的位置构成的。而aj∈A,是某个地区的元素,若干个区域a便构成了现实生活中的地区A.

定义3:undefined

VT是指移动用户消费的有效时间,即用户在这一时间点确实发生了消费行为我们就称这一时间点为移动用户消费的有效时间,以与移动用户在消费过程中未发生实际消费行为的时间相区别。如表1 VT一栏中“2007/8/7/13/10”即表示在2007年8月7日13时10分用户发生了实际的消费行为,那么这一时间点也就是用于分析该用户消费特征的一个有效时间。 M为移动用户时间和空间位置的集合,也就是移动用户消费行为发生的时间与空间的相互关系的集合。

定义4: 令undefined

其中undefined,

tj-tj-1≤ 最大的时间间隔, 2≤j≤k,aj∈A

移动用户的移动序列是每一个时间tj和区域aj构成的sk的集合。移动用户消费的时间由t1,t2,...,tj来表示。我们在两个消费行为之间设定最大的时间间隔,也就是说当移动用户相邻两个消费行为之间的时间间隔超过最大时间间隔,我们就认为这两个行为之间没有强关联性,将两个消费行为分别归属于不同的移动序列。这也包括移动用户在同一位置发生的超过最大时间间隔的行为之间的关系—分属于不同的移动序列。假设我们设定的最大间隔时间为20分钟。由此我们可以得到表1中移动用户的移动序列如表2所示。

定义5: 移动频繁序列,在undefined中,si表示移动序列。如果S是S’序列的一部分,也就是S’序列包含S时,S的支持度可以表示为:undefined,当undefined时,则s为一个频繁序列。

2.2 数据挖掘

我们利用Apriori算法找到移动用户的频繁移动序列。Fk是K项频繁移动序列,Ck是k项候选序列。Ck是Fk的超集,即Ck的成员可以是频繁的也可以不是频繁的,但所有的K项频繁序列都包含在Ck中。扫描数据库确定Ck中每个候选序列的计数,从而确定Fk(计数值不小于最小支持度计数的所有候选序列都是频繁序列,从而属于Fk)。利用Apriori算法的性质:任何非频繁序列的K-1项序列都不可能是K项频繁序列的子集。因此如果一个候选K-1项序列的自子集不在Fk-1中,则该K项序列不是频繁序列,从而可以从Ck中删除。下面表3~表7分别显示了寻找K项频繁序列的过程。假设最小支持度计数为2。

undefined

undefined

所以我们得出频繁移动序列就是undefined。

3 相关推荐信息的关联规则挖掘

在上一节挖掘出的频繁移动序列的基础上,寻找可以准确推荐给用户的相关信息的关联规则。

3.1 基本定义

我们以上一节挖掘出的频繁移动序列undefined为例进行进一步的分析。当移动用户U在A位置触发了消费需求点,比如U在A位置主动发送搜索商品P1的请求。这时除了为用户提供P1的信息之外, (通过大量的数据挖掘工作,我们可以发现U所属的特定消费人群在A位置,还有其他频繁消费的商品以及在U即将移动至的B位置频繁消费的商品)。我们还可以提供这些与P1和位置B相关的其他商品的信息来唤醒移动用户潜在的消费想法,最终形成有效消费。

3.2 相关推荐信息关联规则挖掘

假设关于用户U存在以下消费商品的数据库。我们同样利用Apriori算法寻找频繁项集。设定最小支持度计数为3,见表8、表9所示。

U消费商品的数据库既包含了U在A位置可能进行的下一个相关消费,也包含了U在下一位置B可能消费的商品序列。也就是说综合考虑到了单纯位置之间的关系和单纯的商品之间的关系以及综合位置和商品之间关系。

扫描用户U的数据库,找出频繁1项集的集合F1。

undefined

在寻找频繁2项集F2时利用频繁1项集F1,根据Apriori的算法首先剔除那些具有非频繁子集的候选序列得到所有候选序列,开始扫描数据库。对于每个事务找出其中是候选的所有子集,并对每个这样的候选累加计数,最后所有满足最小支持度计数的候选形成频繁项集F2。

undefined

根据Apriori算法我们知道不可能存在3项集的频繁序列,因为P1P5不是频繁项集,所以P1P2P5这个3项集不可能是频繁序列。所以商品的频繁序列为undefined。

分析相关商品频繁序列undefined的关联规则,假设置信度为50%。

P1⇒P2Confidence=4/6=66.67%>50%我们可以发现U在A位置购买P1之后,可能会在20分钟之内到B位置购买P2。

当用户主动发出业务需求时,按照这样的方法综合分析上一节中得到的频繁移动序列

undefined,我们可以得到用户下一刻的可能消费目标消费地点消费时间的所有信息集合。这时服务器可以根据置信度的高低、间隔时间的长短(也就是下一业务需求的急迫性)、距离的远近等标准,从这一集合中挑选出来一些信息主动push给用户,唤起用户的消费记忆,从而形成有效消费。

4 结束语

在本文中,我们利用影响力最大的Apriori算法找到了移动用户在不同情境之间移动的简单规律,随后在这一规律的基础上继续挖掘不同情景之间的商品和服务之间的关联规则。在情景感知的应用中期望达到这样的目的:当移动用户在当前情景下主动发出业务需求后,服务器抓住这一信息触发点,根据该用户的数据库综合分析其个人属性(年龄、性别、收入、消费特征等),情景属性(时间、空间、当前业务需求、下一情境及业务需求)等等,从而为用户提供其当前需要的业务信息的同时,主动推荐相关情景和相关业务的信息,刺激用户唤起其消费的潜在记忆,形成有效消费。

参考文献

[1]Jun Wook Lee,Ok Hyun Paek,Keun Ho Ryu.Temporal moving pattern mining for location-based service.The Journal of Systems and Software,2004.

[2]王丽珍,周丽华,陈红梅.数据仓库与数据挖掘原理及应用.北京:科学出版社,2005.191~194

教育信息推荐表 篇5

第一章 总 则

第一条 为了充分发挥南阳市教育城域网(以下简称南阳教育网)的信息传播作用,建立规范的信息采集、审核、发布、更新机制,使南阳教育网更好的服务于教育教学工作,依据国务院《互联网信息服务管理办法》等有关规定,制定本办法。

第二条 本办法所称信息是指在南阳教育网的门户网站(www.nyedu.net)以及各信息源单位自行建立的网站对外发布的文字、数据、图片、音频、视频及其他形式的信息。

第三条 南阳教育网是南阳市教育系统通过互联网对内、外进行信息传播的重要媒体,是南阳市教育信息服务的枢纽,为各级教育行政机关和广大中小学校发布信息。

第四条 各县区教育网站作为南阳教育网门户网站的二级网站,各单位网站的信息由各单位依据本办法进行管理。

第五条 南阳市教育网络管理中心依据本办法对南阳教育网内的信息实施监管与维护。

第二章 信息采集

第六条 下述各种信息应及时上网:(一)教育系统重要新闻事件;

(二)教育系统重要活动,以教育局名义召开的工作会议,教育局出台的重大政策、措施等;

(三)各种公告、通知;

(四)各级教育法律法规和无密级的政策措施;(五)与同公众和师生关系密切的部门业务数据;

(六)各单位的有关人员、组织机构、职责、办事程序、办公场所、办公电话等信息。以及与本单位职能和服务相关的其他信息。第七条 教育网上发布的信息来自全市各级教育行政机关和各学校,各单位应按门户网站上所设栏目要求和本单位网站的要求,积极主动、准确及时地提供信息。

第八条 各单位在门户网上发布信息须提供电子文档,通过电子邮件传输给教育网络管理中心。

第九条 转载自其它网站、刊物的文章、资料,应能确认不构成侵权行为,并注明作者、出处等。

第三章 信息审核

第十条 教育网上发布的信息均为非密级信息,涉密信息不得上网发布。第十一条 教育网上发布的信息应履行严格的审批程序,未经审核的信息不得上网发布。其中,教育网门户网站上发布的信息必须经南阳市教育局审核,由教育网络管理中心从技术上开通对外信息;各教育网站上发布的信息必须经各单位有关领导审核。

第十二条 信息审核内容包括:(一)上网信息有无涉密问题;

(二)上网信息有无违反国家有关法律、法规,有无涉及敏感主题;(三)上网信息目前对外发布是否适宜;(四)信息中的统计数据是否准确。

第十三条 交互式栏目(BBS、聊天室、留言板、论坛等)的专项管理。教育网中各交互式栏目必须由专人负责实时监管和审核,对于论坛、BBS的发帖,管理员必须即时性审查,采取必要的技术防范措施,及时处理网上有害信息。在管理员不能及时处理信息的节假日期间,关闭交互式栏目的发帖功能。

第四章 信息发布

第十四条 门户网站上的信息由教育网络管理中心统一发布。二级网站的信息由各信息源单位负责发布。

第十五条 门户网站新增栏目和改版信息,由教育网络管理中心提出意见,经教育局有关领导批准后实施。第十六条 各单位如需利用门户网站发布栏目规划以外的公告类信息,须提前3天(紧急信息除外)向教育网络管理中心提出申请,经分管领导审定后方可发布。

第五章 信息管理

第十七条 各信息源单位应建立信息的登记、审核、监视、清除、备份和网络安全事故的报告制度,加强对网上信息的监控和检测,防范有害信息网上传播。

第十八条 各信息源单位应建立规范的信息文档,并指定专人负责管理。文档的登记、保管、借阅和销毁,按档案管理的有关规定执行。

第十九条 教育网中的论坛、BBS等动态栏目要采取内、外分类管理办法,关闭外网用户在论坛上的注册及发布信息权限。必须设立完备的日志记录并保留60天以上。

第二十条 违反本办法规定,对信息审核把关不严,造成失、泄密的,由此引起的后果由责任单位和个人负责。

教育信息推荐表 篇6

摘要:研究基于访问日志挖掘的高校综合信息门户页面推荐。从高校综合信息门户服务器日志中获取用户日志数据,对日志数据中的“脏”数据进行预处理,通过改进的Kmeans聚类算法将用户浏览兴趣度数据集划分为多个具有相近兴趣度的用户集合,凭此为用户提供个性化的页面推荐。实验结果表明,在高校综合信息门户页面推荐方面具有不错的效果。

关键词:用户日志挖掘;高校综合信息门户;页面推荐

中图分类号:TP393文献标识码:A

Abstract:This paper discussed a page recommendation of college synthetical information portals based on server logs mining. Firstly, the user log data was obtained from server logs, which were then pretreated with “dirty” data. Secondly, the interestmeasure of each user pairs was calculated by the processed data sets, and the data set of interestmeasure of each user pairs was divided into multiple classes with similar interestmeasure based on improved Kmeans clustering algorithm. Finally, personalized page recommendation method was provided to each user. The experimental results prove the effectiveness of the method in college information portals.

Key words:server logs mining; college synthetical information portals; page recommendation

1引言

通常,Web挖掘可分为Web内容挖掘、Web结构挖掘和Web日志挖掘[1]。目前,已有部分学者进行了基于Web挖掘实现网页推荐的研究。如:Yan[2]等将用户浏览网页时间作为权值加入到基于关联规则的网页推荐系统中;杨正余等[3]提出了一种基于用户访问序列的实时网页推荐方法;解男男等[4]提出一种基于Web日志挖掘的个性化网页推荐模型;吴瑞[5]讨论了基于双层聚类方法的网页推荐模型。

本文研究了基于访问日志挖掘的网站页面个性化推荐。以本校综合信息门户为例,从本校综合信息门户服务器日志中获取用户日志数据,对日志数据中的“脏”数据进行预处理,以适应数据挖掘的需要,通过改进的Kmeans聚类算法将用户浏览兴趣度数据集划分为多个具有相近兴趣度的用户集合,凭此为用户提供个性化的页面推荐。

本文利用数据挖掘技术对日志数据进行处理,通过分析大量日志数据发现用户的偏好和需求,为用户提供个性化页面推荐[6],从而节省用户搜索页面的时间,提高用户对学校综合信息门户的满意度。

日志挖掘就是从大量的日志数据、文档和活动中发现用户感兴趣的潜在信息的过程。聚类是目前日志挖掘常用的方法[7]。本文在现有Kmeans算法的基础上,提出一种改进的Kmeans聚类算法,设计了高校综合信息门户页面推荐的实现方案。该方案针对高校综合信息门户用户提供个性化页面主动推荐, 帮助用户更快获取有用信息, 提高工作效率。

2总体方案

学校综合信息门户服务器日志是用来记录用户访问活动的,是获取用户访问综合信息门户活动情况的首要数据来源。服务器日志的基本信息包括用户访问请求时间、访问某个页面的次数、持续时间及该页面长度等。图1为总体方案流程图。具体过程如下:首先从高校综合信息门户服务器日志中获取用户日志数据,然后对用户日志数据进行清理、识别等,为数据挖掘与分析奠定基础;接着从待处理的用户日志数据集计算用户浏览兴趣度,并基于改进的Kmeans聚类,将用户浏览兴趣度数据集划分为多个具有相近兴趣度的类,分析用户的偏好和需求,为用户提供个性化页面推荐,最终使系统功能更加友好实用、善解人意。

在上述方案实现过程中,采用基于改进的Kmeans聚类算法,考虑如下:由于现有的 Kmeans算法初始点是建立在随机选取的基础上的,如果初始化点选择不好,一般很难跳出局部最优,而且产生的最终聚类结果也会很差[8]。因此,本文通过选取周围密度最大 k个点作为初始化点,该方式不仅能够有效地解决Kmeans初始化点选择问题,而且也能有效地降低孤立点对Kmeans算法的影响,具体算法如4.2节所示。3日志数据预处理

数据预处理是实施有效挖掘算法的前提, 在日志挖掘中具有非常重要的作用。主要因为:数据是来自多个数据源未被加工的、高维、冗余、含有噪音且非均匀分布的复杂数据, 在数据模型、含义、模式、结构和语义上存在不一致性和冲突,因此数据预处理是日志挖掘质量保障的关键。数据预处理一般包括数据清理、用户识别、会话识别、路径补全等[9],具体过程如图2所示[10]。

1) 数据清理:主要是清除 Web 服务器日志文件中无关数据项的过程。一般包括数据合并、删除无关数据、处理代理访问、规范 URL 等。

2) 用户识别:主要是识别访问学校综合信息门户的独立用户,当用户转换使用浏览器或直接输入 URL 时,一般视为多个用户; 而同一操作系统、同一IP、同一浏览器访问网站,且浏览页面集合相同,一般视为同一个用户。

3) 会话识别:用户会话是指用户从进入站点到离开站点期间所访问的一系列页面序列集合,通过研究这些序列,获得用户在站点中的浏览爱好或是访问模式。

4)路径补全:由于本地缓存和代理服务器缓存的存在, 使得服务器的日志会遗漏一些重要的页面请求。在无法以客户端进行网页浏览跟踪的情况下, 可利用每个请求页面内容推断出一些缓存网页的浏览情况, 通过路径补充将这些遗漏的请求补充到用户会话中,使不完整的访路径变得完整。可利用网站的拓扑结构信息填充路径。

4高校综合信息门户页面推荐

经过数据预处理环节后,现在需要对这些日志数据进行挖掘,本文首先建立用户兴趣度参数来衡量用户对某个页面的兴趣大小,然后将按照用户共同的访问习惯进行聚类,最后基于聚类结果完成针对高校综合信息门户个性化页面推荐。

4.1用户兴趣度计算

兴趣度表示用户对某事物感兴趣的程度。但是在网络访问领域兴趣度的定义并不是十分明确。文献[6,11]提出了用户兴趣度的概念,并给出了量化计算公式。本文用访问频率系数F(i)和浏览时间系数C(i)进行量化。

1)访问频率系数F(i)

定义l 如果用户u访问了某一页面i,即认为用户u对i感兴趣。用户感兴趣的程度即兴趣度的计算依赖于用户对页面的访问频度。设n为u访问i的次数,total为u访问的所有页面的总次数,u对i的兴趣度F(i)的计算方法如下[11]:

F(i)=n/total(1)

即F(i)表示页面i在一次会话中被浏览次数与本次会话浏览的所有页面总次数之比值, 细化为式(2):

F(i)=V(i)∑im∈SjV(im)(2)

上式中, V(i)表示页面i在一次会话中被浏览次数,Sj是一次会话浏览的页面集合。

F(i)越大,则u对i越感兴趣。

在定义l中给出的用户兴趣度计算公式,兴趣度大小由点击量确定。曾经,点击量是衡量网站热门程度的主要指标。不过,随着AJAX技术的发展,百度、雅虎和Google等搜索网站因是浏览器首页造成其点击量较大,但往往不是用户最感兴趣的页面。因此,仅仅以点击量计算用户兴趣度有失偏颇。

2)浏览时间系数 C(i)

用户在一个页面上浏览的时间越长,说明用户对该页面越感兴趣。用户浏览时间应作为衡量网站访问量的最好方式[6,11,12],改变传统过度看重点击量的做法。一个用户在网站上浏览时间(在线时间)的长短,反应出一个网站的粘度和吸引用户的能力。

用户浏览时间,即用户在网站页面从打开到浏览内容结束并关闭页面的时间。用户浏览页面的时间长短也与该页面长度有关,因此需要将页面的长度与“浏览时间”联系起来。 C(i)表示“浏览时间系数”,是浏览页面i单位长度上的所耗时间与本次会话浏览的所有网页单位长度上所耗的最长时间的比值,如式(3)所示:

C(i)=T(i)/L(i)max im∈Sj(T(i)/L(i))(3)

上式中,T(i)表示用户浏览页面i所用时间,L(i)表示页面i的长度,Sj是一次会话浏览的页面集合。

综上,可以看出:用户访问兴趣度与用户访问频率和用户浏览时间有关,为了更准确地反映用户的兴趣度,必须考虑将频率和浏览时间结合起来计算。本文综合F(i)和C(i),表示在某一会话中用户对某个页面i的兴趣度 I(i),I(i)的定义如(4)式所示:

I(i)=2·F(i)·C(i)F(i)+C(i)(4)

上式表明,兴趣度 I(i)只有在用户访问频率系数F(i)和浏览时间系数 C(i)同时较高的情况下才会具有较高的值,换言之,若用户频繁访问某一页面,并且浏览这个页面的时间也较较长,则表明用户对该页面比较感兴趣。有些页面被用户访问的次数比较少,不能反映用户的兴趣度,所以在进行用户页面兴趣度计算时需要设定一个最小的阈值,这样可以排除访问总次数比较少的页面,提高系统的处理速度,同时也提高页面推荐的可用性。

4.2改进的 Kmeans用户聚类算法

将得到的用户兴趣度数据集进行聚类,聚类结果则为多个用户类(簇),每个类(簇)中的用户访问习惯相近,称为用户访问模式。用户访问模式是用来描述具有相同浏览访问特征的用户组。由于多个不同用户在其访问期间可能有相同的兴趣,用户访问模式能有效获得这些用户共同的兴趣或共同的访问需求。此外,用户访问模式也能将不同兴趣的用户区分开来。本文采用改进的 Kmeans聚类算法获得用户访问模式,该算法下。

基于改进的Kmeans用户聚类算法

输入:D={x1,x2,…,xn},k

//用户兴趣度数据集和期望的类数目

输出:k个类集//用户访问模式

1)初始化k个类别中心。

按照公式(5)选取密度最大的前k个数据作为初始聚类中心点 C={c1, c2, …, ck},公式(5)如下:

density(xi)=∑nj=1ed(xi-xj)22σ2(5)

式中σ选取0.5。

2)对于数据集中其它每个对象xj,则根据它们与各个聚类中心点ci的距离,分别将它们分配给与其具有最小距离的聚类中心点的类中,形成k个类。

repeat

for j=1 to n do

将xj分配给距离最近的聚类中心所属的聚类Ci

3)重新计算每个类的聚类中心。

for i=1 to k do

用当前聚类Ci中所有样本的质心点更新聚类中心,即x′i=1Ci∑x∈Cix

4)计算误差函数E=∑ki=1∑x∈Ci|x-x′i|2

UntilE不再明显变化或聚类内的数据点不再发生改变。即所有聚类中心点达到稳定, 则结束聚类; 否则跳至步骤2), 重复执行, 直至聚类中心点不再发生变化。

上述算法中,首先针对现有的Kmeans算法初始点选择容易陷入局部最优问题[8,13,14],通过迭代的方式选取密度最大的前k个数据作为初始化聚类中心,该方式能够有效地解决初始点敏感的问题,而且降低了孤立点对Kmeans算法的影响;再依次计算初始数据集中每一个对象到各个聚类中心点的距离,并根据计算结果将数据对象逐个分派到其最近聚类中心点的类中去,然后重新计算接受新对象的类和失去对象类的均值,如此重复,直到各类再无元素进出。聚类结果得到用户类集合 C={c1, c2,…, ck},其中每个类 ci是具有共同访问兴趣的用户集合。

4.3热点页面推荐

基于聚类算法找到的具有共同访问兴趣的用户集合,本节主要通过这些集合对网站页面的访问兴趣度进行匹配,计算每个页面的推荐度,按推荐度从大到小进行排序,完成用户个性化推荐。

主要通过以下方式进行热点页面推荐。根据每一个类 ci的共同的用户浏览兴趣度,构建面向用户的热点页面推荐集合,选取Top 10个热点页面,当用户登录到系统时,将这10个热点页面以快捷方式推荐给该类用户。

5实验结果

为了验证改进的Kmeans聚类算法的有效性,本文选用了本校综合信息门户平台中的用户行为数据集,并选取 2015 年 3 月1 日至2015 年 6 月 30 日期间的用户行为日志,具体包括2200个用户、400个系统功能菜单以及805200条用户点击记录。运行环境为Win7 系统,主频3.5GHz,内存8G,硬盘1000G,程序使用Java语言实现。用户行为数据集包括了10类用户,分别是:校领导、处级干部、科级干部、一般管理人员、院系领导、教研室主任、实验室主任、普通教师、研究生、本科生,并与K-means聚类算法进行比较,实验中分别设置了400、700、1000、1300、1600 、1900以及2200个用户作为比较对象,聚类结果如图 3 所示。

在图3中,横轴为选取的用户个数,纵轴为聚类结果的准确度。聚类结果准确度在[0,1]之间,结果越大则说明聚类效果越好。从上图中可以看出采用改进的 Kmeans 算法,聚类准确度区间为[0.72,0.88],而一般的Kmeans算法的准确度区间为[0.61,0.75],两个算法的准确度均随着用户个数的增加而增加,但改进的Kmeans 算法要比一般的Kmeans算法性能更佳,因此使用改进的Kmeans 算法聚类效率更高, 将该算法用在高校综合信息门户页面推荐上将进一步提高用户工作效率及其满意度。

6结语

基于服务器日志挖掘的网站页面推荐服务研究,一方面协助用户很快找到感兴趣的页面,另一方面能够帮助信息系统内容和结构的个性化完善。本文首先建立用户浏览兴趣度计算模型,接着通过改进的Kmeans算法对用户进行聚类,然后实现用户兴趣页面推荐,最后通过实验验证算法的有效性。目前,信息系统基于用户兴趣的页面推荐研究仍处在快速发展时期,研究更智能、更优化的信息系统页面推荐技术会有广阔应用前景。

参考文献

[1]韩家炜,孟小峰,王静,等.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414.

[2]YAN Liang,LI Chunping.Incorporating Pageview Weight into an AssociationRuleBased Web Recommendation System [M].Lecture Notes in Computer Science.Berlin:Springer,2006:577-586.

[3]杨正余,王卫平.基于用户访问序列的实时网页推荐研究[J].计算机系统应用,2008,17(5):50-53.

[4]解男男,胡亮,努尔布力等.基于Web日志挖掘的网页推荐方法[J].吉林大学学报:理学版,2013,51(2):267-272.

[5]吴瑞.基于双层聚类方法的网页推荐模型[J].系统工程学报,2013,28(2):265-270.

[6]郭岩.网络日志中用户兴趣的挖掘及利用[D].北京:中国科学院计算技术研究所,2004.

[7]吕佳.基于兴趣度的Web用户访问模式分析[J].计算机工程与设计,2007,28(10):2403-2407.

[8]赵晶晶.基于Web日志挖掘的用户访问兴趣研究[D].武汉理工大学计算机科学与技术学院,2014.5.

[9]杨鹏.Web日志挖掘数据预处理算法研究与实现[D].北京邮电大学计算机科学与技术学院.2010.5.

[10]孙宇航,孙应飞.基于网络日志的数据挖掘预处理改进方法[J].系统工程与电子技术.2009(12):2994-2996.

[11]张珠玉,刘培玉,朱振方,等.改进的访问统计方法及对用户兴趣度的计算[J].计算机工程与设计,2011,32(2):424-426,627.

[12]邢东山,沈钧毅.一个可以准确反映Web浏览兴趣的度量值—偏爱度[J].控制与决策,2004.19(3):307-310.

[13]邵必林,边根庆,张维琪,等.采用k一均值聚类算法的资源搜索模型研究[J].西安交通大学学报,2012.46(10):55-59.

教育信息推荐表 篇7

关键词:个性化推荐,LBS,位置情景相似度,协同过滤,项目相似度

0 引言

随着移动通信技术的迅猛发展和移动智能终端的普及,移动电子商务在人们日常生活中扮演者越来越重要的角色,使得用户可以随时随地方便地通过移动设备获得如购物、娱乐、订餐、银行业务等各种服务[3]。面对海量的移动商务信息,高效完备的推荐机制无疑将对移动电商的成功起到至关重要的作用。近年来,移动推荐系统利用移动互联网在信息推荐方面的优势,通过预测移动用户的潜在偏好来过滤不相关的信息,为移动用户提供满足其个性化需求的推荐,逐渐成为缓解“移动信息过载”的有效手段[1]。移动推荐系统是基于上下文感知的[3],其中位置上下文对用户偏好的影响至关重要,如何利用位置情景信息获得更准确的推荐是当前移动推荐研究的热点[3]。

虽然目前基于位置推荐的研究已有不少,但对位置情景在推荐系统中的运用方式、重要程度及权重分配上仍有不足之处。如:Kuo等[5]、陈洪亮等[6]将位置信息作为一个属性引入用户维度中,单纯地根据位置进行过滤,没有充分体现位置情景在移动推荐中的重要性;Qiudan Li等[7]引入位置情景信息,将推荐空间定义为N维“用户×项目×历史记录×位置×时间×天气”,缺点是多维矩阵会随着上下文信息的不断增加而需要不断地进行维护扩展,这无疑会增大计算的复杂度,同时面临存储的压力。

针对现有研究的不足,本文充分考虑位置情景信息的移动推荐中的重要性及位置敏感性,引入位置情景作为一个新的维度,提出了一种针对移动终端环境的混合多维推荐模型。推荐空间定义为“位置×用户×项目”,其中位置维度包含了地理位置、时间、天气等多项上下文信息,各个维度可以根据实际需要增减属性,故而上下文信息的增加并不会影响模型的维度。然后,以此推荐模型为基础,提出了一种新的混合推荐算法,融合了位置情景相似度过滤、项目相似度过滤以及协同过滤三个维度的推荐。最后,通过对比实验验证了该推荐模型的有效性。

1 关键技术

1.1 基于位置的服务

基于位置的服务LBS(Location-based Service)是通过电信移动运营商的无线电通信网络(如GSM网、CD-MA网)或外部定位方式(如GPS)获取移动终端的位置信息,为用户提供各种与位置相关的服务的一种增值业务。根据测量和计算的实体不同,定位技术可以分为以下几种:基于网络的基站定位、基于移动终端的GPS定位、A-GPS定位(辅助GPS)定位和WIFI定位。各种定位技术的定位精度不同、适用场景不同、对终端和网络的要求也不同。

通过LBS技术可以很方便地获取移动终端的位置信息。目前,LBS技术在国内发展迅猛,已经有比较成熟的第三方LBS开放平台供开发者使用和完善,如百度地图、高德地图。两种定位都支持混合定位模式,能实现高效精准的定位,能够满足移动电子商务系统的定位需求。本模型的实现采用百度LBS开放平台提供的定位SDK来实现移动端的定位功能。

1.2 推荐技术

个性化推荐系统正式的定义是Resnick和Varian在1997年给出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”[8]。

目前,推荐系统中使用的推荐技术主要包括基于内容的推荐、协同过滤推荐以及混合推荐[1]。协同过滤CF预测精度高,但存在稀疏问题和可扩展问题。基于内容的推荐不存在冷启动和稀疏问题,但预测精度有待提高。综合考虑,本文结合这两类推荐算法的优缺点,将加权Slope One协同过滤算法与改进的项目相似度过滤算法相结合,设计了一种新的混合推荐算法,以期达到更好的推荐效果。

2 推荐模型

2.1 模型概述

本文提出的基于LBS的移动推荐模型如图1所示。在该模型中,将推荐空间定义为“用户×项目×位置”,其中位置维度包含了地理位置、时间、天气等多项上下文信息,各个维度可以根据实际需要增减属性,因此上下文信息的增加并不会影响模型的维度。然后,在此模型基础上,提出了一种新的混合推荐算法,算法分为两步:第一步,基于位置情景进行一次过滤,即进行位置情景相似度计算,过滤出与用户当前位置情景相似度较高的情境下购买的商品,缩小推荐范围;第二步,在上一步过滤结果的基础上,基于用户和项目进行过滤,分别按改进的slope one算法、项目相似度过滤算法进行过滤,然后按适当的权重将二者的推荐结果进行合并处理,产生最终的推荐结果。最后用真实数据验证算法的有效性。

2.2 模型数据的采集

推荐系统数据采集阶段的主要任务是获取影响用户偏好的信息,这是一个多渠道信息提取和挖掘的过程。主要有两种获取方式,其一是显式获取:通过询问或用户直接设置的方法获取用户偏好信息,这种方式获得的信息最准确。但这种机制的被动性限制了其适用性,在没有利益回报的条件下用户一般不愿意花费时间精力去提供信息;其二是隐式获取:不需要用户特别参与,通过终端系统监测或追踪记录用户行为数据。这种系统主动获取的方式不会给用户带来额外的负担,但隐式获取的数据质量一般没有显式获取的数据质量高,脏数据比较多需要进行数据清洗。

本文模型中影响用户偏好的信息主要是位置情景信息(包括位置信息、时间信息以及天气信息)和用户行为信息(包括评价信息、购买信息)。这些信息均可以借助移动终端技术及服务端数据记录得到,而无需通过用户显式输入获取,故本文采用隐式获取方式。具体地,位置信息通过移动终端的LBS定位技术获取,时间信息通过移动终端的系统时间来获取,天气信息可以通过在移动终端调用中央气象台的天气预报API获取,而评价和购买信息可以通过用户个人记录的分析获取。通过隐式方式获取的影响用户偏好的信息及对应的取值范围如表1所示。

2.3 多维混合推荐模型的设计

个性化推荐模块主要包含位置情景相似度过滤、Slope-one协同过滤、项目相似度过滤和加权合并处理四个子模块。

(1)基于位置情景相似度的推荐

在该模型中,用户每次的交易项目及对应的位置情景信息都会记录到数据库中,每一商品对应有一个历史位置情景集合。当对用户进行商品推荐时,根据用户当前的位置情景信息,计算用户当前位置情景信息与各个商品购买行为对应的历史位置情景之间的相似度,相似度越高,用户在当前位置情景下购买对应商品的可能性就越大。

位置情景相似度计算方法如下:

设位置情景信息包括t个属性L1、L2、…、Lt,则用户购买某个商品G时所在的位置情景定义为:

用户购买某商品n次后,会记录n个与该商品对应的位置情景记录,形成一个历史位置情景集合,用t×n矩阵Locations(Hg)表示:

设用户当前位置情景为:

则用户的当前位置情景与购买商品G时的历史位置情景集之间的相似度计算式为:

其中Count(Li(N))表示Locations(H)中出现属性Li的值等于Li(N)的次数。

综上,计算位置情景相似度,实质就是将用户的当前位置情景与某商品购买行为对应的历史位置情景集进行匹配,计算位置情景属性的匹配率,匹配率越高表示用户在当前位置情境下购买该商品的偏好就越大。

(2)基于加权Slope One协同过滤的推荐

Slope One算法是一种简单高效的协同过滤算法,其基本原理是基于用户的评分历史及其他用户对item的评分来预测用户对item的评分。为了进一步提高算法的精确度,文献[1]提出了一种加权的Slope One算法,认为对某一对项目评分的用户越多,则这一对项目的评分差的可信度就越高,反之则越低。该评分计算式为:

其中rij表示ui对itemj的实际评分,djk表示用户对k、j两个项目评分差的平均值,ckj表示某一对项目k、j评分的用户数,Si表示ui评过分的项目集合。

然而,协同过滤算法普遍存在“冷启动”问题,即要预测某一个用户对项目A的评分,就必须至少有一个其他用户对A评过分,否则即使该用户已经对其他很多项目有过评分也无法产生预测分数。目前针对冷启动问题,主要有两种解决方案:一种是将基于内容的推荐算法与传统协同过滤算法相结合,由于基于内容的推荐算法本身不存在“冷启动”问题,故采用两者相结合的方式可以改善“冷启动”问题;另一种是直接将传统协同过滤算法的评分数据结合特定的方法进行解决[1]。

本文采用第一种方法,在Slope One协同过滤的基础上引入基于项目相似度的推荐算法,从而解决前文提到的“冷启动”问题。

(3)基于项目相似度的推荐

项目相似度推荐是一种基于内容的推荐。项目相似度的计算认为项目之间的相同类型特征越多则越相似[1]。结合本模型的实验数据特征,推荐项目为店铺,店铺特征包括店铺类型、店铺平均消费额区间。例如,店铺A的类型集为{品牌商家,中式炒菜,烧烤烤串,火锅香锅},消费区间为[20,70],店铺B的类型集为{中式炒菜、饺子混沌、烧烤烤串},消费区间为[10,30],店铺C的类型集为{品牌商家,西式快餐,炸鸡汉堡},消费区间为[30,60]。三者对比发现:从店铺类型看A与B肯定比他们与C更加相似,而从消费水平看A与C显然比他们与B更加相似。基于项目相似度的推荐算法具体如下:

①类型相似度计算:输入两个店铺类型特征集Ck、Cj,对两个特征集进行匹配,将类型相同的两个结点看作一次匹配,则认为类型相似度等于总匹配数的两倍与特征集数量之和的比值,计算式表示为:

②消费相似度的计算也可以用式(3)表示。输入两个店铺的消费区间[kmin,kmax]、[jmin,jmax]分别记作Ck、Cj,对比两个区间的临界值,计算两个区间的交集大小为从而消费水平相似度等于交区间大小的两倍与两个区间大小之和的比。

③然后将商家类型相似度、消费水平相似度按照权值求和,设类型相似度权值为λ∈(0,1),则消费相似度为1-λ。本系统将两者的权值都定位0.5,即计算两个相似度的平均值作为最终相似度,计算式为:

④对已评过分项目计算加权平均数来预测评分,权值为项目之间的相似度。设j为用户i没有评过分的项目,Si为用户i评过分的项目集,simkj为项目k与j的相似度,则用户i对j的评分计算式为:

当用户对至少一个项目有过评分,就可以预测对其他项目的评分,该方法不存在“冷启动”问题。

(4)加权合并处理

对项目j的预测评分由上述两种推荐算法的过滤结果共同决定,合并规则表示为:

其中λ表示Slope One算法在混合算法中所占的权重,r(ijk)(k=1,2)表示Slope One算法及项目相似度算法计算出来的用户i对项目j的预测评分,表示混合算法得到的用户i对项目j的最终预测评分。

最后,将用户的最终预测评分的项目评分数据按评分进行降序排序,从中筛选出评分最高的几个项目作为最终的推荐项目,对用户产生推荐,至此完成个性化推荐模块的功能实现。

3 实验

3.1 实验数据

本文的实验数据集来源于生活半径网。生活半径网是中国O2O行业的先行者,主营业务是提供本地商家的上门生活服务。本文以生活半径网的消费、评分历史记录为基础,进行预处理,得到用户对商品的评分数据集,部分评分数据如表2所示。表中的每条数据代表某一用户U对其在位置L购买的店铺S的商品I的评分记录。

由于本实验预测评分的对象是店铺,因此需要得到用户对店铺的评分数据。在前述用户对商品的历史评分数据的基础上,将同一用户在同一位置购买的同一店铺的所有商品的平均评分作为对该店铺的评分,得到对应的店铺评分数据集,部分评分数据如表3所示。

然后,从数据库中获取用户评分数据集中的所有店铺信息,得到的店铺特征集作为本文模型中项目相似度过滤算法的数据源,其中店铺特征如表4所示。

另外,为了保证实验的有效性,尽量降低数据的稀疏度,本文删除了评分数量低于20或在同一位置评分数量低于10的用户评分数据,即每个用户至少有20条评分数据,且在同一位置至少有10个评分数据。最终得到了121个用户的3295条有效评分数据,作为本文的实验数据。

3.2 评价指标

目前推荐算法的评价指标分为两类:一类是预测评分准确度指标,最常用的是平均绝对误差MAE;另一类是分类准确度指标,最常用的准确率(precision)、召回率(recall)和F指标[1]。结合本文推荐模型的特点,选择使用准确率Precision、召回率Recall和F指标相结合的方式作为本文算法的评价指标。

对于一个未曾被用户评分的商品,最终的推荐结果有4种:推荐给用户且用户喜欢、推荐给用户但用户不喜欢、用户喜欢但未推荐、用户不喜欢且未推荐。表5总结了这4种情况。

准确率Precision为被推荐商品中用户喜欢的数目占被推荐商品总数的比例,即:

召回率Recall为被推荐商品中与用户喜欢的数目占用户喜欢的所有商品总数的比例,即:

当只推荐一个商品且该商品是用户喜欢的商品时,Precision为100%,而Recall却非常低,所以仅根据Precision或Recall来评价推荐算法是不合理的,需要综合考虑两者的值来评价推荐算法,即F指标,计算方法为:

由于本文实验数据的评分方式是5分制,因此在计算准确率Precision和召回率Recall之前,要对预测评分结果和实验测试集中的评分信息进行分类:评分为0~3表示不喜欢,3~5表示喜欢。

3.3 实验过程和结果分析

为证明本文推荐模型的有效性,分别对加权Slope One算法、项目相似度过滤算法以及本文的推荐算法进行实验,计算这三种算法的准确率Precision、召回率Recall和F指标,并进行对比分析。

(1)加权Slope One算法和项目相似度过滤算法的实验过程

首先,由于加权Slope One算法和项目相似度过滤算法都是基于“用户×项目”的二维推荐算法,而本文的实验数据是“用户×位置×项目”的三维数据,因此需要对实验数据进行处理,忽略位置信息,将同一用户在不同位置对同一店铺的平均评分作为忽略位置信息后的评分,得到新的实验数据。接着,将得到的实验数据按4∶1的比例随机划分为训练集和测试集。

然后分别按式(2)和式(3)-式(5)对测试集中的每一对<用户,店铺>进行预测评分,将结果按预测评分进行排序,得到加权Slope One算法和项目相似度过滤算法的推荐结果。

(2)本文推荐算法的实验过程

首先,按4∶1的比例,以“用户、购买位置”为标准将实验数据划分为训练集和测试集,保证同一用户在同一位置的评价信息只在训练集和测试集两者之一中出现,即在训练集中不存在与测试集中用户ID和购买位置都相同的数据。

然后,根据训练集和项目特征集,按照本文所描述的多维混合推荐算法对测试集中每个用户在某一位置可能喜欢的项目进行预测,将结果按预测评分排序,得到推荐结果。

(3)实验结果分析

在上述实验的基础上,分别按照式(7)-式(9)计算各个算法的准确率Precision、召回率Recall和F指标,如图2-图4所示。图中,横坐标表示推荐项目的数目N,本文分别对N=1,N=5,N=10,N=15三种情况进行了实验。

从图2可以看到,整体的准确率Precision随着推荐数目的增加,保持平稳趋势且有略微下降趋势。对比三种推荐算法的准确率Precision,发现在相同推荐数目条件下,本文算法的准确率Precision最高,且明显优于另外两种算法。

从图3可以看到,整体的召回率Recall随着推荐数目的增加,显示明显上升的趋势。这是由于用户喜欢的项目总数是不变的,随着推荐项目的增加,推荐项目中用户喜欢的项目数随之增大,因此召回率Recall不断增大。对比三种推荐算法的召回率Recall,发现在相同推荐数目条件下,本文推荐算法的召回率Recall最高。

由图4可以看到,整体的F指标值随着推荐数目的增加,显示明显上升的趋势。对比三种推荐算法的F指标,发现在相同推荐数目条件下,本文算法的F指标最高,较另外两种推荐算法具有明显优势。

综上,根据本文推荐算法的准确率Precision、召回率Recall和F指标的值均高于加权Slope One算法和项目相似度过滤算法,因此可以得到以下结论:在本次实验中,本文的基于位置服务信息的推荐算法具有较高的推荐效率。

4 结语

教育信息推荐表 篇8

关键词:社交网络,微博,弱关系,交互信息,推荐算法

0引言

近年来,随着网络技术的飞速发展,各种新媒体,尤其是社交媒体技术犹如雨后春笋般涌现,社交网络服务(Social Networks Services,SNS)逐渐走进人们的视线并为大家所熟知。以Twitter、新浪微博为代表的社交网络微博服务(Microblog)以其及时便捷、受众面广等传播 优势而成为主要的社交网络形态。

微博,即微型博客的简称,是一个基于用户关系的信息分享、传播及获取的平台。用户可以利用无线网络、有线网络实现全方位通信,实现Web页面、手机、IM接受和信息发送[1]。信息分享的即时性作为微博的独特之处,在服务用户的同时也为用户带来了一定的影响。从实际角度来看,即时性是为了让人们尽可能快地展示生活中的点点滴滴。但随着微博的发展,微博用户和信息的爆炸式增长,导致信息泛滥成灾,在这些重复以及过载的信息中,微博用户很难找到自 己感兴趣 的用户,并定位感 兴趣的信 息。

面对海量信息,解决信息过载问题的推荐系统应运而生,因其显著的推荐效果被广泛应用于电子商务等领域, 作为推荐系统核心组成部分的推荐算法,受到学者们的关注,各种推荐算法层出不穷。虽然通过互粉、联系人、手机通讯录等真实社交信息进行推荐的方法能达到很好的效果[2],但其为用户推荐的多为强关系链接的用户。经济社会学家马克·格兰诺维特提出:相对于强关系而言,弱关系有助于传递新信息。针对微博这种弱关系型社交网络, 弱关系的推荐比强关系更有价值。

因此,研究基于微博平台的弱关系用户推荐算法尤为重要。从用户角度看,它可以帮助用户构建起新的社会关系,使用户扩大交际圈;从微博平台角度看,它增强了用户之间的交互性,提高了用户对平台的信任度与依赖度。

本文旨在解决微博社交网络平台用户进行用户推荐时能顾及到弱连接用户。对此,本文综合使用用户实时交互信息与用户基本信息来计算用户相似度,在UserCF算法基础上,提出一种基于用户交互的BOI(Base-on-Interaction)算法。通过采集实际社交网络中的数据对其进行验证,同时分析各参数对推荐效果的影响。

1研究综述

目前,对于用户推荐的研究很多,研究方向主要有:基于内容的推荐方法、协同过滤推荐方法、聚类技术、关联技术、混合推荐等。

协同过滤算法是目前应用最广泛也是最受欢迎的推荐算法,它利用用户爱好之间的相似性来进行推荐[3],不依赖物品的内容,利用用户对物品的偏好信息,一般以打分的形式进行评价[4]。不过其并不能直接应用类似于微博这种弱关系社交网络的好友推荐,因为在微博类社交网络中,没有物品与评分的概念。此外,由于微博类社交网络的数据稀疏性,现有协同 过滤算法 的推荐效 果并不理 想。

关于利用用户的内容进行推荐方面,赵岩露[5]等结合微博数据集分析用户的个人特征,以此提高个性化推荐系统的质量。袁园等通过微博关注数据,挖掘用户关注对象的分布及对象间的关联性[6]。Shen D[7]和Zheng Y等[8]分析用户关注的blog或曾浏览的信息得出用户的兴趣模型,由模型计算得出用户兴趣相似度进而发现潜在好友。 Wu Z等[9]提出了一种 根据用户 的长相来 进行推荐 的算法。于海群等[10]通过分析社交网络中用户的话题偏好提出了基于用户话题偏好的推荐算法。关于基于用户的交互推荐方面,Lo S等[11]提出了按照好友之间的互动次数衡量两者的亲密度,互动次数 越多说明 两者之间 关系越好,如果两个用户对第三个用户亲密度都高则说明他们与第三个用户有很好的关系,这样他们就可能建立起新的好友关系。Chin A[12]根据任意两个用户之间的手机交互次数来进行推荐。

当前,社交网络有一个功能是“你可能认识的人”,它是基于“friend of friend”算法进行的推荐。该算法的思想是:如果A的很多好友是B的好友,那么A也可能会是B的好友。这种算法推荐效果很显著,但是只能帮用户寻找没有添加的强关系。

2BOI推荐算法

BOI算法旨在根据弱关系社交网络中的用户交互信息,为用户推荐其可能感兴趣的关注对象。通过综合分析用户交互信息与用户基本信息,提高弱关系社交网络平台的推荐效果。

定义1:用户数据 集User={u1,u2,u3…uN},ux为用户x的用户ID值。User表示原爬虫算法获取的新浪微博用户数据集(后简称原始数据集)中根据uid统计出的用户ID集。

定义2:用户微博 集Tweet{tweet(1),tweet(2), tweet(3)…tweet(N)},其中tweet(i)= {ti1,ti2, ti3…tiM},,i∈ [1,M],表示用户ui所发布的M条微博的数据向量集。根据用户数据集User中记录的ID在原始数据集中查找的该ID发表的微博的集合。

定义3:交互频率集其中sfik表示用户ui在我们选取的时间段里对uk用户的交互度。S_Follow为根据分析用户微博集Tweet,统计得到的每个用户与其它用户的交互数。

其中,交互度计算公式为:

为计算用户ui对用户uk关注度sfix的大小,引入另一个变量集Intac(i)={Ii1,Ii2,Ii3,...,IiN},其中Iij为用户ui的微博集tweet(i)中包含uj的个数。

定义4:用户ui与用户uk的交互相似度Wik公式为:

引入关注热度阈值 δ,即对于所有OS_Follow(i)={ osf1,osf2,osf3,...,osfN}中元素osfi<δ的值置为0,以减小算法的时间复杂度,降低空间冗余。

定义5:用户兴趣度ruv为通过分析用户的基本信息得到的用户u对用户v的兴趣程度。计算公式如下:

兴趣度ruv可为0,1。当ruv=1时,表示用户u是v的活跃follower,也就是说u关注了v;当ruv=0时,表示用户u并没有关注v,即用户u并非v的follower或非活跃的follower。

定义6:目标活跃关注集S(t)为目标推荐用户t的交互相似度集W(t)中的非零元素对应的所有用户。

定义7:推荐度P为综合计算用户交互相似度与用户兴趣度后得到的用户对某个好友可能感兴趣的程度数值, 作为最终进行TOPN推荐的数值指标。计算公式如下:

其中,S(t,K)包含和用 户t交互相似 度最接近 的K个用户;N(i)为用户i有过交互的所用用户的集合;wtv为用户t与用户v的交互相似度;rvi为用户v对用户i的兴趣度。

算法1BOI推荐算法步骤如下:

输入:用户数据集User,用户微博集Tweet,N;

输出:推荐结果列表L。

(1)根据用户数据集User与用户微博集Tweet计算用户之间的兴趣度,得到用户兴趣度矩阵R。

(2)对于任意待推荐的用户u,根据用户兴趣度矩阵R计算其中非零元素对应的用户与带推荐用户u的相似度,得到用户交互相似度矩阵S。

(3)根据用户兴趣度矩阵R与用户交互相似度矩阵S计算推荐度,并对结果从高到低排序,去前N个数据,得到排序结果C。

(4)按照排序结果C产生最终的推荐结果列表L。

(5)算法结束。

3实验及分析

3.1实验对象和实验数据

为验证本文算法的有效性,将真实的社交网络平台用户数据作为实验对象。该数据根据新浪微博平台的开放API接口,由微博爬虫以一组微博用户作为种子节点,根据雪球采集策略采集的微博用户个人数据,通过清理、整合、变化3个步骤对数据集进行处理,将处理后的30万条用户关注数据集以及近50万条微博内容,然后将其分为多组进行实验,最终实验结果为多组实验数据的平均值。 每组约包含500个用户与近2万条微博内容。代码由Python和Java实现。实验代码运行于Lenovo Y460上,Python版本为Python 3.4.1,jdk版本1.7。

实验参照的算法有:1传统的Top-N相似的协同过滤算法(CF);2“Friend-of-Friend”算法;3Contentplus-Link(CplusL )算法。其中,CF算法为基于用户的协同过滤(UserCF),用户相似度采用Jaccard公式进行计算,最终推荐结果采用Top-N推荐。

3.2实验评估指标

本文使用的评估指标为当前常用的3个评价推荐算法的指标:准确率(precision)、召回率(recall)和Fmeasure[13], 及其算法运行效率。准确率和召回率是用来反映查询结果的两个重要指标。其中:准确率指检索的相关信息量占检索出的总信息量 的百分比,用来衡量 检索系统 的信噪比;召回率指检索出的 相关信息 量占相关 信息量的 百分比,衡量检索系统的成功度;Fmeasure为准确率(precision)与召回率(recall)的调和平均值,该值越高说明其推荐的综合效果越好。计算方法如下:

准确率:

召回率:

其中,Kcorrect为给用户 推荐潜在 好友准确 的数量; Ktotal为为用户推荐的潜在好友的总数量,即Top-N中的N值;k为用户所有的好友数量。

3.3实验结果与分析

3.3.1算法效率测试

设置Top-N中N值为20,数据集分 别用1 000、 2 000、3 000、4 000、5 000、6 000、7 000、8 000、9 000和10 000条数据记录进行测试。比较传统的Top-N相似的协同过滤算法与本文的基于用户交互的BOI算法在不同数据集下运行的效率。算法运行效率如图1所示。当数据集选取6 000条记录,Top-N中N值为5、10、15、 20、25和30时,其算法运行效率如图2所示。

从图1、图2可以看出,在不同大小的数据集以及在为用户推荐不同人数方面,本文基于用户交互 的BOI算法所用时间均小于传统的Top-N相似的协同过滤算法, 由此可见本算法具有着较好的时间性能。

3.3.2算法准确性测试

分别选取多个N值对传统的Top-N相似的协同过滤算法、“Friend-of-Friend”算法以及本文基于用户交互的BOI算法进行对比实验。“Friend-of-Friend”算法的阈值设置为20,设置Top-N中N={2,4,6,8,10,12, 14,16,18,20,22,24},测试结果如图3-图5所示。其中,图3为3个算法的准确率曲线,图4为3个算法的召回率曲线,图5为3个算法的Fmeasure指标曲线。

可以看出,本文基于用 户交互的BOI算法在推 荐准确性方 面介于传 统Top- N相似的协 同过滤算 法与 “Friend-of-Friend”算法之间。如图5所示,本文算法 与“Friend-of-Friend”算法的Fmeasure曲线走势十分接近且在数值上相差也较小,都具有着较好的准确度,但本文算法在为用户推荐潜在的弱关系好友方面较强。从人类现实社会学角度来看,为用户推荐出潜在的“志同道合”的好友,也有重大意义与价值。

4结语

基于微博平台的弱关系用户推荐算法研究具有重要意义。从用户角度看,它可以帮助用户构建起新的社会关系,使用户扩大自己的交际圈;从微博平台角度看,它扩大、增强了用户之间的交互性,提高了用户对平台的信任度与依赖度。本文综合考虑用户实时交互信息与用户的基本信息来计算用户相似度。在UserCF算法的基础上, 提出一种基于用户交互的BOI(Base-on-Interaction)算法。 通过真实的实验数据集,验证了其具有较高的准确度与效率,通过调整各项参数分析了其对推荐结果的影响。

教育信息推荐表 篇9

在当今各行各业逐渐信息化的趋势下,医疗服务行业也趋于信息化。随着智能手机使用量的不断增加,智能手机中的移动应用需要不断地创新和发展,医疗服务的信息化也逐渐应用于智能手机上。面对大量的医疗服务信息,如何快速处理信息成为一大难题,嵌入移动应用中的推荐系统应运而生,基于位置服务(Location Based Service,LBS)的推荐系统即为其中一种。LBS推荐系统将基于位置系统与推荐系统巧妙融合起来,以便满足智能手机用户从移动应用中获取大量信息的需求[1]。在移动医疗服务信息应用中,融入LBS推荐系统,必须满足应用的新用户快速学会使用的前提下成功降低冷启动问题的影响,否则会流失大量用户[2]。同时,鉴于用户需要及时获取当前所处环境的信息,因此一款好的LBS推荐系统必须能够实时分析了解用户当前的偏好,并能够有效分析用户当前情境信息,实现向用户推荐个性化信息。目前移动医疗信息服务应用有易诊、好大夫等,这类应用已成功将位置服务推荐嵌入,但情境信息仅限于位置,使得推荐略显单一,融合多种情景信息进行推荐,可以使得推荐更加个性化。因此,本文提出融合位置、时间、天气、环境、交通等多种情境信息的医疗信息服务应用,能够使得用户获得更加个性化的服务。

在当前研究并实现的推荐系统中,普遍存在如下问题[3]:推荐类别和属性单一;用户学习成本高;缺少融合情境信息;冷启动问题仍然存在。

本文将针对这些问题,使用基于规则的LBS推荐模型,并将其应用于开发的医疗信息服务平台中,实现为用户提供实时医疗信息服务方面上的有效推荐。

1 相关研究

1.1 基于规则的推荐

传统的推荐方法有基于内容和基于协同过滤两种推荐方法。这两种推荐方法已得到了广泛的应用,但是在LBS推荐系统中,这两种推荐算法不能够有效地解决“冷启动”问题[4]。而基于规则的推荐不依赖于用户评分等历史信息,不存在“冷启动”问题,因此在本系统的开发与研究中,使用基于规则的推荐给用户提供所需信息。

基于规则的推荐,是基于知识推荐中的一种,在本系统中,通过将带推荐医院与医生的属性与用户的属性进行匹配来推荐,抑或是通过自定义或关联计算得到的规则来推荐[5]。基于知识的推荐需要解决的问题[6]:

(1)知识的统一表示及有效获取。该系统中的所有要素,需使用规范的方式来描述,包括用户信息(姓名、性别、邮箱、手机号码、QQ号码、家庭住址、病史等)、用户的情境信息(所处地理位置、所处位置交通情况、天气、温度等)、医院信息(所处地理位置、科室分布、医生信息等)等系统要素,以及所有要素之间的关系。除此之外,还需要统一描述推荐方法以及在推荐方法中上述所有系统要素之间的交互。

(2)合适的推理机制的生成,推理出结果。在该医疗服务信息推荐系统中,由用户信息、情景信息及医院信息,结合规则库中的规则进行推理并产生推荐列表。由此所得的推荐列表可能含有多条信息,亦可能为空,需结合各种情况,综合考虑使用适当的推荐方法。

(3)知识的规范聚合。在该系统中,用户属性、医院属性等处于持续动态变化中,因此,需要使用有效的手段对所有知识进行管理来控制知识的信息量爆炸。

1.2 位置的获取及计算

本文设计开发的医疗信息服务应用使用百度地图Android定位SDK对该应用用户所处位置进行定位,使用百度地图定位SDK能够进行精确、实时定位。

1.2.1 获取位置

基本定位功能,返回用户当前位置,包含GPS和网络定位(Wi Fi和基站定位)功能,同时还支持定位结果的反地理编码、离线定位、位置提醒功能和地理围栏功能。

Location Client类是百度地图定位SDK的核心,具体方法为Location Client(Context);使用get Longitude()方法获取经度坐标,返回结果为长整型数据;使用get Lati⁃tude()获取纬度坐标,返回结果为长整型数据;使用has Radius()方法获取定位的精度,并判断是否有定位经度半径,返回结果为布尔型;使用get Radius()方法获取定位精度半径,返回结果为浮点数类型,单位是m;使用get Addr Str()方法获取文字描述的地址,返回结果为字符串类型数据。

在百度地图SDK中,分为三种定位模式,分别为:高精度定位模式(Hight_Accuracy),低功耗定位模式(Battery_Saving)和仅用设备定位模式(Device_Sen⁃sors),本文开发的系统使用高精度定位模式。

1.2.2 位置距离计算

设A点的经度为Lon A,纬度为Lat A;B点的经度为Lon B,纬度为Lat B,以零度经线为0,东经为正数,西经为负数,以零度纬线为0,北纬为90-Latitude,南纬为90+Latitude,则经过上述处理过后的两点被记为(MLon A,MLat A)和(MLon B,MLat B)。根据式(1)、式(2)计算A点与B点之间的距离[7]:

式中,R为地球半径,值为6 378.137 km。

1.3 融合情境信息的推荐系统

在传统的推荐系统中,没有融入情境信息,其推荐过程如图1所示。

在图1中,使用函数描述该过程,其输入为用户属性,输出为使用推荐方法得到的个性化用户推荐列表[8]。

本文所研究开发的医疗服务信息推荐系统应用中,融入了位置、天气等情景信息,因此需将各种情境信息融入到图1中。如图2所示,所有研究过的推荐中,以情景信息放入推荐系统中的位置为依据,分为前置情境过滤、后置情境过滤以及情境过滤三种范式[9]。

传统的推荐系统采用的模型为三维范式,其表述形式为<用户,项目,评分>,在此模型中,对于同一个用户,其对同一个项目的评分保持稳定。而在移动平台中,需要考虑到各种情境信息,融入了情境信息的推荐系统,对于同一个用户,其对同一个项目的评分需要随着情景信息的不同而发生变化,因此需要将上述模型修改为四维范式,在其中加入情境信息这一项。在本文所研究开发的系统中,不涉及到用户对项目的评分,使用的是用户对于医院属性偏好规则,并且使用上述三种范式中的前置情境规律方法。首先根据用户当前位置判断与其距离在一定范围内的医院,对备选项进行过滤,删除距离大于用户考虑范围的医院,再根据当前时间删除此时不营业的医院;接着根据规则库中的规则判断用户偏好的医院类别、医院科室以及科室医生。

2 系统设计

2.1 系统推荐流程

由于向用户推荐的结果需要在命中率、多样性、实时性等评价指标间达到平衡,在向用户推送的结果集中,应包含各种类型的医院,除了与用户病史相关的医院信息,按时间片推送的医生信息以外,还可加入可网上挂号的医院信息以改善结果的质量。本推荐系统综合了用户属性及用户的各种情境信息,并与医院的类别、科室及医生进行匹配,确定出在某一时间某一地点适合用户的医院信息,实现对于用户的个性化推荐。图3为本推荐系统的流程。流程说明:

第一步:强制筛选。根据强制筛选规则集,删除不匹配医院。表1中,举例说明了本推荐系统中的部分强制筛选规则。

第二步:结合偏好规则集1、偏好规则集2和偏好规则集3,并行确定三种概率值。

(1)根据用户属性,计算用户对于各类医院的偏好概率;

(2)根据用户属性和科室属性,定义用户对于医院各个科室的偏好权重;

(3)根据用户属性和医院科室医生的属性,计算用户对于医生的偏好概率。

第三步:由第二步得到的三种概率,结合偏好规则集4确定用户对医院列表中每个医院的偏好概率,得出给用户所推荐的医院列表。

2.2 偏好建模

在分析与设计规则集和推荐算法前,需要完成对用户的偏好建模这一过程。根据移动应用与基于位置服务推荐综合的特点,本文的推荐系统在融合了情境信息的基础上将用户的偏好分为两类,分别为短期偏好和长期偏好。其中短期偏好有更新周期短,并且对情境信息比较敏感的特点;长期偏好有更新周期长,用户习惯偏好比较稳定之特点。医院的属性信息包括有无停车位、环境氛围、科室名称、科室医生性别、可否在线挂号等离散属性,就医费用区间、科室医生就医年龄区间、与用户位置距离属性等区间属性,用如下矩阵表示:

式中,区间属性an1的取值范围为:

离散属性an1的取值范围为:

对医院属性进行建模后,可以用一组向量来表示用户的偏好模型,可以表示为<<c1,d1,b1>,……,<cr,dr,br>,g1,……,cs>,比如某用户的兴趣模型为<[0~200],[0,2 000],有免费Wi Fi,有停车位,内科,医生就医3年以上>,表示该用户偏好的价格区间为0~200元,可接受的距离为2 000 m以内,能够提供免费Wi Fi,有停车位,要看内科并且该科室医生的就医年龄在3年以上。

2.3 情境信息建模

为了方便情境信息模型的创建,需要做以下工作:首先须定义情景信息,即确定在本推荐系统中需要获取哪些情境信息;然后确认如何采集这些情境信息。本文中,本推荐系统需要的情境信息包括:用户当前位置、当前时间、当前天气情况、周围交通情况等。

3 规则库的分析与设计

本文所涉及的规则库中规则的形式均为:A→B(P),即若A则B同时伴有一个概率值P,其中A为用户的属性或者情境信息,B为医院的属性,P表示医院匹配用户需求的程度及用户与当前情境对某个医院属性的偏好概率。如规则库中的某条规则:若60则[0~2 000](0.64)。该规则表示,如果用户年龄为60,那么为其推荐距离在2 000 m以内的医院概率为0.64。

3.1 获得个性化用户短期偏好

根据用户当前的时间、天气、位置、环境属性,确定用户短期偏好矩阵,并根据用户偏好,由偏好规则集1作用后,对该矩阵进行修正,得到如下矩阵:

式中,Ti,Wi,Li和Ei分别表示在当前时间、当前天气、用户当前位置和当前所处环境下,用户对于i类医院的偏好概率。

用户对于所有医院的推荐概率排序根据下式:

得到医院类别的推荐排序表。

3.2 获得用户长期偏好

根据偏好规则集2,将用户属性与规则库中的规则进行匹配,以得到对某医院科室的偏好概率为:

式中:m行表示用户的m个属性;n列表示n个医院的科室;Qij表示用户的属性i对医院的科室j的偏好程度。由式(9)可计算出用户对于医院科室的偏好权重:

根据偏好规则集3,将用户属性与规则库中的规则进行匹配,得到用户对医院科室医生的偏好概率,得到如下矩阵:

将由规则集2及各种属性计算所得的用户对医院科室的偏好权重与由规则集3及各种属性计算所得的用户对医院科室医生的偏好概率相乘,获得用户对医生属性的偏好概率。将此偏好概率进行排序,最高偏好概率对应的医生即为用户的长期偏好。

3.3 确定每个医院的推荐概率

根据规则集4,将推荐列表中的各个医院与规则进行匹配,其各个属性的偏好概率加权平均,由此得到用户对医院的偏好概率,将此值与对于医院类别的偏好概率相乘,得到的结果即为对用户推荐某医院的概率值。

医院用户的兴趣不断发生改变,则会出现新的关联规则。新规则产生遵循以下三个原则:旧规则不再出现;有新的规则;规则在一定的时间内重复。

当用户搜索某一医院时,算法会提供关于该医院所具有的关联规则,并将推荐概率高的n个医生推荐给用户,用户从这n个医生中选择适合自己病情的医生,此时就会导致所用规则的推荐概率发生改变。如此循环,系统会有针对性地向用户推荐医生,提高医院与医生的知名度,并且提高推荐的准确率。

4 系统实现与应用

本应用由配置在Windows操作系统上的Tomcat服务器提供Web服务,客户端应用使用HTTP协议进行访问获取信息。客户端应用采用Eclipse为Android客户端开发工具,Myeclipse 10为服务端开发工具,具有应用显示与后台程序和服务端程序相分离,使得整个应用框架清晰、易于维护、扩展性强。数据存储在SQL Server 2008数据库中,使用存储过程处理应用中的业务流程,避免了写在服务器代码中而出现的频繁编译与部署等弊端,提高其维护性。本系统录入了山西省晋中市榆次区的各个医院信息,推荐结果界面如图4和图5所示。图4为该应用的首页展示,其中医院专区的结果为根据用户属性信息推荐的两个医院;图5为在医院类别中搜索诊所得出的推荐列表。

5 结语

目前医疗信息服务中的信息化进程相对落后,基于位置针对医院及其科室的推荐系统还比较少见,不论是用户的访问记录还是评价反馈都较难获取,因此如何应对应用的“冷启动”问题对于LBS医疗信息服务推荐系统来说是一个重大挑战。本文提出了基于规则的医疗推荐,不仅会降低用户学习成本,还不存在“冷启动”问题。本文给出所提出推荐系统的流程图,并对用户的偏好进行建模,基于此建立相应的规则库,并对新产生的规则进行定义。推荐系统的优劣评价实质上是很复杂的,依赖于应用的使用程度及商业效果,系统最终会通过在实践应用中进行不断的优化。

参考文献

[1]李迎辰.基于社交网络的移动应用推荐系统研究及应用[D].重庆:重庆大学,2014.

[2]RICCI F.Mobile recommender systems[J].Information technology&tourism,2010,12(6):205-231.

[3]TIWARI S,KAUSHIK S,TIWARI S.Location based recommender systems:architecture,trends and research areas[C]//Proceedings of IET International Conference on Wireless Communications and Applications(ICWCA 2012).Huangshan,China:IET Digital Library,2012:71-77.

[4]SHABIB N,KROGSTIE J.The use of data mining techniques in location-based recommender system[C]//Proceedings of the International Conference on Web Intelligence.Nanjing:Mining and Semantics ACM,2011:71-81.

[5]GE M,DELGADO-BATTENFELD C,JANNACH D.Beyond accuracy:evaluating recommender systems by coverage and serendipity[C]//Proceedings of the Fourth ACM Conference on Recommender systems.Barcelona:ACM,2010:257-260.

[6]刘平峰,陈冬林.基于知识的电子商务智能推荐系统平台设计[J].计算机工程与应用,2007(19):199-201.

[7]韩忠民.知经纬度计算两点精确距离[J].科技传播,2011(11):211.

[8]王伟.基于LBS的个性化推荐系统研究[D].北京:北京邮电大学,2012.

教育信息推荐表 篇10

1 大数据时代概述

1.1 大数据背景下的电子商务发展

电子商务指的是依托计算机网络技术, 开展各式各样商业经济活动, 从而期望达成商务网络化。就电子商务发展历程而言, 可将其划分成3个层次:初级层次—构建易于推行的可操作系统层次;中级层次—维系可靠的商业链层次;高级层次—达成全面系统数字自动化层次。伴随信息技术的飞速发展, 电子商务不断朝隐形化、精细化方向发展, 基于大数据对消费者喜爱偏好进行挖掘, 进而实施精准化营销。

互联网的诞生及大数据关联技术的发展, 使庞大数据搜索、分析变得可行, 在凭借互联网的特点又使得此部分数据可被高效、高速及大容量的传播, 继而互联网开展推行由用户生成数据的模式, 该模式有着及时、经济以及多源头等特点。近年来, 电子商务飞速发展, 很大原因是可收集数据开展分析, 实时动态借助互联网获取用户需求, 进而电商可开展精准化营销。此外, 信息系统、人工智能及决策科学等技术的进步, 促进了一系列分析手段及工具的发展, 诸如数据挖掘、决策支持以及消费者行为模型等。

1.2 大数据背景下的数据挖掘技术

大数据时代的数据有着复杂、零散的特点, 经由过滤、分析方可转变成有价值的信息, 然后相关信息整合为资源并转化成知识。大数据背景下的数据挖掘技术, 以数据为源头, 为分析、价值提升提供基础;以技术为手段, 为精准化影响提供保障。

数据挖掘是为了自数据库中复杂、零散的数据中挖掘隐含的、有价值的知识, 数据挖掘技术主要包括: (1) 关联分析, 即对用户信息进行挖掘, 再结合模型开展用户相互及产品相互关联预测分析。 (2) 聚类分析, 相较于传统分析手段更为复杂, 结合数据库中记录经由工具划分成各种类别, 进一步就每一类层次开展分析。 (3) 自动预测, 借助数据挖掘工程对数据库中相关信息进行自动预测查找, 同时结合此部分信息迅速获取结论[2]。

2 基于大数据下的电子商务信息推荐

2.1 定题信息推荐

网购用户自主向购物网站提交信息需求, 网站定期向用户推送关联信息方式来达成信息推荐服务。定题信息推荐多涉及对数据挖掘技术及简易信息聚合 (Really Simple Syndication, RSS) 技术等的应用, 经由内容、结构挖掘获取对用户有价值的信息, 再借助RSS对用户进行推荐。

定题信息推荐在图书类网站得到广泛推广, 由于此类网站用户通常较为固定, 他们明确自身需求并可见其准确地传达给信息提供人员, 并且电商平台同样可对用户信息需求做出较为准确的判断。用户之于信息存在固定购物需要, 由此电商平台便可定期结合实时更新的商品信息, 提炼出满足用户需求的商品信息。其他类似于商对客 (Business to Customer, B2C) , 个人与个人之间 (Customer to Customer, C2C) 的电商平台同样可对用户开展定题信息推送, 基于新用户注册开展问卷调查等方式, 对每一用户所需求的商品种类、性价比、品牌等属性倾向展开综合分析, 以用户需求、意愿为前提, 采取短信、站内私信、邮件等方式对用户进行商品信息推荐[3]。

2.2 热点信息推荐

热点信息推荐指的是电商平台将时下最新推出或者最畅销等商品信息主动向用户推送的一类服务方式, 此类推荐模式是电商平台的主动行为, 电商平台结合实时更新的用户群浏览数据, 整合出某一节点最为热点的商品信息并向用户进行推送。热点信息推荐主要应用的技术包括数据挖掘技术、协同过滤技术等, 通过对这些技术的应用可获取实时热门商品信息, 再通过用户较为常用的相关网站的悬浮窗口、弹出窗口等推送给用户。一般情况下, 热点信息推荐要求用户多次点击浏览方可展开。

推行热点信息推荐模式, 推荐不仅贴近用户爱好又热卖的商品, 换言之所推荐商品一方面有着一定的个性化特征, 一方面有着销售量的保证。此外, 由于一般而言新产品极难为用户所关注或发现, 因此将热点信息推荐模式应用于新产品推荐的效果同样值得我们期待。

2.3 兴趣爱好挖掘推荐

电商平台可有效应用数据挖掘技术, 对用户存储庞大数据:购买历史、浏览记录、消费习惯等展开深入数据分析来得出用户个性需求。

结合用户兴趣爱好特点推行的推荐模式, 对平台信息处理水平提出了严苛要求, 唯有强有力的信息处理水平方可找出各种隐藏的用户信息, 尽可能缩减用户不良体验。兴趣爱好挖掘推荐主要是经由用户对个性化界面相关产品信息开展浏览, 点击进入偏好商品, 接收推荐信息, 同时产品特点及对应比重均存储于产品信息库中, 只要用户进行浏览或者购买等对应操作时, 用户偏好模块便会对其信息展开个性化收集, 并存储于人性化特点库中。

2.4 定制信息推荐

定制信息推荐是结合用户定制信息需求来推送信息的一类推荐模式, 作为一类以用户需求为主的被动推送模式, 其主要是为了对不同用户的不同商品需求予以满足。定制信息推荐需要对数据挖掘技术中的使用挖掘技术及协同过滤技术展开大量应用。

购物网站依据用户专门需求, 将信息对用户进行推送。定制信息推荐自用户需求角度出发, 唯有有效挖掘到满足用户需求的信息方可进一步为用户提供良好推荐服务, 平台信息推送受用户需求很大程度影响, 良好的信息推荐方可调动起用户对信息产生深入要求。就定制信息推荐而言, 要求对每个用户展开服务方式、服务策略不同划分, 进而为所提供信息服务的针对性带来有力保障。就好比, 针对相关用户文化水平、购物习惯等展开信息检索指定服务;针对相关用户兴趣爱好、特定需求开展推荐服务;针对用户年龄、性别等开展定制服务等[4]。

在对用户需求予以明确并实现信息资源搜索分类后, 将信息对用户进行推送, 用户可利用此部分信息来解决自身需求, 并对结果予以反馈, 定制信息推荐模式流程。

3 大数据背景下电子商务信息推荐发展趋势

3.1 精准化营销

经由数据挖掘对用户兴趣爱好进行分析, 进而将相关业务、应用推荐推荐给用户, 好比团购信息、应用软件、电视节目等, 进一步将其拓宽至商用化服务, 这一步骤即为借助数据挖掘技术帮助运营商开展精准营销。精准化营销可应用Key-value存储, Map-Reduce模型等一系列理论开展分析, 制定大数据营销部署计划, 自精准化营销等相关应用出发, 对数据相同检索延伸问题等进行处理。

3.2 聚集分散数据以关联化

经由关联分析对数据相互间潜在关系进行挖掘, 能够实现产品间的信息关联, 网络检索时可迅速推荐关联产品, 改善产品的销售情况及知名度。电商平台可对网上信息资源展开充分挖掘利用, 有序实现自身商品与其他商品的关联, 一方面促进用户信息的丰富, 一方面促进需求信息深度、广度的提升, 进而为用户选择商品提供更大的便利。

3.3 电子商务智能平台

就好比近年来盛行的红包刷屏, 将多家应用软件聚拢在一起, 提供个性针对的信息推荐服务, 既精准、又省时、全面地为用户推荐应用软件信息。不过, 服务产品信息粒度会逐步缩小, 伴随商品用户提供知识服务, 商品平台服务模式不断发生转变, 以语义为基础的智能检索服务平台将逐步取代传统以关键词匹配为基础的检索服务平台, 经由互联网对用户信息、项目信息进行搜集, 依据分析结果开展商品信息推荐, 通过对一系列推荐模式的系统综合应用, 以期构筑起一个知识汇聚的智能商务平台。

4 结语

总而言之, 在庞大数据源源不断到来之时, 电子商务数据有着多维性、剧烈增长的特点, 用户对商品的需求无法有效把握, 给电子商务信息推荐带来极大挑战和机遇。鉴于此, 相关人员务必要不断钻研研究、总结经验, 清楚地认识大数据时代内涵, 全面分析基于大数据下的电子商务信息推荐, 推动大数据时代下电子商务信息推荐的有序进行。

参考文献

[1]刘建国, 周涛, 郭强, 等.个性化推荐系统评价方法综述[J].复杂系统与复杂性科学, 2009 (3) :1-10.

[2]王茜, 钱力.大数据环境下电子商务个性化推荐服务发展动向探析[J].商业研究, 2014 (8) :150-154.

[3]于红岩, 甄宝华, 韩雪, 等.探索基于数据挖掘的C2C模式电子商务个性化信息推荐服务应用[J].吉林广播电视大学学报, 2014 (5) :80-81.

名著推荐与阅读教育的思索 篇11

【关键词】名著推荐;阅读教育;阅读方法

【中图分类号】G632 【文献标识码】A

名著,作为浩瀚如海的书籍的统帅,是人类优秀文化思想的结晶,是中学生一生不可不看的必读书。《新课标》也明确要求初中生每学年应该阅读两到三部名著,但当前初中生名著阅读的情况却不容乐观。大部分师生在名著阅读教学上均没有真正付诸实施,学生阅读名著的兴趣不高,老师有计划的指导不够,就导致了很多孩子都远离了经典名著。

怎么能把名著阅读教学这个平台搭好?为此我就名著阅读的模式展开了一定的探索与研究,下面就把我在名著阅读教学中的一点体会和做法汇报如下,与各位同仁商榷。

一、激趣,唤醒对文本阅读的渴望

1.影视播放。与其要求学生阅读,不如营造一种氛围。在引导学生阅读名著前,可先通过经典名著的影视播放强烈冲击学生的视觉,进而调动学生的积极性。如组织观看他们感兴趣的《西游记》《水浒》等,最大限度地让学生有一种身临其境之感,以此来唤醒他们对阅读文本最原始的渴望。

2.写推荐词。要求每位学生选择你最喜欢的名著或作者写一篇推荐词。如《繁星·春水》,读这本诗集必须有对生活、对生命的深刻体味才能顺利地解读,而现在的孩子对生活的了解不是太多,对人生的感悟不是太深,所以这诗集很多孩子不喜欢,也就不能引起他们的强烈共鸣了。于是我通过自己的阅读感受写了一段推荐词:冰心,在你“零碎的思想”中,有对大自然的歌咏,有对母爱的歌颂,有对人们的激励,你总是用温柔的情思和淡淡的忧愁感染着我,你很多诗的语言虽不优美华丽,但却实实在在地让我感动,于是,我相信“有了爱就有了一切”……请你也读读《繁星·春水》,相信那份“爱” 也一定会撞击着你的心灵!老师的推荐从一定程度上具有指导意义,于是班内同学掀起了读《繁星·春水》的热潮,也写出了其他一篇篇精彩的推荐词……

二、名著阅读方法的指导

1.循序、切实地利用教材中的“名著推读与阅读”。苏教版语文教材中“名著推读与阅读”包括对“推读·阅读”“思考·交流”“写作·活动”三个环节。三个环节循序渐进,安排得很合理,要有序、有效地引导同学们阅读名著,尤其是“精彩节选”部分,为我们阅读起到了很好地提纲挈领的作用。此外,同学们还可以通过对“写作·活动”的完成,开展交流,进行深层次思考,从而一举多得,提高阅读效率。

2.选择有效的阅读方法。我主要采取“精读为主,泛读为辅”的阅读法。阅读可分为三个步骤:首先是泛读书名、作者、前言,了解书刊的内容和形式特征;然后是概读正文、了解章节名称及能反映文章的内容的句、段落;最后是精读自己所需要或感兴趣的内容。

3.勤做读书摘记。“读书不动笔,非读也”。阅读中,可动笔摘抄一些优美的词句、精彩的描写、生动的对话、美的开头和结尾、名人名言等,这些对我们积累语言、丰富语言、运用语言都有很大的益处,也能提高我们的阅读鉴赏力、审美能力。另外也可写些摘要、做些批注、列些提纲、制作卡片、画些图表、写写心得等,当然实施中也要因人而异,因作品而异,因时间而异。

三、设置名著阅读的分步过程

在名著阅读中,我将学生的阅读过程设置为四步。

第一步:学生写故事梗概。在阅读的过程中,让学生在阅读文学名著每一章、每一节时学着缩写故事梗概,要求语言简洁流畅,结构完整、清晰,内容完备、准确。

第二步:师生共参与,通过开展系列活动,巩固阅读成果,强化阅读深度。

1.举办朗诵会。如《繁星·春水》诗歌朗诵会,在活动的准备工作上,我一方面要对现代诗歌的一些基本知识做些介绍,为学生更深入地阅读、欣赏冰心的诗打下基础,另一方面要求学生通读《繁星·春水》,找出自己最喜欢的作品,在课外反复训练朗读。有条件的同学为自己朗诵的作品配乐。朗读可分个人读、组合读(可二人、三人或更多的人一起朗诵)。在这一过程中我对朗诵内容的选择提出自己的一些建议,对学生的朗读方法也可给予必要的指导。

2.讲故事精彩片断、情节接龙、课本剧表演等。很多名著故事性较强,如《汤姆索亚历险记》《西游记》《格列佛游记》等小说就可以通过讲故事、情节接龙等方式来强化学生阅读的兴趣,让阅读走向纵深。如把《骆驼祥子》中的片断排演成话剧,可加深学生对人物形象和作者创作目的的深层次理解。而每次活动学生总是会安排我表演一个角色,我也总是乐于接受,尽量表演好,老师的参与确实是对学生的最好的鼓励和帮助。

第三步: 适时推出一些读书笔记、读书报告的论坛。当阅读走向深入之后,学生便有表达与交流的欲望,这时我们可适时地推出一些读书笔记、读书报告的论坛。比如在讨论《水浒传》时,很多同学对这一问题都有自己独到的见解,有的认为他疾恶如仇、见义勇为;有的认为他聪明、粗中有细;也有的认为他暴力、没有法制观念……可以说是众说纷纭,各辩一词,都有理有据,讨论的气氛是相当热烈。从他们激烈的讨论中可看出,学生对原著进行了认真的阅读,在阅读的过程中也进行了自己的独立的思考。其实在对人物评析的过程中,学生已经完成了自己的审美评价和价值取向,这不正是我们所期待的吗?

第四步:就“写作·活动”中的议题或自己感兴趣的话题进行深入思考,形成书面文字。伟大的作品为我们提供了可供借鉴的丰富的艺术形式和艺术式样,是我们学习写作取之不尽、用之不竭的源泉!在名著阅读的后期过程中,我让学生就“写作·活动”中的议题或自己感兴趣的话题进行深入思考,再以小组合作为单位讨论、上交优秀作品,并适时举办几期专题板报在全校展览。

“学无定法,贵在得法”,以上仅是我在名著阅读教学上的一点浅薄的认识,教学是一个永无止境的探索过程,而我们的名著阅读教学探究之路还才刚开始,在今后的教学实践中,我将继续努力,继续寻找“名著推荐与阅读”的最佳教学设计与安排,以期让孩子别远离了经典名著,让他们真正享受到名著阅读的惬意!

教育信息推荐表 篇12

学生常通过学校的就业信息网或搜索引擎获取招聘信息,但这些信息一般只包含宣讲时间、宣讲地点、用人单位简介、招聘职位和联系方式等内容,每天都需花费大量时间关注招聘信息,还需要筛选出与自己专业匹配并符合自己期望的岗位。

随着信息获取和数据分析技术的快速发展,已经出现很多基于各种语言的爬虫框架,典型的如基于Python的Scrapy[1]和基于Java的WebMagic[2]、Hadoop和Spark[3]大数据分析框架以及推荐引擎Mahout[4]。

本文提出一种解决方案,通过Java爬虫框架WebMagic从多数据源获取信息,在使用向量相似度发现同义词并进行数据处理后,采用Mahout推荐引擎为用户推荐可能感兴趣的信息。

1 数据搜集工具———WebMagic

WebMagic是基于Java语言的开源爬虫框架[5],覆盖了典型爬虫的几大功能:页面下载、链接提取、URL管理和内容分析与持久化。

1.1 WebMagic总体架构

WebMagic由Downloader、PageProcessor、Scheduler和Pipeline四个部分组成,总体架构如图1所示。

(1)Downloader组件使用Apache HttpClient下载页面以便后续处理。

(2)PageProcessor组件提供了基于XPath和Css的选择器,解析网页并获取有用信息,还可以获取新的链接。

(3)Scheduler组件负责待抓取URL的管理和去重工作,开发人员可选择使用基于JDK的内存队列来管理URL,还可使用Redis进行分布式管理。

(4)Pipeline组件负责对解析结果进行自定义处理,将处理结果持久化到文件或数据库。

1.2 WebMagic使用方法

使用WebMagic框架首先需要在Java工程添加webmagic-core和webmagic-extension的Maven依赖[6]。Spider或其子类OOSpider是爬虫启动的入口,可以通过定义一个PageProcessor子类,调用该对象的run函数启动爬虫程序,示例代码如下:

Site类可以用来配置待爬取站点的编码、Http头、超时时间、重试策略、代理等信息。表1列出几种常用的配置方法。

开发者可通过定义AfterExtractor的子类来创建Model,在Model的afterProcess函数中,可以用XPath或Css的方式解析网页里的有用信息,将其放到自定义Bean或List对象中,便于Model对应的Pipeline将其持久化至文件或数据库中。

如果待爬取页面的数据内容来自Ajax请求,按照WebMagic传统方式不能获取有效信息,需要借助于浏览器或网络抓包工具,例如Wireshark找到获取数据的http请求,一般这些请求对应的响应包含了Json或Xml。WebMagic提供了诸如JsonPathSelector工具类来获取Ajax请求的响应数据。

2 文本相似度判定

WebMagic通常从多数据源(例如多个网站)爬取数据。在获取数据后,还需要对数据进行清洗、清除冗余记录、获取同义词并对同义词进行替换。判断文本的相似度对于数据清洗工作来说尤为重要,主要采用Jieba分词工具和余弦定理进行文本相似度判定。

2.1 Jieba分词工具

Jieba分词是Python语言的中文分词工具,支持3种分词模式:1精确模式,将句子精确分开,适合文本分析;2全模式,把句子所有成词的词语都扫描出来,但是不能解决歧义;3搜索引擎模式,对长词进行切分,提高召回率。

解决方案采用Java技术,选用Jieba分词的Java版本Jieba-analysis。例如“招聘工商管理和通信工程专业毕业生”的句子,经过Jieba-analysis工具处理后可以得到“招聘”、“工商”、“管理”、“工商管理”、“和”、“通信”、“工程”、“通信工程”、“专业”、“毕业”、“毕业生”等词汇。

2.2 余弦定理

对于一个语句,可以把它想象成空间中从原点([0,0,...])出发的两条向量指向不同的方向,两条向量之间形成不同的夹角,若夹角为0°,表明向量的方向相同、彼此重合;若夹角为90°,表明向量互相垂直,方向完全不相似;若夹角为180°,表明方向完全相反[7]。因此,可以通过夹角来判断向量的相似程度,夹角越小就代表越相似。在数学中,夹角可以通过其余弦值来方便地度量,余弦值范围在[-1,1]之间,越趋近1,表示两个向量方向越一致,相似度也越高[8],如图2所示。

在使用Jieba分词将句子抽取出词汇后,可以构建词频向量,例如[1,2,0,1,0,1,0,1],词频的数值为该词在句子中出现的次数。

将两个句子都转化为词频向量后,可以通过公式(1)计算出两个向量夹角的余弦值,结果越趋近于1表示文本相似度越高。

2.3 Mahout推荐引擎

Mahout是Apache Software Foundation下的一个开源项目[9],提供了一整套的分布式机器学习算法,常见的有聚类算法、分类算法、推荐算法和频繁子项挖掘算法,如图3所示。

协同过滤推荐原理如图4所示。用户A浏览了信息1和信息2,用户B浏览了信息2和信息3。可以发现两个用户都浏览了信息2,我们认为这两个用户此时有相同的偏好,由于用户A还浏览了信息1,此时可以将信息1推荐给用户B。现实系统中,用户并非只有A、B两个用户,需要通过Mahout算法找到与某个用户偏好最为相似的用户集合,将这些用户的浏览或购买信息推荐给该用户。

3 系统设计

系统设计分为数据持久化层、数据提供层、业务逻辑层和接口层。

数据持久化层封装了对文件、数据库和分布式文件系统HDFS的操作。

数据提供层包括查询管理、事务管理、文件管理、爬虫调度器、分词工具和数据处理器。

业务逻辑层封装了认证管理、用户管理、访问日志记录和推荐管理。

接口层调用业务逻辑层提供API给移动客户端或者网页前端调用。

其中,爬虫调度器会根据配置文件调度使用WebMagic,分词工具基于Jieba-analysis开源模块完成,数据处理器利用了余弦定理进行文本相似度处理,推荐引擎基于Mahout的协同过滤机制,根据用户相似度进行信息推荐,见图5。

摘要:提出一种基于Java爬虫框架WebMagic和Mahout推荐引擎的信息搜集与推荐系统。首先利用WebMagic框架从多个信息源获取需要的数据,然后使用Jieba分词工具和余弦定理进行文本相似度判定,从而对数据进行处理,最后使用Mahout推荐引擎为用户推荐可能感兴趣的信息。

关键词:爬虫框架,余弦定理,推荐引擎,WebMagic,Mahout

参考文献

[1]高荣.基于Scrapy和Casperjs的电子商务网站信息采集系统研究[J].数字技术与应用,2015(3):67-68.

[2]张婷婷,刘凯,王伟军.科研人员Web数据自动抓取模式及其开源解决方案[J].信息资源管理学报,2015,5(2):21-27.

[3]CHEN S,WU C,YU Y.Analysis of plant breeding on hadoop and spark[J].Advances in Agriculture,2016(5):16-19.

[4]周强.利用Apache Mahout改善图书馆OPAC系统在大数据环境中用户体验的实践[J].图书馆研究,2015,45(3):91-94.

[5]HOPP M A,HOPP T H.NewSLATE:building a web-based infrastructure for learning non-roman script languages[J].CALICO Journal,2004(2):541-555.

[6]SFETCU N.Web design&development[M].Nicolae Sfetcu,2014.

[7]LEINDLER L.A new class of numerical sequences and its applications to sine and cosine series[J].Analysis Mathematica,2002,28(4):279-286.

[8]HUANG H,XIE L,QIN J.A component-relation——map detection algorithm for text similarity[J].Journal of Software Engineering,2015,9(2):337-349.

上一篇:新媒体的社会责任下一篇:癫痫病人护理