学生行为数据库论文

2024-07-06

学生行为数据库论文(精选10篇)

学生行为数据库论文 篇1

高校学生的行为数据和成绩数据可用性越来越高, 借助信息化手段, 将这些数据纳入数据中心统一调度和管理, 为研究大数据大学生行为[1,3]模式打下了基础。但是零散的数据不经过挖掘和分析是无法得出有价值的结论的。如何把海量数据经过梳理和净化, 寻找其中的逻辑关系, 是大数据研究的重点。本文针对学生消费数据、网络行为数据、成绩数据等进行关联研究, 推导出一些结论用于反映行为模式与成绩的关联性。

1 研究方法

本文采用某高校学生730天消费数据1.1亿条, 920天学生上网行为记录3300万条, 结合学生基础数据和教务成绩数据作为研究基础。从这些数据中挖掘相关性。根据计算数据的量级, 选择全体本科生、某一级本科生、优等生 (学分积排名20%以前) 、差生 (学分积排名后10%) 等样本进行相关研究, 寻找成绩与行为的关联。

2 学生网络行为分析[4,6]

2.1 取样

以某高校15级全体学生为研究对象样本, 其中有上网记录的人数为3235人。

进行成绩划分, 选取前学分积排名前20%的学生作为优等生样本, 共919人, 其中有过上网记录的人数为416人, 占该样本总数的45.27%。

选取学分积排名后10%的学生作为差生样本, 共460人, 其中有过上网记录的人数为270人, 占该样本总数的58.70%。统计样本上网情况如表1。

2.2 根据上网数据测算学生午休情况

选取12:30-13:30作为正常午休时间, 根据上网登录记录和流量数据得出午休情况数据。考虑每天午休时间的上网人数, 因为有部分人可能有设备连接网络但实际未使用, 计算时删除上网流量在10M以下的干扰数据。得到如下结论:

优等生午休时间上网共229人, 占该样本总人数919人的24.92%。

差生午休时间上网共157人, 占该样本总人数460人的34.13%。

图1是流量和对应的人数比重。

2.3 大学生上网行为与成绩关联性分析

无论是前20%的学生还是后10%的学生, 该样本上网人数占总数都在50%左右。平均上网时间和行为时间相差不大, 得到结论在正常的网络使用范围内, 网络并不会影响大学生成绩。

使用流量上, 差生比优等生每月多了15GB, 经学生网络行为分析统计, 差生在观看网络视频、音频的时间比例高于优等生21.34%, 在游戏应用上高于优等生15.83%。优等生在网络视频、音频和游戏使用上不如差生频繁, 产生的流量小于差生, 上网行为频繁度和学习成绩成反比, 但影响不大。

3 大学消费行为分析

3.1 大学生校内总体消费分析

取样15级全体学生在餐厅的平均消费:

基础消费情况总结:

尽管总消费差距较大, 但餐厅消费所占比重接近。

消费数额和习惯与学生成绩间未发现关联性。

男生校内消费额整体高于女生, 男生在餐厅消费比重高于女生7.34%。

3.2 消费模式与性别差异分析

取15级学生在2016年5月份校内的消费记录作为样本, 计算各消费类型所占的比重:

消费类型与性别的趋势:男生在餐厅、面包糕点、体育健身方面的消费显著高于女生;女生在超市、水果店、鲜花礼品店等消费显著高于男生。

3.3 消费模式与学习成绩的相关性

选取15级全体学生作为样本, 研究学生消费与成绩是否相关:

根据上述数据得到:

优等生在校月消费768.42元, 差生在校月消费710.72元, 消费总额与学习成绩未发现相关性。

根据餐厅的消费数据分析, 优等生在校吃饭的次数多于差生。差生在超市、面包糕点消费多于优等生, 其中差生在超市消费高于优等生17%, 面包糕点上的消费要高于优等生18%。正餐在食堂正常就餐的优等生比例高于差生比例8.31%, 经常在食堂就餐还是经常在超市和面包蛋糕房购买食品, 和学习成绩成弱相关性。

3.4 是否吃早饭与学生成绩的关联性分析

以全校学生为样本, 前20%学生共3593人, 后10%学生共1688人, 根据早晨 (6:30-10:00) 餐厅消费数据得出, 前20%的人中吃早餐的人数有909人, 占优等生全体的25.30%, 后10%的人中吃早餐的人数有417人, 占差生全体的24.70%。

根据上述分析得到是否吃早饭与学习成绩联系不强, 未发现明显相关性。

4 结论

大数据研究在高等教育领域发挥着越来越重要的作用。本文借助高校基础数据对大学生的行为模式数据进行挖掘, 得出上网习惯、校内消费习惯等的数据分析, 并研究了这些行为模式与学生成绩之间的关联性。根据这些研究可以知道学生教育, 优化学生培养模式。使大数据研究真正应用到高等教育的最前线, 同时可以根据教育一线的反馈继续梳理学校基础数据, 真正地完成学校的数据治理和应用。

参考文献

[1]姜楠, 许维胜.基于数据挖掘技术的学生校园消费行为分析[J].大众科技, 2015, 15 (185) , 26-28, 39.

[2]罗萍.大数据时代的校园网用户行为分析与研究[J].福建电脑, 2014, (10) :147-148, 184.

[3]邓甜甜, 熊荫乔, 刘建娥.基于计费系统的校园网用户行为分析[J].长沙大学学报, 2014, 28 (2) :116-119.

[4]谷红勋, 杨珂.基于大数据的移动用户行为分析系统与应用案例[J].电信科学, 2016, (3) :139-146.

[5]毛国君, 段立娟, 王实等.数据挖掘原理与算法[M].北京:清华大学出版社, 2007.

[6]纪系禹, 韩秋明等.数据挖掘技术应用实例[M].北京:机械工业出版社, 2009.

学生行为数据库论文 篇2

[摘要]目前,采用GPs追踪技术获取旅游者时空行为轨迹数据的技术已经开始应用于旅游行为研究中,但是对基于GPS数据的旅游时空行为的分析仍然停留在描述分析和模式聚类阶段。如何深入挖掘空间尺度上精确至米、时间尺度上精确到秒的GPS数据,文章尝试运用ArcGIS技术在对GPS轨迹点实现时空路径三维可视化的基础上,进一步提炼出路径长度、游览时间、游览速度、覆盖面积和椭圆周长5项量化评价指标,并提出了具体的计算方法,在计算5项量化指标的基础上采用因子分析的方法探索基于GPs数据的旅游时空行为评价因子。以香港海洋公园旅游者时空行为GPs追踪数据的分析为案例,将旅游时空行为评价因子提取为空间一时间因子、节奏一消费因子和情感一经验因子3个评价因子。由此,提出了一种基于GPs数据的旅游时空行为评价方法,为GPS数据的挖掘和利用提供研究基础。从旅游供给的角度来说,为基于旅游者时空行为分析的产品提升和精细化管理提供指导,比如通过延长旅游者的游览时间、延长游览路径、扩大游览面积、降低游览速度、增加旅游消费、增加旅游经验和增强情感体验等措施,均能有效地增加旅游体验的数量和质量。

[关键词]旅游时空行为;旅游行为评价;时空路径可视化;GPS数据;因子分析

[中图分类号]F59

[文献标识码JA

[文章编号]1002-5006(2016)09-0041-09

Doi:10.3969/j.issn.1002-5006.2016.09.015

引言

旅游活动通常被理解为日常生活的溢出,旅游研究也因而被视为社会科学中比较边缘的学科。近年来,对“移动性”(mobility)的关注以及“移动范式”(motilities paradigm)的出现使得旅游活动被放置到人类社会活动的核心位置上;因而,移动性逐渐被理解为旅游研究的核心命题。20世纪六七十年代乃至90年代,以计量化和“利益”导向性为主要研究范式的交通地理学和当代城市地理学研究引发了学界对于“流动”问题的反思,认为空间的流动具有更丰富的意义,而不仅是时空成本的测算,随之推动了“新流动性范式”(the new mobilityparadigm)的转向与发展,促进了多学科和跨学科研究的融合;“新流动性范式”被认为是在新全球秩序中理解人类诸多新的生存方式乃至解开全球化运转机制问题的密码,甚至有学者指出西方人文地理学出现了“新流动性范式”的转向与发展。流动在物质空间中的形成、发展和消失是人类体验世界的重要方式,是空间产生意义,从而形成“地方”的过程,包含了对移动的人、物和信息在内的几乎所有复杂而相关联的社会力量。现代性的意义非常丰富,借助许多不同的标识,我们可以追踪它的实现和随后的进展。英国著名社会学家齐格蒙特·鲍曼在他的著作《流动的现代性》中指出,“现代生活和现代背景有一个非常突出的特点,这一突出特点也许是“差异产生差异”(difference makes difference);也许是它们的所有其他的特性都源于它的关键特性,这一关键特性就是空间和时间之间的变动关系;当时间和空间从生活实践中分离出来,当它们彼此分离,并且易于从理论上来解释为个别的、相互独立的行为类型和策略类型时,现代性就出现了”。大众旅游作为一种社会现象的出现,正是由一个一个独立的个体因为各种动机从惯常居住地流向旅游目的地、再返回惯常居住地的旅游时空行为的总和。

随着移动互联网技术和地理信息技术的进步,已经可以实现对个体旅游时空行为轨迹的精确追踪和记录。然而,追踪和记录并不是研究目的,新技术的运用应当为更好地理解人类旅游活动并优化旅游行为提供新的知识。目前,采用GPS追踪技术获取旅游者时空行为轨迹数据的技术已经开始应用于旅游行为研究中,但是对基于GPS数据的旅游时空行为的分析仍然停留在描述分析和模式聚类阶段。尽管,这些运用GPS追踪技术获取旅游者时空行为轨迹数据的研究将人类个体旅游行为轨迹追踪精确至米的空间尺度和秒的时间尺度,在帮助人们更好地理解人类个体旅游活动方面取得了显著的进展,但是在如何评价人类个体旅游行为并为旅游产品供给和管理提供指导等方面却仍然处于探索阶段。本文尝试运用ArcGIS技术在对GPS轨迹点实现时空路径可视化的基础上,进行量化指标的计算,并采用因子分析的方法探索基于GPS数据的旅游时空行为评价因子。

1.旅游行为评价研究进展

1.1旅游时空行为与旅游体验

旅游时空行为是指旅游者在出发地至目的地、旅游目的地内部和返回出发地旅游过程中的空间移动行为和时间分配行为。这个概念与旅游者空间行为的区别就在于“时间”要素的引入。休闲行为的研究中更加偏重“时间”要素,而是旅游研究领域更重视旅游者的空间移动。旅游体验既是一个心理过程,也是一个物理过程;既是一个时间现象,也是一个空间现象;既是一个个体行为,也是一个社会行为。旅游体验过程是一个有一定自组织能力的连续系统,由一个个富有特色和专门意义的情境串联组合而成。旅游体验的质量,实际上是旅游体验的根本性问题。而旅游行为则是实现旅游需要的具体方式或手段。可以说,旅游时空行为是获得旅游体验的过程和手段。

如果要评价旅游时空行为,首先要确定判别好坏的原则。从功能主义角度出发,旅游体验的获得既然是旅游时空行为的目的,那么旅游体验的获得情况则可以作为评价旅游时空行为的基本点。能够增加旅游体验丰度或深度的旅游时空行为就是优质的行为,反之则是低效的需要避免的行为。

1.2旅游线路的评价方法

评价微观空间尺度旅游时空行为的研究相对较少,直接相关的是对旅游线路的评价研究。周尚意等以苏州游客调查资料为基础,设计了凸显旅游群体线路选择差异性的“旅游线路多元化指标”(tour route diversification index,TRDI,数学表达式为“TRDI=TRC/TRAxl00%”),通过计算苏州城市旅游中不同年龄、不同受教育程度、不同职业人群的TRDI,分析不同群体旅游线路选择的多样性差异;并在中观尺度上提出了旅游线路设计的基本理念和评价方法。刘法建等以皖南旅游区具有代表性的旅行社为基础,搜集涉及皖南的所有路线,提出TICI指数(c1指市场上线路中若干景区的组合数,c2指若干个景区线路总组合数,TICI=C1/C2,若某旅游区的TICI越大,说明其旅游资源开发越成熟,线路设计越完善),分析市场上皖南线路的完备程度。陈高维等基于垂直搜索引擎的旅游线路评价推荐系统设计了旅游线路动态评分模型,综合考虑景点状态、景区交通、卫生安全、自然灾害、季节因素、星期因素、服务因素等影响因子通过推荐值公式进行计算,当游客进行搜索请求时提供每一条旅游路线的推荐值。陆林和汤云云以珠江三角洲都市圈2009-2011年度中国100强旅行社官网旅游线路报价单为基础数据,通过频数统计方法统计珠三角都市圈内各客源地不同线路模式所占频次比重,发现不同客源地旅游者行为模式差异较大,不同城市在不同客源地旅游线路中的角色与地位不同。闫晨红等选取湖北省大洪山国家级风景名胜区核心跨界旅游区作为研究对象,以政府官方网站和旅游局网站公布数据为数据资料,采用ArcGIS技术分析跨界旅游区线路路径,发现跨界组合线路以较低成本给游客带来更丰富的体验,提高边际效益,而交通时间边际成本则处于递减区域,进一步验证了旅行时间和费用是影响旅游线路的决定性影响因子。

1.3旅游时空行为评价因子

笔者此前在颐和园旅游者时空行为日志调查数据分析的基础上,提出了行为时空、旅游活动、旅游消费和旅游评价4个评价维度的旅游时空行为质量评价因子体系。颐和园旅游者时空行为评价因子指标体系包括了4个维度和13个因子(表1),是以问卷日志调查获取的数据为基础进行评价的指标体系。本文尝试以GPS追踪获取的轨迹数据为基础,辅助调查问卷获取的信息,提出基于GPS数据的旅游时空行为评价因子。

2.数据的获取与分析方法

2.1旅游者时空行为GPS数据的获取方法

研究组于2014年7月6-10日在香港海洋公园进行了为期5天的调研,采用手持GPS追踪设备和日志问卷调查的方式获取被试者旅游时空行为信息和个人属性信息。调查地点位于香港海洋公园入口内的旅游咨询中心,发放给愿意配合调查的旅游者一个手持GPS设备,请被调查者在完成全程游览之后交还GPS设备并填写日志调查问卷。本次调查共获取GPS轨迹511条,可用于ArcGIS进行时空路径可视化表达和计算的样本511条。

GPS数据的首要特征就是客观准确、测量精度高,具体精细化程度则有赖于采用的GPS设备。本次调研采用的手持GPS追踪设备的空间误差在10米以内(经纬度坐标为小数点后7位),时间精度达到30秒(每30秒进行一次定位)。旅游时空行为研究旅游者的空间位移和时间分配,GPS数据可以很好地刻画旅游者的空间移动轨迹和时间分配情况,回答旅游者“什么时间在什么地点”的问题。传统旅游者时空行为数据的调研采用活动日志问卷调查法,旅游者的空间位移和时间分配信息有赖于被调查者的记忆能力和主观配合意愿,而采用GPS设备能够客观地记录旅游者时空行为轨迹。

同时,GPS数据又是海量数据,呈点集状态。如表2所示,一个被调查者的GPS追踪数据格式为一系列的具有经纬度坐标、定位时间、瞬时速度和瞬时方向的点。以香港海洋公园景区尺度为例,本次调研获取了有效GPS轨迹511条,用于数据分析的点就有60.81万个。由于本次调研采用手持GPS设备,获取到的GPS轨迹条数受限于GPS设备的数量和周转次数,如果采用手机APP或者嵌入式GPS模块等调查方法,GPS数据的数量将成为真正的海量数据。获取到如此精确而海量的定位点集合,如何对GPS数据进行分析,提取出具有意义的信息,并为更好地理解旅游者行为和指导旅游时空环境改造等实践提供指导,是研究者需要探讨的问题。

2.2 GPS轨迹的时空路径可视化与测量思路

随着大数据时代的到来,基于位置的服务使得用户的位置信息不断被服务器后台自动记录下来,基于GPS定位的位置信息海量出现。采用地理信息技术对地理数据进行可视化表达和测量是不同学者共同的选择。比如,李春明等利用Panoramio网站收集游客在鼓浪屿拍摄的照片作为地理参考照片,采用ArcGIS空间分析法分析游客在鼓浪屿景区的时间变化、停留时间、移动轨迹和流向图等,反映景区内游客的时空行为,同时证实了地理参考信息分析法的可行性。陈宏飞等人采用Ajax技术抓取包含时空信息的西安市微博数据,运用ArcGIS热度分析工具在地理位置上进行聚类分析,以可视化的表达刻画不同时段微博用户活动的集中程度,以此揭示西安市居民夜间活动时空分布特征。

时间地理学的核心概念“时空路径”为GPS定位数据的可视化表达提供了更为有力的理论基础和概念框架,能够从空间和时间两个维度表达个体移动行为轨迹点的连续变化。关美宝等探讨并证实了通过GPS获取移动行为数据,应用时空路径概念和ArcGIS技术实现可视化表达的可行性。本文采用时间地理学的时空路径概念,运用ArcGIS将在香港海洋公园调研获取的511条旅游者时空行为GPS追踪轨迹进行了三维的可视化表达,如图1即是一条典型的三维旅游者时空路径。将如表2所示的GPS追踪数据表达为如图1所示的三维时空路径之后,可视化不仅能够帮助研究者更好地理解轨迹信息的意义,而且为进一步对GPS数据进行挖掘提供了测量视角。在采用时空路径的概念将GPS数据进行了旅游者时空路径可视化表达之后,对旅游者时空行为GPS数据进行测量的技术路线就变得清晰起来。不同旅游者的GPS轨迹表达为形态各异的旅游时空路径图,GPS数据已经从定位点的形态转换为线和面的形态。把如图1所示的时空路径作为一个几何图形,则可以通过软件计算这条路径的高度、长度和面积等指标。

2.3 GPS轨迹数据的AreGIS计算方法

(1)坐标转换与平面投影转换

本文采用ArcGISl0.2对采集的GPS旅游行为定位点数据进行处理。首先,对511组60.81万个GPS定位点数据通过记录的经纬度坐标转换为空间点;然后,将每组点集数据按照记录的先后顺序连接为一条完整的行为轨迹线。由于经纬度坐标生成的空间点基于球面WGS84坐标,后面的计算涉及距离,必须将生成的线图层转换为平面投影坐标系统。投影变换是一个值得重视的问题,未经投影变换的数据会产生较大的距离误差。

(2)指标计算

旅游时空行为是获得旅游体验的过程和手段,而移动是人类体验世界的重要方式。那么,从功能主义的视角来评价旅游时空行为,旅游体验过程“移动”的情况即为评价旅游时空行为的重要标准。因而,具体的评价指标则为移动的距离(包括空间距离和时间距离)、移动的速度和移动的范围三个方面。由此可得5项计算指标,即路径长度、游览时间、游览速度、覆盖面积和椭圆周长,以下分别阐释每个指标的具体意义和计算方法。

路径长度,表达旅游者时空路径的空间距离,是旅游者在XY轴坐标系中移动的全部距离。具体计算方法为,首先将每个样本的GPS定位点集数据按照记录的时间先后顺序连接为一条完整的行为轨迹线(图2);在路径生成之后,计算每条路径的长度,公式如下:

其中,d代表每组测点数据轨迹的总路径,n为每组点的总数,X1和y1分别为第i个点的x坐标和y坐标。

游览时间,表达旅游者时空路径的时间距离,是旅游者在z轴上移动的全部距离。具体的计算方法相对简单,即依据每个样本GPS定位时间的终止点和起始点的时间差求出所用时间,从而计算出每条样本的游览时间。

游览速度,表达旅游者时空转换的效率,是旅游者空间位移和时间分配叠加的情况。具体计算方法为,路径长度除以游览时间。

覆盖面积,表达旅游者时空路径在XY轴坐标系中的投影面积,是旅游者通过移动获得旅游体验的空间面积。具体计算方法很多,本文采用能够覆盖所有定位点的最小椭圆作为覆盖面积(图3),根据每条轨迹的点集,采用ArcGIS生成轨迹覆盖面,然后分别统计每个覆盖面的面积,公式如下:

其中,u代表每组测点数据轨迹的平均速度,t1和tn分别为每组测点数据轨迹的起始时间和终止时间。

椭圆周长,是旅游者时空路径在XY轴坐标系投影几何图形的周长,辅助覆盖面积表达旅游体验的空问面积。由于本文计算的是最小椭圆的面积,因而周长计算椭圆周长。

(3)GPS数据处理地理模型

尽管ArcGIS功能强大,但面对60.81万个GPS定位点数据,按照要求分别求出每条轨迹的路径长度、游览时间、游览速度、覆盖面积和椭圆周长,人工完成的话仍然费时费力。ArcGIs的地理处理框架被称为一种功能强大的可视化建模语言,利用此框架,可以将许多繁杂耗时的工作流程化处理。因此,本文的数据采用研究团队基于ArcGIs开发构建的针对此类数据处理和分析的地理处理模型(图4)进行批量分析统计。

统计分析的结果如表3所示,路径长度、游览时间、游览速度、覆盖面积和椭圆周长5项指标的极值、均值、标准差和方差表明旅游者在这5项指标上的计算结果差异较大。这表明,以这5项指标评价分析旅游者时空行为具有可行性和有效性。

3.基于GPS数据的旅游时空行为评价因子探索

3.1 KMO和Banlett检验

因子分析的基本目的就是用少数几个测量因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。本文基于香港海洋公园旅游者时空行为GPS追踪数据计算获得的指标和匹配的问卷信息探讨旅游时空行为评价因子,剔除掉因设备故障GPS轨迹中断的样本、因被调查者将设备带离公园造成轨迹长度异常的样本和无法匹配调查问卷的样本,用于因子分析的有效样本共计403条。首先运用SPSSl9.0对变量进行了标准化,然后进行因子分析,提取因子载荷旋转后的因子,评价旅游时空行为的主要成分。初始变量包括通过ArcGIS计算获得的投影椭圆面积、投影椭圆周长、路径长度、平均速度、游览时间和匹配问卷中的总消费额、环保感知、第几次到香港、第几次来香港海洋公园等指标。由于主成分分析要求变量之间自相关性不能太强,即数据变量之间的相关性不能太强,若彼此相关性太强的数据应当剔除。经过多轮分析,剔除了干扰变量之后,最终选取路径长度、投影椭圆周长、投影椭圆面积、平均速度、总消费额、环保感知、第几次到香港共7个指标进行因子分析。如果KMO值小于0.5时,那就不太适合开展因子分析;大于0.6为“效果平庸”,大于0.7为“中度适宜”,大于0.8为“效果良好”。通过对旅游时空行为评价变量进行KMO检验和Bartlett球形检验,结果显示KMO值为0.702。

3.2因子分析结果和命名

根据特征值大于1的标准,采用最大方差法进行数据旋转,并采用主成分法抽取因子,对旅游时空行为评价变量进行探索性因子分析。结果如表5所示,旅游时空行为评价变量可以萃取为3个公因子,累计贡献率达到77.1%。

通过旋转成分矩阵可以看出,投影椭圆面积、路径长度和游览时间构成了第一个评价因子,可以命名为“空间一时间因子”;平均速度和总消费额构成了第二个评价因子,可以命名为“节奏一消费因子”;环保感知和第几次到香港构成了第3个评价因子,可以命名为“情感一经验因子”。

3.3旅游时空行为因子得分评价方法

因子分析除了对评价变量进行降维,最重要的作用在于可以根据因子分析结果给每个样本计算得分并进行排序。各个样本的因子得分反映了样本在某个方面的特征。通过得分的数值,可以对各个样本进行综合评估。由于因子得分经过标准化处理,一般不便于直接用于综合评价。用因子得分开展综合评价分析,最好将因子得分转换为主成分得分。因子得分转换为主成分得分的方法是,用因子得分乘以相应方差贡献或者特征根的平方根。转换之后,按样本加和,即可得到各个样品的综合得分。假定提取p个因子,用于评价的因子综合得分的公式可以表作

空间一时间因子中的投影椭圆面积、路径长度和游览时间系数均为正向的,表明旅游时空行为的空间覆盖的面积越大得分越高、经过的路径越长得分越高、时间跨度越大得分越高。可以理解为,旅游者到达了更多的空间和停留了更长的时间都对增加旅游体验具有正向意义。同样,节奏一消费因子中的总消费额以及情感一经验因子中的第几次来香港系数和环保感知系数也为正向的,表明旅游消费和旅游经验的增加对于旅游体验也具有正向意义。节奏一消费因子中的平均速度系数却是负向的,这表明随着旅游速度的加快对旅游体验的获得具有负面意义。

4.讨论

4.1旅游时空行为的价值内核

本文试图探讨旅游行为评价问题,先要确立评价的标准。在文献综述的基础上,论文首先梳理了旅游时空行为与旅游体验之间的关系。以客源地为出发点和终点的旅游时空行为作为人类移动行为的一种类型,正是人类体验世界的重要方式之一。在不同空间之间的移动仅仅是旅游者外显的行为,并不是旅游者的行为目的;以不同空间之间的移动作为手段获取对外在世界的理解和体验,才是旅游时空行为的目的。因此,本文将旅游体验的获得作为旅游时空行为的价值内核,进而对旅游时空行为进行了量化评价分析。旅游体验的获得并不能直接从旅游时空行为的观察与记录数据中计算出来,因而并不能直接以不同旅游时空行为获得的旅游体验多少作为评价旅游时空行为优劣的办法;本文采用以对旅游体验获得能力的评价进行替代,既然移动是体验的重要方式,那么具体的评价指标即设计为移动距离、移动速度和移动范围三个方面。

4.2旅游体验价值的时空维度

从“移动范式”的视角出发,空间自然而然地成为呈现旅游体验价值的维度。旅游者在完成旅游时空行为的过程中获得了怎样的旅游体验,首先体现在旅游者到达了多少空间和到达了哪些空间。从体验获得的视角出发,时间又成为影响体验深度的重要维度。旅游者到达了新的空间之后,在新空间中停留了多长时间,将直接影响旅游体验的深度。时间地理学不仅为旅游时空行为数据的可视化表达与测量提供了理论基础,而且为旅游时空行为评价引入时间维度提供了方法基础。因此,旅游时空行为评价指标中的移动距离不仅是旅游者在空间维度上移动的距离,还是旅游者在时间维度上移动的距离。

5.结论

5.1基于GPS数据的旅游时空行为评价方法

位置服务的广泛应用和地理信息技术的发展,使得基于GPS追踪技术获取旅游者时空行为数据变得越来越容易。如何处理和深入分析客观准确、高精度的海量旅游者GPS数据,从而帮助人们在更好地精细刻画和理解人类个体旅游行为的基础上,为基于旅游者时空行为评价的旅游供给调整和管理实践提供研究指导,是本文尝试解决的核心问题。本文系统地提出了旅游时空行为GPS数据分析方法,具体包括三个步骤:首先是采用时空路径的概念完成旅游时空路径的可视化表达,将GPS数据从定位点集状态转换为旅游时空路径线和面的状态;其次,应用ArcGIS软件实现对可视化表达后的旅游时空路径几何图形各项指标进行批量计算(比如路径长度、游览时间、游览速度、覆盖面积和椭圆周长等量化指标);第三,则是对计算得出的各项指标进行进一步的分析和建模(比如因子分析等)。本文以香港海洋公园旅游者时空行为GPS追踪数据为例,展示了从GPS数据获取、时空路径可视化表达、量化评价指标提取和计算,到因子分析的全过程,为基于GPS数据的旅游时空行为评价提供了新的分析框架。

5.2基于旅游者时空行为评价的景区精细化管理

如果仅对旅游时空行为GPS追踪数据点集进行密度分析,通常只是验证人们对旅游者时空分布特征的定性认识,难以为旅游地(景区)规划和管理实践提供具有可操作性的指导。本文提出的基于GPS数据的旅游时空行为评价方法,通过深入分析和挖掘高精度的GPS追踪数据发现不同旅游者在路径长度、游览时间、游览速度、覆盖面积和椭圆周长等量化指标上表现出巨大的差异,这为理解旅游者体验质量差异提供了研究基础。因子分析不仅在GPS数据量化指标与匹配问卷信息的基础上提取出了空间一时间因子、节奏一消费因子和情感一经验因子3个评价因子,而且通过相关指标系数的正负关系为景区尺度的精细化管理指明了方向。具体来说,旅游景区通过旅游产品的调整、新产品设计、时空环境改造、解说系统完善等措施,以期实现延长旅游者的游览时间、延长游览路径、扩大游览面积、降低游览速度、增加旅游消费、增加旅游经验和增强情感体验等目标,最终提升旅游者体验质量和满意度水平。

学生行为数据库论文 篇3

随着计算机科学技术的不断进步,数字信息化的时代已经到来,21世纪是信息化全球大爆发的时代,信息全球化已经渗透到生活的每个角落,校园作为人口比较密集的场所,很多高校都在投入大量的人力以及财力用于校园信息数字化网络的建设,校园数字化网络的建设为校园数字化网络管理提供了足够的保证,能够进一步提高各高校的信息化管理水平。

高校数字化建设是完全建立在高校的校园网网络的基础上,目前,校园网络已经实现了光纤入网的条件,校园数字化建设能够完全将目前比较先进的互联网技术、信息技术、多媒体技术融为一体,充分地将校园的科研工作、管理工作、生活以及教学等工作集成起来形成一个统一的整体,最终为高校的全面信息化教学打下坚实的基础。

高校数字化网络的建设实质上是借助先进的信息化技术将高校的各个部门的各种信息资源进行有效的整合、集成以及优化,进一步提升高校的信息资源的合理利用以及配置。

2 校园一卡通

校园一卡通是“数字化校园”建设的最为重要的组成部分,校园一卡通具备的主要功能必须包括身份认证功能、数据管理功能、金融服务功能、综合消费功能、公共信息管理功能等。校园一卡通能够有效地集成高校内的所有资源以及子系统,通过校园一卡通能够掌握每一个持卡用户动态的、实时的情况,不仅能够加快高校数字化管理系统建设的进度,还能够进一步提升高校的数字化管理水平。

校园一卡通数字信息管理系统的建设是IC卡技术应用比较成功的典范之一。真正意义上的校园一卡通并不仅要具备消费以及结算功能,而是通过智能的数字化管理实现高校内的各种业务管理。校园一卡通必须能够将高校内的消费以及管理集成与一身才可以称之为真正实现了校园一卡通管理,才能通过校园卡实现校园内的学籍管理、消费、结算、身份识别、网上付费等。

3 校园一卡通建设

校园一卡通是目前高校流通非常广泛的信息集成平台,也是目前大部分高校所采用的信息管理平台。校园一卡通管理系统建设是建立在“集中控制、信息共享”的需求上的,因此,校园一卡通系统的设计是多个信息功能模块的有效集成,具体实现的设计思路是将所管理的资源集成在统一的互联网平台,并采用统一的数据库服务器,对资源采用绝对安全的、统一的身份ID认证体系,进而实现信息数据的安全集成、安全传输、安全管理。校园一卡通可以通俗的理解为各个管理系统、射频设备、读卡设备等终端的高效集成,进一步提升了系统管理的智能化水平。

随着各个高校的校园信息化、网络化建设的逐渐深入,高校内的所有信息资源的整合过程已经进入到了全面的规划以及实施阶段,现阶段。校园一卡通的建设必须与高校现有的人事、教学、身份认证等MIS系统以及其余的高校信息应用系统紧密的结合,通过全面的、安全的统一身份认证机制实现高校信息资源的无缝集成及其共享,使得校园一卡通能够友好的融入校园,成为校园信息化建设的非常重要的组成部分,通过校园一卡通的有机整合,能够有效地避免高校的不必要投入,进一步提高高校的信息化建设进度,为高校系统之间资源的无缝共享打下坚实的基础。

4 校园一卡通数据管理

校园一卡通的核心部分内容便是数据,数据信息资源的安全将直接影响到整个校园一卡通系统的安全运行。数据存储行为是校园一卡通在高校校园中应用的最重要的数字化行为,数据IC卡存储的数据不仅包括纯粹的相关数据信息,还包括功能信息、系统运行状态信息、系统交互之间产生的交换数据以及各个功能模块产生的历史记录信息,数据信息的安全存储是确保校园一卡通能够正常运行各个功能模块的关键保障,数据存储行为不是简单的将数据入库操作,更重要的是采用合理的数据加密技术措施以及认证机制确保相关数据的安全,为系统的安全性防护添加一层核心屏障,除此之外,信息资源数据的安全存储行为贯穿到整个系统的设计、研发、实现、实施、管理等各个阶段,甚至包括硬件资源的选取都必须严格遵守对应的安全策略。

校园一卡通数据的安全传输是数据数字化行为的又一重要属性,特别是涉及到财务的相关数据。因此,数据的安全传输必须建立在专有的局域网内,必须在物理以及软件上实现局域网与外部网络的完全隔离,数据在传输的过程中必须采用各种安全措施以确保传输的数据不被修改,比如信道签名、数字签名等。

除此之外,校园一卡通的数据管理行为还必须具备数据恢复功能,由于网络的突然故障或者系统的严重故障经常会造成数据丢失或者损坏,校园一卡通的数据管理必须建立完善的历史数据备份记录,能够自行修复损坏数据,使得系统运行数据正确、可靠、稳定。

5 校园一卡通消费行为

现阶段,校园一卡通在各个高校中应用的最为广泛的便是高校的消费管理上,可以将其理解为高校学生以及教职员工的“电子钱包”。高校校园一卡通消费管理系统采用目前先进的IC卡信息载体,对高校中的学生以及教职工消费行为进行有效的管理。

校园一卡通消费管理系统的建设是实现高校各个部门以及后勤管理服务部门信息化建设的关键手段,能够将后勤服务以及消费管理相关资源进行优化、整理、重构,进而实现后勤资源以及管理资源的合理配置,将复杂的、种类繁多的各种资源充分的利用起来,帮助高校的后勤管理以及校务管理实现过程的高效协调、合理优化,进而实现大幅度提升校园后勤以及校务的信息管理水平,以进一步提升后勤以及校务的服务效率以及高校的效益。

高校员工以及学生的消费行为是后勤管理工作的重点。校园一卡通消费信息管理系统的建设能够有效地缓解校务以及后勤管理工作的繁重业务,简化校务以及后勤的工作流程,实现以较少的人力资源实现全校的合理化管理的目的,在提高后勤服务质量的同时,也实现了精简校园后后勤以及校务管理人员的目的,一定程度上降低了高校的整体管理经费。

校园一卡通消费信息管理系统很大程度上提升了高校的财务管理水平,也实现了高校财务的无纸化办公,消费管理系统的建设能够有效地规范高校内的费用结算管理,进而确保财务的正确管理,有效地规避了一些漏洞,不仅提高了财务的管理水平,还进一步改善了财务管理的工作模式,使得高校的消费行为更加灵活多变,一定程度上提升了高校财务以及消费的管理水平。

目前,校园一卡通的消费行为实现了食堂饮食消费,超市购物消费,饮水消费、洗澡消费、个人医疗消费、四六级考试报名消费、有偿上级消费、个人账户自助存款消费等,基本上实现了高校的可以消费的所有领域。

6 校园一卡通身份认证行为

校园一卡通在高校中应用的另外一个重要数字行为便是身份认证管理,校园一卡通系统需要将校园网网络内的各个子系统有机融合,因此需要将各自独立的相关验证进行统一管理,采用统一的认证机制对用户身份进行统一管理,用户身份的认证以及授权目前校园一卡通研究的重点领域。

校园一卡通的身份识别系统采用目前比较先进的智能卡技术,通过用户身份信息的识别实现高校校内门锁的控制、门禁的控制、重要安全通道的控制、校内各项考勤制度的管理、参会人员的会议签到等,并在此基础上有机地结合了安全防范相关技术措施以及计算机网络控制技术措施,通过软件系统的高效管理实现对校园一卡通用户身份的安全认证和识别。

门禁管理系统是控制和管理校内人员出入的有效措施,通过该系统能够准确有效地对校内人员的出入进行数字化控制,最重要的是确保了校区各个场所的安全,很大程度上提升了持卡用户身份识别的正确性以及效率。

考勤管理系统能够及时地将学生的上课出勤率反馈到学校,还能够有效的考察教职员工的出勤情况,通过考勤管理系统能够有效的实现教务课程的合理化安排,能够提高学生以及教职员工的出勤情况,实时掌握学生在校的一切活动。

校园一卡通的身份认证功能模块的实现能够真正意义上实现校园网网络用户的的身份信息的安全存储以及数据共享。网络认证技术是现阶段应用比较广泛的一套集管理、计费以及认证于一体的安全性极高的综合性网络信息管理系统,网络认证与校园一卡通的有效集成是未来校园一卡通身份认证的发展趋势,涉及到高校内的每个校园一卡通的用户,身份认证系统的整合能够有效的加速高校网络数字信息化建设的进度。

7 结束语

随着各个高校实现校园数字现代化管理意识的不断加强,高校校园管理数字化建设进度也变得愈加强烈,基于智能芯片应用的计算机网络信息化管理系统也变得越来越普及,高校学员以及教职员工众多,往往持有大量的传统的卡片以及不同的证件,比如学生证、图书证、上机证等,一定程度上增加了高校的管理成本,还使得学生的管理水平变得异常混乱。

传统的校园管理模式已经无法满足现阶段的教育模式。信息时代当然离不开教育信息化管理。校园一卡通强大的功能能够有效地融合高校内的一切资源以及子系统,能够实现校园系统以及资源的有机集成,真正意义上的实现校园的数字化系统建设,使得数字化行为轨迹深入到高校数字化管理的方方面面。

参考文献

[1]宋文功,杨培敏.“数字化校园”与“校园一卡通”关联的实现[J].长沙铁道学院学报(社会科学版).2006(01).

[2]赵震伟.数字化校园一卡通系统的研发[J].思茅师范高等专科学校学报.2009(03).

[3]王正坤,蒋涛涛.试论基于数字化校园的一卡通系统的构建[J].农业网络信息,2009(08).

[4]王筱超,王蔚.校园一卡通平台的规划与建设研究[J].现代计算机(专业版).2009(05).

学生行为数据库论文 篇4

学生群体占比下降,其他职业群体不同程度增长

从手机网民的具体职业细分状况看,2009年学生占比为19.5%。比去年下降21.2个百分点,而其他各类职业的手机网民比例均比去年有所增长。白领人群(注:这里白领人群的职业指企业一般办公室职员,企业初级/基层管理人员、企业中级管理人员、企业高级管理人员、企业销售人员、私营企业业主/个体户、国家机关工作人员/国家公务员、教师/教授、艺术工作者及专业人士)从去年的29.2%增长到今年的38.9%,占比上升9.7个百分点,取代学生群体成为手机网民最大的一个职业阶层;蓝领人群也从去年的13.9%增长到今年的18.9%,占比上升5.0个百分点。这显示出手机网民由学生群体向职业群体发展的显著趋势。艾瑞咨询认为,手机网民月收入分布与手机网民年龄、学历、职业分布有较强的相关性,白领及部分高消费能力的学生人群将是一个巨大的手机上网潜在消费群体。

80后学生手机网民消费潜力有待挖掘

通过对比传统互联网网民,艾瑞发现传统互联网网民以白领为主,其中企业一般职员占比18.9%,高于5.6%的手机网民占比,而在手机网民里,学生与蓝领职工占比明显多于传统互联网网民,分别占比19.5%和18.9%,高于传统互联网网民里学生与蓝领职工占比的7.8%和5.1%。

艾瑞分析,目前中国的80后学生群体绝大多数为独生子女家庭,虽无直接收入,但往往有6个直系亲属支撑其消费,已形成中国社会独有的无收入高消费群体。艾瑞认为,有较高消费需求和能力的80后年轻白领阶层已经成为手机上网的主力,他们的家庭负担较低,有迫切的消费需求、消费意愿和消费能力,这部分消费群体的潜力在未来有待挖掘。

此外,《2009年中国移动互联网用户行为调研报告》从移动互联网用户的特征属性、上网行为及态度、3G使用情况等方面,进行最新调研结果的权威数据发布,将会为电信运营商、终端厂商、传统互联网企业以及移动互联网服务提供商等产业链各方。提供参考依据与战略支持,敬请关注。

说明:

1.移动互联网定义:从技术层面定义是,指以宽带IP为技术核心,可同时提供语音、数据、多媒体等业务服务的开放式基础电信网络。从终端层面定义:在广义上是指用户使用手机、上网本、笔记本等移动终端,通过移动网络获取移动通信网络服务和互联网服务;在狭义上是指用户使用手机终端,通过移动网络浏览互联网站和手机网站,获取多媒体、定制信息等其他数据服务和信息服务。

2.调研方法与样本来源:艾瑞咨询本次调查主要采用了手机网站联机调查方法进行,在新浪、搜狐、空中网、网易、动感网、凤凰网等15家主流手机网站投放调查问卷,于2009年6月至2009年7月期间通过在这些手机网站投放图形广告和文字链广告,由用户主动参与填写问卷的方式来获取信息。本次调研回收调查问卷超过4万份,经处理排除无效问卷,并根据网民的性别和年龄进行配比加权,最终分析样本数为36286个。

学生行为数据库论文 篇5

如今, 在大数据时代, 大众传媒及时、迅速、无孔不入地向大学生传递有关社会事件与社会变革的信息, 提供社会角色模式、行为规范、生活态度和价值观念, 大众传媒已经成为大学生社会化当仁不让的“第二课堂”, 发挥着潜移默化的重要作用。为了了解大学生媒体接触的基本状况, 掌握大学生的信息需求和媒体接触规律, 在此基础上为大学生的思想教育提供参考, 课题组以中国传媒大学南广学院为研究个案, 对高校学生媒介接触行为进行了详细的考察、研究。调查实施时间为2015年5月10日~19日, 调查以问卷为主, 辅之以深度访谈, 调查样本采用了随机抽样和整群抽样相结合的方法, 在课堂上统一发放给共计155名学生问卷155份, 问卷有效率为95.5%。调查发现, 高校学生媒介接触行为具有如下特征:

(一) 媒介接触动机

调查发现, 大学生接触媒介的主要动机是休闲娱乐 (94.7%) 、获取新闻 (86.8%) 、沟通交流 (63.1%) 和学习需要 (55.3%) 。为了进一步佐证结论的可靠性, 课题组进一步调查了大学生接触不同媒介的主要动机, 结果显示:总体而言, 大学生接触媒介的第一目的基本都是休闲娱乐, 其次是获取新闻信息, 获取文化知识所占比重相对较小。对于网络环境下大学生使用微博和微信情况的调查结果则充分显示了微博、微信的信息获取、社会交往、自我表达、消遣娱乐平台属性。

(二) 媒介对个体的影响

84.2%的受访者表示媒介对个人的观点思维产生了重要影响, 71%认为影响了人际交流, 68.4%认为改变了知识结构, 60.5%认为影响了人生观和价值观, 只有5.3%认为媒介对自身没什么影响。因此, 大学生的媒介接触对其学习生活乃至人生观价值观的形成起着不可忽视的潜移默化的影响。

(三) 媒介接触时间

经过对每天接触媒介的时长调查显示, 大学生接触媒介的时长依次是网络、电视、报刊、杂志、广播, 接触最少的是广播, 电视接触的时间相较报纸、杂志略多, 但与网络则无法企及, 大学生每天接触网络4小时以上者达到了73.7%。此外, 课题组还特别针对移动网络环境下大学生对手机以及微博、微信的使用时长进行了调查, 结果显示, 47.4%无法忍受一天不使用手机, 竟有7.9%对一小时不使用手机也无法接受, 大学生对手机的依赖程度如此可见一斑;微博、微信在大学生中的普及程度相当之高, 使用频率亦是相当频繁。相比而言, 微信在大学生中的具有更大的影响力, 数据显示每天使用微信4小时以上者达51.4%。

(四) 媒介的可信度与重要性

调查显示, 大学生对媒介的信任度 (非常信任、基本信任) 依次为报刊 (71.1%) 、电视 (68.4%) 、广播 (60.5%) 、杂志 (36.8%) 、网络 (34.3%) 。遇到突发事件时, 大学生最先想到的信息获取渠道依次是网络 (81.6) 、人际传播 (10.5) 、电视 (7.9) 。大学生认为生活中最重要的媒介依次是网络 (97.4%) 、电视 (84.2%) 、杂志 (50%) 、报纸 (44.7%) 、广播 (23.6) 。可见, 大学生对网络的重要性赋予了非常高的地位, 特别是在突发事件中的地位几乎无法取代, 但对网络的信任度却相对较低, 认为报纸的重要性一般, 但信任度较最高, 电视也是大学生对其可行度、重要性评价较高的媒介形式。

二、大数据时代传统思想政治教育面临困境

调查结果表明, 大学生接触媒介的第一目的基本都是休闲娱乐, 也就是说, 大学生使用媒介的泛娱乐化倾向比较明显, 而将媒介作为获取文化知识的重要工具的所占比重明显较小。此外, 获取新闻信息也是大学生接触媒介的重要目的之一, 并且这些信息对大学生的观点思维、人际交往、人生观和价值观都产生了潜移默化的影响。高校作为思想最活跃、知识最密集、网络信息技术充分运用的前沿阵地, 学校的教育、管理和服务模式以及师生的思想观念、学习方法和行为习惯必然会受到大数据浪潮的深刻影响, 高校的思想政治教育正面临着日趋严峻的挑战, 甚至陷入困境。一是如何更加准确地反映大学生的思想状况。伴随着网络成长的当代大学生群体个性张扬、思维活跃、眼界开阔、心态开放, 接触新鲜事物的机会多、意愿强。但同时, 部分学生在社会精神生活层面存在大量空白地带, 空虚、焦虑、浮躁、偏执、暴戾, 在价值选择上容易陷入迷茫, 对主流文化采取疏离态度。以传统的方法来描述、整理、汇总那些从不同渠道和方式获得的大学生学习生活状态的海量数据, 并获得可用于决策参考的直观的分析结果, 对目前高校思想政治教育工作来说显然是非常困难的。二是如何更加快速及时地反映大学生的思想动态。在重大公共事件等社会舆情爆发时, 大学生是反应最活跃、最积极、最敏感的群体, 善于通过互联网、移动终端等渠道表达意见。特别是在大学生对手机高度依赖的背景下, 大学生随时随地都可能在网络上尤其是利用社会化媒介产生海量数据信息, 可能会对校园乃至社会稳定带来隐患, 甚至迅速形成舆情爆炸。可见, 传统的舆情信息收集处理手段已不能适应大数据时代的形势需要。三是如何更加广泛全面地呈现大学生的真实思想。高校校园网络平台、办公系统以及学生基于社交、消费、娱乐需要而在社会化媒体平台上生产的UGC (User Generated Content) 数据中, 包含着学校的管理和服务的内容, 也包含了学生个人的思想、情感和行为状况。显然, 面对学生的感受、情绪、态度等这些难以量化的信息, 传统的数据信息分析处理技术已经不能满足大数据时代的工作需要。

三、大数据有助提升高校思想政治教育科学化水平

高校的校园网、官方微博微信、学生网络交流平台、自动化办公平台、校园一卡通平台等等, 都是信息数据的重要来源, 包含着学校的管理和服务的内容。高校学生通过网站、微博、微信、QQ等网络工具以及社交网络平台满足阅读与社交的需要;通过淘宝、京东等网站实现购物消费需要;通过网络文学、网络游戏实现休闲娱乐需要。由此每天产生大量的照片、视频、语音、文字对话和电子邮件等数字信息构成的数据信息, 包含了学生个人的思想、情感和行为状况。调查结果表明, 大学生对网络的重要性赋予了非常高的地位, 特别是在突发事件中的地位几乎无法取代。因此, 建立起学生管理、舆情处理的网络架构, 搭建网络与新媒体平台, 充分发挥网站、微博、微信等信息平台的功能, 充分依靠、利用网络为工作提供的便利条件, 对于开展舆情应急处置以及开展学生管理日常工作, 营造积极向上的校园文化具有重要意义。

大数据的出现, 为科学调查研究大学生思想状况提供了科学的依据。大数据技术能够使学生的感受、情绪、态度等原本无法量化的信息, 通过挖掘和分析得以量化和显现, 可以揭示不为人知的有价值的规律和结果, 并可以辅助思想政治教育工作者进行更为科学和智能化的决策, 对于分析大学生群体思想与各类事件的联系, 揭示大学生的真实思想行为状况, 有针对性地进行教育引导具有重要意义。如今数据和数据分析的价值在高校中随处可以得到体现, 高校思想政治教育工作已经具备了大数据的特征。

2014年3月, 教育部办公厅印发的《2014年教育信息化工作要点》中指出:加强对动态监测、决策应用、教育预测等相关数据资源的整合与集成, 为教育决策提供及时和准确的数据支持, 推动教育基础数据在全国的共享。可见, 教育大数据的应用已被列入我国教育信息化的工作程序中, 大数据将很快被推广并与教育领域的深度融合, 这是当前时代教育事业发展的必然趋势。教育正在走向大数据时代, 深入挖掘来自网络、社会化媒体和教育管理系统的数据, 可以捕捉并挖掘人际或群体传播路径和传播过程, 可以分析社交网络中的每一个个体或群体的位置角色以及行为态度, 实现预测“精准化”, 将有助于我们的思想政治教育工作“寻找到通往未来的钥匙”。

摘要:本文立足高校学生媒介接触行为特征的实证调查分析结果, 指出在大数据时代背景下传统思想政治教育面临的困境, 进而分析大数据为高校思想政治教育科学化水平提升带来的新机遇。

关键词:高校学生,媒介接触行为,大数据,思想政治教育,科学化

参考文献

[1]李兴选.网络思想政治教育的挑战与创新[J].思想政治工作研究, 2014 (07) .

[2]胡树祥, 谢玉进.大数据时代的网络思想政治教育[J].思想教育研究, 2013 (06) .

学生行为数据库论文 篇6

随着企业数据的海量递增以及计算机应用系统的复杂化,大型数据库应用越来越广泛。合理高效的数据库访问模型成为提高数据库性能的关键。Multi-Agent主要研究由多个自主的智能Agent组成的群体怎样通过交互作用来解决现实中原本具有分布性的复杂问题。近几年,研究人员将多Agent机制引入数据库操作系统中,提出了提高大型数据库访问效率的Multi-Agent模型[1,2]。随着人们对Multi-Agent系统(Multi-Agent System,MAS)研究的深入和大型数据库应用的广泛,基于Multi-Agent的大型数据库操作将会越来越多。MAS中,通信是Agent与环境或其它Agent进行协作和交流的基础,因此Agent通信语言(Agent Communication Language,ACL[3])的选择以及设计亦成为提高Multi-Agent系统性能的重要部分。

通信语言中比较有代表性的一种,能支持分布式的、含大量Agen的环境中高度抽象的交流方式[4]。本文针对目前大型数据库操作的Agent通信语言的成果较少的现状,根据大型数据库访问的特点扩充了基于Multi-Agent的大型数据库操作的KQML原语集(Largescale Database Operation KQML's Performative,LSDB-KQMLP)。

1 Multi-Agent大型数据库操作模型

本节首先介绍基于Multi-Agent的大型数据库操作模型。该模型被设计为基于C/S模式的标准三层结构,包括用户层、中间层和数据层,如图1所示,具体内容请参考文献[5]。

用户层:由驻留在各用户环境中的IA(Interface Agent,人机交互Agent)组成,每个人机交互Agent负责人机交互的部分,直接面对终端用户,接收用户提交的服务请求,然后以一定的消息格式进行封装后,向中间协调层提交用户的服务请求。

中间层:位于用户层与数据层之间,接受、分析和转发用户层提交的服务请求消息,为用户层和数据层提供了一个基于Agent的中间服务平台。中间层包括CA(Control Agent,控制Agent)、PA(Plan Agent,规划Agent)、SMA(Service Management Agent,服务管理Agent)、FA(Function Agent,功能Agent)。

数据层:由各个分布式数据库站点与驻留在其环境中的WA(Wrapper Agent,包装Agent)及功能Agent组成。

2 LSDB-KQMLP的扩充

2.1 KQML的行为原语集

目前来看,KQML是应用最为广泛的Agent通信语言,被称为事实上的Agent通信语言标准。Agent应用程序利用KQML提供的通信原语来表达各种性质的通信行为。

KQML提供了一系列的行为原语,用于表达与分布式知识交换相关的各种操作。当被查询的Agent不能独立的完成某项查询时,行为原语也支持将该查询请求转交给另一个能够处理此请求的Agent进行处理。行为原语采用ASCII字符串表示,可读性好,易分析,并可以在许多内部应用消息调用机制的平台之间传递。

现令‘W1’代表<word>,‘W2’代表<whitespace>,‘E’代表<expression>,‘Q’代表<quotation>,‘C’代表<character>,‘S’代表<string>,‘M’代表<comma-espr>,则行为原语的形式化定义如下:

以上行为原语的一些参数是可选的,在调用参数时需在前面注明关键字,和参数的顺序无关。这些参数的关键字必须以冒号“:”开头,后面加上相应的参数值。

KQML预留的常用行为原语包括:基本询问原语、简单询问回答原语、多重询问回答原语、通用信息原语、发生器原语、能力定义原语及网络原语等。

2.2 已有的LSDB-KQMLP

KQML语言具有灵活性和可扩展性,针对不同领域的多Agent系统可以自己定义新的行为原语,只要这些原语仍然符合KQML规范即可。为了完成基于Multi-Agent的大型数据库操作系统中Agent之间的通信功能,按照KQML语言的规范,文献[5]已经定义了注册原语、注销原语、请求原语以及查询原语。

2.3 LSDB-KQMLP的扩充

以上提到的大型数据库操作行为原语协同KQML已有的行为原语集能完成基本的数据库操作Agent之间的基本通信。然而,在实际应用中大型数据库操作Agent之间还需要更为具体的通信。笔者就实际研究遇到的问题进行了总结,对LSDB-KQMLP进行了扩充。

首先在原大型数据库操作模型中增加预取Agent,缓存Agent封锁Agent以及备份Agent。预取Agent和缓存Agent是根据用户查询语义缓存及数据预取思想用于提高数据库访问效率;封锁Agent用于保持大型数据库的数据一致性;备份Agent用于备份数据库数据。然后本文定义了以下几类原语。

2.3.1 封锁原语

封锁Agent接到用户修改数据库的请求时,需要封锁相关表和记录,同时向Middle Agent发送通知原语,请求Middle Agent向其他Agent发送暂停对相关表和记录更新的操作其消息格式为:

2.3.2 通知封锁原语

Middle Agent接收到封锁Agent发出封锁原语后,向其他Agent发送暂停对相关表和记录更新的操作。其消息格式为:

2.3.3 预取原语

查询Agent接收到查询请求时,向Middle Agent发出查询请求,Middle Agent查找满足条件的预取Agent,查询Agent向选定的预取Agent发送预取请求服务。预取Agent接收到消息后自动调动缓存Agent执行预取工作。其消息格式为:

2.3.4 备份原语

备份Agent根据环境变化,自动执行备份工作,同时向Middle Agent发出数据备份请求,由向Middle Agent发放通知。消息格式为:

3 性能测试

在数据规模分别为10GB,50GB和200GB三种情况下进行统计分析查询测试,对比查询处理时间平均值及标准差如表1所示。

从统计结果可以看出,扩充后原语集提高了数据库的访问效率。

4 结语

Multi-Agent系统中通信是Agent实现协同交互的基础和关键。本文基于Multi-Agent的大型数据库操作模型,根据Agent通信的需要,依照KQML行为原语的标准扩充了适用于大型数据库操作的KQML行为原语集。该行为原语集不仅进一步丰富了KQML行为原语集,而且能够有效地提高大型数据库访问效率。

摘要:Multi-Agent系统中通信是Agent与环境或其它Agent进行协作和交流的基础,因此Agent通信语言设计成为提高Multi-Agent系统性能的重要部分。本文基于Multi-Agent的大型数据库操作模型,根据Agent通信的需要,依照KQML行为原语的标准扩充了适用于大型数据库操作的KQML行为原语集。该原语集可有效提高Agent之间的通信,并可提高大型数据库访问效率。

关键词:Agent,KQML,行为原语,数据库

参考文献

[1]李春生,高笑颦.分布式数据库中间管理平台的研究[J].长江大学学报(自科版)理工卷,2007,4(4):58-61.

[2]李春生,檀坤.基于Multi-Agent的数据挖掘模型及其应用[J].长江大学学报(自然科学版),2008,5(4):202-204.

[3]毛新军.面向主体的软件开发[M].北京:清华大学出版社,2005:19-21.

[4]李晓瑜,余谦.一种多Agent系统通信框架[J].重庆:理工大学学报(自然科学),2010,24(5):100-103.

基于用户行为的网络数据过滤方法 篇7

目前, 网上购物、网上股票交易和网络游戏等互联网应用日益流行, 而在互连网应用中用户需要账户信息来表明身份。不用说在网上购物和网上股票交易中使用的帐户, 即便是在网络游戏中的帐户, 其拥有的虚拟物品也可以通过一些方式进行交易, 因此, 网络上的帐户信息就具有了非常高的经济价值。木马类程序由于可以窃取各种网络应用的帐户信息, 从而被很多居心不良的人采用各种技术手段进行传播, 这给用户带来了很大的威胁。从网上公布的数据来看, 受木马侵害的计算机近两年增长很快。查杀木马程序、拦截网络数据、防止用户的重要信息泄露已成为网络安全研究领域急需解决的问题。

1 相关工作

利用特征码查杀木马是目前主要的防御木马技术之一, 该技术将木马看成一种特殊病毒, 事前提取木马的特征码放在病毒库中, 在扫描系统查杀病毒的同时也查杀木马。特征码技术对已知的病毒和木马非常有效, 目前被国内外防病毒软件广泛使用。但该技术对未知木马却难以有效识别, 而且目前有很多专门制作木马的工具, 老的木马比较容易以一种新的形态出现, 原有的特征码就不一定能起作用。多态[1]和加壳[2]技术的使用给木马的查杀更加增添了难度, 因此, 利用特征码查杀技术无法给用户提供完全的保护。

网络数据过滤是防御木马的一项强有力的补充技术, 这项技术在主机防火墙中已得到广泛使用。主机防火墙根据规则来过滤网络数据, 规则可由用户直接设置, 也可由软件自动生成。规则的自动生成通常是这样:在一个安装了主机防火墙的计算机上, 用户运行一个新的网络应用程序, 系统会弹出一个窗口, 提示某个程序正在发送网络数据, 由用户选择是否允许该应用的网络数据通过。如果用户作出了正确的选择, 就可切断木马客户端与服务端的数据通信, 防止用户机密信息的泄露;否则可能会影响正常的网络应用或放行了木马程序的网络数据。存在的另一个问题是网络数据过滤时往往需要人工的干预。

国内外的研究人员已经从行为分析角度来防御木马, 主机防火墙如卡巴斯基已经运用了行为检测法。目前技术上都集中在对木马行为的分析上[3,4,5,6], 通过拦截修改注册表、修改启动项、修改系统文件等的疑似木马行为达到防御木马的目的。由于正常软件的安装卸载很多时候需要修改注册表等, 因此使用行为检测法的系统往往也需要用户的干预。

也有利用进程合法性来判定网络数据合法性的方法。如通过监测发送数据到外网80端口的进程是否为常见的浏览器进程来判断网络数据是否合法, 但只能用来检测Http-Tunnel[7]。还有预先将所有可信的网络应用程序名称和路径存放到指定数据库中, 通过监控所有通信端口, 并把端口与它相对应的应用程序关联起来, 如果应用程序在数据库中, 则说明通信合法, 否则就可能是非法[8], 但一个明显的问题是可信应用程序库怎样建立, 由普通用户建立显然不合适, 由开发人员预先建立又缺乏适应性。

2 基于用户行为的网络数据过滤

本文描述的方法属于行为检测范畴, 但将分析角度从木马转换到了用户, 分析用户操作行为与网络数据的关系, 利用用户是否操作过对应进程来判定网络数据的合法性。

2.1 基本原理

客户—服务器交互是构成所有网络应用的基础, 网络应用软件本质上有两个角色:客户端和服务器。由于大多数情况下用户使用的网络应用软件是客户端软件, 以下先基于客户端来讨论, 对服务器的讨论在2.3节中进行。

分析目前的网络客户端应用软件可以发现, 网络数据的产生与用户的操作行为有密切的关系。用户要先操作应用程序, 然后才产生网络数据。在用户的操作中, 按下回车键和点击鼠标左键是两个关键的操作, 这两个操作意味着用户真正发出指令, 应用进程收到指令后才发送网络数据。例如用户要访问某个网站, 在浏览器的地址栏输入对应的网址 (或IP地址) 后再按回车键可以访问, 或者用鼠标左键点击地址栏中已有的网址也能访问。用户在使用其它网络客户端应用软件时也有类似的特点, 而木马程序在发送网络数据时是不需要也不会去要求用户操作的。

用户的操作是针对某个进程的, 而网络数据是某个进程发送或接收的, 本文使用“进程”将用户的操作与网络数据收发两者关联起来, 形成网络数据过滤规则:用户操作过的进程允许网络数据的收发。

2.2 技术实现

本文描述的原型系统是基于Windows 2000操作系统实现的。

本文描述的原型系统使用了多个进程, 需要实现进程间的通信, 进程间通信的技术有很多, 共享内存映射文件技术是常用的一种。一般先在一个用户进程中使用CreateFileMapping函数创建一个命名的共享内存对象, 然后在需要通信的进程中使用OpenFileMapping函数获取到该共享内存对象的句柄, 再利用该句柄调用MapViewOfFile函数把这个对象映射给一个指定存取类型的内存指针, 通过该指针就可进行访问共享内存对象[9]。

原型系统使用键盘和鼠标钩子技术完成键盘鼠标消息捕获。钩子是操作系统消息处理的一种机制, 通过安装一个钩子函数让系统在消息处理时自动调用, 从而在钩子函数中可以监视系统的消息队列, 在这些消息到达目标窗口之前对这些消息进行处理。操作系统支持多种类型的钩子, 不同类型的钩子能够截获不同的消息。本系统要监视所有的窗口消息, 必须安装全局钩子, 而全局钩子要被所有应用环境调用, 因此对应的钩子函数必须在动态链接库中实现[10]。

原型系统还使用了SPI技术实现网络数据包的过滤, 使用驱动程序技术捕获进程退出消息, 实现进程退出的监控, 将这些技术组合应用实现了用户正常操作与网络数据收发之间的关联, 并以此为基础来过滤网络数据。

系统先进行初始化工作, 创建名为MySharedMem的共享内存, 安装全局键盘鼠标钩子函数、进程监控程序和网络数据过滤程序。然后各部分通过共享内存进行通信, 相互协作完成基于用户正常操作的网络数据过滤。下面是对各部分的详细描述。

(1) 键盘鼠标钩子函数的作用

是将用户操作过的进程对应标识号 (PID) 添加到共享内存中。键盘鼠标钩子捕获键盘输入的回车键和鼠标的左键点击, 并通过GetWindowThreadProcessId函数获取当前活动窗口对应的PID, 并在共享内存映射文件中搜索该PID是否已经存在, 如果存在则忽略, 否则将该PID加入到共享内存映射文件中, 这样, 就构建了一个PID的集合, 集合中的所有PID对应的进程都是用户操作过的。

(2) 进程监控的作用

是把终止运行的进程对应PID从共享内存中及时删除。进程监控主要通过函数PsSetCreateProcessNotifyRoutine注册一个回调函数来实现, 微软在DDK文档明确说明这个函数只能在核心态使用, 因此这部分功能是通过驱动程序来实现。在驱动程序的入口函数DriverEntry中将进程监控函数注册为一个回调函数, 当有进程创建或退出时系统会自动调用进程监控函数, 在进程监控函数中首先通过参数bCreate判断是进程创建还是退出消息, 在本系统中只监控进程的退出消息。如果是进程退出消息则创建MySharedMem共享内存的映射, 映射成功后通过参数PId得到退出的进程标识号, 并在共享内存映射中搜索该进程号是否存在, 存在则将它从共享内存映射中删除。

回调函数中包含有共享内存映射的过程, 这个过程不能在驱动程序入口函数DriverEntry中完成, 也不能在IRP请求派遣函数中实现, 原因在于驱动程序的例程执行有一个“上下文”的问题。上下文指的是线程 (和进程) 的执行环境, 包括物理内存页面与虚拟内存地址的对应关系、句柄转换、分派器信息、堆栈以及通用和浮点寄存器的设置。内核模式的例程运行的上下文有三种可能性:系统进程上下文、特定用户线程 (和进程) 上下文或任意用户线程 (和进程) 上下文。驱动程序的入口函数DriverEntry总是运行在系统进程的上下文中, 其它函数可能运行在各自不同的上下文中, 在其它函数中建立的共享内存映射在回调函数中往往是没有意义的。

进程监控函数的关键代码如下。

if (!bCreate) //判断是否是进程退出消息。

{

RtlInitUnicodeString (&sectionNameUnicodeString, L″[KG-*3BaseNamedObjects[KG-*3MySharedMem″) ;

InitializeObjectAttributes (&objectAttributes,

&sectionNameUnicodeString,

OBJ_CASE_INSENSITIVE,

(HANDLE) NULL,

(PSECURITY_DESCRIPTOR) NULL) ;

status=ZwOpenSection (&sectionHandle,

SECTION_ALL_ACCESS,

&objectAttributes) ;

if (!NT_SUCCESS (status) ) return status;

status=ZwMapViewOfSection (sectionHandle, //映射

(HANDLE) -1,

&virtualAddress,

0L, //zero bits

PAGE_SIZE, //commit size

NULL, //section offset

&viewsize,

ViewShare,

0,

PAGE_READWRITE) ;

if (!NT_SUCCESS (status) )

{

ZwClose (sectionHandle) ;

return status;

}

_itoa (PId, pids, 10) ;

pos=strstr (virtualAddress, pids) ;

if (pos!=NULL) //判断共享内存映射中是否有这个进程号。

{ //将已退出的进程的PID从共享内存文件中删除, 具体代码略。

……

}

}

(3) 网络数据过滤程序的功能

是根据共享内存中的PID数据过滤网络数据。网络数据过滤使用了SPI技术来实现, 通过DLL的形式建立新的服务提供者, 并插入到原有的服务链中, 让系统在调用原有的服务提供者之前先调用新插入的服务提供者, 并在入口函数WSPstartup中通过修改派遣函数表, 将需要拦截的WSPSend、WSPRecv、WSPSendto和WSPRecvFrom等派遣函数的入口各自指向新插入的服务提供者对应的函数, 这样, 网络应用程序在收发网络数据时就会调用插入的服务提供者中对应的替代派遣函数, 从而达到拦截网络数据的目的[11]。在替代的派遣函数中, 通过参数表中的LPWSATHREADID 类型参数ThreadID获取到网络数据对应的线程号, 再通过NtQueryInformationThread函数获取到对应的进程PID, 在共享内存映射文件中查找是否存在这个PID, 如果存在则调用服务链中下一个分层服务对应函数继续网络数据传输, 否则直接返回 (丢弃网络数据) 。替代的WSPSend函数的关键代码示例如下, 其它替代函数的代码与此类似。

//获取未公开的NtQueryInformationThread函数的地址。

NtQueryInformationThread= (PROCNTQIT) GetProcAddress (

GetModuleHandle (″ntdll″) ,

″NtQueryInformationThread″) ;

if (!NtQueryInformationThread) return 0;

//利用NtQueryInformationThread函数查询线程对应的基本信息 (含进程号) 存入类型为THREAD_BASIC_INFORMATION的变量TBInf中。

status=NtQueryInformationThread (lpThreadId->ThreadHandle,

ThreadBasicInformation,

&TBInf, sizeof (TBInf) , 0 ) ;

PID=itoa ( (long) TBInf.ClientId.UniqueProcess, Str, 10) ;

Pos=strstr (pszMySharedMapView, PID) ; //在共享内存映射文件中查找指定进程号。

if (Pos=NULL)

return; //在共享内存映射文件中没有对应进程的ID号,

//直接返回 (丢弃网络数据) 。

Else

//调用服务链中下一个分层服务对应函数继续网络数据发送。

return nextproctable.lpWSPSend (s, lpBuffers, dwBufferCount, lpNumberOfBytesSent, dwFlags, lpOverlapped, lpCompletionRoutine, lpThreadId, lpErrno) ;

2.3 其它讨论

与客户端相对应的是网络服务器, 如数据库服务器、Web服务器等。网络服务器与客户端不同, 往往随着系统启动而启动, 需要先接收客户端的请求然后才做出响应。如果直接使用前文描述的网络数据过滤方法就会影响现有的网络服务, 解决办法是将网络服务对应的端口号预先添加到另一块共享内存中, 在网络数据过滤时通过端口号来判断是否为相应的网络服务数据, 如果是则放行即可。限于时间关系, 本文描述的原型系统没有具体去实现。

有些网络客户端应用程序运行后在用户还未操作时就会发送网络数据, 如常用的浏览器软件运行后可自动打开默认主页、QQ聊天软件运行后可自动登录, 使用本文介绍的网络数据过滤方法后就会受到影响。对浏览器和QQ聊天两个软件的影响可以通过用户手动操作来消除, 但无疑会影响到其它一些软件的正常使用。笔者目前正在研究将用户操作与新进程的创建进行关联, 研究完成后将会解决这个问题。

3 结果和结论

本文提出并实现了一种基于用户操作行为的网络数据过滤方法, 该方法通过进程号将用户的关键操作行为与网络数据收发进行了关联, 以进程为粒度单位来判定网络数据的合法性, 用户操作过的进程才允许网络数据的收发, 不需要人工干预就可以过滤网络数据, 实践证明可成功拦截有单独进程的木马 (如NetSpy、冰河和Nethief等) 通信数据。

虽然本文介绍的方法无法拦截利用线程插入等技术实现的基于信任程序 (如IE) 的网络通信, 也无法拦截使用了API HOOK技术的木马数据。但该方法从原理上来说有不怕木马程序变形的特点, 传统的有单独进程的木马不论怎样演化, 都无法避免网络数据被拦截, 本文方法的应用将在很大程度上杜绝有单独进程的木马的存在及演化。木马技术正在向系统内核渗透, 防御修改系统内核的RootKit将会更加棘手[4,12,13], 结合现有的防御技术并不断发展新的技术才能对用户信息进行更好的保护, 本文提出一种思路供同行参考。

学生行为数据库论文 篇8

网络行为分析与控制系统是针对当前企业局域网管理中存在的计算机分散管理困难、难以保障企业核心数据安全等问题而提出的一套解决方案。改变了传统的被动管理模式,把人对计算机的管理转化为计算机对自身的管理,既减轻了管理者的工作强度,又提高了管理的效率和针对性。现有的网络行为分析与控制系统中,数据库采用My SQL。随着受控计算机的增加、管理规则粒度精细化以及新产品的开发,各种问题接踵而来:

数据激增:在日志表中,上线1个月的数据就达到千万;

异构数据:有些复杂结构的信息甚至是对象,以前都是以JSON/XML格式或者展开存在一张二维表中,存储效率低下、操作复杂;

大量文件管理:产生的文件主要是图片、本地原始日志数据为主,难以管理;

日志格式多样:为了准确记录有效信息和方便后期的数据挖掘、分析统计,针对不同的子系统,日志格式会稍有不同。根据需求和后来新功能的添加,日志格式也会有相应的变化;

开发要更加敏捷:开发成本和维护成本要更低,要能够快速地更新进化,新功能要在最短的周期内上线;

传统的日志存储方案主要有:文本格式、关系型数据库、专用系统。文本格式存储效率最高,但不方便从海量日志中查询到有效数据;关系型数据库不能满足大并发的环境;专用系统部署、维护复杂。

1 网络行为分析与控制系统基本情况及Mongo DB部署情况

网络行为分析与控制系统是应企业的实际需求进行开发的,是企业上网行为监控的忠实助手。系统的主要功能模块有:资产管理、基本信息维护、监控信息设置、规则设置、系统管理。系统由三部分组成:客户端、管理服务器端、控制台。客户端用于收集数据和执行系统管理策略;服务端用于存储数据和管理规则策略;控制台用于查看系统数据、设定管理策略和进行维护。

目前,网络行为分析与控制系统使用My SQL+Mongo DB的方案:My SQL存储控制信息;Mongo DB存储日志和文件。部署如图1所示。

客户端采集到的日志数据通过节点服务器存储到日志数据库中,监控中心,直接访问Mongo DB查询和分析日志数据。

2 Mongo DB简介

Mongo DB是一个高性能、开源、无模式的文档型分布式数据库,其集Key-Value存储方式和传统的关系型数据库优势于一身,是一种介于关系数据库和非关系数据库之间的新型数据库,目的是为Web2.0应用提供可扩展、高性能的数据存储解决方案。Mongo DB的Sharding是水平扩展(Scale Out,亦或横向扩展、向外扩展)的解决方案,其主要目的是为突破单节点数据库服务器的I/O能力限制,解决数据库扩展性问题。Sharding的思想是从分区的思想扩展而来,是能够跨数据库,甚至跨越物理机器的。Grid FS可将Mongo DB以文件方式进行存储,Grid FS规范提供了一种透明的机制。Grid FS的一个优点是可以存储上百万的文件而无需担心扩容性,通过同步复制,可以解决分布式文件的备份问题,通过ARP-ping可以实现双机热备切换。还解决了使用文件系统存储文件时管理和索引缓慢、难以备份的问题。

(1)典型的Mongo DB应用场景如下:

一个或多个分片,每个分片承载全部数据的一个分区(自动管理)。读和写被自动发送到合适的分片。每个分片都由一个或者多个服务器作为备份集支持(备份集只承载该分片的数据),承载着相同数据的拷贝。在任意时间,系统中只有一个主要集而其他都是次要集。若主要集失效则其中一个次要集自动变为主要集。所有的写入和一致读出都作用于主要集上,所有的最终一致读出都分配在次要集中。

(2)多个配置服务器,每个都承载着元数据的一个拷贝,用以表明哪些数据在哪个分片上。

(3)一个或多个路由器,每个路由器充当一个或多个客户端的服务器。客户端向路由器发送查询更新请求,路由器在查询配置服务器后,将它们路由给合适的分片。

(4)一个或多个客户端,每个都是用户应用(一部分),并且通过mongo客户端库(驱动)向路由器发送命令。

mongod是服务器程序(数据或配置),Mongos是路由器程序。

3 性能测试

3.1 测试环境

在一台曙光A620r-G上安装VMware ESXi-5.1.0,并虚拟出两台机器用于测试。

Datacenter用来安装数据库(Mongo DB 2.2.2/My SQL5.2.29),Tester用于跑测试程序。Mongo DB采用本机Sharding方式部署,如图3所示。

3.2 测试方案和结果

使用测试程序依次向Mongo DB/My SQL插入1亿条数据(每条数据大约1KB):

(1)并发插入性能:插入1亿条数据,32个线程,每次100条,结果如图4所示。

Mongo DB的插入速度,平均在22000条/秒;My SQL的时1500条/秒,优势明显。

(2)并发查询性能,每次生成指定数量的线程同时发起查询,记录平均时间,结果如图5所示。

整体看来,Mongo DB并发读取比My SQL略快些。两个数据库的瓶颈都在磁盘I/O上。实际部署时,由于Mongo DB的每个分片都会部署到不同的物理机上,优势会更加明显。

4 结论

将Mongo DB与网络行为分析与控制系统结合起来,可以实现准确记录有效日志信息和方便后期的数据挖掘、分析统计、快速查询;使用Grid FS高效有序地对系统产生的图片、本地原始日志数据等进行管理;通过分片技术的应用,保障数据的安全和灾难恢复相关问题。

经过上述实验测试表明,将Mongo DB数据库应用于网络行为分析与控制系统,是可行的,并且成本较低,使用普通服务器就能达到传统高性能服务器的效果,能够显著提高网络行为分析与控制系统的可维护性、可扩展性和系统负载。

摘要:在网络行为分析与控制系统中,传统的关系数据库在异构数据、海量日志的管理上难以胜任。NoSQL非关系型数据库的出现,对于解决面向文档的超大规模和高并发的问题提供了卓有成效的方案。本文在研究非关系数据库的基础上,着重分析MongoDB的特点和优势,通过性能测试,提出将MongoDB数据库应用于网络行为分析与控制系统,有效提高了大规模日志数据在网络行为分析与控制系统中的存储效率。

关键词:NoSQL,MongoDB,网络行为分析与控制系统

参考文献

[1](美)霍多罗夫,(美)迪洛尔夫著,程显峰译.MongoDB权威指南.北京:人民邮电出版社.2011.

[2](美)霍多罗夫著.深入学习MongoDB.北京:人民邮电出版社.2012.

[3]红丸著.MongoDB管理与开发精要.北京:机械工业出版社.2012.

[4]刘一梦.基于MongoDB的云数据管理技术的研究与应用[D].北京交通大学.2012.

[5]Introduction to MongoDB.http://www.mongodb.org/about/introduction/.

学生行为数据库论文 篇9

(1.上海海事大学 物流工程学院,上海 201306; 2.德马格起重机械(上海)有限公司,上海 201199)

0 引 言

随着互联网通信技术的迅速发展、电子商务规模的急剧膨胀以及近年来物流业的蓬勃发展,网上购物给顾客带来前所未有的便利,顾客足不出户就可分享到数以千计的商品和服务信息,并从中选择自己喜爱的商品或服务.但同时随着商品经济的繁荣,网络提供给客户的选择急剧增长,电子商务带来的便利性也被信息过载这个新困扰逐渐消耗.

个性化内容推荐系统是一个解决信息过载并为用户推荐个性化内容的高效系统,它根据用户需求及其相关浏览行为等进行分析,将用户感兴趣的内容推荐给用户,其核心和关键技术在于用户兴趣模型的建立.

从目前的研究成果来看,用户的需求可以表现为显性需求[1]和隐性需求[2].显性需求主要依赖用户对其兴趣的准确表达,而隐性需求主要是通过分析挖掘用户属性(如年龄、收入、文化水平、职业等)、人机交互行为的历史数据[3]及相关眼动特征[4]获得的.要想准确表达用户兴趣模型就必须同时考虑显性需求和隐性需求.另一方面由于网络海量信息的影响[5],用户的喜好会随时间和外界的影响发生变化.为挖掘用户的兴趣,提高用户兴趣模型的精度和效率以及用户网上购物的满意度,首先利用客户体验管理(Customer Experience Management,CEM)分析影响用户网上购物的因素,然后运用马尔科夫链分析用户的网上购物行为数据,并结合眼动数据,最终挖掘出主要影响因素以及各自所占的权重,为网上商家提供建设性意见并为用户的个性化兴趣建模提供相关理论依据.

1 网上购物决策因子研究的建立

比较购物是细分出来的网上购物领域中的一个专业搜索引擎.比较购物网站的搜索结果比通用搜索引擎获得的信息更加集中、全面.好的比较购物网站往往能及时且完整地抓取商品信息,使网络用户对市场上某类商品的价格变化、用户评论、店铺信用等一目了然.

目前,中国的比较购物环境尚未成熟,比较多的形式是“网上购物导航+网上购物社区”,购物搜索仅仅集成于此类网站中,暂可称这种模式是国内比较购物的雏形.现阶段比较购物主要体现在社区评价,以网上店铺与用户的社区互动为主.一些用户的体验、产品测评也多数发布在社区.一些网站虽然可以进行初步的商品对比,但模式机械、程序繁琐、推荐效果不理想,导致网站效率低下,成交额受到严重影响.要抓住顾客,就必须研究影响用户决策的主要因素,使推荐信息具有针对性,以简化用户决策流程,提高效率,因此迫切需要对影响用户网上购物决策的主要因素进行研究,这对网上商家来说更是刻不容缓.根据网络提供的信息,仅淘宝店铺而言,上海2009年就有288 600家之多[6],但正常营业的只有三分之一,大部分中小型网上商家人气不足、销量低迷.研究网上购物决策的主要影响因素,给网上商家提供理论依据及建设性意见,对网上商家乃至电子商务行业意义重大.

在事件的发展过程中,若每次状态的转移都仅与前一时刻的状态有关,而与过去的状态无关,或者说状态转移过程是无后效性的,则称这种状态转移过程为马尔科夫过程.购物网站打开后,客户就开始网上购物行为:眼睛扫视页面、注视产品图片、滚动页面、鼠标光标移动和点击等.这些行为没有规律可循,相互之间也没有太多的联系,完全是随用户个体的兴趣、需求、习惯等而改变,所以得到的数据都是动态的,且前后状况之间都没有关系,符合运用马尔科夫链分析的数据的特点.

本文用马尔科夫链分析用户的网上购物行为数据,得到用户各网上购物行为所占比例,研究的基本框架见图1.首先通过CEM得到用户的清晰反馈,初步得到影响用户网上购物决策的影响因子;其次以采集到的行为数据结合马尔科夫链算法挖掘主要影响因子;最后通过相关眼动参数和调查研究对主因子进行确认并分析主决策因子对网上购物的影响权重.

图1 网上购物决策因子研究框架

2 CEM下用户决策的影响因子分析

为研究用户网上购物过程中各影响因素所占比重,采用CEM[7]对各影响因素进行系统分类,再运用调查问卷对分类出的因素进行选择,从中找出最为重要的几个影响因素,分析筛选出重要因素.本次调查得到有效问卷123份,根据CEM汇总分析这些数据,得到影响用户网络购物决策的显性因素,具体情况见表1.

表1 CEM汇总分析

分析发现品牌形象不只是用户的关键体验,也是目前网购做得最差的地方,计算出来的满意度权重是-16分.另外,产品、价格、便利性也有一定的提升空间,所以品牌形象、产品、价格和便利性就是本次重点研究的影响用户网购决策的4个因素.

3 网上购物行为数据分析

3.1 用户决策数据获取

本文利用java等技术记录用户的浏览行为,其优点在于整个过程不需要用户的主动参与,不需要中断用户的浏览操作,也不会给用户带来不良的浏览情绪.通过Live Record对实验者在实验中的操作进行记录,可以发现用户在浏览时的行为主要包括以下几个方面:滚动页面、点击鼠标、移动光标、其他(主要指用户走神或与网上购物关联不大的行为).

马尔科夫预测法[8]的基本要求是状态转移概率矩阵必须具有一定的稳定性.因此,必须具有足够的统计数据,才能保证预测的精度与准确性.具有大量的统计数据是运用马尔科夫预测法的一个基本条件.本文随机选取48位调查者作为本次研究的实验者,在常用网上购物网站的日用品——洗发水网页上实现购买行为.分别进行2次及以上实验,得到实验者的行为数据,满足马尔科夫预测法的基本条件.汇总数据,将所有实验数据求平均,算出网上购物行为所占比例,见表2.

表2 网上购物行为所占比例 %

为得到实验者较为稳定的网上购物行为数据,进行多次实验并求其平均值,并将几次实验中各种行为之间的转化情况记录下来,见表3.

表3 实验中网上购物行为转化比例 %

3.2 基于马尔科夫链的用户行为预测

3.2.1 创建初始转移概率矩阵

设某一事件发展过程有E1,E2,…,En等n种可能的状态.记从Ei到Ej的状态转移概率矩阵为P,则

(1)

转移概率矩阵中

(2)

由表3可得该实验的一步转移概率矩阵

3.2.2 决定初始状态的市场概率矩阵

初始状态概率矩阵

(3)

3.2.3 建立马尔科夫链模型

由式(1)和(3)可得

(4)

运用马尔科夫链,得到用户进行网上购物操作中的各种行为终极状态所占的比例,见表4.

表4 网上购物行为终极状态所占比例 %

从实验录像中可以看出,实验者网上购物行为与购物时受到的影响有直接联系.每一个行为的产生都是由不同的因素所导致的,而同一个因素也可以导致不同行为的产生.[9]根据实验录像,将主要网上购物行为及其产生原因汇总于表5.

表5 不同因素导致的网上购物行为所占比例 %

将表4和5按乘法原理处理可以得到表6.从表6可得在影响网上购物的4个主要因素中,品牌形象所占比例最高,即在网上购物时优先选择信誉较高、可靠度高的网上购物网站,在购买产品时也会优先考虑该产品的品牌、知名度,因为用户觉得品牌是产品质量的保证.其次是价格,标有特价、折扣价的产品会更容易吸引用户的兴趣,会让用户去点击了解商品.如果该商品有较高的性价比,就比较会被用户放进购物车.再其次是产品(产品图片)的吸引力以及购买流程和付款收货的便捷程度.

表6 结合影响因素的网上购物行为终极状态比例 %

4 结论验证

4.1 结合眼动参数的结论验证

相关研究已经表明眼动特征能在一定程度上反映用户的兴趣点所在.[10]通过研究网络用户的眼动特征,包括瞳孔直径、第一次注视点、注视点分布、眼动轨迹[11]等从侧面验证网上购物者的兴趣所在,从而进一步提高本研究的正确性和精度.运用眼动仪收集本研究中测试者的眼动数据,记录测试者在发生网上购物行为时的眼动特征,结合实时录像分析测试者的兴趣.

眼睑情况[12]:记录眼睑变化及时间,同步比对影像,得到用户感兴趣的地方.注视情况[9]:记录注视变化及时间,同步比对影像,得到用户感兴趣的地方.瞳孔情况[13]:记录瞳孔直径变化及时间,同步比对影像,得到用户感兴趣的地方.影像记录:眼动仪在记录以上参数变化的同时,还记录每一秒用户的参数变化.分析最后生成的Excel表格中时间以及对应的参数变化和Live Record所记录的用户具体购物操作,就可以知道哪些地方是用户的兴趣点.利用SPSS对比眼睑和瞳孔情况,采用曲线估计分析眼睑和瞳孔数据.选取实验者在浏览和选购时的数据进行分析.运用SPSS可以得曲线估计图2和3.

图2 眼睑曲线估计

图3 瞳孔曲线估计

从图2和3可以看出,测试者在看见自己感兴趣的网页时会全神注视,同时瞳孔会保持张大的状态.同时可知:当单位眨眼数越小、瞳孔直径比正常直径大、一定时间内不滚动页面、眼睛注视同一片区域时,说明用户对该信息感兴趣.再根据影像记录,汇总引起实验者兴趣的是哪类影响因素,得出其主要影响因素是品牌及价格.

为验证本文分析的正确性,在人人网上发布网上购物决策影响因子调查问卷(问卷的对象是网上购物用户).实得有效问卷235份,经统计分析得到以下结论:品牌形象的权重为33%,价格的权重为20%,产品(产品图片)的权重为15%,便利性的权重为11%.由此可知,实验结论可较为准确地反映影响网上购物行为的因素权重.

在网上购物的缺点上,认为商品质量低劣的用户占56.25%,认为到货时间偏长和邮费贵的用户各占31.25%,认为网上购物存在欺诈行为的占25%.这也是网上购物用户一般在选购商品和服务时非常看重品牌形象的主要原因,他们认为品牌商品有品质保障并且售后服务到位.

5 结束语

根据实验分析得到影响网上购物的主要因素的权重:首要因素是品牌形象、价格,其次是产品(产品图片)、便利性,再其次是服务以及其他因素.虽本文将马尔科夫链算法与一些相关算法结合,但仍存在缺陷,数据分析存在一定的误差,值得用更为先进的技术手段进行进一步的研究.

参考文献:

[1]RYEN W W. The use of implicit evidence for relevance feedback in Web retrieval[J]. Lecture Notes in Comput Sci, 2002, 2291: 449-479.

[2]ZIGORIS P, ZHANG Y. Bayesian adaptive user profiling with explicit & implicit feedback[C]//Proc 15th ACM Int Conf Inform & Knowledge Manage, ACM, 2006: 397-404.

[3]付关友. 基于浏览行为分析的用户兴趣挖掘[D]. 重庆: 重庆大学, 2004.

[4]燕保珠. 眼动研究在网站可用性测试中的应用[D]. 北京: 北京邮电大学, 2011.

[5]施笑畏, 宓为建. 基于模糊逻辑的多级代理推荐系统[J]. 上海海事大学学报, 2011, 32(4): 71-75.

[6]王贤文, 徐申萌. 中国C2C淘宝网络店铺的地理分布[J]. 地理科学进展, 2011, 30(12): 56-61.

[7]SCHMITT B H. Customer experience management: a revolutionary approach to connecting with your customers[M]. New Jersey: Wiley, 2003: 234-238.

[8]GILKS W R, RICHARDSON S, SPIEGELHALTER D J. Markov chain Monte Carlo in practice[M]. London: Chapman & Hall, 1996: 56-60.

[9]HUANG J, WHITE R W, DUMAIS S. No clicks, no problem: using cursor movements to understand and improve search[C]//Proc SIGCHI Conf Human Factors Computing Systems, ACM, 2011: 1225-1234.

[10]BALL L J, LUCAS E J, MILES J N V,etal. Inspection times and the selection task: what do eye-movements reveal about relevance effects? [J]. Q J Exp Psychol, 2003, 56(6): 1053-1077.

[11]DIXSON B J. Eye tracking reveals men’s appreciation of the female form[J]. Human Natural, 2010, 21: 355-370.

基于大数据的用户行为分析研究 篇10

21世纪是数据信息迅速膨胀的时代,互联网的应用范围和边界不断延伸,如移动互联、社交网络、电子商务等。现今,用户可以借助互联网平台表达社情民意,体现用户的意愿,评论和态度。例如京东的用户对某商品的评论信息,商家通过用户的评论和反馈分析,从而进行优化改善,为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的;看似庞大无规则的数据,包含着大量的用户标签及潜在的用户肖像。存储与分析中文文本数据是技术上的关键,如何能够存储并分析海量数据,生成精确的用户标签,依赖于数据存储系统和文本分析系统的技术。本文的数据存储运用DB2 BLU Acceleration,利用DB2 BLU速度快、与Cognos无缝结合的特性来存储和分析数据。中文文本分析基于Hadoop的文本分析平台,快速进行中文分词和建立标签词典,本文将在后面章节进行具体介绍。

2 中文微博数据分析逻辑

微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立自己主页,发布近期的打折、新品信息。但是,这些信息往往不能针对每个用户的喜好来发布,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。

但实际上,粉丝自身发布的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。

如图1,显示了整个营销分析流程的逻辑。从客户发布微博开始,到商家向用户发布商品目录和优惠信息,整个流程分为五个步骤:

(1)客户发布微博,从微博上初步获取的数据为“粗数据”,掌握用户自定义的标签,作为用户肖像的一部分。

(2)获取商家的粉丝。

(3)将用户的微博进行语义分析,基于Hadoop的文本分析平台将对中文进行分词,分词后将与字典进行比较和分类,总结出该用户的兴趣爱好所在。

(4)指定相关营销策略,根据微博内容实时或定时更新客户肖像,向用户推送相应的商品折扣和新上架产品信息。

(5)消费者使用消费券或根据打折信息购买相关产品。

3 方案架构

整个系统架构,如图2所示,主要由文本分析系统、DB2 BLU数据库以及Cognos数据分析工具组成。首先从互联网上获取数据以后,将原始数据送入文本分析平台进行分析,主要做中文分词、情感分析等工作;然后将文本分析结果整合后输出送入DB2 BLU数据库中,进行存储、建表,建表包括客户肖像表、商品目录表、促销策略表等;最后,利用DB2BLU与Cognos无缝集成的优势,用Cognos对数据进行分析。根据Cognos分析出的结果,生成促销的报表,继而将优惠信息分别推送给每个用户。

如图3所示,为基于Hadoop平台的文本分析架构图,整个架构主要由三部分组成:引擎部分:用户发布的微博中获取的数据生成文本格式送入文本分析引擎,在输入之前,由于客户的ID、性别、地点已经提取出来,可以作为客户肖像的一部分,但并不送入文本分析系统。引擎部分主要处理中文分词、将分词与词汇库中的字典进行匹配、分类。分词的作用主要将动词,以及动词后的名词分开,情感词,以及表达情感的对象分开等。词汇库部分,主要负责存储客户合作模型的词汇词典,这一部分的词典部分有手工添加,部分由系统根据词汇库聚类生成,词汇库存于HBase上;最后是负责输入输出文本的部分,这一部分利用JAQL来拼接“原始标签”与分词后的标签,一起构成客户肖像表。

本文用于存储客户肖像的为DB2 BLU Acceleration。BLU Acceleration的架构如图4所示。

使用DB2 BLU具有的性能优势,采用列式存储,只对需要的数据列进行读取,可以减少I/O。采用霍夫曼编码对数据进行压缩,降低内存消耗。SQL采用并行运行方式,利用CPU寄存器,避免并列干涉。使用列存储算法,便于更多的缓存数据,提供内存利用率,有效减少I/O。

4 结束语

本文介绍了基于大数据的中文舆情分析系统,采用基于Hadoop平台的文本分析,以及IBM Cognos无缝集成DB2 BLU加速器的优化分析能力,提供快速的查询和分析功能。整个系统针对互联网大量的数据进行处理、文本分析,经过分析为客户定制肖像,商家可以根据肖像来向客户推送客户需要的优惠信息。经过样本数据测试,推送给用户的信息,与用户的自然标签(用户自己为自己设定的)对应性很高。在实时性、大量重复词汇的处理上面,由于中文语义分析的局限性,还有待优化和提高。

摘要:社交网络媒体发展备受关注,微信、微博以及博客等社交媒体不断使人们生活方式发生改变。微信、QQ、微博、大众点评、美团、淘宝、京东以及亚马逊等用户日益增加,用户通过朋友圈或主动发出评论的数量逐渐递增。在信息化多元化的时代,用户已经成为各个行业的代言人,为品牌推广起到不可替代的作用。如何更好地获取用户真实的购买意愿,并精准的为用户提供购物渠道和优惠信息,将成为提升品牌荣誉、改善用户体验以及获取最大效益的新型渠道。当前存在许多营销手段和推送方式,但准确度还不够,并且时常出现错误推送。本文通过利用销售的案例并结合数据分析来阐述中文舆情的可行性,利用Hadoop平台的文本分析和数据存储数据库(DB2 BLU),提高分析的准确程度。

关键词:信息化大数据,Hadoop,文本分析

参考文献

[1]张艺帆,王永,郭辉.基于大数据的中文舆情分析[C].IBM debeloper Works技术主题,2014.

[2]郝增勇.基于Hadoop用户行为分析系统设计与实现[D].北京交通大学,2014.

[3]刘海峰.社交网络用户交互模型及行为偏好预测研究[D].北京邮电大学,2014.

上一篇:国际铁路行业标准下一篇:研究与影响