用户行为数据(精选12篇)
用户行为数据 篇1
0 引 言
目前, 网上购物、网上股票交易和网络游戏等互联网应用日益流行, 而在互连网应用中用户需要账户信息来表明身份。不用说在网上购物和网上股票交易中使用的帐户, 即便是在网络游戏中的帐户, 其拥有的虚拟物品也可以通过一些方式进行交易, 因此, 网络上的帐户信息就具有了非常高的经济价值。木马类程序由于可以窃取各种网络应用的帐户信息, 从而被很多居心不良的人采用各种技术手段进行传播, 这给用户带来了很大的威胁。从网上公布的数据来看, 受木马侵害的计算机近两年增长很快。查杀木马程序、拦截网络数据、防止用户的重要信息泄露已成为网络安全研究领域急需解决的问题。
1 相关工作
利用特征码查杀木马是目前主要的防御木马技术之一, 该技术将木马看成一种特殊病毒, 事前提取木马的特征码放在病毒库中, 在扫描系统查杀病毒的同时也查杀木马。特征码技术对已知的病毒和木马非常有效, 目前被国内外防病毒软件广泛使用。但该技术对未知木马却难以有效识别, 而且目前有很多专门制作木马的工具, 老的木马比较容易以一种新的形态出现, 原有的特征码就不一定能起作用。多态[1]和加壳[2]技术的使用给木马的查杀更加增添了难度, 因此, 利用特征码查杀技术无法给用户提供完全的保护。
网络数据过滤是防御木马的一项强有力的补充技术, 这项技术在主机防火墙中已得到广泛使用。主机防火墙根据规则来过滤网络数据, 规则可由用户直接设置, 也可由软件自动生成。规则的自动生成通常是这样:在一个安装了主机防火墙的计算机上, 用户运行一个新的网络应用程序, 系统会弹出一个窗口, 提示某个程序正在发送网络数据, 由用户选择是否允许该应用的网络数据通过。如果用户作出了正确的选择, 就可切断木马客户端与服务端的数据通信, 防止用户机密信息的泄露;否则可能会影响正常的网络应用或放行了木马程序的网络数据。存在的另一个问题是网络数据过滤时往往需要人工的干预。
国内外的研究人员已经从行为分析角度来防御木马, 主机防火墙如卡巴斯基已经运用了行为检测法。目前技术上都集中在对木马行为的分析上[3,4,5,6], 通过拦截修改注册表、修改启动项、修改系统文件等的疑似木马行为达到防御木马的目的。由于正常软件的安装卸载很多时候需要修改注册表等, 因此使用行为检测法的系统往往也需要用户的干预。
也有利用进程合法性来判定网络数据合法性的方法。如通过监测发送数据到外网80端口的进程是否为常见的浏览器进程来判断网络数据是否合法, 但只能用来检测Http-Tunnel[7]。还有预先将所有可信的网络应用程序名称和路径存放到指定数据库中, 通过监控所有通信端口, 并把端口与它相对应的应用程序关联起来, 如果应用程序在数据库中, 则说明通信合法, 否则就可能是非法[8], 但一个明显的问题是可信应用程序库怎样建立, 由普通用户建立显然不合适, 由开发人员预先建立又缺乏适应性。
2 基于用户行为的网络数据过滤
本文描述的方法属于行为检测范畴, 但将分析角度从木马转换到了用户, 分析用户操作行为与网络数据的关系, 利用用户是否操作过对应进程来判定网络数据的合法性。
2.1 基本原理
客户—服务器交互是构成所有网络应用的基础, 网络应用软件本质上有两个角色:客户端和服务器。由于大多数情况下用户使用的网络应用软件是客户端软件, 以下先基于客户端来讨论, 对服务器的讨论在2.3节中进行。
分析目前的网络客户端应用软件可以发现, 网络数据的产生与用户的操作行为有密切的关系。用户要先操作应用程序, 然后才产生网络数据。在用户的操作中, 按下回车键和点击鼠标左键是两个关键的操作, 这两个操作意味着用户真正发出指令, 应用进程收到指令后才发送网络数据。例如用户要访问某个网站, 在浏览器的地址栏输入对应的网址 (或IP地址) 后再按回车键可以访问, 或者用鼠标左键点击地址栏中已有的网址也能访问。用户在使用其它网络客户端应用软件时也有类似的特点, 而木马程序在发送网络数据时是不需要也不会去要求用户操作的。
用户的操作是针对某个进程的, 而网络数据是某个进程发送或接收的, 本文使用“进程”将用户的操作与网络数据收发两者关联起来, 形成网络数据过滤规则:用户操作过的进程允许网络数据的收发。
2.2 技术实现
本文描述的原型系统是基于Windows 2000操作系统实现的。
本文描述的原型系统使用了多个进程, 需要实现进程间的通信, 进程间通信的技术有很多, 共享内存映射文件技术是常用的一种。一般先在一个用户进程中使用CreateFileMapping函数创建一个命名的共享内存对象, 然后在需要通信的进程中使用OpenFileMapping函数获取到该共享内存对象的句柄, 再利用该句柄调用MapViewOfFile函数把这个对象映射给一个指定存取类型的内存指针, 通过该指针就可进行访问共享内存对象[9]。
原型系统使用键盘和鼠标钩子技术完成键盘鼠标消息捕获。钩子是操作系统消息处理的一种机制, 通过安装一个钩子函数让系统在消息处理时自动调用, 从而在钩子函数中可以监视系统的消息队列, 在这些消息到达目标窗口之前对这些消息进行处理。操作系统支持多种类型的钩子, 不同类型的钩子能够截获不同的消息。本系统要监视所有的窗口消息, 必须安装全局钩子, 而全局钩子要被所有应用环境调用, 因此对应的钩子函数必须在动态链接库中实现[10]。
原型系统还使用了SPI技术实现网络数据包的过滤, 使用驱动程序技术捕获进程退出消息, 实现进程退出的监控, 将这些技术组合应用实现了用户正常操作与网络数据收发之间的关联, 并以此为基础来过滤网络数据。
系统先进行初始化工作, 创建名为MySharedMem的共享内存, 安装全局键盘鼠标钩子函数、进程监控程序和网络数据过滤程序。然后各部分通过共享内存进行通信, 相互协作完成基于用户正常操作的网络数据过滤。下面是对各部分的详细描述。
(1) 键盘鼠标钩子函数的作用
是将用户操作过的进程对应标识号 (PID) 添加到共享内存中。键盘鼠标钩子捕获键盘输入的回车键和鼠标的左键点击, 并通过GetWindowThreadProcessId函数获取当前活动窗口对应的PID, 并在共享内存映射文件中搜索该PID是否已经存在, 如果存在则忽略, 否则将该PID加入到共享内存映射文件中, 这样, 就构建了一个PID的集合, 集合中的所有PID对应的进程都是用户操作过的。
(2) 进程监控的作用
是把终止运行的进程对应PID从共享内存中及时删除。进程监控主要通过函数PsSetCreateProcessNotifyRoutine注册一个回调函数来实现, 微软在DDK文档明确说明这个函数只能在核心态使用, 因此这部分功能是通过驱动程序来实现。在驱动程序的入口函数DriverEntry中将进程监控函数注册为一个回调函数, 当有进程创建或退出时系统会自动调用进程监控函数, 在进程监控函数中首先通过参数bCreate判断是进程创建还是退出消息, 在本系统中只监控进程的退出消息。如果是进程退出消息则创建MySharedMem共享内存的映射, 映射成功后通过参数PId得到退出的进程标识号, 并在共享内存映射中搜索该进程号是否存在, 存在则将它从共享内存映射中删除。
回调函数中包含有共享内存映射的过程, 这个过程不能在驱动程序入口函数DriverEntry中完成, 也不能在IRP请求派遣函数中实现, 原因在于驱动程序的例程执行有一个“上下文”的问题。上下文指的是线程 (和进程) 的执行环境, 包括物理内存页面与虚拟内存地址的对应关系、句柄转换、分派器信息、堆栈以及通用和浮点寄存器的设置。内核模式的例程运行的上下文有三种可能性:系统进程上下文、特定用户线程 (和进程) 上下文或任意用户线程 (和进程) 上下文。驱动程序的入口函数DriverEntry总是运行在系统进程的上下文中, 其它函数可能运行在各自不同的上下文中, 在其它函数中建立的共享内存映射在回调函数中往往是没有意义的。
进程监控函数的关键代码如下。
if (!bCreate) //判断是否是进程退出消息。
{
RtlInitUnicodeString (§ionNameUnicodeString, L″[KG-*3BaseNamedObjects[KG-*3MySharedMem″) ;
InitializeObjectAttributes (&objectAttributes,
§ionNameUnicodeString,
OBJ_CASE_INSENSITIVE,
(HANDLE) NULL,
(PSECURITY_DESCRIPTOR) NULL) ;
status=ZwOpenSection (§ionHandle,
SECTION_ALL_ACCESS,
&objectAttributes) ;
if (!NT_SUCCESS (status) ) return status;
status=ZwMapViewOfSection (sectionHandle, //映射
(HANDLE) -1,
&virtualAddress,
0L, //zero bits
PAGE_SIZE, //commit size
NULL, //section offset
&viewsize,
ViewShare,
0,
PAGE_READWRITE) ;
if (!NT_SUCCESS (status) )
{
ZwClose (sectionHandle) ;
return status;
}
_itoa (PId, pids, 10) ;
pos=strstr (virtualAddress, pids) ;
if (pos!=NULL) //判断共享内存映射中是否有这个进程号。
{ //将已退出的进程的PID从共享内存文件中删除, 具体代码略。
……
}
}
(3) 网络数据过滤程序的功能
是根据共享内存中的PID数据过滤网络数据。网络数据过滤使用了SPI技术来实现, 通过DLL的形式建立新的服务提供者, 并插入到原有的服务链中, 让系统在调用原有的服务提供者之前先调用新插入的服务提供者, 并在入口函数WSPstartup中通过修改派遣函数表, 将需要拦截的WSPSend、WSPRecv、WSPSendto和WSPRecvFrom等派遣函数的入口各自指向新插入的服务提供者对应的函数, 这样, 网络应用程序在收发网络数据时就会调用插入的服务提供者中对应的替代派遣函数, 从而达到拦截网络数据的目的[11]。在替代的派遣函数中, 通过参数表中的LPWSATHREADID 类型参数ThreadID获取到网络数据对应的线程号, 再通过NtQueryInformationThread函数获取到对应的进程PID, 在共享内存映射文件中查找是否存在这个PID, 如果存在则调用服务链中下一个分层服务对应函数继续网络数据传输, 否则直接返回 (丢弃网络数据) 。替代的WSPSend函数的关键代码示例如下, 其它替代函数的代码与此类似。
//获取未公开的NtQueryInformationThread函数的地址。
NtQueryInformationThread= (PROCNTQIT) GetProcAddress (
GetModuleHandle (″ntdll″) ,
″NtQueryInformationThread″) ;
if (!NtQueryInformationThread) return 0;
//利用NtQueryInformationThread函数查询线程对应的基本信息 (含进程号) 存入类型为THREAD_BASIC_INFORMATION的变量TBInf中。
status=NtQueryInformationThread (lpThreadId->ThreadHandle,
ThreadBasicInformation,
&TBInf, sizeof (TBInf) , 0 ) ;
PID=itoa ( (long) TBInf.ClientId.UniqueProcess, Str, 10) ;
Pos=strstr (pszMySharedMapView, PID) ; //在共享内存映射文件中查找指定进程号。
if (Pos=NULL)
return; //在共享内存映射文件中没有对应进程的ID号,
//直接返回 (丢弃网络数据) 。
Else
//调用服务链中下一个分层服务对应函数继续网络数据发送。
return nextproctable.lpWSPSend (s, lpBuffers, dwBufferCount, lpNumberOfBytesSent, dwFlags, lpOverlapped, lpCompletionRoutine, lpThreadId, lpErrno) ;
2.3 其它讨论
与客户端相对应的是网络服务器, 如数据库服务器、Web服务器等。网络服务器与客户端不同, 往往随着系统启动而启动, 需要先接收客户端的请求然后才做出响应。如果直接使用前文描述的网络数据过滤方法就会影响现有的网络服务, 解决办法是将网络服务对应的端口号预先添加到另一块共享内存中, 在网络数据过滤时通过端口号来判断是否为相应的网络服务数据, 如果是则放行即可。限于时间关系, 本文描述的原型系统没有具体去实现。
有些网络客户端应用程序运行后在用户还未操作时就会发送网络数据, 如常用的浏览器软件运行后可自动打开默认主页、QQ聊天软件运行后可自动登录, 使用本文介绍的网络数据过滤方法后就会受到影响。对浏览器和QQ聊天两个软件的影响可以通过用户手动操作来消除, 但无疑会影响到其它一些软件的正常使用。笔者目前正在研究将用户操作与新进程的创建进行关联, 研究完成后将会解决这个问题。
3 结果和结论
本文提出并实现了一种基于用户操作行为的网络数据过滤方法, 该方法通过进程号将用户的关键操作行为与网络数据收发进行了关联, 以进程为粒度单位来判定网络数据的合法性, 用户操作过的进程才允许网络数据的收发, 不需要人工干预就可以过滤网络数据, 实践证明可成功拦截有单独进程的木马 (如NetSpy、冰河和Nethief等) 通信数据。
虽然本文介绍的方法无法拦截利用线程插入等技术实现的基于信任程序 (如IE) 的网络通信, 也无法拦截使用了API HOOK技术的木马数据。但该方法从原理上来说有不怕木马程序变形的特点, 传统的有单独进程的木马不论怎样演化, 都无法避免网络数据被拦截, 本文方法的应用将在很大程度上杜绝有单独进程的木马的存在及演化。木马技术正在向系统内核渗透, 防御修改系统内核的RootKit将会更加棘手[4,12,13], 结合现有的防御技术并不断发展新的技术才能对用户信息进行更好的保护, 本文提出一种思路供同行参考。
用户行为数据 篇2
1.1 用户管理
用户是上网行为管理产品最核心的要素,任何一条策略都是针对一个用户或者部门设置的,因此对于用户的识别、认证与管理能力决定了上网行为管理的效果。网康ICG提供了丰富的用户认证方式以及符合企业实际的用户管理能力,很好地满足企业对于用户的管理要求。
1.1.1 用户身份信息维护管理
按照企业组织结构建立用户组
当用户数目较多、组织结构比较复杂时,按照实际的组织结构管理用户是最有效的方式,易于管理员查询、定位和设置策略。网康ICG支持树型结构管理用户,能够完全按照企业的实际情况建立用户组,如下图所示:
图2-24按照企业组织结构管理用户
IP网段自动分组
任何互联网行为管控和审计策略最终都将赋予到用户或用户组上,对于以IP网段划分部门的机构,如果用户数目众多或者IP分配变化频繁(如大学的院系),针对每一个用户进行单独的设置是不现实的,这些机构关心的更多的是对某一类用户进行管理,而不是特定的用户。网康ICG可以按照网段进行分组并设置策略,属于某网段的IP会自动适用该网段的策略。ICG支持将新入网的未注册IP自动加入到所属的IP分组中,从而自动为该IP分配预定义的管控策略。对于那些临时来访的外来用户,管理员可以将其计算机设备统一划分在某一IP范围内,并对该IP网段分组制定相关限制性策略,大大增强了动态用户管理的灵活性。
此外,如果管理员没有预先设置IP网段,ICG可以将未注册的用户实时加入系统的未定义用户组中,管理员可以在合适的时机将其移动到已定义用户组中,从而逐步完善用户的定义。
支持用户的权限组管理
网康ICG支持权限组的定义和管理。可在各级用户组织中建立“权限组”,可将任意用户添加入“权限组”中,一个用户可以同时隶属于多个权限组。这一功能提高了用户策略管理的灵活性,在不改变原用户的组织结构的情况下,可实现对一些分散在各组中的用户进行统一策略管理。
支持AD域权限组导入
网康ICG可将AD域服务器中用户权限组信息导入到用户组织列表中,并自动创建相对应的权限组,可定义各权限组的互联网行为管控策略。
针对企业网络最常用的认证体系联动(LDAP),重新调整功能实现,支持: 可设置支持完整&部分LDAP导入,包括权限组导入;
可灵活设置同步模式(导入、镜像),确保与LDAP服务器保持用户信息联动; 支持多个LDAP服务器同时导入,无需担心组织冲突以及显示问题; 支持属性组
网康ICG率先支持属性组用户。属性组用户是指将某些具有一定共同特征(如部门、职位、电话等)的用户以属性组进行保存,网络管理员可从属性这一维对用户进行管理,例如,可通过策略方便实现财务部用户禁止使用QQ等功能。
支持从多个LDAP服务器同时导入用户数据
对于那些拥有多AD子域服务器的网络环境,ICG可同时同步所有AD子域服务器中的用户信息数据,实现全网用户的统一管理。同时,可以自定义LDAP的导入入口。
支持用户对象的快速搜索选择 在用户数量庞大,用户组织结构复杂的网络环境中,管理员在制定策略或查询日志时,按组织关系逐层筛选用户这一操作会耗费大量的时间和精力。
网康ICG可以避免上述问题,在所有用户对象选择对话框中,支持用户搜索定位功能。只要在搜索框中输入要选择的用户组或用户名称,即可直接将该用户或用户组添加到用户对象中。
支持IP/MAC绑定及自动绑定
网康ICG支持二层网络环境和三层网络环境下的IP/MAC绑定。可自动阻塞那些非法占用他人IP地址的用户。此外,系统支持在建立用户时自动进行IP/MAC的绑定操作。
支持免控制与免审计用户
对于在特殊情况下不需要控制或审计监控的用户,网康ICG提供免控制和免审计功能。
1.1.2 用户身份识别与认证
丰富的用户认证方式
网康ICG提供多种用户认证和识别方式,为用户管理提供了灵活而完善的方案,包括基本的IP/MAC绑定、三层网络环境下的IP/MAC绑定、网关Web认证、AD域透明认证、LDAP认证、RADIUS认证、POP3认证、ESMTP认证、SOCKS认证、PPPoE认证账号识别、第三方用户识别。此外,对于使用微软ISA系统的环境,ICG还支持NTLM认证和BASIC认证,实现与ISA的联动。对于每一种认证方式,ICG都支持分段/混合认证。通过规划并部署合适的认证方式,可以把互联网访问管理应用到具体用户,实现基于用户身份的访问管理。
在有些企业,实行规划合理并且严格执行的IP地址分配制度,那么通过IP地址和网卡MAC地址来确定用户身份是可靠的;但是在有些网络环境下,用IP或网卡MAC地址并不能确定一个人的身份,比如DHCP动态分配IP、或多人共用一台设备的时候,就需要其它方式确定用户身份,如网关本地Web认证或第三方认证。
在WEB认证方式下,管理员可以设定并分发统一的初始口令,并定义账号缓存的有效时间,保障用户身份的安全,使用户身份的确定与具体上网设备完全无关。要实现WEB认证,首先需要在网康互联网控制网关中建立用户信息。NSICG支持多种用户信息获取方式,可以通过IP网段地址扫描,自动获取内网用户的IP地址、计算机名、MAC地址信息,也可以通过LDAP同步的方式定期更新用户目录服务器的用户信息,支持RADIUS认证,此外,还可以使用网康自定义用户导入功能,将微软Excel表格整理的用户信息快速导入。
建立用户信息后,按照管理需求,基于网段、权限、行政职能自定义用户组和成员,并且可以在不同用户组之间灵活调整成员用户,最终形成清晰直观的树型组织结构。这样就解决了“确定用户身份”的问题,并为基于用户或用户组制定策略和统计报表奠定了基础。
支持认证界面自定义发布信息
使用网康ICG的web认证界面登录时,管理者可以自定义登录界面的信息。在登录界面有专用的窗口用于展示发布信息的标题和内容。同时,登录界面的图片也可以有管理者自定义设置和变更。
支持混合认证
网康ICG支持多种认证方式的混合,可方便为不同的网段开启不同的认证方式,实现不同用户群的差异化管理;同一网段用户也可同时开启多种认证方式,方便用户在不同的应用环境下都可以认证入网。
支持邮件用户识别
对于拥有独立企业邮箱的网络环境,ICG支持POP3用户识别,用户入网无需认证,只要通过POP3协议接收一封邮件,ICG即可将邮件账号名记录下来,该用户所有互联网行为都可实名制记录下来,便于日后日志的查询、定位。
支持计算机名识别
网康ICG支持根据内网计算机的计算机名识别,用户入网无需认证,网康ICG能够自动扫描每一个入网计算机的计算机名并将其作为用户账号记录下,在该计算机上发生的所有网络访问行为将记录在其计算机名下。
支持强制下线
网康ICG支持WEB认证、LDAP认证、RADIUS认证、邮件账号认证、IP识别用户的强制下线。
使用者也可以随时将活跃用户列表中的IP加入“屏蔽IP列表”中。 支持认证账号有效期限制
对于一些需求临时入网的用户,管理员可通过该功能限制这些用户可以入网的时间范围,超出限定范围后,该用户无法再入网。一方面提高准入用户的安全性,另一方面可实现入网限时的功能。
支持认证账号唯一性控制
网康ICG支持认证账号唯一性控制。这一功能可以方便控制同一认证账号是否允许在多台计算机上同时登陆。从而适应不同用户的认证需求。
支持认证账号黑名单
对于行为异常的认证账号,网康ICG支持将其加入到认证账号黑名单。未经管理员将其从黑名单中清除,该账号将无法通过认证。
支持第三方认证信息联动接口
网康ICG提供标准的第三方用户认证信息联动接口,可以接收来自第三方网络准入系统或上网计费系统的用户认证信息。从而将上网行为日志准确关联到具体的用户,并实现用户在多认证系统环境下的单点认证。
登录重定向
用户行为数据 篇3
关键词 图书馆 读者访问 数据挖掘 行为分析
分类号 G252
DOI 10.16810/j.cnki.1672-514X.2016.10.017
Analysis and Application of Public Library User’s Behavior Based on Big Data
Shi Yeming
Abstract Under the development of information technology, the public libraries face the increasing needs of readers. They need to be able to understand and master the readers’ interests and reading characteristics in time. In this paper, through analyzing the source and characteristics of various types of user behavior data, it expounds the purpose and significance of the reader’s behavior analysis from the aspects of library service efficiency, personalized service and the innovation of management mode.
Keywords Library. Reader access. Data mining. Behavior analysis.
信息技术发展的背景下,公共图书馆面对日益增长的读者需求,需要能够及时了解并掌握读者的兴趣爱好及阅读特征情况,在为读者提供服务的过程中能够精准的、能够主动的引导读者需求。如果将每位读者的个体行为通过数据挖掘技术进行分析,可以为服务质量的改进提供第一手的参考资料。目前,基于数据挖掘技术的行为分析在图书馆行业的关注度最近几年呈上升趋势,本文拟就图书馆的读者行为进行相关数据的归类分析,并在行为分析的基础上探讨其数据分析应用的目的和意义。
1 基于数据挖掘技术的图书馆用户行为分析
图书馆用户行为分析,是指在获得图书馆用户新型多结构数据的情况下,对相关数据进行交叉融合分析,建立关联数据模型,预测用户行为,从中发现用户访问图书馆资源的规律,并将这些规律与服务策略等相结合,以发现服务过程中存在的问题,并为进一步优化服务提供数据和建议,从而改进服务方式。
1.1 数据分析方法
基于数据挖掘(Data Mining)的读者行为分析,在处理过程中会应用到语义分析技术、图文转换技术、信息感知技术、GIS技术等手段,并依次按数据采集、规律探索、规律形成三个阶段进行处理,最终将某些规律尽可能以可理解的方式表现出来。在处理数据过程中,并非所有的信息发现过程都被视为数据挖掘,例如利用搜索引擎进行信息检索时,虽然这些检索任务会包含内在的复杂算法,但是它们还是基于传统的计算机技术实现信息的检索与关联,与数据挖掘的真正含义还是有所差别[1]。
1.2 数据的来源
读者行为分析就是指对读者访问数据的行为分析。读者访问的数据产生于图书馆服务系统中,包括机构信息化系统与数字服务平台。从数据的属性来看,产生的数据存在于基础性数据和运行数据两大部分。图书馆基础性数据是指图书馆的设施设备、服务资源、人员、用户基本情况等数据。图书馆运行数据是是指基础性数据中的某些要素发生服务或使用关系时产生的服务数据与行为数据,包括图书馆传统业务与管理数据,图书馆数字与信息服务数据,图书馆各类传感器和监控设备数据。
1.3 数据处理方法与步骤
数据收集常常通过Chukwa、Flume、Scibe等工具,而在数据挖掘过程中可能会用到Pagerank、CART、K-means等很多算法,并借助于SPSS、SQL、EXCEL、互联网统计等多种工具进行数据处理。数据处理过程有数据预处理、数据降噪、数据筛选、数据转换、数据合成。数据预处理和降噪是将大量的原始数据中没有利用价值数据去除,并对部分数据进行“修补”,在数据的筛选和转换中,需要建立关联规则,用来揭示数据间联系,并提炼出有内在关系的数据组,从中找出有价值的信息[2]。
2 基于数据挖掘技术的读者行为特征
在处理大量的读者访问数据信息过程中,主要通过下列一些常见指标来分析访问图书馆的读者行为特征[3]。
2.1 读者访问时段分析
读者访问图书馆可以访问实体馆和网络图书馆。对于读者访问实体馆数据,通过视频捕捉来统计实时到馆人数,网络访问量则通过计算机系统实现。网络访问量指标有单位时间内的浏览量(PV)、访客数(UV)、IP数、跳出率、平均访问时长。这些指标可以进行排列组合,统计时间可以定制为每日、每时,统计分析粒度按处理需求可设置为一日、一周、一月。如此我们便可以取得读者不同时段对于图书馆实体和网络访问情况,不仅仅局限于原先的特定对象在单位时间内的访问结果。这对于图书馆管理者来说,不再是了解大概的访问情况,完全可以了解到一天中每个小时内的访问情况,合理安排图书馆开放时间,并在不同时段进行精细化管理。
2.2 互联网访问特征分析
nlc202309081716
对于网络访问图书馆,我们可以通过数据分析来查看网络访问来源的具体细节。在数据分析中选择“转化目标”后,按来源可划分为直接域名访问、搜索引擎、外部链接等类型。读者通过搜索引擎访问主要有baidu、360搜索、Google、Bing、搜搜等,目前从统计结果看通过baidu搜索图书馆网站后点击访问比例最大,占比达80%,这与网民的使用中文搜索引擎情况相一致。读者在访问网络时所运用到的浏览器大致依次为IE、Google chrome、Firefox等类型。从目前的统计结果来看,访问图书馆网站的使用PC的读者占多数,而使用手机、平板等移动浏览终端的只占极少数。如将来图书馆不断扩大受众面,并迎合读者的移动阅读趋势,可以大力发展手机图书馆、移动版图书馆网站来满足读者这一方面的需求。
2.3 访客地域分析
从访客的来源分析可以得到主要用户群的地域分布,一般从网络和实体两个途径进行统计。统计网络访问数据,设置的最小区域单位为省份,并以表单形式呈现读者所在的省份,如对南京图书馆网站访问数据分析,得知2016年上半年,来自江苏本省内的读者访问量最多,占89.36%,其次是北京,占1.79%。这样从统计结果表明,南京图书馆的网络用户主要分布于省内各地,对全国的辐射能力还是有限的。实体数据统计是根据读者办理借阅证的注册信息获取,如统计数据后发现在到馆读者中,南京图书馆所在地的附近居民和南京所在的各大学的学生居多,因此随着暑期的到来,南京图书馆就要意识到学生族会剧增的到馆量,要在这一时段做好应对措施。
2.4 访客特征构成分析
每一位访问读者都有其性别、年龄、职业、学历等常规属性,除此以外,读者的兴趣、爱好、专业、从事课题,以及借阅图书情况等属性也是读者特征构成的不可或缺的部分,图书馆应根据读者的不同构成属性提供相关服务。如对南京图书馆访问读者进行统计,其结果是以男性居多,年龄分布以20-39为主,学历水平多在本科以上,职业分布以教育/学生、IT从业人员较多,这说明南京图书馆的读者知识构成相对较高,那么在提供服务中应侧重于满足文化层次相对较高的年轻人的知识信息服务,不只是满足简单的借阅需求服务。
2.5 忠诚度、新老读者比例分析
读者到馆访问量大、浏览网站次数多、频率高等可以反映一个图书馆资源情况,也可以反映出一个图书馆的服务水平。图书馆网站的可读性、易用性、稳定性、互动性等方面若具有较高的水平,可以提升读者的“忠诚度”,访问时就会浏览多个页面。在对某些图书馆网站进行数据统计时,浏览一、二页的读者占绝大多数,说明忠诚度不高,也就表明图书馆网站存在着这样或那样的不足,或者是网页设计上存在易用性差现象,或者是网站资源内容不够丰富。图书馆应及时对网站进行改版,让读者在访问时更容易获取到想要的资源。如南京图书馆网站目前只有一个入口,一方面在网站首页提供了很多馆内信息,同时也链接了很多馆外信息资源,这样由于链接层次较深,就会导致读者没有足够的耐心寻找下去。作为公共图书馆,既要留住老读者,又能吸引新读者,就要能够产生粘滞性。如果读者粘滞性较高,说明图书馆服务质量较高;如果新访客占比较多,则说明需要进一步提高和改善服务质量和水平。
2.6 电子资源监控统计分析
目前,电子资源在图书馆馆藏资源中增速极为迅猛,访问量也在迅速攀升。如何科学、全面、精细地满足读者对各类电子资源的需求?图书馆需要不断地对馆藏电子资源的访问状况和使用价值进行相关的会话分析和模型分析,乃至进行正确合理地科学评价,这样才能为图书馆优化、购买馆藏电子资源提供科学决策支撑。对于访问量大的数据库,要积极地联系数据库厂家及时更新资源内容,并扩大访问席位。另一方面对于访问量少,但具有使用价值的数据库要扩大宣传,或延伸其访问IP地址,尽可能地让用户知晓并加以利用。确实因质量或内容不符的数据库要立即停止购买,以节省图书馆的资金。
3 读者行为分析的目的与意义
在互联网浪潮发展趋势下,现在整个社会都在讲创新与转型,谈“互联网+”的概念,同样图书馆也不能置身事外,要积极的融入社会变革的大潮。用创新的思维和独特的理念,塑造新时期下图书馆发展的新业态[4]。就此,基于大数据背景下的图书馆通过数据挖掘对读者行为分析的目的与意义,笔者认为是要达到以下几个方面。
3.1 利于智慧图书馆的建设,以提升服务质量和工作效能
大数据分析可以将数据库中类似属性的数据进行关联分析,找出共同特性,从而为群体提供分类信息,为个体提供个性化、智能化信息。这样就有针对性的满足了个体和群体的需求,较以往的方式有了质的飞越。技术的进步正在让人类的行为变得可量度、可预测,同时行业的发展也在呼唤这样的技术,区分读者需求差异,识别场景,提炼出个体需求,行为分析技术正是拨云见日的利器。借助于行为分析系统可以帮助图书馆掌握馆藏资源的使用状况和质量,实现资源发展与遴选的科学决策,了解哪些馆藏资源最受读者欢迎,监管用户对资源的规范使用[5]。
3.2 利于个性化定制服务,提升文化品牌知名度
基于用户体验的信息构建从空间上构建了面向用户开展个性化服务的支撑环境、流程和服务框架,这一框架为图书馆定制个性化服务的开展奠定了基础,如根据读者现有的喜好和浏览行为,通过建立模型来匹配与读者的相关信息,推送其感兴趣的知识信息,制定有针对性的服务内容。对信息构建而言,读者的属性信息如性别、年龄、文化程度等特征已经不能体现最大价值,还要进一步分析其他异构的个体信息。构建信息空间时,信息构建应体现个性化特征,形成有针对性的信息集合,并以用户体验为中心,从服务内容到服务风格上以非固态的组织架构来匹配用户的需求[3]。只有这样,图书馆才能从读者的角度出发,更好的提升服务质量,富有效率地满足读者的内在需求。也只有这样,图书馆才能真正地根据实际需求,合理调整资源布置,建设好馆藏资源,提升文化品牌知名度。有社会影响力的文化也是一种软实力,文化品牌也是一种无形的价值。
nlc202309081716
3.3 利于社会化诚信数据库建立,创新服务管理模式
个人征信信息不仅存在于金融行业,对于交通、安全、文化等领域,都会有个人征信的数据体现。图书馆通过对读者的访问原始数据进行挖掘分析,可以详细、清楚地了解读者的行为习惯,同样可建立个人诚信指数,指数较高的个体或年度优秀读者,可以优化其借阅权限和额度。社会化信息资源统一是社会发展的趋势,在将来,个体原始数据必将引入社会化管理范畴中,读者在图书馆获取的征信也可以成为社会征信系统数据的来源。另外,从读者现实需求出发,图书馆可以根据读者的个人阅读倾向、习惯等特征找出服务方式中存在的不足,更好地优化服务措施,提升服务水平和效能,更加精准、有效地满足读者需求,收获更多的社会收益。
3.4 利于图书馆对读者类型的细分、吸纳与维护
图书馆根据读者个体行为进行类型细分,可以使图书馆对不同的个体采取更有效的知识服务策略,提供个性化服务,使双方都受益。
随时间推移,部分读者或因丧失阅读兴趣、或有更好的阅读场所、或无暇阅读等等原因流失,但同时新读者也在源源不断地加入图书馆的阅读体验中。图书馆怎样来继续吸引已有的读者,可采用数据挖掘技术对已流失读者的数据进行分析,如进行一些关联分析找出流失相关的规则,对流失读者群建立决策树模型,然后对活跃的读者进行预测,对可能流失的读者群采取预防措施。具体可在读者类型细分的基础上,进行“一对一”的个性化服务来提高读者的满意度,通过满意的服务来维持住一个相对稳定的读者群[6]。我们通过个性化服务推荐准确度的两个测试可进行验证,在测试1中采用基于用户模式聚类与Mapreduce结合的个性化推荐方法,在测试2中采用基于关联规则挖掘与Mapreduce结合的个性化推荐方法。结果表明,测试1中为图书馆新用户的推荐平均准确度为81%,普通用户的推荐平均准确度为73%;测试2中为图书馆新用户的推荐平均准确度为71%,普通用户的推荐平均准确度为93%。通过数据对比,测试1的图书馆个性化推荐方法适用于新用户,测试2的图书馆个性化推荐方法适合普通用户。因此,图书馆对于新老读者可选择不同的应用方式来满足不同类型读者的需求,提高图书馆的满意度,将吸引并留住更多的读者[7]。
4 结语
通过大数据为核心的行为分析来提供个性化服务是图书馆在互联网变革的大潮中服务创新的利剑。传统的图书馆读者服务模式在信息化时代只有通过创新理念、深化服务手段,在业务创新领域深耕细作,才能在保持传统优质服务的前提下,构建新型图书馆发展生态圈,让图书馆成为区域内的人文中心、宣教中心、创新发源地。
参考文献:
[ 1 ] 李德新.基于数据挖掘的网络日志分析[J].电脑知识与技术,2011(11):6074-6075.
[ 2 ] 王菲.数据挖掘在图书馆用户行为分析上的应用研究[D].上海:上海交通大学,2013.
[ 3 ] 江长斌,陈莉.基于读者行为分析的高校图书馆主动服务研究[J].武汉理工大学学报,2009(3):133-135.
[ 4 ] 谭丹丹.基于读者到馆行为分析的图书馆服务优化策略[J].图书馆工作与研究,2011(1):111-112.
[ 5 ] 刘英梅.大数据时代的信息用户行为分析[J].科技情报开发与经济,2014(5):61-62.
[ 6 ] 陈臣.基于大数据的图书馆个性化服务用户行为分析研究[J].图书馆工作与研究,2015(2):28-29.
[ 7 ] 李仁玲,王建岭.数据挖掘技术在中医院校图书馆读者的行为及研究[J].当代教育实践与教学研究,2016(7):41-42.
用户行为数据 篇4
随着移动技术的快速发展, 移动运营商将重点放在了挖掘用户行为规律, 发现市场的潜在需求。 根据艾瑞咨询公布的数据, 全球移动互联网用户数正呈爆发式增长[1]。 移动互联用户行为分析面临着新的挑战: 移动互联网新业务、 新产品 “ 短、 平、 快” 的特征[2]。 传统的数据分析技术已经无法适应海量数据处理, 构建移动互联网大数据的用户行为分析架构迫在眉睫。
2用户行为分析
用户行为分析主要研究对象是用户的行为。 数据来源包括用户的日志信息、 用户主体信息和外界环境信息。 通过特定的工具对用户在互联网/移动互联网上的行为进行记录, 记录的信息通常称为用户日志。
数据特点:
(1) 大数据量/海量数据, big data。
(2) 实时分析/准实时分析、 离线分析。
(3) 由于用户日志包含大量用户个人信息, 为避免涉及过多的用户隐私, 日志工具通常对用户个人信息进行加密, 不涉及具体用户行为的细节内容, 保护用户隐私。
(4) 日志信息通常含有较多的噪音, 因此, 基于个人行为信息分析得到的结论常常存在着很大的不可靠性。
用户行为分析平台主要面临海量数据处理困难、 分析模型算法复杂、 建设和运营成本高昂等方面的技术难点和挑战。
根据DCCI: 2015-2016年中国移动用户研究报告数据显示: 2015年移动互联网APP月均活跃用户覆盖率TOP10如图1所示。 该图显示了微信、 QQ、 手机百度位于移动客户端前三名。 2015年生活服务APP月均活跃用户规模如图2所示。 该图显示了美团、 大众点评、 58同城位于移动客户端前三名。
3 Hadoop下用户分析平台搭建
Hadoop有3种安装模式: 本地(单机) 模式、 伪分布模式和全分布模式。 本地模式主要是用于开发调试Map Reduce程序的应用逻辑。 伪分布模式在单机模式之上添加了代码的调试功能, 可以运行HDFS, 可以与其他的守护进程交互等功能。 Hadoop集群的运行采用的全分布模式, 下面详细介绍安装过程。
安装环境包括Linux操作系统、 远程登录协议(SSH)、 JDK和Hadoop分布式框架等。 文中大数据平台搭建的实验用机的基本配置: CPU ( Intel-i5), 内存(8G), 硬盘(2T)。 开源软件有: Hadoop (Hadoop-2.2.0)、 Linux (Ubuntu 13.04 64位)、 JDK1. 7。
3.1基础环境
利用Vmware 10.0在一台服务器上搭建的分布式环境, 操作系统Cent OS6.4 X64中配置Hadoop-2.2.0。
3.1.1 Vmware下的安装
集群包含5个节点: 1个namenode, 4个datanode, 节点之间局域网连接, 可以相互ping通。 所有节点均是Centos 6.464位系统, 防火墙均禁用, sshd服务均开启并设置为开机启动。
(1) 首先在VMware中安装一台Centos 6.4, 创建hadoop用户。 假设虚拟机的名字为Name Node。
(2) 关闭虚拟机, 把Name Node文件夹拷贝4份, 并命名为Data Node1, ..., Data Node4。
(3) 用VMware打开每个Date Node, 设置其虚拟机的名字。
(4) 打开每个虚拟机, 查看IP地址ifconfig。 现将IP地址规划如下, 如表1所示。
3.1.2规划系统目录
安装目录和数据目录分开, 且数据目录和hadoop的用户目录分开, 如果需要重新格式化, 则可以直接删除所有的数据目录, 然后重建数据目录, 路径如表2所示。 如果数据目录和安装目录或者用户目录放置在一起, 则对数据目录操作时, 存在误删除程序或者用户文件的风险。
3.2 Hadoop集群配置和启动
Hadoop集群配置在namenode上执行: Hadoop用户登录。 下载hadoop-2.2.0 (已编译好的64位的hadoop 2.2, 可以从网盘下载http://pan.baidu.com/s/1sjz2ORN ), 将其解压到/opt目录下。 配置Hadoop的配置文件。
(1) 配置/etc/profile
(2) 配置hadoop-env.sh
(3)yarn-env.sh
(4)执行core-site.xml和hdfs-site.xml
( 5) 配置masters文件, 把localhost修改为namenode的主机名
配置slaves文件, 删除localhost, 加入所有datanode的主机名
复制配置好的各文件到所有数据节点上。
3.3 Hadoop测试
Hadoop测试配置了环境变量, 此处不需要输入hadoop命令的全路径/hadoop/bin/hadoop。 执行后的结果中会提示 “ dfs/ namehas been successfully formatted”。 否则格式化失败。
(1) 启动hadoop: start-dfs.shstart-yarn.sh。 启动成功后, 分别在namenode和datanode所在机器上使用jps命令查看, 会在namenode所在机器上看到namenode,secondary Namenode, Resource Manager。
例:[hadoop@Name Nodehadoop] $ jps
(2)在datanode1所在机器上检查datanode和tasktracker。如果启动失败,检查配置是否有问题。
例:[root@Data Node1 .ssh] # jps
(3) 检查datanode1所在机器, 并查看datanode和Node- Manager。
例: hdfsdfsadmin -report
(4)停止hadoop。
例: ./sbin/stop-dfs.sh
./sbin/stop-yarn.sh
(5) 测试完成。 查看HDFS如图3所示。
http://192.168.1.150:50070/dfshealth.jsp
4结语
移动互联网大数据用户行为分析在基于Hadoop分布式平台上, 以大数据入库为测试对象, 与普通环境下的单机互联网运行进行对比, 结果发现, 移动互联网大数据用户行为分析平台准确、 可靠地完成了用户数据分析, 通过技术优化和关键结构调整, 提高了整体功能的适应性, 保证了系统稳定可靠性。
摘要:随着移动互联网的快速发展,用户行为分析的精确性显得十分重要。给出了移动互联网下大数据用户行为的Hadoop平台搭建方法,介绍了Hadoop集群的构造模块和组件,搭建了Hadoop集群,并进行了测试。
关键词:移动互联网,大数据,用户行为,Hadoop搭建
参考文献
[1]张第,罗晓娜,杨静雯.移动互联网时代的用户上网行为分析浅谈[J].信息通信技术,2014.
用户行为数据 篇5
用户搜索行为
用户之所以会产生搜索行为,往往是在解决任务时遇到自己不熟悉的概念或者问题,由此产生了对特定信息的需求,之后用户会在头脑中逐步形成秒速需求的查询词,将查询提交给搜索引擎,然后对搜索结果进行浏览,如果发现搜索结果不能完全解决用户的信息需求,则会根据搜索结果的启发,改写查询,以便更精确地描述自己的信息需求,之后重新构造新的查询需求,提交搜索引擎,如此形成用户和搜素引擎交互的闭合回路,直到搜索结果已经解决了自己的需求或尝试几次无果而终。
(描述这种用户搜索行为的示意图)
从上述过程可以看出,从用户产生信息需求到最终形成用户查询,中间有很大的不确定性,用户未必能够一开始就找到合适的查询词,即使是找到了,也可能存在查询词不能完全描述信息需求的情形,即在形成查询的过程中存在信息丢失的问题。所以后续循环中的查询改写就是用户逐步澄清搜索需求的一个过程。
用户搜索意图分类
用户发出的每个搜索请求背后都隐含着潜在的搜索意图,如果搜索引擎能够根据查询词汇自动找出背后的用户搜索意图,然后针对不同的意图,提供不同的检索方法,将更符合用户意图的搜索结果排在前列,无疑会增加搜索引擎用户的搜索体验。目前搜索引擎已经部分实现了这种搜索模式,比如用户搜索“北京 天气”的时候会主动将当天的气温等情况列在搜索结果最前面。如图所示,这种方法的一个结构示意图。
(用户搜索意图分类)
Broader将搜索意图分为3个类别
应该将用户意图分为哪些类型,目前并没有明确标准可言,不过很多工作都受到了Broader等人的意图分类工作的影响,他们通过人工分析查询,将搜索意图分为3个大的类别:
1, 导航型搜索
这种搜索请求的目的是要查找具体的某个网址,比如某公司的主页等,其特点是想要去某个网页。
2, 信息型搜索
这种搜索请求的目的是为了获取某种信息,比如“如何做宫保鸡丁”、“美国现任总统是谁”等,其特点是用户想要学到一些新知识。
3, 事务性搜素
这话总搜索请求的目的是为了完成一个目标明确的人物,比如下载MP3、下载软件或者淘宝购物等,其特点是想要在网上做一些事情,
雅虎研究人员在做的细化
Broader的搜索意图三分法非常有影响力,但过于粗糙。而雅虎的研究人员在此基础上做了细化,将用户搜索意图划分如下类别:
1, 导航类:用户知道要去哪里,但是为了免于输入URL或不知道具体网址,所以用搜索引擎查找。
2, 信息类:又可以细分为如下几种子类型。
直接性:用户想知道关于一个话题某个方面明确的信息,比如“为何星星会发光”、“哪些食物隔夜后不能吃”。
间接型:用户想了解关于某个话题的任意方面的信息,比如粉丝搜索“李宇春”。
建议型:用户希望能够搜索到一些建议、意见或者某方面的指导,比如“如何才能戒烟”。
定位型:用户希望了解在现实生活中哪里可以找到某些产品或服务,比如“买电脑”。
列表型:用户希望找到一批能够满足需求的信息,比如“中关村附近的饭店”。
3, 资源类:这种类型的搜索目的是希望能够从网上获取某种资源,又可以细分为以下几种子类型。
下载型:希望从网络某个地方下载想要的产品或者服务,比如“windows7下载”。
娱乐型:用户出于消遣的目的希望获得一些有关信息,比如“电影下载”。
交互型:用户希望使用某个软件或服务提供的结果,用户希望找到一个网站,这个网站上可以查询北京的天气情况。
获取型:用户希望获取一种资源,这种资源的使用场合不限于电脑,比如“折扣券”,用户希望搜到某个产品的折扣券,打印后在现实生活中使用。
写在最后:
移动阅读用户采纳行为研究 篇6
关键词 移动阅读 技术采纳模型 用户采纳
分类号 G252.0
DOI 10.16810/j.cnki.1672-514X.2016.12.014
Research on User Adoption Behavior of Mobile Reading
Mao Ping, Kan Qian, Li Li
Abstract This paper aims at the reading behavior of college students, improves technology adoption model, and designs the measurement model of the user adoption behavior of mobile reading. Then it uses SPSS and VPLS to verify the survey data by structural equation model. The result shows that good reading environment and reading tools such as good network connection and more promotion channels, and the promotion of readers’ mobile reading effect have a positive impact on user adoption behavior of mobile reading.
Keywords Mobile reading. Technology adoption model. User adoption.
0 引言
中国新闻出版研究院发布的“第十三次全国国民阅读调查”报告中指出,2015年我国的成年国民图书阅读率为58.4%,同比上升0.4个百分点,其中数字化阅读方式的接触率为64.0%,同比上升了5.9%[1]。同时,2015年我国国民人均纸质图书阅读量为4.58本,比2014年增长了0.02本,电子书阅读量为3.26本,比2014年增长了0.04本;成年国民手机阅读快速发展,2015年我国成年国民手机阅读接触率比2014年上升了8.2%,达到60%,国民日均手机阅读时长首次超过1小时,达62.21分钟,较之2014年33.82分钟增加了28.39分钟;而在报纸等传统媒介中,成年国民人均每天阅读时间最长为19.69分钟,较之2014年只增加了0.93分钟[2]。该份报告的数据表明:随着技术的进步,国民阅读方式正由纸质阅读向网络阅读再到当下以手机阅读等为代表的移动阅读转变,移动阅读正逐步被国民所采纳。
移动阅读的发展一方面受到移动工具发展的影响,移动工具的更新换代促使移动阅读服务不断发展。同时,用户的采纳和长期使用是移动阅读服务成功的基础,用户对移动阅读的使用态度、采纳程度都深刻影响着移动阅读的发展。基于面向用户的原则,移动阅读服务的发展必然取决于用户的采纳行为,因此研究影响用户对于移动阅读采纳行为的因素,用户对于移动阅读采纳程度以及两者之间的关系,对于移动阅读的发展意义重大。
1 国内外研究综述
国外关于移动阅读的研究主要集中在移动阅读的发展、移动阅读终端的研究以及移动阅读实践的研究。如Magdalini Vasileiou[3]认为e-book市场正在不断地发展壮大,移动阅读设备将会普及应用于日常阅读中;Yoo-Seong Song[4]在线调研了伊利诺伊大学商学院的国际学生,发现在常用的三种移动终端设备(智能手机、平板电脑、电子阅读器)中,最常用的是使用手机进行移动阅读,其次是平板电脑;Kang Yenyu[5]研究电子书的可用性以及用户的偏好,表明阅读电子书比阅读纸质书更容易疲劳,且女性相对男性更有阅读的耐性。
国内对于移动阅读的研究主要集中于用户采纳研究,用户体验研究和用户信息行为研究,主要的研究方法有技术采纳模型(TAM)、IS持续使用模型以及“整合性技术接受和使用理论”(UTAUT)等。王琦、陈文勇以图书馆移动阅读服务内容及推广方式为研究客体,分析归纳出影响大学生图书馆移动阅读服务采纳行为的主要因素[6];杨海军结合心理学以及行为科学的相关理论,对移动图书馆的用户采纳行为的主体、客体、社会三个影响因素进行分析,构建移动图书馆用户采纳行为模型[7];沈思采用技术采纳理论对高校用户移动阅读的采纳影响因素及行为模式进行综述和建模,采用问卷调查数据进行实证研究[8];何希通过网络问卷形式调查高校大学生移动阅读行为,获取高校用户使用移动设备进行阅读的行为习惯,提出影响高校用户移动阅读的主要因素(硬件因素、个人因素和经济因素)[9];刘亚和蹇瑞卿根据威尔逊信息行为模型,从阅读需求、阅读寻求、阅读处理与使用三个阶段,以及干扰和激励因素两个方面,分析大学生手机阅读信息行为的发生、发展及变化规律,探讨大学生手机阅读的特征[10]。
2 理论基础与研究方法
2.1 技术采纳模型(TAM)
技术采纳模型(Technology Acceptance Model,TAM)是由Davis在1989年基于理性行为理论研究用户对信息系统采纳时提出的一个模型[11],早先用于探索对于计算机信息系统普遍采纳的决定性因素,后来逐渐推广到各种研究领域用于探索用户对于系统的采纳行为,是目前比较有影响力的研究模型之一。技术采纳模型认为影响用户采纳行为有两个主要决定因素。一是感知有用性(Perceived Usefulness),用户使用系统时,该系统提升了用户的能力,表现出一定的成果,反映用户认为使用一个具体的系统对其工作业绩提高的程度。二是感知易用性(Perceived Ease of Use),用户在使用系统时自身付出的努力,反映用户认为容易使用一个具体的系统的程度。除此以外还包括:使用行为(Usage Behavior),用户对于系统的实际操作行为;行为意向(Behavioral Intention),用户在面对某种新系统时表现出来使用新系统的意向;行为态度(Attitude),用户在对于新系统使用过程中表现出来的态度等因素。技术采纳模型(如图1所示)主要原理为:行为意向决定使用行为,行为意向由行为态度和感知有用性共同决定,感知有用性由感知易用性和外部变量共同决定,感知易用性由外部变量决定。外部变量主要包括系统特征、用户特征、政策影响等因素,通常表现为技术采纳模型中存在的信念、态度和个人之间的差异、环境限制、可控制的干扰因素等之间建立起一种联系。
nlc202309090513
2.2 移动阅读
移动阅读有广义和狭义两种理解。广义上的移动阅读是指采用移动终端进行的所有的阅读行为,如阅读新闻客户端、报纸客户端和微信、微博客户端,或者通过手机浏览器浏览网站等。狭义的移动阅读指通过移动终端进行固定方向的阅读行为,包括两条途径:第一种是在移动终端上安装阅读软件,如熊猫读书、掌上书城等;第二种为采用专门的电子阅读器,如kindle、汉王、JDRead等,此种方式比较适合追求高质量阅读的群体。本文为基于狭义移动阅读的研究。
2.3 研究方法
本文将技术采纳模型引入移动阅读领域,构建移动阅读采纳模型,研究移动阅读的用户采纳行为。通过做出假设,构造问卷,发放问卷,收集问卷数据,借助统计工具SPSS19.0和VisualPLS对数据进行处理,进行量表的信度与效度检验,然后验证模型,对于移动阅读采纳模型内部要素之间的关系进行研究,形成定量结论,显示内部要素之间的联系,为我国移动阅读的健康快速发展提供参考。
3 模型构建与相关假设
3.1 移动阅读采纳模型
本文基于技术采纳模型,结合移动阅读的特征,将感知易用性确定为影响移动阅读采纳因素,感知有用性确定为移动阅读影响个人程度,行为态度和行为意向则表示为移动阅读采纳程度,将感知易用性、感知有用性、行为意向和行为态度作为移动阅读采纳模型的四要素,从而构建移动阅读采纳模型,如图2所示。在技术采纳模型中,感知有用性表示用户采纳一个具体的系统对其工作业绩提高的程度,在本文所构建移动阅读采纳模型中,将感知有用性理解为用户通过移动阅读对自身的阅读水平、写作能力等的提高;在技术采纳模型中,感知易用性表示为用户感知接受新事物所付出的努力程度,在本文所构建移动阅读采纳模型中,将感知易用性理解为影响用户移动阅读采纳行为的因素;行为态度表示用户对于采纳移动阅读所持态度;行为意向表示用户采纳移动阅读的意向。
同时,基于行为态度,提出用户是否愿意为移动阅读付费和利用移动阅读打发时间两个变量;基于行为意向提出是否同意移动阅读提高国民阅读水平和冲击传统阅读方式两个变量。
图2 移动阅读用户采纳模型
3.2 条件假设
基于移动阅读采纳模型,提出以下相关假设:
H1:感知易用正向作用于感知有用,提出该假设是为了探究影响移动阅读采纳的因素是否对于移动阅读效果具有正向影响;
H2:感知易用正向作用于行为态度,提出该假设是为了验证影响移动阅读采纳的因素是否对与用户采纳移动阅读的态度方面具有正向影响;
H3:感知有用正向作用于行为态度,提出该假设是为了验证通过移动阅读个人所取得的效果是否对于用户采纳移动阅读的态度具有正向影响;
H4:感知有用正向作用于行为意向,提出该假设是为了验证通过移动阅读个人所取得的效果是否对于用户在采纳移动阅读的意向方面具有正向影响;
H5:行为态度正向作用于行为意向,提出该假设是为了验证用户对于移动阅读所表现出来的态度对于移动阅读行为意向是否有正向影响。
4 问卷设计与调查
本问卷在参考相关文献问题设置的基础上,设计问卷初稿,对问卷实施预调查,根据预调查结果对问卷进行调整优化,主要以在校大学生为调查对象,从大一到大四都可以参与调查,专业不限,力求数据科学、合理。问卷收集采用网络发布问卷和线下发放问卷相结合的方法,并且为了不泄露隐私,问卷一律采用匿名方式发放。
问卷内容根据图2的模型进行设置,包括三大模块共18道问题。
(1)基本信息模块。包括大学生的年级、性别以及经常用哪种移动工具阅读(手机或平板电脑)。
(2)量表模块。采用LIKERT五级量表法设置测量项[12],其中:1=很不同意,2=不同意,3=一般,4=同意,5=很同意。感知易用性考虑四点因素:用户的阅读习惯、推广渠道、网速以及阅读内容的好坏。感知有用性考虑四点因素:书面阅读能力提高、写作能力提高、语言交流能力提高和丰富了生活。构建量表,用户根据自己的理解进行打分,具体量表内容如表1所示。
根据该量表,本文将基于感知有用、感知易用、行为态度、行为意向四个研究因子,对这些因子提出测量度内容,进行收集数据,建模分析,验证假设。
(3)相关策略模块:该模块设置了两个问题,用于探索用户移动阅读采纳行为的原因以及相应策略。
5 数据整理与分析
5.1 样本构成
本次研究问卷共设置了18道题目,共计发放问卷500份,回收了问卷450份,剔除了68份无效的问卷,有效样本共382份,问卷的有效率为85%,达到了样本收集目标。样本的个体特征样本统计结果如表2所示。
从表2可以看出,本次收集的样本,从性别来看:女生数量高于男生数量,从女性比男性更具阅读的耐性,更喜爱阅读的角度分析,统计结果符合实际;从年级分布来看,本次调查的学生主要集中在大二、大三和大四,其中大四学生最多,大四课程相对较少,学生空闲时间相对较多,可用于移动阅读的时间也更多;从经常使用移动工具来看,手机占绝大部分,基于目前手机的普及率,这也与实际相符合;从阅读频率来看,大学生的阅读频率较高,从侧面反映出,大学生总体阅读水平良好。总之,从上述样本可以看出,本次研究的对象将主要集中在即将大三和大四的学生之间,以手机为主要阅读工具,进行探讨分析大学生对于移动阅读的采纳行为情况。
5.2 问卷效度与信度分析
问卷内容包含一个里克特量表模块共12道问题,在进行建模分析之前,为了确定数据的有效性和稳定性,需要对量表模块所收集的数据进行信度与效度分析,本文采用SPSS19.0来进行信度与效度分析。
5.2.1 问卷信度分析
nlc202309090513
信度可以用来验证量表数据的可靠性,量表的信度高表明量表趋于稳定,该量表的调查数据就越有用。信度具有很多分析方法,最具代表性的就是克朗巴哈系数法(Cronbach's Alpha),Cronbach's Alpha系数的值越大,表明变量内部的相关性越大,即内部一致性程度很高。通常情况下,Cronbach's Alpha系数越接近于1越有效,而Cronbach's Alpha系数的值控制在0.8~0.9之间为非常稳定,在0.7~0.8之间为比较稳定[13]。本次研究是利用统计软件SPSS19.0对调查问卷中设计的量表进行可靠性分析,分析所得到可靠性统计量如表3所示。
由表3可知,本次问卷调查的量表模块的Cronbach's Alpha系数大于0.7,即该问卷量表的信度比较可靠,适合用来作为研究数据。
5.2.2 问卷效度分析
效度表示在测量过程中所能达到测量目的的程度。量表的效度通常可以采用因子分析来进行,要判断量表是否能够进行因子分析,首先要求对量表进行KMO和巴特利球形检验。KMO值一般介于0到1之间,越接近1,越合适用来进行因子分析。一般来说,KMO值大于0.6,巴特利球形检验统计量的Sig值小于0.05时,即达到显著性水平,可以进行因子分析。本次研究的数据结果如表4所示。
由表4可知,本次问卷调查的量表模块的KMO值大于0.7,而且Sig值小于0.05,表明,该量表可以做因子分析。
从上述信度与效度的分析结果来看,通过问卷调查收集的数据是稳定的,并且具有一致性,适合用来验证移动阅读采纳模型。
5.3 统计分析
通过采用数据统计软件VisualPLS进行结构方程分析,将经过效度与信度检验的数据导入软件中,然后根据移动阅读采纳模型构造概念模型,并建立关联关系,将各测量因子与测量项的数据相对应,运行得出相关结果,根据因子载荷系数、结构变量之间的总效应、路径图、还有相关假设的T统计量来得出结论。
5.3.1 因子载荷系数
载荷因子(Facter Loadings)表明测量项对其相关联的结构变量说明的程度。总的来说,当该模型的所有测量项的载荷系数均大于0.6,表明此模型是比较有用的。通过使用统计软件VisualPLS对经过信度与效度检测的数据进行分析,观察分析结果看到因子载荷系数,由于测量项较多,必然会出现一些没有用的测量项,经过对测量项的整理,剔除载荷系数小于0.6的测量项(A16),得到如表5的因子载荷系数表。
由表5可知,通过剔除无效的测量项,最后剩下的测量项的因子载荷系数都大于0.6,而该结果表明:将有效的数据用来验证移动阅读概念模型得出该模型是有效的。
5.3.2 结构变量路径图和总效应
(1)结构变量之间的路径图。根据分析软件计算所得出的结果,如图4所示为结构变量之间的路径图,即各测量因子之间的数据关系。
(2)结构变量之间的总效应。根据结构变量之间的路径关系,可以得出结构变量之间的总效应,如表6所示。
(3)结构变量因果关系假设验证。根据统计软件VisualPLS计算出的T值,检验模型对各个变量所做的关系假设。通常情况下,当P>0.05时,|T|大于1.96时,可以认为假设成立。反之亦然,结果如表7所示。
根据表7的结果显示,H2的|T|值小于1.96故该假设被拒绝,可以剔除“感知易用→行为态度”这条路径。而其他四项假设的|T|值均大于1.96,表明假设均成立,由此可以得出新的结构变量路径图,如图5所示。
图5作为改进后的结构变量路径图是本次研究的最终路径图,而所提出的假设也得到了验证,可以得出相关结论。
6 结论
根据上述分析结果可以得出以下结论。
(1)从感知易用正向作用于感知有用来看,感知易用对于感知有用的效应是0.379,说明采纳移动阅读影响因素的积极方面对于移动阅读效果的提升具有较大的推动作用,好的网速、较多的推广渠道及良好的阅读环境和工具是比较重要的。
(2)从感知有用正向作用于行为态度来看,感知有用对于行为态度的效应是0.568,表明读者移动阅读效果的提升在很大程度上有助于提升用户的移动阅读态度,使得用户对于移动阅读表现出更加积极的态度。
(3)从感知有用正向作用于行为意向来看,感知有用对于行为意向的效应是0.389,表明用户使用移动阅读所取得的效果对用户采纳移动阅读的意向具有一定的影响,感知有用对于移动阅读采纳行为意向有积极推动。
(4)从行为态度正向作用于行为意向来看,态度决定行为具有科学性,当读者进行移动阅读行为,并从移动阅读中提升自身能力的同时,用户对于移动阅读的态度也会发生转变。当读者持有积极态度时,进行移动阅读的行为意向也会表现为积极的一面,这样读者的阅读行为会更加容易发生。
综上所述,影响用户对于移动阅读采纳行为的因素包括客观因素,如网速、推广渠道、个性化定制等;还包括主观因素,如用户的心理因素、阅读内容取向、阅读习惯等。通过移动阅读可以达到一定的积极效果,如通过移动阅读,读者打发了时间,学习了知识;通过移动阅读,读者更愿意与人交流,读者的语言交流能力和话题度明显在增多。当读者感觉到通过移动阅读带来的积极效果时,读者会更加愿意去采纳;当影响因素表现出积极趋势,用户的采纳程度也会随之加大力度。反之,当各种因素都呈现消极趋势时,用户的移动阅读采纳程度也不会有多高。移动阅读服务提供商可在以上几点多下功夫,吸引更多读者采纳移动阅读。
参考文献:
[ 1 ] 北京本地宝.2015第十三次全国国民阅读调查统计数据[EB/OL].(2016-04-20)[2016-04-26].http://bj.
nlc202309090513
bendibao.com/news/2016420/222956.shtm.
[ 2 ] 黑龙江日报.全国国民阅读调查:手机阅读达六成微信成首选[EB/OL].(2016-04-20)[2016-04-26].http://news.cssn.cn/zx/zx_gjzh/zhnew/201604/t20160420_2
976627.shtml.
[ 3 ] VASILEIOU M, HARTLEY R, ROWLEY J. An overv-
iew of the e-books marketplace[J].Online Information
Review,2009,33(1):173-192.
[ 4 ] SONGY S, LEE J M. Mobile device ownership among
international business students:a road to the ubiquitous library[J].Reference Services Review,2012,40(4):574-588.
[ 5 ] KANG Y Y,WANG M J, LIN R T. Usability evaluation
of e-books[J].Display,2009,30(2):49-52.
[ 6 ] 王琦,陈文勇.大学生对图书馆移动阅读服务的采纳行为及对策分析[J].科技情报开发与经济,2014(19):3-5.
[ 7 ] 杨海军.移动图书馆用户采纳行为的模型构建[J].图书馆学刊,2015,37(5):21-24.
[ 8 ] 沈思.高校用户移动阅读采纳模型研究[J].图书馆学研究,2013,22(03):80-83.
[ 9 ] 何希.移动阅读及其用户行为研究[D].重庆:重庆大学,2014.
[10] 刘亚,蹇瑞卿.大学生手机阅读行为的调查分析[J].图书馆论坛,2013,33(5):97-101.
[11] DAVIS F D. Perceived usefulness,perceived ease of use and user acceptance of information technology[J].MIS Quarterly.1989,13(3):319-340.
[12] 徐新雨.基于UTAUT模型的移动图书馆用户采纳意愿实证研究[D].西安:西北大学,2014.
[13] 刘鲁川,孙凯.移动出版服务受众采纳的行为模式:基于信息技术接受模型的实证研究[J].国际新闻界,2011,33(06):104-111.
毛 平 南京理工大学泰州科技学院计算机系讲师。江苏泰州,225300。
阚 倩 南京理工大学泰州科技学院学生。江苏泰州,225300。
李 莉 南京理工大学经济管理学院教授。江苏南京,210094。
(收稿日期:2016-07-07 编校:曹晓文)
用户行为数据 篇7
1 校园卡的形成与发展
1.1 校园卡形成的背景
校园卡的形成正是基于数字化的现代信息化技术社会下, 建立在高校数字化建设的基础上。现阶段的发展情况是, 大多数学校都已经实行数字化管理, 利用计算机技术、多媒体技术等先进技术参与学校的经营管理, 将学生的学习、生活、教学等工作看做一个整体, 对其中涉及的资源进行统计、整合, 以此来了解学生的生活作息习惯, 对其进行系统化的分析, 更好的为学生进行服务提高学校的服务水平。
1.2 校园卡的形成
校园卡的形成是校园数字化建设过程中最核心的组成部分。它具有身份认证、刷卡消费、数据管理等多种职能, 可以将学生信息有机的结合起来, 使其成为一个整体。管理者可以通过校园卡的使用状况了解学生实时的以及历史的使用状况, 其功能已经不只局限于刷卡消费之上。而是更多与信息管理相结合, 不再进行单一的消费结算功能, 而是通过智能化的芯片技术进行学生的活动管理。这就使学生卡成为一种能够以组合方式为学生提供综合性服务的工具, 在简化学生们的生活作息方式的同时, 以科学的手段对学生的学习生活活动进行监督管理。提高学生的生活质量, 促进学校的科学管理水平。
1.3 校园卡的建设
校园卡作为一种综合管理学生行为的工具, 目前已经被大多数学校投入使用。校园卡的建设以“集中控制、信息管理”为理念, 在整个系统的设计中, 将各种信息模块进行整合, 实现信息资源的集中收集, 并将其集中整合到互联网中, 利用计算机技术对其进行保管与整合。并且建立安全统一的数据库, 保证信息的存放以及采用渠道的安全, 实现安全管理、安全传输。但是随着网络技术的弊端逐渐显现, 以此在管理的过程中要加强监督。校园卡的建设必须与所在高校的实际发展状况以及其他高校的相关信息相结合, 通过安全的资源管理系统进行存放, 实现高校资源的集成与共享。为了保证校园卡的信息化管理能够充分适应学校的发展状况, 因此要做好相关的管理与控制工作, 避免不必要的支出, 提高校园卡的数字化建设程度, 安全的进行高校间的资源共享。
2 校园卡数据
2.1 数据的产生
校园卡作为一种综合的信息记载工具, 有着身份认证、刷卡消费、数据管理等多种职能, 可以在不同的场合产生不同的功能, 这就促使了数据的产生。学生对于校园卡的每一次刷卡使用, 便会产生一组信息数据, 它记载着使用的时间与地点。各种数据的集合便形成了完整的数据库, 记录着每一位学生、该学生的每一次刷卡活动的相关信息。在该数据库里便可以对信息进行查找以及使用。
2.2 校园卡的数据管理
数据库相关数据包含着整个校园中学生、教师、以及其他业务系统中的相关信息, 其庞大的系统组成要求管理者必须加强对其的监督。它的安全运行能够保证校园内相关重要信息的安全运行的必要保证。这就要求对数据库要采用严格的加密技术以及准入技术进行管控, 使得系统运行有足够的安全装置进行保障;另外, 数据的安全传输也是管理的关键, 因为系统内会存放与学校相关的重要信息。这就要求数据的传输必须在安全的网络环境中进行, 要与外部网络进行绝对的隔离, 同时采用各种防护手段保证信息传输渠道的安全, 防止不法分子盗取信息;数据修复功能也是一种必备功能, 它能保证数据库在运行中对突发状况数据资源产生的不利影响降到最低, 防止信息的损害以及丢失。并进行相关备份工作, 把系统问题为数据库带来的损失降到最低, 维护系统运行的稳定。
3 校园卡功能对用户数字行为轨迹的研究
3.1 消费行为
消费行为是校园卡最主要的管理职能。校园卡内部的IC芯片, 对相关人员的消费行为进行记录与管理。消费行为是校园活动中最主要的组成部分, 在学校的经济活动中占有很大的比例。数字化的管理手段将各种分散的消费行为进行合理整合, 在有效提高校园的治理水平的同时, 也大大简化信息整理的手续, 提高后勤工作部门工作的质量。这种规范的信息化管理手段, 还同时为学校部门的决策提供数据支持, 提高了管理水平, 保证学校管理的准确性与科学性。比如, 通过调查我们了解到, 普通大学生在除去各种特殊消费的前提下, 综合平均计算, 每人每月大致需要1000元—1500元的生活费。那么, 学工管理者在进行学校奖学金金额以及等级确定的时候可以以此为依据之一, 制定出一套合理的奖学金评定管理制度。
3.2 身份认证系统
3.2.1 身份识别
校园卡的身份认证系统通过统一的认证机制将信息统一识别, 对于不符合系统的信息一律不通过。其运用先进的芯片技术, 通过统一的认证机制进行准入、门禁、考勤等重要工作的控制。同时将此系统与计算机技术相结合, 将信息资源运用科技手段进行管理, 实现对校园卡使用者身份的安全识别。
3.2.2 门禁系统
门禁系统是对进出校园、图书馆、寝室等重要地区的人员实行准入制度, 通过芯片内记载的信息对持卡者的身份进行识别, 保证校内重要场所人员管理的安全性。它用过实行严格的准入制度, 防止不法人员的进入对校园系统进行损害, 提高系统管理的科学性。
3.2.3 考勤管理系统
考勤管理系统以科学的管理手段, 监督学生的出课情况以及教工的出勤状况, 以考勤结合教务课程的安排, 为系部和学院相关人员提供实时的有价值的数据。运用科学的管理手段对其进行管理, 以信息化的手段进行监督, 有效提升学生、教工的学习以及工作效率。
4 结语
科技化管理手段的不断增强, 就要求学校不断深入信息化的管理, 利用信息化提高学校资源管理工作的效率。校园卡的使用能够在很大程度上保证校园信息资源的快速整合, 保障智慧校园建设的顺利实施。合理的构建用户的数字行为轨迹, 为数据的深度挖掘积淀了丰富的数据资源, 以此推进了我院校园信息化建设的进程。
摘要:在信息化高速发展的今天, 网络技术越来越多的应用到人们的生产生活中。校园作为一个为社会服务的大型组织, 也在积极的顺应社会发展的潮流, 紧跟随现代化的步伐。在学校的管理中增加许多现代化的技术手段, 这些手段的实行, 正在不断的改善学校的经营管理。校园卡是学校数字化建设的关键环节之一, 能够通过有效的资源整合来减少资本投入、提高学校的服务管理水平。本文通过对校园卡的形成、管理相关内容的学习, 来进行校园卡对于构建用户数字行为轨迹内容的研究。
关键词:信息化,校园卡,数字,行为轨迹
参考文献
[1]李向龙, 杨贵福.利用校园卡数据构建用户数字行为轨迹的研究[J].信息系统工程, 2015 (11) :120-121.
用户行为数据 篇8
一、数据的产生
校园卡作为一个实物载体, 具有金融消费和身份识别两个基本功能, 可以在多种场合使用, 校园卡的每一次使用, 都会产生一条有效的包含有使用地点和时间戳的数据, 每一条刷卡记录的集合最终构成了一个应用系统的完整数据集, 从数据库中我们可以查询出任意一个人的全部刷卡记录。
二、数据的抽取
下图是从智能门禁系统的数据中查询到A的刷卡记录, 将数据存储为excel格式后, 用折线图形式表示出来就可以得出A在门禁系统中的横向行为轨迹, 如图1所示。
从图中可以看出A在门禁控制器中记录下来的出入行为。
图2是从消费系统中查询到的A的刷卡消费记录, 将数据存储excel格式后, 用折线图形式表示出来, 就可以得出A每天的刷卡消费时间和地点。
图3是从图书馆系统中查询到的A进入图书馆的刷卡记录, 从图中可以看出每天进入图书馆的次数和进入时间。
图4是从网络认证系统查询到的A的上网记录明细, 利用折线图显示后可以看出每次上网的时间和上网的持续时间。
三、数据的横向串联
将以上各系统中的数据按照时间排列并存储为excel之后, 结果如表1所示:
根据以上数据集合, 将其明显是连续刷卡行为的数据剔除后, 利用excel生成折线图之后可以清晰的呈现A在一周之内的全部数字行为轨迹, 如图5。
四、结果的应用
用户数字轨迹中可以很真实的反映一个人的生活习惯和行为规律[2]。如图3所示, 用户的数字轨迹通常由一系列带有时间戳的坐标点组成。每个坐标点包含了时间和地点等基本信息。我们可以根据这些轨迹为用户提供更深入、更个性化的位置服务。
对于每一个利用校园卡的应用, 我们都可以记录并使用其中的数据, 清洗后对其详细分析, 可以得出一个人就餐的规律、学习的规律以及上网的规律等, 根据以上结果, 我们可以建立基于校园卡数据的数字行为轨迹模型, 在校园三维图上立体的呈现一个人的数字行为轨迹, 对于掌握其行踪、分析其生活习惯、了解其爱好等具有极其重要的参考价值。
五、总结
如今校园卡已经辐射了校园生活的方方面面, 基本涵盖了在校师生的衣食住行, 随着校园卡应用范围的扩大, 越来越多的数据被收集并存储起来, 这些庞大的数据为数据挖掘提供了丰富的数据基础和便利条件, 让数据发声, 向数据要“是什么”成为了可能[3]。
摘要:大数据时代已经到来, 各高校信息化系统使用中积累的大量数据正在发挥着作用。本文从校园卡数据入手, 对各类系统中的刷卡数据进行汇总并清洗后, 可以按照时间顺序绘制出用卡者的一系列数字行为轨迹, 从而掌握用卡者的生活习惯和作息规律, 对学校改变管理策略和提升服务水平具有一定的指导意义。
关键词:校园卡,数字行为轨迹,大数据
参考文献
[1]盛杨, 周涛.大数据时代:生活工作与思维的大变革[M].浙江人民出版社, 2013.
[2]薛黎明, 栾维新, 等.数据挖掘在校园一卡通消费数据分析中的应用[C].中国高等教育学会教育信息化分会第十二次年会论文集, 2014, 11.
用户行为数据 篇9
1 云计算技术下的大数据用户行为引擎系统设计
1.1 总体构架
在本次研究中,主要是利用云计算技术的海量数据计算能力,建立完善的移动互联网数据挖掘分析系统,实现对互联网用户行为引擎的分析,并根据用户的上网习惯与行为偏好,为用户提供具有针对性的个性化服务,使数据的采集、分析与服务类型、营销策略能够形成一个统一的有机整体,提升企业的营销效率。另外,云计算系统主要是借助FTP服务器来实现对数据的采集,然后在系统的接口处对数据进行分布式计算以及批量处理,并将这些大数据一并存入Hbase数据库,该系统不仅能够实现海量数据存储,而且对于那些非结构化的数据也能够存储[1]。然后再经过Hive整合层与汇总层EIL处理,利用Ma⁃p Reduce数据分析模型,将处理的结果传入数据库,其系统总体构架见图1 。
1.2 系统拓扑与功能分布
系统的拓扑主要是指将一台服务器作为Hapdoop平台的主节点服务器,其他都作为Hapdoop平台的从节点服务器。一般情况下,从节点服务器可以根据实际需要进行动态扩展,而主节点服务器不仅要将任务与流量分配给从节点服务器,而且还要监督从节点服务器的工作执行情况,由多台从节点服务器共同参与完成任务,能够提升数据处理效率,主节点服务器的软件运行情况如图2所示。
将所有汇聚到系统的移动互联网用户行为数据进行分析,主要借助了Map Reduce用户行为分析模型资源,能够对用户的上网习惯、偏好,甚至包括用户的社会关系进行有效的分析,并提供全面的业务服务,给用户推荐具体的内容。一般来说,从节点服务器与主节点服务器在软件的结构上没有太大的差异,唯一不同的是从节点服务器不具备部署任务以及管理调度的功能[2]。以搜狗公司数据分析为例,根据第三方互联网数据统计机构CNZZ公布的2015年9月的中国网民搜索引擎使用情况统计报告,搜狗搜索的市场份额已经达到15.68%,成为中国第三大互联网搜索公司,其用户行为数据分析格式如表1所示:
2 用户行为分析大数据入库组件设计
通常,对移动互联网用户的行为分析引擎的数据主要是通过应用平台数据与DPI数据两个渠道获取的,这两个数据源有着明显的不同。首先,应用平台数据比较集中,在一个访问行为表中就能够完整的呈现,每天表现为一个文件,且文件的大小以GB分级;DPI数据则是众多分散的小文件,这些文件一般都不超过10MB,其最重要的一个特点就是文件的来源特别快,平均每2min就能够接收到多个新文件,大约一个省一天可收集到1TB左右的数据量,效率极高。针对这两种数据源的特点,分别采取了不同的设计方案。在获得用户访问基本数据信息的情况下,对这些数据进行统计分析,能够从中获取用户行为的基本特征与规律。采用Hadoop平台的用户行为分析系统对搜狗实验室提供的搜索引擎日志数据集进行分析处理,源文件大小共4.4G,行数为43545444行。用户查询关键词的排名、点击URL排名以及用户搜索记录、时间段等用户行为特征都能够有效的呈现出来,详见表2。
2.1 应用平台数据入库
该平台主要采用的是批量入库的方式,每天进行一次数据入库,文件的大小一般为GB级。通常对于大型数据文件多采用Hadoop平台进行入库,然而经过实践证明,Map Reduce分布式处理Hbase入库效率普遍不高,因此,可对这一系统进行优化处理,在Map Reduce分布处理的基础上,进而实行批量入库处理。在Hadoop系统应用过程中,多使用Text Input Format,其在map中多显示的是文件的单行记录[3],因此,可采用NLine In⁃put Format类使其能够在Map REduce中实现批量入库,在这种系统的支持下,每个分片都会留下N行记录,然后通过适当的参数配置,实现每次可读取N行记录,进而在map中行批量入库的相关操作,能够在一定程度上提升数据分析的效率。
2.2 DPI数据入库设计
DPI数据入库主要针对的是大量的小型数据文件,这些文件尽管所含数据量不大,但是数据来源的频率特别高,对这些文件的处理有中方式。首先,可采用Sequence Files软件将这些小文件进行压缩打包,在文件打包的初期就要采取措施降低小文件的数量。然而,对其读取却会受到一定的限制,无论是Ha⁃doop shell软件还是Map读取软件,都很难实现对数据的灵活读取。而采用HAR软件对小文件进行归档,这尽管能够在一定程度上减少小文件的数量,却仍然达不到数据的灵活读取,这很大程度上是由于HAP软件的读取性能较低。另外Hadoop append系统尽管能够将这些小文件追加到同一个文件中,然而,这些小文件的大小千差万别,且数据来源频率广,有峰值与低谷之分,因此,对这些数据的控制也较为繁琐。除此之外还有Flume、FLume NG以及Scribbe系统,这些系统能够对中间层的数据进行处理,有效降低小文件的数量,然而这两者传输与压缩文件功能不强,具有一定的缺陷。由此可见,以上这4 种方式都不能实现数据文件的有效处理,因此,要对DPI数据的特征进行科学分析,对Combine File Input Fornt进行有效继承,将数据的分片大小进行设置,以便实现Create Record Reader,这种方式也能够促进DPI大数据实现入库[4,5]。
3 结语
随着我国社会主义现代化建设的不断发展,我国的计算机信息技术取得了卓有成效的进步,并由此进入一个信息时代,使人们的生产与生活方式发生了一系列的变革。然而随着信息多元化与多用户模式的出现,传统的计算机信息技术已经不能够满足人们的需求,开始转向对云计算技术的开发与应用。云计算技术下的大数据用户行为引擎设计,能够对用户形成高效的跟踪,且运行成本低廉,在企业的营销中有着极大的应用价值,值得推广应用。
参考文献
[1]谢晓頔.大数据环境下云计算分布式数据管理和分析技术工具的研究[J].科技风,2015(19):51-51.
[2]王宁,杨扬,孟坤,等.云计算环境下基于用户体验的成本最优存储策略研究[J].电子学报,2014,42(1):20-27.
[3]尹天骄.云计算时代下的数据管理技术探讨[J].计算机光盘软件与应用,2015(3):179-180.
[4]李晓飞.基于云计算技术的大数据处理系统的研究[J].长春工程学院学报:自然科学版,2014,15(1).
用户行为数据 篇10
中国互联网络信息中心发布的第36次《中国互联网络发展状况统计报告》显示, 截至2015年6月, 我国网民规模达6.6亿, 其中, 互联网视频用户规模达4.61亿, 使用互联网视频的用户比例高达69.1%, 成为重要的互联网应用。庞大的互联网视频用户规模和巨量的收视过程, 产生了海量的收视行为数据, 这些数据蕴含着丰富的商业价值, 亟待挖掘、理解和应用。分析用户行为, 掌握用户行为的规律, 了解用户的收视习惯, 一是能够评估节目和广告的投放效果进而优化节目的编排, 二是能够预测互联网视频流量的变化趋势进而优化技术系统的资源配置。在文献[1]中, 作者曾探讨过互联网大规模视频服务用户行为规律的研究意义和方法, 下文将应用最小二乘法、相关性分析法和信息增益法, 探寻海量互联网视频用户收视行为数据中呈现出来的用户行为规律, 并分析内在的成因, 以及对现实的指导意义。
1 用户行为及测度
本次研究总共包含12种用户行为:
1.视频播放基本操作:开始、播放、暂停、快进、快退、退出。
2.提高观看体验的辅助操作:全屏、退出全屏、静音、取消静音、重播、码率切换。
本次研究使用以下测度表征用户行为规律:
1.交互次数, 指一次视频会话过程中发生的操作次数。
2.观看时长, 指用户观看视频节目时达到的最远时间点。
3.会话时长, 指一个表示一次视频会话的网络连接所持续的时间。
4.参与度, 观看时长与视频节目总时长的比值, 该值≤1, 越大表示用户参与度越高。反映用户参与程度的另一个指标是会话时长。
此外, 用户收看视频节目内容的分布特征, 以及用户播放视频节目所用的终端类型的分布特征都是大规模互联网视频服务场景下用户行为规律的一种外在表现。
2 研究数据
常见的互联网视频服务系统可分为运营前端、分发网络和用户终端。用户终端中集成了用户行为采集组件, 所采集的行为数据定时回传到运营前端的日志服务器上, 如图1所示。
本研究所用的数据来自国内某大型互联网视频运营商的日志服务器群, 日志服务器分布在北京、广州、杭州和洛杉矶, 从地理上覆盖了全球。日志记录了用户连接以及观看互联网视频的全部过程。日志服务器上的原始日志数据的格式包括两类:访问日志和播放日志。访问日志记录用户访问视频的会话过程, 例如从哪里发起网络连接、连接到哪一个节目等, 播放日志记录用户在视频播放过程中的操作行为。为减轻研究过程的数据处理工作量, 同时保证数据具有代表性, 例如应既包含工作日, 也包含周末, 本次研究采集的数据持续了15天、每天覆盖20:00~22:00的黄金时段。数据中, 来自400多万个视频用户产生发起了800多万次视频会话, 访问了70多万个视频节目内容。
从日志数据服务器上采集下来的数据是半结构化的, 其中还掺杂着无效和不完整项, 需要进行预处理。预处理主要包括数据清洗和结构化存储。数据清洗的目的是填充不完整数据、删除异常数据、识别并删除重复记录、提高数据的有效性和完整性。结构化存储的目的是按照分析模型重组用户行为数据, 以方便后续处理。
3 分析方法
3.1 最小二乘法
最小二乘法是一种数学优化法, 它是通过一系列数据对的分布寻求X和Y的最佳匹配函数, 可以用于曲线拟合, 让曲线上的点和实际点之间的偏差平方和最小。通过最小二乘法拟合出来的曲线, 可以有效反映Y随X变化的趋势。
3.2 相关系数
肯德尔相关系数 (Kendall correlation) 和皮尔森相关系数 (Pearson correlation) 可用来研究特征变量X与目标变量Y的相关关系, 其中, 皮尔森相关系数需要假设两个变量间是线性相关关系而计算得到, 但是, 肯德尔相关系数对两个变量间的关系并不做任何假设。相关系数 (以下简称τ) 的取值范围是:[-1, 1], τ>0表示两个变量正相关;τ<0表示两个变量反相关;τ=0表示两个变量相互独立;且|τ|值越大, 表示两个变量的相关关系越强。
3.3 信息增益
信息增益 (information gain) 是信息论中与熵有关的一个计算方法, 可以用来衡量特征变量X给观测变量Y带来的信息量大小, 即在已知X的前提下, 可以获得关于Y的信息量大小。计算信息增益时, 首先需要计算观测变量Y的不确定性, 即Y的熵H (Y) 。然后计算已知X的前提下, 仍然存在的对Y的不确定性, 即条件熵H (Y|X) 。两者的差值就是信息增益IG (Y, X) 。为了比较不同特征变量对Y的影响大小, 我们计算X与Y的相对信息增益 (relative information gain) , 记作IGR (Y, X) , 其计算方法如下:
其中P[Y=yi]是Y=yi的可能性, IGR (Y, X) 的取值是:[0, 1 0 0%], I G R (Y, X) =1 0 0%表示从X可以获得所有Y的信息量;IGR (Y, X) =0表示从X不能获得任何关于Y的信息量。
4 用户行为规律
4.1 用户对内容的选择
数据集中包含的节目类型有新闻、电视剧、动画、体育、综艺、特别节目、音乐剧, 分析得到的比例如表1所示。
从表1中看出, “综艺”类节目是观众的大爱, 占到了39.5%, 这源于一方面综艺节目总量较大, 另一方面大多观众热爱生活, 喜好娱乐。
4.2 用户对终端的选择
截至2014年, 我国网民的手机使用率已达83.4%, 超越PC的80.9%, 手机成为第一大上网终端。此外, 随着智能移动终端的普及, 越来越多用户使用移动性强的平板电脑 (PAD) 上网观看视频, 各大互联网视频运营商也适时推出了适配各类硬件的APP。一般地, 收看互联网视频的终端分为四类:智能手机、PAD、PC浏览器和PC客户端软件。
以某日的访问日志为例, 该日访问记录数为9587781条, 对每条访问记录对应的终端类型进行识别, 得到的统计结果如表2所示。
统计数字表明, 该日用户观看视频所用的终端类型比重依次是PC浏览器、PAD、智能手机和客户端。其中, PC浏览器的比重高达48.02%, 表明约一半的用户在用PC浏览器观看节目。根据中国互联网信息中心的统计习惯, PAD和智能手机均归为移动终端, 则移动终端用户比重也占到了33.57%, 与PC的相差不大。
统计结果中有8.38%的记录无法判断终端类型, 我们推测是现实中存在使用类似小米盒子之类的终端设备, 反馈的终端类型字段不在常规字段内, 造成无法归类。
此外, 我们还研究了该日用以收看直播和点播类节目的终端用户分布情况, 结果如表3和表4所示。
统计数字表明, 观看直播的终端比重依次是PC浏览器、PAD、智能手机和客户端。其中, PC浏览器的比重为30.27%, 与PAD的29.44%和智能手机的21.05%相差不大, 客户端的比重为14.86%, 比点播类的高了11.19%, 原因可能是直播基于P2P技术实现的, 系统会自动推荐用户安装运营商开发的专用客户端。另外, 我们注意到观看点播节目的PC浏览器终端比重高达71.32%, 远远高出其它类型, 因此应当将PC浏览器终端用户的行为作为研究重点。
4.3 用户交互行为
表5统计了15天的视频会话的9种用户交互行为, 其中, “行为数”表示每种交互行为发生的次数, “百分比1”表示该种交互行为占总行为数的比例, “会话数”表示包含交互行为的会话数量, “百分比2”表示包含该种交互行为的会话数量与总会话数的比值。由于每次会话中可能包含多种交互行为, 因此“会话数”一行的数值加和并不等于总的会话数。统计中, 一共发生了8644704次会话。
从统计数据可以看出, 15天产生约4530万次交互, 平均每个会话过程5次。所占比重最大的交互类型是快进快退, 约77.31%, 远远高于其他行为。用户可以通过快进快退寻找自己感兴趣的部分, 跳过无聊的视频内容。其次, 出现比重最多的是全屏, 视频网站默认正常大小的窗口, 但允许用户根据自己的需求, 在全屏, 正常大小窗口和小窗口自由切换。对于暂停和播放, 用户由于某些原因不能继续观看时可选择暂停, 然后通过播放恢复观看。此外, 仅有约0.01%的会话包含重播, 表明该网站同一节目被同一用户重复观看的概率很低。码率切换只占1.84%, 表明该用户的网络状况相对稳定, 用户并没有频繁地尝试不同的码率。
交互行为是用户根据自身意愿产生的, 一次交互行为可以看成一次随机事件, 我们研究了每次会话中交互行为的次数。图2是交互次数的累积概率分布图 (以下简称CDF) 和直方图, 可以看到, 约50%的会话产生了交互行为, 超过80%的会话的交互次数小于10;只有约1%的会话的交互次数大于50。可见, 用户在一次会话中只发生一次交互的可能性最大。
为了更好地研究用户的行为规律, 我们分别统计了6种交互类型的次数直方图。从图3中可以看到一个统一的规律:用户在一次会话中产生χ次交互行为的可能性随χ的增大而减小 (χ取整数) , 即用户在一次会话中发生一次“快进快退” (或者“暂停”, “全屏”, “退出全屏”, “重播”, “码率切换”) 的可能性最大。一般情况下, 快进快退是消极的交互, 用户通过快进快退选择性的观看自己感兴趣的部分, 如果用户发生多次快进快退, 则认为用户对节目内容的兴趣度较低;重播是积极的交互, 当用户对节目内容很感兴趣, 并在第一次观看时获得较好的体验, 才会选择重复观看。
4.4 观看时长
观看时长是视频运营商和广告商最看重的用户指标之一, 表征了用户对于视频服务质量的认可度, 视频运营商和广告商都期待较大的观看时长。本文统计了所有视频会话的观看时长, 如表6和图4。
可以看到, 约有25.6%的观看时长在5分钟内, 有超过50%的观看时长小于20分钟, 只有不到2%的观看时长大于60分钟。此外, (a) 图中, 观看时长在2500s (约40分钟) 左右存在一个较明显的增长, (b) 图中表现为2500s处存在一个尖峰。统计结果表明, 用户观看节目的时长很少大于60分钟, 另有超过一半的观看时长不到20分钟。因此, 如果运营商能够在20分钟内提供给用户超过预期的体验, 就能留住更多用户。
为了解释观看时长在2500s左右集中分布的情况, 我们还统计了视频节目库中的节目时长分布, 结果发现该运营商以提供40分钟左右 (约2500s) 的国产电视剧为主, 这也就解释了以上现象。
4.5 会话时长
会话时长和观看时长一样, 是另一个评价用户对节目的认可程度的重要指标。本文统计了所有视频会话中会话时长, 如表7和图5。
可以看到, 约有30%的会话时长在5分钟内, 约62%的会话时长小于20分钟, 只有不到1%的会话时长大于1小时, 分布特征和趋势都与观看时长非常相似。
4.6 用户参与度
本文将节目分为七大类:娱乐、卡通、体育、新闻、音乐剧、电视剧和专题。前面已经介绍过, 用户参与度是观看时长与视频节目总时长的比值, 我们对用户参与不同节目类型的情况进行了统计, 结果见图6。图中, 横轴是参与度, 纵轴是累计概率分布。
统计结果显示用户参与不同节目类型的程度差别很大, 卡通类节目的参与度最高, 参与度在90%以上的视频比例高达60%, 可能观看卡通节目的多为儿童, 他们较容易沉浸在动画世界中。音乐剧类节目的用户参与度最低, 参与度超过90%的节目比例不到30%。
统计图呈现出的另一个有意思的现象是用户参与度在10%~90%之间呈一条平直的斜线, 说明在此范围内, 不同节目的用户参与度呈均匀分布, 由此可推断用户在观看过程中, 随时都会终止观看行为。该现象反映出观众的收视习惯, 他们观看互联网视频是相当随意的, 随时会结束观看过程。
5 影响用户行为的因素
5.1 节目时长
为了研究视频节目时长对用户行为的影响, 本文将节目时长分成四段, 并按节目时长归类统计会话过程, 所得的四个节目时长段的数据子集如表8所示。
表9统计了四个子集所包含的交互行为, 可以看到, 平均每个会话产生的交互行为数随节目时长的增加而增加, 表明用户在观看长视频时发生n次交互行为的可能性比观看短视频时大。此外, 随着节目时长的增加, 快进快退出现比重逐渐增加;暂停、全屏、重播出现比重逐渐减少, 表明随着节目时长的增加, 用户快进快退的可能性逐渐增加, 而用户重播、暂停、全屏的可能性逐渐减少。表明用户更倾向于在观看长视频时快进快退, 而倾向于在观看短视频时重播, 用户可以通过快进快退跳过不感兴趣的内容, 有效节省观看时间。另外用户更容易接受再观看一次节目时长较短的视频, 不容易接受重复观看节目时长较长的视频。
图7统计了用户粘度相关行为与节目时间的关系。可以看到, 不同子集中观看时长和会话时长的分布差别较大, 与节目时长之间成正相关。
5.2 节目流行度
将节目流行度分为四段, 研究不同流行度节目的用户行为。每段流行度中的用户行为统计数据如表10所示。
表11统计了不同流行段的交互行为数, 可以看到不同段中, 每个会话过程包含的平均交互数并没有随着流行度的变出呈现出特定的趋势, 表明用户不会在观看流行度高的视频节目时发生更多或更少的交互行为, 快进快退、全屏、暂停、重播在不同流行度集合中所占比重相差不大, 可以推测用户在观看节目时发生某种类型的交互行为的可能性不会随着流行度的变化而单调递增或者递减。
图8展示了用户参与度与节目流行度之间的关系, 可以看到观看时长和会话时长并没有像我们期待的那样, 在观看流行度高的视频节目时出现较大值。但是, 我们看到代表top10的红色曲线在图中最内侧, 表明用户在观看top10的节目时更愿意停留更长的时间。
5.3 播放质量
播放过程中, 出现缓冲表明视频播放出现了影响观看效果的卡顿, 出现错误信息表明观看过程出现异常, 这两个指标都直接反映节目的收看质量。
我们按会话过程是否出现缓冲事件划分成两个集合, 再按会话中是否包含错误信息将视频会话划分成两个集合 (表12) 。从表中可看到, 只有2%的会话未发生缓冲, 而有93%的会话未出现错误。
图9统计了播放质量指标与交互行为数间的关系, 可以看到, 在未发生缓冲的会话中, 约90%的会话的交互行为在20次以内;而在发生了缓冲的集合中, 只有约20%的会话的交互行为在20次以内。表明缓冲越多, 交互次数越多, 用户越烦躁, 更爱频繁干预播放过程。同样, 从 (b) 图也可以看到类似规律, 用户在遭遇了错误的会话中发生多次交互的可能性比未遭遇错误时更大。此外, 我们还发现, (a) 图中两条曲线的差异比 (b) 图中两条曲线大, 表明缓冲对交互行为数的影响比错误更大。
为了进一步验证上面的结论, 本文计算了缓冲率、错误率与交互行为数的肯德尔相关系数, 分别记作τ1, τ2 (如表13) 。可以看到, τ1, τ2大于0, 表明缓冲率和错误率与交互行为数都是正相关;且τ1>τ2, 表明缓冲率与交互行为数的正相关关系比错误率与交互行为数的关系要大, 验证了上面的结论。
为了解释这一结论, 我们统计了不同会话子集中暂停、全屏、快进快退行为所占的比重, 如图10和图11。可以看到, 在发生了缓冲的集合中出现了更大比重的快进快退和更少比重的暂停、全屏;且在未发生缓冲的集合中, 快进快退所占比重只有45%, 与发生缓冲集合中的77%相差较大。这可能是因为用户发生快进快退, 增大了对网络带宽的需求, 如果系统不能及时响应, 就会导致缓冲;相反, 暂停为视频提供了足够的加载时间, 用户在暂停后会感受到更为流畅的观看体验。因此, 用户快进快退会增加缓冲事件发生的可能性, 暂停会减少缓冲事件发生的可能性, 而且用户在没遭遇缓冲的情况下选择全屏的可能性比遭遇缓冲时大, 这时可以获得更好的观看体验。
从图11可以看到, 在按错误划分的两个会话集合中, 暂停、全屏、快进快退所占的比重相差不大, 这表明播放过程是否出现错误对于引导用户执行哪种类型的操作影响不大。原因可能是出错的情况一般分两种, 一是不可修复型错误, 二是可修复型错误。发生可修复型错误时, 用户仍可继续观看视频, 发生不可修复型错误时, 将导致用户退出观看过程, 自然也就不会再发生任何交互行为。
5.4 信息增益与用户行为
为了对比上面研究节目时长、流行度、播放缓冲率和错误率四个变量与交互行为间的关联强度, 我们分别计算了这些变量与交互行为间的相对信息增益 (表14) 。可以看到, 缓冲率与交互行为的信息增益值最大, 特别是快进快退, 表明从缓冲情况可以获得较多的关于交互行为的信息。错误率、节目时长与交互行为的信息增益大小也表明, 从错误率和节目时长可以获得一定关于交互行为的信息。而节目流行度与交互行为的增益值很小, 表明从流行度只能获得少量关于交互行为的信息。
6 影响用户参与度的因素
6.1 播放质量
图12统计了会话时长与观看时长与视频质量指标的关系, 散点图中每个点的横坐标代表缓冲率或错误率, 纵坐标代表观看时长或会话时长, 其中红的曲线代表利用最小二乘法拟合出关系曲线。可以看到, 图 (a) (b) 中, 会话时长和观看时长较大的点都集中在缓冲率较小的地方;而在缓冲率较大的部分, 会话时长和观看时长都较小;并且, 拟合曲线呈现递减的趋势。同样, 图 (c) (d) 中也能看到类似的规律。因此, 缓冲率和错误率对会话时长和观看时长都有较大影响, 缓冲率和错误率越高, 用户的会话时长和观看时长就越短, 缓冲率和错误率与观看时长和会话时长呈负相关。
为了进一步验证上面的结论, 我们计算了缓冲率、错误率与会话时长、观看时长的肯德尔相关系数, 结果见表15。可以看到, 肯德尔相关系数小于0, 表明缓冲率与会话时长和观看时长确实是负相关, 同样, 错误率与会话时长和观看时长也存在负相关, 验证了上面的结论。
6.2 加载时长
加载在视频播放前出现, 是会话开始到节目可以被正常播放间的时差, 因此, 一旦播放过程开始, 加载时长将不再适用于评价用户的观看感受, 自然不会再影响用户的参与度, 直接以加载时长评价用户参与度并无意义。本文从另一个角度出发, 研究被放弃播放的视频会话的加载时长, 分析加载时长对用户参与程度的影响。
图13是被放弃视频的加载时长CDF图, 可看出体育节目的加载时长分布曲线较远地偏离了其它节目, 说明观众对体育节目的加载时长的容忍度较其它视频不同。加载时长在2秒以下而被放弃播放的体育节目约占该类型被放弃节目总数的70%, 而其它节目均在80%左右, 相差10%。说明对于体育节目, 观众往往抱有较高的观看热情, 对加载时长的容忍度较其它节目高。
6.3 带宽
这里的带宽表征的是终端播放节目时从网络上获得的音视频数据流比特率的大小。图14显示了带宽与用户参与度之间的拟合关系。由图看出, 不管何种节目类型, 随着带宽的增加, 用户参与度均在上升。代表不同节目的拟合曲线的斜率相差很大, 说明不同节目类型的用户参与度受带宽影响程度不同。体育节目拟合曲线斜率最大, 说明观看此类节目的人群最易受带宽的影响。拟合曲线的走势均向上前方, 说明带宽越大, 视频流畅度越好, 发生缓冲等影响用户收视体验的事件概率越小, 自然用户的参与度越高。
6.4帧频
图15显示了帧频与用户参与度之间的拟合关系, 可看出不管何种节目类型, 随着帧频的增加, 用户参与度均在提高, 但是曲线的斜率很小, 说明用户参与程度受帧频的影响虽是正面的但十分有限。关于这种现象, 我们推测不论是哪种节目类型, 画面帧频大都在25Hz左右, 数据分析结果也表明各类节目的会话过程中, 帧率确实集中在25Hz附件。
6.5 快进快退
图16显示了用户快进快退操作的次数与用户参与度之间的拟合关系, 可以看出不管何种节目类型, 随着快进快退次数的增加, 用户参与度均在提高。用户参与度定义为观看时长与视频节目总时长之比, 所以用户快进次数多, 用户观看时长变大的概率就大, 计算得到的用户参与度就高。此外, 用户快进快退次数增多, 说明用户对该节目更感兴趣, 用户参与度也就更高。
6.6 缓冲度
缓冲度定义为会话过程发生的缓冲总时长与用户观看时长之比。图17显示了缓冲度与用户参与度之间的拟合关系, 可以看出不论何种节目类型, 用户参与度都随着缓冲度的增大而减小, 但是各拟合曲线的斜率相差较大, 说明不同节目类型的用户参与度受缓冲度的影响程度不同。音乐剧节目的拟合曲线斜率最大, 且为负值, 说明音乐剧节目的用户参与度最容易受缓冲度影响, 现实中, 确实很少有人能容忍听音乐的过程中出现卡顿, 尤其是在享受音乐方式如此丰富的今天。新闻节目的拟合曲线斜率接近零, 说明新闻节目的用户参与度不易受缓冲度的影响, 生活中, 大家看新闻节目, 关注的是节目本身的内容, 对收视体验的追求可以降到很低。
7 结束语
本文从大数据的视角研究互联网大规模用户的行为, 研究中发现的一些规律有助于人们更好地理解大量无序用户行为中的有序规律, 或可为互联网视频运营企业优化节目生产和节目投放策略、改善运营服务, 以及提升用户体验质量提供有益参考, 也为相关研究人员分析和挖掘更多隐藏在用户行为大数据中的信息提供了些许思路和方法。
摘要:短短10余年间, 互联网视频便以其强娱乐性、高个性化、高质量的特点征服了广大用户。规模较大的互联网视频服务网络往往拥百万级的用户数, 其每日可采集到数百万条用户行为数据。通过挖掘用户行为数据, 发现隐蔽其中的用户行为规律, 是提高互联网视频运营企业节目生产、投放能力和改善运营服务能力的有效手段。本文中, 我们以最小二乘法、相关性分析法和信息增益法为数学工具, 对国内某大型互联网视频运营商采集的用户行为数据进行了深度挖掘。通过研究, 我们发现了一系列的用户行为规律, 并对其进行了归纳, 还对影响用户行为和用户参与度的诸多因素进行了分析。
关键词:大数据,互联网视频,用户行为
参考文献
手机购物平台的用户行为特征研究 篇11
在移动互联网和移动终端设备技术迅速发展的今天,手机已不仅仅是接打电话和收发短信的基本通讯终端,而是成为融合通讯、购物、影音、游戏等功能的智能移动终端,与人们的亲密度甚至已超越电脑,在手机等移动终端设备购物平台上,物品种类丰富新颖,可以快速的货比多家,从而确定最后的消费品,这种买卖方式受到越来越多的消费者和商家的青睐,甚至有学者预测这一消费方式在将来会替代传统的消费方式。但是数以万计的商品如何快速,高效的推荐给需要的用户,本文中将研究用户在手机购物平台中的行为特征,为后续优化移动终端设备推荐购物系统优化提供基础。
调查目的与对象
本文中通过问卷调查对手机用户进行了调查,从而系统的了解了用户使用手机进行购物的习惯、偏好等行为特征,剖析了手机等移动终端设备购物消费的合理性。
调查对象为有手机的移动终端设备购物经验的消费者,没有移动终端设备购物经验的消费者但愿意尝试的消费者和既没有经验且无意愿尝试的消费者。
为了能得到较为集中的答案,方便进一步的分析,问卷主要采用单选和多选的封闭式设题方式,从用户的基本信息,所使用的设备,是否有过购物经历,购物的目的与兴趣点等多个方面进行调查,了解移动终端购物的使用情况。
调查样本说明
为了全面地反映消费者的手机购物状况,本次问卷投放总量为150份,其中网络投放100份,考虑到网络渠道的年龄局限性,增设50份纸质问卷作为补充。最终,共回收有效问卷137份,其中网络94份,纸质43份,回收有效问卷率达到91.3%,可以进行进步的统计分析。
调查结果与分析
在信息化快速发展的环境中,消费者对于手机购物消费的态度相对积极,但是年龄、心理和个人等因素影响仍然存在。
1.用户特征分析
回收的有效问卷中,男性72人,女性65人。从年龄分布来看,21-35岁和36-50岁两个年龄段人数最多,约为73%,其中选择有网络购物经历的人数比例达到83.9%,其中50岁以下年龄段的人群基本都有网络购物经历。从手机使用的频率来看,选择经常和频繁的人数比例达到了87.6%,选择使用手机购物的人数较多,比例达到了65.7%,购物人群中按月计购物频率在3-6次的人数比例达到了42.86%,绝大多数人选择网络购物的原因是方便,相当一部分人是因为价格便宜和可供选择的品种多。分析可知:50岁以上年龄的手机用户对手机购物认识粗浅,受自身视力减弱不能准确清晰观看手机屏幕的生理因素和对新兴事物的接受能力弱的因素影响,对手机购物存在比较强里的排斥心理。50岁以下的消费者比较能接受手机购物行为。
2.用户网购的行为特征
(1)商品类型特征
用户手机购物的物品喜好分析只适用于进行手机购物的消费者群体。目前用户的消费行为趋向于对个性化和新鲜事物的追求。从调查问题“您经常在手机上买的东西”的回答中,可以明显看出服装类是男女共同的最大兴趣类目,鞋类和零食类比例基本持平。此外,生活用品类女性较男性比例更大,化妆品类基本属于女性兴趣商品类目。
(2)手机购物网站的偏好
为了进步了解手机购物的现状,本调查设置了“您经常购物的平台”的问题。以选择人数来作为判断依据,94.2%的人选择了淘宝,48.5%选择了京东,其他少部分人选择其他,例如:1号店,唯品会等。通过多方调研证明,淘宝网站和京东的信誉较好,购买程序相对简单。
3.用户对网上购物的态度及心理特征分析
(1)尝试心理
此次调查中发现,40-50岁的用户往往是抱着尝试的心态进行手机购物或者准备进行手机购物,在他们的思想中,手机网络购物不如传统的商场购物方式安全有保障,但是受家庭子女的影响,他们会选择定的商品进行尝试。他们愿意尝试手机购物,很大程度上取决于网络产品的价格便宜和网购的方便性。无论是传统的消费方式还是手机购物,商品的价格始终是影响消费者心理的主要因素。现在由于为了开拓网络销售渠道,网络销售上往往有一些折扣活动,从而相同的产品在手机购物上就享有一些价格上的优势,满足了消费者追求物美价廉的消费心理。
(2)减小风险及方便心理
在手机购物这个新兴购物方式而言,20~40岁年龄阶段的消费者表现出了一定的谨慎性和原则性。这类消费人群在手机购买商品或者服务出现问题时,会选择积极地面对问题,寻求解决方式,这就表明这类消费者群体的维权意识比较强烈。方便快捷也是这类人群的手机购物的另个因素,传统的购买过程中,消费者需要到实体店铺进行选购,支付,带商品回家,而手机购物可以在手机上挑选好需要的商品,通过网上支付实现交易,当天或者几天之内送货上门,节省了时间和精力。
总结
用户行为数据 篇12
目前,大数据技术已经得到广泛关注,据权威部门预测,2016年中国大数据市场规模将达6.17亿美元,而全球规模将达238亿美元。未来“互联网+”思维将推动新一波生产率的增长,而大数据就是“互联网+”的发动机,通过大数据来创造需求和预测未来,进行资源合理分配,从而达到社会效率的整体提升。
电力大数据是大数据理念、技术和方法在电力行业的实践,它涉及到发电、输电、变电、配电、用电、调度等各个环节,是跨单位、跨专业、跨业务的数据集合。电力大数据按来源不同可划分为三类:一类是来自于电力生产企业的发电量数据,二类是国家电网的运营和管理数据,包括交易电价、售电量以及ERP、一体化平台等方面的数据。三类是电力用户侧数据,包括用户侧管理平台和智能电表采集的数据。电力大数据是大数据理念、技术和方法在电力行业的实践,是大数据应用的重点领域之一。电力大数据具备普遍5 V(Volume;Variety;Velocity;Veracity;Value)特征[1,2],即数量大、类型多、处理速度快、准确度要求高和价值高。2013年《中国电力大数据白皮书》[3]发表,提出电力大数据还具备的独有3E(Energy;Exchange;Empathy)特点,即能量、交互和共情。
1 大数据技术
大数据处理是个复杂的过程,从各种类型的数据中“去冗分类”、“去粗存精”并快速获得有价值信息,需要经过多个处理阶段。目前,比较经典的大数据处理模型是Usama Fayyad等设计的多阶段处理模型[4],如图1所示,主要包括数据采集、数据预处理、数据存储与管理、数据的挖掘与分析及知识成果的展示五个处理步骤。
大数据采集一般分为大数据智能感知层和基础支撑层。大数据采集技术包括大数据的智能识别与感知技术、大数据传输与接入技术、分布式虚拟存储技术、大数据可视化接口技术、大数据的网络传输与压缩技术和大数据隐私保护技术等。
大数据预处理技术指对大数据进行辨析、抽取、清洗等操作。由于获取的数据可能具有多种结构和类型,数据抽取过程就是将复杂的数据转化为单一的或者便于处理的构型,便于快速分析处理,对于大数据中无利用价值或者不关心的内容,要通过过滤“去噪”剔除掉。
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用,解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。大数据存储与管理技术囊括了大数据存储技术、分布式非关系型大数据管理与处理技术、数据融合技术、数据组织技术、大数据建模技术、大数据索引技术、大数据可视化技术、数据库技术、大数据移动-备份-复制等众多关键技术。目前,比较常用的大数据存储与管理方案有HDFS(Hadoop Distributed File System)、Tachyon、QFS(Quantcast File System)和Cluster FS等[9],其中HDFS是支持Hadoop计算框架的分布式大数据存储系统,具有很高的容错性、可扩展性、高并发性,并且可基于廉价的存储服务器设备,是目前最为流行的大数据存储系统。
数据挖掘就是“数据库中的知识发现(KDD)”,前面的几个步骤都是为数据挖掘分析做准备。数据挖掘的过程就是提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。传统的数据挖掘分析方法可分为:机器学习方法、统计方法、神经网络方法和数据库方法。传统的分析方法虽然仍可应用于大数据领域,但在处理规模较大的数据集合时有一定局限性,这时就需要借助云计算技术,将大数据集的挖掘任务分解到多台计算机上并行处理,从而提升数据挖掘效率。
知识成果的展示与应用是大数据处理的最后一步,也是关键一步。如果数据分析得结果无法正确显示,反而会误导决策者。数据可视化技术是大数据展示的最有力方式,常见的可视化技术有基于集合的可视化技术、基于图标的技术、基于图像的技术、面向像素的技术和分布式技术等。目前,面向智慧城市的物联网大数据应用,面向在线社交网络的大数据应用,面向智慧医疗的健康大数据应用,以及面向智能电网的大数据应用都在如火如荼的进行中。
2 基于大数据技术的电力用户行为特征分析
由于我国电力行业的特殊性,电力用户行为分析仅限于电力消费的终端用户。目前,比较热门的电力用户行为特征分析研究方向,包括电力用户的分类及细分建模研究[5,6]、电力用户用电负荷预测研究[7]、电价与激励下的电力用户响应行为研究[8]等。
2.1 电力用户分类研究
我国电力市场逐渐进入以市场需求为导向的新阶段,电力用户分类是实现电力资源的优化配置的必要手段之一,电力企业通过了解用户需求、用电行为、用电习惯等,可以选择用户,并有针对性的采取价格措施和激励政策,促进电力系统的平稳高效运行。
目前常用的电力用户分类方法主要有三类:一种是基于电力用户的综合价值评价体系的分类方法,评价体系由市场价值、潜在市场价值、区域贡献价值三部分组成。采用基于熵权法的用户评价分类方法,首先要采集相关数据,计算各参与评价指标,利用熵权法确定各个指标的权重,计算综合评价值,并根据综合评价值进行用户分类,利用聚类分析方法,将用户分为指定类。第二类用户分类方法是基于负荷曲线特征的用户分类方法,从电力数据中提取用户一段时间内的日负荷曲线,并根据季节和节假日进行分类,对多条日负荷曲线求平均负荷曲线,作为用户的代表曲线,采用模糊C均值、K-means等聚类方法,最终确定用户的分类。第三类是依照经验规则的分类方法,包括基于业务逻辑规则和基于决策树的用户分类方法。无论哪种分类方法,都是为了确定电力用户的行为特征属性,提供给电力企业,以便提供有针对性的服务。
2.2 电力用户负荷预测研究
基于电力数据的用户负荷预测研究分为短期负荷预测和中长期负荷预测。短期电力负荷预测指未来几小时、几天的电力负荷预测,短期负荷预测已作为能量管理系统的重要功能模块,为安排电力调度计划、供电计划等提供依据。中期符合预测指未来一年内的负荷预测,预测结果作为机组维修计划、电网规划等的重要依据。长期符合预测指未来1~10年的用电负荷预测,为电网的规划、增容和扩建等工作开展提供参考依据。
目前负荷短期预测理论研究逐渐成熟,包括回归分析法、时间序列法、小波分析、支持向量机、人工神经网络、模糊预测、综合模型预测等多种方法。相比短期符合预测,中长期负荷预测更容易受到不确定因素的影响,比如天气情况、自然环境和人类活动等,因此,中长期负荷预测需要的数据更多,难度更大。中长期负荷预测方法可以分为两大类:基于参数模型的方法和基于非参数模型的方法。基于参数模型的中长期预测方法包括电力弹性系数法、时间序列法、相关分析法等。基于非参数模型的方法包括灰色预测技术等。无论哪种预测方法,核心问题就是要基于电力用户历史负荷数据,建立预测模型,模型的精准度决定了预测水平的高低。
随着海量电力数据的出现,传统的负荷预测算法已无法满足预测速度和精度的要求,将传统的负荷预测方法与并行化计算模型MapReduce、内存并行化计算框架Spark等技术相结合展开短期电力负荷预测,是大数据时代进行短期负荷预测的有效方法。
2.3 电力用户响应行为研究
从电力用户侧管理(DSM)到电力用户侧响应(DR),再到未来互动性更强的电力用户侧需求调度(DD)阶段,是电力企业发展模式面临的必然转变。电力需求侧响应的动机通常有两类:基于价格的需求侧响应和基于激励的需求侧响应。基于时变电价的需求侧响应又可分为分时电价、尖峰电价和实时电价。基于激励的需求侧响应可分为直接负荷控制、可中断负荷、需求侧竞价、紧急需求响应和容量、辅助服务计划等。
对电力用户响应规律的探寻离不开对响应行为的建模,目前电力用户响应行为的建模方法,一种是基于用户响应激励的分析模拟来建立机理模型,比如基于加权最小二乘法的用户响应曲线参数辨识模型、基于多智能体和模糊逻辑的响应规则以及基于市场均衡原理下的用户响应行为分析等等。随着电力大数据的形成,一些非机理性的建模方法也得到了广泛应用,比如基于知识学习规则的电力用户电价响应建模、基于模糊决策的用电态度建模、基于支持向量机回归算法的用户响应模型等。
3 电力用户行为特征分析应用实例
在电力大数据的理论研究及工程应用方面,欧美国家始终走在前列。在智能电网建设政策的支持下,我国近几年开始着眼电力需求侧领域,开展大数据关键技术的研究,并初步实现了一些应用[9]。
3.1 法国
法国电力公司(EDF)自2009起对个人家庭用户安装智能电能表,用于采集个体家庭的用电负荷数据,并结合气象数据、用电合同及电网数据等信息,开发了基于大数据的用电采集应用系统。目前,法国电力公司的运行分析中心大数据项目组承担了客户数据的分析工作,以用户用电负荷曲线的海量存储和处理为突破口,利用大数据技术,开发能够在规定延迟时间内完成的复杂并行处理计算能力,并搭建了大数据存储架构,以此为基础构建了分布式数据发生器Courbo Gen系统,用于生成用户用电负荷曲线及其关联数据。采用神经网络、聚类等分析方法对数据进行分析,预测电力需求侧的负荷变化,进行客户群分类,为法国电力公司的销售营销指出改进方向。
3.2 美国
比较著名的电力大数据应用就是“洛杉矶电力地图”,它由美国加州大学洛杉矶分校和当地政府机构共同研发,将每个街区信息、用户个人信息、用电实时信息以及地理、气象等信息全部整合,能准确地反映当地的经济状况及各用户群体的用电习惯,为城市和电网规划提供直观有效的负荷预测数据。利用先进的可视化分析工具,“洛杉矶电力地图”甚至可以辅助进行能源投资和能效决策。美国C3 energy公司的能源分析引擎平台,则是专门利用电力大数据提供能源投入冗余分析、节能计划和电力用户空间视图等服务的平台。
在用户侧响应机制上,美国也同样走在前列。纽约州的电力市场由NYISO管理,采用了四种方案的激励型需求相应机制,做到必要时削减负荷,从而保证纽约州电力系统的安全、可靠、经济的运行。激励型需求响应在美国已运行了40年,对其激励方案和运作形式的研究,将为我国电力市场改革提供借鉴。
3.3 中国
自2013年起。我国电力企业逐渐开始重视电力用户侧领域,开展电力数据中心的建设以及大数据应用技术的研究。截止目前国家电网公司已在27个省完成智能用电采集系统的部署,覆盖用户数达2.42亿户。
2013年江苏省电力公司率先开展了大数据智能分析系统建设,采用Hadoop分布式批处理技术,建立包括电量、电力负荷、地理信息、气象数据等在内的多维度数据分析模型,开发了对数据分析结果的可视化展示界面,初步实现了电力看经济、电力看民生、用户用电行为分析三个方面的应用。
2015年上海电力开展了首个电力需求响应试点实验工作,为配合该项目的实施和为政府决策提供数据支撑,2015年年底上海将建成一个深度分析挖掘区域性、行业性用电特征的电力需求响应中心,该中心对2.8万个用电大户的负荷数据进行采集分析,立体展示企业的实时和历史负荷数据,并通过专业分析,提供给用电企业电力能源的分类使用情况,以便进行用电行为分析,更合理的利用电能,减少能耗,实现用户成本效益的最大化。
4 结束语
电力行业数据量大且价值高,对数据利用率的提高,可以加快电力企业盈利与控制水平的提升,无论是行业内还是行业外应用,都会带来新的发展机遇。同时,这也对大数据的认知水平提出了挑战,如何通过足够的数据存储和分析处理能力来有效地应用这些数据,从中提取出有价值的信息,并最终转化成可以优化管理模式和提升服务水平的决策知识,这是大数据价值能否被充分展现和应用的关键所在。
摘要:电力行业是大数据技术应用的重要领域之一,电力大数据产生于电力生产的各个环节,蕴藏着丰富的商业和社会价值。介绍了大数据技术在电力行业的应用现状,重点对基于大数据技术的电力用户行为分析方法进行了归纳总结,最后给出了几个面向电力用户行为分析的大数据应用案例。
关键词:电力行业,大数据技术,数据挖掘,电力大数据,用户行为分析
参考文献
[1]王继业.大数据与电力企业[J].电力信息化,2012,10(8):7.
[2]闫龙川,李雅西,李斌臣,等.电力数据面临的机遇与挑战[J].电力信息化,2013,10(4):1-4.
[3]中国电力大数据发展白皮书(2013)[R].北京:中国电机工程学会,2013.
[4]FAYYAD U,PIATETSKY-SHAPIRO G,SMYTH P.From data mining to knowledge discovery[M].An overview.AAAI/MIT Press,Cambridge,Mass,1996.
[5]王璨,冯勤超.基于价值评价的电力用户分类研究[J].价值工程,2009,28(5):64-67.
[6]王雷.基于数据挖掘的电力行业客户细分模型研究[D].上海:上海交通大学安泰经管学院,2007.
[7]廖旎焕,胡智宏,马莹莹,等.电力系统短期负荷预测方法综述[J].电力系统保护与控制,2011,39(1):147-152.
[8]伍伟华,庞建军,陈广开,等.电力需求侧响应发展研究综述[J].电子测试,2014,21(3):86-94.