大数据推荐系统

2024-06-01

大数据推荐系统(精选8篇)

大数据推荐系统 篇1

《新技术讲座》论文2012-2013(1)

XXXX大学—

《微软新技术系列讲座》论文

大数据

一、背景及发展趋势

1.1.背景

大数据(BigData),或称巨量资料,指的是所涉及的资料规模巨大到无

/ 7

《新技术讲座》论文2012-2013(1)

法透过目前主流软件工具,在合理的时间内撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume(海量)、Velocity(高速)、Variety(多样)、Value(价值)。

大数据作为时下最火热的IT行业的词汇,随之数据仓库、数据安全、数据分析、数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。

随着云时代的来临,大数据也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数

十、数百或甚至数千的电脑分配工作。

1.2.发展趋势

斯隆数字巡天收集在其最初的几个星期,比在天文学的历史,早在2000年的整个数据收集更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上和将获得的数据,每5天沃尔玛处理超过100万客户的交易每隔一小时,反过来进口量数据库估计超过2.5 PB的是相当于167次,在美国国会图书馆的书籍。FACEBOOK处理400亿张照片,从它的用户群。解码最初的人类基因组花了10年来处理时,现在可以在一个星期内实现。

“大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自

/ 7

《新技术讲座》论文2012-2013(1)

身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。

大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。

大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。

谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。

大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,目前已进入大数据时代,但现在的硬件明显已跟不上数据发展的脚步。

以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。

/ 7

《新技术讲座》论文2012-2013(1)

未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。

二、实施应用

大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。

“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”———哈佛大学 社会学教授加里·金

随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。

针对大数据的世界领先品牌存储企业有:IBM、EMC、LSISandForce、INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等 对于大数据的存储问题,以下问题不可忽视:

容量问题

/ 7

《新技术讲座》论文2012-2013(1)

这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。在解决容量问题上,不得不提LSI公司的全新Nytro™智能化闪存解决方案,采用Nytro产品,客户可以将数据库事务处理性能提高30倍,并且超过每秒4.0GB1的持续吞吐能力,非常适用于大数据分析。延迟问题

“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。

安全问题

某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,大数据应用催生出一些新的、需要考虑的安全性问题,这就充分体现出利用基于DuraClass™ 技术的LSI SandForce®闪存处理器的优势了,实现了企业级闪存性能和可靠性,实现简单、透明的应用加速,既安全又方便。

成本问题

对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,这种锱铢必较的服务器也只有LSI推出的Syncro™ MX-B机架服务器启动盘设备都能够获得明显的投资回报,当今,5 / 7

《新技术讲座》论文2012-2013(1)

数据中心使用的传统引导驱动器不仅故障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100倍。并且对主机系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本的问题。

数据的积累

许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

灵活性

大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。

应用感知

最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。

针对小用户

依赖大数据的不仅仅是那些特殊的大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”存储系统,主要吸引那些对成本比较敏感的用户。

实际应用

/ 7

《新技术讲座》论文2012-2013(1)

包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。

三、心得体会

听完此次王老师的《大数据》讲座,让我受益匪浅。不仅充分了解了大数据的概念,大数据时代的起源、发展及实际应用产品的问世,而且对大数据的神奇很是惊讶。的确,未来的世界需要科技创新,需要技术变革,而大数据就是改变世界的助推器之一,作为即将进入IT行业的我们来说,这既是机遇,也是挑战!

/ 7

大数据推荐系统 篇2

基于有线电视网络的互动点播业务, 是三网融合时代广电运营商主推的核心电视业务之一, 是对现有广电商业模式的一种有益创新。广电运营商希望借助互动电视业务, 能在与IPTV、OTT的竞争中占据一席之地。

目前各省市有线运营商多数开展了互动点播业务, 但真正使用点播业务功能, 并能接受付费点播模式的用户仍在少数。原因很多, 如用户消费习惯、收视习惯、双向机顶盒使用难度大等问题, 但对比目前互联网视频点播及消费情况来看, 上述问题不是导致互动点播业务收视、消费率低的主要原因。有线运营商目前提供的有线电视互动点播业务是在原有播出模式下, 对节目源进行一定程度的聚合和归类, 细化节目EPG, 对用户提供诸如点播、时移电视等新业务形式。从本质上来看互动点播业务仍然采用传统的推送模式, 没有顾及用户喜好, 也没有细分用户群体, 因而导致了业务的较低使用率, 这种粗放的经营模式远不能满足用户需求。

互联网视频采用大数据技术, 通过对用户喜好、消费水平等数据进行挖掘分析, 推出更适合于单个视频用户的视频解决方案, 值得有线电视运营商学习和借鉴。

2互动点播业务大数据分析

2.1互动点播业务大数据

基于有线电视的互动点播业务目前主要通过数字机顶盒采集终端用户数据, 主要涉及用户数据有以下几个方面。

(1) 账户数据

包括用户机顶盒ID、用户姓名、用户类型、家庭住址、授权信息、银行账户、账户密码等。

(2) 媒体服务资源描述数据

包括媒体ID、类型、名称、国家地区、年份、清晰度、导演、主演、上传时间、付费金额、节目概述等。

(3) 业务数据

包括交易ID、用户ID、资源ID、点播时间、点播量、节目单价等。

(4) 评价数据

包括交易ID、用户ID、资源ID、评价时间、评分等。

(5) 机顶盒遥控器操作数据

包括播放、暂停、切换、录制等。

从上述数据看出, 目前有线电视运营商采集到的用户数据粒度较粗, 缺少和用户喜好直接相关的数据, 如视频内容详细描述、视频切换频度、节目实际观看时长等。因此, 必须仔细分析现有数据和用户之间的关联性, 结合有线电视互动点播业务运营特点, 对数据进行建模并设计精准推荐模型, 才能把现有数据价值最大化。

2.2互动点播业务大数据推荐算法分析

推荐算法简单来说就是利用用户的行为, 来推测用户可能感兴趣的东西, 主要有协同过滤推荐算法、基于内容的推荐算法、基于网络结构的推荐算法等。当前使用最广泛的是协同过滤推荐算法, 其核心思想是:将用户兴趣模型表示为一个m×n的用户项目关联矩阵, 其中m是用户的数量, n是项目的数量。矩阵中的取值与推荐系统的类型设定相关, 最常见的是用户对项目的评分值, 以及根据用户是否购买或浏览过该项目将矩阵填充为0/1矩阵。基于该矩阵, 可以根据其他用户的偏好行为来产生对目标用户的项目推荐列表。

根据协同过滤推荐算法思想, 我们可以把基于有线电视的互动点播业务数据按照表1、表2、表3、表4所示来整理。

假设朝阳区互动点播业务用户有100个, 统计上述信息就可以得出不同用户对相同资源的评分数据, 如表5所示。可以看出, 通过电影A的评分可以对用户进行划分, 把评分为5的所有用户定义为用户集G, 当有新用户c试图点播电影A时, 就可以采用用户集G对新用户的喜好进行预测, 算法公式如下:

其中sim (c, G) 可以采用夹角余弦或Pearson相关性计算。

基于协同过滤推荐算法的推荐方式存在一些缺陷, 如冷启动问题、数据稀疏性问题等, 还需结合其他算法进一步优化。

2.3互动点播业务大数据推荐算法优化

有线电视互动点播业务由于本身数据采样样本空间小, 所以基于协同过滤推荐算法的推荐粒度较粗, 例如, 通过用户评分能大致推断出用户喜好, 却不能掌握用户对视频里哪一部分内容、哪个演员的某一段对白感兴趣, 这将导致推荐效果的弱化。

由于数据采样设备的局限, 利用机顶盒遥控器解决上述问题是可行办法之一。通过数字机顶盒可以记录下在特定时间段内遥控器的操作数据, 如播放、暂停、切换、录制等。数字机顶盒使用XML文档记录用户遥控器操作数据, 回传到数据分析服务器端, 通过基于内容的推荐算法, 最终可以得出更加精准的用户推荐方案。

基于内容的推荐算法可以有效解决冷启动问题、数据稀疏性问题, 是基于协同过滤推荐算法的有效补充, 但是因为该算法受到内容提取技术的约束, 实现较为不易;另外, 因为内容提取技术算法较为复杂, 需要消耗较多的计算能力和计算时间。为了有效利用既有的有线电视互动点播业务支撑系统, 尽量减少新系统的建设成本, 本文设计了一个折衷方案:利用遥控器操作数据和预先制作的视频内容描述数据, 按采样时间进行量化分析, 形成用户喜好描述文档, 再使用基于内容的推荐算法对用户喜好描述文档进行挖掘分析, 由此得出推荐数据模型。方案描述如表6、表7和表8所示。

从用户喜好描述文档看出, 计算用户喜好度描述以及关键词的出现频度, 就可以掌握用户的兴趣点。

因此, 在基于协同过滤推荐算法的数据基础上结合使用基于内容的推荐算法, 就可以计算出更加准确的用户兴趣点, 形成较为精确的推荐数据模型, 如表9所示。

混合算法思路如下:通过用户喜好度和用户评分的均值来标示用户喜好描述文档中不同词汇的权重, 再利用基于词频差异的特征算法如TF-IDF来计算用户喜好描述文档, 然后用向量空间来表示用户喜好描述文档 (W1, W2, W3, ……) , 最终形成推荐数据模型。

3互动点播业务大数据解决方案设计

有线电视互动点播业务大数据主要有两类:一类是通过机顶盒采集的账户数据、业务数据等, 把这类数据定义为用户数据;另一类就是采集用户操作遥控器而得到的实时数据, 把这类数据定义为事件类数据。用户数据特点是数据量大、实时性要求不高, 可以采用批处理数据处理架构, 使用基于协同过滤推荐算法完成数据的第一次加工;而事件类数据因为其实时性要求高, 可以采用近似在线的数据处理架构, 使用基于内容的推荐算法完成数据的二次加工。本文设计互动点播业务大数据应用解决方案如图1所示。

这个解决方案首先把账户数据、业务数据、评价数据等离线数据存储到Hadoop平台中, 因为离线计算在算法上相对灵活, 工程方面的需求也简单, 客户端的SLA响应时间要求不高, 在部署新算法到生产环境时, 对于性能调优的需求也不高, 因此设计利用Map Reduce并行计算框架对数据进行初步加工, 利用基于协同过滤推荐算法计算出初步推荐模型。基于初步推荐模型, 结合用户实时输入的事件类数据, 交由近似在线计算模块 (如Twitter Storm) 实时计算模块进行基于内容的推荐计算。因为有初步推荐模型, 所以计算量得到了有效控制, 缩短了推荐系统的响应时间, 同时也增加了推荐精度。

4结束语

基于协同过滤推荐算法和基于内容的推荐算法是当前较为流行的推荐系统常用算法, 本文基于对有线电视互动点播业务数据的整理和分析, 建立了一种混合使用两种算法的数据推荐模型, 并设计了基于这种数据推荐模型的解决方案, 为大数据技术在有线电视互动业务中的应用进行了初步探讨。

摘要:本文对有线电视互动点播业务数据进行了整理和分析, 建立了一种推荐数据模型, 并设计了基于这种推荐数据模型的应用解决方案。

推荐芬雷布的《大数据云图》 篇3

与许多空泛的书不同,《大数据云图》作者的眼光很“独”,是那种赌石人的眼光,这跟作者在行内的“现役”身份有关。这本书谈了大数据的方方面面,并非在所有方面都权威,它在硅谷真正权威的地方就是这张“大数据云图”。所以我们就从这张图讲起。

看过《智取威虎山》的人,都听说过“联络图”。“联络图”把控制一个地区所需要的关键资源、关键人交代得清清楚楚,搞定了它,才能搞定各个山头,坐拥一方天下。“大数据云图”就好比这张“联络图”,当然不是要让你去当土匪,而是让你具备像投资人那样的火眼金睛,从“有钱没钱”这个专业角度,一眼看出大数据这条山脉里,哪里有矿,价值几何,该去搞定什么。

芬雷布来北京的时候,我还没有太理解他的思路。后来我为了搞清楚这张“联络图”的门道,专门跑了趟美国硅谷,与芬雷布当面交流。现在根据他给我的解答,我来谈谈对这张神秘的“联络图”的理解。大数据云图在网上是随时更新的,我们下面的介绍以2013年4月的版本为准。

从“大数据云图”这个视角看大数据,首先对大数据背景的看法就有自己鲜明的特色,从院士、学者或实验室角度看,Hadoop算什么东西?它不过是走向灵图解的一个过客。但这种看法需要至少15年以上的视野。而作为投资人,芬雷布坚持把Hadoop当作主脉这样一种简明的观点。因为正如当年温世仁跟李岚清说的,对商人来说,要改变世界,十年足够了。十年还不能改变世界的东西,商人根本不会理会。人工智能也许要搞一千年以上,但VC必须得把握十年以内改变世界的东西,Hadoop足够了。为此,芬雷布把投资目光主要聚焦在为开源技术提供商业支持的公司(如Cloudera、DataStax、LucidWork之类)身上。以改变世界的尺度来认识世界,这是实干家与理论家的不同。

其次,芬雷布建立了一个他称之为“基础设施”的基本板块,来把握大数据产业的“资产”层面的诸要素,包括四个展开环节——数据分析(Cloudera、EMC等)、数据操作(couchbase、10gen等)、数据服务(亚马逊、谷歌等)、结构化数据库(Oracle、IBM的DB2、SYBASE等)。在我看来,这是指为整个大数据产业分享固定成本的承重部分。

在这一部分,芬雷布的眼光非常“毒”,他与实验室看法不同,非常早看出服务潮流的转变,体现在对亚马逊将坐大的预见上。事实证明了他的预见。据Synergy报告显示,2013年第三季度,亚马逊获取了美国云计算市场总收入25亿中的多数份额,本身收入提升55%。Synergy估计,亚马逊第四季度云计算收入将达7亿美元,比微软、IBM、谷歌、Salesforce.com的总和还高出15%。芬雷布在几年前就预见到,亚马逊将主要赢在用WEB服务卡位(AWS)上,这与云的方向是一致的。中国搞大数据,许多还是IP时代的眼光,而非WEB时代的眼光,这点需要注意。阿里在往安卓的结构里面嵌入WEB框架,对谷歌搞“修正主义”,说明也看到了同样方向的问题。

芬雷布第二个跟实验室眼光不同的地方,表现在对商业的理解上。他很好解释了Cloudera将走强的原因。在芬雷布看来,Cloudera只集中解决了一个问题,就是实时问题。对科学家来说,大数据用多长时间出分析结果,不是主要问题,但对客户来说就不同,Cloudera Impala帮助其他公司运行Hadoop,关键是把灵敏作为一种结果,提交给客户。以Cloudera现在的规模,随便一个中国上市公司都可以收购它,但有没有这眼光是另一回事。

第三,“大数据云图”最出彩的部分是基础设施之上的“应用程序”板块。事实上,VC对基础设施部分,只投了很少的钱(5亿美元),而把重心全押在了应用上。这与中国大数据的做法形成鲜明对照。如果拿芬雷布的“联络图”对照中国,中国的大数据许多都在“不务正业”,将来可能骗到国家的钱、圈到国家的地,但长出什么来,不好说。让我们来看看真搞市场经济,让大数据落地,应该怎么搞。

芬雷布称之为“应用程序”的板块是指“人类和计算机系统通过使用这些程序,从数据中获知关键信息”。但实际上,它对应的是整个大数据产业的相当于边际成本的部分,在云计算背景下,它是指面向云端轻资产运作的部分,即按“使用”(“按需”是另一角度的说法)收费的部分。

“应用程序”板块的框架结构,由六部分组成,分别是垂直业务(BloomReach等),运营智能(New Relic、Splunk等),广告/媒体(Collective、DataXu、Metamarkets等),数据即服务,商业智能,数据分析和可视化。

让我们来看,是一些什么样的公司活跃在这些应用领域。

在垂直业务应用领域,像BloomReach这样的公司,帮助电子商务企业优化网站,进行大数据营销服务,以提高转化率。

在运营智能应用领域,New Relic将营销自动化,帮助商家分析哪些客户最有价值,特别是什么活动最有可能扭转不利局面,Splunk公司帮助IT工程师分析设备生成的日志数据。

在广告应用领域,应用服务企业帮助商家算出哪种广告最适合顾客,产生特定的广告印象需要花多少钱,近来为移动广告进行分析的公司,如Flurry,最具增长潜力。

在数据即服务应用领域,邓白氏公司在为各种数据提供网络编程接口,值得注意的是,与原有做法(例如阿里的某些作法)不同,这样的数据源允许他人在其基础上建立APP程序。

在商业智能应用领域,IBM的Watson是开拓和领导者(我们以前介绍过),MicroStregy和Domo的特点在把智能应用引向新的领域,前者是在移动产品上,后者是在云计算上。需要注意的是,与传统集中于企业首脑部门的BI不同,大数据的BI最终将武装到企业的神经末梢,特别是直接接触客户的部门。

在数据分析和可视化应用领域,Tableau Software提供了互动性强且易于使用的大数据可视化软件服务,QlikTech推出了用26000家企业使用的QlikView可视化产品。这一领域目前非常活跃,社交协作功能加入数据分析和可视化服务看来是一种趋势。

总的来说,芬雷布对大数据产业前景的展望,特别强调应用,“期待更多的大数据应用程序涌现,让消费者和企业将数据应用到工作当中”。而在基础设施方面,则会笼罩在亚马逊的阴影里,新手只能从不受它影响的领域中冒出。

与美国的情况相比,我认为中国发展大数据产业,有几个问题需要从芬雷布的判断中得到重要启示:第一,要深入认识大数据产业分工的规律。大数据的产业框架与云计算有内在联系,不能离开云计算发展大数据。中国当前大数据发展遇到落地难,这是表象,深层问题是没有理解基础设施与应用之间,是一种基于云计算的固定投入与边际投入大分工的关系。第二,在基础设施方面,中国一些主要企业数据不开放的做法,放在全球看,正在过时。之所以不开放,根子还在对第一个问题的理解上。适应云计算的做法,要求大数据基础设施的建设思路尽早从IP思路,转向WEB思路。WEB只能是开放的。亚马逊虽然强,但在移动大数据方向上,中国有充分的创新空间。第三,在应用服务方面,要特别向美国企业学习。适应云计算的做法,是使大数据应用面向轻资产服务。现在国内大数据应用有一个不好的苗头,就是企业做着做着,变成传统BI的大数据,进而走向封闭、集中,这没有把大数据应用的真正优势发挥出来。大数据应用一定要实现面向最终需求的全员智能,做不到都是假的。

大数据推荐系统 篇4

《大数据在高校个性化教育中的应用研究》

二零一五年四月

兰州大学本科毕业论文

摘 要

在信息时代的今天,社会正在以惊人的速度产生海量数据,这将对传统教育模式产生巨大的影响。在数据量巨大、种类繁多、信息多样化的大数据背景条件下,全球各大高校教学服务和数据利用方式将发生前所未有的变化,高校中汇聚着大量的信息。

大数据技术的到来,使各大高校实施个性化教育成为可能,真正实现从群体教育的方式转向个体教育。利用大数据技术,我们可以去关注每个学生个体的微观表现。在高校教育中,学生们比中小学更加自由,也更需要这种监督与个性化教育。大数据的到来,使跟踪每一个学习者的详细数据不再困难,从而实现了真正意义上的、全面细致的个性化教育。每一个学生都有机会获得为自己量身定做的教学活动和资源;家长也将可以通过崭新的视角掌握全面、真实的信息;教师也将可以从中获取对教学的客观反馈、对课程内容和学生的学习过程进行评价、挖掘每一位学生的学习模式、改进个性化教学的手段;教育管理者则能够更好地组织教育资源、制定教育改革的方向和措施;教育研究者也能借此技术转变思路,开拓新的研究思维和路径。尽管大数据为教育带来了巨大的启发和机遇,但是作为新鲜事物,许多与之相关的研究仍处于探索和尝试阶段,有待于在实践过程中不断完善。

关键词:信息时代; 大数据技术; 个体教育; 个性化教育;

兰州大学本科毕业论文

目 录

摘 要...............................................................1

兰州大学本科毕业论文

兰州大学本科毕业论文

关的研究目前仍处于探索和尝试阶段,有待于在实践过程中不断完善。

[2]

(二)课题研究方法

1.文献分析

查阅文献资料,对已有的大数据相关文献进行阅读、分析。通过查阅已有文献,得知大数据概念,分析出大数据的特点以及大数据与传统数据的区别;通过查阅大数据产生的背景,分析出大数据技术在个性化教育中的应用;通过查阅国内与国外(以美国为代表)大数据在高校个性化教育中的应用现状,做出国内教育大数据反思,与国外的差距;大数据本身还在不断分析研究阶段,到底能为高校个性化教育带来什么,还得继续研究。

2.访谈法

通过与周围朋友,以及其它高校朋友交流,去倾听他们对于大数据技术的理解,以及他们对大数据技术的期望,去分析研究在目前我国应该如果利用这一技术。

大数据在高校个性化教育中的应用研究 的数据。

(3)产生速度快

数据的创建和移动速度都非常快,这就对数据时效性要求特别高。在高速发展的信息时代,通过高速电脑处理器和服务器来快速创建实时数据流已成为流行趋势。(4)价值密度低

数据信息量非常大,自然它的价值密度就不会很高。数据总量越大,价值密度就越低,两者之间呈反比例,有些单条数据在大数据中可能没有价值,无用数据太多,但它的综合价值大。因此,如何用强大的数据挖掘算法更迅速地提取出有用信息,是大数据时代必须解决的难题之一。

(5)存储要求高

规模巨大、类型多样的数据自然对存储带来很大的问题。目前的存储技术很难解决数据的异质异构、爆炸性增长带来的存储问题,已有的静态的存储方案已经完全不能满足数据的动态演化带来的挑战。因而在海量分布式存储和查询方面仍然需要做更进一步的研究。

(6)管理复杂

很显然,大数据的数据量大、种类多样、产生速度快、价值密度低、难存储等特点,将直接为管理带来很大的困难。

3.大数据与传统数据的区别

大数据技术的到来,会让许多我们曾经没有重视的,或者是因为技术与方法无法去收集的信息,现在都有可能作为“数据”进行收集并分析了,使得人们对于“数据”的理解更为深入了。

传统数据的整理方式更能够凸显学生整体的水平。这些数据没有必要、也不可能进行实时地采集,而是在阶段性、周期性的评估中获得。这些数据的收集,主要是通过考试或量表调查等形式进行获得的,完全是在学生知情的情况下,自然会带有很强的刻意性和压迫性。

而大数据有能力去关注每个学生个体的微观表现:他在听什么话的时候点头,开小差的次数,在不同的课堂上提问多少次,在一道题上停留了多久,在什么时候翻书,会向多少同班同学发起主动交流,等等。这些数据完全是在学生不自知的情况下被收集、观察的,只需要借助一些特殊的设备与观测技术,不会影响学生任何的日常生活与学习,这将使得它的采集也非常的自然、真实。

综上所述,我们可以从以下几个方面对传统数据与大数据进行比较区分:

[4]

兰州大学本科毕业论文

(1)范围不同

传统数据反应的是整体、宏观的教育状况,用于教育工作者进行重大的教育改革等;大数据可以分析每个学生个体实时的、微观的课堂状况,用于及时调整教育行为与实现个体化教育。(2)方式方法不同

传统数据的收集、分析、存储、分类等都已存在特定的规则,方法论也相较完整:而大数据的收集、分析等,由于大数据本身是新鲜东西,所以还没有形成清新的方法、路径以及评判标准。(3)对象不同

传统数据来源于阶段性的、整体性的评估,数据收集过程可能会产生很大误差;大数据记录的是过程性的、实时性的行为现象,用的是 大数据在高校个性化教育中的应用研究

有固定的一个老师上一门课,每个人面对的都是一样的老师,一样的教材,一样的学习任务。

通过以上特征,明显能感觉到相比中小学,高校本身就注重个性化教育,但,要实现对每个个体进行不同的教育方式,只能通过大数据技术对每个人进行跟踪、分析、研究,从而制定个性化的方案。

兰州大学本科毕业论文

2.大数据可以实现过程性评估

教学评估应该是过程性的,而非只看结果。如果我们想象,教师拥有每个学生的上课情况。期末时将这些数据汇总起来,就使得撰写评语时有了更加丰富的素材与数据依据,能对学生的发展提出建议。另一方面,这些数据也可以促使教师反思,自己在哪些地方需要改进。

如果是应用信息化的课程载体对学生的行为进行记录,而不是通过教师的观察,就能真正实现大数据与课堂进程的结合。因此,大数据技术可以对每个学生在课堂中的微观行为进行捕捉,帮助老师了解学生对知识的掌握程度以及感兴趣程度,进而对老师的教学活动进行反馈。

3.大数据实现学生课外学习轨迹的积累

假如家长通过手机就能获得学校的通知公告等信息,可以记录孩子每天课余时间,包括孩子看过哪些书,去了哪里游玩,与谁在一起等等。便捷的积累下了非常有价值的数据,从而可以有针对性地帮助家长发现一些现象。同时可以给他提出如何帮孩子减负的针对性的建议。而对于研究者,可以通过数据库统计一个学校、一个区域的整体情况,获得有价值的数据。所以说大数据,还能够让我们更加了解学生课外学习的轨迹。

可以这样说,大数据时代的到来,让跟踪每一个人的数据成为了可能,从而让研究“人性”成为了可能,而对于教育研究者来说,我们将比任何时候都更接近发现全面的学生信息。[7]

(三)大数据在高校个性化教育中的应用

1.学生方面

每个学生个体都有机会获得为自己量身定做的教学活动和资源。以及联系方式等基本信息,食堂消费、住宿晚归等生活信息,选课、课后作业、借阅图书、成绩等学习信息,参与的社团、竞赛、讲座等信息;

2.家长方面

学生家长能通过崭新的视角掌握全面、真实的学生信息。包括上课表现、成绩情况、交流情况、师生互动等等。

3.教师方面

利用所收集的每个学生学习过程中的全面信息,从中获取对教学的客观反馈、对课程内容和学习过程进行评价、挖掘学生的学习模式、改进个性化教学的手段。以及如何利用大数据技术轻松处理教学任务、课件等教学信息,论文著作、科学研究数据等科研信息;

大数据在高校个性化教育中的应用研究

4.学校方面

学习可以利用大数据技术更好的管理学校的资产信息、师资信息、招生就业信息等。

5.教育管理者方面

教育管理者利用大数据技术更便捷地组织教育资源、制定教育改革的方向和措施。

6.教育研究者方面

能够在大数据技术的影响下,转变思路,开拓新的研究思维和路径。

(四)国内外教育大数据的现状与未来发展趋势

1.国内大数据发展现状

2011年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术重点予以支持。其中“十二五”规划上,把信息处理技术作为关键技术创新工程被提出来,其包括海量数据存储、数据挖掘、图像视频智能分析,都是大数据的重要组成部分。

中国三大通信运营商都在积极推进大数据应用工作,并取得了较好的进展。电商企业阿里巴巴提出要做中国数据分析

兰州大学本科毕业论文

件编辑联盟曾号召政府部门和私人企业共同合作,投入3亿欧元用于推动大数据领域的发展。众所周知,法国在数学和统计学领域有独一无二的优势。

日本正在针对大数据推广的现状、发展动向、面临问题等进行探究,为解决社会公共问题作出贡献。2013-2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略,提出要把日本建设成为“世界最高水准的广泛运用信息产业技术的社会”。

目前,不仅印度的小公司纷纷涉足大数据市场淘金,一些外包行业巨头也开始进军大数据市场。据统计,印度大数据行业规模在3年内将达到12亿美元,是目前规模的6倍,同时也是全球大数据行业平均增长速度的两倍。

[9]3.国内大数据发展展望

伴随着大数据时代的来临,世界各种对数据的重视达到前所未有的高度。按照世界经济论坛报告的看法,“大数据为新财富,价值堪比石油”。上面介绍了许多国外的动态,自然需要思考本国可能采取的发展道路。2014年2月27日中央网络安全和信息化领导小组宣告成立,组长习近平提出,没有网络安全就没有国家安全,没有信息化就没有现代化。建设网络强国,要有自己的技术,有过硬的技术;要有丰富全面的信息服务,繁荣发展的网络文化;要有良好的信息基础设施,形成实力雄厚的信息经济;要有高素质的网络安全和信息化人才队伍;要积极开展双边、多边的互联网国际交流合作。从话的另一面也说明,目前我们没有过硬的技术,网络文化还有问题,基础设施还是比较差,人才队伍素质不应求,也没有可靠的盟友,信息经济实力太弱。大数据是信息时代的“石油”、开发大数据资源的能力将影响未来核心竞争力。我国不能依靠别人修好路,只能靠自身加速前行,这种能力就是将数据转化为信息和知识的速度与技术,而这种转化速度和技术,则决定了大数据技术能力的高地。

(五)大数据在高校个性化教育中面临的挑战

同时也伴随着不少问题和挑战。

尽管大数据技术为高校个性化教育带来诸多益处,也推动着教育理念的变革,但1.关于相关人才

要在高校有效利用大数据技术,就需要来自数学、统计学或计算机工程等领域的众多专业人员,如收集高质量数据的专员、管理硬件的系统管理员、程序开发人员、数据分析员等等。这些人员不管是招募还是培训都是很大的困难。

2.隐私问题

大数据时代的个性化服务要对每个个体的行为进行追踪和分析,在收集到的大量信息中,也许会有个人无心公于世的个人隐私信息。此类信息的所有权和使用权的归属并不明确。

大数据在高校个性化教育中的应用研究

3.数据主宰的隐忧

为了追求更好的学习成绩基于学生以往的学业表现为其推荐课程,这在一定程度上可能导致学生只学习过于简单的课程,不利于其挑战性的激发,学生也有可能被迫去放弃梦想而转修一些实用课程。

4.数据真实性值得怀疑

当大数据普遍运用于高校时,虽然学生信息是在不自知的情况下被收集的,但普及之后大家就都会知道自己的行为会被记录,而刻意去做一些事情,这样收集到的信息就不会是本真的东西。

5.研究方法不成熟

大数据研究毕竟是一个比较新的领域,目前还没有形成清晰的方法和路径,同时也缺乏统一的标准,每个教育机构都可能采用不同的运作形式,其运用效果值得怀疑。

兰州大学本科毕业论文

结 论

总而言之,随着大数据的发展,科技产业受到深刻影响,收集和解析数据的能力在近年来突飞猛进,其应用范围深入到生活的方方面面。无疑也将会对传统教育模式产生巨大影响。将大数据技术应用于高校个性化教育中,将会使传统的整体教育发生翻天覆地的变化。传统的高校教育是对人的社会责任能力教育,授教统一的内容;而大数据带来的个性化教育是认同个体生理基础的差异,重视每个个体在教育中的中心地位,注重学生的独立意识、自信心、主动性、创造性、向权威挑战的精神和多种差异能力的培养,学校要努力创造条件,让每个个体充分发展这些能力。学生是其中最大的受益方,每一个学生都有机会获得为自己量身定做的教学活动和资源;家长也可以通过崭新的视角掌握全面、真实的教育信息;教师从中获取对教学的客观反馈、对课程内容和学习过程进行评价、挖掘学生的学习模式、改进个性化教学的手段;教育管理者能够更好地组织教育资源、制定教育改革的方向和措施;教育研究者能够借此转变思路,开拓新的研究思维和路径。尽管大数据为教育带来了巨大的启发和机遇,但是作为新鲜事物,许多与之相关的研究仍处于探索和尝试阶段,有待于在实践过程中不断完善。

大数据在高校个性化教育中的应用研究

参考文献

大数据推荐系统 篇5

面向全国客户:省、市、县政府、财政局、地税局、管委会等政府综合治税部门。系统可根据客户需求定制开发,以下功能仅供参考。

综合治税是由地方政府多部门通力合作的税收征管及监控活动。推进政府税收保障工作、加强综合治税力度是提高财政收入质量,增强财政实力的重要保证,尤其从目前征管现状来看,由于涉税信息传递不畅,部分行业、部分税种特别是一些地方零散税源跑冒滴漏现象还较为突出,一定程上造成了税收流失。充分依托各相关部门、单位的职能,建立健全税收保障工作机制,对于实现涉税信息共享、推进综合治税工作、培植壮大税源、依法加强税收征管、堵塞税收漏洞、有效防止税收流失,促进税收与经济协调增长具有非常重要的意义。

综合治税平台是一个跨部门、跨系统的电子政务系统,涉及到市财政局、市国税局、市地税局、市工商局、市质监局、市规划局、市建设局、市水利局、市交通局、市房管局、市供电公司、市公安局、市司法局、市中级法院、市教育局、市科技局、市经贸委、市人事局、市残联、市国资委、市物价局、市文化局、市体育局、市国土局、市环保局、市外经局、市发改委、市劳动保障局、市民政局、市卫生局、市统计局、市城管局、市审计局等(以下简称涉税部门)相关市直部门的数据采集、数据交换、数据整合、应用开发。

客户使用案例:山东济南、济宁、青岛、德州、菏泽等地区;河南郑州地区;江苏徐州地区;湖北恩施州地区;湖南常德地区;贵州遵义、毕节地区; 系统部分功能点介绍(以下仅是系统部分功能,详细方案联系客服)

一、数据上报、采集、查询(涉及40 个部门左右)

二、绩效管理

三、指标报送详情、统计等

四、数据比对(包含地税分析系统、国税分析系统、营改增分析系统等)

1、户籍比对

2、国地税、国税公司信息比对

3、地税工商信息比对

4、出租房屋(房地产税收管理)

5、根据国税的增值税和消费税,地税的营业税,三者税款根据税款缴纳比率,计算出三个附征税款的缴纳数,同附带的三个附征税进行比对。同时进行比对,计算出差额。从而找出遗漏的税款。

6、土地信息比对

7、用电、用水、用气信息比对

8、医保刷卡信息比对

9、酒店、住宿业信息比对

10、交通行业信息比对

11、驾校信息比对

12、房屋销售信息比对

13、股权变更信息分析

14、房产税分析

15、商品房销售情况分析

16、车船税分析

17、其它行业、税种信息比对,可根据地方需求定制开发。

五、疑点欠税问题分配处理、绩效考核等

六、税收查询分析

1、一户式分析、规模企业分析、高新企业分析、重点税源分析等

2、数据综合查询统计分析

3、纳税排名

4、重点企业重点税种同比分析

5、国地税收入行业税收对比

6、分行业、区域、税种、级别、机关单位等税收统计分析

7、柱状图、折线图、饼状图等图形展示税收情况。

七、财政收入分析 1 金库报表查询分析 收入报表查询(一般预算收入分析、全口径、分行业、区域、税种等分析,同

比、环比等分析)3 非税收入分析 4 重点项目查询分析

八、税源电子地图(地理信息系统)功能

1、纳税企业标注功能

2、纳税企业地图查询

3、纳税企业一户式查询、统计等功能

九、掌上应用平台app

1、纳税排名

2、税收情况分析

大数据推荐系统 篇6

一、引言

大数据是一种重要的战略资源,在大数据环境下,世界成为一个统一的数据集合,人们用数据化思维和先进的处理技术探索海量数据之间的关系,从而构筑一个更加透明化、对称化的世界。大数据已经成为经济发展的巨大引擎,在提升产业竞争力、推动商业模式创新方面发挥出越来越重要的作用。国家审计应积极适应,全面服务经济发展需要,认真分析研究大数据对传统审计带来的挑战,创新审计思维、组织方式和技术方法,优化信息系统审计,提升审计数据分析能力,培养大数据人才,以应对大数据时代带来的深刻变革。

二、信息系统审计的基本类型

1.真实性审计

真实性审计主要是对被审计单位的信息系统以及电子数据的真实性、准确性、完整性进行的审核,为财务审计提供基础支持。面对信息系统存储、处理产生的海量数据,传统的审计技术方法已经捉襟见肘,难以实现有效地分析判断。因此,大数据环境下的审计首先必须核实被审计单位的电子数据,只有确保数据的真实和准确,才能确保根据数据进行的`审计工作的有效性。审计人员核实信息系统中数据与实际业务流程符合程度,发现信息系统使用过程中的固有弊病,能够避免对假账进行有效审核的现象,提高财务审计的准确性。

2.安全性审计

安全性审计以被审计单位电子信息系统的安全防护为主要目标,确保信息系统的安全、持久、可靠运行。随着现代信息技术的迅猛发展,企业及党政机关事业单位正面临着前所未有的网络安全威胁。为确保财务审计的合理性,审计人员应从信息系统漏洞的防护人手,采取必要的防护措施,使信息系统存储、处理产生的重要数据免于因恶意篡改,或因未授权访导致的泄漏等问题,始终处于安全状态。

3.绩效审计

绩效审计是企业财务审计的核心内容,进行绩效审计主要是确保投人与产出之间的比值小于1.绩效考核的对象不仅在于人,还在于对影响企业利润生产的主要因素的分析和审计,使企业获得直接的或间接的利润。基于大数据环境的信息系统审计使企业间接利润获取的主要途径,货币核算并不能作为企业审计的唯一内容。在企业绩效审核过程中,由于信息系统的流程复杂,且对操作人员具有较高的要求,因此如何衡量信息系统审计与成本投人之间的关系,是企业面临的主要问题。为提高信息系统的审计效率,应从系统的开发成本支出人手,降低信息系统的设计和应用管理,以降低审计系统风险。正确、合理地评价企业信息系统投资的绩效,给企业的投资者、债权人、管理者与经营人员提供专业的市场信息,能够确保企业审计的积极作用,促进审计部门的可持续发展。

三、大数据环境对信息系统审计的影响

1.庞大的数据信息影响审计效率

大数据环境除了为审计带来方便之外,繁杂的信息同时也影响了数据信息的审计。对于一些部门来说,审计信息包含了大量的文字信息、音频信息和视频图像等信息,信息处理存在一定的困难。加之一些被审计单位缺乏信息财务管理经验,在处理手段上缺乏先进性,尤其是在无关联信息处理上,更难发现问题。

2.大数据环境下的系统分布特征加大了审计难度

目前,随着分布式网络的快速发展,网络信息呈现出节点。在计算过程中,容易出现延迟,网络传输延时、不同的节点空间坐标都将给企业网络信息造成威胁。目前,企业多采取动态审计码获取的方式增加其安全系数,但与同时,这一方式也增加了审计难度。

3.审计范围增大,审计内容增多

大数据环境下,信息更新速度快,被审计单位的业务量也随之增加。另外,信息系统已经成为处理大量信息的被审计单位不可或缺的设施,为其提供管理效率化及使用便捷化。因此,审计内容不仅包括传统的审计内容,还包括被审计单位信息系统的基础设施控制与硬件控制,网络安全性能控制、系统开发、维护和控制。

4.新技术的发展对网络审计人员提出新的要求

随着网络技术的不断发展,基于云处理新技术、物联网业务大量出现,信息系统也变得更加先进和复杂。传统的审计技术已经不再适用信息系统审计的发展。也就是说,新技术对于信息系统审计人员提出了新的要求,其中包括扎实的财务信息基础、多元化的信息系统管理安全知识。但在更新发展过程中,审计人才的招聘和培养存在滞后性。如何培养专业性、复合型审计人才,提高审计项目质量值得审计机构深人研究。

四、大数据环境下信息系统审计的关键技术分析

1.基于网络基础的信息系统安全审计

安全审计是对被审计单位信息系统的监督管理行为,需要对网络信息进行实时跟踪,并提供数据记录。捕捉系统存在的安全隐患的系统信息并进行调整,并生成管理日志。针对目前情况下的先进的信息技术,开展基于大数据环境的安全审计,需要着重探索基于神经网络的安全审计技术,确保安全审训顷利开展。

2.基于大数据环境的信息系统审计证据生成技术

审计证据生成技术是指在计算机取证过程中使用信息系统整体保护措施。在确保大数据环境整体性的基础上对被审计单位数据进行有效的取证调查。其主要作用在于确保了审计原始数据的完整性,提高其安全系数。总之,审计证据生成技术尝试使用除信息系统以外的第三方公证机构,通过原始数据签名的方式来确保系统数据的完整性。

3.审计技术方案改革与完善

在传统审计基础上,实施网络审计方式,需要对相应的技术进行改进。其中包括:基于程序追踪、专家信息基础与管理控制测试矩阵相结合的审计技术,在被审计单位内部建立专业的审计信息系统,为被审计单位提供庞大的信息处理方式,并随着被审计单位发展对其进行完善。

参考文献:

[1]顾洪菲。大数据环境下审计数据分析技术方法初探[J]中国管理信息化,2015,03:45一47.

数据挖掘技术与网上购物推荐系统 篇7

随着信息时代的到来,网上购物也已经成为人们主要的购物方式之一。我们只需联网操作不出家门即可获得较为满意的商品。然而,随着信息数量的激增,使得网上购物变得复杂,耗时。那么消费者如何才能更便捷更满意地从海量推销产品中买到所需商品;销售者如何才能吸引更多的客户前来购买自家产品,已成为一个亟待解决的问题。本文介绍了网上购物推荐技术以及构成此技术的数据挖掘相关内容,可以有效地帮助供需双方更好地进行网上商品交易。

1 网上购物推荐系统

网上购物推荐系统(Re Comnlendatino System)就是通过分析用户浏览过的网页、网购过的商品等来得出其喜好、习惯的结论,然后向其推荐信息、商品的程序。网上购物推荐系统能够很好地向用户推荐所需产品,帮助用户方便准确地买到物美价廉的商品,也能够帮助销售商促进产品的销售量以及商品货架的安排,进货的配比等。

2数据挖掘

(1)数据挖掘的概念

数据挖掘就是从海量数据中提取或“挖掘”有用信息,也就是从大量信息中找到那些有用的,自己所需的信息。也有人将数据挖掘看做数据中的知识发现或是从存放在数据库、数据仓库等信息库中的大量书籍中发现有趣知识的过程。

(2)数据挖掘的任务

数据挖掘涵盖范围很广的数据分析和知识发现任务,包括:数据特征化、区分、关联、相关分析、分类、预测、聚类、离群点分析、演变分析等。

3 数据挖掘在网上购物推荐系统中的主要应用

网上购物推荐系统主要用到数据挖掘中的数据预处理技术,关联规则挖掘,分类分析,聚类分析等技术,本文主要介绍关联规则挖掘技术与聚类分析技术的应用。

3.1 挖掘关联规则的应用

挖掘关联规则应用于网上购物推荐系统可以:(1)向用户推荐相关产品,提高相关产品的销售额,即促进产品的捆绑销售;(2)安排商品销售的搭配;(3)准确进行进货配比;(4)根据购买模式对用户进行分类。从而动态调整网页,给各类用户提供更为满意的购物选择。

例1:在图书网站上,消费者想购买数据挖掘概念与技术丛书。

商家根据对关联规则的挖掘结果将数据挖掘概念与技术丛书与数据仓库丛书放到一起销售的策略,通过向客户推荐额外的商品来提高交叉销售量。

根据商家进行数据挖掘得到的信息:购买数据挖掘概念与技术的用户有69%还购买了数据仓库。经调查许多顾客都会受到这种导向的影响,已经购买数据挖掘概念与技术的顾客很有可能向购买此书的前辈一样也随之购买其本不打算买的数据仓库。

例2:更进一步,根据对若干个例1中购买数据挖掘概念与技术的顾客进行关联规则挖掘,便可得到购买数据挖掘概念与技术的顾客也同时购买了DW2.0:下一代数据仓库的构造与数据仓库生命周期工具箱。这样可增加顾客对于此类丛书的购买欲望;也使得商家在进书时,可以更好地配比有关数据挖掘类丛书。但是较之例1,例2没有列出数据的支持,可信度较低。

例3:为某个用户推荐N种商品通过关联规则来实现。首先为每个用户产生一条记录,包括该用户所有曾经购买过的商品,运用关联规则的挖掘算法从这个数据库中找出所有满足最小支持度阈值和最小置信度阈值的关联规则。然后从这些规则中找出被目标用户支持的那些(即用户购买了所有出现在规则左边的商品),列出用户尚未购买的产品,根据规则的置信度对产品进行排序,向用户推荐前N种。

1993年Agrawal首先提出关联规则概念,关联规则挖掘的对象是事务数据库。关联规则挖掘是指从数据集中识别出频繁项集,再利用频繁项集创建描述关联关系的规则的过程。

设I={I1,I2,…,Im}是项的集合。D是由若干条事务记录构成的事务数据库,其中每个事物T是项的集合,使得T⊆I,对应每一个事务T有惟一的标识,记作TID。设A是一个项集,事务T包含A当且仅当A⊆I。关联规则的一般形式为:A=>B的蕴涵式,其中A⊆I,B⊆I,AB=。

规则通过置信度与支持度来衡量其确定性和可用性,典型情况下,如果同时满足最小置信度与支持度,则规则是有用的Support(A=>B)=P(AυB);confidence(A=>B)=P(BIA)

因为如果项集满足最小支持度阈值,则称项集为频繁项集,又因为confidence(A=>B)=P(BIA)=Support(AB)/Support(A),所以置信度可以轻易从支持度中求出,进而挖掘关联规则的问题就变为挖掘频繁项集的问题。

两种经典的频繁项集挖掘算法:

目前,已经有许多种对于频繁项集的挖掘算法,如Apriori,FP T ree,使用垂直数据格式挖掘,挖掘闭频繁项集等,本文只简单介绍两种最经典的频繁项集挖掘算法。

使用候选产生频繁项集-----Apriori

Apriori算法整个过程基于其频繁项集的所有非空子集也必须是频繁的这一性质,按以下步骤进行:

(1)选定最小支持度阈值min_support。

(2)初始扫描事物数据库一次,对每项即L1(为候选项集C1的成员)的出现次数计数,将计数小于min_support的项进行剪枝。

(3)使用留下的L1∞L1自连接产生候选项集L2,扫描数据库,对L2的出现次数计数,将计数小于min_support的项进行剪枝。

(4)重复上述操作,直至找出所有的频繁项集,算法结束。

其实Apriori算法只进行连接和剪枝两个步骤,操作简单易懂,但是由于算法的每次迭代都需扫描数据库一次,致使时间复杂度极大,且对于大型数据库也不易操作。

不候选产生频繁项集----FP Tree

FP Tree是一种树形结构,FP Tree算法过程如下:

(1)初始扫描事物数据库一次,对每项的出现次数计数,频繁项按降序排列,结果记为L。

(2)构造FP Tree首先,创建树的根节点,用“null”标记;第二次扫描数据库,每个事务的项按L中的次序处理并对每个事务创建一个分枝。

(3)为tree创建一个项表头,使每项通过一个节点链指向它在树中的位置,此举可方便树的遍历。

(4)挖掘FP Tree,由每个长度为1的频繁模式开始,构造它的条件模式基,然后构造其FP Tree。

(5)递归地进行e过程,FP Tree算法较之Apriori算法而言,其只需扫描事务数据库两次,大量减少了扫描数据库所需的时间,简化了操作过程,但是若数据库很大,构造FP Tree也是不现实的。

3.2 聚类分析的应用

通过用户浏览过的网页或消费记录,对用户进行聚类分析,可将具有相同喜好,相似习惯的用户划分到同一个簇中,然后根据同一个簇中用户的意见向其更好更准确到位地推荐商品,也可动态地进行某类产品销售网页的调整,从而提供更合适,更令顾客满意的服务。对于商家,可根据不同簇中用户的特征,制作不同的销售网页,制定不同的销售策略,例如自动给一个特定的顾客聚类发送销售邮件,为一个顾客聚类动态地改变一个特殊的站点等,便于开发和执行未来的市场战略。

例:顾客A先前在网上购买了数据挖掘概念与技术和算法分析两本书,同时浏览了一些关于计算机类的商品,当A再次打开商品网页时,页面下方提示与A兴趣相似的顾客所关注的产品。这就是商家进行聚类分析的结果,通过A的浏览与购买记录,将与A有相似行为的顾客群分到同一个簇中,当满足此簇特征的用户进入网站时,站点便会动态给出其感兴趣的相关产品。用户必定受到这个提示的影响,浏览->购买此类产品。

将物理或抽象对象的集合分成相似的对象类的过程称为聚类。簇是数据对象的集合,同一个簇中的对象彼此相似,而与其他簇中的对象相异。

聚类方法主要有:划分方法(k均值,k中心点),层次方法(凝聚,分裂),基于密度的方法(DBSCAN,OPTICS),基于网格的方法(STING),基于模糊的方法(EM)等。本文简单介绍两种较为常用的聚类方法。

划分方法中的k均值方法:

K均值算法以k为输入参数,把n个对象的集合分为k个簇,使得簇内的相似度高,簇间的相似度低,簇的相似度是根据簇中对象的均值度量,可以看作簇的质心。

K均值算法的过程如下:

(1)随机地选择k个对象,每个对象代表一个簇的初始均值。

(2)根据剩余对象与各个簇均值的距离,将它们指派到与各自最相似的簇中。

(3)重复上述过程,直至准则函数收敛,通常选择平方误差准则:

其中,E是所有对象的平方误差和,p是空间中的点,表示给定对象,Mi是簇Ci的均值。此算法的时间复杂度是O(nkt)。

K均值法对于处理结果紧凑,并且簇与簇之间分离明显的对象集合时效果较好,但是这种聚类方法必须事先给出要生成的簇的数目,在多数情况下,面对庞大的用户对象的消费记录和浏览过的网页的Web日志,销售商很难判定到底将它们分成几个簇较好,所以k均值算法在此有一定的局限性。

基于密度的DBSCAN算法:

DBSCAN是一种基于高密度连通区域的基于密度的聚类方法,它将具有足够高密度的区域划分为簇,将簇定义为密度相连的点的最大集合。

DBSCAN的操作过程:

(1)确定对象半径ε和对象的ε邻域内至少包含的对象的最小数目Min Pts。

(2)检查数据库中每个点的ε领域。

(3)如果点p的ε领域包含的点多于Min Pts个,则创建一个以p为核心对象的新簇。

(4)迭代聚集从上述核心对象直接密度可达(给定一个对象集合D,如果p在q的ε领域内,同时q是一个核心对象,则我们说对象p从对象q出发是直接密度可达的)的对象。

(5)至没有新的点添加,操作结束。

DBSCAN算法的时间复杂度是O(n2)。

此算法需要用户给出ε和Min Pts,无需给出所划分簇的数目,只要ε和Min Pt s得当,便可有效找出任意形状的簇。

当然,还有许多其他聚类算法,如贝叶斯聚类算法,Wave Cluster算法,遗传算法等,也有许多学者致力于新的聚类算法的研究,相信聚类技术会更加快速,有效。

4 总结

网上购物推荐系统现已在卓越亚马逊,当当等多个购物网站成功使用。当然其所包含与使用的技术并不仅仅包括文中所述的关联规则与聚类分析技术,还需对不同数据进行预处理,协同过滤等相关操作。本文仅简单介绍其中的关联规则挖掘与聚类分析的几种方法。网上购物推荐系统虽然应用广泛,能够使用户和商家产生双赢局面,但是它也存在许多不足,此为未来需要研究的主要方向。随着网络与电子商务的普及,相信网上购物推荐系统也会越来越完善!

摘要:本文简单介绍了数据挖掘与网上购物推荐系统的概念,介绍了关联规则挖掘及聚类分析的定义,典型方法及其在网上购物推荐系统中的应用。

关键词:数据挖掘,网上购物推荐系统,关联规则,聚类

参考文献

[1]JiaWei Han.数据挖掘概念与技术(原书第二版).机械工业出版社.2010.

[2]刘旭东.B2C网上购物推荐系统的设计与实现.烟台:计算机应用于软件.2009.

[3]宋红芳.Web数据挖掘在电子商务中的应用研究.山东科技大学.2005.

[4]耿晓中.超市管理系统及数据挖掘技术在其上的应用.吉林大学.2004.

大数据系统和相关技术分析 篇8

【关键词】大数据;数据库;数据储存;传统数据处理

一、大数据

在2011年5月,麦肯锡做出了《大数据:下一个创新、竞争和生产力的前沿》的报告,报告中明确指出“大数据”就是“大小远远超过标准数据库软件的收集、储存、整理和评定能力的数据集”。从这一定义中可以总结出大数据的两个显著特点:一个是在信息量高度膨胀的现代社会,传统的数据处理方式已经不能跟上发展步伐,因此需要新技术的诞生来改变这一现状:另一个是由于数据在膨胀,数据的存在与表现形式也在随之变化,因此新技术也应跟上这种变化。

1.关于大数据

最早应用大数据技术的是天气预报、气象侦测、地震预测、物理领域、天文领域、生物领域、军事、金融、通讯等部分,随着网络语通信技术的高速发展,大数据也逐渐应用于民用之中。大数据在互联网中拥有非常大的规模,据国际数据公司的统计,全球在2008年产了0.49ZB,到2012年,仅仅4年时间就增长到1.82ZB,以此计算,全球人均上网数据达到300GB。由人类诞生至2012年,所产生的全部文字资料的数据达到约200PB,全人类额语言数据量达到了5EB。经过IBM的调查研究发现在人类文明史中额全部数据中,有90%的数据量都产生于过去的两年,由此可以预计再未来的十年,数据量将以40%的速度飞速增长,那么到2020年将达到35ZB。

2.大数据的特点

由于数据量的飞速发展,那么对于这些数据的储存、整理以及研究将会是困难的问题,这一问题不仅仅由于庞大的数据量,还存在对如此巨大数据的收集方法、储存方法以及整理的方法都要区别于传统的数据收集方法、储存方法以及整理方法。对于传统的数据的处理方法较为单一,数据存在较大的一致性。数据大都源于一个源头,因此数据的集中储存也比较方便,这样既减轻了经济负担,又节省了互联网资源。

但是在大数据的条件下,数据源自各个方面。数据结构也区别于传统的数据,要想数据并行处理来提高数据处理速度就必须强调数据结构的一致性。因此采用传统的数据处理方式来处理大数据必然会出现错误的算法,因此必须使用新的方法才可以解决大数据多种不同结构的特点。

大数据还存在区别于传统数据的方面:由于传统数据的数据量较小,那么它的处理方式是以处理器为核心,因此数据的传输不会带来有关于数据处理的困扰。但是对于大数据来说,整个数据整合分析的关键就在于数据传输,由此,就要求数据的处理方式核心必须由处理器转换到数据上来避免数据出现移动误差。

由此,通常将数据的特点总结为4个“V”,即数据量(Volume)、数据种类多样性(Variety)、速度(Velocity)、实性(Veracity)。

二、大数据技术

由大数据的数据量、数据种类多样性、速度与实性的特点可以看出,大数据与传统数据的不同实质的问题表现在储存和分析处理这两个方面上的,由此,大数据的技术必须围绕这两个问题进行

1.储存数据库

由于传统的数据处理已不适用于数据量急剧增加的大数据,因此使用传统数据处理方法处理大数据将会出现对数据的高并发读写、查阅、处理等需要时会出现很多问题:比如高并发读写延缓增大、相关查阅效率较低。由此可见,对于大数据的存储数据库应该采取更高的效率。对于类型多种多样的数据已经不可以使用平面式结构的储存模式进行储存了,二应采用列存的结构。以此结构储存的列数据可以分步骤储存在不同的数据库主机,就可以实现并发数据通信量分散到不同的数据库主机,这样也有利于对数据库进行扩充。

2.分析技术

分析技术是应用于面向客户的,宗旨在于为客户提供数据分析整合结果的关键技术之一。在对于大数据的分析处理技术范畴,全球几大独立的软件提供商已经相继逐步推出了相对于大数据分析技术德尔解决方法,例如微软的Azure,EMC的ClickFox,Google的BigQuery 等等。与分析技术相关联的还有分析数据库技术,其中最著名的是EMC的Greenplum。EMC的Greenplum是一个集数据库、数据计算、数据储存和互联网为一体的高扩展的数据储存应用。数据分析技术,如ClickFox,将Greenplum整理为一个单一并且易于管理的企业级系统。Greenplum注重于数据储存,凭借数据库节点为分析技术ClickFox提供服务。有关于大数据的收集、储存、处理都与互联网的发展密切相关,网络是大数据技术的基础推动力,但是在互联网条件下进行收集、储存、整理就难免会使用分布式的技术方法。

三、大数据的发展方向

在2012年3月29日,美国政府宣布将投资两亿美元推动有关于大数据产业的发展,将“大数据战略”上升到国家意志的高度上来。在白宫的网站上,美国总统奥巴马曾发表《大数据研究和发展倡议》,指出了凭借收集、分析整合巨大并且繁杂的数据信息,从而收获知识以及见解,提高能力,加快科学领域、建筑领域的拓展脚步,加强美国的国防土地安全,转换教育与学习的方法。我国工程院院士邬贺铨说:智慧城市是应用智能的数据处理技术促使城市基础设备的构成以及服务体系更加智能合理、相互关联并且有效率,随着有关于智慧城市的逐步完善,社会将进入崭新的“大数据”时代。

中国商业联合会副会长刘建沪说:由于互联网的高速发展,我国的有关电子商务企业逐渐组成了数据分析单位。2011年10月,工信部将北京、上海、深圳、杭州等五个城市作为“云计算中心”的试实行城市。但真正的问题并不在于如何建设“云计算中心”,而在于面对大数据的冲击,建设相关的基础设备要有目的性。有的数据需要储存,但有的数据却没有储存的必要。中央财经大学中国经济管理研究院博士张永力曾分析大数据的市场:国外的有关于大数据额行业大约有1000亿美元对的行情,并且在以每年10%的速度飞速增长,其增长速度达到软件行业的二倍。

四、结束语

综上所述,随着大数据时代的到来,传统的数据处理方式已经不再适用,因此这一传统处理方法正在面临严峻的挑战,大数据的大量化、多样化、迅速化以及价值密度低等特点让传统的查阅方式应接不暇。只有不断完善有关于大数据的相关技术,才能将大数据的来袭由困难变为机会,可以更好地利用这一资源,真正做到海量信息效率化。

参考文献

[1]李国杰.大数据研究:未来科技及经济社会发展的重大战略领域:大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.

[2]徐子沛:大数据[M].广东师范大学出版社,2013.

[3]维克托·迈尔-舍恩伯格.大数据时代[M].浙江人民出版社,2012.

上一篇:看比赛作文下一篇:河北省人民政府办公厅河北省行政执法全过程记录实施办法