数据产品

2024-08-31

数据产品(精选11篇)

数据产品 篇1

大数据开启了时代转型之门,随着信息技术的发展,海量的数据影响着人们的工作和生活,对于新闻生产方式也产生了广泛的影响,这为新闻报道提供了契机,新闻工作者可以运用这些数据及丰富的可视化技术将新闻报道呈现在受众面前。

数据新闻 就是数据 可视化?不尽然。清华大学新闻与传播学院沈阳教授对数据新闻有更加全面的解读。

数据新闻是什么?

在沈阳教授看来,数据新闻就是新闻中的数据,数据中的新闻。现在很多人认为数据新闻就是数据可视化,但这种认识并不全面。数据新闻应该至少包括五个方面:

第一是文字,比如微信上盛传的“西游记中的群妖伤亡统计”。经统计,西游记中师徒四人遇到的妖怪共计44个,死亡21个,活命23个;背景统计:灵山背景妖怪9个,灵山及政府背景妖怪1个,道家及政府背景妖怪8个,无背景妖怪26个,死20个;性别统计:雄性30个,死9个,雌性14个,死12个。从统计数据可以看出,女妖的死亡率达到了85.7%之高,可见妖怪是否被打死主要取决于其性别而不是后台或背景……这条文字类的数据新闻如果放到笑话类的栏目里,估计会有很高的点击率。

第二是数据新闻的图片,比如网易数读栏目做的一系列可视化信息图。

第三是用视频的方式表现数据,这方面新华网“新华炫视”栏目出品了许多很棒的视频。

第四是游戏,比如网易制作的《习近平和奥巴马是这样夜游中南海的,你们感受一下》互动新闻。在微信里点开这则新闻,出现的是中南海的Q版俯瞰图,以及主人的头像,通过点击,主人公会在中南海内行走,并在每一个事件点会有根据新闻制作的两位主人公的对话以及照片。沈阳教授断定,这类带有互动式的小游戏在微信上会逐渐火起来,未来数据新闻和游戏的结合将是发展的爆点。

最后就是平台,当下数据新闻的平台普遍比较缺乏。沈阳教授举例假设说,一条政策出来后,立刻自动统计出各省各部门做了哪些相关信息的发布……这种做法属于一种数据的服务。

另外,今年3月,Facebook 20亿美元收购虚拟头盔Oculus Rift,计划做虚拟社交游戏。这让沈阳教授看到了“数据体验”的前景。

沈阳教授曾和学生一起做过一个假设:未来的某一天,每个人体内都有一个体媒传感器,可以收集人体内的各种数据。假设有个女孩子,她的猫死了,这时她的情感假设叫做丧猫之痛,因为女孩非常爱她的猫,心痛升级,叫九级丧猫之痛。女孩的情感会被体媒传感器记录,然后上传到网络当中。之后,其他的网友就可以下载体验一把“九级丧猫之痛”。男生体验时,甚至可以加一个滤镜,变成男生版九级丧猫之痛。在未来,数据新闻和“体媒”的结合,发展空间非常大。

沈阳教授认为:数据新闻最终必然会走向数据服务,数据服务最终必然会走向数据体验。数据新闻的未来终极形态一定是三种结合,有数据的新闻,新闻可以服务化,服务化之后是体验化。

数据给新闻带来哪些变化?

数据给新闻带来的变化首先是流程的变化,包括素材的采集和选题的制定,比如通过数据分析就可以获得最合适的选题。新闻的表现形式也发生了变化,现在可以通过可视化或游戏的方式来标新。

另外,数据新闻传播新思维也不同于之前5w(控制研究、内容分析、媒介研究、受众研究、效果研究)的传播模式,而是在数据分析下有了新发展,拥有了预测性、预警性、针对匹配性、对比性、关联性、市场性等特点。

未来,数据新闻还将带来哪些大的改变呢?沈阳教授强调了三点自动化。

一是自动化生成。现在的数据新闻,特别是可视化新闻生产力是普遍比较低的,所以怎么样在各个环节当中有效地提升数据新闻自动化的生产程度,这是今后业界非常值得投资的一点。比如说可以根据语言自动地选择一些图标,建好大的图标库,实现自动化生产。

二是自动化分发。比如现在微博里面就提供了自动化发布的接口。

三是自动化的评估。发出的信息传播情况如何,评价反馈如何等等,这些信息可以自动化采集回来并进行自动化评估,甚至可以立刻看到包括竞争对手在内的所有信息。

数据新闻适合哪些领域?

新闻的可视化有很多途径,包括数据地图、时间线、交互性的图表,以及传统媒体平台上的信息可视化等。沈阳教授通过一系列整理归纳发现,数据新闻适合在社会类、战争类、政治活动、突发新闻、特点话题、舆情分析、新闻性纪录片类、大型运动会及国际赛事、气象预报,以及信息、知识传播类等领域中发挥效用。

其中,社会类新闻中的民生问题,是老百姓最关心的问题,数据新闻传播效果最好。比如,2014年两会期间央视晚间新闻《“据”说两会》通过采用360搜索大数据看民生,就取得不错的效果。

社会经济方面,首先是可以和金融数据进行直接挂钩,采用大数据作为经济判断指标;另一方面是可以对新闻里面的数据进行可视化的呈现和统计。举个描述房地产的数据新闻的例子,可以把过往媒体报道中发生过凶杀案的房子数据全部汇集起来,画成一个凶宅地图,供搜索房子的人参考。

另外,数据新闻还比较适合战争类的新闻报道,比如网易数读出品的《火箭弹阴影下的以色列:日均遭3枚火箭弹袭击》等等,非常形象。

政治活动方面,国外一些竞选预测的数据新闻案例非常值得借鉴,这在国际政治当中是非常有价值的。一些大型赛事和天气预测也非常适合使用数据新闻,把各类天气的数据聚合起来以后可以做灾害性的预测,包括风险模型,这些风险模型未来可供经济界投资使用……

对于数据新闻的未来图景,除了数据新闻与数据服务、数据体验的结合,沈阳教授还描绘了几点:数据新闻将有一个开放的新闻环境,数据获取渠道会不断多样化,相关的免费软件会更加广泛的应用,教育界将迎接培养更多复合型人才的挑战,跨媒介、跨领域的合作将更加普遍,而利用媒介和工具增强交互性也是未来数据新闻发展必将攻克的挑战。

数据产品 篇2

《Funkschau》作为德国主流通信媒体,其举办的年度读者评奖已成为德语区信息与通信技术行业B2B领域规模最大的投票之一。2012年是该奖项举办的第4年,共有超过44 000张选票参与评选,该奖项在欧洲通信业内极具权威性和影响力。

“我们很高兴获得这个奖项。这说明中兴通讯交换机产品在业界树立了良好的口碑。”中兴通讯德国总经理John Lee表示:“这充分证明我们的渠道拓展战略已经在德国市场这片沃土上生根发芽并逐步壮大,作为客户可信赖的全行业ICT解决方案提供商,中兴通讯优秀的ICT解决方案将服务于更多的德语区企业客户。”

《Funkschau》出版人RalF Ladner表示:“中兴通讯无疑2012年最耀眼的明星之一,投票结果证明其在通信技术行业B2B领域占据优势地位。”

数据之舞:大数据与数据挖掘 篇3

2005年6月至2007年12月海洋表面洋流示意图。数据源:海面高度数据来自美国航空航天局 (NASA) 的Topex/Poseidon卫星、Jason-1卫星, 以及海形图任务/Jason-2卫星测高仪;重力数据来自NASA/德国航空航天中心的重力恢复及气候实验任务;表面风压数据来自NASA的Quik Scat任务;海平面温度数据来自NASA/日本宇宙航空研究开发机构的先进微波扫描辐射计——地球观测系统;海冰浓度和速度数据来自被动微波辐射计;温度和咸度分布来自船载、系泊式测量仪器, 以及国际Argo海洋观测系统

泄密者爱德华·斯诺登 (Edward Snowden) 还在寻求容身之所的时候, 美国国家安全局 (NSA) 全方位收集电话和电子邮件记录之事经过他的披露, 已经引发了不安和愤怒。

奥巴马当局声称, 监听数据带来了安全, 然而左翼和右翼都在谴责这种窥探行为是对隐私的侵犯。

数据不是信息, 而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息, 耗资数十亿改善新手段时, 它正受益于陡然降落的计算机存储和处理价格。

数据挖掘这一术语含义广泛, 指代一些通常由软件实现的机制, 目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。

威斯康星探索学院主任大卫·克拉考尔 (David Krakauer) 说, 数据量的增长——以及提取信息的能力的提高——也在影响着科学。“计算机的处理能力和存储空间在呈指数增长, 成本却在指数级下降。从这个意义上来讲, 很多科学研究如今也遵循摩尔定律。”

在2005年, 一块1TB的硬盘价格大约为1, 000美元, “但是现在一枚不到100美元的U盘就有那么大的容量。”研究智能演化的克拉考尔说。现下关于大数据和数据挖掘的讨论“之所以发生是因为我们正处于惊天动地的变革当中, 而且我们正以前所未有的方式感知它。”克拉劳尔说。

随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹, 大数据不断增长的商业影响也在如下时刻表现出来:

·你搜索一条飞往塔斯卡鲁萨的航班, 然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息

·你观赏的电影采用了以几十万G数据为基础的计算机图形图像技术

·你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润

·用算法预测人们购票需求, 航空公司以不可预知的方式调整价格

·智能手机的应用识别到你的位置, 因此你收到附近餐厅的服务信息

大数据在看着你吗?

除了安全和商业, 大数据和数据挖掘在科研领域也正在风起云涌。越来越多的设备带着更加精密的传感器, 传回愈发难以驾驭的数据流, 于是人们需要日益强大的分析能力。在气象学、石油勘探和天文学等领域, 数据量的井喷式增长对更高层次的分析和洞察提供了支持, 甚至提出了要求。

这幅2005年6月至2007年12月海洋表面洋流的示意图集成了带有数值模型的卫星数据。漩涡和窄洋流在海洋中传送热量和碳。海洋环流和气候评估项目提供了所有深度的洋流, 但这里仅仅使用了表层洋流。这些示意图用来测量海洋在全球碳循环中的作用, 并监测地球系统的不同部分内部及之间的热量、水和化学交换。

在医学领域, 2003年算是大数据涌现过程中的一个里程碑。那一年第一例人类基因组完成了测序。那次突破性的进展之后, 数以千计人类、灵长类、老鼠和细菌的基因组扩充着人们所掌握的数据。每个基因组上有几十亿个“字母”, 计算时出现纰漏的危险, 催生了生物信息学。这一学科借助软件、硬件以及复杂算法之力, 支撑着新的科学类型。

另一例生物信息学的应用来自美国国家癌症研究所。该所的苏珊·霍尔贝克 (Susan Holbeck) 在60种细胞系上测试了5000对美国食品和药品管理局批准的抗癌药品。经过30万次试验之后, 霍尔贝克说:“我们知道每种细胞系里面每一条基因的RNA表达水平。我们掌握了序列数据、蛋白质数据, 以及微观RNA表达的数据。我们可以取用所有这些数据进行数据挖掘, 看一看为什么一种细胞系对混合药剂有良好的反应, 而另一种没有。我们可以抽取一对观察结果, 开发出合适的靶向药品, 并在临床测试。”

互联网上的火眼金睛

当医学家忙于应对癌症、细菌和病毒之时, 互联网上的政治言论已呈燎原之势。整个推特圈上每天要出现超过5亿条推文, 其政治影响力与日俱增, 使廉洁政府团体面临着数据挖掘技术带来的巨大挑战。

印第安纳大学Truthy (意:可信) 项目的目标是从这种每日的信息泛滥中发掘出深层意义, 博士后研究员埃米利奥·费拉拉 (Emilio Ferrara) 说。“Truthy是一种能让研究者研究推特上信息扩散的工具。通过识别关键词以及追踪在线用户的活动, 我们研究正在进行的讨论。”

Truthy是由印第安纳研究者菲尔·孟泽 (Fil Menczer) 和亚力桑德罗·弗拉米尼 (Alessandro Flammini) 开发的。每一天, 该项目的计算机过滤多达5千万条推文, 试图找出其中蕴含的模式。

一个主要的兴趣点是“水军”, 费拉拉说:协调一致的造势运动本应来自草根阶层, 但实际上是由“热衷传播虚假信息的个人和组织”发起的。

2012年美国大选期间, 一系列推文声称共和党总统候选人米特·罗姆尼 (Mitt Romney) 在脸谱网上获得了可疑的大批粉丝。“调查者发现共和党人和民主党人皆与此事无关。”费拉拉说, “幕后另有主使。这是一次旨在令人们相信罗姆尼在买粉从而抹黑他的造势运动。”

水军的造势运动通常很有特点, 费拉拉说。“要想发起一场大规模的抹黑运动, 你需要很多推特账号, ”包括由程序自动运行、反复发布选定信息的假账号。“我们通过分析推文的特征, 能够辨别出这种自动行为。”

推文的数量年复一年地倍增, 有什么能够保证线上政治的透明呢?“我们这个项目的目的是让技术掌握一点这样的信息。”费拉拉说, “找到一切是不可能的, 但哪怕我们能够发现一点, 也比没有强。”

头脑里的大数据

人脑是终极的计算机器, 也是终极的大数据困境, 因为在独立的神经元之间有无数可能的连接。人类连接组项目是一项雄心勃勃地试图绘制出不同脑区之间相互作用的计划。

除了连接组, 还有很多充满数据的“组”:

·基因组:由DNA编码的, 或者由RNA编码的 (比如病毒) ——全部基因信息

·转录组:由一个有机体的DNA产生的全套RNA“读数”

精神障碍通常是具体病例具体分析, 但是一项对150万名病人病例的研究表明, 相当多的病人患有超过同一种疾病。芝加哥大学的西尔维奥·康特中心利用数据挖掘理解神经精神障碍的成因以及之间的关系。“好几个 (研究) 团队都在致力于这个问题的解决。”中心主任安德烈·柴斯基 (Andrey Rzhetsky) 说, “我们正试图把它们全部纳入模型, 统一分析那些数据类型……寻找可能的环境因素。”图片来源:Andrey Rzhetsky, 芝加哥大学

大数据盯着“bigdata” (意为大数据) 。这些是在推特上发布过“bigdata”的用户之间的连接, 用户图标的尺寸代表了其粉丝数多寡。蓝线表示一次回复或者提及, 绿线表示一个用户是另一个的粉丝。图片来源:Marc Smith

20名健康人类受试者处于休息状态下接受核磁共振扫描, 得到的大脑皮层不同区域间新陈代谢活动的关联关系, 并用不同的颜色表现出来。黄色和红色区域在功能上与右半脑顶叶中的“种子”位置 (右上角黄斑) 相关。绿色和蓝色区域则与之关联较弱或者根本没有关联。图片来源:M.F.Glasser and S.M.Smith

这是星系动物园志愿者们发现的差不多2000个背光星系之一。它被其后方的另一个星系照亮。来自背后的光令前景星系中的尘埃清晰可辨。星际尘埃在恒星的形成中扮演了关键的角色, 但它本身也是由恒星制造的, 因此检测其数量和位置对于了解星系的历史至关重要。图片来源:WIYN望远镜, Anna Manning, Chris Lintott, William Keel

随着数据及通讯价格持续下跌, 新的思路和方法应运而生。如果你想了解你家中每一件设备消耗了多少水和能量, 麦克阿瑟奖获得者西瓦塔克·帕特尔 (Shwetak Patel) 有个解决方案:用无线传感器识别每一台设备的唯一数字签名。帕特尔的智能算法配合外挂传感器, 以低廉的成本找到耗电多的电器。位于加利福尼亚州海沃德市的这个家庭惊讶地得知, 录像机消耗了他们家11%的电力。图片来源:Peter Menzel/The Human Face of Big Data

·蛋白质组:所有可以用基因表达的蛋白质

·代谢组:一个有机体新陈代谢过程中的所有小分子, 包括中间产物和最终产物

连接组项目的目标是“从1, 200位神经健康的人身上收集先进的神经影像数据, 以及认知、行为和人口数据”, 圣路易斯市华盛顿大学的连接组项目办事处的信息学主任丹尼尔·马库斯 (Daniel Marcus) 说。

项目使用三种磁共振造影观察脑的结构、功能和连接。根据马库斯的预期, 两年之后数据收集工作完成之时, 连接组研究人员将埋首于大约100万G数据。

绘制脑区分布图的“分区”是一项关键的任务, 这些脑区最早于两到三世纪之前通过对少量大脑染色被识别出来。“我们将拥有1, 200个人的数据, ”马库斯说, “因此我们可以观察个人之间脑区分布的差别, 以及脑区之间是如何关联的。”

为了识别脑区之间的连接, 马库斯说, “我们在受试者休息时获取的扫描图中, 观察脑中的自发活动在不同区域之间有何关联。”比如, 如果区域A和区域B自发地以每秒18个周期的频率产生脑波, “这就说明它们处于同一网络中。”马库斯说。“我们将利用整个大脑中的这些关联数据创建一个表现出脑中的每一个点如何与其他每一个点关联的矩阵。” (这些点将比磁共振成像无法“看到”的细胞大得多。)

星系动物园:把天空转包给大众

星系动物园项目打破了大数据的规矩:它没有对数据进行大规模的计算机数据挖掘, 而是把图像交给活跃的志愿者, 由他们对星系做基础性的分类。该项目2007年启动于英国牛津, 当时天文学家凯文·沙文斯基 (Kevin Schawinski) 刚刚蹬着眼睛瞧完了斯隆数字巡天计划拍摄的5万张图片。

阿拉巴马大学天文学教授、星系动物园科学团队成员威廉·基尔 (William Keel) 说, 沙文斯基的导师建议他完成95万张图像。“他的眼睛累得快要掉出眼窝了, 便去了一家酒馆。他在那里遇到了克里斯·林托特 (Chris Lintott) 。两人以经典的方式, 在一张餐巾的背面画出了星系动物园的网络结构。”

星系是一个经典的大数据问题:一台最先进的望远镜扫描整个天空, 可能会看到2000亿个这样的恒星世界。然而, “一系列与宇宙学和星系统计学相关的问题可以通过让许多人做相当简单的分类工作得以解决。”基尔说, “五分钟的辅导过后, 分类便是一项琐碎的工作, 直到今日也并不适合以算法实现。”

星系动物园的启动相当成功, 用户流量让一台服务器瘫痪了, 基尔说。

斯隆巡天的全部95万张图片平均每张被看过60次之后, 动物园的管理者们转向了更大规模的巡天数据。科学受益匪浅, 基尔说。“我的很多重要成果都来自人们发现的奇怪物体, ”包括背光星系。

星系动物园依赖统计学、众多观察者以及处理、检查数据的逻辑。假如观察某个特定星系的人增加时, 而认为它是椭圆星系的人数比例保持不变, 这个星系就不必再被观察了。

然而, 对一些稀有的物体, 基尔说, “你可能需要40至50名观察者。”

大众科学正在发展自己的法则, 基尔补充道。志愿者们的工作“已经对一个真实存在的重大问题做出了贡献, 是现存的任何软件都无法实现的。鼠标的点击不该被浪费。”

这种动物园方法在zooniverse.org网站上得到了复制和优化。这是一个运行着大约20项目的机构, 这些项目的处理对象包括热带气旋、火星表面和船只航行日志上的气象数据。

最终, 软件可能会取代志愿者, 基尔说。但是计算机和人类之间的界线是可互换的。比如说超新星动物园项目在软件学会了任务之后就关闭了。

我们惊讶地得知志愿者们积累的庞大数据是计算机学习分类的理想材料。“一些星系动物园用户真的很反感这一点。”基尔说, “他们对于自己的点击被用来训练软件表达出明显的怨恨。但是我们说, 不要浪费点击。如果某人带来了同样有效的新算法, 人们就不必做那些事情了。”

学习的渴望

人们长久以来改进对图像和语音的模式识别的努力已经受益于更多的训练, 威斯康星大学麦迪逊分校的克拉考尔说。“它不仅仅是有所改善, 更是有了实际的效果。5到10年之前, i Phone上的Siri是个想都不敢想的点子, 语音识别一塌糊涂。现在我们拥有了这样一批庞大的数据来训练算法, 忽然之间它们就管用了。”

等到处理能力一次相对较小的改变令结果出现突破性的进展, 克拉考尔补充道, 大数据的应用可能会经历一次“相变”。

“大数据”是一个相对的说法, 不是绝对的, 克拉考尔指出。“大数据可以被视作一种比率—我们能计算的数据比上我们必须计算的数据。大数据一直存在。如果你想一下收集行星位置数据的丹麦天文学家第谷·布拉赫 (Tycho Brahe, 1546-1601) , 当时还没有解释行星运动的开普勒理论, 因此这个比率是歪曲的。这是那个年代的大数据。”

大数据成为问题“是在技术允许我们收集和存储的数据超过了我们对系统精推细研的能力之后。”克拉考尔说。

我们好奇, 当软件继续在大到无法想象的数据库上执行复杂计算, 以此为基础在科学、商业和安全领域制定决策, 我们是不是把过多的权力交给了机器。在我们无法觑探之处, 决策在没人理解输入与输出、数据与决策之间的关系的情况下被自动做出。“这正是我所从事的领域, ”克拉考尔回应道, “我的研究对象是宇宙中的智能演化, 从大爆炸到大脑。我毫不怀疑你说的。” (本文编译自:The Why Files, Data Dance, Big Data and Data Mining;原创人员:编辑/Terry Devitt;设计制图/S.V.Medaris;项目助理/Yilang Peng;专题作者/David J.Tenen Baum;内容制作总监/Amy Toburen)

知识链接

“大数据” (Big data) 作为时下最火热的IT行业的词汇, 随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

早在1980年, 著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中, 将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过, 大约从2009年开始, “大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出, 互联网上的数据每年将增长50%, 每两年便将翻一番, 而目前世界上90%以上的数据是最近几年才产生的。此外, 数据又并非单纯指人们在互联网上发布的信息, 全世界的工业设备、汽车、电表上有着无数的数码传感器, 随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化, 也产生了海量的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息, 而在于对这些含有意义的数据进行专业化处理。换言之, 如果把大数据比作一种产业, 那么这种产业实现盈利的关键, 在于提高对数据的“加工能力”, 通过“加工”实现数据的“增值”。且中国物联网校企联盟认为, 物联网的发展离不开大数据, 依靠大数据可以提供足够有利的资源。

随着云时代的来临, 大数据也吸引了越来越多的关注。《著云台》的分析师团队认为, 大数据通常用来形容一个公司创造的大量非结构化和半结构化数据, 这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起, 因为实时的大型数据集分析需要像Map Reduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据分析相比于传统的数据仓库应用, 具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性, 对当前的主流实现平台——并行数据库、Map Reduce及基于两者的混合架构进行了分析归纳, 指出了各自的优势及不足, 同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍, 对未来研究做了展望。

数据产品 篇4

我是一个产品策划,做策划有一年了,记录下自己的心得。

从始至终我只信两句话

第一句就是:99%没有成功的人是因为自己不够努力。从一个产品出生到不断去完善它(或者是毁坏它),中间会有很多个羁绊之处,有的来自于产品策划自己,有的来自于环境。大部分人会屈就,只有少数人会坚持。且不谈坚持是否是正确的(那取决于待会要说的第二句话),如果你不能真正的付诸行动,那一切都是空谈。

可悲的是呢,这个行业里大多数人都是空谈。至于为什么会这样,我是猜想产品策划这个职业还太年轻,没有经过大浪淘沙,很多不适合做产品策划的人,也做了策划。早先我频繁地上知乎,问答过一阵子之后,我就发现真正牛逼的人,是不会泡在知乎上探讨那些互联网的问题的。因为牛逼的人,正在120%的努力做着自己的产品,努力将它做得更好,他们连一分钟都不愿意浪费,因为总会觉得时间不够用。

相比产品策划,在这方面我更欣赏一些工程师,埋头做着有意义有价值的事(就算没有价值,那亦不是他们大部分责任),而不是一天到晚靠嘴巴在做产品。现在整个互联网在 上每天孜孜不倦地对其他产品品头论足(实际上只是看了个新闻,产品都没怎么用),这种风气很不好,当然,这也是优胜劣汰地必经过程。我有这种想法自然是有些偏激的,但我宁愿这么偏激。你的产品遇到了什么问题,需要怎么解决,如果你不是解决这个问题的第一个人,那么你就不是一个好的产品策划。

第二句话是:汝果欲学诗,功夫在诗外。从小到大我都坚信这个道理。作为产品策划,自己产品之外的世界太丰富,太吸引人,特别是当自己产品还不够好的时候。现在我无论在微博上、还是在现实中,去判断一个人做产品的水平,如果这人整天在看别家的产品如何,或者是去看一些讲如何做产品的blog之类的,那我就认为这人还是初学者,或者根本不适合做一个产品策划。

互联网产品的受众是很奇特的,很少有两个网站的受众是高度重合的(当然,局外人会认为重合),而对受众的理解与否是一个产品的生死符。做产品的下下策,是去看“互联网产品的十条黄金法则”这种;中下策,是去研究别家的产品企图复制到自己身上来;而上策,是日复一日地了解自己的用户,并且依据这种了解,加强自己诗外的功夫,

最基本的产品技能,只能让你入门,不能指望了解一些通识就能把产品做好。真正能决定你是否能做好产品的,是在产品理论之外。例如我是网易摄影的策划,真正能决定能否做好网易摄影,是在我是否了解摄影,是否了解目前玩网易摄影的人,是否了解现在玩摄影的各个层次的人,是否知道哪种玩摄影的人未来的价值最大……如果是做电商,那么去跟风做些大家都有的功能等,是肯定不够的。真正牛逼的,都是非常了解诗外的功夫。做化妆品的,他会了解用户在用化妆品,买化妆品的每个环节,这些知识经验,最终会反映到产品上,别的人只看到了结果,没有看到过程。

产品策划不止是产品策划

我现在相信,想要做好产品,甚至是想要做产品,产品策划必须亲力亲为投入到运营中。只有亲手去做了运营,你才能绝对深刻地了解自己的用户,自己的产品。那种了解,有时是很难用言语表达的,它会形成你的潜意识,在你做判断的时候指导你应该怎么做。

至于一个人能不能做到这点,就看天分了。运营不是人人都能做,适合做这个职业的人比适合做产品策划的人更稀少。传统的用户访谈,并不能完全解决深刻了解用户的问题。需要产品策划天天都泡在产品里,和用户一起,不是访谈而是谈心。且不只是一个用户,而是大量的用户,和他们交流沟通。你耕深几分,便能收获几分。你一分不耕,依靠用户反馈或者焦点小组之类,除非已经早就找对方向,否则仍是盲人摸象。

产品策划当然也不止是运营。除了能够和用户深入沟通之外,还需要有相当的判断力,因为在快节奏开发产品的时候,你不可能收集到足够多的用户意见以及数据支撑来去判断一个细节问题。这个时候就需要产品策划的判断力来迅速找到和用户沟通时所获取的细节问题的关键以及解决办法。这种问题通常都是可用性/易用性问题。而真正大的方向问题,则是依赖于你长期经营沉淀下来对产品和用户的理解,如果你认为自己是整个团队中理解最深的,那么就坚持下去。如果不是,那么赶紧加强理解。

最牛的产品策划不会写这些产品blog,更不会天天上微博

产品与产品英雄 篇5

当我们拓宽了产品的含义,让产品变得很泛,产品英雄的含义也自然会很宽泛。好的流通、好的媒介,都可以是产品,比如一个观念,用生物学家道金斯的话说,是一个谜米(meme),它也可以成为产品。那么,让谜米传递流通的一个人以及一群人,都可以成为产品英雄,这就是“土豪”当选的原因。“土豪”其实就是一个观念、一个语辞游戏,来历不清面目不明,经过大家的传播后产生出不同的情绪深浅,这所有的一切,都可以称之为产品。我们希望,这个年终策划不仅是一场有趣的盘点和展望,也是智力上的一次爆炸,让读者打了个激灵,原来这也叫产品,原来这才是产品英雄,总之,一定要有一种原来如此的感觉。

编读飞信:

豆瓣“东西”是基于其用户需求而成立的,它会不会变成仅是豆瓣用户自娱自乐的东西?商业获利的规模岂不变得很局限?——@冬眠不若织梦

Re:豆瓣现在庞大的注册用户数和活跃用户数量对于一个起步初期的产品来说是足够支撑的。现在“东西”被作为一个单独的栏目放在豆瓣首页的栏目选项上,未来在豆瓣用户的基础上,也不排除“东西”逐步扩大面向全网。

“微”往来:

【妈妈再也不用担心习大大的“金改”了】回顾2013年的金融市场,风声鹤唳的“钱荒”,屡创新高的国债利率,让金融市场阴晴莫测。中共十八届三中全会总算给人心惶惶的金融业改革定了大致的基调,形成牛逼哄哄的“金融新四化”。

@尚待完成:金融改革大背景下,应启用新鲜血液打破固有利益和意识藩篱。但中国银行业改革十年,仍未建立高管市场化选拔聘用机制,而即将履新的中国银行家面临诸多挑战。

【哥卖的不是电视机,是内容渠道】产品经理贾跃亭真正兜售的不是乐视TV,不指望卖硬件赚大钱,也不屑于做传统厂商干的事,商业模式更像乔帮主的苹果模式。

@ paramiao:现在比较火的乐视TV等虽然目前依赖遥控器,但我觉得其潜力应是穿戴式设备结合传感器来替代遥控器交互。

【战略品牌都是扯淡?产品才是王道?】进入21世纪柯达、诺基亚这些公司的颓势逐渐显现。曾经看起来那么稳定的竞争优势,现在竟如此脆弱。战略、品牌的字眼不再“神圣”。究竟是怎样的逻辑使得战略、品牌边缘化,而产品成为一切?

数据产品 篇6

随着互联网的延伸, 无线通信技术的发展, 数据库技术的大规模应用以及硬件设备的快速更新, 一种新的应用——移动计算应运而生了。所谓的移动计算, 就是指在任何时间, 任何地点, 即使是在移动的情况下, 人们也可以通过智能终端设备, 如PDA (个人数字助理) 、掌上电脑、笔记本电脑、个人信息管理器等, 通过无线网络进行立即通信, 访问所需资源。

1 移动数据库

所谓移动数据库就是在移动环境下由固定节点和移动节点构成的分布式数据库, 移动数据库的体系结构如图1。在该结构中, 由固定网络和移动蜂窝节点构成。

注:MSS:Mobile Server Station, 移动服务站FH:Fixed Host, 固定主机DB:DataBase, 数据库MC:Mobile Client, 移动客户端/移动终端

在固定网络中, 有不带无线通信接口的固定主机 (Fixed host, 可以是数据库服务器也可以是普通固定节点, 保存有服务器数据的复本) , 还有带有无线通信接口的移动支持站 (MSS) 。一个移动支持站管理一片区域, 通常称作为一个Cell, 该区域内的所有移动节点都通过无线网络与MSS通信, MSS通过固定网络与数据库服务器进行通信。

在移动数据库的研究领域, 主要有以下几个研究方向:数据复制与缓存、数据广播、事务处理、位置相关查询。数据复制是固定节点上维持数据库服务器上数据的拷贝, 缓存是移动终端上维持数据库服务器上数据的拷贝, 主要是用来提高系统的可用性、可靠性和性能。数据广播是在移动环境下, 利用移动终端和服务器通信信道的非对称性, 服务器周期性地向终端发送数据广播, 它不依赖终端的数量, 能够很好地解决在断接情况下服务器与终端的通信。事务处理是移动数据库中最关键的问题, 主要解决用户对数据库访问时数据一致性控制。位置相关查询主要解决移动对象在移动过程中如何快速有效地对数据进行查找。

2 数据广播

在移动计算环境下, MC经常与服务器处于断接状态, 这是由于: (1) 移动用户由于无线通信费用高, 不愿长时间持续与服务器连接, 主动与服务器断开连接; (2) 由于无线信号的不稳定性或MC移动到网络信号覆盖的范围之外而与服务器断开连接。

为了满足移动计算的可用性, 通常是在移动终端上维持一个数据库, 保存有该终端所感兴趣的数据的一个复本, 当网络断接时, 用户可以直接操作本地数据, 并将更新保存在本地数据库上, 并将事务保存在日志文件中, 待重新连接到网络上时, 向数据库服务器提交事务日志, 进行冲突检测后, 在服务上执行事务, 将最终的结果写入数据库服务器中, 并采用广播的方式向其他节点广播更新数据, 维持数据的一致性。

在移动计算环境下, 服务器向终端的下行带宽要远远大于终端向服务器的上行带宽, 而终端接收数据的代价也要小于发送数据的代价。终端不用每次都向服务器发送消息, 请求更新本地数据。即使是终端在断接状态无法向服务器发送数据时也可以选择是否接收服务器发送的广播数据。因此, 服务器广播哪些数据, 在什么时刻广播是很值得研究。

3 基于冷热的数据广播

热数据:用户访问频率较高的数据称之为热数据;冷数据:用户很少访问的数据称为冷数据, 和热数据是相对的。

在数据库中构建一张冷热数据表, 它有3个字段:DataObject (数据对象标识) , AccessCount (访问次数) , BroadcastCoun (广播次数) , 如表1所示。

DataObjectn:数据对象n;

Ani:数据对象n被访问了i次;

Bj:系统广播了j次;

系统初始化时, 冷热数据表中AccessCount和BroadcastCount字段都为0, 每广播一次, 该表中所有记录的BroadsCas字段都加1, 某数据对象被访问一次, 该数据对象在冷热数据表中对应AccessCount字段加1。

用数据对象的访问次数与广播次数的比值ξ来评价数据对象是否是热数据。要给定一个介定值ρ, 当ξ≥ρ时, 该数据对象就是热数据, 否则就是冷数据。

利用冷热数据可以在数据广播时选择热数据而不用广播所有的数据, 也避免了随机选择数据进行广播时既浪费带宽资源又不能满足移动客户端的数据需求带来的问题。但是仅仅广播热数据可能会带来某些冷数据被请求而无法得到最新数据, 导致事务在本地执行后提交时回滚, 影响系统的性能。可以折衷一下, 使得每次广播时数据集中大部分是热数据, 少量是冷数据, 这个比例可以依照事务执行回滚率来动态调整。这样既能提高带宽利用率, 也可以提高本地事务向服务器提交的成功率。

数据广播调度算法的一个性能指标是调协时间, 即一次请求数据过程中接受到的广播次数。广播过于频繁会浪费大量的带宽资源, 过于稀疏又会导致移动客户端数据不能及时获取最新值而最终导致事务回滚。在国内, 有不少学者对移动数据库中数据广播进行了深入研究, 提出了优化调协时间的算法, 但都缺乏可操作性, 不支持移动数据库系统的实现应用。

4 结束语

随着移动通信技术的发展, 移动数据库还在不断地发展, 成为当今研究的一个热点, 但大都停留在理论研究阶段, 没有比较成熟的商业应用。但网络及硬件技术的发展和应用的需求使移动数据库系统成为一个必然的趋势。数据复制与缓存、数据广播、事务处理、位置相关查询等都是移动数据库中的关键问题。本文就数据广播进行了探讨, 提出了基于冷热点的数据广播。其最大的优点是广播开销不依赖于移动节点的数量变化。借助数据广播, 可以在一定程度上解决移动节点的断接问题, 并且既能提交下行带宽利用率, 也可以提高本地事务向服务器提交的成功率。

参考文献

[1]Pietro Iglio.TrustedBox:A Kernel-Level Integrity Checker[M].IEEEPress, 1999.

[2]张鹏程, 段莉明.嵌入式移动数据库概述[J].河南广播电视大学学报, 2008 (2) .

[3]余波, 钟锡昌, 张倪.移动数据库中的事务模型[J].计算机工程, 2005 (5) .

[4]曾文英, 赵跃龙, 宋玮.移动数据库关键技术的研究[J].计算机工程与应用, 2009 (5) .

[5]龚春红, 金敏.移动数据库关键技术的研究与分析[J].科学技术与工程, 2007 (8) .

数据产品 篇7

关键词:大数据,数据治国,数据强国,大数据国家战略

数据治国

美国政府前助理信息官、纽约大学法学院教授贝丝·诺维克 (Beth Noveck) 在她的《维基政府——运用互联网技术提高政府管理能力》一书中阐述了如何在数字化背景下, 运用网络和大数据建立民主和高效的政府。“数据开放可以让体制内外的人一起参与进来, 解决政府无法完成的以及棘手的问题。”

诺维克以感染率数据为例说明开放数据的作用。美国的医疗部门收集了全美几乎所有医院的感染率, 但是政府并没有足够的能力把这些数据转化为有价值的信息。可是, 当这些数据被放在data.gov网站上以后, 微软和谷歌却能够运用自己强大的技术能力制作出数据地图。不管是研究机构还是普通患者, 都能够运用搜索引擎查找任何一家医院的感染率, 从而决定是否住院。

自2009年上任以来, 奥巴马就希望把他的这届政府打造成历史上最开放的政府, 并致力于推动政府信息向公众开放。他签署了政府信息开放令。根据开放令内容, 大多数联邦机构对他们拥有的数据资源必须开放, 范围包括医疗、教育、能源以及公共安全等, 让公众能够“容易发现、获取并使用”这些数据资源。

为什么选择开放?

将政府信息开放不光是为了让公众知道政府在干什么, 一个更重要的目的是为了软件开发商能够利用这些数据, 通过开发出商业的App或者服务, 从而给经济增长带来积极的效果。

奥巴马在白宫网站上的声明中这样写道:

“从今天开始, 我们让更多的政府数据、信息在网络上开放, 这将帮助产生更多的创业公司……并且, 我们让公众更容易地找到、使用它 (数据) , 这样能够让企业家制造出他们未曾料想到的产品和服务。”

从政治层面来讲, 大数据可以帮助政府实现以下三大价值:

第一, 透明的政府。大数据最核心的理念就是要建设开放的政府, 这是大数据对于政府最核心的价值。

第二, 智慧的政府。中国政府一直在努力提升对公众的服务水平。大数据可以帮助政府更好地了解公众在想什么, 需求什么。通过让政府变得更加智慧, 从而提升执政水平。

第三, 负责任的政府。通过为社会公众提供更好的服务, 真正做到“权为民所用, 利为民所谋”, 树立更好的政府形象。

大数据时代, 政府要为公众创造价值, 有两点很重要:首先, 要精准地感知。政府要了解互联网中到底发生了什么, 政府要和公众走得更近。其次, 在精准感知公众的需求和体验之后, 要有效地反馈。从服务的供给到信息的投放, 就像做广告一样, 政府要把数字资源投放到老百姓需要的地方——公众在微博上, 政府就把它投放到微博上;公众在微信上, 政府就把它投放到微信上。把这两点有机地组合在一起, 政府未来在互联网上一定会和公众之间形成和睦和谐的互动, 创造一个更美好的治理环境。

数据强国

过去30年里, 中国在工业化、信息化和网络化方面都取得了不俗的成绩。但是也要看到经济高速发展所带来的问题, 包括基础设施建设、环境保护、食品安全等方面的挑战, 都需要使用大数据这种创新方式提供更好的解决方案。巨大的需求客观上为中国大数据的研究提供了许多实践机会。

中国的人口和经济规模决定了中国大数据的规模为全球最大, 可为大数据研究提供许多创新角度, 同时也意味着中国大数据分析的解决方案将同样适用于其他国家, 这将为从“中国制造”向“中国创造”转变提供难得的机遇。

目前全世界都缺乏大数据领域的技术人才和商业人才, 而中国在大数据开发和应用方面的广阔平台有利于迅速培养这一领域的领军人物, 同时推动产生一批围绕大数据形成的创业型企业, 通过企业、科研院所和高等学校之间的合作, 中国有望站在大数据领域的技术最前沿。

大数据在推动中国经济转型方面也将发挥重要作用。其一, 通过大数据的分析可以帮助解决中国城镇化发展中面临的住房、教育、交通等难题。例如, 通过对交通流量数据的实时采集和分析, 可以指导驾驶者选择最佳路线, 改善城市交通状况。其二, 通过大数据的研究有助于推动钢铁、零售等传统产业升级, 向价值链高端发展。其三, 大数据的应用可以帮助中国在发展战略性新兴产业方面迅速站稳脚跟, 巩固并提升竞争优势。

同时, 云计算、大数据和物联网等新概念的兴起, 必然会带来一次深刻的产业革命。如果说前两次产业革命, 中国因为历史的原因, 都处于落后的阶段, 那么以大数据为代表的第三次产业革命必然是中国真正实现经济强国的历史契机。事实上, 全世界都还没有准备好迎接这场革命, 尚不了解数据的类别、品质和价值如何界定, 也不知道数据的隐私、安全和版权如何保障, 没有建立良好的数据产业生态环境, 也没有针对大数据的教育和训练。这种不清晰给了我们更多的机会, 而我国独特的体制允许我们在世界其他国家不可能想象的尺度上“办大事, 办好事”。政府、企业界、学术界、投资界和媒体需要齐心协力推动这次可能深刻改变我们社会和经济的变革。

面临大数据时代, 社会经济需要适应现代化的发展, 实现新的转型, 这就要求深刻考量中国的经济社会特征, 发现中国在新一轮现代科技革命中面临的短板。

打破社会结构的“马赛克化”

改革开放打开了中国的大门, 成为近几十年来中国经济飞速发展的重要原因。民族的繁荣强盛与其开放程度息息相关, 而中国的内部开放则刚刚起步。社会的内部开放重在社会流动和社会沟通, 中国城市化进程的加快和互联网的发展是社会内部开放的具体体现, 但还处于消极的不合理状态, 需要逐渐朝着合理的方向转型, 真正打破社会结构的“马赛克化”现象。

所谓社会结构“马赛克化”, 指的是社会中的群体以政治、文化、经济等各种要素被分割成不同的单元, 不同单元的个体形成一个个特殊的利益和价值群落, 享受着不同的经济社会政策, 促成了他们与单元外的人相互割裂和对立。社会结构“马赛克化”是信息封闭的产物。封闭的信息使人们无法与外界沟通, 继而形成“马赛克化”的社会结构格局。

中国的社会转型呈现多元复合特征。这种多元复合转型表现为八个方面:从乡村社会向城市社会的转型, 从计划经济向市场经济的转型, 从农业社会向工业社会、知识经济社会的转型, 从封闭社会向开放社会的转型, 从立体、科层社会向扁平、网络社会的转型, 从产业追随向产业创新的转型, 从线性经济向循环经济的转型, 从生存文化向发展文化的转型。这八个方面的转型互为前提, 交互渗透, 交织难解。在社会多元复合转型的关键时期, 任何政策和体系都应具有系统集成、顶层设计的特点, 旧制度已不能再适应社会经济发展的需求, 在发展过程中许多问题和矛盾已经开始凸显, 如收入差距拉大、环境不断恶化等, 必将成为社会转型中的障碍, 探寻新的制度创新已经成为时代发展的必然。

人的需求是丰富多彩的。21世纪以来, 在知识资本和人力资本快速流动的全球化背景下, 世界进入了协同发展的轨道。如何利用大数据的力量有效激发技术创新和文化进步, 不仅要改革创新, 还要外拓, 所以打破社会僵滞状态尤为重要。

创新是中国发展进入到知识经济时代的主题词。简单依靠自上而下的创新模式已然无法适应信息高度个性化的时代要求了。在大数据时代, 创新的力量正在向普通大众流动。

以英美为代表的大数据国家里, 相继推出了新的执政纲领, 就是要把权力从中央下放到地方, 从地方下放到社区, 从政治家下放到大众, 让大众承担起更多的责任, 从而建立一个“更大、更强、更好”的社会。应该说这种去中心化的模式是符合大数据特征的, 信息的流动, 层级的减少, 使得个体力量得到前所未有的强化, 从而形成一个强有力的网状社会。

网状社会的最大特点是适应了个体创新能力的组织要求, 从一个点可以辐射到整个网络, 既繁荣了创新, 又降低了创新成本。

打破“马赛克化”, 还可以改变中国社会长久以来数据意识单薄的现象。虽然中国在信息化和数据化方面落后于欧美, 但是中国的网络发展速度却是世界第一。我们拥有了数据流通的渠道, 缺少的是采集数据的意识。

数目字管理的基础是实事求是, 未来中国的持续进步, 依赖于实现这种实事求是的精确管理体系。

我国大数据产业:尚属雏形

2012年中国大数据的产值达到120亿美元。随着从事数据的机构和相关企业的增多, 今后国内数据采集成本也会降低。比如, 基因数据库分析的相关数据, 5年前100万美元才可以买到, 现在只要1000美元就足够了。

整体来看, 如果说美国宣称自己尚处于大数据开发的初级阶段的话, 那么中国的大数据则处于雏形阶段。目前来说, 我国的大数据开发以及应用还仅仅局限在商业领域中, 尤其以百度、阿里巴巴、腾讯、新浪为首的互联网公司为代表。他们可以利用多年来积累的数据优势进行自主开发。

制造业的代表海尔集团这两年也在强调大数据的应用, 快速响应客户, 感知客户需求。

一些产业在大数据领域已经取得一定的进展, 尤其是零售行业, 通过RFID、供应链、会员卡上的海量数据, 挖掘出更多有价值的信息, 帮助商场更好地运营和盈利。

从概念的层面讲, 中国的商业领域里都对大数据有了一个模糊的认识, 但是从他们对概念的描述以及自身模式的定位来看, 也许连雏形都还算不上。

政府在数据开放和数据应用上比商业组织落后, 需要迎头赶上。

中国的大数据开发主要有以下几股力量:

政府的力量。以工信部为代表的政府部委开始了广泛的行业性讨论, 以求可以给大数据一个标准的定义。

公司的力量。这里面有两种:一种是自身具有开发优势的, 比如百度这样的技术型公司;一种是要借助数据外包公司进行开发的, 这一种是目前中国商业里的主流模式。

投资者的力量。以宽带资本为代表的投资基金主动连横产学研各方面资源, 推动成立中关村数据产业联盟, 中关村成为中国大数据一个重要的战略基地。

在人才储备上, 专业的数据分析人员的角色并没有形成气候, 和走在前边的英美国家相比, 中国的专业人才储备不足。

除了技术和资本方面, 大数据更重要的是意识革命。它要求打破小数据时代的结构性样本分析的局限, 完全颠覆存在数百年的因果理念, 转而寻求大数据海洋里的相关性。这种意识的革命对于中国政府和商业都是一时间难以消化的。比如政府部门认为掌握公众的信息就是大数据, 而忽略了透明和公开。企业认为, 用户行为就是大数据, 但是对于如何开发更有价值的信息不得而知。

中国的大数据尚处于星火燎原的阶段, 产业链中各个环节的企业缺乏沟通、协同发展的理念, 并且对于行业用户的需求缺乏深入了解。这不仅使得我国大数据产业中的企业无法形成合力, 而且大数据相关产品和解决方案也缺乏行业应用基础。

以下是Intel发布的大数据在中国的分布图:

大数据短板

第一, 大数据的重要前提是数据的海量性, 中国独一无二的优势是人口数量带来的用户行为的数据海量性。但海量性仅仅是大数据的诸多前提之一, 我国在数据的开放性、流动性、交互性上还远远不足。

第二, 中国目前在数据处理上的技术仍然不成熟, 没有做好迎接大数据时代的准备。移动互联网的发展, 导致移动性与社交性融合, 使时空定位于社会情境。这样的趋势带来了很多价值, 例如融合了移动和社交的应用会影响用户消费决策。但与此同时, 出现的海量数据给精准的目标分析造成困难, 国内目前的数据分析技术还不足以更好地利用这些数据。

移动互联网是不可阻挡的大趋势。在中国和美国, 使用移动终端访问互联网的人数都已经超过了PC互联网。

第三, 从政府层面来讲, 信息公开也是政府利用大数据治国的一个必要条件, 在这方面中国和美国尚有差距。美国1967年就通过了《信息自由法》, 中国社会在2008年前后才制定了《政府信息公开条例》, 而且实施4年以来, 总体情况并不理想。

除了起步晚, 各方面制约的力量都很大。信息公开是一件非常难的事情, 难就难在没有人愿意主动公开!虽然一谈到透明和公开, 大多数人都会认可这是正确的价值观, 但一旦要自己透明、要自己公开, 那透明和公开就会立刻转化为一种威胁, 让某些机构却步不前。

第四, 数据的真实性在中国也有可能会成为阻碍大数据时代的一块暗礁。社会上常见的利用数据弄虚作假的问题, 可以总结为以下几个方面:一是一叶障目, 片面解释一个数据, 这其中也可能是故意为之;二是人为控制数据的收集和统计过程, 使结果产生扭曲和偏差;三是暗箱操作、修改数据;四是无中生有、“创造”数据, 这是最糟糕的, 因为假数据比没数据对社会的危害还要大。

第五, 非结构数据的不足。企业的数据越是非结构化、杂乱无章, 大数据的作用越能发挥得淋漓尽致。以银行为例, 由于银行产生的数据更有组织更结构化, 因此银行反而不是大数据的先锋。而社交网站可以成为用户展示个人的多媒体地带, 拥有大量的非结构性数据, 可以弥补电子商务网站在这方面的缺失。恐怕这也是阿里入股新浪微博的原因之一。

制定大数据国家战略

理性和开放是迎接大数据浪潮的必备素质, 无论对于政府、公司还是个人。要避免成为信息孤岛, 避免不再错失这次产业革命, 就要从顶层设计入手, 在软件、硬件和信息沟通机制三个层面做好准备。

中国制定国家大数据战略的主要内容包括:构建大数据研究平台, 即国家顶层规划, 整合创新资源, 实施“专项计划”, 突破关键技术;构建大数据良性生态环境, 制定支持政策、形成行业联盟、制定行业标准;构建大数据产业链, 促进创新链与产业链有效嫁接。

由于大数据的去中心化和非结构性特点, 自上而下和自下而上就显得不是那么泾渭分明了。政府一定要开放心态, 打开数据之墙, 让公众可以真切地参与到执政过程中, 做到真正的政府公开, 科学执政。

同时, 用户隐私权会成为大数据时代一个极具争议的话题。大数据从本质上要求信息开放, 而信息开放是一个复杂问题, 有些涉及行业内部竞争, 受到商业因素影响, 企业不愿意开放;有些涉及个人或者行业本身的隐私或机密, 无法开放。在大数据应用的过程中, 对互联网用户隐私权和数据的保护, 是开放信息时的重要考虑因素。

在思考这一问题时, 国家应该具体问题具体分析。政府应该审慎分析哪些领域的数据能开放, 考虑开放共享后数据的管理、数据的质量、数据的隐私和数据的保护等问题。

挖掘大数据的价值, 推动大数据的发展, 政府需要发挥作用。大数据是一个众多关键行业关注的问题, 从国家角度来看, 大数据是一种重要的战略资源。

同时, 学术界要和产业界共同支持和鼓励大数据的发展。只有学术和产业价值融合, 才能真正发挥大数据的应用价值。虽然学术界和产业界关注的价值点并不完全一致, 但仍存在一些共性。发现和利用其中的共性, 对解决发展大数据战略中出现的问题很重要。

大数据给中国发展带来了新的机遇。抓住生产方式转变这一关键, 才能解决发展方式转变的深层次矛盾。面向未来, 大数据将激发巨大的内需增量, 建设智慧城乡, 密切政府和民众的联系, 促进民主与社会进步。大数据产业将形成新的增长点, 数据业务主营化带来各行各业转型升级。借大数据的东风, 用信息生产力与先进生产方式带动发展方式和经济运行机制的转变, 可以为中国带来“数字红利”, 提高“新四化”建设的现代化水平。

未来以政府以及电信、教育、医疗、金融、石油石化和电力等行业为重点的大数据应用将直接拉动整个社会的应用规模。大数据将带来一个始料未及的变革性影响, 将使数据业务成为各行各业的主营业务, 围绕大数据, 企业将向分析即服务升级转型, 从而改变各行各业的业态。广义的分析即服务, 包含一切以大数据为基础的高附加值的创造性服务, 例如基于咨询数据平台的生活方式设计师服务、基于统计数据挖掘的商业分析服务、基于设计平台的创意服务, 还有基于大数据的设计服务、管理服务、教育服务、翻译服务以及基于行业或价值模块细分的服务, 等等。

数据产品 篇8

关键词:分布式数据库,数据复制,数据分片

通常,分布式数据库系统需要维护数据库的多个副本,保持数据库多个副本间的数据一致性是分布式数据库系统维护的重点。数据复制能够将数据副本建立在不同的节点上,是重要的分布式数据库应用技术,能够避免因为某一个节点失效而导致分布式数据库崩溃的情况出现。在不同的数据副本上操作不同节点上的事务,进行单副本串行是保持数据库中不同数据副本间的一致性的重要方法。利用SQL Server 2000中的数据复制功能,可以把主要精力放在本地副本更新上,由分布式数据库系统完成其余副本的更新。

1 数据复制概述

数据复制能够将数据库中的数据备份到互联网、广域网或是局域网连接的服务器、站点的数据库当中,是强大的、重要的分布式数据库应用技术。数据复制能够保证各个副本之间数据的一致性,保持数据的同步。数据复制具有提高分布式数据库系统的性能,提高数据可用性,提高数据查询的速度等优点。通常,分布式数据库中,以数据更新传播的不同方式为依据,将数据复制分为异步复制和同步复制两大类。数据同步复制是事务执行的内容之一,其将每一个更新操作同时传送至其他副本的另外节点之上,并同时提交全部副本的更新。数据异步复制不同于数据同步复制,其将所有更新纳入到一个事务中,然后传送至副本的另外节点,使通信量降低,并且减少事务回滚而导致的代价。数据复制能够将已有中心数据库中的信息备份到各级拥有信息需求的不同数据库当中,也能够把各级分布数据库中的信息备份到中心数据库当中,从而有利于进行全局联机的决策支持分析与事务处理。

2 数据复制在SQL Server 2000中的应用

在维护同一个数据库多个副本间的一致性方面,SQL Server 2000提供了较为完备的复制功能。SQL Server 2000中数据复制的相关主体是发布者、分发者和订阅者。在SQL Server 2000中,用户能够利用数据库中已有的数据。用户处理数据时,即使断开了连接也能够进行数据副本处理。只要在重新连接后,用户将更改的内容传送至数据库当中就可以了。这样充分确保了各个分布数据间的独立性。SQL Server 2000中主要有事务复制、快照复制与合并复制三种类型的数据复制模式。首先,事务复制模式。在订阅服务器上进行数据初始快照运行,如果在发布服务器上进行数据更改,就使用事物日志对个别事务进行捕获,然后将个别事务传送至订阅服务器。其次,快照复制。直接分发数据位于某个时刻的状态,不对数据更新进行监视。把发布器中的数据复制到订阅服务器中进行数据复制。快照复制适合更新次数较少的大量数据的数据复制。最后,合并复制。在订阅服务器接收数据的过程中,不论订阅和发布服务器之间是否进行了有效的连接,数据更新都可以照常进行。在订阅服务器和发布服务器连接时,合并复制能够合并所有的更新。

这些复制类型都能够保证各个层次数据一致性的需求,为事务的ACDI属性提供了相应的功能。事务复制、快照复制与合并复制所具有的特点和功能都能够满足独立性与一致性的数据复制的要求。其中,事务数据复制是常用的便捷的数据复制方法。事务数据复制能够将数据库中的数据传送至其他的数据库,能够记录DELETE、UPDATE、INSERT等不同类型的数据操作。在维持数据复制的一致性方面,事务复制采用异步复制方式,将数据分发至订阅服务器,并进行增量修改。事务复制在SQL Server 2000中主要由三部分构成:日志读取代理、分发代理和快照代理。快照代理能够形成数据文件和描述文件,与新的订阅数据库保持同步。日志阅读器代理能够在分布数据库中插入事务日志中的事务。分发代理能够将复制事务从数据库中传送至订阅者。快照代理、日志读取代理和分发代理相互协调,保证各个副本的传输数据保持同步。

3 基于XLM的中间件模型及数据分片

3.1 基于XLM的中间件模型

基于XLM的中间件模型的主要功能模块包括:全局DOM树、中心处理模块、局部DOM树以及包装器。首先,全局DOM树。W3C组织推荐的DOM是一组用于合法HTML文档与XML文档的编程接口。全局DOM树允许脚本与程序进行动态访问、结构更新、文档内容更新和类型更新。其次,中心处理模块。中心处理模块是中间件模型的核心模块,它按照相关的数据分片策略,参照XML或DTD提供的路径模式信息,处理全局DOM树上的路径实例,在各个站点上分布每种模式的路径实例。第三,局部DOM树。在数据分片完成之后,在各个站点上利用DTD模式信息重新构建和全局DOM结构相同的局部DOM树。局部DOM树是全局DOM树的子集,如果把所有站点上的局部DOM树合并在一起,就能够得到全局DOM树。最后,包装器。通常,数据源均具有自己的包装器,在获得查询请求之后,就会从数据源中进行数据检索,找出所需的数据,并且将数据转化成XML形式。此外,数据源中的包装器能够进行数据源和DOM树之间的转换操作。从纵向来看,包装器、局部DOM树与其所对应的数据源共同形成了一个处理单元;从横向来看,包装器、局部DOM树、核心出来模块与全局DOM树共同组成了XML的中间件层。

3.2 数据分片

数据分片是分布式数据库的重要技术之一。传统的数据分片技术有Hybrid-Range分片策略、Range分片策略、Round-Robin分片策略。这些分配策略适用于有着固定模式的数据库,而不适用于无固定模式的、半结构化的XML文档。HRPS是一维分片方法,其划分的根据是关系中的某一个属性值,划分好的每个子空间内的数据元组数量相同,数据元组的值域互不相交。查询响应时间极小化是HRPS的重要目标,在查询数据时应当注意网络通信、磁盘I/O、CPU这些基本资源的占用。HRPS在XLM中间件基础上的扩展方法——EHRPS。EHRPS划分全局DOM树遵循以下原则:子空间包含路径实例数量大致相同的局部DOM树;子空间均只包含路径实例不重复的集合;根据DTD提供的路径模式信息,在不同站点上进行路径实例分配。由于中间件是统一的数据模型,在DOM树查询的相应时间当中会发生中间件系统资源消耗。DOM树的合并和XML文档生成DOM树的时间影响着DOM查询的响应时间。

4 结束语

综上所述,数据复制与数据分布在分布式数据库中有着广泛的应用。分布式数据库中,根据数据更新传播的方式将数据复制分为异步复制、同步复制两大类。在SQL Server 2000中的数据复制的主要有事务复制、快照复制与合并复制三种类型。事务型数据复制能够从一个数据库向其他的数据库分发数据,是一种较为理想的数据复制方法。在SQL Server 2000中事务复制主要由日志读取代理、分发代理和快照代理三个有机环节组成。全局DOM树、中心处理模块、局部DOM树和包装器是基于XLM的中间件模型的主要功能模块。Hybrid-Range分片策略等传统的数据分片技术适用于有着固定模式的数据库。EHRPS是HRPS基于XLM中间件的扩展方法,适用于无固定模式的、半结构化的文档,能够降低查询难度,提高查询的准确度。

参考文献

[1]朱丽丽.分布式数据库在高校的应用策略[J].科技信息 (科学教研) , 2008 (17) .

[2]涂承胜.基于VB的数据库的图像处理技术[J].计算机工程与设计, 2003 (6) .

[3]王祥武.数据复制技术比较[J].信息系统工程, 2010 (3) .

[4]勒敏, 刘建辉.分布式数据库系统数据一致性维护方法[J].科技广场, 2008 (3) .

[5]张建飞.数据复制系统的研究[J].才智, 2011 (11) .

[6]刘荣.分布式数据库系统数据复制技术的研究[J].电脑知识与技术, 2009 (7) .

[7]徐丽萍, 袁刚, 卢炎生.DRMDP:一个基于动态优先级的反射式数据复制中间件[J].计算机工程与科学, 2009 (2) .

降低数据成本提升数据价值 篇9

在“互联网+”日趋繁荣的今天,城市的云计算中心已经可以支撑架构在网络上的各种应用和业态,但它绝不仅仅是一项满足于“互联网化”的基础设施。 如今,政务、医疗、商务、交通等数据都可以通过互联网 “ 相加”,消灭信息孤岛,从而产生更高的数据价值。

如果今天人们对“云”的定义仍然停留在基础设施的话,恐怕难以发挥云计算和大数据在各行各业中的重大作用。因“云”而生的数据融合,不仅将打破信息孤岛,还将在“互联网+”新业态下创造更多数据价值,同时更是对信息资源的高效利用。

1 0月在成都举行的中科曙光 “数据中国巡展”上亮相的成都云计算中心,借助“企业建设运营、 政府定期、定量采购服务”的“成都模式”,在经历了近7年的建设时间之后,成功实现了降低云计算建设初期投资,最大限度节约政府信息化建设成本的目标,相对于传统的分散建设,资源利用率提升3至10倍,节省投资费用60%以上。无独有偶,同样借助“市场化运作、 政府购买服务”模式的宜昌三峡云计算中心,也建成了“构建以人为本、网格化管理、信息化支撑、 全程化服务社会管理新体系”,并基于不断融合的海量数据,构架起了面向未来的“数据价值挖掘与创造”新模式。

从最初的基础设施平台建设为主要内容,到第二代以数据的整合为主,第三代将数据开放给政府各个部门,提供共享服务要求,第四代如今将数据在一定的限定条件下开放给社会应用,带动大数据和互联网产业的发展,基于不断融合的海量数据,构架起了面向未来的 “数据价值挖掘与创造”新模式。

如今,作为区域标志性的IT基础设施,成都云计算中心已经建设成为集电子政务云服务平台和公共计算云服务平台之功能于一体的复合型计算中心。它既可以满足高端计算需求;用于日益复杂的科学计算和渲染仿真,也能用于密集数据I/O和海量存储;同时可以作为电子政务密集数据处理中心,是诸多企事业单位蓬勃发展的动力基地。

随着云计算产业的发展,传统业务是否要往“云”上迁移早已不在是市场关注的重点,一系列国家云服务标准相继出台也让云计算服务的安全性逐步得到保障。今天,随着各类业务上“云”后所产生的海量鲜活数据,如何深度创造价值,如何以“数据”的力量支撑 “互联网+”、“一带一路”等国家战略的快速实施,如何利用“大数据”促进政务提效、打造便捷生活才是行业、政府乃至国家关注的战略性议题。

从“大数据”到“智能数据” 篇10

等着要发掘的“金子”,指的是用于记录、存储和分析大量的数据,以及以合适的形式显示该结果的“大数据”新技术。现在最被人们广泛讨论的话题是用户购物、搜索或网购的数据,或利用全球金融和通信网络而产生的数据。还有银行、电信和保险业通过建立使用者信息与交易记录的分析模型,来增加利润和降低风险等等。大数据的时代,使我们能够探索人类的行为,探索人类本身的奥秘,这在以前在很大程度上是不可能的。我们经常使用的工具和终端,帮助我们获得和体验这方面的感受。

由于都想成为“掘金者”,从大数据挖掘价值,目前具有深入的分析、数学、统计、规划技能的数据分析师正炙手可热,已没有足够多的人才可满足需求。美国大型银行和联邦机构正在越来越多地聘请“首席数据官”(CDO)和数据分析师,以促进对于整个组织机构中的所有功能数据的收集、分析、分发和应用的战略思考。

大数据有所谓的3V特征:即“大量化”(Volume)、“多样化”(Variety)和“快速化”(Velocity)。然而,光是大量的数据采集是不够的,这些数据本身还需要有较高价值,即增加第四个V:Value(价值),成为4V。而经过“大数据”技术的处理(数据采集、数据分析、数据处理、数据显示等)之后更会产生较高的价值。

用智能数据建立智能系统

啤酒+尿布是值得挖掘的数据;而从工业设施、建筑物、能源系统和医院产生的比特和字节,含金量更高,更值得挖掘,因为它们可以用于建立起智能系统,这些比特和字节就是智能数据。我们来谈谈智能数据如何建立起一个智能系统。

终端通过连接、把它们管道化,对人们带来了极大的便利,大大提高了生产率。但是这些还不够,还需要体现“智能化”,实现智能系统。现在我们经常在提到智能手机、智能电表、智能电网、智能家居、智慧城市等等,都是希望人们使用的设备和终端能够根据人们的需要自动编程,实现自动化,尽量避免人工介入。

这样一种“智能化”,需要具备两个条件:首先是“管道化”(互联网思维的核心是“管道化思维”),就是把所有的终端或节点全部连接起来,互相之间能够有“沟通”(即发生交互作用);另一个是各个终端本身具备一个“小电脑”,即带有处理器芯片,可以通过软件处理和产生“智能数据”。有了这两个基本条件,就可以体现出一定程度的智能。

以抽水马桶为例。抽水马桶是已经管道化的马桶,再加上上述第二个条件,就可以变成一个“智能马桶”。具体可以这样来实施:在马桶里装有一片微处理器芯片和一片生化芯片(Lab-on-Chip,LOC),对人们的排泄物自动提取和分析,然后把分析结果通过管道,如WiFi送到医生那里,医生把每天的分析数据与事先存储的数据进行对比,给这位坐过这个马桶的人发出营养指标提醒和生理指标提醒,如果必要的话则写处方,提醒他服用药物或到医院进一步检查。另一方面,根据这个马桶的软件分析结果,会得出缺少哪种营养的具体数据,然后通过无线通信的管道传送到超市,超市会根据这些数据选出合适的食品通过快递服务送达家中。

抽水马桶还可以包含其他各种传感器进行“管道连接”,如每次使用自动记录用水量;如有漏水,自动通知维修人员或物业管理处派人来检修;如有堵塞,就会自动通知管道维修人员来疏通;如水漕不进水,也会自动通知相关人员来处理等等,这些都会产生一定的数据量。

我们必须了解这些智能数据的量,以便正确地评估它;我们必须知道各种器件和设施是如何工作的,了解我们需要哪些传感器和测量技术来获得真正重要的智能数据。决定性的因素不一定是数据量大,而是有价值的内容。

这样的智能数据可以体现在各个领域。如对于一个大型燃气轮机,有几百个传感器每秒钟在测量温度、压力、流量、气体组成。如果人们很了解设施的物理特性,因此知道如何正确地分析这些数据,就可以给发电厂非常有用的建议,来提高电力的使用效率并减少污染。同样的措施可以用于风力发电、建筑物、钢铁厂和整个城市。所有这些领域里,必须不仅收集数据,而且还理解数据。处理的数据是智能数据,得出的结论用于将企业或城市变得更智能。

适合于评估这些智能数据的算法还需要开发。这些算法可以帮助人们更好地节省能源、更好地有利于环境、更多地节省成本,以及使设备运行得更可靠。

在未来,智能数据可以帮助我们了解一个智能系统每时每刻发生了什么,更能够告诉我们为什么会发生。甚至还可以告诉我们接下来会发生什么,以及我们应该如何应对。智能数据将改变企业的商业模式。例如一家跨国公司可以设立一个全球维修中心,全球各个分部的工厂都设有大量传感器并与网络相连,只需要在这个中心分析大量的远程智能数据,就可以进行远程诊断和处理,而不需要技术人员到现场。这样的商业模式,对于火车、船舶、发电厂、医疗器械等等都是极其有用的。例如,从一辆火车的运行中得到的测量数据,可以帮助火车驾驶者运行的更平稳、更节能。节省下来的资金,则可以在用户和智能数据提供者两者分成。这是双赢的局面,也是如何从数据山中掘金的一个很好例子。

大数据如何成为“智能数据”

数据只是“大”,并没有太大意义,关键是如何最佳地挖掘高价值的数据、使用这些数据,使这些数据成为“智能数据”。这有几个方法:先评估数据的价值和将会产生的价值;把数据和“智能化”相关联;把数据变成具有上下文意义的灵活的数据结构;随着时间的推移,根据这些收集了的大量数据,展现一幅绚丽多彩的智能数据图。到最后,也不会再去思考大数据与智能数据有何区别,因为所有的数据都已经成为智能数据。

西方2000多年前就已发明的“管道化”的马桶开了物联网的先河。基于互联网的物联网(IoT)的到来,预示了新的创新设备、新的网络形态、新的商业模式的不断涌现,也预示着智能数据的成千上百倍增长,智能化将体现在各种应用中。如按照今天所理解的大数据概念,是不充分的,大数据必须从3V演变为4V,大数据必须演变成智能数据,整个家庭乃至整个城市也正在向“智能化”大步演进,才会有更多的“掘金”机会。

(作者张臣雄,在世界500强企业之一的大型高科技公司任首席科学家)

基于关联数据开放政府数据 篇11

2009年2月,Tim Berners-Lee在TED大会上提出关联数据,并介绍了其对于数据Web发展的影响。随后,世界各国开始以关联数据的形式公开发布政府数据,如美国、澳大利亚、新西兰、荷兰、瑞典、西班牙、奥地利、丹麦等以及地方政府伦敦、纽约、温哥华等。最具影响力的是2009年5月美国data.gov的启动以及2010年1月由互联网之父Tim Berners-Lee和南安普敦大学人工智能教授Nigel Shadbolt领导开发建立的英国政府开放数据网站data.gov.uk。在国内,政府各部门对信息的需求变得越来越明显,为了解决当前政府“信息孤岛”的问题,把所有可公开的相关数据关联起来,并发布到统一的数据平台上供大家使用,我们将采用W3C标准中的关联数据技术和方法实现数据的开放。为了实现这个目标,我们需要处理的问题有:信息的来源问题,数据的格式问题,数据的相互关联问题以及数据的使用问题等。同时,关联数据作为基础技术,使数据的发布者能满足数据使用者的各种各样的需求,实现数据的最大化应用。

2 Linked Data与国外开放政府数据

Linked Data这个概念来自W3C正式项目———关联开放数据(Linked Open Data,LOD)项目。目前该项目含有50多亿个RDF三元组,该数据还在不断的增加。简单来说,关联数据的三个基石是URI、RDF和HTTP协议,即通过HTTP协议来传递RDF数据,而这个RDF数据是一个遵循特定规则语义数据,这个特定的规则就是使用URI来描述任何资源[1]。关联数据和数据的关系就好比万维网和文件的关系,是语义万维网的一种可行的表达方式,实用且可操作,适用于各种形式的数据,它根据开放标准将数据连接在一起,从中萌发出很多新的事物,比如:在遵循关联数据四项原则的前提下,地理信息系统、移动通信系统、公安信息系统的数据能组合在一起,有效的评估公安系统对某一区域犯罪率的控制。

2009年,美国和英国都分别作出开放数据的承诺,data.gov与data.gov.uk两个政府网站相继启动。5月下旬,由美国联邦首席信息办公室和Vivek Kundra成立的一个美国政府网站data.gov,作为政府数据中央存储库,经过一年的时间从起初的47个数据集已经发展到现在的272677个。其根本目标是,让公众对联邦政府行政部门生成的“高价值”、机器可读的数据集进行访问,使得公众的参与与协作是网站成功的关键。2010年1月项目正式启动的英国政府网站data.gov.uk采用语义网的架构概念、SPARQL的搜索技术,其中地理信息底层采用yahoo用户界面库Yahoo User Interface Library实现[2],该网站就已包含约2500个数据集,这些数据集来自于英国政府部门,既是非私有的,并以相同的格式存在以便重用。总体来看,data.gov.uk拥有超过data.gov的优势,使用关联数据格式发布数据,使得用户更容易使用数据,它使用通用的网络语言使得用户对整个网站的导航比较熟悉,让更多用户也参与进来。但是,这两个网站发展的空间还很大,随着时间的推移,将会变得更流畅,更富成效。

3 国内数据开放存在的问题

政府的信息开放包含三个方面:政府透明度,问责制,以及知情权。当前,来自政府体制内的不同部门利益难以协调,难实现数据的整合、公民对政府的监督和问责。国家信息化办公室的撤销,从一方面显示了国内信息化地位的降低。而对于研究者来说,没有数据,就如“无米之炊”,但并不是所有的政府及科研数据都拿不到,只是拿到的数据精度不高,不成系统,甚至不能用,因此,数据的开放和共享在国内成为了一个瓶颈。另外,还存在一个问题,对于同一种类的数据,不同的部门会采取不同的统计方法,所得出的结果有很大差别,比如说,对于贵州人口统计,我们应该选择哪一个体制的数据,国家统计局(常住人口37623600人)与贵州省公安系统统计的数据(户籍人口39850386人),用户只能是根据自己的需求来选择所需要的数据。2006年1月12日,中国生态系统研究网络的数据正式对外公布,虽然数据在进一步的完善中,但这也是科学界数据共享的一个新的开始。最后,在接下来的数据工作中,除了解决数据分散、信息孤岛,还应有针对数据开放的立法,保证数据的有效使用。

针对中文信息的处理,也存在很多的问题,比如说歧义的自动识别,对于水果类的“苹果”和计算机品牌“苹果”,计算机还不能准确的识别出来;又如目前搜索引擎的主要问题,缺乏智能,用户的输入是关键词的组合,无法准确地表达用户的检索需求,搜索引擎的输出是网页集合,需要用户自己从这些返回的网页中进一步寻找答案,浪费了时间,即使是Google中国,它按照倒排序的方法将用户较感兴趣的网页放在前面,但是最终的选择还得靠人工来选择;由于信息的异构,把信息融合在一起时比较困难;等等。因此,在我们运用Linked Data技术来对国内的数据进行开放处理时,应考虑到具体的国情和中文信息处理方面的问题,只有与现实结合起来,才能更好的做好政府数据开放的工作。

4 开放政府数据

2005年,Izzard,Vincent和Burlat等人在第一届企业软件和应用互操作国际会议中提出了关于企业集成中语义和本体的概述和一个通用的集成处理工作流程[3]。借鉴英美两国开放数据(data.gov与data.gov.uk)的成功案例,根据实际需求和互操作任务,采用Linked Data标准实现政府部门之间数据的共享和开放。这一节将介绍Linked Data技术是怎样应用到国内数据开放的进程中。

采用“从下自上”的方法开放数据,即在取得高层授权后,先把数据放到网上,由使用者集体参与的结果来决定出数据最后的形式,之后再整合。发布开放数据工作流图如图1所示[4,5,6]。

4.1 语义描述

语义描述是为了明确服务的功能和业务数据的语义,包括数据的描述、功能的描述和业务的描述。语义描述数据是整个工作流程中比较难以实现的一个步骤,但是一旦充分的实现了语义描述,将会帮助大众更容易的找到、理解、使用数据。实现语义的描述的过程充分展现了Linked Data技术的优势所在。

4.1.1 标识

使用URIs(Uniform Resourse Identifiers,统一资源标识符)来标识资源。在Linked data环境下,统一选用HTTP URIs,避免使用其他的URI模式(如URNs和DOIs)。选择HTTP URIs命名主要有三个原因:其一是http://是唯一的URI模式,并且绝大多数工具和基础设施都支持;其二是URIs提供了一种简单的方式创造出全球唯一的名字,且不需要集中地管理;其三就是URIs的作用不仅仅是命名,也是Web中处理资源信息的途径。好的资源标识符不仅仅是提供人和机器都可读的描述,也要“Cool”[7],即设计简单、稳定及可管理。

4.1.2 选择URIs

URIs用来命名资源,并连接RDF和Web,在发布关联数据之前,我们应该找出相应资源的URIs。一方面,它们必须是很“好”的命名,能使其他的发布者可靠地把你的资源链接到他们的数据上;另一方面,在恰当的地方建设好支撑技术的基础设施,使得它们能被解引用。要尽量选择在可控情况下发布的URI,另外,最好是选择可以帮助记忆的、稳定的、持久的命名。因为一旦更改URI,就会改变已经建立的链接。由于技术环境制约着URI的选择,所以对URI进行清理也是很必要的工作,可以通过添加URI重写规则到Web服务器的配置中实现。最后,可在URIs中使用关键字确保其唯一性,例如,在处理书籍的URI时,使用ISBN编号作为URI的一部分。如:

http://www4.wiwiss.fu-berlin.de/bookmashup/books/006251587X

4.1.3 选择术语集

为了使客服端应用程序能尽可能简单访问到数据,应使用已经普遍使用的数据集,在现有术语集中没有找到需要的术语时,才定义新的术语。

重用现有的术语集

在语义Web中已有很多著名的术语集:FOAF(Friend-of-a-Friend)、DC(Dublin Core)、SIOC(Semantically-Interlinked Online Communities)、SKOS(Simple Knowledge Organization System)等。这些数据源的URI是解引用的,意味着能从Web中检索到相应概念的描述,并能链接到其他数据源的URIs。

自定义术语

使用RDF词汇描述语言1.0:RDF模式或OWL(Web Ontology Language,Web本体语言)。需要注意的是,最好不要从零开始定义新的词汇,而是在现有的词汇上附加术语来描述资源,最重要的是术语的URIs要能解引用,使得客户能查找到术语的定义。由于人能猜测,但机器不能,在定义过程中不能丢失重要的信息,也不要创建太多的限制,而是保留发展的灵活性。

4.1.4 RDF描述

如果没有对数据的描述,数据是没有多大用处的。对数据的一个描述就是一个固定格式的字节流,譬如HTML,RDF/XML或JPEG。例如,某个同学的成绩单就是一个信息源,它能被描述为一个HTML页面,一份PDF文档或RDF文档。由于单一的信息资源能有很多种不同格式的描述,用一种简单的语言来描述数据集以创建一个Web页面,可以帮助搜索引擎找到数据供给用户使用。在描述中至少应该包括这个资源的标题、说明、出版日期及数据来源等。

4.1.5 链接

在完成了对数据的描述之后,下一步就是实现数据的链接了。

手动链接

一旦定义了特定数据集作为合适的链接对象,就需要手动的搜索想链接到的URI引用,如果数据源没有提供搜索的接口(SPARQL终端或HTML的Web形式),可以使用Linked Data浏览器(Tabulator或Disco)搜索数据集并找到准确的URIs。需要注意的是,数据源可能使用HTTP-303重定向来重定向客户端,从定义非信息资源的URIs到定义描述非信息资源的信息资源的URIs。在这种情况下,请确保所连接到URI引用是定义非信息资源,而不是关于它的文档。

自动生成

这种方法适合于规模不大的数据集,此时,使用自动记录链接算法生成数据源之间的RDF链接是有意义的。

4.2 语义发布

其目的是提供一种方法,使得计算机能理解所发布的信息的结构,甚至是信息的含义,使信息搜索和数据集成更有效率。并将多种不同类型的数据转换为关联数据类型。

如:关系数据库,有一些开源的工具能实现关系数据库到关联数据的转换,如D2RServer,Triplify;电子表格,机构的大量信息以电子表格的形式存在,早期的recovery.gov数据都是以表格的形式发布,部分源表在最上面一行有一个表头,可以导出为逗号分隔文件、CSV;XML,首先把XML数据放到Web中,然后指出这个XML是关于什么的?是什么东西?关系又是什么?再使用一个程序转换XML文件为RDF,等等。

确定了要发布的数据后,维护发布的数据就成了是政府最关心的问题。所以为了保留数据的历史性,应使用版本可控的数据集,以便人们能引用和链接到过去或现在的版本,这些升级的或新的数据集也能索引到旧的数据集。在必要的时候还能提供工具转换旧的数据。因此,如果能在数据中嵌入数据的版本号或是标识符,那就会使得人们使用数据更加便利,顺畅。

4.3 测试及调整数据

在发布作为Linked Data的信息到web后,应该测试信息是否能准确的访问到。一个简单的测试方法就是把多个URIs一同放入Vapour链接验证服务,生成一份详细说明URIs关于HTTP不同要求的报告。另外,就是查看在不同的Linked Data浏览器中信息是否显示准确,浏览器是否能在数据范围内找到RDF链接。

4.4 语义发现

语义发现是发现服务中能够进行有意义的交互的处理过程。通常,语义发现过程依赖于语义描述。语义发现的一个基本要素就是能用额外的信息来扩大对服务的描述,如元数据。服务的提供者也许会采取各种各样的方式来描述他们的服务、访问策略等。尽管如此,很多资源的使用者也会根据他们自己的选择策略来决定他们想要使用的服务,如数据的起源、衍生的服务质量、信誉指标等。在发现服务中使用语义,使得搜索引擎能更好地“理解”特定网页的内容,更准确的搜索想要的信息,同时也可搜索到其他有用的精密信息,同时使得自动化搜索有可能得以实现,更容易集成多个Web服务[8]。

4.5 语义调解

语义调解是异构系统进行交互的构成要素,是在产生冲突的情况下使用的特定实体[8]。其主要作用是利用数据,以创造更高级别的应用程序的信息。使用本体调解技术,如合并、对齐或一体化,语义调解器能识别出数据之间隐含的相似之处。值得注意的是,调解器必须被理想的考虑为第三方,其主要目标是使不同的观点近似,避免可能给予所涉及的当事方之一特权的决定。

当知识表述在一个中立的执行方式中时,可以更容易使用知识,更容易在不同的应用系统中重用知识。使用调解器表示一个源执行的接口要求,并转换到能被目标接口使用的知识库中,并作用于数据和其处理过程,若系统要求数据的语义内容是相同的,需要数据调解器,但是表述的句法是不同的;若共享一个处理过程的语义内容时,就需要处理调解器,但是消息或消息交换模式是不同的[9]。

5 结束语

使用关联数据标准发布数据对于政府来说,提高了政府透明度,实现公民对政府的监督和问责。其中,对于政府数据的发布者来说,关联数据标准意味着能可靠地发布数据,而对于数据的使用者来说,关联数据标准则意味着他能灵活、方便地重用政府数据。政府数据有很多可以使用关联数据的领域,如统计和地理空间信息,但是大多数数据都不是关联数据格式,且数据模式难以理解和重用,对于Web规模的数据集成是封闭的。文中结合国内数据开放所存在的问题以及中文处理过程中的问题,总结出开放并发布政府数据到Web中的工作流程,即在确定所需要的数据源后,从各个部门收集数据,按照先发布后调解的原则,把语义描述好的数据发布到Web中,将各种类型的数据形式统一转换成关联数据形式存储在RDF数据库中,在测试并调整后,语义发现数据及选择需要的服务,在异构系统进行交互的时候使用本体调解技术实现数据的合并、对齐或一体化,增加数据的重用。由于当前国内政府还没有实现数据的开放,关联数据技术仍未得到充分的应用,国外的相关工具在处理中文时时常会产生异常,而国内相应的工具没有开发出来,所以这也是将来需要解决的问题,要使政府数据完全实现关联数据标准,还有很多工作要做的,很多技术需要学习。

摘要:采用Linked Data标准来发布开放的政府数据,可以提高政府数据的透明度,增强公民对政府的监督和问责。该文中结合国内没有实现政府数据开放和共享的原因,总结出适应于国内发布开放的政府数据到Web的工作流程,即在确定所需要的数据源后,从各个部门收集数据,按照先发布后调解的原则,把语义描述的数据发布到Web中,将各种类型的数据形式统一转换成关联数据形式存储在RDF数据库中,在测试并调整后,语义发现数据及选择需要的服务,在异构系统进行交互的时候使用本体调解技术实现数据的合并、对齐或一体化,增加数据的重用。关联数据技术使得政府作为一个中心平台,用来满足来自商业、学术和开发人员对数据的广泛需求,最大限度使用各种类型的数据。

关键词:关联数据,语义,公开,链接,电子政务

参考文献

[1]Christian Bizer,Tom Heath,Tim Berners-Lee.Linked Data-The Story So Far[J].International Journal on Semantic Web and InformationSystems,2009,5(3):1-22.

[2]John Sheridan,Jeni Tennison.Linking UK Government Data[M].London:LDOW Press,2010.

[3]Said Izza,Lucien Vincent,Patrick Burlat.A Unified Framework for Enterprise Integration—An Ontology-Driven Service-Oriented Ap-proach[C].Switzerland:Pre-proceedings of the First International Conference on Interoperability of Enterprise Software and Applications,2005.

[4]Bizer C,Cyganiak R,Heath T.How to publish Linked Data on the Web[M].Germany:ISWC Publishing,2008.

[5]Daniel Bennett,Adam Harvey.Publishing Open Government Data[M].Washington DC:W3C Working Group Press,2009.

上一篇:地下铁道下一篇:等待和希望