内容数据

2024-06-18

内容数据（共12篇）

内容数据篇1

1科学数据与元数据概念内涵及研究意义

科学数据是一种重要的科技信息资源,具有广义和狭义之分。狭义上的科学数据是指人类社会活动中经过加工处理而变得有序化并大量积累后而有用的数据结合; 广义上的科学数据是指数据、数据生产者、开发利用的技术等要素的集合[1]。通常所说的科学数据是指狭义上的科学数据,可以被认为是一切内容和来源规范,数据收集方法科学合理, 且具有科学研究价值或其他使用价值的数据。科学数据既可以作为科学研究的结果,又可以作为科学研究的对象。随着人类科学研究活动的不断推进、各种先进科学仪器的诞生,科学数据正以指数数量级猛增。科学数据只有在得到很好地保存与管理, 并在实现共享的前提下,才能充分发挥其作用,实现其价值。

在科学数据的管理与共享过程中,元数据发挥了重要作用,为用户发现数据和再利用数据提供了依据。元数据英文名称为Medadata,元数据 ( Metadata) 被定义为 “关于数据的数据”,或是描述和限定其他数据的数据。该术语属于计算机科学领域的专用术语,最早出现于美国航空与宇宙航行局的 “Direction Interchange Format” ( DIF) 《目录交换格式》手册中[2]。国际标准化组织 ( ISO) 认为元数据是关于数据内容、质量、条件状态和其它特征的描述。实际上元数据起源于图书馆领域,早期图书馆的书目记录就是一种元数据。随着元数据应用范围的扩大,元数据逐渐成为了描述资源的一种工具, 广泛应用于各个领域。用于描述科学数据的元数据称之为科学数据元数据,它对科学数据外部形式和内部特征的进行了详细描述,为科学数据共享提供信息。其主要目标是提供科学数据资源的全面指南, 以便用户对数据资源进行准确、高效与充分的开发与利用[3]。本文主要对科学数据元数据的功能和内容进行探讨,详细分析了用户在发现数据、评价数据过程中对元数据的关注点,对如何完善科学数据元数据内容以更好地发挥数据评价的功能提出展望。

2科学数据元数据的功能与作用

元数据作为描述信息资源的特征和属性的结构化的数据,具有定位、发现、证明、评估、选择信息资源等功能。描述科学数据的元数据,学者们对其功能有不同的认识。Greenberg[4]认为描述科学数据的元数据功能包含6个方面: 资源发现和再利用、数据互操作、元数据自动或半自动生成、连接相关出版物和底层数据集,数据质量控制和数据安全。Jian Qin等[5]把科学数据的用户任务分为几类: 一般任务 ( 数据发现、识别、选择和获取) ,科学任务 ( 数据审核、数据分析) ,数据任务 ( 管理、存档) , 传播任务 ( 发布,引用) ; 在此基础上总结科学数据元数据功能包含4个方面: 数据管理、数据质量控制、数据再利用、数据发现,其中数据管理是其他功能的基础。

对科学数据元数据功能的认识,图书馆领域与具体学科研究领域存在着差异。图书情报领域把科学数据视为一类特殊的信息资源进行组织与管理, 关注的是科学数据的标识和引用信息,认为元数据主要向用户提供科学数据的一些基本属性的描述, 目的是方便用户检索数据,并最终发现所需的研究数据。而在具体的研究领域,科学数据元数据的功能已经不仅仅局限于对资源的简单描述或索引,其实现的功能已经发生变化,除了承担描述、定位、搜索、评价和选择资源的作用外,还承担着管理科学数据、维护数据安全和控制数据质量的功能。因此,科学数据元数据的功能可以总结为描述数据、发现数据、评价数据、管理数据、存储数据、使用数据,科学数据元数据最终目的是服务于科学数据共享。

针对不同的对象,科学数据元数据发挥的作用也不同[6,7]: 对于数据用户而言,元数据是他们正确选择、使用、交换数据的不可缺少的工具。元数据通过对数据资源的内容、分类、质量和存储等的详细描述,回答了用户的一系列问题: 有什么数据? 数据怎么样? 如何获取数据? 怎么使用数据? 对于数据管理者而言,元数据方便了他们集成各种数据库,为数据集 ( 或库) 建立目录,更有效地管理并维护海量数据。对于数据生产者而言,元数据的存在方便了数据的生产、加工和更新,并可以使数据归档更高效,使数据成为了有生命力的资源,不必担心随着时间或者人员的变化而影响到数据的生产, 数据的增值具有了持久性。科学数据元数据的最大用户是科研人员,元数据是他们发现数据、评价数据和使用数据的不可或缺的工具。

3科学数据元数据内容分析

科学界普遍认为,描述科学数据的元数据越丰富,越有利于用户发现并再利用科学数据。但在实际应用中,科学数据元数据的内容决定于元数据所发挥的功能,元数据对科学数据描述的程度不同。

3.1图书情报领域科学数据元数据内容

图书情报领域和具体研究领域对科学数据元数据的认识存在不同之处。图书情报领域侧重于科学数据的发现与检索,科学数据元数据内容沿用了其他信息资源元数据的内容,偏重于提供数据资源内容方面的信息,主要关注于向用户提供科学数据的标识信息和引用信息,以实现有效的查询与检索; 而且往往忽略科学数据的学科差异性,侧重于描述科学数据的物理特征,包括数据对象的作者、大小、维护信息和访问限制等信息,也包含了对与数据相关的其他信息资源的描述,向用户呈现科学数据的共性描述居多。国际上该领域最典型的元数据标准是Data Cite核心元数据标准[8],其内容中明确规定数据集标识、责任者、标题、出版单位、出版年份这5项信息在任何情况下都属于元数据的必选内容, 而主题信息、贡献者、日期、资源类型、摘要、地理位置等信息在特定条件下属于必选元数据内容; 除此之外,元数据内容还可根据需要扩展为对科学数据集更为详细的描述。

3.2具体研究领域的科学数据元数据内容

相比图书情报领域,具体研究领域的科学数据元数据内容往往复杂得多。Keith Jeffery在他的论文《Data Surgery》中提到元数据按照3个层次组织内容: 第一层通常是科学数据的一般描述,DC元数据通常正是发挥这个功能; 第二层是科学情境元数据, 反映数据的多方面属性; 第三层的描述粒度更多, 也涵盖了科学数据更为详细的信息。Ball[10]认为科学数据元数据应至少包含5类信息: 标识信息,包括数据集标识信息和元数据标识信息两类,反映数据集和元数据的名称、时间日期、版本等方面的信息; 责任信息,与数据集有关的研究或是项目方面的信息,包括项目承担机构、联系方式等,此外还包括数据集访问限制、使用限制等方面的信息; 数据存档信息,提供数据存储的位置、存储格式和存储介质、数据大小、质量、数据预览、数据集语言、数据集状态等信息; 主题覆盖和派生信息,这部分信息涵盖内容较多,包含数据集类型、主题/关键词、摘要描述、数据产生过程中的参数、数据采集方法及仪器设备描述、数据处理过程和所采用的软件、数据集有关联的其他数据集、数据集派生的信息 ( 如与数据集有关的出版物等) ; 时间、空间覆盖信息,这部分信息在许多元数据标准中必不可少。

各个学科领域的数据有着不同的特征,元数据对科学数据的描述中需要体现出数据的特有属性, 如地理空间数据的属性需要从标识信息、数据质量信息、空间数据组织信息、空间参照信息、实体和属性信息、数据分发信息和元数据参考信息这7个方面来反映[11],这些内容也正是描述地理空间数据的代表性元数据标准FGDC的内容组成。除地理科学领域外,生物多样性领域的元数据标准有Darwin core[12],生态学领域的元数据标准有XML[13],气象科学领域的元数据标准有CF[14],此外还有专门描述社会科学数据的元数据标准DDI[15],详细内容如表1所示。

由此可见,具体领域科学数据元数据内容十分复杂,元数据对科学数据的描述更为详细,涵盖了数据的生产、加工、存储、发布和使用全过程。元数据的内容涉及了科学数据集物理特性、内容、背景、质量和存储等方面的信息,物理特性包括数据集的作者、大小、维护信息、访问限制等信息,内容信息与科学数据所属领域的本体密切相关,对背景信息的描述向用户提供了科学数据的来源、产生过程等方面信息,通过这些元数据内容,用户可再生产数据。元数据对科学数据的描述角度包括一般描述和专业描述两个方面: 一般描述主要向用户提供数据集的名称、摘要、主题、格式、版本、时间空间等基本信息,而专业描述主要体现在对数据内容、数据质量以及学科情境的描述上。纵观国内外科学数据元数据标准,不难发现,科学数据元数据的内容大致包含了科学数据的标识信息、内容信息、人员和权利信息、技术性信息、关联信息、生命周期信息等6个方面。标识信息提供了便于用户识别数据的标识符、数据集名称、摘要、关键词、版本、数据集状态等信息。内容信息体现为数据质量信息、数据空间覆盖和学科语义信息等。人员和权利信息则反映了科学数据的生产者、责任者等信息。技术性信息包含了数据格式以及使用的参数、模型和测量方法等信息。关联信息则是向用户提供了与数据集有关的科学研究项目、出版物等信息。生命周期信息是反映了数据集时间方面的信息,包括数据内容覆盖的时间信息、数据加工处理的时间信息。

4数据用户关注的元数据内容

由于科学数据元数据发挥的功能是多方面的, 包括数据管理、数据存储、数据发现、数据评价和数据使用等,其中与数据用户关系最密切的功能是数据发现、数据评价和数据使用,因此用户关注最多的主要是那些在他们发现数据、评价数据过程中发挥作用的元数据。

4.1基于数据发现的元数据内容

数据发现是元数据发挥的最基本的功能,用户首先根据自己的信息需求检索元数据,尽管检索的关键词由用户产生,但关键词最终将与元数据的某些内容进行匹配。元数据的内容十分复杂,其中只有一部分内容支持了数据发现的功能,适合用户检索。在用户检索数据、发现数据过程中,可用于检索的元数据元素包括数据集的名称、作者、出版日期、资源链接、数据集摘要、关键词、资源类型、文件格式、使用限制、时间空间覆盖、与之相关数据集和出版物以及一些重要的时间日期等信息[16]。这些元数据元素大部分集中在标识信息部分,这部分元数据对科学数据集的基本信息进行了描述,通过这些信息,用户能够对科学数据集获得大致的了解,其中数据集关键词、数据集标题和数据集摘要等内容,不仅仅帮助用户发现数据集,还帮助用户对数据集是否满足需要作出初步的判断。

4.2基于数据评价的元数据内容

用户按照自己设定的条件完成对元数据的检索后,下一步的任务就是对检索到的元数据进行分析和评价,以判断元数据所描述的科学数据是否满足需求。用户以不同的角度判断数据,有的用户倾向于科学数据的采集和加工方法,有的用户则关注于数据获取的难易程度及成本,有的用户关注于数据的更新程度,也有用户关注于数据的质量。总之, 在人们利用元数据对科学数据作出评价时,所采用的标准不同,因此发挥评价功能的元数据并不集中, 而是可能分散在各类元数据当中。对于科学实验数据,用户往往会更关心数据产生的相关方法以及变量和参数等,用户可能会对数据进行验证和分析, 因此描述数据产生方法方面的元数据成为了用户的关注点。对于观察数据,用户关注的是提供描述数据产生的时间和空间,以及数据采集仪器的元数据内容; 而对于统计数据,用户关注更多的是统计机构的权威性和统计数据的可靠性。因此,用户评价数据时,更多的是关注于能反映出科学数据的特性的一些描述,这些描述不仅仅局限于标识信息部分, 更多地体现在元数据对科学数据的专业描述角度上。以FGDC元数据标准为例,对于没有专业背景的用户,可能会通过元数据标识信息部分的题目、摘要、关键词等来评价数据集,而对于具有地理知识背景的用户而言,他们对数据集的判断更多地依赖于数据质量信息、空间参考信息、空间数据组织信息等元数据内容,这部分元数据向用户提供了地理空间数据的特有属性方面的描述,为评价地理科学数据提供了更为有力的依据。

可见,元数据的存在为用户发现和利用科学数据提供了便利,元数据不论是从描述信息资源一般特征的角度,还是从描述数据专业情境的角度,都为用户评价和选择科学数据提供了一定的参考。鉴于用户在评价数据时所用的标准并不确定,因此科学数据元数据的内容力图为用户提供尽可能全面的描述,但具体详细到何种程度并不好把握。

5总结与讨论

元数据作为描述信息资源的结构化数据,为了发挥其数据发现与数据再利用的功能,元数据对科学数据的解释与说明尽可能的详细,涵盖了科学数据的产生、存储、加工和使用全过程,向用户提供科学数据全方位的描述,包含了数据的标识信息、内容信息、时间和空间覆盖信息、人员和权责信息、关联信息、技术信息等多个方面。相比其他元数据, 科学数据元数据内容复杂得多,许多现行的元数据标准中元数据元素项少则几十个,多达上百项。尽管理论上是元数据越丰富越有利于用户发现和再利用科学数据,但实际上用户的注意力有限,有时候信息量太大反而不利用于用户对数据作出判断,因此有必要分析清楚,如何改进元数据才能使其更易于用户认识和理解。笔者以为可以从以下两个方面考虑: 一是从用户角度分析,分析用户关注元数据的角度,也就是掌握用户判断信息是否相关的标准, 只有结合用户的要求对元数据进行改进,才能充分发挥元数据的功能; 二是借鉴其他领域元数据的实践对元数据内容进行改进,目前在图书馆领域元数据中专门出现了评价类元数据,其内容涉及了同行专家对信息资源的评价、用户使用信息后的反馈与评价信息等,尤其是在教育信息资源方面,用户在评价和选择资源时往往很依赖这些评价类元数据内容,也叫第三方元数据或注释类元数据[17]。而在科学数据元数据中,还没有出现这些内容。实际上, 同行专家评价信息和用户对资源的使用评价,在用户作出选择使用数据前通常也会发挥着一定的作用。因此,有必要考虑在科学数据元数据中增加同行评议、用户评价和数据使用记录等信息,为用户选择和判断数据提供更多依据。

摘要：元数据以其对科学数据的描述与解释,为用户发现数据和再利用数据提供了方便。详细分析科学数据元数据的功能与内容,重点讨论用户在数据发现、数据评价过程中所关注的元数据内容,并对科学数据元数据内容的改进与完善提出展望。

关键词：科学数据,元数据,数据发现,数据评价

内容数据篇2

一、检索《中国学术期刊数据库》、《重庆维普中文科技期刊数据库》。要求：

1、每个数据库至少使用3个不同的检索途径查询。

2、每个检索途径浏览一篇文献。

3、检索时必须记录好数据库名称、检索途径、检索词、查询到的文

献篇名、作者、该文献参考文献等细节内容（只须写2篇参考文献即可）。

二、检索《超星电子图书》数据库

要求：

1、使用2个检索途径，每个检索途径查询1本电子图书。

2、检索时必须记录好数据库名称、检索途径、检索词、检索到的图

书名称和ISBN号以及该书的参考文献（只须写2篇参考文献即可）。

三、检索《万方法律法规数据库》。

要求：

1、使用2个检索途径，每个途径检索1条信息即可。

2、检索时记录好数据库名称、检索途径、检索词、查询到的法律法

规名称、颁布日期、发文文号、颁布部门等信息。

四、检索《万方学位论文数据库》、《中国优秀博硕士论文数据库》。

要求：

1、每个数据库使用2个检索途径，每个检索途径查询1篇学位论文。

2、检索时必须记录好数据库名称、检索途径、检索词、检索到的学

位论文篇名、作者、授予学位单位、时间和该论文的参考文献（只须写2篇参考文献即可）。

内容数据篇3

一、平均数

1. 算术平均数：数据x1，x2，x3，…，xn的算术平均数为=（x1+x2+…+xn），这是最简单的平均数，平均数反映的是一组数据中各个数据的平均水平，它与这组数据中的每个数据都有关系.

例1 （2014·江苏盐城）数据-1，0，1，

2，3的平均数是（）.

A. -1B. 0 C. 1 D. 5

【解析】直接利用算术平均数公式求解，得=1，故选C.

2. 加权平均数：一般地，如果一组数据中共有n个不同的值，记它们分别为x1，x2，…，xn，并且x1有w1个，x2有w2个，……，xn有wn个，则w1，w2，…，wn分别叫作x1，x2，…，xn的权，数值=叫作这n个数值的加权平均数.

例2 （2015·浙江湖州）在“争创美丽校园，争做文明学生”示范评比活动中，10位评委给某校的评分情况如下表所示：

则这10位评委评分的平均数是_______分.

【解析】由于本题中这10位评委给某校的评分情况的“权重”不同，因此本题需用加权平均数公式计算.

这10位评委评分的平均数是

=89（分）.

【点评】算术平均数是加权平均数的特例，加权平均数实质上就是考虑不同权重问题的平均数，当加权平均数中各项的权相等时，就变成了算术平均数.

二、中位数

把n个数据从小到大排列，相同的数重复进行排列.当n是奇数时，处于正中间位置的数叫作这n个数的中位数；当n是偶数时，处于中间位置的两个数的平均数叫作这n个数的中位数.中位数体现了一组数据中间位置的数据水平，它反映了具有不确定性的研究对象在中等状态下的水平.

例3 （2015·山东东营）在一次数学测验中，随机抽取了10份试卷，其成绩如下：85，81，89，81，72，82，77，81，79，83. 则这组数据的中位数为_______.

【解析】将这组数据从小到大排列为：72，77，79，81，81，81，82，83，85，89，处于中间位置的第5、6个数据的平均数就是这组数据的中位数，即×（81+81）=81.

【点评】由于一组数据的中位数与最大和最小的数据无关，因此，确定一组数据的中位数只需将这组数据从小到大排列（即使相等的数也要全部参加排序），然后根据数据个数的奇偶性确定中位数的值.

三、众数

一组数据中出现的次数最多的数，叫作这组数据的众数. 众数表现了一组数据的热点，当一组数据中有较多的重复数据时，常用众数来描述这组数据的集中趋势.

例4 （2015·江苏扬州）小亮上周每天的睡眠时间为（单位：小时）：8，9，10，7，10，9，9.这组数据的众数是_______.

【解析】∵数据中9出现的次数最多，

∴这组数据的众数是9.

【点评】众数是一组数据“多数水平”的重要数据代表，一组数据的众数有时不止一个，若几个数据出现的次数相同，并且比其他数据出现的次数都多，则这几个数据都是这组数据的众数.

四、极差与方差

1. 极差

一组数据中最大值与最小值的差叫作极差，它反映了一组数据的变化范围.

例5 （2014·四川凉山）某班数学学习小组某次测验成绩（单位：分）如下：63，72，70，

49，66，81，53，92，69，则这组数据的极差是（）.

A. 47B. 43C. 34D. 29

【解析】这班数学学习小组某次检测成绩数据中，最大值是92，最小值是49，所以这组数据的极差是92-49=43.故选B.

【点评】极差只跟一组数据中的两个极端数据（最大值、最小值）有关，跟其他数据无关，因此极差只能粗略地反映数据的离散程度.

2. 方差

为了精确地反映一组数据的离散程度，我们把一组数据中的全部n个数据x1，x2，…，xn的平均数作为基准，计算各数据与的差的平方，这些平方的平均数s2=[（x1-）2+（x2-）2+…+（xn-）2]就叫作这组数据的方差. 方差可以从整体上反映数据偏离平均数的程度，所以它成了反映研究对象离散程度的数值.

例6 （2015·山东莱芜）有一组数据如下：2，3，a，5，6，它们的平均数是4，则这组数据的方差是_______.

【解析】数据2，3，a，5，6的平均数是4，所以2+3+a+5+6=20，解得a=4，因此这组数据的方差s2=[（2-4）2+（3-4）2+（4-4）2+（5-4）2+（6-4）2]=2.

【点评】计算方差的步骤是先计算该组数据的平均数，然后代入方差公式进行计算.

例7 （2015·江苏连云港）某校要从四名学生中选拔一名参加市“风华小主播”大赛，选拔赛中每名学生的平均成绩及其方差s2如表所示，如果要选择一名成绩高且发挥稳定的学生参赛，则应选择的学生是（）.

A. 甲B. 乙C. 丙D. 丁

【解析】从表格中可知乙、丙的平均成绩要比甲、丁高，而乙的方差比丙小，说明乙的成绩比较稳定，所以应选择学生乙，故选B.

【点评】方差是用来衡量一组数据波动大小的量，方差越大，表明这组数据偏离平均数越大，即波动越大，数据越不稳定；反之，方差越小，表明这组数据分布比较集中，各数据偏离平均数越小，即波动越小，数据越稳定.

最后，同学们在学习这部分知识时应注意结合一些具体事例去理解它们，要逐步体会这些知识在实际生活中的应用，而不是仅仅关注一些具体的计算.

大数据时代报业内容创新路径分析篇4

1 精准分众, 内容有的放矢

利用大数据技术, 报业集团可以对目标读者群的基本资料、阅读行为以及阅读偏好进行精准地把握。过去, 报业集团要了解目标读者群的阅读行为主要依赖于问卷调查、深度访谈、电话调查和邮寄调查等形式。这些调查不但样本量小, 而且调查结果并不客观。被调查对象在调查过程中大多比较理性, 他们会隐藏自己的真实想法;而且在现实阅读过程中, 目标读者群存在着许多“怪诞阅读行为”。借助大数据技术, 报业集团就像一名旁观者, 目标读者群犹如鱼缸中的鱼, 可以更加客观、真实、全面地把握住目标读者群的阅读行为和阅读习惯, 从而更好地为目标读者群提供满意的内容服务。那么, 报业集团该如何利用大数据技术进行内容创新呢?

首先, 借助大数据技术对目标读者群进行精准分众。

如今网民可以在网上进行免费注册成为相关报业的会员, 在注册的过程中大多会留下相关信息, 如其性别、所在地、年龄和邮箱等, 从而帮助报业集团了解目标读者群的人口学特点。此外, 网民还会利用微博或者QQ账号登录从而成为其会员, 报业集团可以被允许获得网民的个人信息和好友关系, 从而更全面地把握目标读者群的特征。在大数据时代, 网民在网络世界中留下的蛛丝马迹都是一个元数据, 报业集团可以借助大数据对用户进行分类, 实现更加精准的分众传播。所以报业集团必须建立读者数据库, 此数据库不但包括传统目标读者数据库, 还包括新媒体时代目标读者群数据库, 将二者进行整合, 建立新的大数据中心。

以《佛山日报》为例, 近年来佛山日报社不但积极与慧聪调研等第三方调查机构进行合作, 还成立了专业的数据分析部门, 对报纸日常的新闻报道质量、读者满意度等进行监测。对大到“读者满意程度”, 小到“读者对稿件的长度、图片的数量的反馈”等问题进行精准分析。[2]

其次, 借助大数据技术挖掘目标读者群的阅读需求。

过去几年, 许多报业集团都建立了自己的网络舆情中心, 对目标读者群的上网浏览历史、浏览频率和浏览时间等进行实时监控。但过去技术有限, 不能对海量数据进行全面分析;而如今可以便捷地对目标读者群的cookies进行深入分析。此外, 还可以对目标读者群的阅读行为进行深度分析, 寻找相关性, 深度挖掘目标读者群的阅读兴趣和阅读习惯, 从而更方便地为目标读者群提供针对性较强的内容。

以《芝加哥论坛报》为例, 其在多媒体新闻中心成立了“新闻客户端”团队, 负责对数据进行搜集, 对网站的流量进行实时观察和分析, 了解目标读者的关注点, 从而为前方的记者第一时间提供意见和建议。此外, 还有专业的社交媒体数据分析团队, 对社交媒体上目标读者的意见和反馈进行分析和整理, 及时传送给前方的记者。[3]

最后, 借助读数据技术适时、适地将适当形式的内容传递给适当的人。

如今, 目标读者群的媒介选择日趋多元化, 这些不同的媒介稀释着报业的目标读者群, 他们有些通过笔记本电脑阅读, 有些通过手机阅读。借助大数据技术, 报业集团可以对目标读者群的登录地点、时间和终端等信息进行存储、整合和分析。麦克卢汉说:“媒介即讯息。”不同的媒介形态自然对应着不同的内容形式, 目前报业集团常见的方式是中间页方式, 对分析出来的内容数据和推荐数据进行加工, 利用模板技术形成符合客户端特征 (参考指标包括终端类型、屏幕大小、网速和流量等) 的内容资讯产品。

2 内容生产多元化, 立体化

在这个人人都是麦克风的时代, 人们生产内容、传播内容和获取内容均更加便捷。然而人们选择内容的成本却不断提高, 网络世界中充斥着太多真伪难辨、参差不齐的新闻信息。所以人们更加需要媒体对相关内容进行把关, 帮助人们收集他们需要的内容。也许将来报业的纸质媒介载体会消失, 但是能提供优质内容的报业不会消失。在大数据时代, 报业集团更加需要在生产优质内容上下功夫。

首先, 在大数据技术分析的基础上, 进行针对性强的议程设置。

报业集团必须在大数据分析的基础上有针对性地进行议程设置, 在新闻选题上更加的多元化和个性化。选题作为新闻报道的首要环节, 其好坏决定了新闻最重要的素质——新闻价值。谁拥有优质、新颖、符合读者期待的新闻选题, 谁就会在同等条件下吸引更多读者, 从而在竞争中处于优势地位, 新闻选题对报业的发展至关重要。所以在大数据时代, 报业集团必须利用大数据技术对目标读者群感兴趣的选题进行深度挖掘。

其次, 在大数据技术分析的基础上, 多角度全面报道新闻。

在这个时评社会化的年代, 每个人都是新闻评论员, 而借助大数据技术恰好可以记录不同读者对新闻的评论, 并且可以对相关评论进行整合与分析。所以报业集团可以先抢占时效性在网络上简单报道相关内容, 进而根据读者的爆料和评论, 进行多角度的后续深度报道。借助大数据技术, 报业集团能够整合不同的观点, 写出更具深度的新闻作品。只有从深度上下好文章, 方能夯实报业的核心竞争力。

再次, 借助大数据技术大力发展数据新闻。

数据新闻是指以数据为中心, 密切围绕数据来组织报道的新闻类型。数据新闻有效地实现了信息的可视化, 有效地减少了目标读者群的认知负载, 增强读者在处理复杂认知问题所需要的记忆能力, 让读者从此类报道中感受到理性之美和深度之美。大数据技术正为数据新闻的发展提供了无限可能, 记者可以借助大数据技术对某个事件的起因、发展、高潮、结果以及目标读者群的反馈进行存储和整合, 并且对它们之间的相关性进行深入分析, 从而为目标读者提供既有深度又可视化的新闻内容, 更好地为读者服务。

最后, 借助大数据技术建立内容数据库。

目前网络世界参差不齐、杂乱无章的海量信息让媒体从业人员也无所适从。然而借助大数据技术, 报业集团可以对相关内容进行搜集、整合与分析;同时也可以对新闻内容进行有序化管理。过去很多新闻内容来源不同, 格式不同, 标引不同, 给报业的内容生产和管理带来了较大的障碍。然而近年来, 很多媒体都建立了自己的内容数据中心, 将新闻内容进行有序化、标准化和模式化存储, 实现内容整合, 建立内容共享的一体化平台, 让媒体自身工作人员和目标读者群都能较方便地找到相关内容;同时也使新闻内容的边际效用最大化。

南方报业集团目前已经积累了庞大的内容数据库。其通过一体化平台的内容采集模块, 解决了集团范围内记者编辑们的多媒体形式稿件的数据接入;同时, 对各种数据用一个规范的格式标准, 进行后期处理和分析;此外, 利用大数据技术, 对全媒体内容数据进行聚合、分类、专业分析等处理, 逐步形成符合产品需求的分类及标签体系, 实现集团对内容的有序化、统一化、规范化和标准化管理。[4]

总之, 在大数据时代, 报业集团必须要有大数据思维。利用大数据技术, 进行有针对性的议程设置以及从多角度全方位报道新闻, 从而为目标读者群提供更适合、更完美的内容服务。此外, 还要从更加宏观的角度去把握新闻内容, 大力发展数据新闻;传统媒体过于局限于微观精确, 容易导致只见树木不见森林。最后还必须梳理出一套成熟的内容管理模式, 让内容产生的效果最大化。

参考文献

[1]尹明华.大数据时代的报业转型[J].中国报业, 2013.11 (上) :46.

[2]陶志强.大数据背景下的报纸转型样本——以芝加哥论坛报、佛山日报的大数据应用为例[J].新闻与写作.2013 (9) :22.

[3]记者站.国内报业用好大数据还要跨过三道坎.http://www.jizhezhan.net/sharedetail.php?id=788.

数据分析师的职责内容篇5

1、负责搭建与完善和家网精准用户特征模型，数据营销获客模型;

2、负责对接外部数据渠道，识别外部渠道中对业务有价值的部分，协调相关部门，推动数据对接与落地运营;

3、负责梳理数据产品需求，参与数据产品落地与运营;

4、搭建全面的、准确的、反映业务特征的业务数据指标体系，及时发现与定位业务问题。

任职要求：

1、三年以上互联网行业数据分析、挖掘与建模经验;

2、本科以上学历，数理统计、市场营销、广告相关专业;

3、良好的内外部沟通协调能力，善于团队协作，做事主动积极;

4、对数据敏感、逻辑思维能力强，有清晰的思路和数据建模方法论;

5、精通SQL数据查询语言，熟练使用Excel，至少熟练使用一中统计软件(如SPSS/R/SAS等);

6、熟练掌握至少一种脚本语言(python/shell/perl/php等);

7、有对程序化广告投放策略优化经验的优先;

VF数据库教学内容与方法探讨篇6

关键词：VF数据库教学内容教学方法

中图分类号：G6 文献标识码：A 文章编号：1673-9795（2013）02（b）-0056-01

职业教育对我国社会的发展起着至关重要的作用，职业教育学校以培养学生的实际操作技能为主，专注技能培训，在职业教育中，我们坚持培养生产、建设、管理、服务一线的高技能人才，提高社会竞争力，完善市场竞争，为了更好的发展职业教育，在信息时代的环境下，我们应积极实现教育改革，实现数据库（VF）的优化教学，促进教学内容和教学方法的更新，提高教学质量。在体育院校，计算机实验学与非体育院校计算机实验教学相比，仍有不少差距。基于这一点，我们就体育院校计算机实验教学的加强进行了初步探讨。

1 创新VF数据库教学方法

1.1 调整VF数据库教学内容

职业教育重视人的实际操作能力的培养，从事职业教育的人，也应认识到技术培养对教学的重要性，对学生未来发展的重要性。如今的技术教育以培养综合技能和职业素养为主要内容，教学内容应遵循适度、够用的原则，在满足学生未来需求的情况下合理分配教学内容，做到有的放矢，因材施教。在教学内容的选择上，要懂得取舍。例如，我们在讲第2章VisualFoxPro 6.0概述时，应带领学生上机操作，而第4章数据库和表、第9章项目管理器、第5章查询和视图结合到一起讲解，先讲数据库项目的创建，再讲创建数据库和表、创建索引等，最后讲查询和视图。因为这三章的内容将VF数据库的建立与执行表现得直观、具体，综合性强，我们在教学时也方便系统的展示给学生，让教学内容简单易懂如果涉及到VF的基础知识，即第3章内容时，就采取学生需要什么就讲解什么的方法，提高针对性，加强重点性。表单在讲解时考虑与数据库、程序设计章节内容的融合，给学生提供一些实例，尽量应用到大部分控件，让学生对没有讲到的控件也能够触类旁通，扩展知识面。

1.2 制作数据库（VF）课件

（VF）数据库的教学重在实践，其内容丰富，加上图形、界面多的特点，让学生在理解上感觉有所难度，所以传统的教学方法无法再带领学生继续前进，必须应用现代教学技术，帮助学生理解问题，发挥思维能力，形成最佳的教学效果。多媒体教学以生动、具体、详细的方式为学生展示出VF数据库教学内容，全面刺激学生的感官，调动了学生的学习兴趣。我们在教学中会引导学生用Powerpoint制作数据库（VF）课件，在制作过程中严格按照教学大纲要求，帮助学生将学到的理论知识运用到实践中，达到优化教学过程的目的，同时，也能为学生学习后面的知识奠定基础。

1.3 互动式教学环境

VF数据库教学重在理论联系实践，学生会先学习课本内容，然后参与实践操作，学校的多媒体教学和机房成为学生实践的主要基地。但如果只是简单的多媒体教学和上机操作，学生的实践学习还远远不够，不利于培养学生独立、完善的实践能力和思考能力。因此，我们要采取互动式教学，这种教学模式需要在机房进行，首先要给每个同学配备一台电脑，教师机配有投影仪和双向教学的软件系统，建立机房局域网，老师通过局域网将事先设计好的课件和程序案例通过网络共享的方式传递给学生，让学生享受教学资源。在课堂教学中，老师可以根据数据库教学内容的实际需求安排实践教学，并从旁讲解、指导，让学生边讲边练，还可以通过监控、提问、讨论等功能实现双向学习，让老师时刻掌握学生的动态，提高教学效率。互动的教学方式能促进师生之间的交流，提高教学效率，而老师为了做好互动教学，能随机应变，更好的为学生解答疑难，就必须认真钻研，精心备课，分析教材，掌握重难点，这样一来，对教师也是一种教学上的鞭策和督促。

1.4 引导学生自定自选开发项目，组织数据库开发兴趣小组

我们所教的学生不可能都是一样的水平，一样的能力，作为老师要客观认识到这一点，学生是各不相同的，他们各有特性，学习水平也各不一样。分层教学，因材施教，从学生的实际情况出发，是解决这一问题的基本途径。在教学中，我们可以组织引导学生自定自选开发项目，如工资管理系统、通讯录管理系统、人事管理系统等，然后根据不同的项目组建兴趣小组。老师先给出项目设计的题目、设计要求、设计内容，学生按照自己这个组的情况分配工作，自己寻找资料。在完成项目设计后，老师还要求进行项目演示，或举行项目制作大赛，比较分析各组的学习成果。一般由组長介绍本组开发的系统的功能、系统特色，以及遇到的问题和解决问题的方法等。通过小组之间的交流，丰富学生的知识面、增强荣誉感。学生选择的是自己感兴趣的项目，在完成作业任务过程中自然也是斗志高昂，积极发挥自己的想象力和观察力，而学到了知识，体会到成功的喜悦，更能增强他们对VF数据库教学的热爱。

2 教学反思

职业教育水平的提高，首先要注重定向教育，针对教育的对象执行有针对的教学任务，根据实际情况确定教学目标。职业教育以技术培训为主，学生技术能力的提高是职业教育的重点任务，因此，技能培养应占有较大比例，计算机专业类的教学也是如此。体育院校的学生大部分都是一些体育有专长而文化成绩不很高的学生。一方面他们生性活泼好动，动手能力较其它专业的学生强，而文化水平略低一筹，这使得他们上计算机实验课时精神抖擞，上理论课时毫无兴趣，昏昏欲睡。体育院校计算机实验教学要抓住这一特点，充分加强学生的理论学习，使理论带动实践。职业类教学重在实践，实践教学是（VF）数据库教学内容中的重点，因为这门课不是靠课上听、看书本就能学会，而是必须丰富上机经验，加强实践才能学会的。采取项目教学法，并鼓励基础好的同学帮助基础较差的同学，激发每一个人的学习热情，然后再通过教师的指导、学生的实际动手，全面提高学习成绩。

3 结语

我院是一所体育院校，培养专业技术型人才，除了加强理论知识教学，更重要的就是实践。老师们要采取多样化的教学手段，丰富教学内容，让学生提起兴趣，融入到学习中。实践学习的安排要有针对性，合理制定教学内容，选择教材内容是老师必须做的功课，只有以培养技术应用能力为主线设计学生的知识结构、能力结构和培养方案，强化实践教学，才能推动高职教育的深入发展。总之，体育院校的计算机实验教学有其特有的特点，我们应该对症下药，加强改革，使计算机基础教育更上一个台阶，培养出更多的符合社会需求的应用型体育人才。

参考文献

[1]禹树春.高职计算机教学内容改革与探索[J].辽宁高职学报，2005（2）：64-66.

内容数据篇7

移动互联网的快速发展, OTT业务对运营商造成很大压力, 终端+应用的模式导致运营商成为管道, 而内容提供商和终端位于价值链的顶部。移动互联网具有互联网的特征, 以内容为主。但目前的现状是:管道对内容很难控制。因此移动运营商面临着移动数据网络增量不增收的困境。

为了帮助运营商提升流量经营收益, 笔者认为通过深度内容经营, 掌控内容、管理内容、内容创新经营来提升流量价值。同时为合作伙伴提供内容引入和结算的平台。通过将流量管道的资源以能力的方式向第三方进行开放, 从而在扩大经营领域的同时, 实现与第三方服务商之间的共赢, 可以最大限度的提高运营商管道的价值。

2 现状分析

进入3G时代以来, 在通信网络上, 随着3G爆发性增长和智能手机普及, 移动互联网发展一日千里, OTT应用对运营商传统的短信、语音业务带来巨大冲击。运营商的短信、语音业务收入增速放缓, 而移动数据业务流量猛增大大超过运营商预期, 流量成为运营商最有价值的增长点。

移动互联网业务的发展, 给电信运营商带来数据业务流量的巨大提升, 也使运营商的移动通信资源被大量的第三方应用占用, 给移动网络造成一定的压力。在收益上, 运营商目前仅得到有限的管道流量价值。因此, 进行流量经营, 挖掘数据流量中蕴涵的价值, 避免沦为纯粹的流量管道, 这也就成为运营商的必然选择[1]。

目前移动数据经营现状是:

(1) 收益前景不明:在流量增加, 价格下降的趋势下, 虽然运营商数据业务总体收入仍在增加, 但收益率快速降低。同时为了支撑更多的数据流量, 运营商需要不停的扩容, 一些热点地区扩容难度加大;运营商面临着扩容越来越困难, 收益越来越低的困境。

(2) 缺少对流量内涵的深度挖掘:手机上网用户是一个庞大的用户群, 如果能够形成用户画像, 实现针对不同用户的精准营销, 则可以利用业务推荐和广告定投实现后向收益经营。

(3) 缺乏统一的流量节省方案:以无线宽带运营商为例, 移动网络无线流量比较昂贵, 但使用无线数据卡对网页访问时, 仍有很多广告很占流量, 而且还会弹出窗口。在手机端, 有的浏览器已经过滤了广告, 但是在电脑端, 广告基本没被过滤。如果运营商统一将广告过滤, 则会降低网络压力;对用户而言, 则节省了流量费用。

因为运营商有用户的详细信息, 同时运营商可以部署用户行为分析平台 (UBAS) 方便采集用户的日常数据流量习惯, 结合用户行为和用户信息, 如果运营商进行广告的统一管理, 向终端用户投放广告且还对这些广告流量免费的话, 那么将会意味着两点:

(1) 终端用户节省了流量费用, 并随着弹出窗口和广告的减少提升了使用体验。

(2) 运营商控制住了投放到终端用户的渠道。网站的大部分广告都可以被过滤, 取而代之是运营商自己的广告, 或者网站必须为用户下载广告而向运营商付费。这意味着管道具有比网站更佳的商业广告价值。

因此基于内容的业务经营平台的引入对移动网络十分必要。引入业务经营平台, 通过内容经营和精准营销的策略捆绑, 移动运营商才可以摆脱目前的管道现状。下文将详细介绍基于经营平台的网络架构和模式。

3 深度内容运营方案

3.1 建议的网络架构

业务内容经营平台包括移动网络、分析控制、经营平台三部分。

移动网络基于传统移动数据网络, 增加策略控制和套餐功能, 实现不同用户签约不同套餐, 提供不同网络服务等级功能[2]。

分析控制主要是基于成熟的用户行为分析 (UBAS) 平台, 提供了用户行为分析功能, 整合了多个业务系统的数据信息, 对业务信息进行有效挖掘, 实现了核心数据业务平台业务及合作伙伴的运营监控与运营管理功能, 提供了准确辨识、获取、保持和增加“可获利客户”的精确营销功能, 同时, 精分系统可以与生产系统实现联动和协同。

经营平台的精分系统可自动获取流量经营平台产生的各种业务数据, 依托系统自有的知识库和标签库, 进行深度挖掘分析, 生成完整的客户全景视图信息库, 即用户画像, 比如客户基本信息、客户行为信息、客户知识信息等, 然后进行以客户为主导的智能营销决策设计, 为营销和服务提供全方位的决策支持。

3.2 典型业务流程

“广告优化定投”业务解决方案:由广告优化定投平台对用户进行精确分类, 可以将合作伙伴的广告内容根据推广策略进行精准投放。可以采用的方式, 包括:PULL方式和PUSH方式。PULL方式为在门户、客户端或SDK插件上设置广告位, 然后根据不同的用户到平台拉取不同的广告内容, 从而实现针对用户的精准营销。PUSH方式, 由流量经营平台结合用户画像, 根据投放策略和广告内容, 采用短信、彩信、Email、客户端方式进行主动推送。

(1) 广告投放 (客户端、嵌入SDK投放) 业务流程说明:

(1) 合作伙伴 (广告平台) 向内容经营子系统注入广告内容。

(2) 内容经营子系统向业务管理子系统同步广告内容。

(3) 精准营销子系统获取到业务管理子系统的广告数据。

(4) 精准营销子系统进行精确分析。

(5) 客户端向业务管理子系统请求内容。

(6) 业务管理子系统根据用户请求的内容, 向精准营销子系统请求相应的广告内容。

(7) 业务管理子系统向客户端返回相应的广告。

(2) 广告投放 (主动推送) 业务流程说明:

(1) 合作伙伴 (广告平台) 向内容经营子系统注入广告内容。

(2) 内容经营子系统向业务管理子系统同步广告内容。

(3) 精准营销子系统获取到业务管理子系统的广告数据。

(4) 精准营销子系统进行精确分析。

(5) 管理员在精准营销子系统中制定广告投放计划。

(6) 精准营销子系统通知业务管理子系统进行广告投放。

(7) 业务管理子系统通过各种渠道向用户投放广告营销消息。

(8) 用户点击广告。

4 广告优化定投可行性分析

4.1 需求分析

广告平台拥有广告资源和广告运营平台, 但只能做品牌广告, 而无法做到效果广告;运营商拥有用户资源及与用户相关的海量信息, 如何利用这些信息产生更大的利润是个难题;应用开发者/开发商掌握应用资源, 但苦于如何盈利。“广告优化定投”可解决以上难题。

“广告优化定投”业务场景的核心在于细分用户, 精细运营, 精确地向用户投放广告, 增强广告效果, 降低成本并提升各方的收益。

4.2 业务场景

针对“广告优化定投”场景, 可以考虑实现如下形式精细运营:

(1) 内容的过滤, 比如将未付费广告过滤, 将悬浮式图片和弹窗过滤。很多这种悬浮式图片和弹窗都是色情广告或者游戏广告, 无论是企业还是家庭客户都有这种需求。

(2) 不对用户群体精准分类, 在流量管家或开发者的应用中插入品牌广告, 获取广告点击收费, 各方按约定规则进行分成。

(3) 对用户群体进行精准定位, 在流量管家或开发者的应用中插入效果型广告, 如网游广告, 各方按约定规则进行分成。

(4) 通过流量管家或开发者的应用对APP应用进行推广, 按照下载量和激活量来向APP开发者收费。

(5) WAP或WEB页面类广告, 有两种方式:一、由第三方合作网站在页面中插入品牌或者效果广告, 各方按约定规则进行分成;二、通过ISG将品牌广告或效果广告强制插入页面顶部或底部。

通过“广告优化定投”的方式, 实现对广告资源的精细化运营, 并与合作伙伴进行合作分成, 从而增加流量管道的经营收益。

图2给出了广告优化定投业务场景和流程。

4.3 对各方带来的价值

(1) 对运营商的价值

运营商负责提供业务运营支撑服务, 包括:

(1) 提供管道资源, 用于实现业务运行;

(2) 进行流量核减:在GGSN/PGW中设置来自于流量经营平台的内容流量的核减;

(3) 协助进行业务运营推广:通过运营渠道协助业务的运营, 包营业厅、短信、WAP PUSH等渠道;

(4) 对用户点击次数进行计量, 用于进行后向结算分成;

运营商与合作伙伴进行合作, 通过后向收费来提升流量价值。

(2) 运营服务商的价值

运营服务商负责主导业务运营, 包括:

(1) 寻找广告代理商, 并与广告代理商完成广告投放的合作。

(2) 负责合作伙伴内容的引入, 并进行“流量免费用”的内容播放。

(3) 负责运营策略的制定、执行以及相关KPI指标的完成。

运营服务商通过主导业务运营, 参与运营收入分成。

(3) 对广告代理商的价值

广告代理商负责提供广告资源和应用, 并支撑内容业务运营, 包括:

(1) 提供广告资源;

(2) 配合进行将广告内容植入到应用中;

(3) 配合进行内容注入及业务运营的系统改造;如:内容注入, 订购页面的跳转、内容点播次数计量等。

(4) 负责根据内容点击量与运营商进行后向分成。

利用运营商庞大的用户群, 为广告代理商提供全新的广告营销渠道, 为广告代理商带来新的营收渠道。

(4) 对用户的价值

通过不同签约包节省广告流量, 只浏览自己有兴趣的广告, 提升网络应用体验。

5 结束语

在移动互联时代, 运营商成为管道, 各种终端应用划分了大部分蛋糕。为了挖掘管道的价值, 业界都在思考智能管道的策略。笔者分析了智能管道在广告优化管控和定投方面的具体应用思路, 向用户提供基于内容的服务和针对用户开展营销工作, 来提升运营商智能管道利润。

参考文献

[1] 刘平.运营商优化内容模式研究.中兴通讯技术.2012, 3:42 ~44

内容数据篇8

本文主要研究相关内容的提取, 主要要求实现当用户在浏览一个网站的某篇文章时, 在这篇文章的下方有一个相关文章栏目, 能将该用户可能感兴趣的文章以列表形式展示出来。从而让用户节省自己输入关键字检索的时间, 并且避免了自己手动输入关键字可能不够精准, 需要不断采用新的词“尝试”, 造成“信息迷向”等问题的缺点。

由于目前大量的研究重心比较偏向于如何准确全面地获取关键字, 对提取信息时的算法研究比较单一, 因此针对这一现状, 本项目主要实现用户不需要输入关键字就可以获得相关度比较高的其他文章的信息导航。要很好地实现这个过程就要解决如何寻找相关内容信息、如何筛选已有的相关内容信息, 以及如何输出相关信息的问题, 使用户最大限度地看到可能令自己感兴趣的相关文章标题。

1 功能需求

提取相关内容, 如何达到比较精准的目标是关键, 因此实现这样的过程首先要解决以下几个主要问题:

(1) 必须很好地提取出用户此时正在浏览的文章的关键内容, 从而能了解到该用户关心或感兴趣的内容是什么。

(2) 根据已经记录下的用户浏览过的关键内容, 检索数据库中的其他文章, 按照一定的规则进行匹配, 找出用户可能感兴趣的其他文章。

(3) 如果检索出的相关文章很多, 必须按照用户可能感兴趣的程度做一个降序排列后再输出, 从而使用户体验到此功能的方便快捷。

2 功能分析

根据对相关内容提取功能的需求分析, 对要实现的功能有了一个比较清晰的概念, 在下面做出了相关描述, 并提出了要实现这个功能的重要公式。

2.1 模块实现的主要功能描述

相关内容提取功能模块需要实现的功能主要有:

(1) 浏览站内文章, 并记录当前文章的关键内容, 在本课题中, 可以大批量输入的关键字即被认为是为关键内容。主要可以通过数组变量来记录下这些关键字。

(2) 根据记录的当前文章关键字, 检索数据库中的其他文章, 主要根据本课题总结的高效算法, 找出用户可能感兴趣的其他文章。

(3) 检索出相关文章后, 这些文章是无序排列的, 因此有必要按照用户可能感兴趣的程度做一个降序处理, 再向用户展示, 从而使用户体验到这个内容导航服务的人性化和实用性。这个功能可以通过二次排序及时间因子的加权重排来实现。

2.2 提出的相关公式

要实现这个任务, 必须对相关内容提取有一个比较完整高效的算法, 这个算法基于的数学公式推导如下所述。

设数据库里的相关文章记录总共有n条, 当前用户浏览文章中提取的关键字个数为m。

对于单条记录而言, 将要与它进行匹配的关键字依次保存在数组key Array[m]中, 第i (1≤i≤m) 个关键字记作 ;这个关键字在这条记录中出现的次数保存在数组position Array[m]中, 记作 ;这个关键字是否出现, 以1表示出现, 0表示未出现保存在数组result Array[m]中, 记作。具体形式如下:

再设这m个关键字在当前记录中出现的个数为resultadd, 出现的总次数为timesadd, 则有:

对于n条相关记录而言, 将与之匹配的关键字在每条记录中出现的个数保存在数组resultadd Array[n]中, 第i (1≤i≤n) 条记录的记作;将与之匹配的所有关键字在每条记录中出现的总次数保存在数组times Array[n]中, 第i (1≤i≤n) 条记录的记作。具体形式如下:

这n条记录需要按序输出, 则记此时n条记录在数据表中的先后顺序为sort[n]第i (1≤i≤n) 条记录的记作。具体形式如下:

按照若有下标则交换的位置, 若下标, 再根据下标, 就交换的位置, 经过若干次初等变换最终得到数组sort[n]中元素重排列后的新数组newsort[n]:

最后按时间因素对得到的现有的相关内容记录再进行一次调整, 也就是对相关内容二次排序的结果集进行时间标签处理。为了能够反映信息的及时性, 即最新的内容, 如果相关的话应该尽量被算法排在前面以供用户浏览, 在这里引入了时间因子P, 即利用

乘以排序后的网页权值, 使网页可以按照时间因素的影响进一步调整排序结果, 输出这个结果时才能保证用户得到内容相关的即时信息。其中, 为相关集中最近更新的网页文档的日期值, 为相关集中最远的网页文档日期值, 为当前时间, F为时间阻尼因子, 是根据前人经验和实际测试对比后得出的数值, 一般可取1。

2.3 整个项目的总体设计

明确了相关内容提取模块的功能需求之后, 对软件结构进行了精心设计, 构造了相应的数据库, 对整个项目的开发流程做了严格的安排, 并给出了整个项目中主要功能的相关流程图。

2.3.1 软件结构的设计

(1) 文章管理模块

文章管理模块是本项目的辅助功能模块, 主要包含添加新文章和查询修改两个子模块, 面向的对象主要是系统所有者或管理人员。添加新文章模块实现对文章信息的录入;查询修改模块实现对文章记录的查询和信息的修改。

(2) 文章浏览模块

文章浏览模块是本项目的主要功能模块, 主要包含关键字面向的对象主要是网站的用户。关键字与关键字匹配提取相关内容模块主要是针对当数据库中信息量很大时的设计, 只对文章关键字进行检索, 可以节省查询时间, 实现对信息的快速提取;关键字与内容匹配提取相关内容模块主要是针对用户可能对内容导航的相关度要求比较高时的设计, 根据影响相关度的多种因素对提取的相关内容进行多重筛选排序后输出, 可以比较人性化地为用户提供信息导航服务, 实现对信息的精准提取展示。

2.3.2 系统模块的设计

根据需求分析的结果, 系统总体模块结构如图1所示。

2.3.3 数据库结构的设计

在本系统中数据源结构主要包括一个数据表News (表1) , 里面存放的是系统所有者或文章管理人员录入的所有文章信息, 管理员可以随时查看、修改或删除这个表中的记录, 达到随时更新的目的。

当用户浏览网页时, 点击某篇具体文章进行阅读, 系统会对数据库进行操作, 提取这篇文章的相关文章, 以标题列表的形式显示在当前文章的下方栏目中。如果阅读的是“委属动态”类的文章, 则对数据表News进行处理后生成第二个数据表Keyworddisplay (表2) , 相关文章从这个数据表中读取;如果阅读的是“地方动态”类的文章, 则对数据表News进行处理后生成第三个数据表Newsdisplay (表3) , 相关文章从这个数据表中读取。从而使相关文章在同类别的其他文章中提取, 相关度会更高一些。

这三张数据表的详细设计如下所示。

(1) 数据表News的设计

(2) 数据表Newsdisplay的设计

(3) 数据表Keyworddisplay的设计

这三张数据表中, 表Newsdisplay和表Keyworddisplay都是临时数据表, 表News存储的是文章的所有相关信息, 添加200条数据记录, 以作将来功能模块测试时使用, 添加数据后的数据表News内容如下图2所示。

3 总结

从资源查找的方面来看, 相关内容提取的任务是从用户的角度出发, 提高信息质量和帮助用户过滤信息。主要是对非结构化文档和半结构化文档, 如网站上的自由文本, 小说、新闻等进行内容筛选。在筛选相关内容的过程中主要完成了三个关键步骤:第一, 如何制定用户感兴趣的内容标准, 在本项目中主要是通过提取用户浏览的当前文章关键字来实现的;第二, 如何找出跟当前文章内容相关的其他文章, 在本项目中主要是通过已记录的关键字逐个与其他文章内容进行匹配, 用轮询的方式实现的;第三, 如何将用户感兴趣程度较大的输出到内容导航列表的前面, 在本项目中主要是通过二次排序后再通过时间因子加权调整相关记录在列表中的位置, 最后基本按降序输出的方法来实现的。

摘要：本文根据内容提取的相关知识, 以及它们在用户浏览信息时的应用, 提出了内容匹配的高效算法, 重点研究提取信息时如何提高匹配精度。通过这种算法, 系统预测用户可能感兴趣的文章, 并按感兴趣的程度向用户提供内容导航, 得到一个个性化的相关信息显示页面。

关键词：相关内容提取,关键字,内容匹配算法

参考文献

[1]张国印, 陈先, 皮鹏.基于词频统计的个性化信息过滤技术.哈尔滨工程大学学报[J].2003.02, 24 (01) , 63~67.

[2]Cristian Dariel, Karli Watson Beginning.ASP.NET 2.0ECommerce in C#2005:From Novice to Professional[M].

[3]Allan Afuah, Christopher L.Tucci.Internet Business Models and Strategies:Text and Cases;2 edition[M].

内容数据篇9

近几年来, 电信、广电、互联网均得到快速发展, 数字电视、网络技术高科技产品不断涌现, 层出不穷。仅我国机顶盒生产厂家, 从刚开始的几家已迅猛发展到数百家, 从过去单一收视多频道数字电视节目, 准交互资讯查询等简单功能发展到既能收卫星、有线数字电视节目, 又能实现交互式点播、资讯服务、IP电话、游戏、连接互联网等点对点、全交互、全方位的服务, 即将成为市场最流行的个人家庭必备的综合信息家用电器。因此我们应当清醒的看到随着我国科技、文化、广电信息产业的发展, 电信、广电、网络的行业隔离将会被逐一打破, 互相之间的渗透, 抢占对方控制的市场之争不可避免。

目前在部分落后地区由于资金不足问题广电双向网络改造尚未完成, 推广数字电视机顶盒多功能服务开发应用条件尚不具备。因此首先应开展数据广播生活资讯信息服务。为广大用户提供教育、科技医疗、人才市场、餐饮娱乐、旅游、物流、交通、房地产、电视红娘、粮油菜价等各类实用准交互资讯服务, 增强广大机顶盒用户对数字电视服务功能的认可。

但是由于各类机顶盒种类繁多, 数据广播的技术标准及页面设计不统一, 各类信息要全面、实用、实时, 繁重的制作工作量, 给开展数据广播业务带来了极大的不便。

因此开发一套多功能数据广播自动采编系统, 适配不同类别的数据广播播控平台、不同类型的机顶盒, 并实现各类全面、实时、实用的信息自动链接、抓取、播出, 对数据广播的开发和运营将产生巨大的经济效益。

2 多功能数据广播自动采编系统解决方案

本系统主要特点是:

(1) 适配性:适配不同播控平台的播出要求, 初期至少开发适配2种以上;

(2) 内容制作:一次制作, 后台程序自动生成多种形式的内容;

(3) 界面模板化:不同栏目按照标准随意更改界面模板, 甚至可以做到不同时间段的界面不同性;

(4) 采编审分离:信息采集、编辑及审核分离, 不同人员的职责不同;

(5) 角色权限管理:客户、代理商、内部信息采集员工、栏目编辑、信息审核员、信息发布员、经理等不同角色赋予不同的权限;

(6) 统计功能:基于代理商的业绩统计, 基于员工的业绩统计 (如工作量统计等) ;

(7) 时间有效性:初次设置播出时间有效性, 程序将自动生成有效期内的内容。

3 功能模块设计

本系统主要是基于Internet的B/S应用程序, 主要包括客户信息采集管理系统、代理商信息采集管理系统、运营信息管理系统及联播运营管理系统。

该管理平台是一个集管理、运行、维护、统计分析等功能于一体的应用系统, 它由信息管理平台及运行环境两大部分组成。

本解决方案主要包括客户信息采集管理系统、代理商信息采集管理系统、运营信息管理系统及联播运营管理系统, 按信息来源分, 具体的流程设计图可分为三类:

第一类是本地内容流程图, 如图1。此类信息来源于广告客户自己上传的信息, 我方平台将根据各个栏目信息要求设计相对严格的格式, 客户只能按照规定的格式上传。

第二类信息是来源于互联网, 其内容流程图如图2。此类信息来源于互联网网站信息发布, 譬如说政策行规, 这个在政府相关网站上均有公布。

第三类信息是来源于外地且需要合作方支持播出的信息, 其内容流程图如图3。此类信息来源于外地合作方的客户广告信息, 譬如说A地厂商甲准备在B地开拓市场, A地的甲将通过A地的数据广播运营商向B地发布广告请求。

4 技术选型

4.1 操作系统

本系统设计将采用Windows Server 2003操作系统。

Windows Server 2003是微软公司最新的服务器操作系统, 该系统沿用了Windows 2000 Server的先进技术并且使之更易于部署、管理和使用。Windows Server 2003是一个多任务操作系统, 它能够以集中或分布的方式处理各种服务器角色, 本系统设计将利用Windows Server2003作为Web服务器和Web应用程序服务器, 并在其上安装SQL Server 2000 (或2005) , 为系统提供数据存储。IIS 6.0是Windows Server2003的下一个快速、可靠的Web平台。IIS包括一个新的进程模型, 它极大地提高了可靠性、可伸缩性和性能。本系统的Web应用程序将通过IIS来承载。

4.2 数据库

本数据库采用SQL Server 2005 (或者SQLServer 2000) 。

SQL Server 2005是一个全面的、集成的、端到端的数据解决方案, 它为组织中的用户提供了一个更安全可靠和更高效的平台用于企业数据和BI (商业智能) 应用。SQL Server 2005为IT专家和信息工作者带来了强大的、熟悉的工具, 同时降低了在从移动设备到企业数据系统的多平台上创建、部署、管理和使用企业数据和分析应用程序的复杂性。通过全面的功能集、与现有系统的互操作性以及对日常任务的自动化管理能力, SQL Server 2005为不同规模的企业提供了一个完整的数据解决方案。

4.3 Net Framew ork 2.0

本次系统开发基于Microsoft.Net Framework2.0。

.NET Framework是支持生成和运行下一代应用程序和XML Web Services的内部Wind o w s组件。.N E TFramework具有两个主要组件:公共语言运行库和.NET Framework类库。公共语言运行库是.NET Frame-work的基础。是一个在执行时管理代码的代理, 它提供内存管理、线程管理和远程处理等核心服务, 并且还强制实施严格的类型安全及可提高安全性和可靠性的其他形式的代码准确性。代码管理的概念是运行库的基本原则。

.NET Framework的另一个主要组件是类库, 它是一个综合性的面向对象的可重用类型集合, 您可以使用它开发多种应用程序, 这些应用程序包括传统的命令行或图形用户界面 (GUI) 应用程序, 也包括基于ASP.NET所提供的最新创新的应用程序) 如W e b窗体和X M LW e b Services) 。

5 软件架构

5.1 总体架构

系统总体采用分层的架构设计, 下层为上层提供服务, 上层调用下层提供的功能, 层与层之间不能跨越调用。

分层的设计思想在计算机界随处可见, 通过分层可以使对上层隐藏下层具体的实现, 保证每个层能够方便地替换。

本系统的分层结构如图4所示。

UI层:用户界面层

Dao层:数据存取层

Domain:领域对象

5.2 UI层

UI层负责用户信息的展示。类似所有的asp.net页面、asp.net服务端控件、Web Service以及其他GUI、命令行程序都属于这一层。该层不实现具体的业务处理, 只负责调用Dao层, 并实现业务的展示。

5.3 Dao层

Dao层负责完成数据的存储。Dao层包括四个部分:

Dao接口

Dao类

Dao工厂

Data Accessor类

它们之间的关系如图5所示:

Dao Factory:负责创建具体的Dao对象;

IDao:Dao对象的对外接口;

Dao:具体的Dao对象;

Data Accessor:封装对ADO.NET的调用。

5.4 Domain层

Domain层包括具体的业务实体, 这些业务实体与具体的业务属性相关, 无相关的具体方法和复杂的结构, 对于业务实体的集合, 将采用Ado.net中的Data Table存储。

5.5 异常处理原则

对于复杂业务, 在业务层可以定义业务异常。业务异常继承与Exception类。对于每一个具体的业务错误, 可以继承Dao Exception, 定义特殊的异常类型。

业务自定义异常, UI层是必须捕获的, 对于异常的处理须采用友好的界面展示给用户。

对于其他异常交由系统处理。

在此需要说明的是Dao层的异常不需全部处理, 转化成相关的业务异常。

该系统的开发测试已于2008年5月16日已经完成。并且演示成功, 即将投入运营。

摘要：随着数字电视机顶盒的普及, 收视服务费的提高, 必须针对用户的不同需求, 拓展多种个性化服务。其中依托有线电视网络, 利用数据广播开展生活资讯服务, 为广大用户提供全面、实用、快捷, 随时点击观看图、文、音乐并茂信息服务。只要你按机顶盒遥控器“数据键” (或“信息健”) 随时可获得文化教育、医疗健康、交通、旅游、无气预报、金融理财、人才市场、电视红娘、电视购物、美食、娱乐、房产家居、装修建材、收藏鉴宝等大量方便快捷实用的信息。然而要及时完成大量, 图文并茂的信息内容并且适应各种不同技术标准数据广播播控平台, 则需要投入大量的人力、物力、时间。因此, 开发一套 (适用于不同技术标准的数据广播播控平台、信息及时更新、并自动生成、适用实时信息、适应审片、修改、适应信息自动按时、分栏目自动抓取) 的数据广播内容采编系统, 是满足海量信息在不同技术标准的广播播控平台, 使信息内容及时更新, 及时播出的基础。

内容数据篇10

1 内容管理概述

内容管理的核心概念通常来说一共包括以下四个方面的内容:元数据管理、内容域、内容构件和出版。首先是元数据, 元数据管理主要指的是关于数据的数据, 元数据在内容管理中可以将自动处理内容需要的信息提供给计算机, 这样就可以使计算机对内容进行自动的处理。其次是内容域, 所要发布管理和获取的信息的范围就是所谓的内容域, 企业的信息系统的目标与内容域之间具有十分密切的联系, 而企业内容管理的第一步就是要将内容域合理地确定下来。再次是内容构件, 在确定好内容域之后, 就能够了解所关心的内容的类型, 这样就能够将内容划分为构件。在内容管理中构件属于最小的单元, 集中管理工作都是以构件为基本操作单位创建、删除和维护内容。最后是出版, 如果不是计算机使用内容, 这时候就必须要采用适合人类阅读的方式来转化适合计算机处理的形式, 而这一过程就是所谓的出版。

2 企业内容管理系统的框架分析

2.1 企业内容管理中的元数据管理子系统

企业内容管理中的元数据管理系统, 主要是对元数据进行管理, 而这些元数据, 从某种意义上来说都属于对内容管理系统的约束和定义。这些元数据, 主要包括4种数据对象, 首先是元素对象, 元素对象主要是针对系统对内容元素的约束以及系统中的内容元素进行定义。其次是构件对象, 构件对象主要是对系统对内容构建的约束以及系统中的内容构建进行定义。再次是节点对象, 内容在企业内容管理系统中出版和发布的单位就是节点, 同时节点具有构件容器的性质, 往往有一个或者多个内容构件存在于节点之中。最后是内容访问对象, 内容访问对象主要是对与内容访问相关的元数据进行管理, 比如存放内容的位置等。

2.2 企业内容管理中的内容获取子系统

将相关的工具和支持提供给内容的收集工作是内容获取子系统的主要功能, 这种收集同时还包括内容的创作等, 因此其具有广义的性质。任何形式的内容输入在实际上都属于内容获取, 而内容管理中的内容来源就是内容获取子系统, 内容获取子系统通常包括以下4种功能:首先是模版服务, 模板服务能够将模板提供给内容的收集工作, 内容创作人员只要是选择模板进行内容创作, 创作的内容就会被该系统自动地拆分为合适的内容构构件, 并且会提交给内容管理系统。其次是内容创作, 内容获取子系统中通常都包括着内容创作工具, 从而方便工作人员进行内容创作。再次是内容组装, 所谓的内容组装就是通过组装的方式将现有的简单内容构件变成复杂的内容。最后是内容转换, 各个企业和组织之间在网络环境下需要进行经常性的沟通, 这时候就可以采用相应的格式转换其中的交换内容。

2.3 企业内容管理中的内容存储子系统

存储内容和元数据是内容存储子系统的主要功能, 并且还可以将内容查询语言等相应的支持提供给内容的访问和处理工作, 内容存储子系统具有以下几项功能:首先是内容存储, 其主要是指对元数据、内容构件、二进制或基于文件的元素、文本元素等数据进行存储。其次是内容查询, 内容存储系统可以通过内容查询功能将查询机制提供出来。再次是内容存储系统的管理, 通常来讲内容存储系统必须要对事务管理、内容统计与追踪安全、权限控制等提供支持。最后是内容缓存, 内容存储子系统可以将一种缓存机制提供出来, 从而使内容的动态获取得以加速。

2.4 企业内容管理中的内容发布子系统

将相关的支持提供给内容发布的工作是内容发布子系统的主要功能, 相对于传统的出版系统而言, 内容发布子系统具有以下4个方面的功能:首先是发布模板, 也就是说内容发布子系统要将一个统一的发布结构或者发布风格提供出来。其次是样式描述语言, 内容发布子系统要对目标出版物的样式采用一种样式描述语言描述数来。再次是部署, 也就是要向最后的物理存储传送生成的出版物。最后是跨网络边界发布, 为了能够使内容的访问速度得以加快, 内容提供者一般除了要对主力内容服务器进行设置之外, 同时还要将辅助服务器设置在与内容访问者位置较近的地方, 而该功能主要就是将同样的内容发布给主辅内容服务器。

3 结语

本文对内容管理这一企业门户的核心技术进行了分析和介绍, 通过内容管理系统可以对企业的信息进行管理和发布, 从而使企业与客户之间的沟通更加密切, 最终能够使企业的市场竞争力变得越来越强, 因此企业必须要充分地重视内容管理, 从而全面地提升自身的经济效益。

摘要：本文对内容管理这一企业门户的核心技术进行了分析和介绍, 并且对内容管理取代传统的数据管理的重要性进行了论证。最初所谓的内容管理主要就是企业的网站内容管理, 而对Web站点上大量的动态网页和静态网页进行管理是其最为主要的目的, 在Internet和电子商务不断发展的今天, 内容管理具有了越来越重要的作用, 而且在企业门户中其处于核心的地位。

关键词：内容,元数据,企业门户

参考文献

[1]杨凌云, 郭勇.基于PHP的包装企业门户网站设计与实现[J].包装工程, 2013 (05) .

内容数据篇11

【关键词】数据结构地理信息科学专业教学内容改革

一、前言

数据结构是计算机专业的一门综合性专业基础课，算法和数据结构是计算机科学的两大支柱。地理信息系统（GIS）是在计算机硬、软件系统支持下，对地理空间数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。作为计算机专业核心课程的数据结构是GIS专业的核心课程。然而，计算机专业和GIS专业学生专业背景不同，学习重点也不同。因此，在GIS专业数据结构教学过程中，根据本专业的需求，并结合专业特点，设计合理的教学内容是十分必要的。

二、GIS专业数据结构课程教学存在问题

通过数据结构的学习，要求学生掌握：数据的各种逻辑结构和物理结构，包括线性表、栈、队列、串、树、图等；基于各种数据结构的各种运算，如插入、删除、检索等；基于各种数据结构的算法，例如基于图的最短路径分析、查找算法等；分析算法的效率，主要指算法的时间和空间复杂度[1]。

GIS专业是一门集地理学、计算机、遥感技术和地图学于一体的新型专业。GIS专业的学生不仅要有深厚的计算机功底，而且还应该具有较强的空间思维能力，能够处理和分析二维/三维的地理空间数据。然而教师在当前的数据结构教学过程中，普遍重视非空间数据的处理，较少涉及空间数据的组织和管理。同时，学生对于数据结构与GIS专业的关系非常疑惑，特别是常规的教学内容与方法，不能与专业相结合，学习起来就比较困难。

通过近几年的教学研究，笔者在数据结构教学过程引入空间数据存储、空间数据管理、空间关系、空间分析等与GIS专业关系密切的教学内容，使得学生对数据结构有了更好的理解，对GIS的学习也有了很好的促进作用。

三、GIS专业的数据结构教学内容改革实践

（一）数据结构用于空间数据存储和运算

数据结构研究内容包括线性表、栈、队列、串、树、图等结构。它们不仅能够对非空间数据进行表达，也能够对空间数据进行表达。在数据结构教学过程中，对数据结构存储的内容进行扩展，数据结构中存储的不再是整型、浮点型、字符型等简单类型，还可以是各种各样的空间数据。

在数据结构课程教学中，要求学生能够独立设计点、线和面等不同维度的矢量和栅格空间数据、影像空间数据的结构体（或类），并实现线性表、栈、队列、串、树、图等结构的定义和运算，使数据结构能够处理各种类型的空间数据。

（二）树结构用于空间数据管理

在数据结构课程教学中，要求学生能够利用树结构，设计典型的空间数据索引。空间数据的一个非常重要的特性是其海量特征。海量的空间数据管理，需要设计相应的空间索引。作为一种辅助性的空间数据结构，空间索引介于空间操作算法和空间对象之间，它通过筛选作用，排除大量与特定空间操作无关的空间对象，从而提高空间操作的速度和效率。比较有代表性的空间索引有格网索引、四叉树索引、R树和R+树索引、CELL树索引。

空间索引的设计需要树结构的支持。例如，四叉树空间索引的构建可以用树结构进行描述。通过建立树结构表示，表达地理空间对象，能够实现对空间数据的快速检索。

（三）图结构用于空间关系表示

GIS不仅关心空间目标自身的几何特征及属性，还必须能够处理其与所处环境间的关系。因此，在数据结构课程教学中，要求学生掌握空间关系的基本理论并设计相应的图结构，使图数据结构能够对各种空间关系进行计算机表达。

空间关系是GIS的核心研究内容之一，主要包含拓扑、方位和度量空间关系。拓扑关系描述了空间对象在拓扑变换下的拓扑不变量；方位关系描述了空间对象之间的相对位置信息；度量空间关系是用某种度量空间中的度量来描述对象间的关系。因此，数据结构支持空间关系的计算机表达，也是数据结构教学过程中的重点。

空间关系可以通过图数据结构来表达。图G是由集合V（G）和E（G）组成，记为G=（V，E），其中V（G）是顶点的非空有限集合，E（G）是边的有限集合，边是点的无序对或有序对。在空间关系的表达过程中，采用顶点表示地理空间对象，边表示地理空间对象之间的空间关系。V（G）表示地理空间对象集合，E（G）表示地理空间对象关系的集合。然而，地理空间对象之间存在多种空间关系，例如，地理空间对象A和B之间的拓扑关系为相离、方位关系为东、度量关系为10米。这就需要定义多种子图，分别表达不同的空间关系，然后将各种子图进行合并，形成一個更高级别的图集合。可以定义图的集合：，其中，表示图的集合，分别表示各种子图。

（四）数据结构应用于空间分析

GIS包含很多空间分析方法，如叠置分析、网络分析、地形分析等。其中，网络分析通过研究网络的状态以及模拟和分析资源在网络上的流动和分配情况，对网络结构及其资源的优化问题进行研究。在数据结构课程教学中，要求学生掌握空间分析的基本理论并设计相应的图结构和改进的Dijkstra算法进行路径选择、资源分配和网流量分析。

网络分析可以通过图数据结构实现。例如，基于图数据结构和改进的Dijkstra算法能够进行网络分析。进行网络分析，能够选取一条最优的路径，也可以选择合理的资源配置中心，同样可以选择最佳的布局中心。

四、结论和展望

空间数据存储、空间数据管理、空间关系、空间分析是GIS专业的核心研究内容。教师结合GIS专业特色，对数据结构课程内容进行适当调整，强调数据结构在GIS方面的应用，使教学内容更具有针对性，既有利于增强GIS专业学生学习数据结构的兴趣，又有利于GIS专业人才培养。

【参考文献】

[1]严蔚敏，吴伟民.数据结构（C语言版）[M].北京：清华大学出版社，1997.

[2]胡学钢，张晶，周红鹃，等.数据结构实践教学体系设计[J].吉林大学学报（信息科学版），2005，23（S2）：138-141.

[3]姜跃.《数据结构》课程的教改与实践探索[J].云南师范大学学报（自然科学版），2011，31（03）： 71-73.

[4]蒋莉，梁荣华，黄鲜萍.数据结构课程教学研究[J].计算机教育，2011（09）：97-99.

内容数据篇12

关键词：视频片段,视觉相似性,最近邻搜索,局部敏感哈希

在数字图书馆的视频数据库中, 基于内容的视频识别是指基于内容相似性, 在一个大的视频数据库中识别出一个给定短查询帧片段的源视频。为视频识别建立视频数据库的两个关键步骤是: (1) 对数据库中的每个视频进行特征提取; (2) 对特征向量建立索引, 以允许相似帧的高效搜索。

本文第二节介绍了近似ε-最近邻搜索, 也称为ε-NNS, 这是一种在两个视频片段中识别相似帧的方法。在这种方法中, 一个ε-最近邻 (ε-NN) 是指查询点的一个近邻, 它与真实最近邻的距离在 (1+ε) 因子之内, 其中的ε值很小。第三节介绍了为了在高维空间中进行高效的搜索, 为视频片段建立索引的LSH方法。

1 视频识别

1.1 测量视频相似性

本节介绍了一种判断短查询帧片段X是否包含在一个更长的数据库帧片段Y中的方法。该定义基于查询视频X与数据库视频Y之间的视觉相似帧的百分比。我们首先找出在Y中具有视觉相似帧的X中帧的总数, 然后计算这些帧在X所有帧中占的比率。

令X={x1, x2, …xm}, Y={y1, y2…yn}为两个视频序列, xi∈X、yi∈Y为帧, 且|X|□|Y|, 这里|X|和|Y|分别表示视频X和Y的长度。令d (x, y) 为帧x与帧y之间的不相似度, δ为一个小的阈值, 用于衡量两个帧是否具t有h视觉相似性。此时, X和Y之间的视频相似性, 记为S (X, Y, δth) , 可以定义如下:

其中x是X中的任一帧, 且

根据上述定义S (X, Y, δt h) , 的值域为[0, 1], S (X, Y, δth) =1表示X包含在Y中, 为了在Y中对X进行定位, 我们将X在Y中所有视觉相似帧的集合记为:

因此, 我们可以将X与Y中每个帧y∈Ysim附近的与X具有相同长度的帧片段进行比较, 其中具有最小差值的那个视频片段即为最优匹配。

1.2 将ε-NNS用于视频识别

基于上述帧相似性定义, 计算S (X, Y, δth) 和Ysim的关键是为每个帧x∈X, 找到最接近的帧y∈Y, 这等价于特征向量空间中的最近邻搜索问题。由于对于视频应用, 特征空间中包含的维数通常很大, 因此最近邻搜索的效率是一个难以解决的问题。在这里, 可以采用一种简化的方法, 只查找近似的最近邻。尽管采用近似最近邻会在视频识别中引入一些错误, 但是对结果影响不会很大。

令dε (x, Y) 为x与Y中近似最近邻的距离。根据ε-N N S的定义, 有

假定我们在计算S (X, Y, δt h) 时, 采用dε代替真正的最近邻, 则有:

可以看出当dε (x, Y) ≤δth或dε (x, Y) > (1+ε) δt h时, 有Tε (x) =T (x) 。

因此, 当不采用最近邻时, 错误仅仅发生在δth

我们可以采用ε-NNS的另一个原因如下。假定一个查询帧x∈X具有真实的最相近帧yt∈Y。由于视频的连续性, yt附近的帧与yt相似, 因此与查询帧x相似。ε-NNS方法很可能将这些帧选取为最近邻。换句话说, 如果ε-NNS找到的最相近帧是错误的yw∈Y, 那么yw很可能位于yt附近。因此, 采用ε-NNS对在Y中定位X的影响不会很大。

2 局部敏感哈希

在上一节中, 我们看到, ε-N N S可用于相似帧的高效搜索, 错误的概率很低。现在我们介绍一种用于ε-NNS的比较普遍的方法, 称为局部敏感哈希, 或LSH。

LSH背后的思想非常简单。它随机的将一个高维空间划分为高维立方体。每个立方体是一个哈希槽位。一个点很可能与它的最近邻位于相同的槽位中。给定一个查询点, 我们确定点位于哪一个槽位中, 在一个槽位中进行线性搜索, 以确定最近邻。因此, 哈希函数是一个从高维点到用于表示点所在槽位的比特串的映射。如果某个点被哈希到一个与其最近邻不同的槽位中, 我们就可能无法得到该点真实的最近邻。为了减小这种可能性, LSH维护多个哈希表, 采用不同的哈希函数, 对一个点进行多次哈希。若要减小某个点对于所有这些哈希函数, 均与其最近邻位于不同的槽位中的可能性, 可以通过减少槽位的数量以及增加哈希表的数量来实现。

LSH的正规表述如下。令d为向量空间的维数, [Li, Ui]为维数i中可能值的范围。LSH中每个哈希表都采用哈希维度的数目k进行参数化, 哈希维度为D=[D0, D1, …Dk-1], T=[T0, T1, …Tk-1]为一个阈值向量。Di在[0, d-1]中均匀的随机分布, 而Ti在[LD, UD]中随机选取。

给定一个点P=[P0, P1, …Pd-1], 我们将其哈希到一个k比特串T=[b0, b1, …bk-1], 代表其对应的槽位, 此处若pD>tD, 则bi为1, 否则为0。

LSH构造N个这样的哈希表, 每个都有不同的D和T。N和k的值可以调整, 以改变错误边界ε。

3 结语

本文首先介绍了近似ε-最近邻搜索, 也称为ε-NNS, 这是一种在两个视频片段中识别相似帧的方法。然后介绍了为了在高维空间中进行高效的搜索, 为视频片段建立索引的LSH方法。对数字图书馆中视频数据库的建立和管理有着一定的参考价值。

参考文献

[1]朱铁稳, 黄菊香, 唐波等.数字图书馆与多媒体数据库的检索技术[J].计算机工程与应用, 2002, 38 (9) .

[2]李兰兰, 魏蛟龙.数字图书馆中多媒体数据库信息的检索[J].大学图书情报学刊, 2004, 22 (3) .

[3]S.C.Cheung, A.Zakhor.Efficient videosimilarity measurement with videosignature[J].IEEE Transactions on Cir-cuits and Systems for Video Technology, 2003, 13 (1) :59～74.

【内容数据】推荐阅读：

数据库部分上课内容08-29

数据库课程考核内容12-25

成都大数据技术培训学校哪家好？学数据分析的各个学习模块有哪些内容12-14