标签携带信息

2024-11-08

标签携带信息(精选3篇)

标签携带信息 篇1

摘要:分析了制约协作标签系统中信息检索的瓶颈问题,提出要在CTS中实现较高的查准率和查全率,必须要从服务端的信息组织和客户端的信息检索两个角度出发,逐步消除模糊语义,为资源和标签的对应关系找到合适的上下文环境,从而检索到需要的信息。

关键词:标签,信息检索,CTS,folksonomy

1 引言

近年来,Web用户使用自定义标签来进行Web资源分类的方式已经比较流行了,一般称支持这种信息组织方式的系统为协作标签系统(Collaborative Tagging System,CTS)。协作标签系统和语义Web是目前Web的两大主流发展方向,都取得了阶段性成果,但是也都存在一些瓶颈问题。语义Web的应用前景很远大,但是它需要大量的结构化知识(三元组)来支持机器推理,由于目前本体的生成效率很低,造成了语义Web中知识的获取比较困难。协作标签系统结构化程度较低,很容易通过多用户的协作形成非结构化和半结构化知识库,但是这些知识的利用是很大的难题,常通过社会机制来控制,如标签的推荐、评价和协作等策略。

对于CTS来说,多用户通过因特网共享自己的资源固然是好事,但是这种信息组织方式过于自由了,资源的分类也十分随意,这造成了大量的重复信息和含义模糊的信息,对用户检索和利用有用信息极为不便。事实上,对于这种庞大的社会资源库,依赖直接通过标签来搜索往往很难得到用户想要的信息,查全率和查准率都得不到保障。因此,本文对CTS的信息检索方法进行了研究和探索。

2 协作标签系统概述

CTS是开放性的,任何用户都可以自定义标签标注资源和共享资源。这种多用户的协作方式形成了以半结构化知识和非结构化知识为主要内容的的社会知识库,如维基百科全书。CTS目前最典型的是自由分类(folksonomy)的形式,本文后续部分都针对folksonomy进行讨论。

2.1 Folksonomy和Wikipedia

维基百科全书(Wikipedia)是由Jimmy Wales和Lmay Sanger于2001年1月创建的一种大众参与的自由的百科全书,是国际性的开放内容的百科全书协作计划,其目标是为地球上每个人提供由他们的语言所书写的世界知识。随着成千上万的志愿者的参与,它已经成为目前世界上最大的百科全书。

自由分类*(folksonomy)是由网络信息用户自发为某类信息定义一组标签进行描述,并最终根据标签被使用的频次选用高频标签作为该类信息类名的一种为网络信息分类的方法。folksonomy是个人为方便检索对信息和对象进行自由标注的产物。标注是在公开的网络环境下进行的,可以对其他人公开并共享。

2.2 CTS的特点

folksonomy是一个社会系统,多用户协作标注采用的都是用户自定义的非控词汇(标签),一般对标签的控制都采用社会机制,如选举、推荐和协作等方式。folksonomy采用基于用户的平面结构来组织信息,它的主要优点是:

(1)认知门槛低,用户不需要具有专业的知识就可以参与。

(2)用户之间可以进行即时的反馈和交流。

(3)如果标注词汇有所变化,则新的词汇将被迅速采纳。

(4)对每个用户都可以自行定制个性化需求和信息组织形式。

CTS的主要用途就是信息共享,但是用户自定义的标签并不一定是大众认同的,因此需要对自定义标签加以一定的控制。现有的folksonomy系统采取许多措施来促进信息的共享。

(1)建议使用流行标签,如图1所示的del.icio.us网站上的流行标签推荐。

(2)揭示标签之间的统计关系,帮助用户查找相关信息。

(3)允许用户协同合并他们认为具有同意义的标签。

需要指出的是,上述的措施都是从服务建议的角度提出的,并非是对用户自定义标签的强制控制。folksonomy的成功之处在于它将人作为因特网的核心,面向单个用户提供个性空间,面向用户群体支持协作和交互,因此它的发展动力源于大众。

2.3 CTS中的信息检索问题

尽管目前采取了很多措施来控制用户自定义标签,但是对folksonomy的信息检索仍然很困难。folksonomy用户的兴趣具有明显的主观性,定义标签十分随意,因此造成了如下的问题:

(1)由于没有统一标准,同样的标签可能存在多种含义。

(2)不同的标签可能表示相同的含义。

(3)用户定义的标签一旦离开上下文环境往往就难以准确理解。

其中,最困扰用户使用CTS信息的问题就是多义标签和同义标签。图2所示的是del.icio.us网站提供的搜索引擎,当输入air进行检索时发现对air的理解有多种,如Adobe Integrated Runtime的缩写形式AIR和航空、空气等,正是这种语义的模糊使得folksonomy似乎变得“一团糟”。由于CTS缺乏基础的符号系统,造成对同一实体的不同描述依据上下文,因此要对CTS中的信息进行比较准确的检索就不能仅仅通过标签(关键词)的查找来实现。

3 面向CTS的信息检索方法

对CTS的信息检索离不开上下文环境,标签代表的语义往往是模糊的和不全面的。目前面向folksonomy的信息发现方法研究是影响folksonomy发展的重大问题,主要存在两种思路:第一,通过发现相似文档或社区共同兴趣来对信息进行归类;第二,通过分析实体间的联系来确定标签间的关联。

3.1 CTS的形式化描述

CTS由用户、标签和资源三部分组成,整个系统可以用超图来描述[5]。超图的概念1973由法国数学家Berge提出,用于研究有限集合中各元之间的多元关系问题,描述最具一般性的离散结构关系。为了将超图理论用于大型的电网络、计算机网络设计和物流领域。首先定义用户集、标签集和资源集如下:

则用户对资源的注释集可以描述为:

将用户、标签和资源看作是超图的顶点,将用户对资源的标注路径看作是超图的边,则得到CTS的超图结构为:

G=顶点:V=U∪R∪T边:E={{u,r,t}|(u,r,t)∈A}

这样,针对具体的实例就可以把folksonomy定义为如下的四元组:

F=(U,T,D,A)

3.2 用三方图分析CTS语义

一种能够反映CTS本质的方法就是三方图(tripartite graph)。三方图反映了用户、标签和资源之间的关联,通过分析三方图就能够结合上下文确定标签的含义[4]。分析三方图往往是首先确定用户、标签和资源三方中的一方,这样三方图就可以简化为两方图,具体来说有以下三种简化后得到的两方图:

(1)面向单一用户的两方图TDu

TDu=,Etd={{t,d}|(u,t,d)∈A}

含义为特定用户的空间里标签和文档资源的对应关系。

(2)面向特定标签的两方图UDt

含义为使用特定标签的用户和文档资源的对应关系。

(3)特定文档的两方图UTd

含义为对于特定文档,用户和自己定义的标签的对应关系。

将三方图变为两方图的过程其实就是确定上下文环境的一个过程,限定了关系的范围,因此可以较为准确的分析出CTS实体的语义。要进行CTS的信息检索,就不可避免的涉及到语义分析的问题。

3.3 问答式检索

由于CTS由用户、标签和资源三部分组成,对CTS的信息检索自然也涉及到这三个方面,一般来说,可能的检索方式有:

(1)通过标签检索资源,对应于UDt。

(2)通过用户检索资源,对应于TDu。

(3)从文档出发,通过标签检索用户,对应于UTd。

大多数用户使用资源时关注的是信息资源本身,有时也可能会关注到某个用户和他的空间。一般情况下对标签本身的检索意义不大。而用户的名称虽然可能重复,但是通过输入用户名称来检索用户及其相关资源比较容易做到,一般也不存在语义混乱的问题,在此不再做讨论,本文主要关注通过标签检索资源的问题。

由于CTS中信息的组织过于随意,常规检索方法难以返回有效结果,因此首先要对CTS的信息组织方法进行改进,一种比较好的思路就是对用户的自定义标签再添加可控标签[5],即标签的标签。CTS服务方需要通过选举算法得出同一内容下的最流行标签,并用该标签对所有与这一内容相关的资源、标签、或者标签之间的关系加标签。这其实是一个信息分类的过程,也是一个把“图”变成“树”的过程。例如,可以把所有和“air”有关的标签分为一大类,对缩写和非缩写进行区分,形成两个子类。

在客户端要对文档资源进行检索,可以按照问答方式分阶段进行,一旦输入关键词,则系统提供与之相关的标签,当用户选择兴趣范围,再返回下一层,直到用户满意为止。以“air”的查询为例,假设我们需要得到有关航空公司的信息,则系统可以提示与air相关的标签,用户选择后再进一步缩小范围。

4 结束语

维基百科的成功,引起了人们的深思:世界上最大的百科全书为什么不是微软的Encarta百科全书或者是大不列颠百科全书呢?道理很简单:大众的力量是无穷的。这引起了人们对因特网的新的思考,因特网是大众的网络,它的诞生和发展都是为大众服务的,离开了这条主线就背离了因特网的发展方向。支持分布式的、大众参与的因特网的社会性系统是今后信息系统的一个重要发展方向。本文针对目前CTS中信息检索面临的难题进行了一定研究和探索,但是尚未从根本上解决此类问题,这需要在今后的研究中不断深入。

参考文献

[1]Scott A Golder,Bernardo A Huberman.The Structure of Collaborative Tagging Systems[EB/OL].2005[2008-03-21].http://arxiv.org/ftp/cs/papers/0508/0508082.pdf.

[2]Mika,P.Ontologies are us:A unified model of social networks and semantics Proc[C].ISWC2005,2005.

[3]Mathes Adam.Folksonomies-cooperative classification and communication through shared metadata[EB/OL].2004[2008-03-21]http://www.adammathes.com/academic/computermediatedcommunication/folksonomies.html.

[4]Ching-man Au Yeung,Nicholas Gibbins,Nigel Shadbolt.Understanding the Semantics of Ambiguous Tags in Folksonomies[C].ES-OE2007,2007.

[5]Vlad Tanasescu,Olga Streibel.Extreme Tagging:Emergent Semantics through the Tagging of Tags[C].ESOE2007,2007.

[6]毛军.元数据、自由分类法(Folksonomy)和大众的因特网.现代图书情报技术,2006,(2):1-4.

标签携带信息 篇2

一、核酸的分类

细胞生物含两种核酸:DNA和RNA 病毒只含有一种核酸:DNA或RNA 核酸包括两大类:一类是脱氧核糖核酸(DNA);一类是核糖核酸(RNA)。

真核生物和原核生物的遗传物质都是DNA,DNA病毒遗传物质为DNA,RNA病毒遗传物质为RNA。

二、实验核酸在细胞中的分布——观察核酸在细胞中的分布:

原理:甲基绿使DNA呈绿色,吡罗红使RNA呈现红色。

盐酸作用:能够改变细胞膜的通透性,加速染色剂进入细胞,同时使染色质中的DNA与蛋白质分离

材料:人的口腔上皮细胞(不可用洋葱紫色鳞片叶、叶肉细胞、成熟哺乳动物红细胞)试剂:0.9%生理盐水(保持细胞形态),甲基绿吡罗红染液现用现配

步骤:制片--水解--冲洗--染色--观察

结论:真核细胞的DNA主要分布在细胞核中。线粒体、叶绿体内含有少量的DNA。RNA主要分布在细胞质中。

三、核酸的结构

1、核酸是由核苷酸连接而成的长链(组成元素C H O N P)。DNA的基本单位脱氧核糖核苷酸,RNA的基本单位核糖核苷酸。核酸初步水解成许多核苷酸。基本组成单位—核苷酸(核苷酸由一分子五碳糖、一分子磷酸、一分子含氮碱基组成)。根据五碳糖的不同,可以将核苷酸分为脱氧核糖核苷酸和核糖核苷酸。

2、DNA由一般由两条脱氧核苷酸链构成。RNA一般由一条核糖核苷酸连构成。

3、核酸中的相关计算:

(1)若是在含有DNA和RNA的生物体中,则碱基种类为5种;核苷酸种类为8种。(2)DNA的碱基种类为4种;脱氧核糖核苷酸种类为4种。(3)RNA的碱基种类为4种;核糖核苷酸种类为4种。类别 DNA RNA 基本单位 脱氧核糖核苷酸(4种)核糖核苷酸(4种)腺嘌呤脱氧核苷酸(A)腺嘌呤核糖核苷酸(A)鸟嘌呤脱氧核苷酸(G)鸟嘌呤核糖核苷酸(G)胞嘧啶脱氧核苷酸(C)胞嘧啶核糖核苷酸(C)胸腺嘧啶脱氧核苷酸(T)尿嘧啶核糖核苷酸(U)五碳糖 脱氧核糖 核糖

四、遗传信息多样化的原因:脱氧核苷酸的数量和排列顺序不同。

标签携带信息 篇3

不知道你有没有这样的经历, 一些从网上下载的MP3音乐, 文件名明明是01、02这样的序号, 但播放时却能显示出歌曲的正确名称来, 是不是有点奇妙?这其实都是ID3标签在暗中相助, ID3标签是MP3音乐档案中的歌曲附加信息, 它能够在MP3中附加歌曲的标题、作者以及其他类的资讯, 方便众多乐曲的管理。缺少ID3标签并不会影响MP3的播放, 但是管理音乐文件会相当的麻烦, 所以给MP3文件增加内置的标签是理所当然的事情。有趣的是, MP3的标签并没有一个ISO国际标准, ID3的各种版本目前只是一个近乎事实上的标准, 目前MP3的ID3版本包括ID3 V1和ID3 V2。

2 ID3V1标准

ID3 V1是由Eric Kemp在1996年发明的标准, 它是一组附加在音乐文件后面的数据, 它的长度是固定的128字节, 它的结构比较简单, 如表1所示 (注:$xx用来表示一个字节的数值, %x用来表示一位数值不定的比特, 下文相同) 。

标签头必须是“TAG”, 否则认为不属于ID3 V1, ID3 V1的各项信息都是顺序存放, 没有任何标识将其分开, 比如标题信息不足30个字节, 则使用'�'补足, 否则将造成信息错误。不过ID3 V1版本的限制太多, 比如歌曲名长度被限制在30个英文字母, 稍长一点的曲名就会被截掉, 让人头痛不已。在这种情况下, 它的升级版本ID3 V2出现了。

3 ID3 V2标准

MP3文件的“ID3 V1信息”结构提取起来非常容易, 写入到文件也不是什么难事, 但是它的信息安排和可扩展性却非常差 (只能128个字节) , 为了能够提高其可扩展性就出现了ID3V2。ID3 V2的设计更加灵活, 扩展性更强, 并且支持Unicod编码, 因此歌词信息支持多语言。由于ID3 V1信息存储在了文件的最后128个字节里, 那么ID3 V2就不得不存储在了文件的起始位置。正是由于这个原因, 对ID3 V2的操作比ID3 V1要慢, 而且ID3 V2结构比ID3 V1的结构要复杂得多, 但比前者全面且可以伸缩和扩展。ID3V2到现在一共有4个版本:ID3V2.1、ID3 V2.2、ID3 V2.3和ID3 V2.4, 不过比较流行的MP3播放软件一般只支持第3版, 即ID3 V2.3, 因此本文也主要针对于ID3 V2.3。ID3 V2信息由3个部分:标签头、标签帧和扩展标签头组成, 扩展标签头不是必需的, 但是ID3 V2信息必定包含一个标签头和若干个标签帧。同时为了便于以后增加额外的帧, ID3 V2规范还允许在所有帧数据的后面填充一些补白数据, 即可以将ID3 V2的大小定义得比所有帧数据的总和要大, 这样剩余的数据就是补白数据, 补白数据用0来填充。

3.1 标签头

ID3 V2的标签头应该是音频文件最开头的10个字节数据, 如表2所示。

3.1.1 ID3 V2标志位

ID3 V2的标签头总是以3个字节的“ID3”字符串开头, 以此来标识这是ID3 V2信息。

3.1.2 ID3 V2版本号

紧跟着ID3 V2标志位的两个字节表示ID3 V2的版本号, 版本号的第一个字节表示主版本号, 第二个字节表示修订号。如果是ID3V 2.3则对应的两个字节就是$03和$00。

3.1.3 ID3 V2标签头标识

版本号后是一个字节的标签头标识, 字义为abc00000, 其中只有3位是有意义的:a代表非同步编码, 用来表示当前ID3 V2信息是否经过非同步编码, 一般不用设置;b代表扩展标签, 用来表示标签头数据后面是否有扩展标签头数据, 如果为1代表具有扩展标签头, 否则为0;c代表测试指示位, 用来表示当前是否为测试版。如果有测试阶段, 将此位置为1, 否则置为0, 一般不用设置。标签头标识的后5位统统要设为0。如果其中一位为1, 那么程序可能不能正确识别该标签。

3.1.4 ID3 V2标签大小

ID3 V2的标签信息大小是用4个字节记录。但这4个字节的最高位都设为0。所以总共有28位来表示大小, 它的格式是:0xxxxxxx 0xxxxxxx 0xxxxxxx 0xxxxxxx, 计算大小时要将0去掉, 得到一个28位的二进制数, 就是标签的大小, 计算公式如下:

3.2 ID3 V2扩展标签头

扩展标签头包含了一些对正确解析ID3 V2标签信息影响不大的信息, 一般来说它是可选的, 它的大小一般是10个字节。

3.3 标签帧

ID3 V2中可以包含多个标签帧, 每个标签帧都有一个10个字节的帧头和至少一个字节的不固定长度内容组成, 这个不固定的字节内容是存放帧的信息, 它们是顺序存放在文件中。帧头和其他的标签帧没有特殊的字符分隔, 不要将其他帧的内容或帧头读入。帧头的结构如表3所示。

3.3.1 帧ID

由大写英文字母A到Z, 数字0到9组成的长度为4个字节的字符串, 说明一个帧的内容含义, 常用的对照如下:

TIT2=标题表示内容为这首歌的标题

TPE1=作者

TALB=专集

TYER=年代是用ASCII码表示的数字

TCON=类型直接用字符串表示

COMM=备注

3.3.2 帧大小

帧ID后是帧的大小, 帧大小用4个字节来表示, 它的大小计算没有标签大小的算法那么麻烦, 每个字节的8位全用, 计算公式如下:

3.3.3 帧标识

帧大小后是两个字节的帧标识, 帧标识的第一个字节是状态信息, 第二个字节是为了编码用的, 一般情况下, 它只定义6位, 其余的10位为0, 但大部分的情况下16位都为0就可以了。它的格式是abc00000 ijk00000, 其中

a--标签保护标志, 设置为1时认为此帧作废

b--文件保护标志, 设置为1时认为此帧作废

c--只读标志, 设置为1时认为此帧不能修改

i--压缩标志, 设置为1时一个字节存放两个BCD码表示数字

j--加密标志

k--组标志, 设置时说明此帧和其他的某帧是一组

帧头后面存放的是一个字节的帧的编码方式和帧的具体信息, 例如一首歌曲的名字叫“down”, 则帧标识为TIT2的帧的信息存放的就是“down”, 而一个字节的帧的编码用0来代表帧体用“ISO-8859-1”编码存储, 用1来代表帧体用“UTF-16LE”编码存储, 用2来代表帧体用“UTF-16BE”编码存储。

4 算法实现

5 结语

以上程序在Visual C#2005+Windows XP环境下测试通过, 可以实现对于符合ID3标准的MP3文件曲目信息的显示 (具体效果如图1所示) , 但是这个版本的程序还不具备更新MP3的曲目信息的功能, 这将作为新的研究内容。

参考文献

[1]Jesse Libery, Brian Macdonald.C#3.0学习指南.北京:人民邮电出版社, 2010.

上一篇:招标项目下一篇:生活的道理