数据资源描述

2024-07-15

数据资源描述（精选11篇）

数据资源描述篇1

0 引言

本文提出当前信息管理领域的热点——元数据技术来统一管理分布的仿真资源,采用XML语言及其相关语法结构作为元数据描述的元语言实现资源的互操作性。并对仿真资源管理系统的功能框架以及资源存储方式进行了设计,为下一步具体实现工作的开展奠定基础。

1 通信网仿真资源

通信网仿真资源是指在通信网系的仿真过程中所用到的并有助于通信网建模与仿真的资源。对于具体的分类概念,目前还没有权威的定义。本文将通信网仿真资源分为核心资源和非核心资源两大类。其中,核心资源包括模型资源、仿真应用资源和数据资源等,非核心资源主要是一些仿真工具、文献资料、专家知识、相关网站等。主要的仿真资源类型及其作用如表1所示。

2 元数据与XML技术

美国国防部(DoD)对元数据的定义为:描述数据属性的信息;关于数据的数据或信息;关于一个组织的数据、数据活动、系统和资源的信息。元数据是一种信息,用来描述另一种信息或资源,它可以为各种形态的信息资源提供规范、普遍的描述方法和检索工具。

XML(The Extensible Markup Language,可扩展标记语言)是W3C创建的一组规范。和HTML一样,XML也是SGML的一个子集,继承了SGML的可扩展性、结构化和有效性等特点。与HTML不同,XML用来描绘结构化数据,而HTML用来显示内容。XML不仅可以作为应用程序之间存储、转换和传送数据的有效手段,也为现代分布、异构的软硬件环境下的互操作方法和框架等的研究提供了一个全新的思路。

近年来元数据与XML技术在图书馆、情报检索、Web应用、数据管理等领域都取得了成功应用。

3 基于元数据与XML的仿真资源描述

根据通信网仿真资源的特点并结合元数据和XML技术的优点,可以用元数据来描述资源的属性信息,用XML文档定义资源描述模式及规范。

3.1 元数据参考模型

通过建立仿真资源的元数据模型来描述、说明资源的属性特征,以便对资源进行组织管理、查询检索。不同领域不同类型的资源描述粒度也不尽相同,针对资源特点需要制定不同的元数据标准。按规范程度将元数据模型分为标准元数据模型和扩展元数据模型。标准元数据模型包括其用以描述的元数据最小公共子集;扩展元数据模型是根据不同类型和专业领域仿真资源的需求所添加的描述信息。这两部分就可以建立符合用户定义的专业元数据模型。

这里我们给出针对描述粒度较小的仿真资源标准元数据模型。参照《中国科学院科学数据库元数据标准》,标准元数据模型中的核心元素包括:资源名称、资源主题、资源描述、资源类型、资源创建者、资源时间、联系方式等。标准元数据模型中的元数据项是每个专业元数据模型都应包含的。本文在标准元数据模型的基础上提出仿真资源元数据信息专业元数据的一个参考模型,见表2。

3.2 仿真资源的XML描述

采用XML语言来表示仿真资源,以建立标准化的描述。在不同平台不同应用系统间交换资源数据,实现资源的共享和互操作。建立合格有效的XML文档,首先要定义XML文档结构,通常有DTD和XML Schema两种模式。

以仿真模型的描述为例来说明基于XML的仿真资源描述。仿真模型的元数据即有关仿真模型的信息,包括模型属性信息、组合信息、算法信息、接口信息、关联信息及特征参数信息等,模型元数据的描述规定了这些模型信息的格式与内容。图1是XML描述文档的Schema框架。

通过定义仿真模型的Schema框架规定了此类模型XML描述的统一结构,从而使得这一类文件可以被验证,最终在验证的基础上被应用程序使用。

4 资源管理系统设计

4.1 系统功能需求

仿真资源管理系统主要实现对仿真资源的存储及管理,并提供高效的资源检索,应实现以下主要功能:资源入库、资源检索、资源库管理、资源评价等。

资源入库:入库内容包括资源元数据和资源实体,并根据资源分类模式进行资源的分类存储。资源检索:提供多种检索方式如快速检索、自定义检索、数据库查询和全文检索等,方便用户查询,提高检索效率。资源库管理:主要负责资源库数据日常的管理与维护工作。资源评价:仿真资源库是资源提供者与资源使用者之间的桥梁,使用者可以将对仿真资源的反馈和评价信息发布到资源库中,以便资源提供者了解使用者的需求,并进一步对资源做出修改。

4.2 体系结构设计

结合当今快速发展的Web分布式技术和Web服务技术,仿真资源管理系统可以描述为:包含一系列分布式仿真资源库节点,使用WWW协议,各种公共服务集(如接口规范、资源注册、浏览检索等)的软件系统。其层次结构如图2所示。

与传统的Web体系B/W/S三层结构相比,多了一层抽象资源层。将底层的仿真资源访问方法设计为通用的类,可以实现仿真资源物理存储方式和资源表示的无关,增强了系统的扩展性和伸缩性。

4.3 资源存储设计

仿真资源存储方式的选择极大影响着仿真资源的管理和检索效率。基于关系数据库的数据存储不适合保存具有层次结构的数据类型,而且不利于基于语义的数据检索与应用。基于XML的数据表示很好地解决了此类问题,但XML缺少作为实用数据库所应具备的特性:高效的存储、索引和数据修改机制,完整的事务和数据一致性控制,多用户访问机制等。因此,本文选择XML数据源、关系数据库以及文件系统的混合存储模式。

对于数据资源,可以以二维表的形式存储在数据库中,也可以直接用XML文档来存储。而对于仿真文档、模型或其它较大的资源,则将其分为资源实体和资源元数据信息两部分内容。资源元数据信息主要包括以下内容:(1)仿真资源的分类信息;(2)仿真资源的属性描述信息;(3)仿真资源的地址信息。

我们采用关系数据库或者XML文档两种形式来存储此类仿真资源的元数据信息,利用文件系统来存储其实体部分,并通过元数据信息中的地址信息在仿真资源元数据信息和资源实体部分之间建立对应的关系。这种存储方式既具有关系数据库的查询高效性,XML数据的多样性,又具有文件系统存储的灵活性。

5 结束语

本文结合通信网仿真资源管理系统地开发,采用元数据和XML技术对仿真资源进行规范化描述,并设计了仿真资源管理系统的功能结构及存储方案,为下一步研究工作提供了有力支持。

参考文献

[1]文明,邱晓刚,刘宝宏.基于仿真资源库的HLA仿真资源描述方法研究[J].计算机仿真,2007(11).

[2]Office of the Under Secretary of Defense.Acquisition Modeling and Simulation Master Plan[J].The Systems Engineering Forum,2006(4).

[3]中国科学院计算机网络信息中心科学数据库中心.中国科学院科学数据库核心元数据标准V2.0[G].2004.

[4]杜强芳,杨明,王子才.建模与仿真资源库系统的初探[J].系统仿真学报,2003(2).

数据资源描述篇2

Aggregate：总数，总量

朗文字典英文释义：

the total after a lot of different figures or points have been added together

各种不同的数据和数字相加以后的总和

例句1: The smaller minorities got an aggregate of 1,327 votes.

少数民族共投票1327。

例句2：Sheila’s earning from all sources aggregated 100,000 pounds.

Sheila的各类收入到了100，000英镑。

小作文使用范例：

We can immediately see that the aggregate number of people traveling abroad increased steadily from 1990 to . Since 1995, every five years witnessed a growth of about 40 million.

Ascend：上升，登高

朗文字典英文释义：

To climb something or move to a higher position

爬上或者移动到更高的位置

例句1：The number of women decreases as you ascend the professional hierarchy(专业等级/水平).

专业程度越高，女性人数越少。

注：In ascending order:(升序排列)if a group of things are arranged in ascending order, each thing is higher, or greater in amount, than the one before it. 如果一组数据是按照升序排列，每一个事情比前一个数据更高，在数量上更大。

小作文使用范例：

在小作文中，描述这样的顺序，就可以写成从低到高/从高到低的顺序。

With people getting older, the percentage of adults using the Internet everyday is in descending order. 随着人们年龄变大，用网络的成年人比率呈降序排列。

Erratic：不稳定的，奇怪的

朗文字典英文释义：

Something that is erratic does not follow any pattern or plan but happens in a way that is not regular 不稳定的事就是不按照某一种规则或者计划发生，非常不正常

例句：There was an erratic trend in the market share of visits to www.myspace.com.

Myspace网站的市场份额呈现不规律的变化。

(在这里，可以把erratic trend理解成波动的含义)

《数据的收集、整理与描述》篇3

考点一调查方式的选择

例1 下列调查中，适宜采用抽样调查方式的是（）.

A.调查我市中学生每天进行体育锻炼的时间.

B.调查某班学生对心理健康知识的知晓率.

C.调查一架“歼20”隐形战机各零部件的质量.

D.调查某亚运会上100米决赛参赛运动员兴奋剂的使用情况.

思路点拨：A选项中调查的对象太多，适宜采用抽样调查；B选项中调查的对象是一个班的学生，适宜采用普查的方式；C选项中的调查对象性质特殊，也适宜采用普查的方式；D选项调查的目的要求所有调查对象一个不缺，也适宜采用普查的方式.故选A.

方法总结：统计学中有两种调查方式：普查和抽样调查.普查耗时、耗力，有时甚至具有破坏性，因而采用抽样调查去估计总体.分析时要具体情况具体分析，了解实际问题中的总体、个体、样本，然后确定适当的调查方式.在进行抽样调查时，应注意使样本具有广泛性、代表性、随机性.

考点二统计图的应用

例2 卫生部修订的《公共场所卫生管理条例实施细则》从2011年5月1日开始正式实施，这意味着“室内公共场所禁止吸烟”的新规正式生效.为配合该项新规的落实，某校组织了部分学生在“城阳社区”开展了“你最支持哪种戒烟方式”的问卷调查，并将调查结果整理后分别制成了如图1所示的扇形统计图和条形统计图，但均不完整.

图1

请你根据统计图解答下列问题：

（1）这次调查中同学们一共调查了多少人？

（2）请你把两种统计图补充完整。

思路点拨：（1）根据使用“替代品戒烟”的人数和其所占的比例可求出总数；（2）根据第（1）问求出的总数算出未知的百分比和人数，补充两种统计图.

解：（1）在这次调查中同学们调查的总人数为：20÷10%=200（人）.

（2）统计图如图2.

方法总结：扇形统计图反映各部分所占的比例，条形统计图反映各部分的具体数据，将两者结合在一起就可求出总数.解统计图表问题，要抓住其特点，找出有用信息进行综合分析，作出合理的预测和推断.

图2

考点三频数分布直方图

例3 上海某主题公园开放后，前往参观的人非常多.5月中旬一天的某一时段，有关部门随机调查了部分入园游客，统计了他们进园前等候检票的时间，并绘制成如下图表.表中的“10～20”表示等候检票的时间大于或等于10min而小于20min，其它类同.

（1）这里采用的调查方式是_________；

（2）求表中a，b，c的值，并请补全频数分布直方图；

图3

（3）在调查人数里，等候时间少于40 min的有__________人；

思路点拨：（1）调查方式分为普查和抽样调查两种，本题采用抽样调查的方式；（2）根据表格可以得出抽样的总人数为c=8÷0.2=40（人），因此b=40×0.125=5；a=14÷40=0.350；（3）等候时间少于40 min的有8+14+10=32（人）.

解：（1）抽样调查；

（2）a=0.350，b=5，c=40，频数分布直方图如图4；

图4

（3）32.

方法总结：频数分布直方图中常用到的结论：（1）频数=频率×数据总数；（2）各小组的频率之和为1，各小组的频数之和等于数据总数；（3）频数分布直方图中小长方形的高之比等于频数之比，也是频率之比.

考点四综合应用

玉树地震后，全国人民慷慨解囊，积极支援玉树人民抗震救灾，有的捐款，有的捐物.国家民政部、中国红十字会、中华慈善总会及其他基金会分别接受了捐赠，青海省也直接接受了部分捐赠.截至5月14日12时，他们分别接受捐赠（含直接捐款数和捐赠物折款数）的比例见扇形统计图（如图5所示），其中，中华慈善总会和中国红十字会共接受捐赠约合人民币15.6亿元.请你根据相关信息解决下列问题：

图5

（1）其他基金会接受捐赠约占捐赠总数的百分比是________；

（2）全国接收直接捐款数和捐赠物折款数共计约________亿元；

（3）请你补全图6中的条形统计图；

（4）据统计，直接捐款数比捐赠物折款数的6倍还多3亿元，那么直接捐款数和捐赠物折款数各多少亿元？

图6

思路点拨：本题是一道有关扇形统计图和条形统计图的综合题.从扇形统计图5中，可以获取各部门获得捐赠的百分比.从条形统计图6中，可知其他基金会获得的捐赠为2亿元.明白了这两点，问题便可迎刃而解.

解：（1）1-33%-33%-13%-17%=4%；

（2）52（亿元）；

（3）因为中华慈善总会接受的捐赠占所有捐赠的13%，故中华慈善总会接受捐赠共计：52×13%=6.76（亿元）；玉树地震救灾捐赠款物条形统计图如图7；

图7

（4）设捐赠物折款数为x亿元，依题意有

6x+3+x=52，解方程得x=7.

故直接捐款数和捐赠物折款数分别是45亿元和7亿元.

方法总结：本题考查的是条形统计图和扇形统计图的综合运用.读懂统计图，将从条形图和扇形图中获得的信息进行整合，充分挖掘两图表中的隐含信息是解决问题的关键.条形统计图能清楚地表示出每个项目的数据，扇形统计图直接反映部分占总体的百分比大小.

一元一次方程和不等式巩固练习参考答案

1.D；2.B；3.B；4.A；5.（-3，0）；

6.5；7.x>-2；8.x<3；

9.解：如图8所示：在直角坐标系中画出直线x=3，x+y=0，x-y+5=0，

∵原点（0，0）不在直线x-y+5=0上，

∴将原点（0，0）代入x-y+5可知，原点所在平面区域表示x-y+5≥0部分，

∵原点在直线x+y=0上，

∴取点（0，1）代入x+y判定可知点（0，1）所在平面区域表示x+y≥0的部分，见图8阴影部分.

10. 解：（1） y甲= 1.2x+900（x≥500（份），且x是整数）；

y乙=1.5x+540（x≥500（份），且x是整数）；

（2）若y甲>y乙，1.2x+900>1.5x+540，x<1200，

若y甲=y乙，1.2x+900=1.5x+540，x=1200，

若y甲1200，

当x=2000时，y甲=3300，

答：当500≤x<1200份时，选择乙厂比较合算；

当x=1200份时，两个厂的收费相同；

当x>1200份时，选择甲厂比较合算；

所以要印2000份录取通知书，应选择甲厂，费用是3300元.

《数据的分析》拓展精练参考答案

1.C；2.B；3.B；4.A；5.75，68，69，69；

6.21；7.16；8.140；9.16；

数据资源描述篇4

1. 下列调查工作需采用普查方式的是 () .

A.国家环保部门对长江某段水域的水污染情况的调查

B.扬州电视台对正在播出的某电视节目收视率的调查

C.质检部门对各厂家生产的电动车电池使用寿命的调查

D.某单位在给演员做演出服前进行的尺寸大小的调查

2. 某电商为了了解一批网络电视机的使用寿命, 从中抽取1000台电视机进行试验, 这个问题的样本是 () .

A. 这批电视机

B. 这批电视机的使用寿命

C.抽取的1000台电视机的使用寿命

D.1000台

3.如图是张萌同学绘制的统计图, 其中所提供的信息正确的是 () .

A.七年级学生最多

B.九年级的男生是女生的两倍

C.九年级学生女生比男生多

D. 八年级比九年级的学生多

4. 某校八 (1) 班的全体同学最喜欢的球类运动用如图所示的统计图来表示, 下面说法正确的是 () .

A.从图中可以直接看出喜欢各种球类的具体人数

B.从图中可以直接看出全班的总人数

C. 从图中可以直接看出全班同学一学期来喜欢各种球类的人数变化情况

D. 从图中可以直接看出全班同学现在最喜欢的各种球类的人数的大小关系

5. 统计得到的一组数据有80个, 其中最大值为157, 最小值为60, 取组距为10, 可以分成 () .

A. 10组B. 9组C. 8组D. 7组

6. 某单位有职工200名, 按他们的年龄分成8组, 在40~42 (岁) 组内有职工64名, 那么这个小组的频率是 () .

A. 0.12B. 0.38C. 0.32D. 32

7. 已知样本:13、7、11、8、10、7、12、10、13、8、9、10、14、11、10、9、17、10、12、9, 那么样本数据落在范围8.5~11.5内的频率是 () .

A.0.52 B.0.4 C.0.25 D.0.5

二、填空题

8. 学校要了解八年级学生的视力情况, 在全校八年级的12个班级中都随机抽取了15名学生进行检测, 在这个问题中, 样本容量是_________.

9. 养殖户老林为了估计鱼塘中鱼的条数, 首先从鱼塘中打捞60条鱼做上标记, 然后放归鱼塘, 经过一段时间, 等有标记的鱼完全混合于鱼群中, 再打捞200条鱼, 发现其中带标记的鱼有4条, 则鱼塘中估计有________条鱼.

10. 在一个不透明的盒子中装有n个小球, 它们只有颜色上的区别, 其中有3个红球, 每次摸球前先将盒中的球摇匀, 随机摸出一个球记下颜色后再放回盒中, 通过大量重复试验后发现, 摸到红球的频率稳定于0.2, 那么可以推算出n大约是__________.

11. 根据预测, 21世纪中叶我国劳动者构成比例绘制成扇形统计图如图所示, 则第一、二、三产业劳动者的构成比例是________.

12. 李明将收集到的40个数据进行整理分组, 已知落在某一区间内的频数是8, 则该组的频率是________.

13. 小龙在爸爸的手机上清楚、直观地看出了“已用空间”与“ 可用空间” 占 “ 整个空间” 的百分比, 那么他看到的统计图是________.

14. 在绘制频数分布直方图前, 李老师将一批数据分成4 组, 列出频率分布表, 其中第一组的频率是0.23, 第二与第四组的频率之和是0.55, 那么第三组的频率是________.

15. 小童统计了自己一天的时间安排情况, 绘制出了如图所示的统计图, 请根据图中的信息计算:小童一天中, 上学、做家庭作业和体育锻炼的总时间占全天时间的________%.

16. 如图所示, 根据八 (5) 班54个学生的数学成绩绘制的频数分布直方图中, 各小长方形的高的比AB∶CD∶EF∶GH∶PK=1∶3∶7∶5∶2, 若80分成绩为优秀, 则优秀率是________.

17. 如果你是班长, 想组织一次市区内的春游活动, 并用问卷的形式向全班同学进行调查, 那么你设计的调查内容是 (请列举一条) _________________________________________.

三、解答题

18. 我校围绕 “每天30分钟的大课间, 你最喜欢的体育活动项目是什么? (只写一项) ”的问题, 对在校学生进行随机抽样调查, 从而得到一组数据.图1是根据这组数据绘制的条形统计图, 请结合统计图回答下列问题:

(1) 该校对多少学生进行了抽样调查?

(2) 本次抽样调查中, 最喜欢篮球活动的有多少? 占被调查人数的百分比是多少?

(3) 若我校九年级共有400名学生, 图2是根据各年级学生人数占全校学生总人数的百分比绘制的扇形统计图, 请你估计全校学生中最喜欢跳绳活动的人数约为多少?

19. 晓红随机抽取了某一年中扬州30天的空气质量状况统计如下:

其中:w≤50时, 空气质量为优;50<w≤100时, 空气质量为良;100<w≤150时, 空气质量为轻微污染.

(1) 如果要利用面积分别表示空气质量的优、良及轻微污染, 那么这三类空气质量的面积之比为多少?

(2) 估计扬州这一年 (以365天计) 中有多少天空气质量达到良及以上.

(3) 保护环境, 人人有责.你能说出几种保护环境的好方法吗?

20. 近年来, 中学生的身体素质普遍下降, 为了提高本校学生的身体素质, 落实教育部门“在校学生每天体育锻炼时间不少于1小时”的文件精神, 某校对部分学生每天的体育锻炼时间进行了调查统计.以下是本次调查结果的统计表和统计图.

(1) 求出本次被调查的学生数;

(2) 求出统计表中a的值;

数据资源描述篇5

考点一：总体、个体、样本和样本容量

例1 （2015年聊城）电视剧《铁血将军》在我市拍摄，该剧展示了抗日英雄范筑先的光辉形象。某校为了解学生对抗日英雄范筑先的知晓情况，从全校2400名学生中随机抽取了100名学生进行调查。在这次调查中，样本是（）。

A.2 400名学生

B.100名学生

C.所抽取的100名学生对抗日英雄范筑先的知晓情况

D.每一名学生对抗日英雄范筑先的知晓情况

分析：首先要明确这次调查的对象。然后再按照总体、个体、样本和样本容量的含义进行判断即可。

解：根据总体、样本的含义，可知在这次调查中，总体是2400名学生对抗日英雄范筑先的知晓情况，样本是所抽取的100名学生对抗日英雄范筑先的知晓情况。故选C。

方法指导：本题主要是总体、个体、样本、样本容量的含义和应用，熟练掌握这些概念的不同含义是解决此类题的关键。要明确：①总体是指所要考察的对象的全体：②个体是指每一个考察对象；③样本是指从总体中抽取的一部分个体；④样本容量是指一个样本包括的个体数量。

考点一：总体、个全、样本和样本容量

例2 （2015年资阳）某学校为了解本校学生课外阅读的情况，从全体学生中随机抽取了部分学生进行调查，并将调查结果绘制成统计表（如表1）。已知该校全体学生人数为1200，由此可以估计每周课外阅读时间在1～2（不含1）小时的学生有____名。

分析：可先借助统计表的数据，求出每周课外阅读时间在1～2（不含1）小时的学生人数占从中抽取的学生人数的百分比。然后再用样本估计总体的思想，即可估计出全校每周课外阅读时间在1～2（不含1）小时的学生人数。

解：由统计表知，每周课外阅读时间在1～2（不含1）小时的学生人数占所抽取学生人数的百分比为10/7+10+14+19×100%=20%。

该校全体学生人数为1200，估计每周课外阅读时间在1～2（不含1）小时的学生有1200×20%=240（名）。

方法指导：认真观察，综合分析，读懂统计表。从中得到必要的信息，求出每周课外阅读时间在1～2（不含1）小时的学生人数占所抽取学生人数的百分比，会利用样本估计总体，都是解决此类问题的关键。

考点三：频数分布表与频数分布直方图

例3（2015年泸州）小军同学在学校组织的社会调查活动中负责了解他所居住的小区450户居民的生活用水情况。他从中随机调查了50户居民的月均用水量（x），并绘制了样本的频数分布表（如表2）和频数分布直方图（如图1）。

（1）请根据题中已有的信息补全频数分布表和频数分布直方图。

（2）如果居民月均用水量“大于或等于4吨且小于7吨”为中等用水量居民，请你通过样本估计总体中的中等用水量居民大约有多少户。

分析：（1）观察频数分布表，可先直接计算出第三组（4≤x<5）所占的百分比为30%，然后根据随机调查的样本是50户居民的月均用水量，即可分别计算出第三组（4≤x<5）和第五组（6≤x<7）的频数，最后再分别补全表和图。（本小题也可先计算第五组（6≤x<7）的频数，然后再计算第三组（4≤x<5）的频数和百分比）

（2）根据频数分布表，利用样本估计总体的思想，即可列出式子450×（30%+20%+12%）。直接计算求得。

解：（1）由频数分布表可知，第三组（4≤x<5）所占的百分比为1-（4%+24%+20%+12%+6%+4%）=30%。

故第三组（4≤x<5）的频数是50×30%=15。

又由题意知，从中随机调查的样本是50户居民的月均用水量，且第五组（6≤x<7）所占的百分比为12%，故第五组（6≤x<7）的频数是50×12%=6。补全表和图略。

（2）居民月均用水量“大于或等于4吨且小于7吨”为中等用水量居民。故中等用水量居民大约有450x（30%+20%+12%）=279（户）。

方法指导：本题主要是频数分布表和频数分布直方图的综合应用。读懂题意，认真观察，综合分析，研究统计图和表，能利用统计图和表获取信息，会利用样本估计总体，是解决此类问题的关键。

勤学如春起之苗，不见其增，日有所长。辍学如磨刀之石，不见其损，日有所亏。——陶渊明

数据资源描述篇6

一、直接给出方差, 判断稳定性

例1甲、乙两个参加市组织的省“农运会”铅球项目选拔赛, 各投掷6次, 记录成绩, 计算平均数和方差的结果为:甲=13.5 m, 乙=13.5 m, s甲2=0.55, s乙2=0.50, 则成绩较稳定的是_______ (填“甲”或“乙”) .

【考点】方差.

【解析】根据方差的定义, 方差越小数据越稳定.因为s甲2=0.55>s乙2=0.50, 方差小的为乙, 所以成绩比较稳定的是乙.

二、根据统计图求解方差, 判断稳定性

例2 甲、乙射击运动员进行10次射击, 甲的成绩是7, 7, 8, 9, 8, 9, 10, 9, 9, 9, 乙的成绩如图1所示.则甲、乙射击成绩的方差之间关系是s甲2_______s乙2 (填“<”“, =”“, >”) .

【考点】折线统计图, 方差.

【解析】由已知, 甲的平均成绩= (7+7+8+9+8+9+10+9+9+9) ÷10=8.5,

乙的平均成绩= (8+9+7+10+7+9+10+7+10+8) ÷10=8.5,

∴s甲2=[2× (7 -8.5) 2+2× (8 -8.5) 2+5 × (9 -8.5) 2+ (10-8.5) 2]÷10=0.85,

s乙2=[3× (7-8.5) 2+2× (8-8.5) 2+2× (9-8.5) 2+3× (10-8.5) 2]÷10=1.45.

∴ s甲2<s乙2.

三、根据统计表求解方差, 判断稳定性

例3某次跳绳比赛中, 统计甲、乙两班学生每分钟跳绳的成绩情况如下表 (单位:次) :

下列三个命题:

1甲班平均成绩低于乙班平均成绩;

2甲班成绩的波动比乙班成绩的波动大;

3甲班成绩优秀人数少于乙班成绩优秀人数 (跳绳次数≥150次为优秀) .

其中正确的命题是_______. (只填序号)

【考点】算术平均数, 方差, 中位数.

基于设备描述的现场数据管理篇7

关键词：现场数据管理,XML,设备描述

一、现场数据管理的意义

随着Internet技术不断发展和壮大, Internet正在把全世界的办公系统和通信系统连接起来, 这为底层信息的远程访问和控制创造了条件。而现场数据管理系统也正在把底层控制网络Internet集成起来, 这为底层信息的远程访问和控制提供了基础。这样我们就可以通过Internet和Internet的集成, 实现对现场数据的远程监控和管理。

二、系统总体设计

目前常用的工控编程语言除了IEC 61131.3所规范的5种语言之外, 流程图语言和C语言也在一定的范围内使用。显然, 这些语言仍在发展。目前该领域一个主要的发展方向是将统一建模语言UML应用于mc61131_3组态软件的开发, 适用于迭代式的开发过程, 为支持大部分现有的面向对象开发过程设计, 编程人员可运用UML以图形来描述控制系统, 接着加上功能块、数据和其它基本的要素, 然后UML便可自动生成用符合疋c 61131-3的编程语言写的代码, 功能块可以从标准核心技术构件库中取得。而本文, 提出了基于Web技术的远程监控模型为:监控层/数据管理层/现场设备层。为解决此类问题提供了新的思路。

1. 现场数据分析和系统总体设计

由于常用的浏览器服务器/数据库三层模型结构在处理实际问题时有很好的灵活性, 技术成熟, 开发工具简单。所以我们提出了基于Web技术的远程监控模型为:监控层/数据管理层/现场设备层.这里现场设备层为以太网总线网络 (见图1) ;数据管理层为PC网关通信程序。内存数据库和Web服务器;监控层为IE浏览器。

要实现如上所述的远程监控系统, 关键问题就是如何使现场设备的信息上传到数据管理层, 以及浏览器控制命令如何下网络与通信达到现场设备中, 以太网总线使用设备描述语言编写具体设备描述文本, 能够准确的描述设备信息和被控参数, 从而巧妙的解决了这一关键技术问题。同时, 控制命令可以通过特殊帧结构下达到现场设备, 实现远程监控任务。

三、现场数据管理方法

随着现场总线和以太网技术的发展, 越来越多的基于以太网的技术将会应用到现场总线控制系统中。作为一种新型的以太网技术, XMI语言推动了互联网技术的飞速发展。XMIL语言在描述结构化数据方面的强大功能使其在工业控制领域的应用成为可能, 特别是在设备描述方面更能体现出其优越性, 更好满足现场设备的互操作性。

1. 现场设备层的设计

基于因特网的远程监控的现场设备的监控是通过现场的控制计算机来完成的。现场计算机主要功能是根据实时数据库中的远程控制命令对现场设备进行控制, 以及将采集到的现场设备状态数据存入实时数据库中, 以便Web服务器可以发送给用户。对于不同的现场设备, 我们开发不同的智能节点设计, 节点采用积分分离PID算法, 可以单独完成对设备参数进行控制, 以及自动与数据管理层PC软网关实现通信和设备描述文件的上传, 节点可对上位机或远程客户端的控制命令作响应, 控制任务由节点完成。

2. 数据管理层的设计与实现

数据管理层实现基本数据处理活动, 包括存储、修改、更新以及其他数据相关服务。接受用户服务层的请求, 向用户服务层返回结果;向数据采集层发送请求。数据管理层包括web服务器和实时数据库两部分。为了实现数据管理层与现场设备层之间的信息传递。我们开发了一个基于以太网总线的PC网关通信程序, 从而保障数据传输的实时性, 而web服务器系统采用tomcat构建WEB服务器, 用Jsp脚本语言进行动态网页的制作, 通过网关通信程序与以太网总线进行通信, 后台数据库采用开源的内存数据库来完成。

3. Web服务器的设计

Web服务器的功能是为监控层提供服务, 主要的设计任务就是动态的网页编制、实时数据库的访问。一方面, 我们采用表单形式发送的控制命令存人实时数据库.等待设备监控系统读取;另一方面, 我们根据客户的请求.从实时数据库读出设备状态数据发布给用户。我们采用Apache的tomcat服务器, 采用Jsp来完成网页的制作, 克服了HTML编写网页的静态缺点.从而使网页上可以有许多动态的信息存在。PC网关与Web服务器之间的通信主要通过后台数据库完成, 当Web服务器收到远方控制命令时, 将修改后台数据库控制表单, 这时软网关将从数据库中读取控制命令, 并按以太网总线协议, 将控制命令传送至被控设备, 完成对现场设备的远程控制。这里现场设备将对控制命令进行应答, 通知远程客户端控制任务完成, 并刷新客户端浏览器。

4. 控层的设计与实现

监控层应用Active X和HTML语言以及脚本语言的结合来实现。HTML语言主要用来组织用户界面、文本数据的显示、用户信息的表单提交。监控层主要有两个任务, 即设备状态数据的表示和控制命令的发送监控层的第一任务就是设备状态数据的表示问题.系统中, 我们将后台数据库中的现场设备相关信息, 控制参数显示在浏览器上, 供用户查看最新的设备运行状况, 以便发出控制命令。至于监控层控制命令的发送.HTML语言提供了表单, 以便通过浏览器向服务器提交数据。我们也是采用表单向服务器提交控制命令, Web服务器接收后将其存人后台数据库, 再由PC网关程序按以太网总线协议, 下达命令到现场设备。

参考文献

[1]w3c组织http://www1w31org/XML/Schema1

数据资源描述篇8

半结构数据是介于结构化数据(如关系数据库、面向对象数据库)和非结构化数据(如声音文件、图像文件等)之间的数据形式。

Web资源中数据量的不断增长,导致产生了大量的半结构数据。这些数据的主要特点是结构隐含、不规则或不完整。例如:对于一个有关“房产”信息的Web页面集合,虽然每一个页面描述的房产信息不同,但它们都包含了相似的信息(房源、开发商、地点、面积、价格等)。这些信息均隐含在不同的Web页面中,通常需要通过分析工具(如文本分类器等)才能获得。由于没有严格的结构限制,有的页面则可能会多出若干信息。另外,每条信息的表达方式也可能不尽相同。例如房源、开发商的介绍,有的可能用表格形式表示,而有的则可能使用文字描述来表示。

从传统的关系数据库来看,半结构数据不规则的原因是缺少预先定义的、固定的、且独立于数据的模式框架[1]。由于半结构数据是自描述数据,数据中可能存在结构,也可能不存在结构,但结构与数据间的界限模糊,新数据的加入也没有预先定义的结构约束,所以这种方式导致了大量的有用信息无法让用户获取,导致召回率和准确率降低。

目前半结构化数据形式化描述和抽取方法主要有基于本体的Web信息抽取方法[5],该方法可以对某一领域的抽取达到比较满意的效果,但存在本体构建工作量大,不已更新等缺陷;基于线性概念图的自动抽取本体概念方法[6],建立关系数据表到线性概念图的映射关系,利用线性图作为中介来实现概念的抽取,但其要求数据必须是结构化类型,不适用于半结构化数据。另外,在数据抽取中,有些研究者采用了产生式分类算法,有些采用了判定分类算法。而无论是产生式分类算法还是判定分类算法,都有局限性。产生式分类算法需要已知训练数据的分布形式,被认为精度不高;而判定式分类算法需要足够的训练数据,也需要人工标注数据,是一件费时费力的工作,尤其是针对汉语数据的标注工作,可利用的标注数据是有限的。

综合上述考虑,本文结合以上方法的优点,提出了一种新的半结构数据形式化描述方法和信息获取方法,从一定程度提高了召回率和准确率,具有很好的可行性和有效性。

1 半结构化数据形式化描述

在网络信息空间中研究半结构数据的集成,首先需要对半结构化数据进行核心内容的抽取,解决半结构数据的一体化表示和描述问题,在此基础上才能有效依据不同的体系和应用目的对数据进行合理有效地组织、管理和利用。网络信息空间中存在大量的数据资源,如何对来自各种数据源的信息及其语义内容行一体化描述,如何对存在于各个数据源间的系统异构、结构异构和语义异构问题的解决,是半结构集成中一个亟待解决的关键问题[2,3]。它们是进行数据集成、提供高质量数据共享服务的基础。

在本文中,针对半结构数据的结构隐含和不规则特点,引入领域本体的概念,为半结构化数据提供统一的形式化描述方式,并对领域本体给出了新的定义。

领域本体可以对领域中的知识进行有效地组织(领域知识是指在某一领域内的概念、概念之间的相互关系以及概念的约束集合。),使知识得到更好地共享与重用。根据所研究领域的应用和需要,我们给出了领域本体的概念描述,这个概念模型包括概念和概念之间的关系、约束、层次分类以及陈述如何推导或者计算机推出新概念和新概念之间关系的规则。在本文中,领域本体的重要特征体现为“面向计算机”和“正常人不必费力获取”。面向计算机是指领域本体可以用计算机来处理。正常人不必费力获取是指人们在处理信息时,能够根据自己的日常生活积累的词汇快速获取所需的信息或者添加新概念到领域本体中。

综上所说,世界是由若干领域所构成,而领域本体包括领域概念集和领域知识集两大部分。

1.1 领域概念集(Di)的形式化

领域概念集是对该领域的知识进行充分理解,抽象出概念、属性、关系等关键的词汇,采用形式化方法描述。

领域概念集由领域对象集合和对象间关系集合构成。

定义1 设D表示所有领域集合,D={D1,D2,…,Dk},Di(1<=i<=k)代表某个领域。

定义2Di=<Oi,Roi>,Oi(1<=i<=k)代表Di中所有概念的集合,Roi代表Oi中概念之间关系的集合;

定义3 设O表示所有领域中概念的集合,Ro表示O中概念间关系的集合,则:

O=O1∪O2∪O3∪…∪Ok

Ro=Ro1∪Ro2∪Ro3 ∪…∪Rok

D=<O,Ro>

1.2 领域知识集(Dk)的形式化

领域知识集就是用于存放知识的实体,是结构化、易操作、易利用、全面、有组织的知识集,是针对某些特定领域问题求解的需要。目前,人们将知识集划分为三个层次,如图1所示。

领域知识集以领域概念集为基础,构建多个领域概念集合成后所产生的新事实和规则(关系如图2所示),以解决原来单个领域概念集无法解决的问题,同时领域知识集可以消除语义孤岛,实现知识共享和重用。例如领域Dn表示有关学校信息的概念集,领域Dm表示有关房产信息的概念集,如果某个用户想通过Web提供的信息作参考,租住或者购买学校附近的住房,就需要建立两个领域之间的关系,以解决复杂问题的查询,为用户提供方便,实现信息重用。

建立多个领域概念集之间的关系,是以领域概念集的概念为基础,采用多层次的描述方法,实现多领域之间知识的联系。

定义4 设x,y为领域概念集合Di和Dj的两个元素,H表示两个元素之间存在的关系,则形式化描述为:

∃x∃y(Di(x)∧Dj(y))→H(x,y)

总之,半结构化数据的形式化描述是实现“面向计算机”的前提,表明世界由对象和关系所构成。而且领域中术语的抽取是建立领域本体的第一步,对概念词汇的语义进行统一定义,以保证人们对它的理解一致,使得推理过程明确化。

2 领域本体构建

领域本体由领域专家完成概念化,并建立概念之间的关系,产生领域的形式化描述,也是计算机理解的基础,同时也为计算机自动添加概念提供依据。

2.1 领域概念的自动抽取

领域概念的抽取就是将问题求解所需的概念从外部领域源或Web资源中转换成计算机可以理解分析的过程,并以特定的方式存储这些概念。领域概念的抽取主要包括以下任务:

1) 对已有的概念进行理解、选择、抽取、汇集、分类和组织,转换成特定的形式;

2) 通过某种学习和推理机制,产生新概念;

3) 检查并消除概念的矛盾性和冗余性,保持概念的一致性和完整性约束。

对于已有概念的抽取,采用人工获取方式,过程如图3所示。例如由OCLC首倡的关于出版社方面定义的伯林核心(Dublin Core)元数据,包括提名Title、创建者Creator、日期Date、主题Subject、出版者Publisher、权限Rights、关联Relation、覆盖范围Coverage等十五个元素,目前已成为IETF RFC2413、ISO15836、CEN/ CWA13874、Z39.85、澳大利亚、丹麦、芬兰、英国等国家、国际标准。

对于不断涌现的新概念,则采用全自动的方式抽取,实现流程如图4所示。

在图4中,机器学习是最重要的部分,也是领域概念获取的核心。它首先以《知网》的语义原为基础进行分词,然后根据上下文特征、语法结构规则以及统计信息的权值,采用相似度算法计算相似性进行词义消岐,加大概念抽取的准确性,消除冗余。如图5所示。

(1) 词性标注。其主要功能是以《知网》语义原为基础,针对Web资源中的原始文本进行切分和词性标注。

(2) 关键词抽取。选择文本中具有代表性的概念以确定文本所属领域。

(3) 检查关键词在领域概念集中的相似度;如果存在与同一概念相似度均在85%以上,则表明其为同义词关系;如果相似度大于50%且小于85%,则需要根据其所对应的同义词进行二次匹配,确定是否添加到领域概念集;如果相似度均小于50%,则作为一个新概念,添加到领域概念集。

2.2 领域知识集的关系自动构建

在不同领域概念集中,针对关系集合的构建,提出了一种基于《知网》的词义相似度和相关度计算算法(如图6所示),使用概念之间的义原同现关系、义原关联关系和义原同位关系评价术语的语义相似性,建立概念之间的关系。关系主要有16种,包括:同义关系、反义关系、部分-整体关系、属性-宿主关系、材料-成品关系、工具-事件关系、值-属性关系、事件-角色关系等。

限于篇幅,下面仅给出词语相似度算法的计算步骤:

(1) 分别选取概念1和概念2的义原表达式dict1和dict2。

(2) 根据dict1和dict2来判断con1和con2的词性。

如果这两个概念中词性不同,比如一个为虚词概念,一个为实词概念,相似度Sim记为0;

如果两个概念都是实词,转到(3);

如果两个概念都是虚词,转到(4);

(3) 两个实词概念相似度的计算:

a) 从dict1和dict2中分别取出第一个义原,计算它们的相似度Sim1。

b) 把dict1和dict2中剩下的义原分别的分成三组:独立义原组、关系义原组和符号义原组。

c) 计算独立义原组的相似度Sim2。

d) 计算关系义原组的相似度Sim3。

e) 计算符号义原组的相似度Sim4。

f) 由公式,

$S i m (C o n_{1}, C o n_{2}) = \sum_{i = 1}^{4} β_{i} \prod_{j = 1}^{i} S i m_{j} (C o n_{1}, C o n_{2})$

得到两个实词的相似度Sim。其中,βi (1≤i≤4)是可调节的参数,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4。反映了从Sim1到Sim4对于总体相似度所起到的作用依次递减。

(4) 两个虚词之间概念相似度的计算:

a) 分别取出dict1和dict2中的第一个义原;

b) 如果一个是句法义原,一个是关系义原,Sim记为0;

c) 如果两个都是句法义原或者关系义原,查《知网》中义原表dict,得到这两个义原在义原层次体系中的路径长度d,是一个正整数;

d) 由公式:

$S i m (s e m d i c t_{1}, s e m d i c t_{2}) = \frac{α}{d + α}$

计算出这两个概念的相似度。其中α是一个可调节的参数。α的含义是:当两个义原的语义距离为0.5时的路径距离值。

3 实例验证及分析

3.1 实验环境及实例验证

文章的实验数据来自于Web资源上选取的图书领域的文档,将随机抽取本领域的资源来测试本文所提出的半结构化数据形式化描述方法的正确性。

在开发环境中,采用了Protégé首先构建了图书领域模型,从术语关系中抽取了概念的上下文特征、义原以及概念关系形特征,在测试环境中需要根据所抽取的领域信息来完善领域概念集,即在领域概念集中自动添加这部分的概念以及概念之间的关系,限于篇幅,下面仅给出部分领域关系构建的描述过程。

图书领域概念集的描述:

D1=< (书籍,书名,作者,出版社,价格),(E(书籍,书名),P(书籍,作者),P(书籍,出版社),P(书籍,价格))>

其中E表示等同关系,P表示属性关系。

执行步骤描述如下:

Step1 分析Web资源,完善领域概念集中的概念;

本文针对某购物网站的书籍信息进行了抽取,得到如下部分概念:定价,当当价,出版时间。

Step2计算概念之间的相似性的相关性,确定概念之间的关系。结合本文所给的词语相似度算法,获取到如下信息:

E(价格,定价),P(书籍,定价),P(书籍,当当价),P(书籍,出版时间)

Step3 利用本文所给出的相似度算法,去除掉冗余概念,完善领域概念集。具体描述如下:

D1=<(书籍,书名,作者,出版社,价格,当当价,出版时间),(E(书籍,书名),E(价格,定价),P(书籍,作者),P(书籍,出版社),P(书籍,价格)P(书籍,定价),P(书籍,当当价),P(书籍,出版时间))>

3.2 实验分析

本文提取了某购物网站的部分数据来验证算法的有效性。首先采用人工方式选取了实验数据中的概念和关系,即实际存在的概念(PAllConcept)1500个,实际存在的关系(PAllRaship)2000个;然后针对这些概念和关系,分别采用本文提出的半结构化数据抽取方法、基于自然语言处理方式的信息抽取方法、基于本体方式的信息抽取方法和基于包装器归纳方式的信息抽取方法来获取得到的概念和关系,即实际抽取的概念(EPConcept)和实际抽取的关系(EPRship);最后针对所抽取的内容进行分析比较,获取正确的抽取概念(EAConcept)和正确的抽取关系(EARship)。具体数据如表1所示。

为了验证半结构数据形式化描述的有效性和算法的正确性,本文针对以上人工方式抽取的数据,也分别采用了基于自然语言处理方式的信息抽取、基于本体方式的信息抽取和基于包装器归纳方式的信息抽取进行了算法验证,获取的数据如下描述。

本文采用召回率和准确率作为衡量方法的指标,定义如下:

准确率 $= \frac{抽出的正确信息数}{所有抽出的信息数}$

召回率 $= \frac{抽出的正确信息数}{所有正确的信息数}$

其中:召回率和准确率的取值范围为{0,1}。

抽出的正确信息数 = EAConcept + EARship;

所有抽取的信息数 = EPConcept + EPRship;

所有正确的信息数= PAllConcept+PAllRaship。

实验结果表明(见表2所示),本文所描述的方法能够达到比较不错的抽取效果,其准确率和召回率都比基于自然语言处理方式的信息抽取和基于本体方式的信息抽取要高。本文抽取方式在结合基于自然语言处理方式信息抽取和基于本体方式的信息抽取的优点中,添加了上下文特征、语法结构规则以及统计信息的权值,既能基本正确抽取半结构数据的概念,也能建立它们之间的关系,为半结构化数据集成奠定了基础。

4 结语

半结构化数据的描述及数据抽取是半结构化数据集成、检索的前提,它已经成为当前的研究热点,国内外学者也做了很多有益尝试,比如基于自然语言处理方式的信息抽取、基于包装器归纳方式的信息抽取、基于本体方式的信息抽取等,这些方法从某些方面都取得了一定的突破,但其抽取结果都一般。而本文提出的半结构数据描述方式以及数据抽取方式结合了上下文特征、语法结构和统计信息的权值,增大了信息抽取量,即提高了召回率和准确率。但是由于本文所提方式的实现过程都是基于Web文档的数据描述、数据抽取和文档的存储,降低了数据抽取的速度,这需要在今后的研究中做出更进一步的研究。

摘要：半结构化数据的形式化描述和信息抽取是解决用户查询和信息获取的核心问题。随着信息资源的多样化和快速膨胀,现有的描述和抽取方法存在召回率和查准率低等缺陷。为解决此问题,提出一种新的半结构数据形式化描述方法,重新定义领域概念集和领域知识集,并在此基础上给出领域概念集、领域知识集的构建过程,包括领域概念的自动抽取、领域知识集关系自动构建和相似度算法描述。实验结果表明,所提出的描述方法比现有方法具有更高召回率和查准率,具有很好的可行性和有效性。

关键词：半结构数据,形式化描述,领域概念集,领域知识集,数据抽取

参考文献

[1]孙霞,王小凤,董乐红,等.术语关系自动抽取方法研究[J].计算机科学,2010,37(2):189-191,215.

[2]Hassan A Sleiman,Rafael Corchuelo.A Reference Architecture to De-vise Web Information Extractors[J].Business Information Processing,2012,112(3,6):235-248.

[3]Qian Mo,Yi-hong Chen.Ontology-Based Web Information Extraction[J].Computer and Information Science,2012,288:118-126.

[4]Liu Jiagang,Chen Shan,He Lingya.A Web Information Extractor Basedon the Combination of Ontology and DOM[J].New Technology of Li-brary and Information Service,2009(5).

[5]Jia Sai,Qiao Hong.Ontology-Based Web Information Extraction andRealization of Its Ontology Construction[J].Research on Library Sci-ence,2011,9:31-35.

数据资源描述篇9

1. 数据的整理

初二 (1) 班班长收集了同学喜爱的电视节目的情况, 得到了如下数据:

利用表格整理上面数据如下:

【点评】一组杂乱无章的数据, 经过数据处理后, 容易看出某些变化、规律, 经过科学有效地分析, 便能给我们提供宝贵的依据和建议.

2. 数据的描述

为了更直观地看出上表中的信息, 我们还可以用条形统计图和扇形统计图来描述数据.如图1-1, 1-2所示:

扇形统计图:容易表示出一个对象在总体中所占的百分比;

条形统计图:可以表示出各种情况下各个项目的具体数目;

折线统计图:可以表现出同一对象的发展变化情况;

频数分布直方图:通过长方形的高代表对应组的频数与组距的比 (因为比是一个常数, 为了画图和看图方便, 通常直接用高表示频数) , 这样的统计图称为频数分布直方图.

3. 条形统计图与频数分布直方图之间的区别与联系

频数分布直方图是特殊的条形统计图, 条形统计图各个 “条形”之间都有间隙, 频数分布直方图各个“条形”之间没有间隙.

条形统计图用横向指标表示考察对象的类别, 用纵向指标表示不同对象的数量特征.

频数分布直方图用横向指标表示考察对象数据的变化范围, 用纵向指标表示相应范围内数据的频数.

何时用哪种图表, 应根据我们研究问题的侧重点来定, 具体问题具体分析.不要生搬硬套, 应多总结、提炼研究问题的思想和方法, 不要一味模仿.

4. 统计图的选用

例反映台州市某一周的最高气温的变化趋势, 宜采用 () .

A.条形统计图

B.扇形统计图

C.折线统计图

D. 频数分布直方图

【解析】四种统计图的特点:条形统计图能清楚地表示出每个项目的具体数目;扇形统计图能清楚地表示出各部分在总体中所占的百分比;折线统计图能清楚地反映事物的变化情况;频数分布直方图以及频数分布折线图能清晰地表示出收集或调查到的数据分布情况. 根据题意, 应选C.

数据资源描述篇10

1.为了解某校2016名学生的视力情况，从中抽取了150名学生检查视力。以下说法中正确的是（）。

A.150名学生是总体

B.每名学生的视力是个体

C.每名学生是样本

D.样本容量是150名

2.要反映郑州市一天内的气温变化情况，宜采用（）。

A.条形统计图 B.扇形统计图

C.折线统计图 D.频数分布直方图

3.中学生骑电动自行车上学给交通安全带来隐患。为了解某中学1950名学生的家长对“中学生骑电动自行车上学”的态度。小伟随机调查了300名学生的家长（每名学生对应一名家长），结果有270名家长持反对态度。对于此次调查，有下列说法：（1）该调查方式是抽样调查；（2）该校学生的家长中持反对态度的有270名；（3）样本是300名学生的家长对“中学生骑电动自行车上学”的态度；（4）参与调查的家长中约有90%的人持反对态度。其中错误的说法有（）。

A.1个 B.2个 C.3个 D.4个

4.表1是某公司200名职工的年龄分布表，其中36-42岁及50-56岁的人数因为被污染而无法看清。

若36～42岁及50～56岁的人数所占的百分比分别为m%和n%，则m+n的值为（）。

A.25 B.45 C.55 D.89

5.已知一个频数分布直方图中共有五个小长方形，且这五个小长方形的高度之比为3：5：4：2：3，第一小组的频数为18，则数据总数为（）。

A.68 B.85 C.92 D.102

6.某校组织400名七年级学生参加英语测试，为了解他们的测试成绩（满分120分），随机抽取若干名学生的成绩，整理后绘制成频数分布直方图（如下页图1），由图中的信息可估计该校七年级学生中英语测试成绩在100～120分范围内的有（）。

A.72名

B.60名 C.48名 D.34名

7.某市统计局统计了该市今年第一季度每月人均GDP的增长情况，并绘制了如下页图2所示的折线统计图。有下列结论：（1）1月份的人均GDP增长率最高；（2）2月份的人均GDP比1月份低；（3）这三个月的人均GDP都在增长。其中正确的结论是（）。

A.（1）（2） B.（1）（3）

C.（2）（3） D.（1）（2）（3）

8.王老师对某班学生进行电脑培训。并在培训前后分别进行了一次水平测试，以同一标准划分为不合格、合格、优秀三个等级，情况如表2。

根据统计表中的信息，下列说法中错误的是（）。

A.培训前成绩不合格的学生占80%

B.培训前成绩合格的学生人数是成绩优秀的学生人数的4倍

C.培训后80%的学生的成绩达到了合格或优秀

D.培训后优秀率提高了30%

二、细心填一填（每小题3分，共21分）

9.某公司生产三种型号的轿车。产量分别为1400辆、5600辆、3500辆。为了检验产品质量。现采取抽样调查的方法抽取60辆轿车进行检验，则这三种型号的轿车应分别抽取__辆、__辆、__辆。

10.王大爷为了估计自己的鱼塘里有多少条鱼。先捕100条鱼并标上记号，然后放回鱼塘里。过一段时间。待有记号的鱼完全混合在鱼群中后，再捕200条鱼，发现其中带记号的鱼有10条。由此可判断鱼塘中大约有

条鱼。

11.为了绘制频数分布直方图，应先将数据进行分组。现有一个样本，样本容量为80，最大值为141，最小值为50，取组距为10，则可分为__组。

12.某校组织师生为灾区群众捐款。七（3）班全体学生积极响应，纷纷捐出自己的零花钱。班主任李老师将学生的捐款情况统计后，得到表3（表中的x表示捐款额）。

由表中信息可知，七（3）班共有____名学生，m=__n=__。

13.对240个数据进行整理并绘制汁{频数分布直方图（各组的组距相等），测得图中所有表示频数的长方形的高之和为36 cm。其中最大的长方形的高为12 cm，则这个最大的长方形的高所表示的频数为____。

14.某校为了解中学生的体能情况。抽取若干名学生在规定时间内进行引体向上测试，将测得的数据整理后，画出频数分布直方图（如图3）。若在规定时间内做引体向上5次以上（含5次）为合格，则这次测试的合格率为

。

15.在社会实践活动中，小欢所在的小组给一家玩具厂组装玩具180套。这些玩具分为A、B、C三种型号，它们各自所占的百分比如下页图4，每人每小时组装各种型号玩具的数量如图5。（所有人组装相同型号玩具的速度都相同）

（1）B型玩具有____套。

（2）若每人组装A型玩具16套与组装C型玩具12套所用的时间相同。那么每人每小时能组装C型玩具__套。

三、用心做一做（共75分）

16.（8分）小乐要对全班学生完成数学家庭作业的方式与时间进行调查。为此。他设计了一个如表4所示的调查表，你认为这个调查表设计得合理吗？如果不合理。你会怎样调整？

17.（9分）某中学七年级共有12个班。为了解七年级学生一周内看电视所用的时间，小伟放学时在校门口调查了他认识的70名七年级学生。

（1）小伟的调查方式是抽样调查吗？

（2）如果是抽样调查，请分别指出调查的总体、个体、样本和样本容量。

（3）小伟的调查结果一定能反映七年级学生平均一周内看电视所用的时间吗？说明你的理由。

nlc202309091137

18.（9分）某中学举办了演讲、书法、作文、手抄报、小制作、漫画等六项比赛（每名学生限报一项），学生参赛情况如表5（不完整）。

根据表中的信息解答下列问题。

（1）将统计表补充完整。

（2）本次参加比赛的学生一共有__名。参加人数最多的比赛项目是____。

（3）手抄报项目和漫画项目的获奖人数分别是9，3，小华认为手抄报项目比漫画项目获奖率高，你同意这种说法吗？简述你的理由。

19.（9分）为了解七年级900名学生一年内的课外阅读量，小刚从中随机抽取部分学生进行了问卷调查，调查的结果分为四种情况：A.10本以下；B.10～15本；C.16～20本：D.20本以上。他根据调查结果绘制了表6和图6。

根据图表中的信息解答下列问题。

（1）在统计表中，x=____，y=____。

（2）在扇形统计图中，C部分对应的扇形的圆心角的大小为____。

（3）根据抽样调查结果，估计七年级学生一年内阅读课外书20本以上的大约有多少名。

20.（9分）某市把中学生的自我调控能力分为四个等级。A级：自我调控能力很强：B级：自我调控能力较好；C级：自我调控能力一般；D级：自我调控能力较差。通过对该市农村学校初中生的自我调控能力进行随机抽样调查，绘制出如下页图7、图8所示的两幅不完整的统计图。

根据图中的信息解答下列问题。

（1）在这次抽样调查中，一共抽查了多少名学生？

（2）请补全条形统计图。

（3）请估计该市农村学校60 000名初中生中自我调控能力为B级及以上的有多少名。

21.（10分）某中学以“我最喜爱的一类书”为主题。对学生最喜爱的书籍类型进行随机抽样调查，收集、整理数据后，绘制出如图9、图10所示的两幅统计图（均不完整）。

根据图中的信息解答下列问题。

（1）在这次抽样调查中，一共调查了多少名学生？

（2）请补全折线统计图。

（3）求出扇形统计图中“科普”对应的扇形的圆心角的大小。

（4）如果这所中学有2100名学生，请估计最喜爱体育类书籍的学生有多少名。

22.（10分）4月23日是“世界读书日”，某校开展“让书香溢满校园”读书活动。以提升青少年的阅读兴趣。七（1）班数学活动小组对七年级600名学生每天的阅读时间进行统计，并根据所得数据绘制了七（1）班学生每天阅读时间频数分布直方图（如图11，不完整）和其他班学生每天阅读时间扇形统计图（如图12，不完整），两幅图中每组均只含最小值而不含最大值。

若七（1）班每天阅读时间在0.5 h以内的学生人数占全班学生总人数的8%，根据图中的信息解答下列问题。

（1）请补全直方图。

（2）除七（1）班外，七年级其他班每天阅读时间在1～1.5 h范围内的学生有165名。请补全扇形统计图。

（3）七年级学生中每天阅读时间不少于1h的有多少名？

23.（11分）为了让更多的失学儿童重返校园，某社区组织了“献爱心，手拉手”捐款活动，该社区每户居民都积极捐款。在对社区部分居民的捐款情况进行调查和分组统计后。绘制出表7（表中的x表示捐款额）和图13、图14（均不完整），已知A，B两组捐款户数之比为1：5。

根据图表中的信息解答下列问题。

（1）在统计表中，a=__。本次调查的样本容量是__。

（2）请补全表7和图13。

（3）若该社区共有1800户居民，请估计该社区捐款不少于150元的有多少户。

（参考答案在本期找）

数据资源描述篇11

在分子生物学领域,理解转录调控机制是后基因组时代重大挑战之一。达到这一目标的重要步骤是转录因子结合位点TFBS(Transcription Factor Binding Sites)的识别。转录因子结合位点是基因上游启动子区域长度为5～15bp的短序列片段,被转录因子结合以调控下游基因。通过生物学试验检测TFBS的方法由于开销大、耗时长等缺点,不适合处理海量数据。因此,越来越多的计算识别方法被提出用于初选待测位点。通常一个转录因子结合位点可以被一个或多个转录因子结合,而相关研究表明这种结合具有较高的特异性。因此,在计算分子生物学领域,TFBS的识别问题可视为一个多类别模式分类问题,即给定一个未知样本,判定它可能被那一类或哪几类转录因子结合。

目前,基于核方法和正则化理论的机器学习分类算法是最常用的方法之一,也是统计学习理论SLT(Statistical learning theory)的核心内容[1,2]。SVM作为经典的分类算法,基于VC维理论和结构风险最小化原理,克服了传统机器学习分类算法维数灾难、陷入局部最优解、过拟合等缺陷,对未知样本具有良好的泛化性能,因此被广泛应用于模式识别、文本分类、生物信息学、信息安全等诸多领域。

传统SVM主要用于解决二分类问题。近年来提出的多分类SVM作为原始SVM的扩展,是将多分类问题分解为多个两分类问题,忽略了类别间的联系。其中,“一对多”策略采用了一个正负类不平衡的训练集,建立的每个二分类器负样本数远大于正样本。另外,现有的多分类SVM不适用于只包含正样本集的情况,而TFBS负样本集无法构造。因此,利用现有的多分类SVM处理TFBS识别问题并不恰当,需要设计一个能直接用于多类样本集的多分类器。

基于正则化理论建立的分类器的结构风险通常由两部分控制:经验风险(训练误差)和置信界。以二分类问题为例,一个规范超平面构成的指示函数集:

h(x)=sgn[(w·x)+b] (1)

的VC维h满足:

h≤min([R2A2],n)+1 (2)

其中,sgn[·]为符号函数,n为向量空间的维数,R为覆盖样本向量的超球半径,‖w‖≤A。通过式(2)不难发现,一定程度上减小R2,能使VC维的上界h减小,从而降低学习机的复杂性,以提高预测函数的泛化能力。这正是数据域描述模型的基本思想。数据域描述是对数据集所在的类别进行描述,拒绝可能来自其他类的数据[9,10]。本文在最新的多任务学习理论基础上将数据域描述问题拓展到多类的情况,并用于解决TFBS识别问题,从整体上对来自所有类别的样本同时学习,同时捕获类别之间的联系。

SVM采用的hinge损失函数对孤立点和噪声都是较敏感的,即对离群点不具有鲁棒性。本文根据训练样本的置信度不同,在惩罚项中引入模糊成员函数以区别对待,对置信度大的样本给予充分重视,相反(很可能是噪声点)则限制其作用。

基于核方法的机器学习算法的核心问题是核函数的选择,因其很大程度上影响分类器的性能。先前基于核方法的生物实体识别算法通常采用0-1编码的多项式核,显然不适合长度不规则的生物序列。本文采用基于编辑距离的字符串核来度量TFBS之间的相似性,以更好地比较序列间的相似性。

1相关工作

在计算分子生物学领域,常见的TFBS识别方法是通过从海量基因序列中寻找超频词(over-represented N-mers)来发现特定模式。代表性的算法有MEME[27]、Gibbs sampling[28]。实验表明对于位点进化较保守的物种(如酵母、果蝇等)有很好的识别效果,而对于位点进化相对不保守的脊椎动物(如人、大鼠、小鼠等),效果通常不尽人意[29]。另一种是采用支持向量机、人工神经网络等机器学习分类算法。文献[11]提出了基于数据域描述的一类SVM (One-Class SVM:OSVM)用于高维分布区域估计。文献[12]采用OSVM用于顺势调控元件判别。该方法分别对每类数据进行建模,没有从整个数据集出发,考虑不同类转录因子之间的联系。另外,采用0-1编码的核函数不适合长度不规则的TFBS序列。文献[3]结合SVM和ECOC算法实现了转录因子的四分类问题。通过构建4个二分类SVM对各个类别的转录因子独立地进行训练和分类,然后对分类结果进行综合判别,好处是能够直接利用现有的二分类SVM,缺点是不能对整个数据集同时学习,未考虑类间联系。近年来,多任务学习已成为机器学习领域的一个研究热点。文献[16,17]中提出了一个基于统计学习和函数正则化的多任务学习理论框架,通过新的正则化因子对不同的任务同时学习,捕获类间联系。本文在此基础上建立多数据域描述模型并用于解决TFBS识别问题。

最近几年研究者相继提出了一系列核函数用于生物实体分类[21,22,23,24,25],其共同的目标是寻找一种有效的相似性度量。本文采用基于编辑距离的字符串核以更好度量TFBS序列的相似性。

2多任务学习模糊样本集

本节首先简要回顾在Hilbert空间中利用核函数和正则化进行多任务的学习方法,更多细节请参见文献[1,13,14,15,16]。然后定义多任务学习模糊样本集。

在标准的单任务学习中,给定包含n个样本的样本集X={(xi,yi):i∈ℕn}⊂X×Y,假设这些样本是独立同分布的,来自同一个X×Y上的未知概率分布P。学习的目标是获得一个有较小的期望风险E[L(y,f(x))]预测函数f。设L为预定义的损失函数,如标准二分类SVM的hinge损失函数:(1-yif(xi))+。一个常见解法是基于SLT和Tikhonov正则化,即最小化下列风险泛函:

$R_{Τ} (f) = \frac{1}{n} \sum_{i \in ℕ_{n}} L (y_{i}, f (x_{i})) + γ ∥ f ∥_{Κ}^{2}$ (3)

其中‖f‖ $_{Κ}^{2}$ 对应f在Hilbert空间某一子空间HK中的范数,用来度量假设空间的复杂度。参数γ为正则化参数,用来权衡训练误差和假设空间的复杂度。可以证明,式(3) 的解可表示为:

$f (x) = \sum_{i \in ℕ_{n}} c_{i} k (x_{i}, x)$ (4)

其中{ci}是一个实值参数集,k(·,·)是核函数,在Hilbert空间中具有再生性。

Evgeniou和Micchelli在Tikhonov正则化的基础上将单任务学习拓展到多任务的情况,提出了基于SLT和正则化的多任务学习正则化泛函[16]。假设一共有m个任务,第l个任务包含nl个样本点,输入空间Xl=ℝd,l∈ℕm。为估计参数向量u=(ul:l∈ℕm)∈ℝmd,通过最小化下列泛函:

R(u): $= \frac{1}{m n} \sum_{l \in ℕ_{m}} \sum_{i \in ℕ_{n_{l}}} L (y_{i l}, u^{'} x_{i l}) + γ J (u)$ (5)

其中,L为预定义的损失函数,γ为一参数,用于控制两个指标的权衡。J(u)是正则化因子。多任务学习的目标是从这些样本中同时学习所有m个任务的预测函数fl(x)=u $_{l}^{Τ}$ x。针对TFBS识别问题,本文仅讨论各任务输入空间相同的情况,即X1=X2=…=Xm。在后续工作中,我们将讨论输入空间不一致的情况。下面引入Zadeh提出模糊子集的概念[17,18],定义多任务学习模糊样本集。

定义1 模糊子集设X是一个论域,给出映射μ:X→[0,1],xμA(x)则μ确定X的一个模糊子集 $\tilde{A}$ 。μ(x)称为X对 $\tilde{A}$ 的隶属度。全体X的模糊子集组成的集合记为F (X),称为X的模糊幂集。

定义2 多任务学习模糊样本集假设共有m个任务(或m个类),第l个任务包含nl个样本,用Al $\in F$ (X)表示。为第l个任务的每个样本点xil赋予一个隶属度,记为 $\overset{⌢}{s_{i l}}$ 。这样,第l个任务的模糊样本集可表示为 $\overset{⌢}{A_{l}} = {(x_{1 l}, \overset{⌢}{s_{1 l}}), \dots, (x_{n_{l} l}, \overset{⌢}{s_{n_{l} l}})} \subset ℝ^{d} \times [0, 1]$ ,其中 $\overset{⌢}{s_{i l}} \in [0, 1]$ 。若规定 $\overset{⌢}{s_{i l}} \in {0, 1}$ ,则不允许样本带有不确定信息。

需要指出引入模糊样本的主要目的是利用样本点的先验不确定信息增强损失函数对离群点的鲁棒性,原则上并不违背统计学习理论。

3基于多数据域描述的TFBS识别

本节讨论在多任务学习理论的基础上建立一个多数据域描述模型MDMH(Multiple Data Domain Description by Multiple Hyperspheres),并结合核方法用于转录因子结合位点识别问题。

3.1多数据域描述模型

借助定义2,引入被赋予隶属度的模糊样本集。对于一个m类数据域描述问题,试图用m个超球覆盖来自m类的训练数据,每个超球包含来自训练数据的一类子集。训练的目标是同时寻找所有m个超球面的球心c和半径R,并且最小化R。一种常见的做法是分别对每类样本数据分别建立相应的数据域描述[20],缺点是没有从样本集整体上考虑,忽略了类间联系,不能充分地利用样本集。为此,本文建立的多数据域描述对所有类别的样本同时学习并获得所有类的域描述,这样既能充分利用所有类别的已知样本,同时又一定程度上考虑了类别之间的联系。

定义3 多数据域描述模型假设有m类数据样本,第l类包含nl个样本点,样本总数记为 $n = \sum_{l \in ℕ_{m}} n_{l}$ 。第l类模糊样本集记为 $\overset{⌢}{A_{l}} = {(x_{1 l}, \overset{⌢}{s_{1 l}}), \dots, (x_{n_{l} l}, \overset{⌢}{s_{n_{l} l}})}$ ,其中 $\overset{⌢}{s_{i l}} \in [0, 1]$ 。假设这些样本独立同分布,来自Xl×Yl上的一个联合概率分布P。则MDMH 模型表示为:

fl=g(x|Rl,cl) (6)

其中,g(·)是模型,定义一个超球假设类。覆盖第l类(l∈ℕm)样本的超球可用一般距离空间中的一个闭球描述,即BRl(xcl)={x∈Xl:d(x,cl)≤Rl}。其中x是输入,Rl和cl是第l类的参数,示例了假设类中的一个假设。下面的定义给出求解MDMH模型的最优化问题。

定义4 MDMH优化问题假设有m类数据样本,所有样本点构成的全体记作 $X = \underset{l \in ℕ_{m}}{\cup} X_{l}$ ,代表原始输入对象的全空间。设H为Hilbert空间,(·,·)是其上的内积。‖·‖为Hilbert空间H的一个范数, $\forall x \in Η ‚ ∥ x ∥ = \sqrt{(x, x)}$ 。通过适当的特征映射φ:XlH,将原始空间中的样本点映射到Hilbert空间H。这样,MDMH模型的优化过程定义为求解下列具有不等式约束的优化问题:

min1m∑l∈ℕmR2l+1nv∑l∈ℕm∑i∈ℕnlsilξil

s.t. ‖ϕ(xil)-cl‖2≤R2l+ξil

ξil≥0 Rl≥0 (7)

其中Rl、cl分别为第l个超球的半径和球心,ξil为松弛变量,v为惩罚因子, 其作用为平衡超球面的大小和落于超球外异常点的数量。显然,这是一个具有不等式约束的非线性规划问题,其目标函数和不等式约束条件都是二次的。下面的定理给出原始最优化问题式(7)的对偶问题,将非线性不等式约束转化为线性等式约束,将原问题转化为一个二次凸规划问题求解。

定理1 MDMH的原始最优化问题式(7)的对偶问题是求解下列二次规划问题:

$\begin{array}{l} m a x {\sum_{l \in ℕ_{m}} \sum_{i \in ℕ_{n_{l}}} α_{i l} ∥ ϕ (x_{i l}) ∥^{2} - m \sum_{l \in ℕ_{m}} \sum_{i \in ℕ_{n_{l}}} \sum_{j \in ℕ_{n_{l}}} α_{i l} α_{j l} (ϕ (x_{i l}), ϕ (x_{j l}))} \\ s . t . \sum_{i \in ℕ_{n_{l}}} α_{i l} = \frac{1}{m} 0 \leq α_{i l} \leq \frac{\overset{⌢}{s_{i l}}}{n v} (i \in ℕ_{n_{l}}, l \in ℕ_{m}) (8) \end{array}$

显然,式(7)的最优解应满库恩-塔克必要条件,即:

αil(R2l+ξil-‖ϕ(xil)-cl‖2)=0

βilξil=0 αil≥0 βil≥0 (9)

证明首先引入式(7)的Lagrange函数:

$\begin{array}{l} L (R_{l}, c_{l}, ξ; α, β) = \frac{1}{m} \sum_{l \in ℕ_{m}} R_{l}^{2} + \frac{1}{n v} \sum_{l \in ℕ_{m}} \sum_{i \in ℕ_{n_{l}}} \overset{⌢}{s_{i l}} ξ_{i l} - \\ \sum_{l \in ℕ_{m}} \sum_{i \in ℕ_{n_{l}}} α_{i l} (R_{l}^{2} + ξ_{i l} - ∥ ϕ (x_{i l}) - c_{l} ∥^{2}) - \\ \sum_{l \in ℕ_{m}} \sum_{i \in ℕ_{n_{l}}} β_{i l} ξ_{i l} (10) \end{array}$

其中α=(α11,…,αil,…,αnmm)T,β=(β11,…,βil,…,βnmm)T为Lagrange乘子。根据Wolfe对偶的定义,分别求Lagrange函数式(10)关于Rl,cl,ξil的极小点。由极值条件得:

∂L∂Rl=2

mRl-2Rl∑i∈ℕnαil=0

∂L∂cl=∑i∈ℕnlαil(ϕ(xil)-cl)=0

∂L∂ξil=sil

nv-αil-βil=0 (11)

即

$\sum_{i \in ℕ_{n_{l}}} α_{i l} = \frac{1}{m}$ (12)

$c_{l} = m \sum_{i \in ℕ_{n_{l}}} α_{i l} ϕ (x_{i l})$ (13)

$β_{i l} = \frac{\overset{⌢}{s_{i l}}}{n v} - α_{i l}$ (14)

将式(12-14)代入Lagrange函数式(10),得证。

第l个超球的半径Rl可通过位于其球面上的样本点(记yl)求解,满足:

R $_{l}^{2}$ =‖ϕ(yl)-cl‖2(l∈ℕm) (15)

下面说明如何寻找位于超球面上的点。

定理2 设式(8)是MDMH原始优化问题(7)的对偶问题,定义 $x_{s u r f}^{(l)} = {x_{i l} : 0 < α_{i l} < \frac{\overset{⌢}{s_{i l}}}{n v}; x_{i l} \in X_{l}, i \in ℕ_{n j}}$ ,则对任意x∈x $_{s u r f}^{(l)}$ 是位于第l个超球面上的点,成立R $_{l}^{2}$ =‖ϕ(xil-cl‖2。

证明当 $0 < α_{i l} < \frac{\overset{⌢}{s_{i l}}}{n v}$ 时,有 $β_{i l} = \frac{\overset{⌢}{s_{i l}}}{n v} - α_{i l} > 0$ 。由库恩—塔克必要条件式(9)的αil(R $_{l}^{2}$ +ξil-‖ϕ(xil)-cl‖2)=0知:R $_{l}^{2}$ +ξil-‖ϕ(xil)-cl‖2=0。再由βilξil=0和βil>0,得ξil=0,从而R $_{l}^{2}$ =‖ϕ(xil)-cl‖2。

设yl为满足定理2的位于第l个超球面上的任意一点,l∈ℕm,将式(13)代入式(15),得到:

$\begin{array}{l} R_{l}^{2} = ∥ ϕ (y_{l}) ∥^{2} - 2 m \sum_{i \in ℕ_{n_{l}}} α_{i l} (ϕ (y_{l}), φ (x_{i l})) + \\ m^{2} \sum_{i \in ℕ_{n_{l}}} \sum_{j \in ℕ_{n_{l}}} α_{i l} α_{j l} (ϕ (x_{i l}), ϕ (x_{j l})) (16) \end{array}$

对于测试数据x,MDMH的第l类判别式为:

$f_{l} = \frac{R_{l}^{2} - ∥ ϕ (x) - c_{l} ∥^{2}}{R_{l}^{2}} = 1 - \frac{∥ ϕ (x) - c_{l} ∥^{2}}{R_{l}^{2}} (17)$

其中,

$\begin{array}{l} ∥ ϕ (x) - c_{l} ∥^{2} = ∥ ϕ (x) ∥^{2} - 2 m \sum_{i \in ℕ_{n_{l}}} α_{i l} (ϕ (x), ϕ (x_{i l})) + \\ m^{2} \sum_{i \in ℕ_{n_{l}}} \sum_{j \in ℕ_{n_{l}}} α_{i l} α_{j l} (ϕ (x_{i l}), ϕ (x_{j l})) (18) \end{array}$

通过引入核函数k(x,y)=(ϕ(x),ϕ(y)),MDMH的最优化问题式(8)变为:

max∑l∈ℕm∑i∈ℕnlαilk(xil,xil)-m∑l∈ℕm∑i∈ℕnl∑j∈ℕnlαilαjlk(xil,xjl)

s.t. ∑i∈ℕnlαil=1m 0≤αil≤silnv(i∈ℕnl,l∈ℕm) (19)

对于测试数据x,MDMH的第l类判别式(17)变为:

$\begin{array}{l} f_{l} = \frac{R_{l}^{2} - ∥ ϕ (x) - c_{l} ∥^{2}}{R_{l}^{2}} = 1 - \frac{∥ ϕ (x) - c_{l} ∥^{2}}{R_{l}^{2}} \\ = 1 - \frac{k (x, x) - 2 m \sum_{i \in ℕ_{n_{l}}} α_{i l} k (x, x_{i l}) + m^{2} \sum_{i \in ℕ_{n_{l}}} \sum_{j \in ℕ_{n_{l}}} α_{i l} α_{j l} k (x_{i l}, x_{j l})}{k (y_{l}, y_{l}) - 2 m \sum_{i \in ℕ_{n_{l}}} α_{i l} k (y_{l}, x_{i l}) + m^{2} \sum_{i \in ℕ_{n_{l}}} \sum_{j \in ℕ_{n_{l}}} α_{i l} α_{j l} k (x_{i l}, x_{j l})} (20) \end{array}$

对于多分类问题,最常见的情形是判别测试样本x最可能所属的类别,通过求:

$f (x) = \arg \max_{l} f_{l} (x$ ;Rl,cl) (21)

另一种情形是预先设定一个阈值λ,大于这个阈值的判别为样本所属的类,可通过求下面的截集得到:

fλ={l: fl(x)>λ,l∈ℕm} (22)

还有一种情形是希望将测试样本x判为最有可能的N(N∈ℕm)个类别。记 $f_{\min} = \inf_{l \in ℕ_{m}} {f_{l}} ‚ f_{\max} = \sup_{l \in ℕ_{m}} {f_{l}}$ ,则x所属的N个类别为:

fN={l:#{fl(x)≥μ}=N,∃μ∈[fmin,fmax],l∈ℕm} (23)

3.2基于多数据域描述的TFBS识别

如前所述,TFBS的识别问题可看作是一个多分类问题。根据定义,TFBS在计算机中可表示为由字母表Σ={A,G,C,T}构成的一定长度的字符串。设x,y分别为两个待比较的TFBS序列片段,记x=x1x2…xm,y=y1y2…yn(xi,yi∈Σ),长度分别为|x|=m,|y|=n,(m,n∈ℕ+)。令ε代表空串,由Σ组成的所有字符串的全体记为: $X = {ε} \cup \cup_{n = 1}^{\infty} Σ^{n}$ ,构成TFBS序列的输入空间。

定义如下基于编辑距离的字符串核作为学习机的核函数:

k(x,y)=exp{-β·Edit(x,y)} (24)

其中Edit(x,y)代表x和y的编辑距离。β为一参数,为避免Gram矩阵强对角占优,需根据具体的应用选取β值,本文实验中取β=0.2。显然,x与y越相似,k(x,y)的值越大。

通过以上输入空间和核函数的定义,利用式(19)对数据库中的TFBS样本进行学习获得多数据域描述,根据式(21-23)对测试样本进行分类。下面在真实数据集上验证方法的有效性。

4实验方法与结果讨论

4.1实验数据

本文从最新的TRANSFAC数据库(Release 9.4)[26]中取出50组脊椎动物转录因子结合位点作为样本集,均为权威机构通过生物学实验验证获得的真实数据。选取的原则是尽可能使位点的长度和每组位点数分布均匀,忽略长度在5～15bp以外的位点(很可能是噪声)。该数据集的一般性描述统计如表1所示。

4.2实验结果

本实验的具体环境为一台运行Windows XP的PC机,具有Pentium Centrino Duo 1.83G 双核CPU和2G内存。所有代码用MATLAB实现。

实验分5组进行,第1组的训练样本来自前10类,记为M-10;第2组来自前20类(M-20);第3组前30类(M-30);第4组则包含所有50个类的样本(M-50)。以上第1～4组实验的测试样本均来自前10个类。第5组实验的训练样本和测试样本均来自前10个类,采用One-class SVM(即模型中取m=1的情况,不考虑类间联系),并同前4组实验进行比较。我们采用交叉验证来测试算法的性能:每次取第l(l∈ℕm)类的一个样本作为测试样本,剩余的nl-1个样本和其他m-1类的所有样本作为训练样本,反复进行直到所有类别的样本测试完毕。算法的性能度量采用生物信息学中常用的三个指标:敏感性(Sensitivity)、特异性(Specificity)和F-measure,其中F-measure通过下式计算:

$F - m e a s u r e = \frac{2 \times S e n s i t i v i t y \times S p e c i f i c i t y}{S e n s i t i v i t y + S p e c i f i c i t y}$ (25)

以上5组实验独立进行,对每组实验分别得出上述3个性能指标。表2给出了5组实验的性能指标均值。

实验结果表明,MDMH模型能有效地应用于TFBS识别问题。当样本包含的类别数较少时(如:m=10),基于MDMH的TFBS识别方法性能略低于One-class SVM方法。但随着训练集包含的类别数的增加,MDMH方法的预测准确率有不断提高的趋势,当m=50时,预测准确率达到88%,明显高于One-class SVM。这表明当训练集包含足够多类别的样本时,MDMH能充分利用来自所有类别的训练样本,有效地捕获多类别间的联系,提高预测准确率。

5结语

本文建立了一个基于多任务学习理论的多数据域描述模型:MDMH,并在此基础上设计了一个转录因子结合位点识别算法,从整体上对所有类别的样本同时学习,充分地利用了数量有限的已知样本,同时考虑了类别间的联系。针对生物序列的特点,采用基于编辑距离的字符串核来度量TFBS之间的相似性。实验获得了较高的预测准确率。

在后续工作中,我们将对多任务学习理论进行完善,考虑不同任务可能对应异构输入空间的情形。另外,本文假设数据样本是独立同分布的,对解决一些实际问题有局限性,因此需要考虑如何解除这个限制条件。其次,我们将从计算学习理论的角度出发,给出一般多数据域描述模型泛化错误的界。对于不同种类的多任务联系,考虑如何定义多任务核函数和改进正则化因子以更好地捕获类间联系。再者,需要从计算代价上降低多任务学习求解过程的复杂度或设计并行算法以适应大数据量或实时系统。最后,针对TFBS识别问题,我们将引入更多有效的生物学先验知识以提高预测效果,设计增量学习算法以适应生物数据库快速增长的需求。

【数据资源描述】推荐阅读：

数据资源安全07-24

资源数据库06-27

工艺数据描述05-15

数据岗位描述06-06

数据资源共享共建是基层馆藏建设的必由之路08-02

金融数据分析师的工作职责描述08-01

>> 查看更多相关文档