数据变异

2024-09-27

数据变异（精选3篇）

数据变异篇1

土壤水分空间变异的研究对于高效监测土壤水分动态变化、改善农业灌溉决策管理和提高农业用水效率有重要的意义。Herbst等[1]分析德国一小尺度田块(0.29km2)0~20cm土层土壤水分的空间变异,并用10 m×20 m的网格在1hm2的田块内取样,发现土壤含水率变异函数符合球状模型,其变程约为53.8m。Brocca等[2,3]在100m×50m和110m×80m的网格中取样,分析了0~150cm深度的土壤水分空间变异性,认为变异函数符合指数模型,变异系数分别为11%~20%和11% ~16%,其变程约为10~15 m。张淑娟等[4]在13.3hm2的区域内用50m×50m的网格取样,分析冬小麦褐土0~20cm深度内土壤水分的空间变异,发现变异函数符合球状模型,变异系数约为15.11%,变程为246.8m。目前国内外对中小尺度区域的土壤水分空间变异性进行了大量的研究[5,6],然而对大尺度区域土壤水分空间变异性研究却鲜有涉及,这主要是因为获取墒情的传统方法一般为手工或半自动的方法,只能获取点或者小范围的墒情信息,而对于尺度较大的研究区域,大范围的墒情采集存在着较大的难度,对于这一问题,卫星遥感技术的发展为大范围的土壤墒情采集提供了可能。遥感影像能够反映地物目标电磁辐射特性的能量分布,它能够将地表的信息特征客观、真实、连续地记录下来[7]。近年来,MODIS和TM等高分辨率数据被越来越多的应用于土壤水分信息的提取。Modis是搭载在Earth Observation System(包括Terra和Aqua)卫星上的一个重要的传感器,具有较高的时间分辨率和空间分辨率,因此本文以Modis数据为研究对象,结合实测含水率数据,运用植被供水指数法[8,9,10,11]构建土壤水分遥感模型,进而得到沧州地区整体的土壤墒情状况,并以此为基础,运用经典统计学和地统计学理论研究不同尺度下的土壤水分空间变异规律,对于提高农田墒情信息的采集效率具有重要意义。

1 研究区概况与数据来源

(1)研究区概况。本文以河北省沧州市为研究区域,地理坐标北纬37°29′~38°57′,东经115°42′~117°50′,总面积约为1.4万km2,全境年平均干燥度1.2~1.5。由于季风气候的影响,年降水量约为400~500 mm,年平均水面蒸发量1 500~1 800mm,主要集中在夏季(七八月份)。研究区域光热资源丰富,多年平均日照时间2 318h,太阳总辐射2 342.1kJ/cm2,年积温大于4 300 ℃。

(2)数据来源。本文所需要的MODIS数据从http:∥lad-sweb.nascom.nasa.gov/data/search.html网站下载,选用的数据为MODIS数据的2级产品:MODIS 1B数据影像产品。实测土壤含水率采集于沧县、盐山、献县、南皮、青县、河间、泊头等7个县市,土样采集时间尽量与卫星过境时间同步,每个采样点分两层取土,采样深度分别为0~20、20~40cm。

2 研究方法

2.1 植被供水指数

植被指数(Vegetation Index)是指能够反映绿色植物分布和生长状况的特征指数[12],植被供水指数与土壤水分状况存在着十分密切的关系,当植被供水正常时,植被指数在一定的生长期内保持在一定的范围;如遇干旱,植被供水不足,植被供水指数会因为植被生长受到抑制而降低。在计算植被指数时,常选用近红外波段和可见光波段,因为该波段对植被指数最为敏感。本文利用第1、2、31、32等波段值计算植被供水指数:

式中:VSWI是植被供水指数;NDVI是归一化植被指数;Ts是植被冠层温度,℃;ρ1、ρ2分别为MODIS第1、2波段反射率。

利用遥感得到的植被供水指数,可以通过统计分析软件SPSS,建立植被指数与实测土壤水分之间的关系模型,进而估算墒情。

2.2 墒情采集

在通过遥感得到沧州地区墒情的基础上,选取面积为4.5km×4.5km、18km×18km、56km×56km的区域进行墒情信息的采集。对于面积为4.5km×4.5km的区域,在该尺度区域内内嵌250m×250m的网格进行取样,取点324个。在面积为18km×18km的区域内内嵌1km×1km的网格取样,取点324个。在面积为56km×56km的区域内内嵌4km×4km的网格取样,取点196个。上述3种取样尺度分别对应小、中、大尺度。

2.3 数据处理及分析

采用ENVY软件对MODIS数据进行处理,通过SPSS 13.0软件构建植被供水指数与实测土壤含水率之间的关系模型。运用GS +7.0软件对遥感得到的研究区域内的土壤含水率进行空间变异性分析,并使用Arcgis10.0软件的地统计分析模块对研究区域内的土壤含水率进行普通克里格插值,在得到土壤含水率分布图的基础上确定研究区域内土壤水分监测点的合理取样数目,进而为确定土壤墒情监测点的合理布设提供一定的理论和基础。

3 结果分析

3.1 植被供水指数-土壤含水率模型

利用SPSS软件将地面采集到的0~20、20~40cm深度处的土壤含水率(体积)数据与遥感数据计算得到的植被供水指数进行拟合,绘制植被供水指数(VSWI)与0~20、20~40cm深度处的实测土壤含水率的关系散点图(见图1和图2),并对二者进行相关分析,构建植被供水指数- 土壤含水率模型,见表1和表2。在模型的构建过程中,为便于分析,将植被供水指数VSWI放大10 000 倍,土壤体积含水率以百分比的形式表示。

由表1、表2植被供水指数与0~20、20~40cm深度处土壤含水率所构建的模型可知,以上各模型均通过了置信度为0.001的F检验,表现出了极显著的相关性,并且均有较高的相关系数值,其中线性模型使植被供水指数与0~20cm深度处土壤含水率的拟合程度达到最好,相关系数R2为0.621。幂函数模型使植被供水指数与20~40cm深度处的土壤含水率的拟合程度达到最好,相关系数R2为0.642。本研究中植被供水指数与0~20 、20~40cm深度处的土壤含水率的相关性较为显著,与之建立的相关模型的精度较高,故可以利用植被供水指数-土壤含水率模型对0~20 、20~40cm深度处的土壤含水率进行评估并计算得到整个研究区域0~20、20~40cm深度处土壤含水率。在此基础上对土壤含水率进行基于专家知识的决策树分类,绘制出0~20、20~40cm深度处土壤水分的分布状况,分别如图3和图4所示。

3.2 土壤水分的统计分析

对不同尺度下0~20、20~40cm深度处的土壤含水率进行统计分析,其土壤含水率统计特征值见表3。

土壤含水率的变异系数反映了各个区域内土壤含水率样本的离散特征。一般将变异系数小于0.1时定义为弱变异性,将变异系数大于0.1且小于1.0时定义为中等变异性,将变异系数大于1.0时定义为强变异性[13]。由表3可知不同尺度下0~20cm深度处土壤含水率均表现为中等变异性,其中小尺度下的土壤含水率的变异系数最小,中尺度次之,大尺度变异系数最大。而对于20~40cm深度土壤含水率,小尺度下的土壤含水率表现为弱变异性,而中尺度及大尺度的土壤含水率均表现为中等变异性,其中大尺度的变异系数最大。由此可见随着研究尺度的增大,变异系数随之增大。这主要是因为在面积较小的区域内,土壤含水率之间的相关关系较强。而随着研究尺度(研究区域面积、采样间距)的增大,土壤含水率之间的相关关系逐渐减弱,变异性逐渐增强。此外,所有尺度的土壤含水率均表现弱变异性或中等变异性,可能是因为此时整个沧州地区土壤含水率处于相对较低的水平,导致其变异性减弱。

3.3 土壤水分的空间变异性分析

土壤水分的空间变异性不单服从经典统计学规律,同时也具有一定空间结构性特征,其变异函数会随着研究尺度的变化而变化。本文在通过遥感信息反演沧州地区墒情信息的基础上,研究不同尺度下土壤水分在二维平面上的空间变异结构特性。利用GS+7.0软件分别对不同尺度0~20、20~40cm的土壤含水率数据进行统计分析,计算其半方差函数值并得到半方差模型参数(见表4)。一般认为块金值(C0)表示由随机因素引发的空间变异程度,基台值(C0+C)则表示变量的最大变异程度。二者的比值[C0/(C0+C)]表示随机部分引起的空间变异占系统总变异的比值。比值越高,由随机部分引起的空间变异程度越大;比值越小,则说明由随机部分引起的空间变异程度越小。当块金基台比小于25%时,表明空间变量之间具有强烈的空间相关性;当块金基台比大于25%且小于75%时,表明变量之间具有中等程度的空间相关性;当块金基台比大于75%时,则表明变量之间的空间相关性较弱,空间变异主要由随机因素引起[14]。

由表4可知,3种不同尺度下0~20、20~40cm深度处土壤含水率的半方差函数最佳理论模型均为球形模型,其决定系数大部分接近于1,说明球状模型能够很好地反映土壤水分的空间结构特征。

3种尺度下0~20cm深度处的块金值大于20~40cm深度处的块金值,说明土壤上层水分的空间变异更容易受随机因素的影响。小尺度下0~20、20~40cm深度处的土壤含水率的块金基台比均小于0.25,表现为强烈的空间相关性,说明该尺度各层土壤水分的空间变异主要由结构因素引起。中尺度及大尺度下0~20、20~40cm深度处的土壤含水率的块金基台比介于0.25~0.75之间,表现为中等的空间相关性,表明各深度土壤水分的空间变异由随机因素和结构因素共同作用。研究尺度不同,块金基台比表现出一定的差异。随着研究尺度的增大,块金基台比逐渐增大,空间相关性逐渐减弱,由随机因素引起的空间变异逐渐增强,由结构因素引起的空间变异逐渐减弱,这可能是因为研究尺度(研究区域面积、采样间距)的增大,导致土壤水分的细小结构被掩盖,结构性变异减小,随机性变异变大。变程表示样本点之间达到最大变异程度的空间距离[15],样本之间的距离在变程范围内,则样本之间存在空间相关性,若样本之间的距离大于变程,则样本之间的空间相关性消失。从表4中可以看出,3种不同尺度下0~20cm深度处土壤含水率的变程在2 488~11 806m,20~40cm深度处土壤含水率的变程在2 233~11 296m,随着土层深度的增加,变程值减小,随着研究尺度的增大,各层土壤水分的变程值逐渐增加。

3.4 基于普通克里金插值法的土壤水分空间分布图

为更加直观的反映研究区域土壤水分的空间分布,使用ArcGIS10.0软件的地统计分析模块对各区域的土壤含水率进行普通克里格插值,绘制出各区域0~20、20~40cm深度处土壤水分的空间分布图,见图5。

以小尺度不同深度土壤含水率为例,可以看出随着土层深度的增加,土壤含水率趋于变大,各层土壤含水率分布大体一致,表现为东北高而西南低。0~20cm土壤含水率的空间变异性大于20~40cm土壤含水率的空间变异性。随着研究尺度的增大,土壤含水率的空间变异性逐渐增强,但部分区域插值后的土壤水分连续性反而增大,土壤水分分布更加均匀,这主要是因为随着采样间距的增大,插值所用的有效变程也随之增大,从而掩盖了土壤水分分布的一些细微结构,使得插值后的土壤水分连续性增大,水分分布更加均匀。

3.5 土壤水分监测点的合理布设数目

确定合理的土壤水分监测点数目,即要求工作量最小,又要满足一定的精度要求。本文依据经典统计学理论,采用如下公式确定显著性水平为α时土壤水分监测点的合理采样数目。

式中:tα,f为自由度为f时的T分布的特征值,可以从统计表中查到;S为样本的标准方差;d为采样误差即样本总量均值与测量值均值之间允许的偏离值,一般取d=kμ,其中k取5%、10%、15%、20%等。

依据上述公式,分别选取置信度α=0.10和0.05,确定每一种置信度在不同采样误差(5%,10%,15%,20%)条件下的土壤水分监测点的合理采样数目,如表5所示。

由表5可知,在相同研究区域、相同置信水平情况下的合理采样数目随着采样误差的增加而减少,而在相同研究区域、相同采样误差条件下,采样数目则随着置信水平的降低而减少。固定置信水平和采样误差,随着研究尺度的增加,0~20和20~40cm处的合理采样数目均随之增加,其中0~20cm处的合理采样数目明显多于20~40cm处的合理采样数目。在95%的置信水平,采样误差为5% 的情况下,合理采样数目为13~83个;在90%的置信水平,采样误差为5%的情况下,合理采样数目为9~58个。

4 结语

本文通过modis数据计算得到植被供水指数,结合实测含水率数据分析建立植被供水指数和实测土壤含水率之间的相关模型,通过该模型反演得到整个沧州地区的土壤墒情状况,并以此为基础,通过经典统计学理论和地统计学理论分析研究了沧州地区土壤水分的空间变异规律,得到以下结论。

(1)在面积较小的研究区域内,土壤含水率之间存在着一定的相关关系,而随着研究尺度(研究区域面积、采样间距)的增大,变异系数也随之增大,土壤含水率之间的相关关系逐渐减弱。

(2)小尺度的土壤水分表现了较强的空间相关性,而大、中尺度的土壤水分则表现了中等的空间相关性,随着研究尺度的增大,土壤水分的变程值增大,空间相关性逐渐减弱,由随机因素引起空间变异逐渐增强。

(3)随着研究尺度的增加,土壤各层水分监测点的取样数目亦随之增加。在95% 的置信水平,采样误差为5% 的情况下,合理采样数目为13~83个;在90%的置信水平,采样误差为5%的情况下,合理采样数目为9~58个。

摘要：以沧州地区为例,利用MODIS数据计算得到植被供水指数,分析构建植被供水指数与实测土壤含水率之间的相关模型,进而反演得到整个沧州地区的墒情状况,以此为基础运用经典统计学和地统计学理论,研究3种尺度下土壤含水率的空间变异性,确定各尺度下土壤水分监测点的合理采样数目。结果表明,小尺度下(采样间距250m)土壤水分具有较强的空间相关性,而大尺度(采样间距4 000m)和中尺度(采样间距1 000m)的土壤水分均呈中等的空间相关性;随着研究尺度的增大,土壤含水率的空间相关性减弱,由随机因素引起的空间变异性逐渐增强;根据空间变异规律,分别得到置信度为0.10、0.05情况下不同尺度的土壤水分监测点的合理采样数目,并发现采用数目随研究尺度的增大而增加。

关键词：土壤含水率,MODIS,植被供水指数,空间变异

数据变异篇2

随着人类基因组计划的宣告完成, 对于人类基因组海量数据的研究工作也逐步拉开了序幕, 这给生物信息学的发展提供了很好的发展机遇, 同时也带来了诸多挑战。之后的千人基因组计划更提供了大量第一手的人类基因组数据, 这些数据既可以为生物学数据处理提供原始输入, 又能为处理生物学数据所得的结果提供了良好的验证。

当利用高通量测序数据来检测结构变异时, 主要有以下几种思路。第一种是单纯依靠覆盖率信息的方法, 这种方法是最早提出检测结构变异的方法, 现在已很少单独利用。第二种主要是依靠双末端测序数据中非一致序列并通过聚类来发现结构变异信息, 这种方法很难发现具体的机构变异位点信息。第三种方法是利用split read来精确发现结构变异, 这种方法可以精确发现结构变异信息, 但是重复序列对其影响很大。现在大多数结构变异检测软件都会集成整合上述几种方法, 取长补短, 并会相应地构建一套独特的数据筛选处理流程, 运用更快捷更有效的算法, 由此而不断提高基因组结构变异检测的能力。

1 高通量测序数据介绍

1.1 高通量测序技术的介绍

对于人类基因组的全测序技术是解决基因组生物信息学的一个至关重要的前提。传统意义上最著名应用、最广泛的测序方法是Sanger测序法[1], 这种方法起源于上世纪70年代, 已经过不断地改进而逐步趋于完善。而且, 在2001年得到的第一条人类全基因组序列主要采用的就是这种方法, 不过, 这一过程是通过全球多个研究机构的共同努力, 且耗费了数年时间花费巨资才完成。

随着对于更廉价、更快捷测序技术的需求激增, 并经过该领域科学家的通力协作, 高通量测序技术应运而生。高通量测序技术的出现极大地降低了全基因组的测序时间以及测序花费。

表1中显示了几种高通量测序技术的花费和优缺点, 最后一列是第一代Sanger测序技术。从表中可以发现, 虽然设备较贵, 但是Illumina测序仪还是有相对便宜的价格和时间开销, 并且由于Illumina测序仪可以使用户根据其需求生成不同的测序数据, 因此, 在结构变异检测中, 原始数据大多数是通过Illumina测序仪得到的。

1.2 双末端测序数据介绍

在Illumina测序仪的结果中主要会产生两种数据, 一种是单末端数据 (single end) , 一种是双末端测序数据 (pair end) 。这两种数据分别是根据不同的生物学手段得到的, 其中双末端测序数据不仅有短序列 (read) 信息, 而且还包含了插入距离信息, 这对于同一组序列的位置关系提供了新的一种依靠和保证。在此重点介绍有关双末端测序数据的相关信息。

在双末端测序数据中, 主要包含了相对基因组的上游序列信息、下游序列信息和插入距离信息, 而且数据总是成对出现。由于在处理单末端数据时, 主要通过短序列覆盖率信息和短序列自身信息来检测结构变异, 在利用双末端测序时, 不仅可以使用单末端数据中的信息, 更能通过对于插入距离的信息来有效地检测结构变异, 因此, 在检测结构变异的时候大量采用了双末端测序数据。

2 基因组结构变异类型介绍

随着人类基因组测序技术的进步, 全基因组的数据每天都以海量的规模在增长。即使是两个不同人种的同性个体, 其基因组之间的差别也是相当小的, 虽然比例非常低, 但是由于人类全基因组有30亿碱基序列, 所以其数目仍是非常可观的, 也正是这些差别导致了人类所有个体之间的万千差别。因此, 开展这些差异的研究对于无论是疾病、或是医学等其他领域都有着至关重要的深远意义。

将参考基因组作为比对依据, 由此得到的差异信息主要分为两类。第一类是SNP (单核苷酸多态性) ;第二类是结构变异, 在结构变异中较为常见的则是如图1所示的片段删除和片段插入。

一般来说, 将某个体的基因组序列同参考序列进行比对, 如果在一段序列区间内仅有一个位点不同, 就将认定为SNP信息。如今的主要检测方法是基于贝叶斯估计进行分类, 这种方法当1-5bp的结构变异时, 就会产生一个基于统计学的较准确的结果, 不过对于长序列问题的复杂度却会迅速增加, 分析难度也会显著加大, 此时该方法就不再可取。

3 主流结构变异检测方法

相较于数量众多、性能优良的DNA序列比对工具, 结构变异的检测工具一方面由于其发展起步较晚的影响, 另一方面则由于结构变异事件的情况相对SNP和DNA比对更为复杂, 因此, 直到双末端测序数据的大量使用才出现了很多基于双末端测序数据的方法。

针对双末端测序数据, 当前主流结构变异检测工具都已进行了较为充分的利用。SVseq2[2]是一款在低覆盖率情况下, 主要通过对双末端测序数据中产生的split read和非一致的序列的分析来精确检测结构变异的工具。Pindel[3]是一款主要根据双末端测序数据来检测大长度的片段删除和中长度的片段插入的结构变异的软件。Delly[4]是一款使用短插入距离双末端测序数据、破碎序列片段数据相结合, 既能检测基因组片段删除、片段倒置、片段连续重复, 又能在平衡的基因重排数据中检测倒易移位事件 (reciprocal translocations) 的软件。PRISM[5]是一款既采用了双末端测序数据的聚类分析又使用了破碎片段序列的比对分析结果, 并使用改良的NeedlemanWunsch算法而以精确到位点的方式来检测片段删除、片段插入为主的结构变异信息的软件。

其中, 可利用的双末端测序数据都是经过BWA等[6]软件比对之后的SAM格式文件。文中将可利用的数据主要分为两类:非一致短序列对 (discordant pair) 和单映射双末端测序数据 (hanging pair) 。如果这两个序列片段的映射距离被认为是在插入距离的可接受范围内, 而且两个片段的朝向都没有发生改变, 即可认为这种序列对为一致的序列对 (concordant pair) , 该种序列在绝大多数情况下均不会被认为覆盖了一个结构变异。除此之外, 其他的双末端测序数据, 无论是序列朝向问题、插入距离问题或者CIGAR值异常等问题发生时, 均可认为产生的是非一致的序列对 (discordant pair) 。除此之外, 一种特殊情况, 就是双末端测序数据中仅有一个序列片段比对到参考序列上, 而另一个却未能比对到参考序列上, 由此将没有CIGAR值, 这类特殊的序列可称为单映射双末端测序数据对[7]。

在此, 以最近发布的一篇检测结构变异信息的软件PRISM为例, 来讲述检测结果变异的大致流程:

(1) 数据筛选。DNA全序列比对是检测结构变异的前提条件, 因此输入是标准SAM格式文件。而其中的大多数序列不会覆盖结构变异信息, 因此对于discordant pair和hanging pair的筛选工作将是后续的研究基础。这里主要还是根据对SAM格式中的CIGAR值、插入距离、序列对正反朝向这三个方面的判断, 其中之一有异常的状况, 就将其归类并分别输出。

(2) 数据聚类。虽然各个软件在聚类时采用的方法不尽相同, 比如:PRISM采用了CNVer[8]作为聚类工具, 并采用贪心策略将相似映射距离和朝向的序列对进行划分聚类, 但却基本都采用了一种聚类手段以实现对数据进行更好地划分。

(3) Split read比对。通过上述两步得到了Split read数据, 不同软件采用各自的算法将split read重新比对到参考序列上, 再结合上一步的聚类结果, 共同判断是否可以支持一个结构变异信息, 并分别将其完整记录。

(4) 发现结构变异信息。大多数软件会根据序列的质量数, 并结合已经设定的可支持序列数的具体值来判定一个结构变异事件。如PRISM一般采用5作为支持一个结构变异信息的短序列最小值, 由此一个结构变异事件只有被5个或者更多短序列支持的时候, 才能判断是发生了结构变异。但Pinel却因其设计本就是为低覆盖率数据而实现准备的, 因而通常选用2作为支持结构变异的短序列最小值。这些参数既跟数据的选用有密切关系, 又与具体采用的聚类方法以及split read比对算法有关, 因此往往需要不断调整以获得最理想数据。

4 结构变异评测手段

在评测中, 主要关注在一定覆盖率情况下该软件发现结构变异的精确率和召回率。首先, 可认为包含实际存在的结构变异信息的集合为答案集, 在模拟数据中, 答案集可以通过人为手段实现验证, 并通过对于植入的结构变异信息的监控和追踪而对结构变异事件实时记录。同样, 也可认为由结构变异检测工具报告的结构变异信息集合为结果集。共同集则表示既认定其存在、而又被结构变异检测工具报告的共同结果, 三者之间的关系如图2所示。

其中, 召回率=共同集/答案集;精确率=共同集/结果集。

文中以40x覆盖下chr1染色体上的模拟数据为基准通过使用PRISM、Pindel两种软件主要针对片段删除和片段插入进行检测。首先, 人为地将Venter的结构变异信息植入hg18版本的1号染色体中, 通过生成的序列与参考基因组相比较生成有关结构变异信息的答案集, 再通过结果变异检测工具生成结果集, 其后根据序列名称间的对应关系, 由此而形成评估结果。其具体流程如图3所示。

这里分别使用15x和40x覆盖率的chr1染色体作为输入, 对Pindel和PRISM两款结构变异检测软件的精确率和召回率进行比较。

结合图4和图5可以发现, 当覆盖率较高的时候, 主流的结构变异软件都具有良好的召回率和精确率。并且随着覆盖率的降低, 精确率有小幅度的增加, 召回率却有较明显的减少, 因为其中包含了许多小型结构变异信息。这些信息采用split read比对的方法进行实验时会有一些噪音数据出现, 所以, 当剔除小型结构变异信息时, 这些软件所能检测的数目会有所降低, 但是结果却会有更好的精确率。

5 基因组结构变异发展方向

虽然当今大多数软件在一定输入下都能够取得较满意的结果, 但是, 采用split read比对结合聚类的方法仍有一定的局限性。例如:对于被测对象序列中的大于插入距离的片段插入, 现有的各类方法都是很难检测出来的。这种现象主要是因为, 没有一个双末端测序序列能够覆盖这个片段插入事件。此外, 由于聚类方法的采用, 将很难精确发现一个结构变异事件的具体精确位点。而且, 现在的方法主要是针对片段删除和片段插入的情况, 对于其他结构变异信息却还未得到很优异的结果。

6 结束语

随着高通量测序技术的迅猛发展, 对于人类基因组的研究正在逐步迈入后基因组时代, 对于测序数据的处理工作正变得尤为重要, 利用生物信息学手段检测人类基因组结构变异这一核心领域的研究也将越来越深入和细致。本文从测序数据的介绍入手, 对主流结构变异检测软件的流程和方法进行了分析, 并且根据PRISM和Pindel在不同覆盖率情况下的输出结果对检测工具的性能评估进行了叙述。

摘要：随着高通量测序数据技术的发展, 人类全基因组的测序成本在不断降低, 测序速度也有了较为显著地提升。运用生物信息学的手段处理这些海量基因组数据的需求也越来越迫切, 而对于基因组结构变异的检测更是这个领域的核心内容。由高通量测序数据特征入手, 介绍了当前主流的生物信息学结构变异检测方法, 并阐述了有关基因组结构变异检测结果的评测指标和手段, 最后, 结合个人基因组的发展, 对于该领域未来的发展提出了改进建议。

关键词：高通量测序,结构变异检测,生物信息学

参考文献

[1]SANGER F, NICKLEN S, COULSON A R.DNA sequencing with chain-terminating inhibitors[J].Proceedings of the National Academy of Sciences, 1977, 74 (12) :5463-5467.

[2]ZHANG J.et al.SVseq:an approach for detecting exact breakpoints of deletions with low-coverage sequence data.Bioinformatics, 2011, 27:3228–3234.

[3]YE K.et al.Pindel:a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads.Bioinformatics, 2009, 25:2865–2871.

[4]RAUSCH T, ZICHNER T, SCHLATTL A, et al.DELLY:structural variant discovery by integrated paired-end and split-read analysis[J].Bioinformatics, 2012, 28 (18) :333-339.

[5]JIANG Y, WANG Y, BRUDNO M.PRISM:Pair-read informed split-read mapping for base-pair level detection of insertion, deletion and structural variants[J].Bioinformatics, 2012, 28 (20) :2576-2583.

[6]BURROWS M, WHEELER D J.A block-sorting lossless data compression algorithm[J].1994.

[7]DALCA A V, BRUDNO M.Genome variation discovery with highthroughput sequencing data[J].Briefings in Bioinformatics, 2010, 11 (1) :3-14.

数据变异篇3

—引自雷姆·库哈斯《疯狂的纽约》

我们这个时代,城市在向上生长,疯狂地向上生长,20m、50m、100m、200m、500m……高度极限被一个个突破,大有欲与天公试比高之势。鳞次栉比、此起彼伏的摩天大楼们或以巨大的突变体形态、或以宏伟的乌托邦片断、或以疯狂而无理性的形象占据着城市的天际,如君临天下般承载着大众的渴望,覆盖着一个个街区,给现实的城市制造着形形色色、光怪陆离的神话影像,伴和着蜘蛛侠的深夜咆哮,与X战警们的呼啸风声……

通天塔—异化的种子

《圣经·旧约·创世纪》11章称:人类企图兴建高塔通往天堂,这种人定胜天之勇气令上帝耶和华震颤,为了阻止人类的计划,他施法改变并区别开了人类的语言,使人类因语言不通而散落各地,那塔于是半途而废。这座深藏在人类文明创世纪传说中的“通天塔”(图1),以其特别的存在方式与惹怒上帝的故事揭示了其以迥异于人类习惯性依附于大地居住状态的非常态方式—一座由大地表层凸起并盘旋向上的突变体形态,集中着人类向上的强烈欲望,更彰显出异化的本质,这异化既震撼器官,又冒犯天庭。可以说,“通天塔”在人类动念向上的那一刻,便埋下了异化的种子……然而,遗憾的是“通天塔”向上路径的设想还局限在绕来绕去的山路状态,尚无革命性的变异,人类向上的梦想暂停在种子阶段,等待着那漫长的几十个世纪后的萌芽……这期间,虽然那些高塔也耸立于大地之上,那些大教堂也直插云霄,但都仅仅停留在纪念物阶段,是对上帝无处不在的纪念罢了……

“三段式”与“皮包骨”—自律性的建构

1853年,格雷夫斯·奥迪斯发明了第一部载人电梯,同期钢框架结构技术的运用取得了革命性的进步,人类在空中工作与生活的渴望终于开始发芽,于是人类历史上真正具有功能意义的高层建筑诞生了。建筑师勒巴伦·简尼首当其冲,于1855年设计了十层高的芝加哥家庭保险公司大厦(图2),采用钢铁框架,外墙覆以石板,立面形式上仍沿袭古典传统母题和复杂的装饰。1894~1896年,即便是当时具有先进意识的第一芝加哥学派的领袖人物沙利文领衔设计的位于纽约洲布法罗的信托大厦(图3),也明显带有古典“三段式”特征,难逃传统法则的圈囿。那一阶段的高层建筑基本上以经典柱式的三段比例为参照,将高层建筑沿竖向划分为顶部、楼身与基座,将柱式的三段比例关系转换为基本的体量控制手段,这些表现与戈里弗里希·森佩尔著名的材料置换理论所勾勒的新生类型建筑在初期成长阶段通常以原有既存建筑为参照或挪用其控制方式的发展轨迹十分吻合,高层建筑作为新生体也遵循此成长规律。

这一置换阶段到20世纪20、30年代达到顶峰。1925年,胡德与豪厄尔斯以一份新哥特式带有飞卷拱卫、以三段式手法处理立面形态的方案取得芝加哥论坛报大楼(图4)竞标的胜利,学者赫克斯泰布认为这次竞赛是高层建筑形态转变的第一个分水岭,“这次竞赛凝聚着建筑中一个难得的契机,这时正是漫长的古典传统徘徊在现代主义这个未卜深渊的边缘”时期,大胆探索与传统滞后并存,但都反映出此时对高层建筑的体量组合、尺度感和细部处理开始有了充分认识。虽然是带有明显折衷倾向的胡德方案中标,但哥特复兴式三段论者与力挺沙里宁浪漫主义色彩的芬兰现代主义者及推崇包豪斯体系激进的现代主义者之间的激烈争论,标志着高层建筑已逐渐走出借鉴与徘徊期。

1921年,在德国柏林钟楼公司主持的一次高层办公楼设计竞赛中,密斯的“蜂巢”方案(图5)离经叛道,以“透明玻璃+钢框架”的“皮包骨”般直白、裸露的形态传达了潜藏在高层建筑骨子里的现代结构与现代材料的配置关系,古典的基座、楼身与顶部的三段式处理在此不复存在,密斯以具有秩序与韵律感的混凝土/钢/玻璃的材料组合形式清晰再现结构体系内部逻辑的全新工作方式,开始尝试建立高层建筑的自我运转机制。密斯曾说过,“不断前进的新技术为建造者提供了新材料和更有效的工作手段,尽管它们通常与传统建筑观念格格不入,但我相信完全可以从中发展出一种新的建筑艺术来”,“我们身处的不是一个时代的终结,而是它的开始。这是一个新的精神引领下的时代,一个在技术上、社会学上乃至经济上都有全新驱动力的时代,这个时代将会有新的工具与新的材料,因此我们将会有新的建筑形式”,正是对高层结构重要性与技术含量的深刻洞见,密斯创造了一种明显工业化倾向的设计语言,一个为技术和机械服务的工作机制,一套服务于建筑物结构功能与生产组织方式的比例系统。芝加哥860-880号湖滨公寓与纽约的西格拉姆大厦就是密斯运用新设计机制的代表作,是以新的技术手段为基础的纯净形式的新建筑。

“三段式”原型系古典建筑体系的体量控制法在高层建筑形态控制上的投射,是他者语言系统的移植;“皮包骨”原型则是对决定高层建筑成长的新结构体系、新技术手段、新材料关系、工业化生产组织的发掘与再现,是自我运转系统的建立。这两类原型都致力于使“建筑成为建筑自己”,探索高层建筑形态生成的控制法则,以建构高层建筑本身的自律性为其根本目标。

“半疯颠”生产—消费机制作用下的异质图象系统

“对于影像胜过实物、副本胜过原本、表象胜过现实、外貌胜过本质的现在这个时代……只有幻想才是神圣的,而真理反而被认为是非神圣。是的,在现代人看来,神圣性正随着真理之减少和幻想之增加而上升,从而,在他们看来,幻想之最高级也即神圣之最高级。”

—费尔巴哈

就在密斯风格似乎被奉为高层世界的经典范式之际,突然间,世界变了,金科玉律轰然坍塌……

随着一种大都会生活方式的发明,建筑被纳入生产与消费的市场机制,沦为都市生活的镜像——建筑非建筑了。沙利文与密斯时代,高层建筑尚处在一元化的发展模式,无论是置换阶段占主导地位的三段式,还是自我规律成熟阶段与技术至上的社会状况下起榜样作用的“皮包骨”,都是在一段时间内决定总体建筑发展倾向的主流形态,绝大多数建筑都以此为蓝本在其预设的既定机制下被设计建造,直到过渡到下一发展阶段,统一、和谐、秩序、完整是普遍的美学法则,而控制此格局的运作机制根本上还局限于建筑学专业相对纯粹的学科范畴内的自律性建构。

然而,全球经济一体化时代,一切都变了,地球上的生命体与非生命体似乎都变质为可供消费的资源,于是物质相对独立的存在方式受到挑战,逐渐转化为都市生产与消费组织系统中的组成分子,在这个组织系统里,已经不再有纯粹的物体了。高层建筑由于其自身的规模效应与高度优势必然成为都市组织系统中最为复杂多变与引人注目的杂交分子,它所拥有的非凡的包容多元业态与多样性生活可能的潜在能量,正如库哈斯在《疯狂的纽约》一书中所分析的:位于曼哈顿的下城体育俱乐部,一座摩天楼内垂直叠加着无数层可根据需要而变化的不确定性内容。库哈斯将这种内容丰富的摩天楼称为“社会压缩器”,正是这种包容着鸡尾酒般生活拼盘的容器使经典的清教徒般的建筑立面难以与其形成真实的一一对应关系,由此建筑的内部与外部变成了相互剥离的两个独立部分,一个应付着内容和图解需求的不确定性,而另一个则成为城市运营与消费机制需求变化的应景物—一个拥有巨大的商业诱惑力与城市宣言的虚拟形象,它暗示了高层建筑的表皮可以脱离其物质实体,独立为具有表征意义同时能生产利润表像化异质图象系统。

躲在这表像化的异质图象系统身后的运转机制即是大都市的生产与消费生活方式。这一运转机制从根本上颠覆了传统意义上的建筑自治体系,取而代之的是完全非建筑化的消费机制。建筑学的规律与控制体系在此失效了,而消费机制的根本目的是制造利润,利润的生产需要大量消费群,而如何刺激消费群的情绪与欲望成为系统中最为关键的技术环节。消费机制通过刻意制造“半疯颠”破解了这一命题。所谓“疯颠”,福柯认为是在理性与非理性间,尼采则说是酒神状态的再现。理性购物状态下的市场难有积极表现,甚至可能萎缩,附加值则更少有发挥的余地;非理性消费则令投机冒险纵横,前景不可预测,市场常游离于控制之外;于是一种总体理性、个体与局部疯狂的“半疯颠”状态被刻意制造—通过总体的理智系统有节奏地调控个体的兴奋状态,如此既保障了系统的秩序稳固与被控制,更刺激着消费热度的持续高温。而这兴奋的热度则需要借助酒神的力量,那酒神的力量在哪里?是幻想,以美丽生活为诱饵的幻想,它不停地以略高于现实的美丽引诱着人们前赴后继地为美好生活而努力消费。毋庸置疑,高层建筑因其制空权与规模成为美丽生活幻想世界的最重要的背景空间的生产者,同时这类生产者又必须满足有效的基建成本控制与奇观般的表演形态,这更加剧了内容、建造与形态的分裂,形态最终同时脱离了对建造与内容的尊重,异化为为消费服务的广告般的假面,世界在假面舞会中争奇斗艳,营造着繁华盛世,幻想般的形态是美妙的视觉与心灵的麻醉剂。

难道在这样的情形下,建筑自律体系会就此止步?庆幸的是那些对“半疯颠”生产心领神会的名师们,明修栈道暗渡陈仓,开创性地提供了新时代的高层建筑空间生产的“半疯颠”范式。这一范式的建立仿佛是在建筑自律性建构与消费机制作用下奇观化形态生产间作心脏搭桥术。范式一:库哈斯的CCTV总部大厦,在北京的上空夸张地以一个巨大的奇观般的“环”制造了超级的媒体印象与轰动的城市宣言,同时此环亦是工作流程、服务设施与参观流线环流功能作用的成果,一个两面性的“环”。范式二:斯蒂文·霍尔在北京的当代MOMA中,九幢高层遵循着近“皮包骨”的形态方式向上生长,突然在接近顶部的高端,一条高低起伏的空中玻璃廊包容着会所、游泳馆、健身房、咖啡厅、酒吧、画廊、图书馆等多元功能横空出世,制造出强烈的视觉冲击及高额的销售利润,实为平常中的非凡一击。

雷姆·库哈斯曾经说过:“大都会生活方式的发明和测试及随之产生的建筑被当作一种集合式的实验,由此整座城市变成了生产人造情绪的工厂……”

【数据变异】推荐阅读：

变异05-09

血管变异05-10

变异算法07-07

变异原因07-27

遗传变异08-27

血压变异09-15

动态变异09-16

变异修辞09-23

变异现象11-16

文学变异11-26