标准样本库

2025-01-10

标准样本库（精选4篇）

标准样本库篇1

摘要：建立国家普通话水平测试等级标准样本库,是国家语委普通话培训测试中心2009年提出的工作要点之一。样本库计划包括三期。本文对第一期样本库的样本采集方案进行初步思考,对比两个采集方案,并对我们认为可行性强的方案进行了具体设计。

关键词：普通话水平测试,标准样本库,方言区,采集方案

一引言

《国家语委普通话培训测试中心2009年工作要点》提出了建设“国家普通话水平测试等级标准样本库”(以下简称“样本库”)的设想,计划三年内完成第一期样本库建设。第一期样本库预计包括全国各方言区至少3000个普通话水平测试标准样本,涵盖普通话水平三级六等和不入级的样本。之后,还将建立以少数民族人群(母语为少数民族语言)为基础的第二期普通话水平测试样本库,以海外普通话水平测试推广地区为基础的第三期普通话水平测试样本库。样本库建成之后,不但从测试、教学培训和科研三个方面能够为全国各地的普通话事业提供丰富资料和有效帮助,也将为汉语本体研究与应用研究提供宝贵的数据,更为国家推广普通话和汉语国际推广提供翔实的研究资源与科学支持。第一期样本库将真实记录我国各方言区的普通话现状,保留具有典型特征的普通话语音数据,对我国语言资源的保护和研究具有极其重要的历史意义和现实意义,将会是一笔巨大的科学财富。

第一期样本库计划选取涵盖全国各方言区具有典型等级特征的应试人群语音样本,并为每个标准样本的语音进行标注,指出错误与缺陷等问题所在,总结样本的等级判定原因。样本库是一个复杂精细的工程,涉及到建库原则与规划、样本采集方案、硬件设备与软件系统配套、样本处理及认定、数据管理等一系列问题。第一期样本库是开端,也是基础,可能需要多次论证、反复试点才可以建设成功。本文仅就第一期样本库的样本采集方案进行初步探讨。

二样本库采集方案

(一)方言区划分

样本库以普通话水平等级分布和方言区分布分别作为横轴与纵轴,力争勾画出一个重点突出、标准清晰、真实客观的全国普通话水平测试等级面貌。普通话水平测试等级分布包括:一级甲等、一级乙等、二级甲等、二级乙等、三级甲等、三级乙等、不入级共七个水平的测试样本。

关于语言学界讨论已久的方言区划分问题,我们选取的是十大方言区理论,包括官话大区、晋语区、吴语区、徽语区、赣语区、湘语区、闽语区、粤语区、平话区、客家话区。其中,官话大区还可分出8个官话区,即东北官话区、北京官话区、冀鲁官话区、胶辽官话区、中原官话区、兰银官话区、西南官话区、江淮官话区。鉴于每个官话区的人口比例都比较大,我们将这8个官话区与其他9个方言区并列,共形成17个方言区域。根据每个方言区域的人口比例和实际测试等级分布情况,我们将在每个区域采集相应等级的样本数量。

(二)采集方案

按照国家语委普通话培训测试中心(以下简称“国测中心”)的规划,样本库建设由国测中心统一组织成立总课题组,并根据工作需求设立若干子课题组。采集原则由总课题组制定,统一要求、统一部署,子课题组在经过总课题组统一培训(视情况可多次、分阶段进行)后,在总课题组的领导下,独立完成样本采集、入库甄选、对样本的初加工和一级处理环节。各子课题组可以以各省级培训测试机构作为主要力量,也可根据需要邀请相关专业的专家带队,组建学者型的子课题组,对样本库提供支持。

针对这一原则,我们提出两个采集方案,并对方案进行了对比分析,希望可以起到抛砖引玉的作用,对样本库建设做出贡献。

1.方案一:按照方言区域成立子课题组

我们按照17个方言区域的划分,建立17个相应的子课题组,每组对应一个方言区。总课题组根据各组所属方言区的人口比例制定各组样本数量,并与子课题组负责人协商确定所属方言区内各方言片、各个等级的具体样本数量。之后,各子课题组在总课题组的统领下,经统一培训后,完成样本采集、存储、入库甄选、一级处理以及汇总上交等全套工作。由于方言区域的划分普遍面临着与行政区域划分不一致的问题,各子课题组可由研究力量雄厚的一至两个省级培训测试机构牵头负责,或由所属方言区的方言学家或其他语言学专家负责,以国测中心特聘测试员作为骨干力量,组织相关专业研究生参与课题,经统一培训后,进行跨省、区、市的科研工作,涉及到该方言区的各省级培训测试机构需予以积极配合和支持。

优点:按照方言区进行划分,每个子课题组仅涉及一种方言,对象比较单一,工作目标明确,便于集中精力。而且,子课题组自由度较大,可以在不违背总课题组统一要求的情况下,根据方言片的实际情况进行灵活安排与设计。由方言学或其他语言学专家及国测中心特聘测试员带队参加,专业突出,学术性突出,不受行政权力牵制,样本质量比较有保障。

缺点:按照方言区划分,开展课题工作时还需要赶赴实地采集录音,或者依靠涉及到的相关省级培训测试机构的配合,难度相对较大。整体工作运行时间较长,财力、物力、人力耗费比较大,配合力度可能不如由国测中心统一部署下发至各省级中心的工作力度大。

2.方案二:按照各省级培训测试机构成立子课题组

我们根据17个方言区域实际地理分布与行政区域分布情况,向涉及到的省级培训测试机构(共计30个)具体分配相应方言区相应等级的样本数量需求。每个省级培训测试机构分别作为一个独立的子课题组,各省根据所属方言区的多少还可成立若干小课题组,参与样本库的实际建设。大陆地区除西藏外,各省级培训测试机构都将承担一定的采集任务。

优点:各省级培训测试机构都肩负着推普的重要职责,也都有各自的科研队伍,采集工作便于操作和展开,配合力度大,完成性较高。

缺点:每个省、直辖市、自治区方言分布情况不同,采集工作的复杂程度和难度不均衡。而且,各省级培训测试机构工作力度不一致,现有工作难度不同,研究力量也不均衡,对于实际科研成果的监督工作困难较大。

3.采集方案具体设计

对于上述两个采集方案,我们认为第二个方案可操作性强,具有一定优势。如果总课题组制定好规划和实施步骤,各省级培训测试机构能够全力、认真配合的话,应该可以按照预期设想建成所需的样本库。下面我们针对方案二展开具体设计。

总课题组计划收入3000个真正入库的样本,以此估算,初期大概需采集30000个左右的样本,才能最终选出符合要求的对象。我们以李荣先生的《中国语言地图集》作为主要参考依据,将使用汉语的人口数据按照方言区进行梳理,并粗略计算了收录样本库的方言区样本数(见下页表1)。

此外,根据《中国语言地图集》和部分行政区域的资料,我们对每个方言区内使用该方言的市县数进行了统计,按照行政区域进行划分,根据使用该方言市县数的多少决定样本实际分配比例。因数据繁多,仅以冀鲁官话区为例(见下页表2),其他方言区(见第102页表3)以此类推。

如表3所列,部分方言在某些行政区域内分布的人口很少,有的能够估算出数字,有的未列出数字,这些均在表格中用斜体标出。经权衡后,我们决定对分配样本数少于50人的、并且占该方言区人口比例低于5%的行政区域,暂且不收录这些方言人群的普通话样本。经过整理后,表3中的斜体标示部分可以略去。各行政区域实际需要采集的样本任务详见表4。

此外,鉴于以下方言使用人口数量较少(都不足100万),初期样本库可暂不考虑收录这些方言人群的普通话样本。这些方言主要是:

(1)奢话:零散分布在福建、浙江、江西、广东、安徽等省。

(2)儋州话:海南省。

(3)韶关土话:分布在广东、江西、湖南等省。

(4)乡话:湖南。

从理论上计算,全国初选30000个样本,按照三级六等和不入级共七个部分分配的话,每个等级需4285.7个样本。从全国实际测试数据来看,等级分布的情况大致为:二级乙等数量最多,二级甲等和三级甲等数量其次,一级乙等和三级乙等再次,一级甲等和不入级最少。我们设想,一级甲等主要由国测中心负责,采集约2300个样本,其他等级按照17个方言区域划分,每个区域平均1630个左右(依据各方言区的人数比例,可进行调整)。一级乙等3280个样本(193个/每个方言区),二级甲等5280个(311个/每个方言区),二级乙等和三级甲等分别为6280个(369个/每个方言区),三级乙等4280个(252个/每个方言区),不入级2300个(135个/每个方言区)。全国不同等级的样本分配比例详见第104页表5。

各省、直辖市、自治区原则上按照表5等级分配比例与表4样本数量可计算出自己需要采集的不同等级样本数量。以安徽省(共需1711个样本)为例,详见表6。

其中,一甲样本由国测中心负责,按不同方言区、不同行政区域采集,各省、直辖市、自治区只需采集从一乙到不入级的样本即可。

目前,我们是以《中国语言地图集》作为主要参考依据设计样本比例的。这本地图集成书年代较早,目前各方言区人口比例都发生了不同程度的变化,具体采集方案可依据地区实际情况进行调整。不过,各小组调整样本数目需要报经总课题组同意后方可进行,由总课题组负责全局规划。

三余论

无论是哪个采集方案,都涉及到具体采集方式问题。我们对此也有几点建议:

(1)各子课题组赴方言区进行实地采样。

优点:定位准确,针对性强,录音装备统一;

缺点:麻烦,周期长,耗费多。

(2)部分子课题组在高校利用机辅测试对各方言区来的学生进行采样。

优点:方便,易集中;

缺点:录音工具不统一,音质效果不能保障;样本特征单一,录音人脱离方言环境,易发生语言变化。

(3)从某月某日起,国测中心向各省级培训测试机构发出通知,对所有应试人登记详细信息,包括对采集对象条件中所涉及的问题。这一措施对总课题组掌握各方言区应试人的大致情况和样本库建设工作都有作用。

(4)综合多种采集方式,可从所有前期登记的应试人中选择一定比例、一定数量的样本,也可采取免费测试、付费等方式重新采集符合条件的应试人的语音;有条件的地区可通过动员和鼓励相关专业、相关工作领域(比如播音主持、艺术类、教师等)人士义务参加样本采录。

此外,每个方言区的样本采集对象在一定比例、一定等级的要求下,还应考虑以下几个条件:(1)家庭用语为当地方言;(2)性别比例分布合理;(3)年龄比例分布合理;(4)文化程度比例分布合理;(5)行业比例分布合理。

我们建议,第一期样本库可分几步完成。总课题组先在几个省、直辖市、自治区做些前期试点工作,进行少量样本采集方案的对比研究,包括讨论机测数据和实地采样的差别等,根据实际情况和结果确定最终采集方案。

参考文献

[1]李荣,熊正辉,张振兴,傅懋,王均,道布.中国语言地图集[M].香港:朗文出版公司,1988.

[2]宋欣桥.普通话语音训练教程[M].北京:商务印书馆,2004.

标准样本库篇2

建立国家普通话水平测试(PSC)等级标准样本库,是国家语委普通话培训测试中心2009年提出的工作要点之一,是一个复杂的系统工程,涉及到建库原则与规划、硬件设备的选择与使用、软件系统的应用与开发、样本的录制及认定、人员的组织与培训等一系列问题。韩玉华(2010:98～104)对第一期样本库的样本采集方案进行了初步设计,样本库分别以普通话水平等级分布和方言区分布作为横轴与纵轴,计划在全国十大方言区采集至少3000个PSC标准样本,等级上涵盖普通话水平三级六等和不入级,力争勾画出一个重点突出、标准清晰、真实客观的全国PSC等级面貌。第一期样本库的建设方案目前还处于理论探讨阶段,还有大量的实际问题等待解决,需要我们从多个角度进行探索和研究,尤其是建库技术手段上的探索和研究。

在普通话样本库的建设上,国内已经有一些研究成果。云南师范大学和云南省普通话培训测试中心合作开发了“普通话水平测试各等级标准语言特征数据库系统”,通过对样本录音进行实验语音研究,试图使样本录音语图与测试录音语图能够相互印证,为PSC提供直观、可操作的依据(王渝光、姚一斌等,2006)。侯敏、邹煜等(2009:83～90)承担的教育部科学技术研究重点项目“现代汉语普通话数字化样本库”,第一期工程收集了约2000小时左右的广播电视、影视剧、曲艺的录音和视频,开发了一个包括存储、管理、检索、统计、分析功能在内的跨媒体语料库管理系统。对第一期工程中约30小时左右的核心库进行了深层标注,包括元数据标注、文本对齐、韵律标注、文本标注等。上述两个样本库可以为我们建库提供重要的参考,但它们建设的目的和PSC语音等级样本库不尽相同,技术标准和数据结构不一,还不能直接为PSC语音等级样本库建设所用。

从2010年上半年开始,湖南师范大学普通话培训测试站和湖南省语委普通话培训测试中心合作,就湖南PSC等级标准样本库的建设在录音采集的硬件、软件、建库平台的选择应用等方面进行了一些探索性的研究,提出了基于国际通用的多媒体转写标注软件Elan建设PSC等级标准样本库的初步实验方案,为全国PSC语音等级样本库建设的进一步研究和实施提供一定的参考。

二 Elan在建立PSC等级标准样本库方面的优势

国家PSC等级标准样本库作为国家语言资源保存的一个重大项目,最好是建设在免费、开放的软件平台之上,所用的技术标准最好能与国际语言资源保存项目保持一致。我们考察了包括“中国语言有声资源数据库”在内的国内多个语言资源保存项目,这些项目使用的相关软件还不太适合用于PSC样本库建设,建库平台又大多处于建设阶段,技术资料很难获取。国外语言资源保存项目开展较早,有一大批免费软件可供测试,我们试用了十几个相关软件,重点对EXMARaLDA、Elan、TranscriberAG卫乃兴等,2007:235～246)。样本的转写和标注是在层中进行的。根据样本存档的需要,参照普通话水平测试大纲(2004:1～5),我们对每一个样本用七层进行全面的转写和标注(层数量可以根据实际需要增加或减少), 覆盖样本的各方面信息,从而体现出样本的参考和标杆意义。从上到下依次为:第一层:样本相关信息;第二层:试题及转写;第三层:第一题标注;第四层:第二题标注;第五层:第三题标注;第六层:第四题标注;第七层:评分要点。各层具体内容见表2。

为了便于直观地了解样本的情况,方便研究人员和一线的测试员使用样本标注信息,我们全部使用汉字进行转写和标注,暂不使用任何标注符号体系(条件成熟时可以使用通用的标注符号体系),这些转写和标注的内容可供直接浏览、检索和提取信息之用。

下面以一个二级乙等的样本录音作为例子来简单说明如何利用Elan对录音样本进行转写与标注。

1.导入样本文件并进行切割标记

双击Elan桌面图标,运行Elan,点击“文件”,选择“新建”,浏览录音文件所在的文件夹,弹出导入文件的对话窗口,双击二乙.wav文件,导入到Elan中(图2),点“确定”进入Elan的主界面。

在进行其他操作之前,先保存文件(快捷键为Ctrl+S),文件名定为“03二乙.eaf”。然后从“选项”菜单中选择“分割模式”(Segmentation Mode)(图3),对第一题、第二题分别以字、词为单位进行分割标记,对第三和第四题以句为单位进行分割标记(时间轴下的H形区域),做了标记之后就可以根据标记选段对每一个字、词、句进行一一对应的标注或转写,分割标记是后续转写和标注操作的基础。

2.录入、转写所有测试试题

完成对样本录音的切割标记之后,我们切换到“转写模式”(Transcrition Mode)(图4),按顺序把第一至第四的文本分别录入到对应的表格中。第一至三题只需要根据试题的具体内容一一对应录入就可以了,而第四题需要我们根据应试者的测试录音,一句一句地转写,录入至表格。Elan的转写模式设计非常人性化,我们点击每一个表格,Elan就会播放我们已经分割标记的内容(字、词、句),然后我们在表格录入声音对应的文字,录入完毕按回车键(Enter)自动进入到下一格。如需回放当前格的声音,按一下“Tab”键。

3.样本多层标注

在Elan “选项”菜单选择“标注模式”,然后根据分割标记时间区间,完成全部试题内容的录入和转写,把层命名为“2试题及转写”,处于第二层的位置。并在此基础上完成各层的详细标注,包括:样本相关信息、第一题标注、第二题标注、第三题标注、第四题标注、评分细则等(详见图5)。

(四)建立样本数据库

按照上述操作方法,我们共完成了7个样本的转写与转注,依次保存为“01一甲.eaf、02一乙.eaf、03二甲.eaf、04二乙.eaf、05三甲.eaf、06三乙.eaf、07不入级.eaf”。每一个Wav文件和一个eaf同名配对保存在一起,如“04二乙.wav”和“04二乙.eaf”保存在一起,这样使样本录音文件和转写标注数据关联到了一起。接着再双击打开每一个.eaf文件,对标注的每一题的内容进行浏览、回放,逐一检查每个样本的转写与标注内容,做到准确无误。最后把上述所有的文件复制到一个总文件夹之中,文件夹命名为“湖南省PSC等级样本试验库”。

接下来,我们在Elan“文件”菜单中选择“多文件处理”,再点击“编辑多个文件”,接着选择“调入范围”,点击弹出的“新范围”按钮,从电脑中选择“湖南省PSC等级样本试验库”,调入所有包含上述7个样本文件的相关数据到检索范围中,建立对应的数据库,这个数据库在Elan中称为“域”(Domain,搜索范围),我们把这个域命名为“湖南省PSC等级样本试验库”。在Elan指定这个域,通过Elan的多文件检索功能,就可以在这个域中检索、提取已经转写和标注的相关信息。比如,需要对所有等级在第一题中读100个字词的错误情况进行对比的话,使用Elan检索中的“在多个Eaf搜索”选项,选择“湖南省PSC等级样本库测试”域,然后键入关键词“错误”,Elan就会依次列出所有等级样本中有关第一题中的错误(图6),我们可以一个一个地查看、浏览,如需进一步回放相关录音进行核实的话,点击即进入播放,同样,如果需要了解所有样本缺陷情况,我们也只需要键入关键词“缺陷”,就能检索到所有等级的缺陷标注内容。还可以根据实际需要,通过各种正则表达式进行更多的数据筛查的检索。所有的检索结果都能够输出为纯文本文件,我们可根据实际需要进行打印。另外也能把检索结果导出为Tab隔开的文本文件,导入到Excel或Access中进行数据的二次筛查。

四余论

通过上述操作,我们初步建立了一个简单的覆盖PSC各个等级的小型样本库,其样本量虽然有限,但是样本库的底层架构已经基本具备。下一步的研究任务就是在全省75个测试站(14个市州测试站,61个高校测试站)采集、转写、标注更多的等级样本,并在此基础上建设以Elan的转写和标注数据为基础的网络数据库,进行适合互联网环境使用的二次开发,进行网络化的管理、发布和检索的测试,以考察数据库在较大数据量下浏览、检索的稳定性和兼容性,为今后更大规模的开发打下基础。

另外,Elan还可以对视频进行转写和标注(图7),在条件成熟的时候,在录音的同时,我们对受测者同步进行摄像,以获得受测者口形、表情、心理、生理反应等方面的信息,从文字、视频、录音等多个方面立体化地呈现PSC等级样本,使其更具有保存、开发和研究的价值。

摘要：Elan是荷兰纽梅茵马克斯布朗克心理语言学研究所开发的一个跨平台的多媒体转写标注软件,在话语分析、态势语研究、语言保存、口语语料库建设等方面被广泛使用。本文主要探索基于Elan的湖南省PSC等级标准样本库建设问题,提出了一个简单可操作的实验建设方案。

关键词：Elan,PSC,样本,样本库

参考文献

[1]国家语委普通话培训测试中心.普通话水平测试实施纲要[M].北京:商务印书馆,2004.

[2]韩玉华.PSC等级标准样本库采集方案初探[J].语言文字应用,2010,(3).

[3]侯敏等.现代汉语普通话数字化样本库的设计与建设[A].中国少数民族语言文字信息处理研究与发展[C].北京:中央民族大学出版社,2009.

[4]王渝光等.PSC等级标准的声学研究和数据库建设[A].第二届全国普通话水平测试学术研讨会论文集[C].北京:商务印书馆,2006.

[5]卫乃兴等.COLSEC语料库的设计原则与标注方法[J].当代语言学,2007,(3).

[6]姚喜双等.普通话水平测试概论[M].北京:高等教育出版社,2011.

[7]中国语言资源有声数据库建设领导小组办公室.中国语言资源有声资源数据库调查手册(汉语方言)[Z].北京:商务印书馆,2010.

标准样本库篇3

关键词：生物样本库,商业化,知情同意

一、生物样本库的发展现状和商业化

经过数十年的发展, 生物技术在多项领域获得了重大突破, 人类已经进入了生命技术快速发展和产业化的时代。基于人体组织和基因的新的应用在不断被发现。血液可以作为永生细胞系生物学研究和医药产品的发展的基础;美国的组织文化目录列出了数千人的细胞系, 可供出售。身体组织有医疗和科研价值以外的商业价值。

正是由于人体组织和基因在生命研究和商业化中存在如此大的作用, 人们试着把各种人体生命组织收集起来形成生物样本库 (biobank) 。生物样本库, 又称生物银行, 主要是指标准化收集、处理、储存和应用健康和疾病生物体的生物大分子、细胞、组织和器官等样本 (包括人体器官组织、全血、血浆、血清、生物体液或经处理过的生物样本 (DNA、RNA、蛋白等) 以及与这些生物样本相关的临床、病理、治疗、随访、知情同意等资料及其质量控制、信息管理与应用系统 [1]。

基因组技术以及意识到基因在疑难病中的作用不是唯一的, 并极有可能是多因素的, 使得生物样本库 (biobanks) 越来越受欢迎。许多国家都积极参与生物样本库的计划。早在1998年在冰岛由冰岛政府与deCODE Genetics公司签约, 他们将全国27万名公民的健康记录建立成单一的数据库, 再结合捐赠者详细的家谱 (genealogy) 与遗传资料, 构成了生物样本库 [2]。我国在生物样本库的建立方面也起步较早, 如1992年中国红十字会就建立了主要储存造血干细胞样本的中华骨髓库, 并且在2012年正式加入世界骨髓库, 首批5万人份数据信息上传至实时库容, 为需要移植造血干细胞的病人带来了诸多福音。以及华大基因在2011年建立的国家基因库等等。这表明我国已经非常重视生物组织信息管理方面的工作和未来发展, 将进一步加大投入。

正是由于生物样本库在基础研究、临床研究以及转化医学 (tranlational madicine) 中发挥着如此重要的作用, 所以作为样本库基础材料的人体组织的商业价值不断提升, 医院、临床研究机构以及企业等都把人体组织视为一块很大的可利用的资源。

生物样本库从出现到现在发展的时间还不是很长, 从样本库本身的建立和管理到社会公民和政府的监管等还有很多不完善的地方, 很多时候就连组织捐赠者都不清楚其身体组织在被捐赠出去以后会被怎样处理和有哪些用途, 这就引发了较为深刻的伦理问题、法律问题甚至社会问题

二、样本库商业化中的知情同意

生物样本库在商业化过程中对人体样本的采集在法律和伦理方面一个基本的原则就是一定要获得组织捐赠者的知情同意。生物样本库建立的初衷和目标是良好的, 的确有利于生物技术的进步和社会经济的发展, 世界各国也都在加大这一领域的投入, 然而即便是这样也必须满足组织捐赠者是完全自愿这一基本条件。

一些研究者提出即使没有获取到捐赠者的知情同意, 只要采取对捐赠者进行匿名化处理即可避免对其隐私以及其他方面的侵犯和伤害, 指出在对组织的研究、处理以及后续的商业化过程中把捐赠者的信息与组织本身进行分离, 人体组织作为独立的研究对象和商业化对象在整个后续过程中都不带有任何关于捐赠者的信息, 以这种方式来弥补前期人体组织采集中对捐赠者知情同意环节的不足。其实这种观点在实际操作上是很难站住脚的。生物科技以及信息学发展到今天这种水平, 在对采集的人体样本进行后续的处理和研究中, 特别是涉及人体DNA的提取和研究中, 组织捐赠者的身份信息以及其他方面的隐私信息是很容易被发掘的, 要想做到绝对的匿名处理或者对捐赠者信息的一无所知几乎是不可能的, 只要在技术上可以实现这一点, 由于后续商业化的驱动, 利益的驱动, 要想真正做到保护捐赠者个人信息是非常困难的。

退一步说, 即使匿名化的处理能够实现, 在人体组织的研究、处理和后续的商业化过程中不会暴露捐赠者的个人信息, 这种情况下未获得捐赠者的知情同意也同样可能会对捐赠者造成不同程度的损害。由于不了解捐赠者的个人信息, 在对人体样本的后续研究和处理中很可能会违背捐赠者的个人偏好或意愿, 甚至违背其宗教信仰, 这些都是研究人员或商业机构在不清楚捐赠者信息前提下可能发生的, 都会对捐赠者造成不同程度的伤害。爱因斯坦就曾经表示死后要求火葬, 但是在没有得到他生前同意的情况下一位青年的病理学家在爱因斯坦死后将他的大脑保存起来, 即使这位病理学家有多次机会征求他的同意 [3]。

除了以上所述匿名化处理可能对个人意向和偏好的违背外, 匿名处理还可能造成对生物样本所属的那个群体或种族的损害或歧视。对人体组织进行研究时, 很可能通过研究出来的人体组织的信息发现其归为哪一类群体或种族, 当被研究的组织在某些方面有劣势或更容易患病时, 那么这个群体或种族的每一个人都会在这些方面受到由此带来的伤害甚至歧视。

三、总结

生物样本库在现在生物技术迅猛发展的现实条件下实现商业化运作是一个长期的趋势, 一定的商业化也有利于其发展, 但在商业化过程中会涉及包括知情同意在内的大量的社会、伦理、经济利益等问题, 只有研究好处理好这些问题才能促进生物样本库的健康发展。

参考文献

[1]百度百科

[2]deCODE genetics, a global leader in human genetics[EB/OL].[2011-08-05]http://www.decode.com

标准样本库篇4

南京市人口密集、医疗资源丰富,拥有包括部、省、市属、部队、民营三级医院30 余家。许多大型医疗科研机构已开展了生物样本采集和建立临床数据库的工作, 但样本采集基本上是科研人员自发的、零散的、缺乏系统的设计和规范, 有些项目无固定经费支持,缺少具有法律保障的伦理监督,样本的采集、管理、使用无序,低水平重复和浪费现象比较严重。鉴于目前国内还没有生物样本库建设的官方标准,只有行业规范或最佳实践指导[1],在全市范围部署软件即服务(Software-as-a-Service,Saa S)模式的多中心生物样本管理信息系统,面向南京市的医疗研究机构提供信息资源共享,数据标准统一的服务有助于区域内的生物样本协同使用,建设市级转化医学中心方面取得实质性突破。

1 系统架构及部署模式

南京市多中心生物样本库(Biobank)是庞大的系统工程,涉及到各家医院生物样本库实验室、超低温冰箱、耗材、网络、服务器等硬件基础设施以及集中部署的样本库信息管理系统、配套的日常运营服务体系和标准化体系的建设[2]。

样本管理信息系统架构(图1),主要包括:数据资源管理层、转化应用管理层、Saa S平台管理层、访问门户层以及标准体系和安全认证体系建设。

(1)数据资源管理层。数据资源管理层主要由实验室研究信息子系统、临床信息采集子系统和生物样本资源数据库组成。其功能包括但不限于:捐赠者实验数据和临床资料的收集、追踪捐赠者的问卷、病例随访、知情同意,管理硬件设备、耗材及生物样本采集、处理、储存和运输等流程。

(2)转化应用管理层。实现各医疗研究机构的样本库实验室管理的QA/QC程序和文件,数据安全保护,报告管理(库存、采集、使用、QA等报告),临床和实验数据分析、挖掘,相应访问门户层的应用请求。通过对生物样本进行大数据分析,为各医疗研究机构的研究项目提供有效的数据支撑,促成医学生物学基础研究成果迅速有效地转化为可在临床实际应用的理论、技术、方法和药物,在实验室到病房(Bench To Bedside, 简称B-B)之间架起一条快速通道。

(3)Saa S平台管理层。管理全市各医疗机构对Saa S平台资源的申请,提供相应的应用服务、用户身份权限的认证、保证平台资源的配置和供给。

(4)访问门户层。提供内、外网用户访问市级生物样本库,提供用户注册申请、权限认定及记录用户的查询、检索操作等相应的服务。帮助样本使用者查询有研究价值的样本及其配套信息,同时也为区域内医疗研究机构和区域之间的协同项目转化提供服务[3]。

生物样本库管理信息系统采用Saa S模式部署。市卫生信息中心机房作为样本库的数据中心,数据中心端部署一套基于Saa S模式的生物样本库信息系统管理软件,各家医院的用户数据在数据库层面上进行隔离,各家医院通过专线访问各自的数据库。网络示意图,见图2。

区域卫生数据中心、各医院通过前置服务器晚间定时与信息中心的样本数据库同步数据,将从医院信息系统(HIS)、实验室信息系统(LIS)、电子病历(EMR)及电子健康记录(Electronic Health Record,EHR)等第三方系统中产生的相关捐赠者的数据同步到中心数据库。

2 信息系统建设的关键点

样本是否具有重要的科学研究价值,与之相匹配的实验室数据和临床资料的完整性、准确性和系统性决定生物样本的价值。因此样本相关的资料和数据的信息化管理是项目建设的核心问题,资料的收集、整理分析和数据的管理是保障研究结果质量的关键环节。样本数据资源管理及其相关标准的制定是系统建设初期的主要任务。

2.1 样本实验室信息管理

记录与样本在实验室中有关的数据,主要包括:1 样本基本信息。包括样本编码、样本所有者、样本类型、器官来源、取材照片、样本量、储存位置等;2 与样本质量相关的信息。包括采集、处理样本过程中产生的信息,样本存储条件及其他质控信息;3 样本库管理信息。包括操作记录、监控纪录和数据报告等,通过关联人员、设备的状态和样本实现对样本全生命周期的实时追踪。

2.2 样本临床资料信息管理

样本的临床资料应基于临床的规范化诊疗,由于分子分型及相关研究最终的评价标准是生存期的长短和生活质量,因此临床治疗过程记录和随访资料对样本的价值影响巨大,这些数据主要从医院HIS、LIS、医学影像存储与传输系统(PACS)、EMR以及区域卫生信息平台中的EHR等系统中获取。主要包括:1 捐赠者基本信息。包括身份信息、知情同意书、诊断信息、治疗信息、死亡信息等;2 捐赠者的入院、出院小结、手术记录、检查检验信息等EMR相关数据;3 捐赠者的随访信息以及生存环境、职业病史、家族史、遗传史等健康档案相关数据。

生物样本库信息管理系统与第三方系统(HIS、LIS、PACS、EMR等)进行生物样本相关的数据交换。数据表结构由生物样本库信息管理系统指定,第三方系统将数据写入到前置的服务器,然后定时通知生物样本库信息管理系统去取数据,接口示意图,见图3。以区域卫生信息平台中的居民电子健康档案系统为例,生物样本库信息管理系统的共享数据包括:捐献者姓名、身份证号、婚姻状况、民族、职业、临床诊断、地址、联系电话等。

2.3 标准规范的建设

(1)样本的选择、质量的保证、样本信息的、样本采集中的知情同意等均需建立标准规范,同时需建立操作时的标准化依据和实施过程的规范化质量监管机制。

(2)建立样本储存、转运和备份的技术标准和规范。尤其是已经建立的生物样本库,需要标准化后,转移到全市统一的样本库管理系统中。

(3)生物样本库资源信息的数字化、实验室及临床信息的标准化建设。

南京市多中心生物样本库的临床数据采集标准参考了国家EMR及健康档案的相关标准,通过样本提供者的身份证号关联相关数据。各医院根据各自重点学科的特长,在市级的标准框架下,制定样本的采集、存储、使用、销毁、共享协作等规范,并提交由专家委员会讨论,通过后形成南京市的生物样本规范。

3 多中心样本库信息管理系统的应用

生物样本库是融合生物样本实体、生物分子信息以及样本表型数据的综合资源, 对于开展人类疾病预测、诊断、治疗研究具有不可替代的重要作用[4]。转化医学的兴起和发展对生物样本资源的迫切需求与日俱增, 生物样本库从传统的单中心模式跃升到多中心网络化是必然趋势[5]。一个优秀的生物样本库信息化管理体系的建立,将在整体科研规划、相关的资源收集和管理、保存箱空间利用率、取样的准确性、随访的有效性、配套临床资料的管理、生物样本的质量控制及科研项目管理的有效性等方面带来巨大的价值[6]。以样本的科研协作为例,样本联网医院的医生可以使用该系统管理个人或团队采集的样本,设置样本出、入库、实验流程,是否共享、是否需要与其他人协作,共同完成某项课题的研究。

若某医生需要使用其他人的样本,该医生首先通过访问门户查看是否有其他医生开放样本、有共同协作的意愿,然后向样本库管理方提交协作申请,管理方会协调双方在样本的伦理、科研管理、成果分配等问题上达成协议后,授权给申请人使用,样本申请和使用流程示意图,见图4。

若项目的研究产生成果,项目的参与方可通过样本库管理信息系统向专家委员会申请成果的转化,将实验室成果迅速有效地应用于临床,同时临床上出现的问题,又能及时反馈到实验室,进行更深入的研究,它是一个不断循环向上的无止境的研究过程,也是转化医学的实现方式[7]。

4 展望

建设南京市多中心生物样本库是发挥地区性样本资源优势的第一步,如何合理运营管理,有机结合医疗、科研、生物制药产业链,将生物样本研究的成果向临床实践快速转化,将是下一步的主要任务[8]。同时,卫生行政主管部门应尽快建立统一标识的、与国际认证接轨的生物样本库信息系统建设标准,避免因标准不一而造成数据缺失、重复投入,有力保障数据信息的对接共享、安全维护和成果数据的国际认可[9]。

摘要：生物样本库是转化医学的重要基石,为研究人员发现和验证与疾病预测、预防、诊断、治疗提供高质量的生物样本资源与技术服务。本项目通过建设Saa S模式的市级多中心生物样本管理信息系统,提出了在区域范围内实现样本资源共享的信息系统架构,探索生物样本库与第三方信息系统之间数据整合利用,规范了区域内各联网医疗机构生物样本的采集、保存、共享使用流程。

关键词：生物样本库,转化医学,Saa S模式,生物样本管理信息系统

参考文献

[1]陆怡.转化医学与生物样本库现状[J].生命的化学,2012,(3):287-293.

[2]于广军,崔文彬,郑培永,等.临床与生物样本信息整合平台建设[J].中国卫生资源,2014,(3):89-90.

[3]张伟,殷伟东,陈平.区域医疗机构满意度评价系统的建设[J].中国医疗设备,2014,29(2):83-85.

[4]单甜甜,陆敏,赵晶,等.卫生信息技术与转化医学的关系及其应用[J].医学信息学杂志,2012,(11):65-67.

[5]王庆宝.生物样本库—转化医学与第六次科技革命[J].泰山医学院学报,2012,(1):7-8.

[6]张勘.转化医学发展中政府角色的探析[J].海医药,2012,(9):78-80.

[7]葛维挺,黄彦钦,郑树.生物样本库主动式管理的探讨与尝试[J].中国肿瘤,2015,(4):178-190.

[8]王晨,卫建平,李育民,等.建立标准化规范化肿瘤生物样本库是转化医学的重要保障[J].中国药物与临床,2013,(9):1176-1178.

【标准样本库】推荐阅读：

标准样本07-25