肿瘤基因表达数据(精选7篇)
肿瘤基因表达数据 篇1
摘要:提出了一种基于遗传算法 (GA) 优化支持向量机 (SVM) 分类决策树的用于肿瘤基因分类的新方法。该方法针对基因表达数据样本少维数高的特点, 采用了支持向量机分类间隔作为遗传算法适应度函数。利用遗传算法在每一决策树结点自动选择最优或近优的分类决策, 实现了对决策树的优化。试验结果表明, 在样本有限的情况下, 与传统的方法相比, 该方法比单个决策树算法具有更高的分类精度。
关键词:遗传算法,基因表达谱,决策树,支持向量机
0、引言
随着基因芯片技术的发展,采用数据挖掘技术对基因表达谱数据进行分析,挖掘和发现其中蕴含的信息和知识,是当前生物信息学研究的重点课题。肿瘤基因表达谱数据具有样本少,维数过高的特点,每个样本都记录了组织细胞中所有可测基因的表达水平,但实际上只有少数基因真正同样本类别相关,包含了样本分类信息,这类基因称为特征基因。目前人们对该问题已进行了一定程度上的探索,然而,如何在成千上万个基因表达谱中有效选出样本的分类特征基因,一直是肿瘤基因表达谱分析中的难点所在,仍有待深入研究。
决策树是数据挖掘中一种常用的分类方法,虽有些学者对决策树算法应用到基因表达谱分类进行了初步研究,但其仅将决策树之间的节点进行交叉,整个搜索空间是固定在有限的范围内,而这个范围又是由初始样本集确定的。另外有些实验中虽然产生变异节点,但是搜索的空间太大,不易产生局部最优解。因此,考虑到有限的样本会导致决策树算法无法很好的区分整个数据集,本文尝试引入遗传算法(GA),结合决策树(SVM)和遗传算法(GA)的优势,利用遗传算法的全局搜索能力优化决策树,获取最优的参数组合,并利用决策树算法在处理连续属性时的优势来改进遗传算法中变异算子,减少搜索时间,提高分类精度。
1、问题描述
基于肿瘤基因表达谱数据的分类问题,就是根据已知的肿瘤基因样本数据,划分为训练集和测试集。利用遗传算法优化支持向量机决策树算法构建分类器,对测试集数据进行分类分析,确定肿瘤的类型。基本步骤如下图1所示。
2、遗传算法优化决策树的原理
遗传算法 (Genetic Algorithm,简称GA) 是近几年发展起来的一种崭新的全局优化算法,它借用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现各个个体的适应性的提高。由于仅采用单个决策树算法对基因表达数据进行分类时,不能有效的对全部数据进行分类,分类精度较低。而遗传算法由于具有强大的全局优化搜索功能,能使个体之间的信息进行交换,对决策树进行调整和重新组合,进而出现更优的决策树。
2.1 遗传算法的设计
1)初始种群的产生:由于种群数目过大增加遗传算法的运算时间,同时会使种群形态过于分散,使算法收敛困难,所以我们选择种群规模的大小为训练样本的30%。
2)编码:本文采用二进制编码的策略来实现原始训练样本集类别的编码。把所有的染色体表示成一个长度为K (K由初始种群数目决定)的二进制字符串,每一个二进制位是0或者1。1表示基因在特征基因子集中,而0表示不在其中。
3)适应度函数的确定:染色体的适应度函数由基因子集的分类精度和基因子集大小决定。采用精英机制,将适应度最高的15%挑选出来,作为新一代种群。
4)遗传算子:遗传算法是根据优胜劣汰的原则选择种群中的优秀个体。为了使染色体完整地包含当前决策节点训练样本所属的类别种类,又避免染色体基因出现重复,本算法只采用了选择操作算子和变异操作算子。
1) 选择算子。如果还没有满足遗传算法终止的条件,根据"适者生存"的原理,从上一代种群的遗传结果中繁殖适应度较大的染色体个体进入下一代种群的继续进行遗传操作。显然适应度高的个体,繁殖的下一代染色体数目较多;而适应度较小的染色体个体,繁殖的数目较小,甚至被淘汰。
2) 变异算子。变异算子即在染色体中引入新基因以促进种群的进化。根据选择概率和适应度高的原则从父代子群中选择染色体。一旦选中某个染色体进行遗传操作,, 则随机选择其中1个或者多个基因进行变异。单个基因变异概率较高,而多个基因变异一般赋予较低的概率。此外,为了防止同一条染色体中出现重复基因,染色体中某一比特位上的基因发生变异时,变异后的基因编码对应的比特位的基因应相应地变换为变异比特位的原基因编码。
2.2 遗传算法优化决策树生成算法
将遗传算法(GA)应用到支持向量机(SVM)优化中时,决策树生成算法的基本步骤如下:
SETP 1:将全部训练样本集所属类别按实值编码策略进行编码,并在根节点调用GA将原始训练样本所属类别划分为两类。
SETP 2:判断各子节点是否只包含一类样本,若是,则转向步骤4,反之转向步骤3。
SETP 3:若结点包含两类以上样本,剔除其父节点染色体中本子节点不包含的类别对应的基因,形成新的染色体,并调用遗传算法(GA)将本节点的样本所属类别划分为两类。转向步骤2。SETP 4:循环结束,生成最优决策树。
3、实验结果及说明
本实验中所有的数据均采用Singh D等人公布的前列腺癌基因表达谱数据集,做为实验样本集。前列腺癌基因表达谱数据集共有102个样本,其中50个正常样本,52个患病样本,每个样本均含12700个基因的表达数据。将这个数据集划分为训练样本集和测试样本集,50个正常样本中,28个作为训练样本,21个作为测试样本。52个患病样本中,31个为训练样本,21个为测试样本。如图2所示。
本文是基于训练集而不是全部的数据集的数据来挑选特征基因,然后用GA/SVM算法设计的分类模型对测试集的样本进行测试,从而保证了实验的客观性。由于遗传算法是随机方法,不能确保每次运行的结果都能得到相同的特征子集。因此,本文求取15次运行结果的均值和标准差来评价GA/SVM方法的性能。对前列腺癌基因表达谱数据集的测试集运行GA/SVM方法15次,选出了15个基因子集,并统计这15个子集的平均性能指标。实验中的算法均采用VC++编程实现。从结果中很明显可以看到(如表1所示),对于不同的样本抽样和种群大小,通过遗传算法优化后的精度要比普通的单个决策树算法的精度高。对于单个决策树生成算法,每个子集包含特征基因为64个,平均分类精度仅为81.39%,而优化后的决策树精度为95.35%,高于单个决策树生成的精度。
实验证明,通过遗传算法对决策树进行优化,能得到更高的精度。尤其是待分类数目较多,在样本有限的情况下,通过对决策树的优化得到更加满意的结果。
3、结束语
本文提出的遗传算法(GA)优化支持向量机(SVM)决策树算法参数,获取了最优的参数组合,改进遗传算法的变异算子,减少了搜索时间。把该方法应用到前列腺癌基因表达谱数据集的分类中,实验结果表明了其有效性和可行性,对肿瘤的临床诊断和生物医学研究起到一定的参考作用。
参考文献
[1]Singh D, Febbo P, RossK, et al.Gene expression correlates of clinicalprostate cancer behavior[J].Cancer Cell, 2002, 1 (2) :203-209.
[2]Golub R R, Slonim D K, Tamayo P, et al.Molecular classification ofcancer:class discovery and class prediction by gene expression monitoring[J].Science, 1999, 289:531-537.
[3]Alon U, Barkai N, Notterman D A, et al.Broad patterns of geneexpression revealed by clustering analysis of tumor and normal colon tissuesprobed by oligonucleotide arrays[J].Proc Natl AcadSci Usa, 1999, 96:6745-6750.
[4]Takahashi F, Abe S.Decision-tree-based multiclass support vectormachines[C].Proc of the 9th Int Conf on Neural Information Processing.Singapore, 2002, (3) :1418-1422.
[5]何爱香, 朱云华, 安凯.基于遗传算法和支持向量机的肿瘤分子分类[J].数据采集与处理, 2007, 22 (1) :84-89.
[6]连可, 陈世杰, 周建明.基于遗传算法的SVM多分类决策树优化算法研究[J].控制与决策, 2009, 24 (1) :7-12.
肿瘤基因表达数据 篇2
1 survivin基因的结构特点及组织分布
survivin基因与EPR-1位于人染色体17q25的同一基因组, 全长14.7kb, 含3个内含子、4个外显子, 编码由142个氨基酸组成的相对分子质量约为16389的蛋白质。其组织分布有明显特征性, 在胚胎组织中表达丰富, 在除胎盘、胸腺和生殖腺外的正常分化成熟组织及癌旁组织中无表达, 而当细胞发生转化或恶性变时又重新表达, 在大多数癌组织中过度表达。
M a h o t k a等[1]鉴定了2个新的人类survivin基因剪接异构体, survivin-△Ex3和survivin-2B。前者缺乏外显子3, 保留了抑制凋亡的活性;后者保留部分内含子2作为隐蔽的外显子, 但几乎无抑制细胞凋亡的活性。另外, 在人和鼠组织中发现3个survivin基因的异构体, 即survivin-140、survivin-121和survivin-40, 前二者具有抑制细胞凋亡的作用。这3种异构体在胚胎组织中均有表达, 而在胸腺和睾丸组织中只有survivin-140高表达, 在所有分化成熟组织中均有survivin-121表达, 而无survivin-40表达。
2 survivin基因的生物学功能
研究表明, survivin基因可抑制多种细胞凋亡刺激因子, 从而抑制细胞凋亡, survivin基因主要通过以下3种方式直接或间接抑制caspase活性而抑制细胞凋亡: (1) 直接结合caspase-9封闭辅助性线粒体源性caspase激活因子 (SMAC) 以保护IAP家族成员免受其抑制, 增强IAP家族成员功能, 直接对抗SMAC作用。 (2) survivin基因的表达具有细胞周期依赖性, 在细胞分裂过程中起重要作用, 其在肿瘤中过度表达可能通过克服与细胞凋亡相关的细胞周期调定点, 使细胞能越过有丝分裂而异常增生。 (3) survivin基因还在血管形成中起重要作用, 在正常皮肤非增生性毛细血管的内皮细胞中无表达, 而在体内肉芽组织新生血管中表达较高, 是血管形成素1 (Ang-1) 一个新的靶基因, 与血管内皮生长因子 (VEGF) 、碱性成纤维细胞生长因子 (FGF) 关系密切, 其表达可能调节生理性血管修复或病理性 (肿瘤) 血管形成, 对肿瘤细胞的浸润、迁移起重要作用。
survivin基因是肿瘤发生、发展的枢纽基因, 与其他细胞凋亡相关基因关系密切。survivin基因与bcl-2基因 (另一重要的细胞凋亡抑制因子) 的表达呈正相关, 它们都对由放疗和化疗所诱发的细胞凋亡有拮抗作用, 且二者的抗细胞凋亡作用有协同性;野生型p53基因可直接或间接抑制survivin基因转录, 而survivin基因则参与了P53基因依赖的细胞凋亡途径。
3 survivin基因在妇科肿瘤中的表达
3.1 宫颈癌
高危型人乳头状瘤病毒 (HPV) 的感染是已确认的宫颈癌的关键致病因素。Lanham等发现, 在感染HPV的宫颈上皮内瘤变 (CIN) 患者的宫颈涂片中, survivin基因阳性表达率为40%, 其表达率与CIN级别无关, 在HPV与survivin基因均有表达的CINⅡ、Ⅲ级标本中HPV 16型E6蛋白的转录较无共同表达者低7倍。提示, 与survivin基因的共同表达可能使HPV以较低的E6蛋白浓度引起细胞复制, 认为survivin蛋白的表达允许细胞以另一机制连续复制HPVl6型E6蛋白, 低浓度E6蛋白可使表达survivin基因的细胞增生。Frost等则发现, 在正常宫颈黏膜组织、宫颈鳞状上皮内瘤变组织中细胞核survivin基因均可表达阳性, HPV感染且survivin基因与HPV-DNA在同一区域表达 (表达的共区域化) 者表达最强, 而未成熟鳞状化生细胞和鳞状上皮细胞癌中细胞质survivin基因表达阳性。故认为, survivin基因可能在宫颈上皮细胞的正常鳞状分化过程中起作用, 并与HPV感染导致的宫颈上皮细胞异常增生有关。可见, 在宫颈癌及其癌前病变中, survivin基因与HPV感染的关系密切, 值得进一步深入研究。Yoshida等以免疫组织化学法分别检测宫颈鳞、腺癌组织中survivin基因的表达, 结果发现, survivin基因在宫颈腺癌中表达显著增高, 提示, survivin基因过度表达可能是宫颈腺癌难于诊断、易发生化疗耐药的机制之一。王梅等研究发现, survivin基因在正常宫颈组织中无表达, 在宫颈癌组织中则高表达, 其表达阳性率与宫颈癌的病理分级和临床分期呈正相关, 且与宫颈癌组织中p53、Bcl-2蛋白异常表达密切相关。认为, survivin基因异常表达引起的细胞凋亡机制在宫颈癌的发生中起一定作用, 其过度表达提示宫颈癌预后不良。
3.2 子宫内膜癌
Konno等[2]研究发现, 正常子宫内膜组织中有survivin基因表达, 其表达高峰在孕激素水平较高的分泌晚期, 增生期几乎无表达, 在子宫内膜基质中也无表达。这与子宫内膜增生期Bcl-2高表达相反, 认为survivin基因在正常月经周期中起到生理平衡的作用, 此作用与Bcl-2在正常月经生理中所起的作用无关, 由此推断, 月经周期中孕激素水平的升高是survivin基因表达增加的原因。
Takai等[3]报道, survivin蛋白在正常增生期内膜中阳性表达率为0%~5.1%, 分泌期子宫内膜为0%~15.8%, 在内膜癌组织细胞胞核或胞质内表达丰富。说明, survivin墓因的表达与子宫内膜癌的临床分期、病理类型、肌层浸润深度、预后、存活率等指标密切相关。Lehner等[4]则发现, survivin基因在子宫内膜样腺癌中的表达随其病理分级的增加而增高, 认为survivin基因不是子宫内膜癌的特异性指标, 但反映了子宫内膜癌在子宫内膜黏膜层形成的重要机制。Tarkowski等以免疫组织化学法检测子宫内膜癌、增生过长子宫内膜组织中survivin蛋白表达分别为100%、73%, 子宫内膜癌内膜组织survivin蛋白表达显著高于增生过长子宫内膜, 且与凋亡指数的增加显著相关。以上研究均表明, survivin基因在正常子宫内膜的周期性改变及子宫内膜癌的发生、发展中起重要作用。
3.3 卵巢肿瘤
化疗在卵巢癌的治疗中占重要地位, 而survivin基因与化疗耐药关系密切, 故survivin基因与卵巢癌的研究成为近期研究热点。Cohen等以免疫组织化学法检测卵巢癌组织中survivin基因的表达, 结果显示, 其阳性表达率为细胞核74%、细胞质73%。survivin基因表达与bcl-2、Bcl-x、Bax的表达、卵巢癌手术病理分期、患者总体生存率无关, 但与显示预后较差的指标如病理分级高、病理类型差、p53基因变异等因素显著相关。认为, 卵巢癌细胞核有survivin基因表达是预测卵巢癌患者复发风险增加或总体生存率降低的独立指标, 在细胞质中有survivin基因表达的卵巢癌对以紫杉醇或顺铂为基础的化疗方案耐药, 预后差, 临床或病理完全缓解率低。Takai[3]等发现, survivin基因在卵巢良性囊腺瘤中无表达或低表达 (0%~12.1%) , 在恶性卵巢上皮性癌细胞质或细胞核中表达丰富, 认为其表达与卵巢癌手术病理分期、病理类型、预后、生存率等指标显著相关。Yoshida等研究发现, I期卵巢透明细胞癌组织中survivin蛋白表达显著高于浆液性腺癌, 透明细胞癌原发灶中survivin蛋白表达较转移灶有升高的趋势, 且细胞核表达者发病间隔期明显缩短, survivin基因通过上调基质金属蛋白酶2 (MMP-2) 的表达而增加卵巢癌细胞的浸润性。提示, survivin基因的高表达是引起透明细胞癌临床分期早、对以铂类为基础的化疗药物耐受、不易诊断等特点的原因之一。
3.4 滋养细胞肿瘤
研究表明, survivin基因在滋养细胞肿瘤的发生、发展中同样起关键作用。Lehner等[5]通过检测妊娠期前9个月不同时期 (每3个月) 、先兆子癫、妊娠晚期、葡萄胎胎盘标本中survivin蛋白的表达, 结果显示, survivin蛋白表达阳性率为81% (其中葡萄胎96%, 其他胎盘组织68%) , 葡萄胎胎盘组织中survivin蛋白表达显著高于其他正常胎盘组织。认为, 葡萄胎胎盘组织中survivin基因表达增加提示细胞凋亡调节在滋养细胞肿瘤形成过程中起作用, 同样也在正常妊娠进展中起作用。Kato等[6]对完全性葡萄胎组织及正常胚胎组织进行研究发现, 完全性葡萄胎中survivin基因表达显著升高。认为, survivin基因过度表达阻断了对正常绒毛细胞凋亡的调节, 减慢了绒毛滋养细胞的更新, 导致绒毛滋养细胞只增生不凋亡, 从而引起滋养细胞的无限制增长及恶性变的发生。Shiozaki等用RT-PCR技术、免疫组织化学法检测绒毛膜癌细胞系、滋养细胞系及正常胎盘组织中survivin m RNA和蛋白的表达。结果显示, 3种组织中均有survivin基因表达, 其反义寡核苷酸诱导绒毛膜癌细胞系、滋养细胞系凋亡呈剂量依赖性。表明, survivin基因在正常绒毛滋养层细胞、绒毛外滋养层细胞、绒毛膜癌细胞中抑制细胞凋亡, 在正常妊娠、绒毛膜癌的发生及治疗中均起重要作用。
4 survivin基因与妇科肿瘤的治疗
survivin基因是肿瘤特异性细胞凋亡抑制因子, 在癌旁及正常组织中不表达, 且与肿瘤放、化疗中的耐药密切相关, 是理想的基因治疗靶。Mc Kay等将survivin基因显性负性突变体survivin T34A及procaspse-3以腺病毒为载体转染至卵巢癌细胞系中进行结合性基因治疗, 结果表明, 将腺病毒介导的survivin T34A与procaspse-3共同转染明显提高了survivin T34A诱导细胞凋亡的能力。将上述复合体转染卵巢癌小鼠模型, 长期观察证明, survivin T34A与procaspse-3的共同转染后卵巢癌小鼠的存活率明显增加。认为, 阻断内源性survivin基因活性的同时, 表达高水平的procaspase-3有利于蛋白裂解及激活末端caspase级联, 从而导致卵巢癌细胞的死亡。Zaffaroni等则发现, 在人卵巢癌细胞中稳定转染survivin c DNA后, 细胞对紫杉醇类药物的耐受性增加4~6倍, 导致紫杉醇引起的细胞凋亡反应降低, 但不影响细胞对顺铂等铂类药物的敏感性。临床试验中接受紫杉醇类药物化疗的卵巢癌患者, survivin基因过度表达者的临床或病理完全缓解率较survivin基因无表达或低表达者明显下降, 而接受铂类化疗者则无此现象。提示, survivin基因的表达与卵巢癌细胞对紫杉醇敏感性有直接关系。另有研究发现, 卵巢癌组织中DNA去甲基化阳性率为88.4%, 而其去甲基化酶的表达与survivin基因外显子1及c-er Bb2启动子的去甲基化相关, 因此认为, 二者可能是卵巢癌中DNA去甲基化作用的靶点, 为survivin基因作为卵巢癌治疗靶点提供了另一途径。
5 展望
survivin基因作为一种新的细胞凋亡抑制蛋白, 在细胞的有丝分裂和血管形成中起重要作用, 其组织分布和独特的作用机制使得有关survivin基因的研究成为近年研究的热点。但仍有许多问题有待进一步研究, 如survivin基因究竟是如何在细胞分裂中发挥其细胞凋亡调节的潜在功能、其剪接异构体如何调节细胞凋亡、在基因治疗中如何充分发挥其靶向作用等。survivin基因与妇科肿瘤的发生、发展和预后密切相关, 是妇科肿瘤靶向诊断和治疗的一个很好的靶基因。目前, 关于survivin基因在妇科肿瘤中表达的研究已较成熟, 但在治疗方面除卵巢癌外, 其他妇科肿瘤尚无以:survivin基因为治疗靶基因的相关报道, 而此方面的深入研究必将为妇科肿瘤的基因治疗及克服耐药提供依据。
参考文献
[1]Frost M, Jarboe EA, Orlicky D, et al.Immunohistochemical local-ization of survivin in benign cervical mucosa, cervical dysplasia, and invasive squamous cell carcinoma[J].Am J Clin Pathol, 2002, 117:738-744.
[2]Yoshida H, Semi T, Hyun Y, et al.Expression of survivin and matrix metalloproteinases in adenocarcinoma and squalors cell carcinoma of the uterine cervix[J].Oncol Rep, 2003, 10:45-49.
[3]王梅, 王冰, 王晓梅, 等.凋亡抑制相关基因survivin在子宫颈癌中的表达及其与bcl-2, p53基因表达相关性的初步研究[J].中华妇产科杂志, 2001, 36:546-548.
[4]Shiozaki A, Kataoka K, Fujimura M, et al.Survivin inhibits appt-osis in cytotrophoblasts[J].Placenta, 2003, 24:65-76.
[5]McKay TR, Bell S, Tevev T, et al.Procaspase3expression in ovarian carcinoma cells increases survivin transcription which can be countered with a dominant-negative mutant, survivin T34A;a combination gene therapy strategy[J].Oncogene, 2003, 22:3539-3547.
肿瘤基因表达数据 篇3
1 资料与方法
1.1 材料
27例MFH组织及相应的癌旁正常纤维组织均取自哈尔滨医科大学附属第一医院2010年4月至2015年1月确诊为MFH并进行手术治疗的患者,肿瘤组织及癌旁正常纤维组织均经病理证实。其中男17例,女10例;年龄31~83岁,平均(58.7±13.5)岁。术中取材时先取正常纤维组织,再取肿瘤组织,并将组织切成方块,分装,放入液氮中保存,随后置于-80℃冰箱保存。TNM分期按照2010年AJCC标准,Ⅰ期5例,Ⅱ期7例,Ⅲ期11例,Ⅳ期4例。组织学亚型按照新版WHO软组织肿瘤分类(2002)进行:多形性MFH 14例、巨细胞性MFH 8例,炎性MFH 5例。
1.2 方法
a)总RNA的提取:将切取的MFH组织和癌旁组织迅速放入液氮中,快速转移至-80℃冰箱内存放。用Trizol试剂(Invitrogen公司)提取组织总RNA,紫外分光光度计测定A260 nm/A280 nm值,1%琼脂糖凝胶电泳证实RNA完整性。b)c DNA合成:取组织提取RNA 1.0μg,用RT-PCR试剂盒DRR019A(TAKARA公司)合成c DNA,反应条件和反应体系参考试剂盒说明书。c)聚合酶链反应扩增目的基因:取分别来自MFH组织和相对应的癌旁正常纤维组织的c D-NA为模板进行PCR反应,以GAPDH为内参,对WT1,MPP11,PRAME,RHAMM,NY-CO-38,G250,NY-ESO-1,HTERT,BAGE的基因进行检测,引物设计参见文献[3]。9种CTA基因的引物序列、PCR反应退火温度、产物片段长度以及循环数见表1。对于所有的抗原,变性温度为94℃,延伸温度72℃。全部引物均经Gen Bank查询,为目前已知基因特异性引物序列。所有反应均经预变性,94℃5 min,扩增35个循环,72℃延伸5 min。d)DNA序列测定:随机抽取上述9种CTA的阳性PCR产物(各3例)进行DNA序列测定。DNA序列测定由上海基康生物技术公司完成。所得序列与基因库检索序列一致,证实所扩增产物为目的基因的片段。e)将在恶性纤维组织瘤中表达率最高的肿瘤睾丸抗原相关基因与临床相关指标(性别、年龄、组织学亚型、临床分期)进行统计学分析,寻求是否存在关联。
1.3 统计学处理
计数资料行χ2检验,全部数据由SPSS19.0统计软件完成,P<0.05为有统计学意义。
2 结果
2.1 CTA基因在MFH及相对应癌旁正常纤维组织中的表达
在2 7例MFH组织标本中,表达率最高的是WT 1(77.8%),其次是MPP11(74.1%),PRAME(63.0%),RHAMM(59.3%),NY-CO-38(51.9%),G250(44.4%),NY-ESO-1(44.4%),HTERT(40.7%),BAGE(14.8%),如图1所示。9种CTA基因在全部正常纤维组织中均无表达。肿瘤组织中至少有1种基因表达的频率是96.3%(26/27),3种或3种以上同时表达概率为85.2%(23/27)。
2.2 在MFH中CTA基因的表达与临床指标的关系
经统计学分析,CTA基因在MFH中表达率最高的WT1与临床相关指标(性别、年龄、组织学亚型、临床分期)无显著相关性(P>0.05),如表2所示。
3 讨论
MFH是一种较为常见的软组织肉瘤,恶性程度高,易发生转移和复发,预后差。在现阶段,由于病因未得到确定,对于MFH的早期诊断、病程监控、治疗都没有确切的办法。近年来,MFH患者生存率随着治疗方法的改进得到一定程度的提高。但即使采取以手术彻底切除加长期化疗的方法,患者的五年生存率仍低于70%[4,5]。这种肿瘤严重威胁着人类的生命健康,因此急需寻找新的方法来提高治疗效果。
近年来,随着肿瘤学、免疫学以及分子生物学等相关学科的发展,肿瘤免疫治疗的研究突飞猛进,成为继手术、放疗和化疗之后第四种抗肿瘤治疗手段。目前,在肿瘤治疗中免疫治疗只能作为辅助手段,原因有两个:其一是真正实用的肿瘤特异性抗原十分有限;其二是受多种因素影响,这些仅有的抗原免疫原性低,难以完成抗原的有效递呈,因而开展免疫治疗的关键所在是获得特异性肿瘤抗原[1]。作为免疫治疗其中之一,基因疫苗的治疗策略是利用人体免疫系统已存在的病原体免疫反应,将肿瘤特异性标记物的基因序列与病原体的基因序列融合制成基因疫苗,在人体内激活高水平的T淋巴细胞,从而诱导、维持有效的免疫应答反应,达到治疗目的。由于疫苗治疗具有特异性、在体内免疫效应维持时间长等优点,目前以CTA肽为主的疫苗已成为研究热点[1,6,7]。
1991年有学者通过改进T细胞表位克隆从黑色素瘤细胞中分离并鉴定了第一个肿瘤睾丸抗原MAGE-1,CTA逐渐被人们熟知。CTA基因在正常组织(睾丸和胎盘组织)和某些肿瘤细胞中表达[2]。除此之外,作为一类新的肿瘤特异性抗原,CTA还有如下主要特点:a)大多数CTA基因定位于X染色体;b)一般以多个家族成员的形式存在;c)CTA在各种来源不同的肿瘤组织中的表达一般具有异质性[8]。目前有关研究发现CTA基因及其编码产物CTA在细胞分化增殖、细胞凋亡、信号传导、基因转录、减数分裂等方面起作用[9,10,11,12]。此外,多项研究报告表明,作为肿瘤标记物,还可通过巢式RT-PCR技术检测外周血、脑脊液、腹水中CTA的mRNA的表达及含量,有助于发现少量肿瘤细胞的存在,从而用于肿瘤的早期诊断及转移复发的监测[8]。
目前,虽然大部分CTA功能尚未完全明确,与肿瘤的发病机制也未查明,但是CTA因具有免疫原性及表达局限性,而且CTA基因编码的200余个产物已被鉴定,为含有CTA的恶性肿瘤的免疫治疗提供了充分的选择,使其在肿瘤疫苗和肿瘤免疫治疗中极具发展潜力,成为一研究热点[1,13]。近年来,隆起性皮肤纤维肉瘤、尤文氏肉瘤、白血病等肿瘤相继发现了特异性标记物,而且,CTA的临床试验在黑色素瘤等肿瘤的治疗上已取得了令人鼓舞的进展[14,15],但MFH的特异性标记物却没有相关报道。
为了解CTA在MFH中的表达特点,我们检测了9种CTA基因在MFH组织的表达,发现这些CTA基因均有不同程度的表达,表达率最高的是WT1(77.8%),其次是MPP11(74.1%),PRAME(63.0%),RHAMM(59.3%),NY-CO-38(51.9%),肿瘤组织中至少有1种基因表达的频率是96.3%(26/27),3种或3种以上同时表达概率为85.2%(23/27);全部CTA基因在正常纤维组织中均无表达。本组实验还对表达率最高的WT1的表达和临床相关指标(性别、年龄、组织学亚型、临床分期)的关系进行了分析,结果显示无显著相关性,但本实验病例较少,是否存在关联有待进一步研究验证。结果提示上述5种CTA基因在MFH中呈现高度特异性表达,由于CTA在肿瘤中呈现异质性表达,这就为开展研究MFH的多价疫苗提供了实验依据,使得CTA作为肿瘤疫苗用于MFH的特异性免疫治疗成为可能,而且多价疫苗还可有效避免因肿瘤抗原表达的个体差异和抗原调变所致的免疫逃逸,进而扩大了免疫治疗适用范围,效果明显优于单一多肽疫苗。
CTA基因的研究把肿瘤发生、发展与生殖细胞的产生和成熟紧密联系在了一起,如上所述,CTA在众多肿瘤中均有不同频率的表达,而且多呈协同表达。Lee等[16]发现长期存活的睾丸癌患者有继发恶性纤维组织细胞瘤的可能,因CTA具有高度的表达限制性,提示CTA在恶性纤维组织细胞瘤中可能出现高表达,本次试验结果与多种CTA在恶性纤维组织细胞瘤中呈现高表达相符合,而且多种CTA之间存在协同表达现象。由于本次试验的局限性,CTA与恶性纤维组织细胞瘤之间的关联仍需要更多的研究来检验。
肿瘤基因表达数据 篇4
1 材料与方法
1.1 研究对象
标本选自2007年6月到2009年3月在解放军总医院行手术切除病例的病理资料存档胰腺癌石蜡标本45例及胰腺浆液性囊腺瘤石蜡标本15例,正常胰腺组织石蜡标本8例。其中男31例,女14例,男女比例2.2:1。年龄30~78岁,平均年龄58.8岁,中位年龄60岁。对照组胰腺良性肿瘤15例。其中胰腺癌临床分期采用TNM分期(UICC胰腺癌分期第六版,2002),ⅠA期2例,ⅠB期2例,ⅡA期26例,ⅡB期15例。病理分级中分化26例,低分化19例。术前未经过任何化疗和放疗。
1.2 主要试剂
h-PTTG兔抗人多克隆抗体为美国Santa Cruz公司产品,免疫组化试剂盒PV-9001,均购自北京中杉金桥生物技术有限公司。试剂盒内容包括:封闭性正常兔血清工作液、生物素标记二抗工作液、辣根标记链霉素卵白素工作液。
1.3 研究方法
采用免疫组织化学SP法,切片及防脱片处理后的石蜡标本脱蜡至水后一张作HE染色用于重新确认病理结果,其余切片作免疫组织化学染色。经PBS液浸洗及新鲜3%H2O2封片后进行抗原修复,滴加正常山羊血清封片,滴加一抗4℃孵育,湿化盒中过夜。滴加二抗,PBS液冲洗后滴加链霉素抗生物素-过氧化酶标记的抗体,DAB显色,苏木素复染,乙醇梯度脱水,封片观察。
1.4 结果判定
以PBS代替第一抗体作为阴性对照,已知结肠癌阳性切片作为阳性对照。免疫组化结果判定参考Fromowitz[1]等的方法,规定细胞浆出现明确的淡黄色颗粒为弱阳性表达记1分,棕黄色颗粒为阳性记2分,棕褐色颗粒为强阳性表达记3分,无染色或与背景一致的淡黄色为阴性记0分。细胞浆着色细胞数<15%或与背景一致淡黄色或细胞浆不显色为阴性记0分,15%~25%记1分,25%~50%记2分,50%~75%记3分,大于75%记4分。根据阳性信号强度和阳性细胞数综合计分,以0~1分作为切片阴性—,2~5分为弱阳性+,6~9分为阳性++,10~12分为强阳性+++,阴性和弱阳性定义为低表达,阳性和强阳性定义为高表达。
1.5 统计学处理
统计学处理应用SPSS10.0软件进行秩和检验和卡方检验,P<0.05表示两组间差异有统计学意义。
2 结果
h-PTTG蛋白染色定位于细胞浆,但也有部分定位于细胞核,阳性表达为棕褐色颗粒。45例胰腺癌标本h-PTTG的表达结果见表1,其表达情况与肿瘤临床病理之间的关系见表2中。经Pearson卡方χ2检验PTTG在胰腺癌中的阳性表达与在癌旁组织、正常胰腺组织以及胰腺良性肿瘤中的表达阳性率差异有统计学意义(P<0.05),与肿瘤局部侵润。肿瘤临床病理分期关系密切(P<0.05)。h-PTTG在胰腺癌组织中的染色结果见图1~3。
注:第1组与第2、3、4组之间的阳性率差异有统计学意义,P<0.05。
注:以上统计分析均按低表达(-、+)、高表达(++,+++)两组比较:TNM分期组为I、II相比较
3 讨论
垂体瘤转化基因(PTTG)是Pei等[2]于1997年从GH4型大鼠垂体腺瘤中分离获得并成功克隆的癌基因,并于1998年自人胎肝cDNA文库中克隆出人的同源物h-PTTG。h-PTTG家族包含3个成员,分别命名为h-PTTG1,h-PTTG2和h-PTTG3。在人类肿瘤组织主要高表达h-PTTG1即通常所提到的h-PTTG。在成人大多数正常组织h-PTTG表达较弱,甚至检测不到,含高增殖活性细胞的正常组织,如睾丸、胸腺、胚胎肝中有高表达,而在肺癌、乳腺癌、肝癌、垂体肿瘤、结肠癌、食管癌等肿瘤细胞中h-PTTG都有高表达,其在肿瘤发生发展中的作用主要依赖其表达水平[3]。本研究中,h-PTTG在胰腺癌组织中的阳性表达率高达88.9%(40/45),其中26.7%表现为高表达,与癌旁组织、正常胰腺组织、胰腺良性肿瘤(浆液性囊腺瘤)比较有统计学差异(P<0.05)。
与肿瘤的发生发展一样,胰腺癌的发生发展是一个复杂的多因素、多基因、多因子、多作用水平、多步骤长期作用的结果,国内外的多项研究显示h-PTTG参与肿瘤发生发展主要有以下几个可能的作用机制:(1)因此PTTG的高表达在细胞有丝分裂过程中使子代细胞非整倍体形成,导致染色体不稳定,增加突变几率,促进肿瘤的发生[4]。(2) h-PTTG是功能强大的细胞转化基因,单独作用可以诱导细胞增殖转化,诱导肿瘤发生。研究显示h-PTTG可刺激碱性成纤维细胞生长因子(b-FGF)的表达和细胞外分泌[5],致体外细胞转化和体内实体肿瘤形成。(3)诱导依赖和非依赖p53的细胞凋亡和形成染色体非整倍体作用[6]。(4) h-PTTG可通过信号传导通路激活c-myc癌基因,也是h-PTTG参与肿瘤发生的机制[7]。(5) h-PTTG可能通过反式激活作用激活原癌基因、生长因子等途径导致肿瘤发生及侵袭[8]。本研究结果提示,h-PTTG在胰腺癌中的表达高于癌旁组织、胰腺良性肿瘤及正常胰腺组织,猜测h-PTTG通过以上某种或某几种机制参与了胰腺癌的发生发展。在癌旁组织中也有33.3%的阳性表达率,有理由推测h-PTTG表达阳性的癌旁组织很可能具有潜在的向胰腺癌演变发展的风险,包括在良性肿瘤中的h-PTTG阳性表达是否也提示有潜在恶变的高风险,值得进一步去研究探讨。h-PTTG的表达与临床病理指标间的关系数据可以看出其表达与肿瘤大小及淋巴结转移无明显相关性,而在伴有局部侵犯组的高表达率为73.7%,相对应无局部侵犯组为28.6%,经统计学分析两组间的差别有统计学意义(P<0.05),提示h-PTTG可能通过某种机制参与了胰腺癌侵润发展的过程,伴随着h-PTTG的高表达,胰腺癌更具有侵袭性。h-PTTG在低分化胰腺癌中的高表达率(16/19,89.5%)要高于在中分化胰腺癌中的高表达率(14/26,46.2%),推测h-PTTG与胰腺癌的分化之间存在某种相关性,h-PTTG的高表达具有促进细胞增殖的作用,其表达越高,作用越强,非整倍体细胞越多,从而胰腺癌细胞分化程度越低,恶性程度越高。h-PTTG可能通过某些机制参与了胰腺癌的发生发展过程,并且影响胰腺癌的侵袭能力和分化程度,而这胰腺癌两个生物学特点对早期诊断及治疗效果有直接影响,是否能将h-PTTG纳入为判断胰腺癌治疗和预后的肿瘤标志物值得进一步研究。
摘要:目的:探讨人垂体瘤转化基因(h-PTTG)在胰腺恶性肿瘤中的表达与病理分化与临床分期之间的关系。方法:运用免疫组织化学染色的方法观察h-PTTG在45例胰腺癌及癌旁组织、15例胰腺良性肿瘤、8例正常胰腺组织中的表达情况。结果:h-PTTG在45例胰腺癌组织中的阳性表达率为88.9%与癌旁组织、正常胰腺组织和胰腺良性肿瘤中的表达差异有统计学意义(P<0.05)。h-PTTG的表达强弱与患者肿瘤大小、淋巴转移无关(P>0.05),与肿瘤局部侵润和肿瘤分化程度相关(P<0.05)。结论:h-PTTG在胰腺癌中高表达提示其与胰腺癌的恶性程度相关,并且在胰腺癌的侵润转移等生物学行为中起促进作用。
关键词:胰腺癌,人垂体瘤转化基因(h-PTTG),免疫组织化学,肿瘤侵袭
参考文献
[1] Fromowitz F B,Voila MV,Chaos,et al.Ras p21 expression in the progression of breast cancer[J].Human Pathology,1987;18(1) :1268~1275
[2] Pei L,Melmed S.Isolation and characterization of a pituitary tumor2transforming gene(PTTG) [J].Mol Endocrinology,1997; 11(4) :433~441
[3] George Vlotides,Tamar Eigler and Shlomo Melmed.Pituitary Tumor-Transforming Gene: Physiology and Implications for Tumorigenesis [J].2007 Endocrine Reviews.April 2007;28(2) :165~186
[4] Tong Y,Tan Y.Zhou C,et al.Pituitary tumor transforming gene interacts with Spl to modulate G1/S cell phase transition[J].Oncogene,2007;26(2) :5596~5605
[5] Cong J,Wang HY and Zhang CL.Expression and clinical significance of PTTG and b-FGF in acute leukemia[J].Zhong guo Shi Yan Xue Ye Xue Za Zhi,2005;13(6) :951-953
[6] Lai Y,Xin D,Bai J.et al.The important anti-apoptotic role and its regulation mechanism of PTTG1 in UV-induced apoptosis[J].Journal of Biochemistry and Molecular Biology,2007;40(6) :66~972
[7] McCabe C J,Gittoes N J.PTTG a new pituitary tumour transforming gene[J].J Endocrinol,1999;162(2) :163~166
肿瘤基因表达数据 篇5
1 材料与方法
1. 1 细胞及试剂
慢病毒表达穿梭质粒和包装质粒p Gag /Pol、pRev、PVSV-G购自中国上海吉玛公司,293T细胞、Hep G2 人肝癌细胞株购自中国科学院细胞库,EcoRI及Bam HI内切酶、T4DNA连接酶、质粒提取试剂盒、病毒纯化浓缩试剂盒购自美国Promega公司,DMEM培养液,胎牛血清FBS购自美国GIBCO公司,Lipofectamine 2000 购自美国Invitrogen公司。
1. 2 方法
1. 2. 1 PCR扩增LITAF基因编码序列
根据Genbank中获取LITAF基因mRNA序列,5'端和3'端分别引入EcoRI和Bam HI酶切位点。
上游引物: 5'-GCGAATTCATGTCGGTTCCAGGACCTTACC-3'。
下游引物: 5'-ATGGATCCGCACGACTCCAAGCAGCA-3'。
以人肝c DNA文库质粒为模板,用引物扩增LITAF基因。 将连接获得的LITAF重组质粒用EcoRI、Bam HI进行酶切鉴定,鉴定正确的LITAF重组质粒分别作正反向测序。
1. 2. 2 慢病毒过表达质粒的构建与鉴定
把扩增好的片段通过胶回收,使用EcoRI、Bam HI分别双酶切LITAF扩增片段及穿梭质粒LV8,将酶切的线性化载体,PCR产物连接双酶切后的过表达质粒,形成重组载体。将连接完成后的过表达质粒转化入感受态细胞,重组阳性克隆扩增后提取质粒进行酶切鉴定及测序分析。
1. 2. 3 细胞培养
293T细胞、Hep G2 细胞在含10% 胎牛血清( FBS) 的DMEM培养基培养至对数生长期。
1. 2. 4 病毒包装
1. 5 m L无血清DMEM,加入LITAF过表达质粒和包装质粒( p Gag /Pol、pRev、p VSV-G) 。另一1. 5m L无血清DMEM加入300 μL RNAi-mate。两管混合。转染混合物逐滴加入15 cm 293T细胞培养皿中继续培养48 h。荧光显微镜观察GFP蛋白表达。将培养皿中细胞上清液4 ℃,4 000 r/min,4 min,低速离心后,上清液0. 45 μm过滤器过滤。滤液在离心机中进行超速离心,4 ℃ ,20 000 r/min,2 h,收集病毒浓缩液。
1. 2. 5 Hep G2 细胞感染及鉴定
将浓缩纯化后的重组病毒加入含Hep G2 细胞的培养基中培养,使用流式细胞仪筛选阳性表达细胞。实时定量RT-PCR检测LITAF mRNA表达。裂解后提取蛋白,Western blot方法检测LITAF蛋白表达水平。
1. 3 统计方法
细胞实验均重复3 次,统计数据使用SPSS 19. 0软件包,使用t检验对实验数据进行统计学分析。
2 结果
2. 1 慢病毒表达载体的构建
将PCR产物进行电泳,可见650 bp左右目的条带,送检测序。序列分析表明,所扩增的LITAF基因序列与登录在Gen Bank人LITAF c DNA序列一致( 图1) 。双酶切的线性LV8 载体连接目的基因片段,转化、扩增后,提取质粒进行酶切鉴定无误( 图2) 。
2. 2 病毒感染
将LITAF-LV8 病毒包装后感染293T细胞,培养48 h后通过荧光显微镜观察荧光表达情况,示感染效率大于80% ( 图3) 。
2. 3 病毒感染Hep G2 细胞后检测LITAF表达
将病毒浓缩液加入Hep G2 细胞培养基,培养获得稳定感染的Hep G2 细胞。提取总RNA,实时定量RT-PCR检测LITAF mRNA的表达水平。结果显示LITAF mRNA水平在稳定转染的细胞中较未转染细胞显著增高( P < 0. 05) ,提示LITAF慢病毒载体能稳定整合到Hep G2 细胞基因组中( 图4) 。Western Blot检测LITAF蛋白表达水平,结果显示,稳定转染的Hep G2 细胞中LITAF有显著表达增加( 图5) 。
M为marker,1,2为LITAF基因片段
3 讨论
LITAF与肿瘤关系的研究报道目前很少,但是作为P53 诱导表达的基因,在理论上有理由猜测它与肿瘤的发生、分化以及预后可能具有相关性,可能是候选的抑癌基因[9—11]。在前期与HCC的相关研究中发现,LITAF在HCC与癌周组织中的表达存在显著差异,同时在HCC细胞株中高表达LITAF会致细胞凋亡增加。因而明确LITAF在HCC细胞发生、发展过程中的作用,可以进一步完善HCC的相关分子机制,从而为HCC治疗提供新靶点[12]。本实验构建了含有LITAF基因的慢病毒表达载体,将重组质粒及包装质粒共转染293T细胞,获得高滴度的重组慢病毒,感染Hep G2 细胞,实时定量RT-PCR及Western Blot鉴定基因及蛋白表达增加,并能稳定传代,完全满足后续实验需要,为进一步研究LITAF基因打下基础。
摘要:探讨构建人脂多糖诱导肿瘤坏死因子释放因子(LITAF)基因的过表达慢病毒载体的技术方法,并检测其体外表达目的基因的水平。设计LITAF基因引物,应用聚合酶链反应(PCR)的方法扩增LITAF基因片段;应用EcoRI、Bam HI酶切LV8载体,通过连接酶将LITAF基因片段连接至线性化的LV8载体上,应用酶切及测序方法鉴定LITAF-LV8重组质粒,将其包装慢病毒后感染293T细胞(人胚肾细胞),观察绿色荧光蛋白(GFP)的表达,验证后感染肝癌细胞株HepG2。RT-PCR和Westernblot鉴定感染后HepG2中LITAF的表达。LITAF基因在慢病毒感染的HepG2细胞中的表达显著高于对照组细胞。说明成功构建了过表达LITAF的HepG2细胞株,为后期研究提供了实验基础。
关键词:LITAF,慢病毒,载体构建,过表达,肝细胞肝癌
参考文献
[1] Global Burden of Disease Cancer Collaboration.The global burden of cancer 2013.JAMA Oncol,2015;1(4):505-527
[2] Siegel R L,Miller K D,Jemal A.Cancer statistics.CA Cancer JClin,2015;65(1):5-29
[3] Tassano E,Alpigiani M G,Calcagno A,et al.Clinical and molecular delineation of a 16p13.2p13.13 microduplication.Eur J Med Genet,2015;58(3):194-198
[4] Lacerda A F,Hartjes E,Brunetti C R.LITAF mutations associated with Charcot-Marie-Tooth disease 1C show mislocalization from the lateendosome/lysosome to the mitochondria.PLo S One,2014;9(7):e103454
[5] Moriwaki Y,Begum N A,Kobayashi M.Mycobacterium bovis Bacillus Calmette-Guerin and its cell wall complex induce a novel lysosomal membrane protein,SIMPLE,that bridges the missing link between lipopolysaccharide and p53-inducible gene,LITAF(PIG7),and estrogen-inducible gene,EET-1.J Biol Chem,2001;276(25):23065-23076
[6]王金洁,施瑶瑶,王玲,等.B细胞淋巴瘤LITAF基因甲基化状态及其临床意义.中华病理学杂志,2014;43(8):516-521Wang J J,Shi Y Y,Wang L,et al.Significance of expression and promoter methylation of LITAF gene in B-cell lymphoma.Zhonghua Binglixue Zazhi,2014;43(8):516-521
[7] Friedrich M G,Weisenberger D J,Cheng J C,et al.Detection of methylated apoptosis-associated genes in urine sediments of bladder cancer patients.Clin Cancer Res,2004;10(22):7457-7465
[8] Min J,Zhang W,Gu Y,et al.CIDE-3 interacts with lipopolysaccharide-induced tumor necrosis factor,and overexpression increases apoptosis in hepatocellular carcinoma.Med Oncol,2011;(Suppl 1):219-227
[9] Mestre-Escorihuela C,Rubio-Moscardo F,Richter J A,et al.Homozygous deletions localize novel tumor suppressor genes in B-cell lymphomas.Blood,2007;109(1):271-280
[10] Chan B C,Ching A K,To K F,et al.BRE is an antiapoptotic protein in vivo and overexpressed in human hepatocellular carcinoma.Oncogene,2008;27(9):1208-1217
[11] Baek J Y,Hur W,Wang J S,et al.Selective COX-2 inhibitor,NS-398,suppresses cellular proliferation in human hepatocellular carcinoma cell lines via cell cycle arrest.World J Gastroenterol,2007;13(8):1175-1181
基因表达数据在数据库中的预处理 篇6
在数据挖掘中,数据预处理就是在对数据进行知识发现前,先对将要研究的原始数据进行必要的清洗、集成、变换和约简等一系列的处理工作,使之达到挖掘算法进行知识获取研究所要求的最低规范和标准[1]。
2 数据来源
实验数据来源于美国国立生物技术信息中心,网址:http://www.ncbi.nlm.nih.gov/sites/entrez。数据主要包括正常组织的基因表达值,患乳腺癌的基因表达值。每一组值来源于二个表。其一,Table1,包括探针ID号及测得的基因表达值;其二,Table2,主要包括探针ID号,基因的制作日期、基因名、基因符号、基因描述等共15个属性。
3 数据集成
数据集成是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题[2]。
由于实验数据在二个表中,需要进行多表连接操作。根据二个表中都有相同的探针ID号,因此,可以采用等值连接将二个表集成为一个表,并将集成后的表命名为Table_Integration如:
4 数据清理
当属性出现缺少值时,有忽略元组、填充最可能的值等补充方法。在缺少类标号且元组有多个属性缺少值时通常采用忽略元组法,填充最可能值的方法比较常用,它能够通过现存数据的最多信息推测出相对准确的缺少值。噪音数据是由一种随机错误或被测变量的差变引起的,可采用分箱、丛聚、人机交互检查、回归等数据平滑技术去除。对于数据集成或有些事务记录中数据可能存在的不一致性,可以采用附加材料给予更正。知识工程工具也可以用来检测违反数据限制的数据。
由于探针与基因并不是一一对应的关系,因此,集成的表中出现多个ID号对应同一个基因,此时需要将这种多对一的关系转换为一对一的关系,这里采用平均值法和分组法来解决,对每一个基因进行分组,同一基因的值进行平均化[3],并将转换后的数据保存在Table_Clean中,如:
由于Table2中有些ID号并没有给出相应的基因名,因此,在Table_Clean中出现了有些样本有对应的基因表达值却没有对应的基因名,此时需要对基因为空的样本进行处理,由于此处涉及到很深生物学知识,而且这些空缺基因很难对应,此处采取忽略元组策略[4],如:
5 数据归约
由于实验设备容量的限制,所有基因芯片杂交实验不能同时在一个实验炉中进行,而多次试验时炉内的温度、液体密度等微环境的差异必然导致实验过程中产生一定的误差。因此,必须把不同批次试验得到的数据进行归约处理,使处理后的数据近似可以看成在同一微实验环境下得到的。
例如:对于正常组织的基因,采用均值化处理
处理后的结果如图1所示:第一列是基因名,第二列是预处理后的正常组织基因表达值,第三列是预处理后患乳腺癌的基因表达值。
6 结束语
对于以上预处理的很多功能都能在EXCEL中完成,若通过EXCEL来完成,则需要做大量复制和粘贴重复性的工作,而且费时,容易出错。在数据库中完成不仅省时省力,而且结果比较直观。
在数据挖掘过程中,人们对数据预处理的投入远不如对数据挖掘算法的研究,事实上数据预处理工作往往能得到事半功倍的效果。经过预处理之后,我们不仅可以得到挖掘系统所要求的数据集,使数据挖掘成为可能;而且,还可以尽量的减少数据挖掘系统所付出的代价和提高挖掘出的知识的有效性与易懂性。
摘要:存在不完整的、不一致的和含噪声的数据是现实世界大型的数据库或数据仓库的共同特点,基因表达数据也存在这种情况。因此,在数据挖掘之前对基因表达数据进行预处理非常必要。
关键词:基因表达,数据库,数据预处理
参考文献
[1]Ian H.Witten,Eibe Frank.Data Mining Practical Machine Learning Tools and Techniques[M].USA:Morgan Kaufmann Publishers,2001.
[2]Jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].China Machine Press,2007,30-65.
肿瘤基因表达数据 篇7
关键词:环氧化二十碳三烯甘油酸,基因,动脉粥样硬化,肿瘤坏死因子-α
动脉硬化性是发达国家人口死亡的主要原因,在我国该病的患病率也有增加倾向。肿瘤坏死因子-α(TNF-α)是一种单核因子,主要由单核细胞和巨噬细胞产生,脂多糖(LPS)是较强的刺激剂。有研究认为,TNF-α具有推动动脉粥样硬化发展的作用。动脉粥样硬化是一种炎症性疾病[1,2],炎性反应伴随着动脉粥样硬化的发生、发展直至其斑块破裂的整个过程,众多细胞和化学因子参与其中。TNF-α是血管损伤性炎性反应的重要调节因子,在动脉粥样硬化的炎症过程中起着至关重要的作用。实际上,TNF-α作用在动脉粥样硬化的发生、发展,直至斑块破裂造成血栓的整个炎症过程。环氧化二十碳三烯甘油酸(epoxyeicosatrienoic acids,EETs)是花生四烯酸(arachidonic acid,AA)经细胞色素P450(cytochrome P450,CYP450)氧化酶代谢产生的生物活性物质。EETs有着多种重要的生物活性,如能激活血管平滑肌ATP敏感性钾离子通道,使平滑肌超极化而舒张血管;能促进内皮细胞的有丝分裂,并促进内皮细胞毛细管样结构的生成,加速血管生成;抗炎作用等。本实验研究高表达CYP450基因或者高浓度EETs对动脉粥样硬化小鼠主动脉TNF-α表达的影响。
1 材料与方法
1.1 试剂
Ex-HS酶和蛋白酶K购自于亚法生物技术有限公司;油红O购自于Sigma公司;各种酶购自大连宝生物TaKaRa公司;Western杂交显影液购自Pierce公司;预染蛋白质分子量标准购自Bio-Rad公司;蛋白杂交PVDF膜购自美国Intergen公司;Trizol试剂购自美国Invitrogen公司。
1.2 动物实验
本实验采用的CYP2C8Tg+/-小鼠由Zeldin实验室提供,是用雄性CYP2C8Tg+/-小鼠与雌性APOEKO-/-小鼠杂交,获得APOEKO+/-CYP2C8Tg+/-小鼠和APOEKO+/-小鼠;雄性CYP2C8Tg+/-小鼠与雌性C57BL/6小鼠杂交,获得CYP2C8Tg+/-小鼠和C57BL/6小鼠。小鼠按照实验室提供的引物鉴定,鉴定后的小鼠4周断乳(饲养于同济医学院实验动物中心,SPF级),分为C57BL/6普通饮食组,C57BL/6、CYP2C8Tg+/-、APOEKO-/-、APOEKO+/-CYP2C8Tg+/-高脂饮食组,每组10只,单笼喂养,室温18~25℃,相对湿度50%~80%,每日光照12 h,摄食、饮水自由。
1.3 动物饲养
高脂饮食的配方是基础饲料78.85%,脂肪21%,胆固醇0.15%,按照Getz等[3]配方研制。同济医学院实验动物中心提供C57BL/6动物饮食。
1.4 动物处理
小鼠用2%戊巴比妥按照30 mg/kg剂量通过腹腔麻醉处死;再使用生理盐水或者4%多聚甲醛从左心室逆行灌注固定主动脉后,自主动脉根部至腹主动脉末端离断整个主动脉。
1.5 动物鉴别
CYP2C8基因由两对Zeldin实验室设计的引物鉴定,一对是:5'-AACTTGGTTGGCACTGTAGC-3'和5'-GGT-GCCGCTGGAATCTGAACT-3';另一对是:5'-AATAGGAA-GAGGAGTGGGGC-3'和5'-GTCCTCATCGCATACCATAC-3'。反应条件:94℃5 min预热,94℃30 s,63℃30 s,72℃1 min,35个循环,72℃5 min。反应结束后,取10μL PCR产物进行琼脂糖凝胶(1%)电泳,观察结果。
1.6 油红O染色法
油红O染液配制:油红O 0.5 g,98%异丙醇100 mL。临用时取出60 mL油红O储存液加到40 mL蒸馏水中,混均,静止10 min,过滤后再使用。主动脉全长染色,观察血管壁和斑块内脂质成分。将用油红O染色后的主动脉,用SCION image软件分析,检测油红O染色总脂质面积和主动脉总表皮面积。计算主动脉斑块的面积(%)=(总的油红O阳性染色面积/主动脉的总表皮面积)×100%[4,5]。
1.7 小鼠血清TNF-α水平测定
小鼠血清TNF-α检测ELISA按说明书的方法进行操作,试剂盒购自美国R&B公司。
1.8 小鼠TNF-α基因检测
采用Real-time PCR法,采用Primer 5.0软件设计引物(均由奥科生物公司合成)。TNF-α:上游5'-TGTTCATCCATTCTC TACCC-3';下游5'-TCACTGTCCCAGCATCTTGT-3'。GAPDH:上游5'-ACCACAGTCCATGCCATCAC-3';下游5'-TCCAC CACCCTGTTGCTGTA-3'。反应条件:95℃30 s预热,95℃20 s,60℃20 s,72℃20 s,40个循环,72℃4 min,反应结束。取10μL PCR产物进行琼脂糖凝胶(1%)电泳,观察结果。
1.9 小鼠TNF-α蛋白检测
采用Western blot方法。(1)制SDS-聚丙烯酞胺凝胶;(2)取等量蛋白质(10μg)样品;(3)处理好的样品加入点样孔中,同时点样Bio-Rad预染蛋白质标准5μL作为分子量参照;(4)接通电源,垂直电泳分离蛋白质;(5)配制1×转膜缓冲液;(6)电泳完成后,切一块与凝胶大小相同的PVDF膜;(7)组装转印夹层;(8)将转印夹夹紧,放入电泳槽中,将蛋白质通过电转移转至PVDF膜上;(9)将膜放入封闭液中,室温下封闭2~3 h;(10)洗膜后,加入单克隆抗体;用TBS-T于室温下洗膜4次;11加入辣根过氧化物酶(HRPO)偶联的羊抗兔IgG抗体;12用化学发光底物进行发光显迹。
1.1 0 统计学方法
采用SPSS 13.0统计学软件进行数据分析,计量资料数据用均数±标准差(x±s)表示,多组间比较采用方差分析,两两比较采用LSD-t检验。以P<0.05为差异有统计学意义。
2 结果
2.1 小鼠鉴定结果
雄性CYP2C8Tg+/-小鼠与雌性C57BL/6小鼠杂交,生出CYP2C8Tg+/-和C57BL/6小鼠,只要鉴定CYP2C8Tg+/-即可;雄性CYP2C8Tg+/-小鼠与雌性APOEKO-/-小鼠杂交,生出APOEKO+/-CYP2C8Tg+/-小鼠和APOEKO+/-小鼠,这两种鼠都有APOEKO+/-基因,因此,只要鉴定CYP2C8Tg+/-即可。PCR鉴定显示,CYP2C8转内皮的小鼠能探测到两条带(567 bp和1 158 bp),而不含此基因的小鼠就没有此两条带。见图1。
A表示不含CYP2C8基因;B表示含CYP2C8基因
2.2 主动脉油红O大体染色
主动脉油红O大体染色情况见图2。主动脉斑块形成面积:正常饮食C57BL/6组为0;高脂饮食C57BL/6组为(8.6±1.7)%,CYP2C8Tg+/-组为(5.9±1.2)%,APOEKO+/-组为(19.8±3.5)%,APOEKO+/-CYP2C8Tg+/-组为(13.8±2.2)%。高脂饮食APOEKO+/-CYP2C8Tg+/-组比APOEKO+/-组斑块面积减少(P<0.01),CYP2C8Tg+/-组比C57BL/6组斑块面积减少(P<0.01)。见图3。以上的结果提示在血管内皮高表达CYP2C8基因可以减少主动脉的斑块形成,而高脂饮食使得APOEKO+/-组斑块面积增加。因而,证明了笔者用高脂饮食成功建立了动脉粥样硬化小鼠模型。血管内皮高表达CYP2C8基因缓解了主动脉的斑块形成,起到保护动脉粥样硬化的作用。
2.3 血管内皮高表达CYP2C8对动脉粥样硬化小鼠主动脉TNF-α基因表达水平的影响。
在本实验检测血管内皮高表达CYP2C8小鼠主动脉TNF-α基因表达,发现TNF-α在CYP2C8Tg+/-组比C57BL/6组的表达水平明显下调(P<0.05),APOEKO+/-CYP2C8Tg+/-组比APOEKO+/-组的表达水平明显下调(P<0.05);APOEKO+/-组比C57BL/6组表达水平明显上调(P<0.01)。从以上的结果可以看出,动脉粥样硬化小鼠TNF-α基因表达明显上调,而血管内皮高表达CYP2C8基因明显控制了血管中TNF-α的基因表达。见图4。
2.4 主动脉TNF-α蛋白表达水平变化
本实验研究发现,小鼠主动脉TNF-α蛋白在CYP2C8Tg+/-组比C57BL/6组的表达水平明显下调(P<0.05),APOEKO+/-CYP2C8Tg+/-组比APOEKO+/-组的表达水平也明显下调(P<0.05);APOEKO+/-组比C57BL/6组的表达水平明显上调(P<0.01)。从以上的结果,可以看到动脉粥样硬化小鼠TNF-α蛋白明显上调,而血管内皮高表达CYP2C8基因抑制了血管中TNF-α蛋白的表达。见图5。
2.5 血清TNF-α水平
小鼠血清TNF-α水平采用ELISA法检测,血管高表达CYP2C8基因的小鼠血清中TNF-α明显被抑制,即说明CYP2C8基因可控制血清中TNF-α水平,改善机体的内环境,提高生活质量。见表1。
注:与正常饮食C57BL/6组比较,&P<0.05;与高脂饮食APOEKO+/-组比较,#P<0.05;与高脂饮食C57BL/6组比较,*P<0.05
3 讨论
由动脉粥样硬化所致心、脑血管疾病从1990年起一直是国人死亡的主要原因,目前已占全国总死亡人数的1/3。因此,控制心血管疾病蔓延成为我国21世纪提高人民健康水平的重中之重。近年来大量研究均显示,动脉粥样硬化是一种炎症性疾病[6,7,8,9,10]。动脉粥样斑块的形成与炎症因子、泡沫细胞和巨噬细胞有重要关系。TNF-α不仅是迄今发现的抗肿瘤活性最强的细胞因子,它还具有免疫调节作用,而且参与某些炎性反应过程。TNF-α可作用于血管内皮细胞提高黏附分子的表达水平,并诱导血管内皮细胞产生IL-6和IL-8等炎症介质,与白细胞产生的介质一起引起炎性反应。TNF-α是主要的致炎因子之一,它在组织感染过程中有着至关重要的作用;对血管损伤炎性反应有尤为重要的调节作用;对于血管内皮细胞而导致血管损伤和血栓形成中起调节作用;在动脉粥样硬化的慢性炎症过程中起关键作用。
有研究发现,内皮细胞可释放一种未明物质,使平滑肌细胞膜超极化,这种内皮依赖性超极化物质,不同于NO和PGI2,称其为内皮衍生性超极化因子(endothelium derived hyperpolarizing factor,EDHF)。EDHF是区别于NO和PGI2的第三类内皮衍生性舒张血管物质,它具有能激活钙离子敏感的钾通道,使平滑肌细胞处于超极化状态而扩张血管。EETs是花生四烯酸的细胞色素P450单氧化酶代谢产物,它在对炎症状态下内皮细胞具有显著性的保护作用[11]。EETs的生物学功能作用:(1)对血管平滑肌有直接作用,可降低血管阻力,调节局部血管紧张度;(2)促纤溶作用;(3)参与促进血管生成作用;(4)有抵抗炎症的功能;(5)激活血小板,抑制血小板聚集[12]。
本研究笔者通过实验成功建立了动脉粥样硬化模型,通过油红O染色观察到主动脉斑块的形成,从中可以看出,在高脂饮食中APOEKO+/-CYP2C8Tg+/-组比APOEKO+/-组斑块面积明显降低(P<0.01),CYP2C8Tg+/-组比C57BL/6组的斑块面积明显降低(P<0.01)。提示血管内皮高表达CYP2C8基因可明显降低主动脉斑块的面积形成,缓解动脉粥样硬化斑块的形成。本课题研究显示,TNF-α在血管内皮高表达CYP2C8基因的小鼠中不仅蛋白表达明显受到抑制,而且基因表达水平也降低,从而更好地缓解了动脉粥样硬化小鼠主动脉炎性病变和减少斑块的形成,并且控制了TNF-α在血清中表达。血液中的TNF-α会使三酰甘油和糖代谢紊乱并且增加了心肌梗死的发生概率。血液中TNF-α水平下降,可更好地保护动脉粥样硬化小鼠。本课题研究显示,血管内皮高表达CYP2C8基因在小鼠主动脉中不仅可以降低TNF-α基因水平和TNF-α蛋白表达,从而使得动脉粥样硬化斑块形成减少,而且使得血浆TNF-α降低,减少了心血管疾病的发生,这样就更好地改善了动脉粥样硬化病症。