重排反应

2024-10-13

重排反应(精选6篇)

重排反应 篇1

非小细胞肺癌 (NSCLC) 占肺癌总数的80%~85%, 且大部分就诊时已属晚期[1]。目前对于晚期NSCLC, 除全身化学治疗外, 根据分子标记物的不同, 进行有针对性的个体化分子靶向治疗占据重要地位。克唑替尼作为NSCLC中最新的靶向酪氨酸激酶之一, 2013年已在国内上市。该药用于治疗间变性淋巴瘤激酶 (ALK) 基因重排阳性的局部晚期或转移性NSCLC。既往研究表明, 该药物主要不良反应包括视觉障碍、肝功能异常、皮疹、腹泻等[2], 但由于多数数据来自于西方人群。笔者观察口服克唑替尼靶向治疗的晚期肺腺癌且ALK阳性患者, 服药过程中不良反应发生情况及护理经验, 报道如下:

1 临床资料

本院胸部化疗科2013年6月至2014年6月经病理学确诊为肺腺癌的17例, ALK基因重排阳性且口服克唑替尼靶向治疗。其中男6例, 女11例;年龄29~57岁, 中位年龄43岁。服药方法:克唑替尼 (赛可瑞) 单次剂量250mg, 整粒胶囊吞服, 每日早晚两次定时口服, 不可与葡萄汁、柚子汁同服, 连续给药。治疗时间3~14个月, 经对症治疗及护理干预后患者均未因不能耐受不良反应而中断治疗。

2 不良反应的观察与护理

2.1 视觉障碍

本组有9例出现视觉障碍, 以晨起或夜间最重, 其中1例视觉障碍影响日常活动, 生活起居由家属照顾。表现为周边视野光拖尾感、复视、畏光、视觉模糊等, 随着用药时间延长后不适感消失。护理干预:服药前应告知患者相关不良反应, 移除生活中危险物品, 避免烫伤、碰伤、跌倒。指导患者服药期间避免从事用眼高要求的活动, 如驾驶、长时间阅读等, 减少手机、电脑等的使用, 外出打伞避免紫外线直接照射眼睛。

2.2 下肢水肿

本组2例发生下肢水肿, 其中1例因右脚背皮肤微小破溃引起全身感染, C反应蛋白高达190mg/L。表现为右下肢红肿、疼痛、皮温高、张力高、压凹性水肿, 午后反复高热, 体温最高39℃, 无寒战。护理干预:指导患者肿胀下肢垫圈枕, 以腾空抬高肿胀部位, 避免肢体破溃, 加重感染。鼓励患者说出内心感受, 给予心理支持。及时观察生命体征变化, 每班测量下肢腿围, 关注皮温、张力变化。遵医嘱抗生素静脉滴注, 硫酸镁外敷肿胀肢体。保证患者充分休息, 减少能量消耗。

2.3 肝功能异常

本组出现肝功能异常3例, 主要表现为丙氨酸氨基转移酶、天冬氨酸氨基转移酶、碱性磷酸酶、胆红素升高。护理干预:指导患者服药期间每两周复查1次肝功能。观察患者有无全身乏力、皮肤巩膜黄染、食欲差、厌油腻、恶心、呕吐、尿黄、右上腹疼痛等症状。指导患者多休息, 进食清淡、高糖食物, 避免摄入含酒精的饮料。

2.4食管糜烂本组出现食管糜烂, 影响进食2例, 表现为大量反酸, 胸骨后烧灼痛, 轻度吞咽困难。护理干预:指导患者饮食少食多餐, 避免过烫、刺激性食物, 进食后温开水冲洗食道。制酸剂 (氢氧化铝、氢氧化镁、碱式碳酸铋) 、利多卡因胶浆餐前半小时口服, 以保护食道及胃黏膜, 减轻进食疼痛。

2.5 腹泻

本组出现腹泻3例, 表现为慢性腹泻 (病程在两个月以上或间歇期在2~4周内的复发性腹泻) 。护理干预:教会患者观察腹泻的时间、次数, 大便性状、量。评估患者有无眩晕、体位性低血压等脱水征象, 有无大便带血、腹痛、发热等情况。完善实验室检查, 关注有无感染及水电解质紊乱, 必要时监测24小时出入量。遵医嘱予洛哌丁胺口服, 首剂4mg, 以后每两小时口服2mg, 直至腹泻症状停止后停药, 注意连续给药不能超过48小时, 肝功能障碍患者慎用。饮食中可增加含果胶的食物如鳄梨、削皮的苹果, 可以减轻腹泻, 避免进食刺激胃肠道的食物, 如全麦食品、坚果、腌制小菜等[3]。评估肛周皮肤是否破溃, 有无感染征象;无破溃伴疼痛者可涂茶油或橄榄油, 防止肛周发炎、红肿。止泻治疗后如患者仍感到口渴、发热、困倦、腹部绞痛、便血等情况时需及时返院治疗。

2.6 其他胃肠道反应本组出现呕吐4例, 恶心、食欲减退6 例。护理干预:教会患者观察呕吐物的颜色、性状和量。取新鲜柠檬切片贴于鼻部。呕吐时侧卧或坐位并做深呼吸。呕吐后及时漱口, 保持口腔清洁, 避免不良刺激。严重呕吐可导致脱水、电解质紊乱, 注意监测生命体征变化, 准确记录出入量。遵医嘱使用隔盐灸于胃脘穴, 减少胃肠道反应发生。

本病患者对靶向治疗依赖程度高, 克唑替尼每月治疗费用高达5万, 告知患者用药4个月可申请慈善赠药。本组患者多年轻, 生存欲望强烈, 依从性较好, 容易自我管理。事先告知患者常见不良反应经对症处理后多可缓解, 无需停药。靶向药物多为院外居家口服治疗。因此, 应重视患者出院后的定期随访, 内容包括是否定时服药、正确按剂量服药、服药的依从性、服药的不良反应。重视药物不良反应, 及早干预, 减少严重不良反应发生而中断治疗的情况, 改善患者生活质量。

参考文献

[1]吴国明, 刘芳.变性淋巴瘤激酶ALK重排的非小细胞肺癌及其治疗进展[J].西部医学, 2014, 26 (2) :136.

[2]Butrynski JE, D'Adamo DR, Hornick JL, et al.Crizotinib in ALK-rearranged inflammatory myofibroblastic tumor[J].N Engl J Med, 2010, 363 (18) :1727.

[3]丁玥, 徐波.化学治疗与生物治疗实践指南及建议[M].3版.北京:北京大学医学出版社, 2013:132.

重排反应 篇2

分子CH3NH=B:的结构及重排反应的理论研究

采用量子化学中的从头计算方法, 在MP2/6-31G(d,p)水平上研究了不饱和硼烯CH3NH=B:的结构及重排反应机理.结果表明, CH3NH=B:的单线态结构比三线态结构稳定, 该分子的基态是单线态.分子CH3NH=B:可以发生3种不同的.重排反应.本文找到了这3种重排反应的过渡态, 并详细计算了不饱和硼烯CH3NH=B:重排反应的动力学函数, 据此讨论了不饱和硼烯CH3NH=B:的稳定性问题.

作 者:梁芳珍 作者单位:山东师范大学化学系,济南,250014刊 名:结构化学 ISTIC SCI PKU英文刊名:CHINESE JOURNAL OF STRUCTURAL CHEMISTRY年,卷(期):22(4)分类号:O64关键词:从头计算 CH3NH=B: 单线态 重排反应 反应机理

基于视觉特征的图像检索重排序 篇3

基于关键字的图像检索起源于上世纪六七十年代,最初主要应用于数据库以便于对图像进行管理。上世纪九十年代初,随着互联网的迅猛发展,网络上的图片信息急剧增长,基于关键字的图像检索成功地应用到了互联网范围。基于关键字的图像检索主要利用从人工标注、图片标题、图片元数据和网页中图片周围的文字中提取的关键字来建立索引进行检索。然而,不同的人对相同图片的理解不一样,而且,有些图片的信息并不能通过文字来全面地描述,所以标注很可能与用户的理解存在偏差。此外,同义词和多义词都给基于关键字的图像检索带来了歧义性,例如苹果,可以表示水果中的苹果,也可以表示苹果牌电脑。由此可见,基于关键字的图像检索虽然在一定范围内能满足用户的需求,但是也存在很大的局限性。因此,上世纪九十年代开始,研究者们就进行了基于视觉特征的图像检索的相关研究工作,到目前为止已经取得了一系列突破性的成果,但是网络范围的基于关键字的图像检索还有待进一步的研究。本文介绍了如何利用图像的视觉特征对基于关键字的图像检索结果进行重排序。

1 相关工作介绍

重排序主要分为相关性重排序和多样性重排序[1],本文中的方法为相关性重排序。相关性重排序是针对检索结果的相关度展开的,而多样性排序是针对检索结果的多样性展开的。相关性重排序的方法中包括有监督和无监督两大类,本文所述方法属于无监督的。聚类是比较常用的无监督重排序算法,如多模态模型[2]和信息瓶颈论[3]的应用,此外图理论[4]也常被用来实现重排序算法。但是这些方法模型建立过程都比较复杂,而且计算量很大,对检索结果的性能也并没有显著性的改善。本文所用的方法是来源于文献[5]中利用网页图片视觉信息对网页进行重排序的思想,将其应用到纯粹的图像检索领域,在基于关键字的图像检索结果基础之上,利用图片的视觉特征信息进行重排序,取得了显著的性能改善。

2 视觉特征介绍

颜色和纹理是图像中最重要的视觉特征,包含了丰富的视觉信息。颜色直方图是一种描述颜色特征的有效方式,而LBP能有效地描述纹理特征,因此本文将以基于关键字的检索结果为基准,对基于这两种特征的重排序结果进行比较分析。

2.1 颜色直方图

研究表明,人眼对色彩很敏感,能识别出成千上万种颜色,因此选择出符合人眼视觉特征的颜色空间就至关重要了[6]。颜色空间有很多种,如RGB、CMY、HSV、Lab等,但是最符合人眼视觉感知特征的是HSV颜色空间,其中H、S、V分别对应颜色的色度、饱和度和亮度值。目前大多数的图像都是基于RGB颜色空间的,因此首先需要将其转换到HSV颜色空间中,转换公式如下[6]:

{V=13(R+G+B)S=1-3(R+G+B)[min(R,G,B)]Η=arcos{[(R-G)+(R-B)/2][(R-G)2+(R-B)2]}(1)

RGB的值都在[0,1]之间,则HSV的值也都在[0,1]之间。

将图像转换到HSV颜色空间后,再对三个通道的值分别进行量化,HSV的量化级数分别为LMN。量化后计算三个通道量化值的加权和,即可得到各个像素的直方图索引。HSV通道的量化值分别为(0,1,2,…,(L-1)),(0,1,2,…,(M-1))和(0,1,2,…,(N-1))。若三个通道的加权系数分别为WHWSWV则直方图的柄数为:

Nbin=(L-1)*WH+(M-1)*Ws+(N-1)*

WV+1 (2)

即每幅图像的颜色特征都可以用一个Nbin维的向量来表示。

2.2 局部二值模式LBP

LBP(Local Binary Pattern)是一种不带参数的运算子,可以用来提取图像的局部特征。Ojala等人最早提出了这种运算子,并且证实了其有效的纹理识别能力[4]。对于给定像素点(xc,yc),LBP为该像素与其周围8个像素的强度值比较结果,用二值模式表示为0和1组成的二值串,如图1所示。LBP的十进制表示形式[7]如下:

LBΡ(xc,yc)=p=0p-1s(ip-ic)2p(3)

其中,ic为邻域中心(xc,yc),in为各个邻域像素的强度值。符号函数s(x)定义为:

s(x)={1ifx00ifx0(4)

由定义可知,对于由光照引起的像素强度值变化,LBP运算子依然能够保持中心像素和周围像素强度值的比较结果不变,因此能抵抗同质光照变化带来的影响。

用LBP运算子对图像中的每个像素都进行比较运算,在每个像素点都将得到一个描述该点邻域特征的二值模式串,用十进制表示即为0~255之间的整数。对经过LBP运算子过滤后的图像进行直方图统计,可得到一个256维的特征向量,此特征向量即为该图像的视觉特征表示。

由于LBP运算子不具有旋转不变形,而且只能提取局部细微的纹理特征,所以在实际应用中存在很大的局限性。为了实现LBP运算子的旋转不变形,Ojala等人在2002年对LBP进行了改进,将LBP运算子过滤得到的二值模式串进行循环位移操作,这样每个像素点都将得到一个二值串集合,然后取其中的极小值,从而实现了旋转不变性。为了提取更多尺寸上的特征,将像素点与其周围半径为R的圆周上均匀间隔的P个像素点进行强度值比较,对于圆周上未落在其他像素点上的位置用其周围像素进行差值得到其像素强度值,这样即可提取更大尺度上的局部特征。其定义[8]如下:

LBPΡ,Rri=min{POR(LBPP,R,i)

i=0,1,…,P-1} (5)

其中,ROR(LBPP,R,i)在P比特位的二值串x上执行右循环位移i次。

对改进后的LBPΡ,Rri进一步的研究发现大部分有用的特征信息都包含在均匀(Uniform)二值模式串中。其中均匀值定义为圆周上二值串中0/1(1/0)变换的次数,对于均匀值不超过2的模式串称为均匀二值模式串,这些模式串有很强的特征描述能力,因此每一种均匀二值模式串都认为是不同的,而对于其他所有均匀值超过2的都作为同一种模式串处理,这样对于一个半径为R的圆周上取P个点的LBP运算子即可得到一个P+2维的特征,其定义如下:

LBΡΡ,Rriu2{Ρ=0p-1s(ip-ic)ifU(LBΡΡ,R)2Ρ+1otherwise}(6)

其中,U(LBPP,R)=|s(ip-1-ic)-s(i0-ic)+∑p=0p-1|s(ip-1-ic)-s(ip-1-ic) (7)

对于一个R=1,P=8的LBP运算子,其均匀二值模式串如图2所示。

3 重排序方法

基于关键字的图像检索利用与图片相关的一些关键字建立索引进行检索,然而,由于图片的元数据、标注和从图片周围的文本中提取的关键字可能与图片内容存在偏差,因此检索结果很可能不尽如人意。尽管如此,基于关键字的图像检索结果中还有相当一部分是和用户期望相匹配的图片,因此可以充分利用这些相关的图片对检索结果进行重排序,以得到更符合用户期望的检索结果。提取所有图片的视觉特征信息,用一个特征向量来表示一幅图片。这样,特征空间中的一个点就对应着一幅图片,而与检索结果相关的图片具有相似性,在特征空间中的距离也就比其他不相关的图片小,利用这一点计算每一个图像点周围的密度即可过滤出与用户期望相关的部分图片,以这些图片为基础可以建立一个目标概念来描述用户期望,从而对检索结果进行重排序[5]。具体实现方法如下。

步骤①:取搜索引擎基于软件自检索返回的结果中前Ntop幅图片,提取其LBP特征f1,f2,…,fNtop,以这些特征空间中的点来代表图像,初始化t=1,由公式(8)求取这些图像点的密度:

Densigy(f)=∑i=1Νtope-∑dj=1|fj-f(i,j)| (8)

步骤②:计算各图像点f1,f2,…,fNtop的密度,按密度大小降序排列,取前Ntop= Ntop-t*step幅图像的特征向量f(t,1),f(t,2),…,f(t,Ntop-t*step),t=t+1。

步骤③:步骤②被重复T次,得到Ntop=Ntop-T*step个图像点f(T,1),f(T,2),…,f(T,Ntop-T*step),由公式(9)求取这些点的加权均值f(T,m),将其作为用户期望的目标概念(Target Concept)。

f(Τ,m)=j=1ΤDensity(f(Τ,j))*f(Τ,j)i=1ΤDensity(f(Τ,j))(9)

由于密度大的点更能描述用户目标概念,因此用密度进行加权后,密度大的点在建立目标概念时发挥更大的作用,从而使目标概念更能描述用户的期望。用户目标概念建立好后,计算出所有基于关键字检索得到的图像与目标概念之间的距离。在互联网范围内,基于关键字的检索结果通常有几千到几十万甚至几百万个,而排序是一项费时的工程,因此若是要对所有检索结果进行重排序必是一项耗时的工程,会影响检索的实时性。在实际应用中,用户往往只对最相关的一些检索结果感兴趣,并且搜索引擎返回结果是都是分页显示的,假设每页显示n个结果,则重排序时只需从关键字的检索结果中找到目标概念的n近邻返回即可。若用户需要浏览下一页显示结果,则在余下的结果中找出目标概念的第二组n近邻返回即可。这样每次只需返回用户希望浏览的结果,能大幅度地降低重排序的时间,使搜索引擎达到更好的实时性。

文献[5]中的方法是利用网页中的图片颜色特征对文本网页进行重排序,重排序时对基于关键字的排序和基于图像颜色特征的排序进行加权和排序得到最终的排序结果。其中,对于不包含图片的网页采用默认值作为颜色特征的排序。本文介绍的方法对文献[5]的方法进行了简化,重排序时只利用图片视觉特征,并引入了加权的概念,不需要再考虑基于关键字的排序。重排序时采用分段排序,将重排序带来的负担均衡给多次浏览结果。本文中所介绍的方法采用的是多种尺度的LBP特征,同时也将其与基于颜色特征的重排序结果进行了比较。

4 实验分析

本文试验中采用了三种尺度的局部二值模式特征LBP8,1riu,LBP16,2riu,LBP24,3riu,并将其与基于颜色特征的重排序结果以百度图片搜索引擎基于关键字的图像检索结果为基准进行比较。试验中颜色特征和目标概念的相关参数设置如表1所示。

颜色特征中最重要的是色度,其次是饱和度,因此将色度的量化值和权重设置为最大,其次是饱和度。实验中,采用了自行车(bike)、公共汽车(bus)、猫(cat)、牛(cow)、马(horse)、飞机(plane)、船(ship)等共7个关键词的百度图片检索结果进行重排序实验,排序前后的相关度度量数据如图3所示。其中对“牛”的检索结果重排序前后对比如图4-5所示(基于LBP243riu重排序)。

尽管在文献[5]中利用网页中图片的颜色特征信息对网页进行重排序,改善了网页检索结果,但是由图3可知,完全基于颜色特征的重排序并不能改善图像检索结果,相反还降低了结果的准确度。同时,随着局部二值模式尺度的增加,重排序结果有所改善,但是继续增大尺寸,并不能继续改善重排序结果。因为传统的局部二值模式能有效地描述细微的纹理,如牛仔裤纹理,木材年轮,动物绒毛等,所以主要用于纹理检测和分类。但是互联网上的图片中包含的物体千差万别,所以需要选择一种合适尺度的局部二值模式来改善整体检索性能。初步实验表明,LBP243riu的性能是最优越的。

试验中对7个关键字检索结果重排序前后的前10,20,30,40,50的平均相关度,其中基准为基于关键字的百度图片检索性能,HSV、riu81、riu162、riu243分别代表利用颜色、LBP8,1riuLBP16,2riuLBP24,3riu等进行重排序后的平准相关度,如图3所示。

进一步的实验表明,增加参数Ntop、T和减小步长参数step并不能显著改善检索结果,甚至会降低准确率,而且增加了计算量,因此本文所选的参数设置是初步试验得出的最优配置。

5 结束语

本文主要介绍了如何利用视觉特征对基于关键字的图像检索结果进行重排序。实验中采用了颜色直方图和局部二值模式相结合的方式提取图像的视觉特征,并取得了较好的实验结果。颜色直方图充分利用了图片的颜色信息,但是由于网络图像中颜色的多样性导致颜色特征的重排序结果不尽如人意,而局部二值模式提取了图片的纹理信息,利用改进后的不同尺度的局部二值模式对检索结果进行重排序均能大幅提高检索结果的准确度。尽管实验取得了理想的实验结果,但是由于时间和工作量的限制,没能对更多检索实例进行实验。因此,在以后的研究中,将会把这种方法应用到更多的实例中进行验证。此外,在以后的研究中可以引入反馈机制将颜色直方图和局部二值模式结合起来,以过滤出包含指定颜色、符合用户特定需求的相关图片,从而达到更精准的网络图像定位。

摘要:主要介绍了在基于关键字的图像检索结果上,利用视觉特征对图像进行重排序。由于关键字对图像的描述存在一定的偏差,所以检索结果难免存在偏差。尽管如此,基于关键字的检索结果中依然有一定比例的图片是与用户期望相关的,利用这一相关性可以建立一个由图像视觉特征描述的用户目标概念,以此作为基准采用分段插入排序对基于关键字的图像检索结果进行重排序,此方法既提高了检索准确率,又能满足实时性要求。文中介绍的方法采用了两种视觉特征,颜色直方图和局部二值模式(LBP)。

关键词:视觉特征,图像检索,重排序,HSV,局部二值模式

参考文献

[1]张静,曲晓杰,冀中,等.基于内容的图像和视频搜索重排序技术综述[J].2011,47(29):171-174.

[2]Wei S K,Zhao Y,Zhu Z F,et al.Multimodal fusion for videosearch reranking[J].IEEE Transactions on Knowledge and DataEngineering,2010,22(8):1191-1199.

[3]Hsu W,Kennedy L,Chang S F.Video search reranking via infor-mation bottleneck principle[C]//ACM International Conference onMultimedia,Santa Barbara,CA,USA,2006:35-44.

[4]Jing Y S,Baluja S.Applying pagerank to large-scale image search[J].Transactions on Pattern Analysis and Machine Intelligence,2008,30(11):1877-1890.

[5]Zhou Zhi-Hua,Dai Hong-Bin.Exploiting Image Contents in WebSearch[C].IJCAI’07:Proc.Of International Joint Conference onArtificial Intelligence,2007:2928-2933.

[6]王金荣.基于颜色内容的图像检索技术[D].硕士学位论文,2006.

[7]Timo Ojala,Matti Pietikinen,David Harwood.A ComparativeStudy of Texture Measures with Classification Based on Feature Dis-tributions[J].Pattern Recognition,1996,29(1):51-59.

列表问答系统中的答案聚类重排序 篇4

由于网络的高速发展及其庞大的数据量, 互联网已经逐渐成为信息的主要来源。搜索引擎就是一种方便用户取得所需信息的技术。然而传统的搜索引擎存在不足:返回信息过多;关键词的逻辑组合难以精确表达检索意图;用关键词匹配的检索算法尽管简单易行, 却停留在语言表面, 没有触及语义[1]。而自动问答系统集知识表示、信息检索和自然语言处理为一体, 能克服上述这些缺点, 成为了国际上研究的一个新热点。文本检索会议TREC中问答系统的任务一直是最受关注的项目之一, 一方面是因为它的前景, 另一方面是因为当前的问答系统的性能还有很大的提升空间。

TREC评测中问答系统任务的问题可以分为三类:事实类问题、列表类问题和其它问题[2]。目前, 参与评测的相对成熟的问答系统, 通常包括三个部分:问题分析、信息检索和答案抽取, 如图1所示。对于列表类问题, 一个非常重要的问题是如何确定输出答案的个数。输出答案越多, 召回率越高, 但准确率难免会下降, 因此需要在两者之间取得平衡。通常的方法是根据训练语料上的测试结果来确定选择最前面几个。这类方法对所有列表问题都一视同仁, 选择相同个数的答案进行输出, 而没有考虑到问题个体之间的差异。

在本文中, 我们会通过在问题的上下文背景下, 对候选答案进行聚类, 然后挑选出最好的一个答案类作为输出。实验证明, 该方法可以自动根据问题的特性输出不同个数的答案, 取得了很好的效果。

1 答案聚类

我们对TREC评测中2003年到2006年的所有列表问题和其标准答案进行了统计分析, 结果如表1所示。

从表中数据可以看到, TREC每年评测的列表问题的平均答案个数存在相当大的差异。通常所采用的在往届数据上训练得到的返回答案个数, 在新的数据集上并不适合。从现实应用的角度上讲, 问题的正确答案个数也往往是无法预测的。为此, 最佳的方法应该能根据不同的问题输出不同个数的答案, 很自然的, 我们想到了聚类算法[3]。

聚类算法的目标是将一组对象划分成若干组或类别, 简单地说就是相似元素同组、相异元素不同组的划分过程, 它不限制每个类中的元素个数。聚类算法需要解决两个基本问题:一是定义两个元素的相似度, 通常把输入数据转换成对应的向量表示, 那么向量的点积就可看作是两者的相似度;二是根据具体应用选择合适的聚类算法。

1.1 答案的语义向量表示

列表问题的侯选答案通常是短文本片段。比如问题 Name all the countries in the world.的侯选答案可能为United States、France和United Nations。如果我们直接把传统的文档或句子相似度比如余弦距离照搬过来, 那么在聚类时United States就会和United Nations结合起来, 因为两者都包含了单词United。这样的结果并不是我们所期望的。从语义的角度讲, France和United States要相似得多, 因为两者都是国家, 而United Nations是一个组织机构。

这个问题的根本原因是短文本片段仅包含为数不多的几个词, 而传统的相似度定义却局限在这几个词上。解决该问题的一个直观方法就是用文档来表示短文本片段的语义含义[4]。

对任意给定的短文本片段x, 其语义向量SV (x) 定义如下:

(1) 把x放到搜索引擎如Google中去。

(2) 令D (x) 表示返回的文档d1, d2, …, dn的集合, 参数n控制返回文档的个数。

(3) 对每个diD (x) , 计算它的TFIDF向量vi

(4) 对每个vi, 把前m个最大分量之外的分量全部置为0。这个步骤目的是除去文档中的噪声, 同时降低计算量。

(5) 令C (x) 表示这n个向量vi标准化后的重心为:

C (x) =1ni=1nvivi

(6) 最后, 令SV (x) 为C (x) 标准化:

SV (x) =C (x) C (x)

通常情况下, mn分别设置为50和200就可以保证在足够精度的同时只需较小的计算代价。有了上述短文本片段的语义向量表示, 则任意两个短文本之间的相似度为:

Sim (x, y) =SV (x) ·SV (y)

在计算答案的语义向量表示前, 我们还需要为侯选答案自动生成合适的短文本片段, 也就是放到搜索引擎中去的检索关键字。最简单的方法是直接使用答案本身。然而考虑到我们其实是在问题的上下文背景下考虑候选答案的相似程度, 如侯选答案集是Apple、Orange和Dell的时候, 只有根据具体问题才能决定Apple同哪个在语义上比较接近。因此, 我们的关键字使用的是答案和从问题中抽取的关键字这两者的组合。

1.2 聚类算法

聚类算法很多, 目前流行的有:K-means、模糊C-means、层次聚类和高斯混合聚类等。高斯混合聚类是一种基于模型的聚类方法, 即使用特定的模型聚类, 并试图优化实际数据与模型的适配度。高斯混合模型是该聚类方法中的常用模型。

高斯混合模型认为数据中蕴含的每一类符合某个高斯分布。假设有n个高斯分布, 从中产生m个样本y1, y2, …, ym, 每一个yj所从属的分布用zj表示, zj∈{1, 2, …, n}。对于任意的y, 其来自第i个高斯分布的概率为:

P (y|z=i, θ) =N (ui, σi)

我们的任务是估计未知的模型参数:

θ={u1, u2, …, un, σ1, σ2, …, σn,

P (z=1) , P (z=2) , …, P (z=n) }

其中uiσiP (z=i) 分别是第i个高斯分布的均值向量、协方差矩阵和先验概率。模型参数可以通过EM算法来估计。每一个参数θ与类别数目n的组合情况相应于不同的概率模型, 用贝叶斯信息准则 (BIC) 估计在每一种模型下数据被观测到的概率, 计算相应的 BIC 得分, 最后选择BIC得分最大的模型和参数对该样本进行分类。

与其它的聚类算法比较, 高斯混合模型方法具有的最大优点是无需使用严格的方法来确定类的数目或最佳的聚类参数, 但其不足是计算量非常大, 对于大量数据的分析比较困难。但是, 高斯混合模型却刚好适合答案聚类的任务。第一, 我们仅仅期望所有正确的答案都能聚在一起, 而对类的总数目并没有任何先验知识。第二, 需要重排序的候选答案的数量不会太多, 即使太多的话, 也可以只选择那些得分比较靠前的侯选答案进行重排。

2 选择答案类

在通过聚类产生的若干答案类中, 我们还需要选择一个类作为最后的输出。选择的指标使用该类中所有答案原来得分的算术平均, 最后选取均值最大的那个类作为输出。

3 实 验

本文使用的实验数据是来自TREC评测问答系统任务中2003-2006中的所有列表问题。答案聚类算法的输入由FDUQA系统产生, 该问题回答系统可以设置参数输出得分最高的任意个答案, 并且曾经在2006年TREC评测中位列同类第四名, 是个不错的性能基准线系统。各系统的评价指标采用常用的准确率P、召回率RF指数。

第一组实验比较各种答案相似度对本文系统最终性能的影响, 聚类算法均采用高斯混合模型。实验在TREC 2006上的列表问题集上进行, 共89个问题。实验结果见表2。表2中, FDUQA@15的系统采用FDUQA默认设置, 输出得分最高的15个答案;Cosine表示在FDUQA输出的候选答案中根据答案之间的余弦距离进行聚类的系统;SetOverlap的系统除相似度采用文档集重叠距离外其它同上;SV表示采用1.1节中的语义向量距离, 但在计算语义向量时用的检索关键字只用答案本身;SV+Question基本同上, 但检索关键字使用答案和从问题中抽取出的关键词的组合, 相当于以问题作为上下文来计算答案之间的相似度。从实验结果可以看到, 余弦距离由于可利用的信息过少, 性能最差;文档集重叠距离效果也不好, 即使两个词意义很接近, 其返回文档集的交集也很少, 而且集合求交运算时间代价相当大。SV+Question的性能要比SV好, 因为加入的问题关键字大大降低了答案其它释义所带来的噪声。

在本文开头我们已经讨论过, 传统方法返回的平均答案个数无法自动适应问题的缺陷。在第二组实验中我们来观察采用本文方法在返回的答案个数上有什么不同, 结果见表3。SV和 SV+Question系统返回的平均答案个数的变化同标准答案的变化一致, 这是答案聚类重排序相对基准线系统FDUQA的优越性的体现。

最后补充说明, 本文的算法由于不改变原有的系统结构, 只需在系统流程最后加入重排序的模块, 因此实现简单, 算法复杂度不高, 时间代价也不大。

4 结 论

本文提出了一种在现有列表问题回答系统上的答案重排序算法, 算法使用短文本片段的语义向量来表示答案, 同时利用高斯混合模型来进行答案聚类, 最后输出得分均值最大的那个答案类。语义向量表示本质上是用文档来表示短文本, 从而克服了答案本身信息少的困难;高斯混合模型聚类则不需要人为指定类的个数。实验证明, 这样的组合在答案聚类上是行之有效的。

摘要:列表问题是自动问答系统中非常重要的一类问题, 返回多少个答案是处理好该类问题的关键之一。在现有系统的基础上, 把候选答案转换成对应的语义向量表示, 然后利用高斯混合模型进行聚类并输出得分均值最高的一类。该方法能自动适应问题, 而且实现简单。实验表明, 这样的答案重排序取得了显著的性能提升。

关键词:问答系统,列表问题,语义向量表示,高斯混合模型,聚类

参考文献

[1]张刚, 刘挺, 郑实福, 等.开放域中文问答系统的研究与实现[C]//中国中文信息学会二十周年学术会议, 2001.

[2]Hoa Trang Dang, Jimmy Lin, Diane Kelly.Overviewof the TREC 2006Question Answering Track[C]//Proceedings of the Fifteenth Text RE-trieval Conference (TREC 2006) , Gaithersburg, Maryland.2007.

[3]Feng Min, Liu Wenyin, Wei Chen.Answer Clustering and Fusion in aUser-Interactive QA System[C]//Proceedings of the Second Interna-tional Conference on Semantics, Knowledge, and Grid (SKG′06) , 2006.

[4]Sahami M, Heilman TD.A Web-based Kernel Function for Measuringthe Similarity of Short Text Snippets[C]//Proceedings of the 15th In-ternational World Wide Web Conference (WWW 2006) , 2006:377-386.

重排反应 篇5

因此, 当再次面对这本教材时, 我们作了大胆的尝试, 重排体例, 分门别类, 以诗歌类别作为教学单元, 重新组合教材, 收到了意想不到的效果。

《唐诗宋词选读》共选取唐诗三十首, 其中教读内容为十八首。通过对诗歌内容的细致梳理, 我们把教材内容按送别诗、羁旅诗、边塞征战诗、咏史怀古诗、山水田园诗等类别分为六七个板块, 每个板块用教材的两首以上诗歌作为范本, 教学时印发教材以外同性质的若干诗歌作为拓展延伸阅读, 进一步加强和巩固学生阅读分析此类诗歌的能力。板块之间既独立, 又相互呼应, 合成一个教学整体。下面, 我以羁旅诗为例谈谈具体做法。

在教材中, 属于典型羁旅诗一类的有以下几首。

杜审言《和晋陵陆丞早春游望》

独有宦游人, 偏惊物候新。

云霞出海曙, 梅柳渡江春。

淑气催黄鸟, 晴光转绿蘋。

忽闻歌古调, 归思欲沾巾。

杜甫《旅夜书怀》

细草微风岸, 危樯独夜舟。

星垂平野阔, 月涌大江流。

名岂文章著, 官应老病休。

飘飘何所似, 天地一沙鸥。

白居易《自河南经乱, 关内阻饥, 兄弟离散, 各在一处。因望月有感, 聊书所怀, 寄上浮梁大兄、於潜七兄、乌江十五兄, 兼示符离及下邽弟妹》

时难年饥世业空, 弟兄羁旅各西东。

田园寥落干戈后, 骨肉流离道路中。

吊影分为千里雁, 辞根散作九秋蓬。

共看明月应垂泪, 一夜乡心无处同。

柳宗元《登柳州城楼寄漳、汀、封、连四州》

城上高楼接大荒, 海天愁思正茫茫。

惊风乱飐芙蓉水, 密雨斜侵薜荔墙。

岭树重遮千里目, 江流曲似九回肠。

共来百越文身地, 犹自音书滞一乡。

我们的教学程序分为三个步骤

1. 找关键语词。让学生通读这几首诗词, 快速找到诗词中能判断为羁旅诗的关键语词:如杜审言诗中的“宦游人”, 杜甫诗题中的“旅夜”, 白居易诗中的“弟兄羁旅”。这些语词往往是把握诗词情感的钥匙, 学生寻找这些关键词的过程, 就是梳理诗词情感、步入诗歌鉴赏大门的基础步骤。

2. 把握诗歌诗句本身, 熟悉羁旅诗的一般写作内容和情感表述。由于羁旅诗都是古人旅居在外所写, 而客居他乡, 不外乎外出求学、异地做官、仕途不顺、被贬在外、战乱动荡、家人离散、游山览水等写作内容, 而其表达的情感最主要的为怀乡思亲之切, 仕途不顺之痛, 战乱无法回归之失等。所以在诗歌中, 我们看到了杜审言的“归思欲沾巾”, 白居易的“一夜乡心无处同”。

3. 分析特定的表达手法。任何一种情感的萌发或喷薄都必将借助一种媒介, 对诗歌而言, 即表现为通过一定的表现手法来表达诗人的内心情怀。读诗词, 除了必须读懂诗歌写了什么内容, 还必须了解诗人通过哪些手法写出了这一内容。

以杜审言和柳宗元的诗为例, 两首诗均由眼前景象写起, 而表达情感的方法却各异。杜诗中因诗人为北人, 但当时却在江阴任职, 所以看见眼前春景不由得处处感到为之一新, 笔下所观之景处处春光明媚, 江南的新春与太阳一起从东方的大海升临人间, 像曙光一样照着满天云霞, 梅柳度过江来, 已完全是春天了。春天温暖的气候下, 黄莺婉转鸣叫, 春风温柔地吹拂下, 浮萍渐渐转绿, 好一派美丽春景。但是诗人见此景不由得心中一阵隐痛, 又是一年春来时, 又是一年未归时, 我的故乡又怎么样了, 我故乡的亲人又怎么样了, 由此可见, 眼前的景铺陈得愈是光鲜亮丽, 心中的痛愈是深沉难耐, 是典型的以乐景衬哀情的写法。而柳诗以一句“海天愁思正茫茫”领起全文, 一个“愁”字统领了写景的基调, 于是在他的笔下, 我们只能见到“惊风”、“密雨”、“重遮目”的“柳树”, “曲似肠”的“江流”, 而无任何“美”、“乐”可言, 则是典型的以哀景衬哀情的写法。

以上观之, 羁旅诗的创作多由眼前景物为出发点, 由眼前景或联想到家乡景, 或联想到家乡人, 想到自身身世, 抑或想到家园故园, 多以哀景衬哀情, 但并不排除以乐景衬哀情。以上几步, 可以看作学习一类新诗歌的方法:一据蛛丝马迹判断该诗类别;二据诗歌内容判断写作情感;三据表达手法进行判断分析。羁旅诗是这样, 其他各类别的诗歌亦是如此。

重排反应 篇6

长期以来对苯并呋喃及其衍生物的研究受到了科学家的广泛关注,对其合成方法的研究也不断深入,目前已有大量文献报道[5,6,7,8,9],而以Claisen重排为原料合成苯并呋喃及其衍生物的研究,始终是有机合成化学上的热点[10,11,12,13,14,15,16,17,18,19,20]。

Claisen重排反应的研究起始于1912年,德国化学家Ludwig Claisen[21]首次报道了这类重排反应,当时被描述为:一个烯丙基乙烯基醚,或者它的含氮和含硫的衍生物,经热异构化后得到一个双官能团的分子。Claisen重排反应的机理为经历一个六元的环状过度态(3)(见图2)。

本文主要综述近年来国内外学者由Claisen重排产物合成苯并呋喃结构的主要方法。

1 过渡金属催化

近几年,过渡金属催化在苯并呋喃及其衍生物的合成中应用较为普遍,很多过渡金属都可以催化其合成。在反应过程中这些金属大部分起路易斯酸或催化活化的作用。

Pd是一种典型的过渡金属,其化合物种类很多,通常为0价和2价,大部分都具有非常好的活性,在有机合成中发挥着很重要的作用。

2003年,Tanizawa[11]等用PdCl2(Ph-CN)2催化,苯中回流2 h,一步合成4位取代苯并呋喃结构(见图3)。当R为供电子基或弱的吸电子基时,产率可达到80%,但当R为腈基等强吸电子基取代时,产率不太理想,可能与苯环上电子云密度降低有关。

2 异构化-关环复分解(RCM)反应

对烯丙基苯酚再次成醚,然后用钌催化剂进行双键移位,再用Grubbs钌卡宾催化剂发生RCM反应关环。

2005年,Otterlo[12]等就运用此方法合成了多取代苯并呋喃衍生物(见图4)。苯环上取代基不同时,可以得到20%~100%的产率。当苯环上为甲氧基或硝基取代时产率较高。

3 环氧中间体途径

烯丙基苯酚用过氧乙酸或m-CPBA氧化,得到环氧中间体,开环后即可得二氢苯并呋喃衍生物。

1959年,Tinsley[13]对烯丙基苯酚用过氧乙酸氧化,65%产率得到环氧化合物(6),加热到100℃,即可得到二氢苯并呋喃衍生物(见图5)。

1998年,Shinozaki[14]等用m-CPBA氧化,再用MeOH-K2CO3处理,也得到苯并呋喃产物,产率为56%(见图5)。

2000年,Krupadanam[15]改进了方法,将烯丙基苯酚和m-CPBA在氯仿中回流6 h,可一步合成苯并呋喃产物,产率大幅提高,达到75%(见图5)。

4 碘嗡离子中间体途径

此方法是双键先与碘正离子形成碘嗡离子,具有亲核性的酚对其进攻,就得到了碘代的苯并呋喃。

1997年,Orito[16]等在Lewis酸SnCl4催化下,与碘单质室温反应24 h,可以72%产率得到碘代二氢苯并呋喃,再于NaOH-甲醇溶液中回流5 h,即可得到2-甲基苯并呋喃(见图6)。

2007年,Khan[17]等对多溴取代的烯丙基苯酚用NBS或NIS处理均以较高产率得到卤代二氢苯并呋喃(7),再在DBU存在下于甲苯中回流18 h,也得到了2-甲基苯并呋喃(8)(见图6)。

2006年,Muzart[18]等用I2-H2O系统,50℃下反应2~4 h,可以高产率制取碘代苯并呋喃。用此方法制取的苯并呋喃更符合绿色化学的要求(见图6)。

5 硒、碲嗡离子途径

硒、碲是较为活泼的杂元素,以它们为基础形成的配合物、氧化物在有机合成上应用较为广泛。

1989年,Tiecco[19]用过氧二硫酸盐氧化二苯联硒成硒正离子,酚羟基进攻硒正离子,即可得到硒代二氢苯并呋喃(9)。但此方法制取的二氢苯并呋喃产率较低,部分生成了甲氧基取代的开环产物(10)和(11)(见图7)。

1989年,Ogura[20]等先用苯碲酸酐与乙酸结合形成苯碲酸乙酐,化合物(12)对其进攻,形成碲嗡离子,酚羟基进攻碲正离子,形成中间体(13),用肼还原,得到碲代二氢苯并呋喃,在三丁基锡烷催化下,甲苯回流,可得到2-甲基二氢苯并呋喃。若反应过程中加入Lewis酸BF3-OEt2催化,则反应时间和速率都会有很大提高(见图7)。

6 氧化切断

对烯丙基苯酚用O3或NaIO4-OsO4氧化切断双键后得到的醛与酚羟基生成半缩醛,加入对甲苯磺酸催化脱水,得到苯并呋喃结构单元。

2000年,Wood[21]等在全合成Diazonamide A时采用这种方法合成关键中间体(14)和(15),(见图8)。

随着苯并呋喃衍生物的抗菌、抗癌等生理活性研究和开发, 其合成势必会有更大的市场需求。以Claisen重排产物为原料合成苯并呋喃衍生物的研究,将更加会吸引合成化学家的兴趣。近年来, 在传统合成方法的基础上, 无溶剂合成、固相合成、微波促进合成和离子液体为介质的合成,都成为合成此类化合物的有效方法,使其既高效,又符合绿色化学的要求。我们相信在将来的研究中此类新方法的使用会更具吸引力, 只是目前这些方法用于工业生产尚有一定难度,还有待进一步研究和开发。

摘要:苯并呋喃是一类重要的杂环化合物,许多天然产物分子中都含有苯并呋喃结构单元。由于具备良好的生物及药物活性,苯并呋喃及其衍生物的合成方法受到广泛关注。综述了以Claisen重排为基础合成苯并呋喃及其衍生物主要方法。

上一篇:胶质细胞下一篇:丽江师范高等专科学校