光谱识别

2024-10-31

光谱识别(共6篇)

光谱识别 篇1

0 引言

田间全面积均匀喷施除草剂不经济,还会污染环境,导致过量使用化学药剂和农产品残留[1,2]。精准喷施除草剂意义重大,其关键在于快速正确识别杂草[3]。光谱识别方法的优点是反应迅速、结构简单、成本低、实时性好且易形成商业化[4]。深入研究杂草的光谱识别方法很有必要,具有良好的应用前景。在我国,杂草的光谱识别仍处于起步阶段。

Vrindts等人运用分光辐射谱仪测定了马铃薯、甜菜、玉米和各种杂草以及土壤在200~2 000nm范围内的反射率,并分析选取了用于判别分类的特征波长,达到了较高的正确识别率[5]。Koger等用小波方法分析了豆苗地中杂草高光谱反射率信号,达到了83%的正确率[6]。Smith 等人用高光谱遥感技术在350~2 500 nm识别了7 种离体植物[7]。Slaughter等建立了一个可见光区的窄波段的光谱识别模型,正确率达到95%[4]。毛文华等人研究在室内测量小麦和杂草在700~1 100nm波长的反射率,所建模型的正确识别率达97.7%[8]。朱登胜等人在室内测量了离体大豆和杂草幼苗叶片的光谱数据,用神经网络建立模型,达到了一定的识别率[9]。

本研究用美国ASD公司生产的便携式野外光谱仪,在田间测量植株冠层在350~2 500nm波长范围内的光谱数据,并将支持向量机SVM (Support Vector Machine)算法应用于杂草的光谱识别,为杂草识别分类提供一种科学研究方法。

相比神经网络和其它分类算法,SVM的优点是小样本、结果最优、结构风险最小化且具有更强的泛化能力[10,11],主要应用于模式识别、聚类和数据挖掘,能较好地解决小样本、非线性、高维数和局部极小点等实际问题[12,13]。

1 支持向量机分类原理

设线性可分样本集为(xi, yi), i=1,…,n; y=

{+1,-1}是类别标号。该分类问题就是寻找最优超平面(w·x)+b=0,使得样本集完全正确分开,同时满足距离超平面最近的两类点间隔最大,如图1所示。

对于非线性分类样本,需将训练集非线性映射到高维空间,在此特征空间构建高维最优超平面。为避免高维空间的复杂计算,引入核函数k(Xi,Xj)=<

Φ(Xi), Φ(Xj)>。其核心思想是利用输入空间的核函数取代了高维特征空间中的内积运算,解决了算法可能导致的“维数灾难”问题,即在构造判别函数时,不是对输入空间的样本做非线性变换后再于特征空间中求解,而是在输入空间比较向量(如求内积或某种距离)后对结果做非线性变换,这样大量工作将在输入空间而不是高维特征空间中完成[14]。

SVM分类方法的关键是选择核函数,由不同的核函数对相同的训练样品集进行建模,识别结果不同。选择不同的核函数就构成不同的支持向量机,类核函数主要有以下几种:

1)线性核函数linear: k(x, y) = x ·y;

2)多项式核函数ploy:k(x,y) = [ (x·y)+1]q;

3)径向基核函数rbf: k(x, y) = exp(-‖x-y‖2/σ2);

4)多层感知核函数mlp。

2 材料与方法

2.1 测量仪器

试验所用的光谱仪为美国ASD公司生产的 FieldSpecHandheld 2500型野外便携式光谱仪。其光谱响应范围为350~2 500nm,光谱分辨率在350~1 000nm区间为3nm,在1 000~2 500nm区间为10nm。测量时取样间隔设为1nm ,即每隔1nm获得1个测量值。测量具体方法是:每次测量植物冠层之前,首先测量积分球参考板的反射能Ir,然后测量植物冠层的反射能Is。参考板的反射率Rr为已知,所以测量对象的光谱反射率Rs可以通过下式求得

Rs = ( Is / Ir ) ×Rr (1)

2.2 数据采集

本研究对大豆和杂草(马唐和稗草)测量了光谱反射数据。大豆和杂草的生长期为21d和42d。测量过程在室外进行,并选择在一个晴朗无云之日,测量时间为上午11:00 到下午14:00。

2.3 光谱数据的预处理和波段选取

对被测植株连续测量5次,求其平均值,以减小测量所得原始光谱的随机误差;然后,根据式(1)求出植株光谱反射率。原始测量光谱及其反射率光谱曲线如图2所示。

由图2(b)可见,反射率在1 800nm之后光波毛刺很多,噪声很大;在1 300~1 400nm波长范围内也有较大的噪声。因此,数据处理波长选取为350~1 300nm和1 400~1 800nm。由于取样间隔为1nm,因此每条光谱曲线取样点为1 352。

2.4 SVM分类器建模方法

2.4.1 二分类方法

以大豆和杂草两类划分,从所测样本数据中随机选取大豆和杂草各34个样本作为数据集,在其中随机选取大豆和杂草各14个样本作为训练样本集(train),在其余样本中选取大豆和杂草各20个样本作为检验样本集(test)。训练样本集为一个28×1 352的矩阵,其对应的输出集(group)为一个28×1的矩阵,检验样本集为一个40×1 352的矩阵,如表1所示。

利用Matlab7中的分类支持向量机函数,建立分类模型,主要语句如下:

SVMstruct=svmtrain(train, group);

class=svmclassify(SVMstruct, test);

其中:SVMstruct是训练好的支持向量机模型;svmtrain是训练支持向量机分类器的函数;svmclassify表示用所建立的支持向量机分类模型对预测样本数据进行分类;train为训练样本集;group为训练样本对应的输出集;test为检验样本集;class为检验样本对应的输出集。

2.4.2 一对一多分类方法

此方法是基于二分类方法,先在N类训练样本中构造所有可能的两类分类器,共可构造N*(N-1)/2个分类器。用构造的所有分类器对检验样本进行分类,对各分类结果进行投票,得票最多的类为检验样本所属的类别。本研究中,预实现3分类,应构建3个二类分类器。

本研究分别选取34个大豆光谱数据(类1)、33个马唐光谱数据(类2)和33个稗草光谱数据(类3)样本,选用三阶‘polynomial’核函数。设定类1、类2和类3的类别标识码分别为1,5和10,分别构建类1和类2、类2和类3、类1和类3的二分类模型,训练数据格式如表2所示。

当3个二分类模型都建立后,用3个分类模型分别对检验样本集test中的每个Xi预测、投票,得票次数最多的那个类别即是Xi所属类别。

3 结果与分析

3.1 大豆与杂草二分类

采用线性(linear)、多项式(polynomial)、径向基(rbf)和多层感知(mlp)核函数,分别用二次最优化(QP)和最小二乘法(LS)方法,对数据进行建模分类。大豆和杂草的二分类实验结果如表3所示。由表3可以看出,综合考虑支持向量比例和正确识别率,3阶多项式核函数二次最优化SVM更适合用于大豆杂草分类,正确率可达97.5%。

3.2 大豆、马唐和稗草三分类

大豆、马唐和稗草植株的一对一三分类结果如表4所示。由表4可以看出,用三阶polynomial核函数SVM构建大豆、马唐和稗草的三分类模型时,正确率可达83.3%。

由于本研究中的数据是在田间对植株冠层进行测量,相对室内近距离的测量干扰因素很多(比如土壤背景、光照条件、气温对仪器的影响等),对于识别率都有较大的影响,但识别率仍能达到83.3%的正确率,而且所需要的建模样本量较少。因此,SVM结合光谱技术在田间杂草识别中具有一定的应用潜力。此研究为田间杂草识别及传感器的建立提供了一种研究思路和应用基础。

4 结论

1) 用SVM模式识别方法构建了大豆田间杂草二分类模型,结果表明:3阶多项式核函数合适用于大豆田间杂草识别,正确识别率可达85%以上。

2) 用3阶多项式核函数SVM和一对一多分类方法,构建了田间大豆、马唐和稗草的三分类模型,正确识别率达83.3%。对于受多种外界因素影响的田间测量,此正确识别率也表明SVM对于田间杂草识别有较好的应用前景。

光谱识别 篇2

小波分析在活体浮游植物离散三维荧光光谱特征提取及识别中的应用研究

为了区分和识别不同属的浮游植物,选择了Daubechies-3小波的二阶低频分量对10种浮游植物的离散三维光谱进行了特征提取.Bayes判别分析结果表明此类特征谱对不同属间浮游植物的正确判别率可达96.75%.利用非负最小二乘法,依据此类特征谱建立的标准谱库可对加入不同噪声的.某些藻进行100%的定性识别.可对绝大多数混合样中优势种进行定性识别;并可使某些优势种的识别量达到真实量的75% 以上.小波分析可对浮游植物在属的层次上进行有效的特征提取.

作 者:张芳 王良 苏荣国 宋志杰 王修林 祝陈坚 ZHANG Fang WANG Liang SU Rong-guo SONG Zhi-jie WANG Xiu-lin ZHU Chen-jian  作者单位:张芳,苏荣国,王修林,祝陈坚,ZHANG Fang,SU Rong-guo,WANG Xiu-lin,ZHU Chen-jian(中国海洋大学,化学化工学院,山东,青岛,266100;中国海洋大学,海洋化学理论与工程技术教育部重点实验室,山东,青岛,266100)

王良,宋志杰,WANG Liang,SONG Zhi-jie(中国海洋大学,信息科学与工程学院,山东,青岛,266100)

刊 名:传感技术学报  ISTIC PKU英文刊名:CHINESE JOURNAL OF SENSORS AND ACTUATORS 年,卷(期): 20(10) 分类号:O657.32 Q949.2 关键词:浮游植物识别   特征提取   小波分析   离散三维荧光光谱  

光谱识别 篇3

烟草的风格特征包括香型、香韵、香气状态、烟气浓度和劲头。焦香、辛香、甜香等香韵是烤烟香气风格的重要指标, 是卷烟企业配方设计、原料采购的参考依据, 主要依靠评吸人员抽吸燃烧烟叶产生的烟气进行感官评定。烟叶的香气风格是其所含化学成分在烟气特征上的表现, 化学成分与感官评吸关系已得到充分研究[1,2]。由于近红外光谱携带有机物分子含氢基团 (C-H、N-H、O-H等) 伸缩振动的倍频与合频信息, 使用近红外光谱技术 (NIR) 分析烟草香气风格从理论上可行。近红外光谱结合化学计量学的分析技术具有快速、无损、多组分同时分析的优势[3]。支持向量机 (SVM) [4]基于统计学习理论, 通过核函数将非线性求解转化为在高维空间中线性求解, 能够解决线性和非线性分类问题。最小二乘支持向量机 (LS-SVM) [5]是SVM的扩展算法, 使用误差的二范数作为损失函数, 将二次规划问题转为线性规划, 大幅简化运算, 具有收敛快、稳定、推广性强的优点。本文研究目的是探究NIR结合LS-SVM方法建立分类模型以准确识别烤烟焦香、辛香、甜香等香气风格特点的可行性。

1 实验部分

1.1 试剂与仪器

167个烟叶样品采集自云南省曲靖市烟区。质量评吸数据来自云南瑞升烟草技术有限公司。近红外光谱仪为布鲁克公司的MATRIX-I (Bruker Optics, Bremen, Germany) 。

1.2 实验过程

按照标准YC/T 31-1996, 烟叶经过烘干、研磨制备成粉末样品。将烟叶粉末装入样品杯, 摇匀后压实, 放置在MATRIX-I旋转采样台上。漫反射积分球收集样品近红外光谱, 使用内置的陶瓷片作为参比。谱区采集范围为10000-4000cm-1, 光谱分辨率为8cm-1, 扫描次数为64。

使用模式识别方法研究烟叶的近红外光谱数据与评吸结果中香气风格 (焦香、甜香、辛香) 评分的统计关系。划分校正集和验证集, 选择光谱波长范围, 挑选合适的预处理方法, 分别建立焦香、甜香、辛香的LS-SVM分类模型, 交互验证法优化模型参数, 评价模型的预测性能。数据处理使用MATLAB 7.0 (The Math Works, Natick, USA) 。

2 结果与讨论

2.1 样品挑选与波长选择

图1所示为167个烟叶粉末样本的近红外漫反射光谱。图2是烟叶评吸结果中的焦香、辛香、甜香得分数据统计, 三种香韵的评分范围分别是0~1, 0~4, 0~3。由于评吸数据的主观性强, 精确度低, 近红外光谱与感观数据无法建立准确的定量关系。按评分的高低, 将烟草样本划分为香型明显和香型不明显两类, 从模式识别角度研究烟草样本是否具有焦香、辛香或甜香特征, 分类标准见表1。

受测试环境和仪器状态影响存光谱中存在异常样本, 为提高模型预测性能, 使用主成分分析和马氏距离结合的PCA-MD方法找出杠杆指大于平均值3倍的样本。8个样本的光谱判断为异常数据并剔除, 占样本总量的5%。

注:N) 香型不明显;Y) 香型明显。

图1中水蒸气峰在5500cm-1和7300cm-1附近引起光谱波动, 通过2阶导数光谱对噪声的放大作用找出水蒸气峰的准确位置:5150cm-1~5570cm-1, 7000cm-1~7400cm-1。波长8750cm-1以下仪器的检测器灵敏度较低, 并且该区域是有机分子的4倍频吸收, 光谱信噪比低。选择这些区域以外的波长范围作为模式识别模型的光谱输入数据。

固体粉末的近红外漫反射光谱通常受到光的散射效应的影响, 光谱曲线基线出现漂移, 一般需要使用散射校正算法, 如多元散射校正 (MSC) 和标准正态变量变换 (SNV) 消除散射。平滑1、2阶求导和标准化变换也是常用的光谱预处理方法。尝试使用多种预处理方法及其组合处理原始光谱数据和波长选择后的光谱数据, 选择使得回归模型性能最佳的预处理方案。

识别模型使用K折交叉验证的平均预测准确率 (CR) 和ROC曲线下面积 (AUC) 作为评价标准。ROC曲线由所评价模型的不同阈值对应的真正率和假正率构成, 曲线下积分面积作为模型优劣的指标。

2.2 LS-SVM模式识别

2.2.1 焦香识别模型

Kennard-Stone (K-S) [6]方法从71个焦香样本 (焦香得分1) 和72个非焦香样本 (焦香得分0) 中各选择最具代表性的30个样本组成校正集, 其余的83个样品组成验证集。首先由10折交互验证的预测准确率 (CR) 选定最优预处理方法, 部分预处理方法的模型预测结果如表2所示。对于焦香识别模型, 标准化处理对模型最为有效, CR为0.9354。

注:1) 焦香模型识别准确率;2) 甜香模型识别准确率;3) 辛香模型识别准确率;4) 未做波长选择的原始光谱, 其余均为波长选择后的处理。

正则化参数λ优化、核函数选择和核函数参数优化是LS-SVM的三个关键问题。由于RBF核的紧致性和计算复杂度的考虑, 选用RBF核作为LS-SVM模型核函数, 使用网格搜索结合10折交叉验证同时优化正则化参数λ和核宽σ2。设置多层搜索网格, λ和σ2初始优化范围由经验值确定, 均设置成e-5~e25, 每层网格节点个数19×19, 评价函数采用10折交叉验证的均方根误差 (MSE) , 相邻层网格最优MSE差值小于10-4时迭代收敛, 最大迭代网格层数为3。

LS-SVM模型通过2层网格搜索即得到最优参数λ (e13.28) 和σ2 (e16.76) 。建立最终的焦香识别LS-SVM模型, 验证集的预测准确率CR为0.9474, ROC曲线下面积AUC为0.9910。

2.2.2 甜香识别模型

甜香 (评分2.5、3、3.5) 和非甜香 (评分0、1) 样本各有43个和33个, 使用K-S方法从两类中各选择最具代表性的20个样本作为校正集, 其余共36个样本作为验证集。预处理结果如表2所示, 先SNV处理再求SG一阶导数, 模型的交叉验证识别准确率最高, 为0.9025。

使用网格搜索结合10折交叉验证优化λ和σ2。λ和σ2初始优化范围均为e0~e15, 每层网格节点数15×15, 评价函数为10折交叉验证结果的均方根误差 (MSE) , 收敛判据为MSE差值小于10-4, 最大迭代网格层数为3。

LS-SVM模型经过两层网格搜索得到最优参数λ为e11.30, σ2为e4.48。建立最终的甜香识别LS-SVM模型, CR为0.8889, AUC为0.9900。

2.2.3 辛香识别模型

K-S方法从42个非辛香样本 (评分0, 1) 和46个辛香样本 (评分2, 2.5) 中分别选择最具代表性的25个作为校正集, 其余共38个样品作为验证集。预处理效果如表2所示, 选择先做SNV处理再求SG一阶导数作为光谱预处理方法建立辛香的LS-SVM分类模型。

λ和σ2初始范围设置为e0~e15, 网格节点数19×19。LS-SVM模型经过3层网格搜索得到最优参数λ为e8.65, σ2为e13.60。使用这些参数建立最终的辛香识别LS-SVM模型, 验证集的预测准确率为0.9483, ROC曲线下面积AUC为0.9971。

3 结论

本文研究了烟草评吸中焦香、甜香、辛香三种香气风格的近红外光谱识别方法。选择光谱波长范围, 优化预处理方法, 建立LS-SVM分类模型。最终焦香的识别准确率CR为94.7%, ROC曲线下面积AUC为0.99;甜香识别模型的CR为88.9%, AUC为0.99;辛香识别模型的CR为94.8%, AUC为1.00。说明使用近红外光谱技术结合LS-SVM方法快速、准确地识别烤烟香气风格特征是可行的。

参考文献

[1]李洪勋, 潘文杰, 李建伟, 等.烤烟内在化学成分分析与感官评吸指标的关系分析[J].湖北农业科学, 2013, 52 (8) :1837-1841.

[2]张燕, 马林, 孔留艳, 等.卷烟香气风格特征聚类分析[J].食品工业, 2012, 33 (8) :152-155.

[3]褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社.2011:23.

[4]Vapnik V.Statistical Learning Theory[M].New York:Wiley-Interscience, 1998.

[5]Suykens J, Vandewalle J.Neural Processing Letters.1999, 9 (3) :293-300.

光谱识别 篇4

关键词:茶叶,近红外光谱分析,化学计量学,马氏距离,快速鉴别方法

茶叶发源于2000多年前的中国, 是中国重要的经济作物。茶叶与可可、咖啡并称为世界三大饮料。茶叶的种类十分丰富, 并且许多茶叶很难从外观特性上进行准确的区分, 特别是名优茶市场有很多以假乱真、以次充好的茶叶, 严重影响茶叶市场的运营, 损害消费者的利益, 损害中国茶叶品牌信誉, 不利于茶叶的出口。同时, 不同茶叶在保健特性上, 具有一定差异。例如, 茶叶普遍具有杀菌, 消炎等作用, 但是绿茶最突出的作用是抗氧化, 而红茶则有较好的养胃功效。因此, 建立鉴别茶叶品种的快速分析方法是十分重要和必要的。

传统用于茶叶鉴别的方法为感观评定法和化学方法。感观评定法受人为因素和外界环境的影响较大, 同时, 感官评定常要求评定者具有相对丰富的经验, 因此, 难以保证鉴别的客观性与可靠性;化学方法能准确的鉴别茶叶, 如拉曼光谱法[1], 红外光谱法[2,3]等。其中基于红外光谱建立的茶叶品种分析方法, 具有快速、简便、稳定性高等优势。近年来, 许多学者在红外光谱应用于鉴别茶叶品种等方面, 进行了深入的研究。如, 赵杰文[4]等利用近红外光谱结合模式识别的方法鉴别了龙井、碧螺春、毛峰和铁观音4种中国名茶, 取得了满意的结果, 实验证明了近红外光谱在茶叶鉴别上的可行性。周健[5]利用近红外技术结合偏最小二乘法建立了定性模型, 实现了对西湖龙井茶真伪的鉴别。2009年, 周健等[6]利用近红外指纹图谱分析了滇青、青饼和普洱茶 (熟饼) , 采用主成分分析和系统聚类等分析方法实现了对三类茶的定性判别。

本文是利用近红外光谱分析技术, 光谱经过多元散射校正 (MSC) 后结合主成分-马氏距离判别分析方法, 建立一种快速无损同时鉴别市售七种不同品种的茶叶 (碧螺春, 云雾信阳毛尖, 御品天香, 云雾茗茶, 云雾毛尖王, 宜昌绿茶, 云雾茉莉花茶) 的方法。

1 实验部分

1.1 实验材料

于武汉市各大超市购买品种不同的7种茶叶。样品信息见表1。

1.2 主要仪器设备

AntarisⅡ傅里叶变换近红外光谱仪 (美国Thermo Nicolet公司) , 配有积分球漫反射采样系统、In Ga As检测器和石英样品杯;Result软件用于光谱的采集;TQ8.0软件用于分析数据处理。DZF-6021型真空干燥箱 (上海索谱仪器有限公司) , FW-100型高速万能粉碎机 (天津市泰斯特仪器有限公司) , 200目标准检验筛 (孔径0.074mm) 。

1.3 实验方法

1.3.1 样品的制备

将全部茶叶以高速万能粉碎机粉碎, 所得粗粉过200目筛得实验细粉样品, 并于60℃下真空干燥24h后, 将干燥细粉转移至密封袋中密封保存, 贴好标签, 储存在干燥器内备用。

1.3.2 茶叶近红外光谱测定方法

将以1.3.1处理后的茶叶样品分别盛入样品池内, 使用AntarisⅡ型傅立叶变换近红外光谱仪的积分球漫反射附件采集近红外光谱图。采集条件:采集光谱范围为10000~4000cm-1, 扫描次数为32次, 分辨率为8cm-1。温度为25±1℃, 湿度为45±2%。以金箔为参比进行扫描, 每种茶叶样品平行采集10张光谱, 对于七种茶叶共得到70个样品光谱。分别按照测定样品顺序, 以01-70对样品进行编号, 并将每个样本的前7张光谱划分为训练集, 后3张划分为预测集。样品标记列于表2:

1.3.3 光谱数据处理方法

常用于与近红外光谱相结合的化学计量学分类模型有:主成分分析法 (PCA) 、马氏距离 (MD) 、偏最小二乘法 (PLS) 和线性判别 (LDA) 等。本实验主要运用结合主成分分析 (PCA) 的马氏距离 (MD) 判别分析方法, 对不同的茶叶进行模式识别分析。

本实验所采集的近红外光谱数据通过多元散射校正 (MSC) 的光谱预处理, 再通过PCA-MD进行建模分析。

2 结果与讨论

由于所测得的原始光谱常受到样品颗粒不均匀、散射、物理扰动等因素的干扰, 致使不同波长点量测光谱存在不同程度的差异和影响。因此, 通过对茶叶的原始光谱进行多元散射校正 (MSC) 以克服样品颗粒的大小和折射率及光的波长等物理因素使光谱散射所导致的差异, 光谱的信噪比明显得到改善, 光谱曲线变得光滑。

2.1 七种茶叶的指纹图谱

按2.3.2方法采集7种茶叶的近红外光谱, 如图1所示:

由图1可见, 从七种茶叶的近红外原始光谱图中难以直接判别茶叶的品种。由于所测得的原始光谱常受到样品颗粒不均匀、散射、物理扰动等因素的干扰, 致使不同波长点量测光谱存在不同程度的差异和影响。通过对茶叶的原始光谱进行多元散射校正 (MSC) 可以克服样品颗粒的大小和折射率及光的波长等物理因素使光谱散射所导致的差异, 光谱的信噪比明显得到改善。

2.2 茶叶品种鉴别的模式识别方法

主成分分析-马氏距离判别分析方法[7,8,9]是通过对主成分分析对光谱变量进行转换, 用降维后的新变量进行线性组合最大限度表征原始光谱信息特征。再以新的特征变量进行马氏距离计算[8]表示数据的协方差, 再根据距离度量值进行判别分析。

对7种不同品种茶叶的70张样品近红外光谱进行多元散射校正, 并依据校正后的光谱指纹信息建立PCA-MD判别模型, 其中每种茶叶的前七张样品光谱作为训练集, 后三张样品光谱作为预测集。

通过主成分分析 (PCA) 先对经多元散射校正后的近红外光谱特征进行提取, 降维后, 得到前10个主成分组成的新的变量。其中前10个主成分的贡献率达到99.6%, 故利用主成分为10的累计方差足以解释总方差, 从而实现了对样品近红外多元散射校正指纹信息数据的降维。再基于马氏距离方法计算每两个样本相互之间的相似度, 以距离度量值对七种不同品种的茶叶进行类别划分。

表3为7种茶叶间训练集和预测集样品的相互马氏距离的平均值及预测分类归属结果。从它们的马氏距离平均值中可以看出, 七种茶叶的近红外漫反射光谱的多元散射校正光谱具有较为明显的差异, 通过计算相互间的马氏距离, 能够对不同种类的茶叶进行明确的区分, 且对于七种茶叶的预测分类归属均与实际分类相符, 其预测分类正确识别率均达到100%。

为了直观分析其预测分类归属的识别结果, 可任选取到两种茶叶的距离为度量。表4和表5列出了以所有茶叶样品分别到A类样品碧螺春的距离和到B类样品云雾信仰毛尖的距离为度量时, 七种茶叶各10个样品对碧螺春和云雾信阳毛尖的马氏距离。纵向观察表4和表5, 可显而易见, 每种茶叶的各10个样品分别到A类和B类样品间的距离基本一致, 说明各类样本自身特征性质的稳定性良好。

表4中以各类茶叶到碧螺春的距离为度量时, D类样品云雾茗茶 (红茶) 与A类样品碧螺春的距离最远, 表明化学成分等差异最大, 其余依次为C类样品御品天香, B类样品云雾信阳毛尖, 但是样品E (云雾毛尖王) 、F (宜昌绿茶) 、G (茉莉花茶) 三种茶叶对碧螺春的相对距离十分接近, 这说明, 单独根据7种茶叶分别到样品A碧螺春的距离, 无法对7种茶叶进行明确的分辨, 还需要更多的信息对样品实现模式识别。但当结合各样品到样品B的距离构建二维空间坐标系后, 便可进行各类样本间相似度的评价及明确的样品类别划分。

表5中以各类茶叶到样品B云雾信阳毛尖的距离为度量时, D类样品云雾茗茶 (红茶) 的距离最远, 其余依次为E类样品云雾毛尖王, G类样品云雾茉莉花茶, A类样品碧螺春, F类样品宜昌绿茶和C类样品御品天香。但其中, C类样品与F类样品的相对距离较近。因此, 当组合表4和表5的距离结果值, 组成二维空间坐标时, 才能更好地对7种茶叶的类别进行完整而准确的划分。

为了直观判别分析各种茶叶间的分类情况和相似度, 将其表4和表5的马氏距离值投影在二维平面坐标下。如图2所示即是将7种茶叶分别到碧螺春的距离和云雾信阳毛尖的距离的二维空间中的距离度量值的判别分析图。其中, 图示A~G对应的茶叶类别如表1所示。

由上图2可以观察出:七种茶叶的指纹特征差异比较明显, 可以比较清晰的分辨出各种茶叶的相应归属, 且无错判情况的发生, 说明模型能够准确的对7种不同品种的茶叶样品进行品种分辨。其中, 当以样品A碧螺春和样品B云雾信阳毛尖分别为横纵坐标的作为空间投影图中, 样品E、F、G到样品A的距离相对较为接近, 说明, 此三种茶叶具有较为相近的化学成分。而样品C御品天香相对样品A与B来说, 其性质更加接近样品A碧螺春。而样品D云雾茗茶 (红茶) 与其他6种样品的相对距离最远, 说明化学成分茶叶较大, 这可能与样品D为红茶, 为全发酵茶的原因有关。

3 结论

由以上结果分析可知:通过马氏距离法对茶叶样品的近红外指纹图谱进行分类建模, 可以实现对不同品种的茶叶进行鉴别, 其分类正确率均达到了100%。此方法方便易行, 鉴别结果良好, 为茶叶的品种鉴别提供了一种有效的检测手段, 具有广阔的应用前景。

参考文献

[1]陈永坚.基于拉曼光谱的茶氨酸研究及茶叶种类判别分析[D].福建师范大学, 2012.

[2]胡茶根, 赵红霞.近红外技术在茶叶快速无损检测方面的研究与应用[J].食品科学, 2007 (28) :639-640.

[3]顾小红, 冯宇.偏最小二乘法在红外光谱识别茶叶中的应用[J].分析科学学报, 2008, 4 (24) :131-132.

[4]赵杰文, 陈全胜, 张海东, 等.近红外光谱分析技术在茶叶鉴别中的应用研究[J].光谱学与光谱分析, 2006, 26 (9) :1601-1604.

[5]周健.基于近红外的茶叶成分分析与信息识别的研究[D].北京:中国农业科学院, 2008.

[6]周健, 成浩, 叶阳, 等.滇青、青饼和普洱茶 (熟饼) 近红外指纹图谱分析[J].核农学报, 2009, 23 (1) :110-113.

[7]Kim H, Kim D, Bang S Y.Extensions of LDA by PCA mixture model and class-wise features[J].Pattern Recog nition, 2003, 36 (5) :1095-1105.

[8]李玉榕, 项国波.一种基于马氏距离的线性判别分析分类算法[J].计算机仿真, 2006, 23 (8) :86-88.

光谱识别 篇5

关键词:人脸识别,加速近似梯度,鲁棒光谱回归,子空间学习,最大相关熵

监督的线性判别分析 ( LDA) 是人脸识别领域最流行的子空间分析技术之一, 主要目标是最大化类间散布, 同时最小化类内散布。人脸识别中, LDA也称为Fisher脸[1], 并且具有较多的变量。基于Fisher脸方法, 学者们提出了许多扩展方法。例如, 边缘Fisher分析 ( MFA) 方法[2]、自适应非参数判别分析方法[3]、拉普拉斯判别分析方法[4]、邻域保持投影方法[5]、正则化投影保持方法[6]。

LDA及它的衍生方法通常涉及稠密矩阵的特征分解, 导致了可视化数据的高计算成本。为了解决计算开销问题, 学者们提出了多元线性回归 ( MLR) [7]和光谱回归[8—12]方法, 文献[7]将Con- tour-let变换与高频子带人脸特征组合成多尺度特征向量, 提高人脸识别率的同时, 提高了算法的效率。文献[8]采用岭回归法构建了多元光谱回归分析模型, 在太湖的36个采样点水样中取得了不错的效果。文献[9]针对近红外光谱数据维数高、谱带归属难以确定等特点, 提出了一种最小二乘局部加权光谱回归方法, 实验结果表明该方法具有模型简单、稳定性好和计算省时等优点。文献[10]将光谱回归与线性子空间相结合, 大大地降低了光谱回归方法的计算开销。文献[11]利用稳健回归M估计反演DOAS测量光谱数据方法, 对正常谱和异常谱进行两者回归方法比较, 提高了回归的可靠性。文献[12]利用马氏距离、Cook距离、光谱特征异常值、光谱残差比等指标, 结合数理统计检验来判断光谱和化学值的异常, 并利用这些方法进行近红外光谱定量分析中模型优化, 取得了非常好的实验效果。

光谱回归在大规模数据集中已经显示出了优越性, 尽管如此, 由于均方差 ( MSE) 准则, 光谱回归框架对于噪声非常敏感[9]。真实世界的人脸识别应用中, 训练过程中会发生类标签错误和面部遮挡噪声[11]。噪声引入的误差将会支配MSE的测量, 并使其非最优, 这使得光谱回归框架学习的用于代表视觉类的判别子空间减少。因此, 一些方法, 比如M估计[11]和信息理论学习[13]得到广泛的应用, 用于提高线性回归和子空间学习的鲁棒性。虽然基于不同的目标, 但是这些方法中大多数可以看作是迭代加权最小二乘法 ( IRLS) [14]的变体。然而, 每次迭代中, IRLS涉及到所有样本的再权重, 其计算成本非常高。

基于上述分析, 为了解决光谱回归对于由类标签错误和面部遮挡产生的误差很敏感的问题, 提出了基于加速近似梯度的鲁棒光谱回归方法, 通过采用最大相关熵准则 ( MCC) [15—18]有效地处理了大噪声和干扰, 并利用加速近似梯度算法, 解决了混合正则化问题。与正则化线性判别分析及迭代加权法相比, 所提方法进一步提高了识别率且降低了计算成本, 实验结果验证了它的鲁棒性和有效性。

1相关工作

1. 1人脸识别中的光谱回归

通过求解正则化的特征值问题, LDA寻找判别子空间。这与多元线性回归有密切的关系, 多元线性回归对象是特定图像矩阵的光谱值。假定c类中包含一系列n个数据样本x1, …, xn∈ Rd。令li∈ { 1, …, c} 表示第i个样本的类标签, mj表示第j个类的样本数, Y∈Rn× (c-1) 是光谱值, U∈Rd× (c-1) 是LDA的判别子空间。u和y分别表示矩阵U和Y的一列。

二元分类情况下, 众所周知, LDA试图解决回归问题, 其中回归对象定义为

文献[7]证明LDA学习的子空间可以由多元线性回归计算得到, 其中回归对象定义为

从图形嵌入的观点, 可以通过基于子空间学习的光谱回归 (SR) 求解LDA的子空间, 这是很直接的方法。在规范的LDA中, 主要的计算涉及到下面广义的特征问题

式 (3) 中, X-是中心数据矩阵, W是图形矩阵。根据引理:令y-是特征值为λ的特征问题Wy-=λy-的特征向量;如果X-Tu=y-, 那么u就是方程 (3) 中具有相同特征值的特征问题的特征向量。

可以通过光谱回归有效地求解LDA的特征向量, 其中回归对象是图形嵌入的LDA特定的拉普拉斯矩阵特征向量, 具有以下形式

式 (4) 中, i=1, 2, …, n;j=1, …, c, n表示样本总数, c表示类别总数。对于一个c类问题, 仅有一个c-1维的LDA子空间。在SR中, 可以通过GramShmidit法, 用初始向量y0=[1, …, 1]T∈Rn×1对回归对象进行正则化, 进而求解c-1维有效回归目标。

虽然基于LDA法的回归极大地改善了计算效率尤其是对于大规模尺寸的数据, 但是它们对于线性回归中的MSE测量引入的干扰非常敏感。考虑到鲁棒性对于子空间学习也是很重要的, 现在的工作集中在鲁棒光谱回归法上。

1. 2最大相关熵准则

在信息理论学习中, 相关熵最近已经被作为一种鲁棒类似度测量提出来, 它克服了MSE测量的缺点。它被定义为两个任意的随机变量A和B之间的广义相似度测量。实际中, A和B的联合概率密度函数通常是未知的, 并且只能得到有限数量的数据{ ( Aj, Bj) }jn= 1。因此, 相关熵的样本估计可以通过式 ( 5) 评估。

式 ( 5) 中kσ是高斯核kσ ( ai, bi)  g ( ai- bi)  exp ( - ( ai- bi) 2/2σ2) 。由方程 ( 5) , 文献[9]对任意两个向量A = ( a1, …, an) T和B = ( b1, …, bn) T进一步介绍相关熵诱导度量 ( CIM) , 如下

式 ( 6) 中, 误差ej定义为ej= aj- bj。对于自适应系统s, 最大相关熵准则 ( MCC) 为

式 ( 7) 中, θ 是准则中的评估参数。

MCC具有原点错误概率密度最大化的概率意义, 当分布具有原点最大值时, 可以得到任意噪声下的MCC。文献[16]证明了对于线性和非线性回归, 相关熵是一个鲁棒函数 ( 从Welsch M-估计的观点) 。文献[17]给出了最大相关熵成本函数递归解的分析和封闭形式。MCC建立了M-估计和ITL法之间的封闭关系, 并且提供了选择适当内核尺寸实用的方法。

虽然通过迭代加权的方法可以有效地求解相关熵对象, 但在每次迭代中, 经常涉及到加权矩阵和逆矩阵的计算, 因而相关熵的总计算成本依然很高。 因此, 有必要进一步地研究相关熵对象的有效优化方法。

2方法提出

首先提供了一种人脸识别的鲁棒平滑光谱回归模型。然后, 开发了一种求解该模型的加速近似梯度方法。

2. 1提出的模型

考虑到光谱回归中的鲁棒特性, 这里采用MCC对线性回归问题进行格式化。然后, 对于第j个光谱向量uj, 有如下的基于对象的相关熵

人脸识别中, 经常尝试去学习基于图像关联性的平滑子空间, 因此, 这里将TV正则化加到式 ( 8) 中, 然后有

没有TV正则化, 式 ( 9) 可以通过迭代加权最小二乘法求解 ( IRLS) [14]。然而IRLS在每一步的迭代中, 涉及到加权矩阵的求逆计算, 这对于大规模数据来说会导致很高的计算成本。为了解决该困难, 利用半二次优化的附加形式去求解。

给定一个函数 φ (·) 和它的共轭函数 φ (·) , 如果在HQ中, 有 φ (·) 的一个附加形式, 关于 φ (·) 和 φ (·) , 以下方程总是成立的

式 ( 10) 中 χ ∈ R, ε ∈ R。然后通过求解增广 ( 合成的) 成本函数, 可以求出 φ ( χ) 的最小值,

式 ( 11) 中, ε 是一个辅助变量, 它由最小化函数 δ ( χ) 确定, 也就是,

式 ( 12) 中c是常数, "φ 是 φ. δ ( χ) 的导函数, 满足

文献[16—18]讨论了相关熵的共轭函数, 并且对于鲁棒学习开发了相关熵的乘法形式。基于附加形式的定义, 在相关熵中, 现在有g ( χ) 的如下附加形式

式 ( 14) 中, φg (·) 是g (·) 的共轭函数。

根据HQ的附加形式, 最小化函数 δg (·) 有如下形式

将式 ( 14) 代入式 ( 9) , 得到以下式 ( 9) 的增广成本函数

式 ( 16) 中, e = [e1, …, en]2, 或式 ( 16) 可以进一步写成

考虑到Moreau邻近算符可以求解TV正则化, 可以把式 ( 16 ) 的优化问题看作是混合正则化问题。

2. 2基于改进APG的鲁棒光谱回归

对于模型的优化, 选择运用通常所用的加速近似梯度 ( AGP) 法去有效求解式 ( 17) 中的混合正则化问题。APG尝试求解一系列如下形式的优化问题

式 ( 18) 中 Η 是一个实Hilbert空间, 并且

函数f ( χ) 是凸的并且光滑的, Lipschitz连续梯度,

式 ( 20) 中, Lf是Lipschitz常数, 可以设置为2。

取代直接求解, APG选择求解F ( χ) 二次近似的序列, 表示如式 ( 21) 。

对于任意 υ, Q ( χ, υ) , 上边界为F ( χ) 。另外, 如果定义G = υ - ( 1 /Lf) "f ( υ) , 那么Q ( χ, υ) 有如下形式

为了求解式 ( 22) , 可以用特殊选定的点

令χ= (u, e) , υ= (vyve) , 通过下列散布二次近似, 求解式 (16) 中的混合正则化问题

显然, 式 (23) 的最小解由TV正则化的MPO确定, 式 (24) 的最小解由基于式 (13) 的HQ最小函数确定。

对于式 (23) 的最小化问题, 引入y^表示衰减标记XTu。然后式 (23) 的最小化可以由如下式计算

考虑到光谱回归和LDA中的逆矩阵问题, 进一步将l2正则化引入。然后计算如下

式 (27) 中, α是l2正则化参数, I是单位矩阵。算法1通过加速近似梯度总结了鲁棒光谱回归算法。

算法1基于改进加速近似梯度的鲁棒光谱回归

算法1的计算开销主要有两个部分。第一部分是计算XG, 其复杂性是O ( d3+ d2n) 。第二部分是APG的迭代, 其涉及到矩阵乘法, 因此复杂性是O ( kdn) 。虽然光谱子空间中有 ( c - 1) 个光谱回归, 但是可以平行计算每个回归。因此算法1的总计算成本是O ( d3+ d2+ kdn) 。SVD + 图像嵌入的线性延伸 ( LGE) 的计算成本为1. 5n2+ 4. 5n3, 正则LGE的计算成本为2nd2+ 4. 5d3。特别地, 光谱回归的计算成本为2cdn, 其中c是类数。由于涉及到鲁棒性, 算法1的成本明显在正则LGE和光谱回归之间。

3实验

所有的实验均在4 G内存Intel ( R) Core ( TM) 2. 93 GHz Windows XP机器上完成, 编程软件为MATLAB 7. 0。

实验将所提方法与多种相关的最前沿的子空间法进行了比较, 包括经典的线性判别分析 ( LDA) [1]、光滑线性判别分析 ( SLDA) [7]、正则化线性判别分析 ( RLDA) [7]、光谱回归判别分析 ( SR- DA) [8]、加权光谱回归 ( WSR) [9]、正则化子空间学习光谱回归 ( RSL-SR) [10]、M-估计光谱回归分析 ( ME-SRDA ) [11]、 以及Renyi熵判别分析 ( REDA) [15]。用两种一般的噪声情况 ( 类标签错误和面部遮挡噪声[11]) 去评估不同方法的鲁棒性, 参考各方的所在文献, 将所有比较方法的参数调整至可以获得训练集上最好的识别率, 对于每个实验, 将20次随机运行的结果取平均, 报告平均值与标准偏差。

3. 1人脸数据库

实验选取最具挑战性的FRGC数据集评估不同子空间方法的鲁棒性, 从FRGC-V2人脸数据集的子集上选取面部图像。对于FRGC实验, 查寻集中有466个目标的8014张图像。这些不受控制的静止图像包含了光照、表情、时间和模糊度的变化。然而, 对于某些人仅能获得两张人脸图像, 所以, 实验选取查寻集的子集。如果人脸图像的数目不少于20, 则选取前20张人脸图像。然后, 获得了186个目标的3 720张图像。前60个目标用作训练集, 剩余的126个目标被开发用作图库集和测试集。然后在126个目标中, 选取每个人的前10张人脸图像作为图库集, 剩余的10张图像用作测试集。因此, 用于训练的人的图像集与测试的人的图像集是不同的。每张人脸图像是256灰度每像素, 并通过固定双眼的位置将其裁剪成64 × 64像素, 采用基于Eu- clidean的最近邻居算法进行分类, 样本示例如图1所示。

3. 2分类误差分析

判别分析通常用于减少Gabor特征的维数[2], 对由于表情和光照变化引起的脸部变化来说, 这是鲁棒性的。过滤每张人脸图像, 并且在另外每八个像素上, 执行Gabor过滤器。因此一张图像上, 每个Gabor过滤器有64个Gabor值。使用了4个尺寸, 4个方向的Cabor。所以, 一个Gabor特征向量的Ga- bor过滤器的总数64 × ( 4 × 4) = 1 024。

表1所示为不同错乱噪声水平下相比较的算法的误差率, 其中, 平均误差率和标准偏差都是根据20次随机产生错乱的运行结果产生的。

从表1还可以看出, 当噪声水平大于25% 时虽然REDA显著优于RLDA, 但是当噪声水平很低时它仅仅获得了相对于RLDA类似的分类准确度。当没有错误噪声时, RLDA具有最低的误差率。APG-RSR的误差率大约是SRDA的87% 。相对于SR- DA, 改善因为标记纠正能力和TV正则化。当噪声水平为5% 时, APG-RSR的误差率同RLDA相当。 当错乱噪声再大时, APG-RSR优于其它所有相比较的方法。对于所有的判别子空间学习来说, l2正则化参数是一个重要的参数。对于LDA和SRDA, 当采用l2正则化时, 平均误差率的改善接近20% , 这对于APG-RSR、REL-SR 、ME-SRDA及WSR的识别精度同样也是一个重要的参数。

3. 3面部遮挡噪声分析

自动人脸识别系统中, 当某个人的脸靠近相机边框时, 人脸匹配程序可能只裁剪脸的一部分。因而缺少的一部分需要设置为默认值。为了模拟这种面部遮挡误差, 在图像边缘, 用矩形随机选取并填充训练图像, 如图2所示。向下抽样图像向量的尺寸是32 × 32 = 1 024。

表2显示了不同面部遮挡噪声水平下的相比较的算法的平均误差率。

从表2可以看出, 与所期望的一致, 在所有面部遮挡噪声水平下, APG-RSR优于SRDA和REDA。 当有噪声时, 非鲁棒方法的误差率迅速增加, 而三种鲁棒方法的误差率则增加的非常缓慢。因为面部遮挡图像与左侧训练集上的完整图像相比是截然不同样本, 所以基于M-估计的鲁棒法可以检测面部遮挡图像, 并且利用完整图像以学习鲁棒子空间。因此, 这三种鲁棒法优于两种非鲁棒法。

3. 4性能比较及分析

l2正则化参数 α 是LDA和光谱回归的一个重要参数, 用于提高人脸识别的识别率。本实验中, 将 α 设置为一个鲁棒均值, 即

式 ( 28) 中, α'是一个常数, 由训练集确定。运行图3的仿真显示了 α 是如何影响APG-RSR的性能的。 实验设置与3. 2节相同, 干扰水平为25% 。

如图3所示, APG-RSR的误差率是常数 α'值的函数。可以看出, 误差率随着 α'值的增加而降低。 当 α'从10增加到14时, 误差率并没有很大的变化。实验结果表明, α'在很大的范围可以让APG- RSR维持一个恒定的误差率。因此, 在真实世界的人脸识别应用中, 对于训练集推荐采用一个合适的 α'值。

APG-RSR的计算成本主要包括两个部分, 计算逆矩阵及迭代计算投影子空间。与迭代加权法相比, APG-RSR避免了每步中加权矩阵的求逆计算。 在PEAL数据集上, APG-RSR的平均计算成本为8 s, 而根据各文献, REDA是52 s[15], WSR是48 s[9], RSL-SR是46 s[10], ME-SRDA[11]是42 s, RL- DA是35 s[7], 所提方法的计算成本明显低于RE- DA、WSR、RSL-SR、ME-SRDA及RLDA方法, 由此体现了其高效性。

4结束语

通过联合MCC和TV正则化, 研究了用于判别子空间学习的鲁棒光谱回归问题, 利用半二次化的附加形式将该非线性问题简化成带混合正则的二次化问题, 提出了一种基于加速近似梯度的鲁棒光谱回归方法。在有挑战性的数据集上的比较实验验证了所提方法的有效性, 并且验证算法鲁棒性的可观收益。所提方法的识别性能优于其它的线性回归及光谱回归方法, 并且在噪声情况下, 优于正则化LDA方法, 大大地降低了计算开销。

光谱识别 篇6

傅里叶变换红外光谱法(FTIR)能够有效地避免样品因预处理所造成的微量或痕组分的损失,保证了最大限度地保留样本的整体指纹信息,具有简单、快速、精确、无损和专属性指纹特性等优点。但是,对于理化性质非常相似的样本的中外光谱而言,直接的图谱分析难以获得准确的辨识结果,常需要借助于信息提取的方法,如模式识别技术。有学者利用近红外光谱结合移动窗口偏最小二乘判别分析方法对不同厂家的六味地黄丸进行无损快速有效鉴别[6]。本文对5个不同产地的麻花秦艽及其伪品红秦艽、黑秦艽的的判别问题,运用了经典的模式识别方法偏最小二乘判别分析方法,取得满意结果,对麻花秦艽及其伪品的识别提供了一种更快速准确的手段。

1实验仪器、材料与方法

1.1实验仪器

FT-IR NICOLET6700傅立叶变换红外光谱仪(美国 Thermo Electron公司),FW135型中草药粉碎机(天津市泰斯特仪器有限公司);200目标准检验筛;DZF-6021真空干燥箱(上海索普仪器有限公司)。

1.2材料与方法

5种麻花秦艽为青海互助及西宁地区、新疆乌鲁木齐、山西交城、陕西志丹产地的样品,伪品黑秦艽来自甘肃天水,甘肃丹参样本来源为甘肃定西。所有样品又随机划分为训练集和预测集,具体见表1。所有样品均由湖北省德仁堂药房提供,并经过中南民族大学药学院民族药物研究所鉴定。将样品在60℃真空干燥24h,用中药粉碎机粉碎后过200目筛,取2mg样品粉末与200mg溴化钾混合研磨均匀、压片,经傅立叶变换红外光谱仪进行测定。光谱范围4000~400cm-1,扫描次数为16次,分辨率为8cm-1。实验中对每个样品采集80张光谱图,共收集了560个样品的傅里叶变换红外光谱。

2方法原理

PLSDA模型:偏最小二乘判别分析(PLSDA)模型[7]用矢量fj(fj的第j个元素为1,其余元素均为0)编码来表示样品类别,第j 类样品用fj表示。训练集样本的类别矢量构成类别矩阵Yn×k(每一行为一个样品的类别矢量),Yn×k的每一列对光谱矩阵Xn×p进行PLS1回归,隐变量的个数由交互验证确定,PLSDA 可由下式表示:

undefined

其中回归矩阵Bp×k的每一列为PLS1的回归系数向量,由未知样品的光谱矩阵Xun和回归矩阵Bp×k即可估计预测样品的类别矩阵Yun:

undefined

然后根据估计的类别矩阵中的类别矢量来判定未知样品的类别,对于每个样品的类别矢量,如果其最大元素出现在类别矢量的第j个位置,则该样品被归为第j类。

3结果与分析

3.1麻花秦艽药材及其伪品的FTIR图谱

麻花秦艽药材及其伪品的FTIR原图谱见图1,多元散射校正(MSC)图谱见图2,二阶导数(SD)图谱见图3。

从图1中可以发现,3类样品的原始光谱重叠比较严重,肉眼难以分辨,很难从峰位、峰强、峰形等方面直接鉴别。由于麻花秦艽的不同产地,及其伪品黑秦艽和甘肃丹参的种类差异,其含有的主要化合物及其含量会有一定的差异。本文采用化学模式识别方法从光谱数据中提取相关的有价值化学信息,可以实现对其真伪样品的鉴别。由于样品及样品颗粒不均匀、散射和各种噪音的影响造成光谱之间产生差异,原始光谱中存在一定的基线漂移和倾斜。在建立PLSDA模型前通过多元散射校正(MSC)进行预处理以克服样品颗粒的大小和折射率及光的波长等物理因素使光谱散射所导致的差异,由图2可见,红外光谱的信噪比明显得到改善,光谱曲线变得光滑。同时通过二阶导数(SD)光谱消除基线漂移和基线倾斜所造成的影响,由图3可见,光谱的分辨峰得到了提高。

3.2偏最小二乘判别分析(PLSDA)模型的建立

对于560个3种麻花秦艽真伪样品,采用PLSDA模型可将黑秦艽样品编码为f1(1,0,0);麻花秦艽样品编码为f2(0,1,0);甘肃丹参样品编码为f3(0,0,1),并分别与其相应的原始光谱及经过MSC和SD预处理过的光谱变量相关联,构建与被测成分或性质相关的特征矩阵方程。每个PLSDA取隐变量为6时能获得最小的模型训练和预测错判数。

图4中(a)和(b)分别为3种麻花秦艽真伪样品训练集和预测集的虚拟编码图。通过判断样品的虚拟编码最大值出现的位置来归类。由图4可见,采用PLSDA模型对原始光谱数据的3类麻花秦艽真伪样品的训练和预测的正确率分别达到99.21%和98.89%,结果基本满意。然而,有3个训练集样本分类不正确,第132号、第223号、第271号麻花秦艽样品本属于f2组被不正确的分类进入f1组。有2个预测集样本分类不正确,第63号及第66号麻花秦艽样本本属于f2组被错误地分入f1组。主要的原因是整个光谱中包含一些无用信息的光谱变量影响了训练和预测结果。

采用PLSDA模型对经过多元散射校正(MSC)光谱处理的麻花秦艽真伪样品训练结果和预测结果见图5,三类样品在训练和预测集中均完全被归类准确,判别正确率达到100%,结果较为满意。图6分别为PLSDA模型基于经过二阶导数光谱预处理的麻花秦艽真伪样品训练结果和预测结果。对样品的训练和预测的正确率都达到了100%。

表2为选择隐变量为6时,PLSDA模型对原始光谱及MSC和SD光谱预处理方法所得模型的训练和预测结果。

以上分析证明,经过多元散射校正(MSC)和二阶导数(SD)处理的近红外光谱的PLSDA模型能够完全准确地判别麻花秦艽及其伪品黑秦艽、红秦艽,结果比较令人满意。为客观评价麻花秦艽药材的真伪、质量类别等快速识别提供了一种新的方法和手段。

参考文献

[1]杨永昌.藏药志[M].西宁:青海人民卫生出版社,1991:9-10.

[2]甘肃省卫生厅.甘肃省地方药材标准——关于颁布《甘肃省40种中药材质量标准(试行)》的通知[S].兰州,1995:99.

[3]刘尚武.青海植物志(第3卷)[M].西宁:青海人民出版社,1996:53.

[4]张雪荣.秦艽及其伪品的比较鉴别[J].中草药,2000,31(8):632.

[5]吴志成,杨锡仓.麻花秦艽与其伪充品-甘肃丹参的鉴别[J].甘肃中医学院学报,2006,23(5):50-52.

[6]Fu H Y,HUAN S Y,LU X,et al.Consrtuction of an effica-cious model for a nondestructive identification of traditionalChinese medicines Liuwei Dihuang Pills from different manu-factures using near-infrared spectroscopy and moving windowpartial least-squares discriminant analysis[J].Analytical Sci-ences,2005,8(9):1143-1148.

【光谱识别】推荐阅读:

光谱吸收10-20

光谱特征05-17

光谱测定06-21

光谱参数07-31

光谱选择08-01

拉曼光谱08-13

光谱处理09-02

光谱辐射09-04

遥感光谱09-29

光谱特性10-29

上一篇:改革开放的后现代性下一篇:电子政务与会计信息化