1、 SHANGHAI UNIVERSITY 毕业设计(论文)UNDERGRADUATE PROJECT (THESIS)题 目:近红外数据不同预处理方法定量建模比较学 院 理 学 院专 业 应用化学学 号 08122460学生姓名 朱 翔指导教师 陆文聪起讫日期 2012.03-2012.06目录摘要4ABSTRACT5第一章:前言61.1、计算机化学61.2、近红外光谱61.3、卷烟品质的分析方法81.4、烟草的产地识别81.5、近红外光谱技术在烟草行业中的进展91.6、本文的目的9第二章:三种降维方法102.1、概论102.2、算法10第三章:数据处理与分析143.1、原始数据143.2、烟
2、碱数据建模与预报153.3、结论与小结20第四章:烟草产地的模式识别研究224.1、概论224.2、材料准备与实验方法224.3、预报结果244.4、结论与小结25第五章:全文总结26参考文献27致谢29近红外数据不同预处理方法定量建模比较摘要近红外光谱法(NIRS)是一种常用的实验方法,它具有前处理过程简便、样品分析过程较快、分析结果精度高等优点,而且适用范围广,已广泛应用于农业、食品以及医药等众多领域。在本工作中,对烟草中烟碱的NIRS数据进行主成份分析法(PCA)、偏最小二乘法(PLS)以及球型映照法(MAP)三种不同的降维方法进行降维,然后利用支持向量机(SVM)方法对降维后的数据进行
3、定量建模,并比较三种降维方法的优越性。最后又对不同产地的烟草通过NIRS进行了模式识别研究,尝试通过NIRS结合模式识别方法来对烟草的产地进行鉴别。关键词:NIRS;烟草;PCA;PLS;MAP;ABSTRACTThe near-infrared spectroscopy (NIRS) is a commonly used experimental method with advantages of high precision, simple pre-treatment process, rapid sample analysis. Therefore, NIRS is a very com
4、mon laboratory instruments used in many fields including agriculture, food and medicine et al. In this work, principal component analysis (PCA), Partial Least Squares (PLS) method and the spherical mapping (MAP) were used to reduce the dimensionality for the data set of tobacco NIRS data. The suppor
5、t Vector machine (SVM) method was adopted to evaluate the results of dimensionality reduction for the data set.The different origin of tobacco can be distinguished by using pattern recognition model based on the NIRS data of tobacco.Keywords: NIRS; Tobacco; PCA; PLS; MAP;第一章:前言1.1、计算机化学计算机化学1是通过计算机对
6、化学反应和物质变化进行研究的一门科学。它以计算机为技术手段,建立化学化工信息资源化和智能化处理的理论和方法。计算机化学由于它的诞生迎合了时代发展的需要,在七十年代和八十年代得到了较大发展,至九十年代它已完全成为一门独立的学科,受到了国际化学界的广泛重视。它是与数学、计算机科学、物理学、药物学、材料科学等学科高度交叉、相互渗透的新的生长点,是许多实用技术的基础,并深受当今计算机与网络通讯技术飞速发展的影响,而处在迅速发展和不断演变之中。计算机化学的这个特点决定了它在化学中的地位,是要帮助化学家,促进化学界的研究方法和工业界的生产方式不断革新。同时它与迅速崛起的高科技关系密切,是绿色化学和绿色化工
7、的基础,是联系化学化工为国民经济可持续性发展服务的桥梁。因此,计算机化学对化学学科发展的促进作用不可低估,没有它的发展就没有现代化学。1.2、近红外光谱1.2.1、近红外光谱简介近红外光谱25是介于可见光和中红外之间的电磁辐射波,近红外光谱的区域在780nm到2526nm之间,这是吸收光谱中的一个非可见光区。近红外光谱区较于有机物分子中的羟基等含氢的官能团来说,震动的合频、以及各级倍频的吸收区是基本一致的。于是,通过扫描一些样品的近红外光谱,就可以知道该样品的含氢官能团的一些特征信息。更重要的是,近红外光谱分析法具有前处理过程简便、样品分析过程较快、分析结果精度高等事半功倍的优点,而且具有不破
8、坏检测样品且不消耗化学试剂,对环境也不会造成污染的众多优点,因此近红外光谱技术将会越来越在研究中普及、越来越受到研究者的青睐,广泛应用于农业、食品以及医药等众多领域,烟草领域也不例外。1.2.2、近红外光谱优点近红外光谱分析方法的优点67为:A、分析速度快。近红外光谱分析仪一旦经过定标后在不到一分钟的时间内即可完成待测样品多个组分的同步测量,如果采用二极管列阵型或声光调制型分析仪则在几秒钟的时间内给出测量结果,完全可以实现过程在线定量分析。B、对样品无化学污染。待测样品视颗粒度的不同可能需要简单的物理制备过程(如磨碎、混合、干燥等),无需任何化学干预即可完成测量过程,被称为是一种绿色的分析技术
9、。 近红外光谱分析模型C、仪器操作和维护简单,对操作员的素质水平要求较低。通过软件设计可以实现极为简单的操作要求,在整个测量过程中引入的人为误差较小。D、测量精度高。尽管该技术与传统理化分析方法相比精度略逊一筹,但是给出的测量精度足够满足生产过程中质量监控的实际要求,故而非常实用。E、分析成本极低。由于在整个测量过程中无需任何化学试剂,仪器定标完成后测量是一项非常简单工作,所以几乎没有任何损耗。1.2.3、近红外光谱分析仪器近红外光谱仪器从分光系统可分为固定波长滤光片、光栅色散、快速傅立叶变换、声光可调滤光器和阵列检测五种类型。 A、滤光片型主要作专用分析仪器,如粮食水分测定仪。由于滤光片数量
10、有限,很难分析复杂体系的样品。B、光栅扫描式具有较高的信噪比和分辨率。由于仪器中的可动部件(如光栅轴)在连续高强度的运行中可能存在磨损问题,从而影响光谱采集的可靠性,不太适合于在线分析。C、傅立叶变换近红外光谱仪是具有较高的分辨率和扫描速度,这类仪器的弱点同样是干涉仪中存在移动性部件,且需要较严格的工作环境。D、声光可调滤光器是采用双折射晶体,通过改变射频频率来调节扫描的波长,整个仪器系统无移动部件,扫描速度快。但目前这类仪器的分辨率相对较低,价格也较高。E、随着阵列检测器件生产技术的日趋成熟,采用固定光路、光栅分光、阵列检测器构成的NIR仪器,以其性能稳定、扫描速度快、分辨率高、信噪比高以及
11、性能价格比好等特点正越来越引起人们的重视。在与固定光路相匹配的阵列检测器中,常用的有电荷耦合器件(CCD)和二极管阵列(PDA)两种类型,其中CCD多用于近红外短波区域的光谱仪,PDA检测器则用于长波近红外区域。1.3、卷烟品质的分析方法在传统的卷烟品质分析816过程中,目前评定者大多数都是通过感官检测和理化分析进行评定的。虽然感官评定方法较为简便且直接,但是此方法显而易见有明显的不足之处。例如评定者之间的感官灵敏度的差异,以及评定者的感官灵敏度会受到自身或者外界条件等众多因素的影响,造成评定结果的不准确。其次,理化分析的结果虽比感官检测要精确的多,但是过程的繁琐、费用的昂贵、时间的消耗等各种
12、因素使得理化分析方法受到一定的限制,这些限制就造成了不同卷烟在制造和加工过程中的技术成本和卷烟质量大为不同。因此,鉴于现状,有必要研究出一种新型的鉴别卷烟的检测方法,达到快速、准确的目的。1.4、烟草的产地识别产地、部位与等级的划分17在烟叶采购与质量管理中起着很重要的作用。目前这类工作主要靠人工分拣,存在主观性强、工作量大和不够准确、科学等缺点。Hana M等对产自16个国家的1600多个样品进行了基于NIR光谱的分类研究,采用适当的数学方法建模后对烟叶所属的品种(白肋烟、烤烟)或不同产地(美国本地、非美国产)均得到了100%的正确判别结果。王国东等纠对2003年125个不同产地的国产烤烟烟
13、叶的原始近红外光谱、SNV光谱与一阶导数光谱进行了主成分分析,采用主成分空间下的马氏距离判别样本的产地归属,研究了主成分个数、样本空间、光谱区间对烟叶产地识别准确率的影响,分析了烟叶产地的近红外特征区和产地特征信息在不同主成分上的体现。结果表明,采用光滑处理的全光谱区间的一阶导数光谱,在建模样本空间进行主成分分析时所建模型对烟叶样品的识别准确率最高。束茹欣等用3批不同年份、产地、部位和等级的831份国产初烤烟叶样品,以近红外光谱的主成分描述烟叶特征,采用马氏距离判别准则对不同产地的烤烟烟叶进行了产地、部位、等级的模式识别。结果表明:预测准确率随样本的复杂程度和数量而变,波动范围为7497;部位
14、、等级识别的准确率低于产地的识别,这与样本数不够大、烟叶分级受人为因素影响较大有关。1.5、近红外光谱技术在烟草行业中的进展总体看来,NIR光谱分析技术在烟草行业实际生产中已经发挥了较大的作用18。利用NIR进行在线烟叶水分及主要化学成分测定快速、简单,是发展趋势。应用NIR进行烟叶分类、分级及真伪鉴别也很有意义。今后近红外在烟草行业中的应用研究将主要集中于以下几个方面:(1)便携式NIR仪器的开发,在烟草早期采购过程中,对烟叶的主要成分进行现场测试,为烟叶的采购提供可靠的依据。还可以应用到烟草生物、生化、栽培及施肥等方面,指导烟草农业的健康发展,更好地为烟草工业生产提供优质的原料;(2)大力
15、发展在线检测及网络技术,开发出在线检测卷烟烟盒外包装薄膜厚度、在线检测丝束和三醋酸甘油酯一致性、在线检测香精香料浓度等方面的专用近红外仪。同时加强在辅助卷烟配方设计、卷烟结构分析、卷烟感观质量评价以及生产的过程质量控制等方面的研究;(3)不同仪器之间,同一仪器不同条件下的定标模型的移植。1.6、本文的目的NIRS分析技术的快速、无损有点是其他技术无法比拟的,在卷烟领域研究方面也有很大的研究价值,本文将通过NIRS技术对卷烟的数据进行用不同的比较方法进行降维、建模、分析比较,得出最优的降维方法。以及对烟草的产地进行模式识别。本课题对不同的降维方法对近红外数据进行预处理,有以下几点意义:1、探索解
16、决近红外数据挖掘中维数灾难的方法2、比较不同降维方法对近红外数据定量建模的影响3、用近红外方法对不同产地的烟草进行产地鉴别第二章:三种降维方法2.1、概论在烟草样本进行粉碎后,对这些样品进行近红外光谱采集。光谱的扫描范围约为3800cm-1至10000cm-1之间,分辨率大约为3cm-1。因此,采集之后每个样本都会出现大量的数据,这些大量的数据不易进行分析和比较。因此,将这些数据进行降维是必然的,只有将原本成百上千的数据通过某一种方法进行降维,浓缩成1020个数据点,这些数据点既包括了原本上千个数据点的信息,同时,也易于对数据进行分析与比较。 2.2、算法1974年,由美国的Kowalski和
17、瑞典的Wold等发起成立了国际化学计量学学会,此后开展了一系列的学术交流活动,促进了数学、人工智能、机器学习和计算机科学在化学、化工领域的广泛使用。至二十世纪90年代中后期,由于数据挖掘概念的形成和数据挖掘技术的发展,相继出现了许多新的数据挖掘方法,如支持向量机方法和集成学习算法等等,这些方法在化学、化工领域得到了广泛的应用,并取得了良好的结果。目前,化学化工数据挖掘已步入稳步发展的阶段,不同数据挖掘方法在各自擅长的专题中得到应用和发展。本章简要介绍了论文工作中所用的主要数据挖掘算法,包括支持向量回归(Support Vector Regression, SVR)算法、支持向量分类(Suppo
18、rt Vector Classification, SVC)算法、多元线性回归(Multiple Linear Regression, MLR)、主成分分析(Principal Component Analysis, PCA)、偏最小二乘法(Partial Least Squares, PLS)、反向传播人工神经网络(Back-Propagation Artificial Neural Network, BP ANN)、多重判别矢量法和Fisher判别分析法(Fisher Discriminant Analysis, FDA)等。通过近红外光谱对样品进行数据采集之后,往往需要用统计的方法进行分
19、析。此时如果数据变量太多,就会使得分析过程变得更为复杂。因此,在这种情况下,需要对数据进行压缩,目的在于尽可能用较少的数据,而反映出更多的信息。我们可以发现,在很多情况下,这些成百上千的数据中并不是杂乱无章、无规律可循的,这些数据中一定存在着某种联系。因此,我们要做的,就是通过多种不同的数学降维方法,将大量的数据进行压缩,设法将成百上千的数据组合成一组新的相互无关的数据,然后通过留一法等各种方法对数据进行分析,再对不同的降维方法进行横向对比、分析,最终得出最理想最合适的降维方法。2.2.1、主成分分析法PCA降维(Principal Component Analysis, PCA)PCA降维法
20、1920,又称主成分分析法。PCA降维法是设法将原来具有一定相关性的大量数据,重新转化成互相无关的一组少量数据来代替原来大量的数据。在数学上来说,就是将原来若干个指标作线性组合,得出新的综合指标。在一般情况下,选取第一个综合指标的方差来表达,也就是说,方差的值越大,则表示第一个综合指标包含的信息也就越多。因此在所有的线性组合中选取的第一个综合指标应该是方差最大的,因此,第一个综合指标就是第一主成分。但是,如果第一主成分不足以代表原来若干数量指标的信息,再考虑选取一个线性组合,为了有效地反映原来信息,第一个线性组合已有的信息就没有必要在第二个线性组合中再次体现,这时,称第二个线性组合的综合指标为
21、第二主成分。依此类推,用类似的方法就可以得出更多数量的主成分。在实际应用中可取前几个对信息量贡献较大的主成分便可达到空间维数下降而使信息量丢失尽可能少的目的。若取两个主成分构成投影平面即可在平面上剖析数据结构。主成分分析的几何意义是一个线性的旋轴变换,使第一主成分指向样本散布最大的方向,第二主成分指向样本散布次大的方向,余此类推(见图)。图2-1:主成分分析的几何意义示意图2.2.2、偏最小二乘法PLS降维(Partial Least Squares, PLS)PLS降维法2122,又称偏最小二乘法。PLS降维法是多因变量对多自变量的一种回归降维方法,该方法可以解决许多用其他方法无法解决的问题
22、。相对于PCA降维法而言,PCA降维法的主要目的在于提取隐藏在矩阵X中的相关信息,通过这些信息来预测变量Y的值。这样,可以保证在用PCA降维法时只使用那些独立变量,从而达到改善预测模型的目的。但是,PCA降维法有一些不足之处,当一些有用变量的相关性不大时,这种情况下,在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。PLS降维法就可以迎刃而解。该方法对变量X和Y都进行分解并同时提取因子,之后将提取出的因子,根据因子之间的相关性进行排列。当建立一个PLS模型时,只要选择几个因子参与建模即可。2.2.3、球型映照MAP降维(MAP)球型映
23、照法2324又称非线性映照法(MAP)。非线性映照法可使多维图象映照到二维,映照中尽可能保留其固有的数据结构。若样本集标准化因素矩阵X表示为=(2-1)其中N为样本数,M为特征数。则X映照至二维空间的结果Y可表示为(2-2)设和分别为多维空间(映照前)和二维(映照后)空间中i、j点间距离(2-3)(2-4)映照中的误差函数定义为(2-5)E值愈小,数据结构保留程度愈大。各种非线性映照算法都使用迭代技术,其迭代算法主要分三步:第一步:初选一组Y矢量。第二步:从初始结构开始调整其当前结构的 Y矢量。第三步:重复第二步,直至具备下列三个终止条件之一:(1)误差函数E已达到预先设定的允许值;(2)迭代
24、已达到预先指定的次数;(3)当前的结构已使观察者满意。非线性映照法对样本分类能力较线性映照法强,但其计算量亦较大,且其二维映照图纵横坐标没有明确的意义。通常在线性模式识别投影结果不理想的情况下再尝试NLM方法。2.2.4、支持向量机算法(SVM)统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(如神经网络结构选择问题、局部极小点问题等);同时,在这一理论基础上发展了一种新的通用学习方法支持向量机(SVM)2526,包括支持向量分类算法(Support Vector Classificati
25、on, SVC)和支持向量回归算法(Support Vector Regression, SVR),它已初步表现出很多优于已有方法的性能,能较好地解决小样本、非线性、高维数和局部极小点等实际问题,因此成为20世纪90年代末发展最快的研究方向之一。一些学者认为,SLT和SVM正成为继神经网络之后新的研究热点,并将有力地推动机器学习理论和技术的发展。第三章:数据处理与分析3.1、原始数据在得出结论之前,就必须通过实验来得出实验数据。下面的数据是通过一些样本经过近红外仪器扫描光谱得出的数据。表3-1 NIRS扫描原始数据从表中可以发现,每个样本的图像都可以看作有很多个数据点构成,约为1500至200
26、0个数据点。数量如此庞大的数据点在数据分析和比较都比较困难,因此必须通过一些降维方法,将上千个数据点通过降维,减少到1520个数据点,这样,这些数据点既囊括了所有上千个数据点的信息,同时也易于对数据进行分析。首先我们对这组原始数据采取三种不同的降维方法进行建模,主成分分析法降维,偏最小二乘法降维,以及球型映照法进行降维。进行建模后的数据计算出每个样品的计算值与实验值的绝对误差和相对误差,然后对此进行分析与比较。然后我们采取的是“留一法(Leave One Out, LOO)27”方法进行数据分析。留一法,简单地说,就是在一组样品中取出一件,然后将剩余的样品进行建模,分析,然后得出一个预报结果。
27、将这个预报结果与先前取出的样品进行比较,计算出绝对误差和相对误差的方法进行分析。这样,对样品中的每件样本进行留一法计算,得出一个平均的相对误差。往往留一法得出的结果比建模得出的结果更具有代表性。接下来,我们在对建模结果进行预报,即取出5个其他未知样品,对其烟碱量进行预报,将未知样品的预报值和计算值进行比较,得出误差结果。通过这个误差结果,对数据进行分析。最后,将PCA、PLS、MAP三种降维方法的数据通过SVM算法进行定量建模得出一个相对误差,通过这个相对误差,最后分析得出三种降维方法的优缺点。3.2、烟碱数据建模与预报烟碱(Nicotine)28,俗名尼古丁,是一种存在于茄科植物(茄属)中的
28、生物碱,也是烟草的重要成分。尼古丁会使人上瘾或产生依赖性(最难戒除的毒瘾之一),人们通常难以克制自己,重复使用尼古丁也增加心脏速度和升高血压并降低食欲。3.2.1、烟碱PCA降维3.2.1.1、烟碱PCA降维法建模图3-1:烟碱PCA降维法建模结果从图中可以发现,大多数样本的建模数据的误差都是比较小的,基本都控制在3%以内。而且误差的波动也比较小,因此初步得出用PLS建模法适合对烟草烟碱的测定与预报。通过建模结果的图像可以基本得出,所有的数据点都几乎在这条直线上,也就是说,回归结果较好,比较适宜用PCA降维法进行建模。3.2.1.2、烟碱PCA降维法留一法结果图3-2:烟碱PCA降维法留一法结
29、果PCA留一法得出的误差打大多都在10%左右,与之前的建模结果相比,已经偏离了很多。而且有些数据的误差居然能相差到60%以上,说明误差的波动也很大。同样,可以从途中发现,与之前的建模结果相比,PCA降维法的留一法得出的数据点就偏离了直线,而且很明显,也很分散。因此,在烟草烟碱量的测定中,PCA降维法可能并不是一种很理想的降维方法。3.2.1.3、烟碱PCA降维法预报结果表3-2:烟碱PCA降维法预报结果由图可见,PCA降维法的预报结果的相对误差波动范围比较大,从1%以下到20%以上都有,也就是说,烟碱PCA降维的预报结果比较不稳定,可能有好的预报结果,也会有较大误差的预报结果,总的来说预报结果
30、不是很理想。3.2.1.4、烟碱PCA降维法小结从烟碱PCA降维法的建模、留一法、预报三个方面综合考虑,虽然在PCA降维法在建模方面有着不错的结果,但是在更为重要的留一法以及预报这两个关键的方面,无论从误差的大小以及误差的波动性来看,都表现地并不怎么理想。因此综上所述,PCA降维法并不太适用于烟草烟碱的测定。3.2.2、烟碱PLS降维3.2.2.1、烟碱PLS降维法建模图3-3:烟碱PLS降维法建模结果根据上图的数据,发现PCA降维法的误差一般较大,都是百分之几十的误差。因此可以从下图中看到大多数数据点偏离直线较远。从烟碱PLS建模结果的图像可以直观得看出,PLS建模的数据离直线y=x有一定的
31、偏离,当值比较小的时候,往往实验值要小于预报值,当值比较大的时候,基本上实验值和预报值之间的差距会越来越小,甚至实验值会大于预报值。因此,PLS的降维方法看上去没有PCA建模法的结果那么出色。但是只要随着实验次数的增多,发现还是有规律可循。3.2.2.2、烟碱PLS降维法留一法结果图3-4:烟碱PLS降维法留一法结果从烟碱PLS降维法的留一法结果可以看出,误差一般控制在10%以下,只有极个别的误差打到20%。也就是说,烟碱PLS降维法在留一法方面的表现比较不错。相对于之前的PCA降维的留一法结果,可以明显地表现出PLS降维法优点,虽然PLS在建模上的结果没有PCA理想,但是在留一法的结果却明显
32、优于PCA降维方法。从图中可以看出,PLS留一法的数据点与之前的PCA进行比较,显然PLS降维法的数据点比较密集与集中,误差也相对较小。3.2.2.3、烟碱PLS降维法预报结果表3-3:烟碱PLS降维法预报结果烟碱PLS的预报结果一般都小于10%,波动范围比较小,因此,PLS方法的预报结果是比较准确的,如果有更加理想化的建模结果的话,或许PLS降维法的预报结果更为准确。3.2.2.4、烟碱PLS降维法小结综合地说,对烟碱进行PLS降维法,其建模结果的数据图像的数据点,与之前的PCA方法相比,显然误差增加了好多,因此从建模图像和留一法图像与PCA方法进行比较的话,或许PLS降维法略显欠佳。但是P
33、LS的留一法结果以及预报结果却比PCA方法精确,波动也比较小。也就是说,如果PLS的建模结果如果能够再精确些的话,PLS方法就能显得更好。3.2.3、烟碱球型映照降维3.2.3.1、烟碱球型映照降维法建模图3-5:烟碱球型映照降维法建模结果看烟碱MAP降维法建模图,感觉就是比较松散,其中有不少的数据还是离直线y=x非常接近的,当然,也有少数数据偏离度还是比较大的。因此MAP降维方法适合大批量的数据进行建模,对于数量不多的数据进行建模分析,由于MAP建模得出的数据比较松散,则会出现数据越少,误差越大。3.2.3.2、烟碱球型映照降维法留一法结果图3-6:烟碱球型映照降维法留一法结果烟碱MAP降维
34、法得出的结果和建模结果类似,图像上的点略显松散。3.2.3.3、烟碱球型映照降维法预报结果表3-4:烟碱球型映照降维法预报结果MAP降维法得出的预报结果也是属于波动比较大的,最大的高达25%的误差,因此用MAP降维法进行预报得出的结果的真实度也远远小于之前的PLS的建模法。3.2.3.4、烟碱球型映照降维法小结MAP在建模和留一法上得出的结果远远不如PCA降维方法,因此用MAP方法建模并不理想。MAP的预报结果页不如PLS的降维方法,因此应MAP方法也不适合预报,因此,MAP降维方法在本次实验中并不适用。3.3、结论与小结通过PCA、PLS、MAP三种不同的降维法进行建模,都从中得出了不同的优
35、缺点。接下来再将三种不同的降维方法的建模、留一法和预报结构进行SVM径向法得出一个相对误差,通过这个相对误差再结合前面的分析来得出最佳降维方法。表3-5:三种降维方法的建模、留一法、预报误差的svm径向误差通过PCA、PLS以及MAP三种不同的降维降维方法,以及通过建模误差、留一法误差以及预报误差三个方面在综合权衡,可以显然得出PLS降维方法(偏最小二乘法)是最理想的降维方法。判断一个降维方法是否为好的方法,主要从这个方法的留一法误差以及预报误差来体现。因为留一法误差是相当与将自己作为未知样本进行核对,而预报误差是对其他未样本进行数据的预测。如果在这两个方面都能得出理想的结论的话,该降维方法就
36、是理想的降维方法。因此通过上表,无论是留一法误差或者是预报误差而言,PLS的误差结果明显要小于其他两种方法所出现的误差,因此综上所述,PLS降维方法是在烟草烟碱量测定中,可以作为一种实用的降维方法。第四章:烟草产地的模式识别研究4.1、概论近红外光谱分析方法具有众多优点,包括检测速度快、工作效率高、费用成本低、测试重现性好、测量方便等等,已经被越来越多领域普遍使用。据理论推断,近红外技术可以进行研究和检测一般卷烟烟叶中高达80%至90%以上的化学成分,其中所包含的烟草化学成分的关联信息通过近红外光谱表现得非常丰富,由于对烟叶通过近红外信息进行聚类分析和模式识别具有可靠的物质基础,因此使用近红外
37、信息来对烟叶质量的定性及定量进行研究,将会有更加广阔的应用前景。到现在为止,国内烟草行业对近红外光谱技术以及其应用已经有了非常深入的研究,本章节将通过近红外光谱技术,对国产的几种烟叶产地来进行模式识别研究72930。可视化技术3132,指的是通过计算机图形学以及图像处理技术,将数据转换为图形或图像信息在电子屏幕上显示,同时并进行交互处理的理论、方法与技术。可视化技术涉及到计算机图形学、计算机辅助设计、图像处理、计算机视觉以及人机交互技术等多方面领域。本章节对烟草产地的进行模式识别研究,通过近红外光谱技术,不但可以对不同产地的烟草进行很好地区分,同时,利用可视化技术可以直接展现出结果,更好地帮助
38、了近红外技术的深入研究。4.2、材料准备与实验方法4.2.1、实验仪器BRUKERVECTOR22/N傅立叶近红外变换光谱仪;BRUKERMPA傅立叶近红外变换光谱仪;Antaris傅立叶近红外变换光谱仪。4.2.2、烟草样本这次进行检测的样本包括福建15个样本、贵州23个样本,河南6个样本,共有44个烟草样本。在对烟草样本的数据分析过程中,得到的模型不仅要求有好的建模结果,而且预备结果也要较理想。故“检验集”需要在这些样本中分别在3个不同产地的烟草样本各随机抽取一个组成,而“建模集”即为剩余的41个样本。4.2.3、光谱采集烟草样本粉碎后直接进行近红外光谱采集。采用漫反射吸收光谱法。扫描范围
39、为3800cm-1至10000 cm-1之间,分辨率约3cm-1 左右,平均扫描60次。图4-1:烟草样本近红外扫描谱4.2.4、光谱处理对烟叶样本的近红外光谱曲线求一阶导数后进行光滑处理,采用主成分分析法进行特征抽提,取前16个主成分作为变量。本实验利用主成分分析法(PCA)对烟草产地进行模式识别研究。4.3、预报结果4.3.1、建模结果利用PCA方法对这建模集的41个样本进行分类,结果如下:图4-2:烟草产地的模式识别图(注:1类代表福建,2类代表贵州,3类代表河南,下同)由图可见:三个不同产地的烟草样本在图中分布在不同的区域,不同产地的样本聚集在不同的区域。4.3.2、预报结果利用检验集
40、的3各样本,检验建立模型的准确性。结果如下:图4-3:检验结果由图可见:利用建立的模型判断检验集的三个样本,产地都判断准确。4.3.3、重复验证由于每次只抽取3个样本,得到的结果有一定的偶然性,因此独立进行三次验证。图4-4:重复检验结果由图可见:重复检验也可以得到准确的结果。(另外两次图片略)4.4、结论与小结通过近红外光谱技术和数据挖掘技术对不同烟草产地的模式识别研究,可以明显地看出不同产地的烟草有着明显不同的分布区域。此外,通过可视化技术将不同产地的烟草样本在主成分分析的特征图上进行投影,可以非常清楚观察到不同产地烟草在特征图上的分布。然而,对于新预备的样本来说,利用可视化技术,可以清楚
41、得观测到这些样本在原来特征图上的具体位置,进行对比,很容易判别出其产地。总而言之,随着研究的不断深入,近红外光谱技术、数据挖掘技术以及可视化技术将会在烟草行业上有着更广泛的应用。第五章:全文总结在本次工作中,首先对烟草的烟碱进行了建模、降维分析。先用近红外仪器对烟草的烟碱含量进行了近红外扫描,获得了烟碱的近红外光谱图;然后对光谱图的数据进行列表、整理,得到每个样品都有2000个左右的数据点,接着对这些成百上千个数据点进行建模、用主成分分析法(PCA)、偏最小二乘法(PLS)他、以及球型映照法(MAP)三种不同的降维方法进行分析,对每种降维法用SVM径向分析法得出建模误差、留一法误差以及预报误差
42、。其中主成分分析法的建模误差较小,但是其留一法误差以及预报误差较大,不太适合烟草烟碱数据建模;而偏最小二乘法无论在建模误差、留一法误差以及预报误差三个方面来说,都是非常不错的,相对于之前的主成分分析法来说,偏最小二乘法可能更适用于烟草烟碱的建模;而最后的球型映照法,在建模误差、留一法误差以及预报误差三个方面都有比较大的误差,相对于之前的PCA、PLS降维方法而言,MAP在烟草烟碱的建模上略显欠佳。因此综上所述,在本工作进行烟草烟碱量的建模中、偏最小二乘法降维方法是最好的降维方法,主成分分析法次之,而球形映照法的降维结果误差最大。第二部分工作是,对不同产地的烟草通过NIRS进行了模式识别,通过主
43、成分分析法对不同产地的烟草进行判别,可以明显地看出不同产地的烟草有着明显不同的分布区域。此外,通过可视化技术将不同产地的烟草样本在主成分分析的特征图上进行投影,可以非常清楚观察到不同产地烟草在特征图上的分布,因此很容易判别出其产地。随着研究的不断深入,近红外光谱技术将会在烟草行业上有着更广泛的应用。参考文献1袁身刚,化学知识创新的尖兵计算机化学2Wei G.Hansen and Johann W.Wiechars Possible Near-Infrared Reflectance Spectroscopy Applications in Skin Moisturisation and Hor
44、mones StudiesR.全国第二届近红外光谱学术会议论文集,2006:218-2303Feng Gan, Jiajun Wang, Philip K.hopke.A Spectral Similarity Measure Using Bayesian StatisticsR.全国第二届近红外光谱学术会议论文集,2006:527-537 4Liu Xu, CHEN Hua-cai, Liu Tai-ang. Application of PCA-SVR to NIR prediction model for tobacco chemical compositionJ. Spectrosco
45、py and Spectral Analysis, 2007m 27(12):1641-16435祝诗平,近红外光谱品质检测方法研究。博士学位论文.北京:中国农业大学,20036邵学广,刘智超,徐恒等,近红外光谱建模中的波长筛选方法研究J.全国第二届近红外光谱学术会议论文集,2008:18-237陈星旦,近红外分析中的光谱仪问题8张银,周孟然,近红外光谱分析技术的数据处理方法J.红外,2007,299吕进,刘辉军,林敏,陈华才,庄松林,近红外光谱分析技术在茶叶成分检测中的研究 10王家俊,袁洪福,FT-NIR光谱法综合MSPC应用于卷烟配方过程质量评价与监测 11蒋锦锋,赵明月,范黎,马明,李
46、栋,应用近红外检测技术快速测定烟草主要化学成分12温亚东,马翔,王毅,谢丽华,舒云波,黄江华,卷烟焦油量与烟气烟碱量的近红外检测13周淑平,程贵敏,李卫红,田晓霞,应用近红外光谱法测定烤烟中部分无机元素含量的研究14段焰青,孔祥勇,杨涛,FT-NIR光谱法定量分析烟草薄片中5种常规化学成分 15侯英,王家俊,李晓亚,王保兴,刘潍娟,徐济仓,陈国辉,FT-NIR对不同生产配方的造纸法烟草薄片分类的研究 16江苏,马翔,王毅,舒云波,陈家明,温亚东,FT-NIR光谱仪在卷烟小盒商标质量控制中的应用研究17刘泰昂,烟草产地模式识别的可视化18张灵帅,邢军,谷运红,王卫东,焦浈,近红外光谱技术在烟草行
47、业中的应用进展19梁胜杰,张志华,崔立林主成分分析法与核主成分分析法在机械噪声数据降维中的应用比较20 张灵帅,王卫东,谷运红,邢军,近红外光谱的主成分分析-马氏距离聚类判别用于卷烟的真伪鉴别21邹小波,朱曾,赵杰文,基于间隔偏最小二乘法的农产品近红外光谱谱区选择方法22王家俊,梁逸曾,汪帆,SIMCA分类法与偏最小二乘法结合近红外光谱检测卷烟的内在品质23宋木清,模式识别非线性映照技术在配矿优化中的应用24江乃雄,李庆芝,杨明三,非线性映照法计算的一点改进25张录达,金泽宸,沈晓南,赵龙莲,李军会,严衍禄,SVM回归法在近红外光谱定量分析中的应用研究26张录达,苏时光,王来生,李军会,杨丽明,支持向量机(SVM)在傅里叶变换近红外光谱分析中的应用研究27翟文华,陆文聪,刘旭,陈念贻,王国庆,(Zr0.7Sn0.3)TiO4陶瓷性能预报的支