1、摘 要基于统计学习理论的支持向量机回归方法,是一种崭新的系统辨识和建模的有力工具。它建立在完备的理论基础之上,综合了经验风险最小化和结构风险最小化的原则,它克服了神经网络存在局部极小,泛化能力差,结构需要经验确定的缺点,能够任意逼近复杂非线性函数,目前具有良好的泛化性能。它最初主要用于模式识别领域,近几年越来越受到控制界的关注。1999年Suykens与Vandewall将支持向量机的二次规划问题替换为一组线性等式,提出了最小二乘支持向量机(LS-SVM )。与采用线性或非线性规划方法的其它支持向量机算法相比,LS-SVM具有降低计算复杂度的优点。因此,最小二乘支持向量机在许多分类或回归估计问
2、题中取得了很好的应用效果。关键词:最小二乘支持向量机;非线性系统; 建模;Matlab AbstractThe support vector machine regression(SVMR) based on Statistical Learning.Theory(SLT) is a novel powerful tool of system identification and modeling. It is based on a complete theory and the idea of tradeoff between Emprical Risk Minimization (ERM)
3、 and Structural Risk Minimization (SRM).It provide high generalization ability and overcomes the overfitting problem experienced hy the otherlearning technique such as ANN. The training of SVM is done by quadratic programming possessing a global solution, which overcomes the problem of local minima
4、suffered by classical neural network. An interesting and important property of SVMs solutions is that one obtains a sparse approximation, in the sense that its structure is naturally decided instead of decision based on experience of ANN. It could approach any nonlinear function. Initially, it was r
5、ecognition, recent years, it was payed more attention to by mainly used for pattern control domain.In 1999, Suykens and Vandewalle proposed a modified version of SVM forclassification, which is called least square support vector machine (LS-SVM) and resulted in a set of linear equations instead of a
6、 convex quadratic programming (QP) problem. Especially, LS-SVM has a significant advantage of the lower computational complexity than the other support vector machine formulations using linear or nonlinear mathematical programming. Therefore, Least squares support vector machine has shown an excelle
7、nt classification or regression performance in many appli cati ons.Key words: Least squares support vector machine; modeling; Nonlinear System;matlab目 录第1章绪论1第2章统计学习理论与支持向量机42.1 统计学习理论42.2支持向量机92.3本章小结17第3章最小二乘支持向量机173.1最小二乘支持向量机183.2 基于LS-SVM的回归建模203.3 LS_SVM的工具箱安装实例213.4本章小结24第4章 基于LS_SVM的非线性系统建模方
8、案分析254.1发酵过程模型建立254.2仿真实验274.3本章小结29参考文献29致 谢3030第1章 绪论人工智能是计算机科学与技术学科领域的一个重要方向,主要以研究计算机系统模拟人类智能行为为日标,是一门多学科相互渗透,具有实用价值的新兴边缘交义学科。自1956年诞生以来,尽管人工智能学科的发展经历了曲折的过程,但它在知识表示、自动推理、认知建模、机器学习、神经计算、自然语言理解、专家系统等方向上开展了大量的研究工作,取得了相当大的进展和较多的成果,对其他学科的发展产生了积极的影响。学习是人类的基本智能活动,是获取知识、积累经验、增进智能、发现规律、适应环境的过程。人的认识能力和智慧才能
9、是在不断的学习中逐步形成、发展和完善的。随着计算机时代的到来,研究人员不断地努力,试图给计算机赋予学习能力。使计算机系统具有某种学习能力,即所谓的机器学习,是人工智能研究的一个热点。机器学习至今还没有统一的定义,按照西蒙(H. A. S imon)的定义,机器学习就是“系统在不断重复的工作中对本身能力的增强或改进,使得系统在下一次执行同样的任务或者类似的任务时,会比现在做得更好或效率更高”。从计算机科学角度,可以把机器学习定义为:研究计算机获取新知识和新技能,并识别现有知识的科学。机器学习主要研究以下二方面的问题:(1)学习机理。这是对人类学习机制的研究,即人类获取知识、技能和抽象概念的天赋能
10、力。通过这一研究将从根本上解决机器学习中存在的多种问题。(2)学习方法。研究人类的学习过程,探索各种可能的学习方法,建立起独立于具体应用领域的学习算法。(3)学习系统。根据特定任务要求,建立相应的学习系统。机器学习的发展极为迅速,应用亦日益广泛,有很多优秀的学习算法,基本上可以分为基于符号学习和基于非符号学习(连接学习)。其中符号学习比较好的有机械式学习、指导式学习、示例学习、类比学习、基于解释的学习。随着人工智能研究的进展,人们逐渐发现研究人工智能的最好方法是向人类自身学习,因而引入了一些模拟进化的方法来解决复杂优化问题,其中富有代表性的是遗传算法。遗传算法的生物基础是人类生理的进化及发展,
11、这种方法被称为进化卞义。另一方面,神经网络的理论是基于人脑的结构,其日的是揭示一个系统是如何向环境学习的,此方法被称为连接主义。这两种方法与传统方法大相径庭,因而,近年来许多科学家致力于这两种方法的研究。另外由于统计学习理论(Statistical Learning Theory)的发展,提出了支持向量机(Support Vector Machines,简称SVM)的学习算法,由于其出色的学习性能,尤其是泛化能力,引起了人们对这一领域的极大关注。 长期以来,统计是我们面对数据而又缺乏理论模型时最基本的和唯一的分析手段。传统统计学所研究的是渐进理论,即当样本数日趋向于无穷大时的极限特性。统计学中
12、关于估计的一致性、无偏性和估计方差的界等,以及分类错误率的诸多结论,都属于这种渐进特性。但实际应用中,这种前提条件却往往得不到满足,当问题处在高维空间时尤其如此,这实际上是包括模式识别和神经网络等在内的现有机器学习理论和方法中的一个根本问题。Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题,由于当时这些研究尚不十分完善,在解决模式识别问题中往往趋于保守,且数学上比较艰涩,而直到90年代以前并没有提出能够将其理论付诸实现的较好方法。加上当时正处在其他学习方法飞速发展的时期,因此这些研究一直没有得到充分的重视。直到90年代中,有限样本情况下的机器学习理论研究逐渐成熟起来,
13、形成了一个较完善的理论体系一一统计学习理论。而同时,神经网络等较新兴的机器学习方法的研究则遇到了一些重要的困难,比如,如何确定网络结构问题、过学习和欠学习问题、局部极小点问题等等。在这种情况下,试图从更本质上研究机器学习问题的统计学习理论逐步得到重视。1992年-1995年,在统计学习理论的基础上发展出了一种新的模式识别方法一一支持向量机。支持向量机算法最终归结为求解一个次规划问题,当训练样本增大时,一次规划问题面临着维数灾难。由于内存的限制,大规模问题的求解无法进行。在支持向量机出现之后的短短几年时间,许多研究人员致力于其理论与算法的研究。Osuna等提出了一种分解算法,把标准SVM的QP问
14、题分解成一系列小规模的子QP问题,使得每个子问题容易求解,该算法有效地解决了大规模支持向量机问题。在文献11的基础上,Joachims从选择工作集的角度提出了具体的实现方案,并A由SVM软件来实现文献 11的分解算法。 Platt提出了序列最小优化(Sequential optimal minimization,简称SMO)的分解算法,把标准SVM的QP问题分解成了可以解析求解的最小QP问题,即每个工作集仅由两个样本组成,该方法可以看作是文献11的特例。 Suykens等设计的最小一乘支持向量机(Least Squares Support Vector Machines,简称LS-SVM)把不
15、等式约束换成等式约束,从而使得支持向量机的求解由QP问题转化为一个线性方程组,极大地提高了求解效率,同时降低了求解难度。Suykens等进一步研究了最小一乘支持向量机在回归问题中地应用,同时针对最小一乘支持向量机算法破坏了支持向量的稀疏性这一缺点,提出了稀疏近似的策略,当支持向量谱分布均匀时,该方法不易对支持向量进行取舍。由于支持向量机在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他学习问题中,使得该技术成为机器学习界的研究热点,并在很多领域都得到了成功的应用,如人脸识别、语音识别、时间序列预测、文本自动检测与识别等。本文主要以最小二乘支持向量机算法
16、为基础,根据发酵过程特征,构建完整的软测量模型,进而构成实用的软测量系统,为发酵过程中难测生物参数的在线测量提供一种有效途径。本文内容按章节安排如下:第2章简单介绍了统计学习理论的基本知识和支持向量机的分类与回归算法。第3章首先介绍了最小二乘支持向量机的回归算法,然后简单介绍基于LS_SVM非线性系统的建模流程,最后介绍在MATLAB环境下,LS_SVM工具箱的安装及使用。第4章以基于LS_SVM的GSH浓度测量模型为例,具体介绍LS_SVM非线性系统的建模流程。第2章 统计学习理论与支持向量机统计学习理论(statistical learning theory SLT)是一种专门研究小样本情
17、况下机器学习规律的理论。Vapnik等人从六、七十年代开始致力于此方法的研究,到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的关注。 统计学习理论是建立在一套比较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架,它将很多现有的方法归纳其中,有望解决许多原来难以解决的问题。同时在这一理论基础上发展了一种新的通用学习方法支持向量机(support vector machine SVM),它己初步表现出很多优于现有方法的性能。采用SVM回归进行非线性系统建模和控制研究是最近产生的智能控制的一个研究领域。这种建
18、模与控制方法不仅模型简单,有完备的理论支持,更重要的是提供了一种实现复杂非线性系统建模与控制的新方法,拓宽了智能控制的研究领域。一些学者认为,统计理论学习和SVM正在成为继神经网络研究之后的又一个新的研究热点,并将有力的推动机器学习理论和技术的发展。2.1 统计学习理论统计学习理论是一种专门的基于小样本的统计理论,它为研究有限样本情况下的统计模式识别和更广泛的机器学习问题建立了一个较好的理论框架,同时也发展了一种新的模式识别方法一一支持向量机,能够较好地解决小样本学习问题。2.1.1 统计学习理论的核心内容 机器学习的目的是根据给定的己知训练样本求取对系统输入输出之间的依赖关系的估计,使它能够
19、对未知输出作出尽可能准确的预测。机器学习问题可以形式化地表示为:己知变量y与输入x之间存在一定的未知依赖关系,即存在一个未知的联合概率F(x, y),机器学习就是根据n个独立同分布观测样本.(x1,y1),(x2,y2)(xn,yn), (1-1)在一组函数f(x,w)中求一个最优的函数f(x,w0),使预测的期望风险最小。 (1-2)其中,f(x,w)称作预测函数集,w=为函数的广义参数,故f(x,w)可以表示任何函数集;L(y,f(x,w)为由于用f(x,w)对y进行预测而造成的损失。要使期望风险最小化,必然依赖关于联合概率F(x,y)的信息。但是,在实际的机器学习问题中,我们只能利用己知
20、样本(1.1)的信息,因此期望风险无法直接计算和最小化。根据概率论中大数定律定理的思想,人们自然想到用算术平均代替式(1.2)的数学期望,于是定义了 (1-3)来逼近式(1.2)定义的期望风险。由于Remp(w)是用己知的训练样本(即经验数据)定义的,因此称作经验风险。用对参数、求经验风险Remp(w)的最小值代替求期望风险R(w)的最小值,就是所谓的经验风险最小化(Empirical Risk Minimization简称ERM)原则。仔细研究经验风险最小化原则和机器学习问题中的期望风险最小化要求,可以发现,从期望风险到经验风险最小化并没有可靠的理论依据,只是直观上合理的想当然做法。但是,经
21、验风险最小化作为解决模式识别等机器学习问题的基本思想仍在相当长的时间内统治了这一领域的几乎所有研究,人们多年来一直将大部分注意力集中到如何更好地求取最小经验风险上。与此相反,统计学习理论则对用经验风险最小化原则解决期望风险最小化问题的前提是,当这些前提不成立时经验风险最小化方法的性能如何,以及是否可以找到更合理的原则等基本问题进行了深入的研究。 统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论。它从理论上较系统地研究了经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则和方法等问题。其主要内容包括四个方面: 1)经验风险最小化原则下统
22、计学习一致性的条件; 2)在这些条件下关于统计学习方法推广性的界的结论; 3)在这些界的基础上建立的小样本归纳推理原则; 4)实现这些新的原则的实际方法(算法)。1.1.2 学习过程一致性的条件 学习过程一致性是统计学习理论的基础,也是它与传统渐进统计学的基本联系。学习过程一致性就是指当训练样本数日趋于无穷大时,经验风险的最优值能够收敛到真实风险的最优值。只有满足一致性条件,才能保证在经验风险最小化原则下得到的最优解在样本无穷大时趋近于使用期望风险最小的最优结果8。定义2.1:记f(x,w*)为在式(1.1)的n个独立同分布样本下,在函数集中使经验风险取最小的预测函数,由它带来的损失函数为L(
23、y,f (x, w*),相应的最小经验风险值为Remp(w*)。记R(w*)为在L(y,f(x,w*)下的式(1.2)所取得的真实风险值(期望风险)。当下面两式成立时称这个经验风险最小化学习过程是一致的: (1-4) (1-5)其中,R(wo)=inf R(w)为实际可能的最小风险,即式(1.2)的下确界或最小值。 现在的关键问题是保证经验风险最小化方法的一致性的条件,这个条件是针对函数集一般特性和概率测度。对于前面的一致性的定义,存在一种特殊的情况,就是预测函数集中包含某个特殊函数,它使定义中的条件得到满足;而如果从函数集中去掉这个函数,这些条件就不能得到满足。为了保证一致性不是由于函数集中
24、的个别函数导致的,产生了所谓非平凡一致性的概念,即要求定义中的条件对预测函数集的所有了集都成立。后面说到的一致性指的就是非平凡一致性。下面的定理给出了保证经验风险最小化方法一致性的条件,由于该定理在统计学习理论中的重要地位,该定理被称为学习理论的关键定理8。定理2.1:对于有界的损失函数,经验风险最小化学习一致的充分必要条件是经验风险在如下意义上一致地收敛于真实风险: ( 1-6 )其中,P表示概率,Remp(w)和R(w)分别表示在n个样本下的经验风险和对于同一个w的真实风险。该定理把学习一致性的问题转化为式(1.6)的一致收敛问题,但是并没有给出于什么样的函数集能够满足这个充分必要条件,因
25、此,统计学习理论定义了衡量函数集性能的一些指标,其中,最重要的指标是VC维。1.1.3 VC维 模式识别问题中的VC维的直观定义是对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的2h种形式分开,则称函数集能够把h个样本打散。函数集的VC维就是它能打散的最大样本数目h。即如果存在h个样本的样本集能够被函数集打散,而不存在有h+1个样本的样本集能被函数集打散,则函数集的VC维就是h。若对任意数日的样本都有函数能将它们打散,则函数集的VC维是无穷大。有界实函数的VC维可以通过用一定的阈值将它转化成指示函数来定义。VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大)。
26、遗憾的是,日前尚没有通用的关于任意函数集VC维计算的理论,只对一些特殊的函数集知道其VC维。对于一些比较复杂的学习机器(如神经网络),其VC维除了与函数集(神经网结构)有关外,还受学习算法等的影响,其确定更加困难50根据文献7和31,经验风险最小化学习过程一致的充分必要条件是函数集的VC维有限,A这时收敛速度是快的。推广性的界前面关于一致收敛和收敛速度的条件,在理论上有重要意义,但在实践中无法直接应用。统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之间的关系,即推广性的界51。关于两类分类问题,结论是:对指示函数集中的所有函数(包括使经验风险最小的函数),经验风险Remp(w
27、)和实际风险R(w)之间以至少1-的概率满足如下关系51: (1-7)其中h是函数集的VC维,n是样本数。这一结论从理论上说明了学习机器的实际风险是由两部分组成的:一是经验风险(训练误差),另一部分称作置信范围,它和学习机器的VC维及训练样本数有关。可以简单地表示为 (1-8)进一步分析可以发现,当n/h较小时(比如小于20,此时说样本数较少),置信范围较大,用经验风险近似真实风险就有较大的误差,用经验风险最小化得到的最优解可能具有较差的推广性;如果样本数较多,n/h较大,则置信范围就会很小,经验风险最小化的最优解就接近实际的最优解。另一方面,对于一个特定的问题,其样本数n是固定的,此时学习机
28、的VC维越高(即复杂性越高),则置信范围就越大,导致真实风险与经验风险之间可能的差就越大。因此,在有限训练样本下,学习机器的VC维越高(复杂性越高),则置信范围越大,导致真实风险与经验风险之间可能的差别越大。这就是为什么会出现过学习现象的原因。机器学习过程不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。1.1.4 结构风险最小化前面讨论了在样本数较多的情况下,可以用经验风险最小化的最优值来估计实队、的最优值,但是当样本数较少时,这个估计是不准确的。因为这时要同时最小化经验风险和置信范围,即在经验风险最小化的同时,设法控制学习机的vc维
29、数。实际上,传统的学习机中,选择学习模型和算法的过程就是优化置信范围的过程,如果选择的模型比较适合现有的训练样本(相当于h/n的值适当),则可以得到比较好的结果,但是这种选择往往依赖先验知识和经验。由于有式(1.8)的理论依据,统计学习理论提供了一种在小样本情况下,使Remp(w)极小化的同时,控制VC维(模型复杂性)的方法,即对于给定的有限样本,选择最佳模型复杂性的方法,该方法描述如下:把函数集S= f (x, w), w 分解为一个函数子集序列(或叫子集结构) 在这个嵌套的假设空间中,满足下面的性质: (1-9)在这个嵌套的假设空间中,满足下面的性质: h(l)=h(l+1), (1-10
30、)这样,在同一个了集中,置信范围是相同的。在每个了集中寻找最小经验风险,通常它随着了集复杂度的增加而减小。选择最小经验风险与置信范围之和最小的了集,就可以达到期望风险的最小,这个了集中使经验风险最小的函数就是要求的最优函数。这种思想称作结构风险最小化原则(Structural Risk Minimization,简称SRM)。传统机器学习方法普遍采用经验风险最小化原则,选择机器学习模型和算法的过程就是优化置信范围的过程,如果选择了适合现有样本的学习模型,就可以取得比较好的效果。然而当样本数目有限时,易出现过学习和欠学习问题:学习过程中学习机对样本的经验风险很小,而实际应用时学习机对新样本的分类
31、能力很差,称之为过学习;当经验风险和置信范围都很大时,称之为欠学习。因此,由于缺乏理论上的指导,传统机器学习方法只能依赖先验信息和经验来选择模型和算法,造成了神经网络等学习方法对使用者“技巧”的过分依赖。图1.1 结构风险最小化的示意图S RM原理实际上提供了一种对于给定的样本数据,在近似精度和模型近似函数复杂性之间折中的定量方法,即在近似函数集的结构中找出一个最佳了集,使实际风险的确保上界达到极小。然而上述一般算法的计算量太大,不是一种在实际应用中可行的算法。在实际应用中可行的是以下两种算法。1)在每个子集中求经验风险最小化,然后选择使经验风险最小与置信范围之和最小的子集,当子集数目很大,这
32、种方法不可行;2)设计函数集的某种结构使每个子集中都能取得最小的经验风险,然后选择置信范围最小的子集,则这个子集中使经验风险最小的函数就是最优函数,支持向量机就是采用这种方法。2.2支持向量机从观测数据出发寻找规律,去推断该事务可能的规律性一直是统计学习理论的研究重点,该方法是科技工作者在面对数据而又缺乏理论模型时的最基本分析手段。传统学习方法所研究的是渐进理论,即当样本数目趋向于无穷大时的极限特性、估计的一致性、无偏性和估计方差的界等都属于这种渐进特性。由于实际应用中这种前提条件却往往得不到满足,因此采用经验风险最小化准则(Empirical Risk Minimization ERM)的传
33、统学习方法,虽然可以使训练误差最小化,但不能最小化学习过程的泛化误差,例如神经网络的过学习问题。为此,上世纪60年代出现了有限样本情况下的机器学习研究工作。由于理论的不完善,有限样本下的机器学习在解决模式识别的问题中往往趋于保守,而且数学上也比较艰涩。直到90年代Vapnik提出了结构风险最小化准则( Structural Risk Minimization SRM)后,有限样本下的统计学习理论才逐渐成熟起来,并形成一个较完善的体系。有限样本,并不是说样本的绝对数量少,实际上,对任何算法来说,更多的样本几乎总是能带来更好的效果,而是说与问题的复杂度比起来,SVM算法要求的样本数是相对比较少的。
34、 非线性,是指SVM擅长应付样本数据线性不可分的情况,主要通过松弛变量(也有人叫惩罚变量)和核函数技术来实现,这一部分是SVM的精髓。2.2.1 核函数支持向量机(SVM)是美国Vapnik教授于1990年代提出的,2000年代后成为了很受欢迎的机器学习方法。它将输入样本集合变换到高维空间使得其分离性状况得到改善。它的结构酷似三层感知器,是构造分类规则的通用方法。SVM方法的贡献在于,它使得人们可以在非常高维的空间中构造出好的分类规则,为分类算法提供了统一的理论框架。作为副产品,SVM从理论上解释了多层感知器的隐蔽层数目和隐节点数目的作用,因此,将神经网络的学习算法纳入了核技巧范畴。 所谓核技
35、巧,就是找一个核函数使其满足,代替在特征空间中内积的计算。因为对于非线性分类,一般是先找一个非线性映射将输入数据映射到高维特征空间,使之分离性状况得到很大改观,此时在该特征空间中进行分类,然后再返会原空间,就得到了原输入空间的非线性分类。由于内积运算量相当大,核技巧就是为了降低计算量而生的。特别, 对特征空间为Hilbert空间的情形,设是定义在输入空间上的二元函数,设中的规范正交基为。如果 (2-1)那么取即为所求的非线性嵌入映射。由于核函数的定义域是原来的输入空间,而不是高维的特征空间。因此,巧妙地避开了计算高维内积所需付出的计算代价。实际计算中,我们只要选定一个,并不去重构嵌入映射。所以
36、寻找核函数(对称且非负)就是主要任务了。满足以上条件的核函数很多,例如可以取为d-阶多项式:,其中为固定元素。可以取为径向函数:,其中为固定元素。可以取为神经网络惯用的核函数:,为固定元素。一般地,核函数的存在性只依赖于如何寻找一个平方收敛的非负序列。这样的序列在空间的正锥中的序列都满足。但哪一个最佳还有待于进一步讨论。经验表明,分类问题对于核函数不太敏感。当然,重新构造一个核函数也不是一个简单的事。因此,实际操作中往往就在上述三类中挑出一个来使用就可以了。支持向量机的结构示意图可以表示如下:图3.1 支持向量机结构示意图其中输入层是为了存贮输入数据,并不作任何加工运算;中间层是通过对样本集的
37、学习,选择;最后一层就是构造分类函数 (2-2)整个过程等价于在特征空间中构造一个最优超平面。支持向量机的作用之一就是分类。根据分类的任务,可以划分为一分类,二分类以及多分类。对于多类分类问题,可以用若干种手法将其分解为若干个二分类问题叠加。因此,为了实现支持向量机分类的算法,我们只要针对二分类,从头来给出它的数学原理。2.2.2 支持向量机分类的数学原理设样本集为,我们的目的是寻找一个最优超平面使得标签为1 和1的两类点不仅分开且分得间隔最大。当在维欧几里德空间中就可以实现线性分离时,也即存在超平面将样本集按照标签1与1分在两边。由于超平面在维欧几里德空间中的数学表达式是一个线性方程 ,其中
38、,为系数向量,为维变量,内积,为常数。空间中点到超平面的距离。欲使得最大,等价于最小。于是,得到一个在约束条件下的极值问题 (2-3)引入Lagrange乘子,可以解得关于该参变量的方程 (2-4)称之为Lagrange对偶函数。其约束条件为 (2-5)在此约束条件之下, 使得达到最大值的的许多分量为0,不为0的 所对应的样本就称为支持向量。这就是支持向量的来历。当在输入空间不能实现线性分离,假设我们找到了非线性映射将样本集映射到高维特征空间中,此时我们考虑在中的集合的线性分类,即在中构造超平面,其权系数满足类似的极值问题。由于允许部分点可以例外,那么可以引入松弛项,即改写为: (2-6)最终
39、转化为一个二次型在约束条件下的二次规划问题: (2-7)其中,为矩阵。 是核函数。一分类问题是一个极端情形但却又是非常有用的,它可以表示为如下数学模型:设为空间的有限观测点,找一个以为心,以为半径的包含这些点的最小球体。因此,一分类是对于求一个化合物成分的最小包络曲面的最佳方法。与前面完全相同的手法,设是由某个核函数导出的从输入空间到特征空间中的嵌入映射,最后可以得到二次规划问题 (2-8)其中, , 为矩阵。是核函数。此时 (2-9)此时几乎所有的点满足。参数起着控制落在球外点的数目,变化区间为:.2.2.3 基于线性规划的SVM分类由于分类问题的自然推理过程都会归结到二次规划求解,计算复杂
40、度相对较高。如果能将其简化为线性规划而且没有较大的误差, 那么计算量将急速减少。于是提出了基于线性规划的SVM分类。此方法经过数学严格推理,是合理的(因为涉及泛函的知识较多,推理过程放在附录中)。因此产生了基于线性规划一分类、二分类、多分类。此处,我们仅给出基于线性规划的SVM分类的最终形式: (2-10)解出与则得出决策函数以及阈值。参数控制着满足条件的样本数量。特别核函数取为径向函数时,参数越小,精度越高。 另外,要提醒注意的是,在求解大规模分类问题得SVM算法实现时,需要以下辅助手段:停机准则:由于分类问题等价于求对偶问题在约束条件下的极值 (2-11)而KKT条件 (2-12)是收敛的
41、充分必要条件。 因此通过监控KKT条件来得到停机条件 (2-13)这个条件中的不等式不必严格成立,只要在一定误差条件下成立就可以用了。2.2.4 支持向量机回归(SVR)模型对于分类,支持向量机相当于训练样本为有限集的情形。考虑训练集合为不可数的情形,例如训练集可以为形如 (2-14)的情形,则演化出支持向量回归概念。支持向量机回归也分为线性回归和非线性回归两种,但不是统计学中的线性或者非线性回归了,而是根据是否需要嵌入到高维空间来划分的,我们简述如下:对于给定的样本集, 以及任意给定的,如果在原始空间存在超平面 使得 ,则称是样本集合的线性回归。与初等代数类似,等价于中任何点到超平面的距离不
42、超过。由于我们是分类,所以希望调整超平面的斜率使得与中任点距离都尽可能大。也即使得最大化,这等价于要求。于是,线性回归问题转化为优化问题: (2-15)于是,引入松弛变量,并使用Lagrange 乘子法,得到优化问题的对偶形式: (2-16)对于不可能在原始空间就可以线性分离的样本集,先用一个非线性映射将数据映射到一个高维特征空间中,使得在特征空间中具有很好的线性回归特征,先在该特征空间中进行线性回归,然后返回到原始空间中。这就是支持向量机非线性回归。于是,支持向量机非线性回归的对偶优化问题如下: (2-17)于是,非线性回归问题的实施步骤为:寻找一个核函数使得,求优化问题 (2-18)的解。
43、 3 计算 (2-19)4构造非线性函数 (2-20)2.2.5支持向量机分类与支持向量机回归的关系支持向量机用以分类和回归,两者到底是什么关系?为了建立回归与分类的关系,我们在特征空间中考虑如下的上下移动集合:,对于充分大的,与是线性可分离的。于是得出关于与分类。引入松弛变量,由SVM分类方法得到 (2-21)将目标函数中的改写为 特别令, 那么上式变成 (2-22)而基于观测集,在特征空间中寻找单参数约束下的回归函数的问题等价于 (2-23)也就是说,回归问题可以通过分类的算法来实现。2.3本章小结本章首先介绍了统计学习理论的核心内容,在此基础上按照从线性到非线性的顺序,详细介绍了与支持向
44、量机分类和支持向量机回归对应的优化问题以及他们的Lagrange对偶问题,这两种问题是本文以下工作的基础。第3章最小二乘支持向量机生物发酵过程兼有化学分子生成传递现象和生命体代谢反应的特征,是一个机理复杂,影响因素繁多,高度非线性的复杂过程。鉴于微生物发酵过程是一个时变、非线性、多变量输入输出系统,其影响因素多,变量间关系不稳定,无法采用基本的机理建模方法和回归分析方法;另外因为对发酵过程先验知识的欠缺使得状态估计方法、人工神经网络方法在此发挥不了特有的优势。由于LS-SVM的训练只要求解一个线性方程组,训练算法简单快捷。由LS-SVM方法根据发酵过程特征,构建完整的软测量模型,进而构成实用的
45、软测量系统,为发酵过程中难测生物参数的在线测量提供一种有效途径。3.1最小二乘支持向量机 基于数据的机器学习是现代智能技术的一个主要研究领域,作为实现机器学习的一个经典方法统计学习理论,越来越受到研究者们的关注。SVM的提出不仅使统计学习理论具有简洁的实现形式,而且作为一种智能的学习方法,SVM也逐渐扩展到模式识别以外的领域。LS-SVM是九十年代末才提出来的一种改进型算法,作为SVM方法的一个分支,LS-SVM继承了SVM在理论与应用方面的许多研究成果。相对于SVM LS-SVM所具有的一些特性可以概括为:求解线性方程,具有更快的求解速度,求解所需的计算资源较少;其解满足极值条件,但不能保证是全局最优解。3.1.1 LS_SVM理论基础 Suykens和Vandewall改变了Vapnik标准的支持向量回归机的求解形式,将不等式约束变为等式约束,并引入了误差项e,这样式(2-15)及其所对应的约束条件变为: (3-1)约束条件为 (3-2)对应上面的优化问题的Lagrange函数为 (3-3)k为Lagrange乘了.最优解的条件为 (3-4)式(16)可以写成如下的线性方程组: (3-5)这里 。消去e和,再利用Mercer条件 (3-6)得到的方程
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。
Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1
陕公网安备 61072602000132号 违法和不良信息举报:0916-4228922