ImageVerifierCode 换一换
格式:PPT , 页数:105 ,大小:1.62MB ,
资源ID:878209      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 微信支付   
验证码:   换一换

加入VIP,免费下载资源
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【http://www.wodocx.com/d-878209.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(机器学习统计学习理论与支持向量机算法.ppt)为本站会员(精***)主动上传,沃文网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知沃文网(发送邮件至2622162128@qq.com或直接QQ联系客服),我们立即给予删除!

机器学习统计学习理论与支持向量机算法.ppt

1、统计学习理论讨论的是基于数据的机器学习问题统计学习理论讨论的是基于数据的机器学习问题研究如何从一些观测数据(样本)出发得出目前尚不能通过原理分析得到的规律,即基于观测设计优化过程,然后利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预测。主要任务:对于一种未知的依赖关系,以观测为基础对它进行估计。2.1 2.1 引言引言引言引言现有机器学习方法共同的重要理论基础之一是统计学现有机器学习方法共同的重要理论基础之一是统计学传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人

2、意。统计学习理论统计学习理论(Statistical Learning Theory(Statistical Learning Theory 或或SLT)SLT)是一种专门研究小样本情况下机器学习规律的理论 Vladimir N.Vapnik等人从六、七十年代开始致力于此方面研究,到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。在这一理论基础上发展了一种新的通用学习方法支持向量机(Support Vector Machin

3、e或SVM),它已初步表现出很多优于已有方法的性能。2统计学习理论统计学习理论经典的统计基础存在两个理论缺陷经典的统计基础存在两个理论缺陷没有对经验风险最小化原则下统计学习的一致性进行分析,不能保证经验风险的最小值(或下确界)收敛到(或依概率收敛到)期望风险的最小值(或下确界)。大数定律描述的是一个极限过程,不对收敛速度进行分析,那么在样本数目有限的情况下,以频率代替概率(均值代替期望)并不一定能得到好的近似。2.2 2.2 统计学习理论的形成与发展统计学习理论的形成与发展统计学习理论的形成与发展统计学习理论的形成与发展针对这两个问题,统计学习理论从理论上系统地分析经验最小化原则成立的条件,建

4、立了学习过程收敛速度的界,进而提出了小样本归纳推理原则,并给出控制学习过程的推广能力的方法。到20世纪90年代,统计学习理论已基本成熟。1995年,Vapnik完成专著 The Nature of Statistical Learning Theory,这是统计学习理论走向成熟和得到正式承认的标志。围绕学习问题的一般过程统计学习理论分成从理论围绕学习问题的一般过程统计学习理论分成从理论围绕学习问题的一般过程统计学习理论分成从理论围绕学习问题的一般过程统计学习理论分成从理论向实践渐进的向实践渐进的向实践渐进的向实践渐进的4 4个部分个部分个部分个部分学习过程一致性的理论(一个基于ERM原则的学习

5、过程一致充分必要条件是什么?)一个基于经验风险最小化原则的学习过程,满足怎样的条件时,它的经验风险与实际风险趋向一致。在分类问题中存在对应的充分必要条件,而对拟合问题目前仅存在充分条件。学习过程收敛速度的理论(这个学习过程收敛的速度有多快?)如果学习过程的经验风险与实际风险趋向一致,那么它们间的接近速度随着训练样本数的增加,是如何变化的,哪些因素控制着它们接近的速度。控制学习过程泛化能力的理论(如何控制这个学习过程的收敛速度,即推广能力?)采用前两部分的结论改进学习过程,认为结构风险最小化原则,而不是经验风险最小化原则,可以使学习过程的经验风险与实际风险最终并且尽可能快地趋向一致。构造学习算法

6、的理论采用前三部分的结论(如何构造能够控制推广能力的算法?)在分类和拟合问题中构造现实的学习算法。它遵循结构风险最小化原则从而较传统算法有更好的泛化能力。支持向量机SVM是基于该理论最早实现的,也是目前最有影响的分类回归算法之一。学习过程的一致性及收敛速度学习过程的一致性及收敛速度学习过程可以一般地表示如下 设有定义在空间Z上的概率测度F(Z),考虑函数的集合Q(z,a),aL(L为任意集合,它可以为一个标量集、向量集或抽象元素集)学习的目的是最小化风险泛函 R(a)=Q(z,a)dF(z),a L (2.1)其中概率测度F(Z)未知,但给定了一定的独立同分布样本 z1,zt (2.2)这种一

7、般问题就是在经验数据(2.2)基础上最小化风险泛函(2.1)式,其中z代表了数据对(x,y),Q(z,a)就是特定的损失函数为了在未知的分布函数F(Z)下最小化(2-1)式的风险泛函,可以把风险泛函R(a)替换为经验风险泛函 (2.3)令风险泛函的最小函数为Q(z,a0),经验风险泛函的最小函数为Q(z,al)。使用经验风险(2.3)式最小的函数Q(z,al)逼近使风险(2.1)式最小的函数Q(z,a0),这一原则称作经验风险最小化(Empirical Risk Minimization,ERM)归纳原则。定义2.1 一致性:如果下面两个序列依概率收敛于同一个极限,即 (2.4)(2.5)则E

8、RM 原则(或方法)对函数集Q(z,a),aL和概率分布函数F(z)是一致的。定理2.1 设函数集Q(z,a),aL满足条件 AQ(z,a)dF(z)B (AR(a)B)那么ERM 原则一致性的充分必要条件是经验风险 Remp(a)在函数集Q(z,a),aL上在如下意义下一致收敛于实际风险R(a):(2.6)其中P为概率,则把这种一致收敛称作一致单边收敛。定义2.2 随机变量序列 ,n=1,2,(2.7)这一随机变量序列既依赖于概率测度F(z),也依赖于函数集Q(z,a),aL,称之为一个双边收敛过程。学习理论的关键定理(定理学习理论的关键定理(定理学习理论的关键定理(定理学习理论的关键定理(

9、定理2.12.1)从概念的角度看,这个定理是十分重要的,因为它指出了ERM 原则一致性的条件是必要地(和充分地)取决于函数集中“最坏”的函数的。在传统的统计学中,并没有考虑是否存在一致单边收敛的问题。一致单边收敛是在一个新概念的基础上得到的,这个新概念叫做在n个样本上函数集Q(z,a),aL的熵。定义 N(z1,zn)代表用指示函数集Q(z,a),aL中的函数能够把给定的样本分成多少种不同的分类。则称H(z1,zn)=ln N(z1,zn)为随机熵,它描述了函数集在给定数据上的多样性。考虑随机熵在联合分布函数F(z1,zn)上的期望;H(n)=E ln N(z1,zn)(其中E为数学期望),把

10、这个量称作z指示函数集Q(z,a),aL在数量为n的样本上的熵,它依赖于函数集Q(z,a),aL、概率测度以及观测数目n,反映了给定指示函数集在数目为n的样本上期望的多样性。在在在在N(z1,zn)值基础上构造两个新概念值基础上构造两个新概念值基础上构造两个新概念值基础上构造两个新概念 退火的VC 熵 生长函数 在指示函数集Q(z,a),aL可测性的一定条件下,一致双边收敛的充分条件是 (2.8)它描述了ERM 原则一致性的一个充分条件这一等式是学习理论中的第一个里程碑,所有最小化经验风险的机器都要满足这一条件。它回答了:在什么条件下,经验风险最小化的解收敛于期望风险最小化的解?等式 (2.9

11、)是风险收敛速度快的一个充分条件(必要条件尚不得而知)。这一等式是学习理论的第二个里程碑,它保证了收敛有快的渐近速度。注意:VC退火熵是对一个给定的概率测度定义的,因此这两个条件是依赖于这个概率测度的。问题:我们的目标是建立一个学习机器,使它能够解决很多不同的问题(对于很多不同的概率测度)。即:在什么条件下,不依赖于概率测度,ERM原则是一致的且同时有快的收敛速度。等式 (2.10)给出了对任何概率测度ERM 具有一致性的充分必要条件;而且,如果这个条件成立,则收敛的速度是快的。等式(2.10)就是学习理论中的第三个里程碑,它描述了在什么充分必要条件下,一个履行ERM 原则的学习机器有一个快的

12、收敛的渐近速度,而不管所用的概率测度如何(即不管所要解决的问题如何)函数集的函数集的函数集的函数集的VCVC维维维维 VC 维描述了组成学习模型的函数集合的容量,也就是说刻画了此函数集合的学习能力。VC 维越大,函数集合越大,其相应的学习能力就越强。定义2.3 指示函数集的VC维:一个指示函数集Q(z,a),aL的VC维是能够被集合中的函数以所有可能的2h种方式分成两类的向量z1,zh的最大数目h。VC维是统计学习理论中的一个核心概念,它是目前为止对函数集学习性能的最好描述指标。它的另一个等价直观的定义是:假如存在一个有h个样本的样本集能够被一个函数集中的函数按照所有可能的2h 种形式分为两类

13、,则称函数集能够把样本数为h的样本集打散。指示函数集的VC维就是用这个函数集中的函数所能够打散的最大样本集的样本数目。也就是说,如果存在h个样本的样本集能够被函数集打散,而不存在有h+1个样本集能够被函数集打散,则函数集的VC维就是h。如果对任意的样本数,总能找到一个样本集能够被这个函数集打散,则函数集的VC维就是无穷大。如在二维实数空间R2,函数集为有向直线集。则对一给定有向直线,空间中的数据点被直线分为两类。直线方向如图2.1中箭头所示,位于直线正方向一侧的数据点为一类,位于直线负方向一侧的数据点为另一类。在二维实数空间R2中,找不到有向直线集不能够打散的由三个数据点构成的点集 图2.1

14、在二维空间R2中被有向直线打散的三个点 但能找到有向直线集不能够打散的由四个数据点构成的点集 图2.2 在二维空间R2中不能被有向直线打散的四个点 因此,此二维实数空间R2中的有向直线集的VC维是3。定理2.2 任何生长函数,或者满足等式GL(n)=nln 2 或者受下面的不等式约束:其中h 是一个整数,使得当nh 时有 GL(h)=hln 2 GL(h+1)0,用以控制松弛系数在目标函数中的作用。标准 不敏感支持向量回归机可以表示为 (2.39)建立Lagrange方程:(2.40)参数 ,和 的偏导都应等于零,即 (2.41)代入式(2.38),得到对偶优化问题 (2.42)求解:(2.4

15、9)具体算法步骤具体算法步骤具体算法步骤具体算法步骤 Step1:设已知训练集 ,其中 ,;Step2:选择适当的正数 和 ;Step3:构造并求解最优化问题(2-41),得到最优解 ;Step4:构造决策函数 ,其中b由式(2-47)计算。假设非线性模型为 (2.50)则目标函数式(2-42)变为 (2.51)从而得到 (2.52)非线性非线性非线性非线性 SVMSVM算法算法算法算法 设核函数K(x,x)满足 (2.53)用K(x,x)代替运算,则都可以统一转化成如下的二次优化问题:(2.54)则式(2.33)的分类判别函数和(2-49)的函数回归方程可以分别表示如下:(2.55)(2.5

16、6)为与每个数据点对应的拉格朗日乘子,式(2.55)存在唯一解,其解 中只有一少部分的 不为0,其对应的数据就是支持向量具体算法步骤具体算法步骤具体算法步骤具体算法步骤 Step1:设已知训练集 ,其中 ,;Step2:选择适当的正数 和 ,选择适当的核函数K(x,x);Step3:构造并求解最优化问题(2-54),得到最优解 ;Step4:若是分类问题则构造决策函数(2.55),其中 ;若是回归问题则构造决策函数(2.56),其中b由式(2-47)计算。目前SVM的变形算法主要有C-SVM系列、v-SVM系列、One-class SVM、RSVM、WSVM和LS-SVM等。这些变形算法主要是

17、通过增加函数项、变量或系数等方法使公式变形,产生出有某一方面优势或一定应用范围的算法。变形的支持向量机算法变形的支持向量机算法变形的支持向量机算法变形的支持向量机算法 采用SVM方法求解最优分类问题,本质上是一个二次规划问题。对于海量数据(样本数在105106以上),常规的数值优化算法及软件已无法实现二次规划问题的求解。运行时间和计算内存是海量样本求解SVM的主要瓶颈。针对海量样本数据如何减少二次规划求解过程的计算时间和内存一直是SVM的研究热点,目前主要有以下3种方法。优化的支持向量机算法优化的支持向量机算法优化的支持向量机算法优化的支持向量机算法 Vapnik提出了求解支持向量机二次规划问

18、题的“Chunking”算法,其依据是支持向量机最终的判决函数只与支持向量(Lagrange乘子不等于零的训练样本)有关,而与非支持向量(Lagrange乘子等于零的训练样本)无关。而大多情况下,特别是训练样本很多时,样本中绝大多数是非支持向量,这些非支持向量在计算和内存上占用了大量的资源,在优化的过程中,若每次迭代后只保留当前的支持向量,这将会节省大量的计算时间和内存空间。基于这一思想,“Chunking”的目标就是通过某种迭代方式逐步排除非支持向量。ChunkingChunking算法算法算法算法 具体的实现方法是,随机选择一小部分样本作为初始样本集进行QP问题(Quadratic Pro

19、gramming Problem)求解,从结果中剔除非支持向量,并用训练结果对剩余样本进行检验,将不符合优化条件的样本(或其中的一部分)与当前的的支持向量合并成为一个新的QP训练样本集,然后重新训练。如此重复下去直到获得最优结果。增量学习方法(Incremental Learning)本质上就是分块法。分块法求解规模随着SV数量的增加而增加,尽管如此,在训练集的SV数目非常大时,块算法仍然无法将矩阵放入内存中,优化计算仍难以实现。ChunkingChunking算法算法算法算法 当支持向量的数目远远小于训练样本数目时,分块法显然能够大大提高运算速度。然而,如果支持向量的数目本身就比较多,随着算

20、法迭代次数的增多,工作样本集也会越来越大,算法依旧会变得十分复杂。因此,可把问题分解成为固定样本数的子问题:工作样本集的大小固定在算法速度可以容忍的限度内,迭代过程中只是将剩余样本中部分“情况最糟的样本”与工作样本集中的样本进行等量交换,即使支持向量的个数超过工作样本集,也不改变工作样本集的规模,而只对支持向量中的一部分进行优化。固定样本工作集方法固定样本工作集方法固定样本工作集方法固定样本工作集方法固定工作样本集的方法和分块算法的主要区别在于:分块算法的目标函数中仅包含当前工作样本集中的样本。而固定工作样本集方法中虽然优化变量仅包含工作样本,其目标函数却包含整个训练样本集,即工作样本集之外的

21、样本的Lagrange乘子固定为前一次迭代的结果,而不是像块算法中那样设为0。而且固定工作样本集方法还涉及到一个换出样本确定的问题(因为换出的样本可能是支持矢量)。这样,这一类算法的关键就在于找到一种合适的迭代策略使得算法最终能收敛并且较快地收敛到最优结果。固定样本工作集方法固定样本工作集方法固定样本工作集方法固定样本工作集方法在固定样本工作集算法的基础上,微软研究院的John CPlatt提出的序列最小优化算法(SMO)。将工作样本集的规模减到最小两个样本。之所以需要两个样本是因为等式线性约束的存在使得同时至少要调整两个Lagrange乘子。根据等式约束条件,两个样本对应的乘子变量可相互表示

22、出来,所以迭代过程中每一步的子问题的最优解可以直接用解析的方法求出来。这样,算法避开了复杂的数值求解优化问题的过程。SMO(Sequential Minimal Optimizition)SMO(Sequential Minimal Optimizition)算法算法算法算法修改支持向量机的二次规划形式,并在在所有样本的基础上求解一个大的二次规划问题,一次完成多类问题的分类。这种方法计算量很大,预测效果也并不理想,整体来说并不占优。构造若干个的二分类器,并按照某种方式将它们组合起来实现多类问题的分类。多分类的支持向量机算法多分类的支持向量机算法多分类的支持向量机算法多分类的支持向量机算法-主要

23、有两种主要有两种 一对一的方法是在每两类不同的训练样本之间都构造一个最优决策面的二分类SVM,将一个多类问题转化为多个二分类问题来求解从样本集中取出所有满足 与 的样本点(其中1 s,t k,s t),通过二分类的SVM 算法构造最优决策函数:(2.62)同样,对k类样本中的每一对构造一个决策函数,所以一个类问题需要k(k-1)/2个分类平面。一对一支持向量机(一对一支持向量机(一对一支持向量机(一对一支持向量机(1-against-1 SVM1-against-1 SVM)一对一支持向量机(一对一支持向量机(一对一支持向量机(一对一支持向量机(1-against-1 SVM1-against

24、-1 SVM)1-against-1 SVM 方法每次投入训练的样本相对较少,所以单个决策面的训练速度较快,并且精度也较高。该方法的确定是由于k类问题需要训练k(k-1)/2个决策面,当k较大的时候决策面的总数将会变的很多,直接影响到预测速度,这是一个有待改进的地方。一对余类支持向量机(1-against-the rest SVM)是在一类样本与剩余的多类样本之间构造决策平面,从而达到多类识别的目的。这种方法只需要在每一类样本和剩余样本之间产生一个最优决策面,而不用在两两之间都进行分类。因此如果仍然是一个k类问题的话,那么该方法仅需要构造k个分类平面(k 2)。该方法其实也可以认为是两类SVM

25、方法的推广。实际上它是将剩余的多类看成一个整体,然后进行k次两类识别 一对余类支持向量机(一对余类支持向量机(一对余类支持向量机(一对余类支持向量机(1-against-the rest SVM1-against-the rest SVM)假设第j类样本看作正类(j=1,2,k),而将其它k 1类样本看作负类,通过两类SVM 方法求出一个决策函数:(2.63)具体方法具体方法具体方法具体方法一对余类支持向量机(一对余类支持向量机(一对余类支持向量机(一对余类支持向量机(1-against-the rest SVM1-against-the rest SVM)相比较1-against-1 SVM

26、,1-against-the rest SVM 方法构造的决策平面数大大减少,因此在类别数目k较大时,其预测速度将比 1-against-1 SVM方法快许多,但同时预测的准确率也会有所下降。不过,由于它每次构造决策平面都会用上全部的样本集,所以其训练的时间并不比 1-against-1SVM 短。决策树算法(决策树算法(决策树算法(决策树算法(DAGSVMDAGSVM)与1-against-the rest SVM 和 1-against-1SVM 两种方法不太一样,DAGSVM 是通过排除在每层节点处对不符合要求的类别,进而最后得到样本所属的类别。决策树算法(决策树算法(决策树算法(决策树

27、算法(DAGSVMDAGSVM)DAGSVM 的训练阶段和1-against-1 SVM 的步骤一样,首先从k(k 1)/2 个分类决策面中任意选取一个,不妨设为 ,然后将未知样本x代入该决策函数进行判定:若在此决策函数中x被判定为第s类,那么将所有与第t类样本相关的决策函数全部删除,然后从剩下的与第s类样本相关的分类决策面中任取一个重复以上步骤;若是被判定为第t类,方法也是完全类似。依此类推,直到决出样本x的最终类别。决策树算法(决策树算法(决策树算法(决策树算法(DAGSVMDAGSVM)和 1-against-1 SVM 方法不同的是,由于在每个节点预测的时候同时排除了许多类别的可能性,

28、因此预测的时候用到的总分类平面只有 k-1 个,比 1-against-1 SVM 要少很多,预测速度自然提高不少。但 DAGSVM 算法也有其不足之处。正由于它采取的是排除策略,那么最开始的判定显得尤为重要,如果在开始阶段就决策错误的话,那么后面的步骤都没有意义了。支持向量机聚类算法支持向量机聚类算法支持向量机聚类算法支持向量机聚类算法 聚类就是将数据库中的数据进行分组,使得每一组内的数据尽可能相似而不同组内的数据尽可能不同。支持向量机聚类(Support Vector Clustering,SVC)是一个使用支持向量机技术的算法,也是近年来受关注度很高的一种聚类技术,通过其算法的不断改进和

29、参数的优化选择,聚类的精确度以及速度都得到了很大提高。支持向量机聚类支持向量机聚类支持向量机聚类支持向量机聚类 支持向量聚类就是在无监督的环境下,使用支持向量技术进行类别学习的算法 SVC的基本思想是:将样本点经过一个非线性映射映射到一个高维特征空间,并在此空间中寻找一个包围所有样本点且具有最小半径的超球,将该球体逆映射回原输入空间,位于球表面的点即为支持向量 支持向量机优化过程支持向量机优化过程支持向量机优化过程支持向量机优化过程Step1:给定数据集 ,其中 。设a是特征空间中包含了所有数据的最小超球体球心,R是超球体半径,i是松弛因子,是从原空间到特征空间的非线性映射,SVC软间隔目标优

30、化函数为:(2.64)Step2:将其转化为Lagrange函数:(2.65)其中 ,它们作为Lagrange乘子,将两个约束条件 引入了目标函数。C衡量半径和松弛因子之间比重。支持向量机优化过程支持向量机优化过程支持向量机优化过程支持向量机优化过程 Step3:对R,a和i分别求偏导,并根据KTT条件,消去R,a及,再转换成Wolfe对偶形式,得到关于i的目标为:(2.66)Step4:设K为Gaussian核函数,K(x,y)=exp(-q|x-y|2),q为尺度参数。那么K(x,x)=1,同时由约束中的第一个条件,可将优化目标的进一步简化为:(2.67)满足i=0,i=0的点位于超球体内

31、,是位于簇的内部的点。满足i=0,0i0,i=C的点位于超球体外,称为限定的支持向量(bounded Support Vectors,bSVs),即孤立点。支持向量机优化过程支持向量机优化过程支持向量机优化过程支持向量机优化过程 nbSVs描述数据簇轮廓bSVs孤立点-4-3-2-101234-1.5-1-0.500.511.5图2.9 支持向量聚类 支持向量机优化过程支持向量机优化过程支持向量机优化过程支持向量机优化过程 Step5:设*是(2-65)的解,则代入*可求出点x到球心的距离:(2.68)在R(x)中代入某一nbSV,可求出超球体半径R。以上为SVC的优化阶段,其结果是得到了描述

32、数据簇轮廓支持向量。若要完成聚类任务,还需进行下面的聚类标识过程。支持向量机优化过程支持向量机优化过程支持向量机优化过程支持向量机优化过程 聚类标识过程聚类标识过程 聚类标识就是如何将数据划分成几个簇。如果两个输入点属于同一个簇,那么在高维空间中,这两个点连线上的所有点都不会位于球外。Step6:簇划分阶段从本步骤开始。此时首先需构造邻接矩阵A:(2.69)其中 表示 和 之间的连线,当此连线全部位于超球体内,则判定和属于同一个簇。为此需判断连线上的所有点是否位于超球体内,用随机取样方法近似 这一判断过程,即在 到 的连线段上任取若干点,只要有一个点位于超球体外,则令 。聚类标识过程聚类标识过

33、程 Step7:A对应了数据集的连通状态图,计算此图上的连通分量,每一连通分量表示了一个簇。聚类标识过程聚类标识过程 SVC的重要参数有两个:C和q。参数C为惩罚系数,它影响着SVC算法对噪声的容忍程度。C值越大越不允许噪声的出现,当C1时,边界曲线会包含所有的样本点,而不会有落在球外之点出现。参数q为高斯核函数的宽度因子,它影响了聚类的紧密度以及聚类数目。q越大,聚类越模糊,q越小,聚类越精细。参数选择参数选择 4本章小结本章小结 机器学习长久以来是一门经验科学,研究人员往往更关心实用算法,而忽视了对理论的研究。Vapnik统计学习理论的建立,使得机器学习逐渐成为一门真正的科学。本章小结本章

34、小结本章小结本章小结支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原则基础之上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。它基本上不涉及概率测度及大数定律等,因此不同于以往的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预测样本的“转导推理”(transductive inference),大大简化了通常的分类和回归等问题。本章小结本章小结本章小结本章小结支持向量机主要优点:支持向量机主要优点:支持向量机主要优点:支持向量机主

35、要优点:它是专门针对有限样本情况的,其目标是得到现有信息下的最优解,而不仅仅是样本数趋于无穷大时的最优值,能有效地避免过学习现象的产生;算法最终转化成为一个二次型寻优问题,从理论上说,得到的将是全局最优点,从而有效地解决了在神经网络方法中无法避免的局部极值问题;通过引入核技术,将实际问题通过非线性变换转换到高维的特征空间(feature space),在高维特征空间中构造线性判别函数来实现输入空间中的非线性判别函数,同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关。支持向量机算法某些理论解释并非完美无缺;当样本规模较大时,训练算法的收敛速度还是仍然较慢,难以保证较高的实时性要求;核函数的选择,以及核参数的确定,尚无理论上的依据;对模式分类来说,支持向量机本质上属于两类分类算法,在多类分类问题上,支持向量机还存在构造学习机器及分类效率低的缺点。支持向量机主要不足:支持向量机主要不足:支持向量机主要不足:支持向量机主要不足:本章完本章完

版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。

Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1 

陕公网安备 61072602000132号     违法和不良信息举报:0916-4228922