1、数字图像处理和模式识别在林业中的应用摘要:本文介绍了数字图像处理与模式识别在林业中的应用领域及其重要意义,详细阐述了利用数字图像处理及模式识别技术的原理和方法,并在此基础上研究了林地分类系统的算法和模型,构造了林地分类系统的检索库。通过本文的研究,初步探索了数字图像处理与模式识别在林地分类系统中的应用途径和方法,为以后进一步的实现基于数字图像的林地分类系统的打下了基础。关键词:数字图像处理;模式识别;林地分类系统;雷达遥感目 录前言11数字图像处理和模式识别概述21.1 数字图像处理和模式识别在林业中的应用领域31.2 数字图像处理和模式识别在林业中的重要意义42 雷达遥感52.1雷达遥感原理
2、62.2 森林类型识别与分类63 林地分类系统83.1树种分类系统的历史和现状83.1.1中国森林现状83.1.2中国森林分布图103.2中国森林编码依据114 林地分类系统的实现114.1 林地分类系统算法和模型114.2 信息提取及特征分析144.2.1特征选取144.2.2分类器的设计154.2.3分类器的训练154.2.4分类性能的测量154.2.5特征选择164.2.6特征方差174.2.7特征相关系数174.2.8类间距离184.2.9降维184.3解决多类问题的决策树194.3.1决策树的基本概念204.3.2决策树设计的基本考虑20结论与展望25参考文献26致谢27西南林学院2
3、004届本科毕业论文数字图像处理和模式识别在林业中的应用前言数字图像处理(Digital Image Processing)又称为计算机图像处理,它是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。数字图像处理最早出现于20世纪50年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。数字图像处理作为一门学科大约形成于20世纪60年代初期。早期的图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。图像处理中,输入的是质量低的图像,输出的是改善质量后的图像,常用的图像处理方法有图像增强、复原、编码、压缩等。首次获得实际成功应用的是美国喷气
4、推进实验室(JPL)。他们对航天探测器徘徊者7号在1964年发回的几千张月球照片使用了图像处理技术,如几何校正、灰度变换、去除噪声等方法进行处理,并考虑了太阳位置和月球环境的影响,由计算机成功地绘制出月球表面地图,获得了巨大的成功。随后又对探测飞船发回的近十万张照片进行更为复杂的图像处理,以致获得了月球的地形图、彩色图及全景镶嵌图,获得了非凡的成果,为人类登月创举奠定了坚实的基础,也推动了数字图像处理这门学科的诞生。在以后的宇航空间技术,如对火星、土星等星球的探测研究中,数字图像处理技术都发挥了巨大的作用。数字图像处理取得的另一个巨大成就是在医学上获得的成果。1972年英国EMI公司工程师Ho
5、usfield发明了用于头颅诊断的X射线计算机断层摄影装置,也就是我们通常所说的CT(Computer Topography)。CT的基本方法是根据人的头部截面的投影,经计算机处理来重建截面图像,称为图像重建。1975年EMI公司又成功研制出全身用的CT装置,获得了人体各个部位鲜明清晰的断层图像。1979年,这项无损伤诊断技术获得了诺贝尔奖,说明它对人类做出了划时代的贡献。 与此同时,图像处理技术在许多应用领域受到广泛重视并取得了重大的开拓性成就,属于这些领域的有航空航天、生物医学工程、工业检测、机器人视觉、公安司法、军事制导、文化艺术等,使图像处理成 为一门引人注目、前景远大的新型学科。 随
6、着图像处理技术的深入发展,从70年代中期开始,随着计算机技术和人工智能、思维科学研究的迅速发展,数字图像处理向更高、更深层次发展。人们已开始研究如何用计算机系统解释图像,实现类似人 类视觉系统理解外部世界,这被称为图像理解或计算机视觉。很多国家,特别是发达国家投入更多的人力、物力到这项研究,取得了不少重要的研究成果。其中代表性的成果是70年代末MIT的Marr提出的视觉计算理论,这个理论成为计算机视觉领域其后十多年的主导思想。图像理解虽然在理论方法研究上已取得不小的进展,但它本身是一个比较难的研究领域,存在不少困难,因人类本身对自己的视觉过程还了解甚少,因此计算机视觉是一个有待人们进一步探索的
7、新领域。1数字图像处理和模式识别概述数字图像是指由被称作象素的小块区域组成的二维矩阵。对于单色即灰度图像而言,每个象素的亮度用一个数值来表示,通常数值范围在0到255之间,即可用一个字节来表示,0表示黑、255表示白,而其它表示灰度1。如下图所示: 图1.1 灰度图像(128x128)及其对应的数值矩阵(仅列出一部分(26x31))彩色图像可以用红、绿、蓝三元组的二维矩阵来表示。通常,三元组的每个数值也是在0到255之间,0表示相应的基色在该象素中没有,而255则代表相应的基色在该象素中取得最大值,这种情况下每个象素可用三个字节来表示。如下图所示:图1.2 彩色图像(128x128)及其对应的
8、数值矩阵(仅列出一部分(25x31)) 数字图像是对二维连续光函数进行等距离矩形网格采样,再对幅度进行等间隔量化得到的二维数据矩阵。采样是测量每个象素值而量化是将该值数字化的过程。数字图像在本质上是二维信号,因此信号处理(以一维信号为对象展开的课程)中的基本技术(如FFT)可以用在数字图像处理中。但是,由于数字图像只是一种非常特殊的二维信号,反映场景的视觉属性,只是二维连续信号的非常稀疏的采样,希望从单个或少量采样中获得有意义的描述或特征,无法照搬一维信号处理的方法,需要专门的技术。实际上数字图像处理更多地依赖于具体应用问题,是一系列的特殊技术的汇集,缺乏贯穿始终的严格的理论体系。数字图像处理
9、是一个多学科交叉的领域,涉及光学、电子学、数学、摄影技术、计算机技术等众多学科,是一个高度综合的技术学科。1.1 数字图像处理和模式识别在林业中的应用领域模式识别诞生于20世纪20年代,随着40年代计算机的出现,50年代人工智能的兴起,模式识别在20世纪60年代迅速发展成为一门学科。它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视,推动了人工智能系统的发展,扩大了计算机应用的可能性。在林业中的应用,这将发展成为一个越来越重要的项目。例如:编制森林分布图森林资源调查,特别是森林经理调查要制定林业局林场的具体经营利用方案,需要绘制以林分或小班为单元的林相图。在未使用遥感资料的时期,地面测
10、量工作占森林资源调查工作量的70%以上。使用了遥感资料,减少了大部分的地面测量工作量,为清查资源提供了正确可靠的图面资料,以便于求算森林面积。现在,在我国的森林资源调查工作中,已广泛使用航测方法编制地形图。但由于林区变化比较快,需要利用新的航空像片或者是调绘旧的航空像片进行修测补绘,而后编制森林分布图。国外林业集约经营的国家(如:德国、日本、瑞典等)开始用正射像片图代替线划图作为林业局、林场的基本图。我国测绘等部门已开始生产影像地图,这将大大地挖掘遥感信息的潜力,提高林业图件的质量,进一步满足林业生产的需要。林地分类不论是哪一类森林资源调查,也不论是哪一种调查方法都需要区划或大或小的内部相对同
11、质的单元。这种单元在森林资源清查中根据林分类型、树种、龄级、郁闭度等因子进行划分;在土地利用中则根据地貌、土地利用类型等因子来划分。航空像片上都能够反映地物细部,所以按照林业区划所要求的因子比较精确地勾绘出轮廓(如森林小班),而后转绘成图。森林蓄积量的判读森林蓄积量判读除利用航空像片森林蓄积量判读样片、航空像片材积表、航空像片蓄积量表进行判读外,还可以利用航空像片小班判读蓄积与实测蓄积回归、数量化林分蓄积多元回归估测法以及卫星图像、航空像片、地面调查相结合的多阶抽样,以得到控制总体的蓄积量。野外调查工作的位置图 航空像片所提供的地面信息可以作为布设目测调查点,抽样实测样点现地定位的图面依据。此
12、外,在林业调查工作中,航空像片作为行动的向导,控制野外作业的联络图,以便用最短的行动路线和较少的作业时间,完成较多的工作量。同时,航空像片也是外业调绘工作的草图,实现小班轮廓的现地验证落实,提供内业成图的基础2。1.2 数字图像处理和模式识别在林业中的重要意义数字图像处理和模式识别在林业的应用是运用最新技术解决了林业树种分类,为进一步的发展林业提供了基础保证。遥感技术改变了传统的林业模式,通过卫星等拍摄图片,传送到计算机专业人员那里进行分析,从而节约了社会资源,具有深远的经济意义、实用性和方便性。从中国林业发展看,数字图像处理和模式识别是中国林业的发展方向,林业及计算机的运用的条件和技术已具备
13、,其发展是可行的、迫切的,将为林业科技创新和六大林业重点工程提供可靠的数据分析和信息支撑平台,具体体现在以下五个方面:国家越来越重视计算机在林业中的应用。新时期的中国林业发展亟需运用现代化的计算机遥感技术。数字图像处理和模式识别是林业计算机的重要组成部分,是林业科技信息产业发展的必然。林业计算机运用是林业科技支撑体系建设的重要组成部分。科技创新很大程度上取决于数字图像处理和模式识别在林业中的贡献。植被是地理环境中的重要组成部分,是反映地理环境的最好标志,且植被对于土壤是不可缺少的间接解译标志,植被还是其它许多专题遥感解译的重要参考,通过植物信息所反映的差异,还可进一步分析水、土资源,研究自然历
14、史演变痕迹,推断地质构造背景、找矿等。可见林地类型的识别在整个遥感图像解译中有着重要的地位3。2 雷达遥感雷达遥感是一种主动微波遥感技术,它具有特有的全天候,全天时对地观测能力及对一些地物的穿透性能。在常用的遥感电磁波波段范围内,可见光的产生来源于物质外层电子和激励,红外线的产生形成于物质的分子振动,而波长更长的微波,则是由于物质的分子旋转和反转、电子自转与磁场之间的相互作用而引起的,这决定了地物与工作在微波波段的成像雷达之间具有其固有的相互作用机理。成像雷达主动发射电磁波的特点,对地表粗糙度及介电性质的敏感性,多波段、多极化散射特性和干涉测量的成像方式等,使得雷达遥感成为最重要的对地观测前沿
15、领域之一。2.1雷达遥感原理合成孔径雷达(SAR)是由发射机,调制器、天线、接收机,数据记录和处理系统及能输出SAR图像的处理器组成。发射机发出一系列脉冲:由开关将脉冲导向天线、然后通过天线将其发射向地面。由天线接收地物后向散射信号(雷达回波),并把它通过开关转入接收机。接收机输出的是一系列接收到的雷达回波脉冲,这些脉冲又进到相干器中。最后处理生成雷达图像。空间分辨率是雷达图像最重要的参数之一,SAR空间分辨率由距离分辨率及方位分辨组成。对于距离分辨率,在作法斜距上脉冲从SAR到地面目标并返回到SAR所需要的时间为l=2R/c,这里c是光速,R是天线到目标物的距离,2表示往返过程。沿斜距方向的
16、分辨率是由脉冲宽度确定的,也就是:rr=c/2, 因此可以知道,距离分辨率雷达遥感由rc=c/(2sin)得到,这里r为脉冲宽度,为入射角。这样距离分辨率取决于脉冲宽度和入射角,在大入射角时会取得最好的距离分辨率。脉冲宽度是由发射机的波宽决定的,波宽大会产生窄脉冲。 就会有更好的距离分辨率。当发射的脉冲是线性调频脉冲、并且接收的波宽足可以和接收到的雷达回波相匹配时,就会有较好的为了取得轨道高度成像雷达的高方位分辨率。必须使用多普勒电子聚聚焦方法。SAR最基本的技术就是要记录接收到来自地面目标的一系列雷达回波及由于雷达运动产生的多普勒频移、通过特殊的处理器把这些回波聚集起来实观天线合成技术、由此
17、来获得高方位分辨率4。2.2 森林类型识别与分类陕西宜川县三北防护林陕西宜川地区的三北防护林位于陕西省宜川县西部, 黄河于东侧南流。平均海拔13001400m,地表切割破碎,呈千沟万壑的黄土丘陵地貌。气候属暖温带,年降水较少,为干旱半旱地区。该地区的森林为我国三北防护林的一部分。森林类型主要有阔叶林、针叶林和混交林,其中阔叶林主要有山杨林和栎树林,针叶林主要为油松,混交林则主要为阔叶混交林和针阔混交林。1994年4月。SIR-C/X-SAR过顶该区时,以11成像模式获取了该区的多波段多极化成像雷达数据,该数据有L、C和X三个波段,HH、HV和VV三种极化方式,图像中心入射角24。像幅宽度50k
18、m,分辨率(距离向方位向)25m25m,像元大小12.5m12.5m。对多波段多极化SAR数据进行几何配准,产生彩色合成图像,然后对图像进行增强Lee滤波,以消除雷达的斑点噪声。在L-HH(R)、L-HV(G)和C-HV(B)彩色合成图像上,针叶林呈黄色色调,混交林为红白色调,而阔叶林为蓝色色调,从而从图像上就可明显区别出这三种森林类型。但在单波段单极化图像上,却难以一一区分出这些森林类型。利用最大似然法对L和C波段,HH和HV极化的雷达数据进行监督分类,可以区分出针叶林、阔叶林、混交林、河道或冲沟以及雷达阴影几种类型,其分类的结果较为理想。 其中针叶林的分类效果最好。精度达79.7;其次为混
19、交林,精度为68,阔叶林的精度则为60.2。从这些数据得出的平均分类精度为75.10。由此可见,SIR-CX-SAR数据对于三北防护林的识别与分类较为成功的12。 针叶林混交林阔叶林河道或冲沟阴影图2.1陕西宜川地区三北防护林多波段多极化彩色合成图像(R:L-HH,G:L-HV,B:C-HV)后向散射系数值(dB)图2.2不同森林类型后向散射系数对比图图2.3陕西宜川地区三北防护林多波段多极化数据分类结果图 图2.4陕西宜川地区三北防护林单波段单极化图像3 林地分类系统3.1树种分类系统的历史和现状森林是一种可再生的自然资源;同时,由于人类对森林的种植经营、利用活动和自然条件的影响,森林的数量
20、、质量和颁布情况处于不断变迁之中。对于一个国家来说,掌握森林的数量、质量和分布情况,是至关重要的。现我们对中国森林近半个世纪来的变化情况作简要性描述。3.1.1中国森林现状中国主要林区有东北林区、西南高山林区、西北山地林区和南方丘陵低山林区。现分述如下3。(1) 东北林区东北林区地处黑龙江、吉林、内蒙古3省(自治区)的大部或部分地区,包括大兴安岭、小兴安岭、完达山、张广才岭、长白山等山系。总面积约60余万km2,占国土总面积6.3%。该林区地跨寒温带、温带,气候较湿润,山势和缓,森林资源丰富,是中国森林资源集中分布区之一。其中大兴安岭林区面积广阔,是中国最北部的林区,针叶树种以耐寒冷的兴安落叶
21、松占优势,其次为樟子松,阔叶树主要分布有白桦,其他还有山杨、黑桦、蒙古栎等。小兴安岭和长白山林区主要森林类型是以红松为主的温带针阔混交林,组成树种较为丰富,针叶树有红松、落叶松、云杉、冷杉、长白山林区还有黄花松(长白落叶松)分布,阔叶树主要有椴、蒙古栎、水曲柳、黄波罗(黄檗)、核桃楸、白桦、山杨、色木槭等。全林区针叶林面积占35.8%,蓄积占42.0%;阔叶林面积占64.2%,蓄积58%。全林区以落叶松所占比重所占比重最大,其面积蓄积约各占林分面积和蓄积的1/4;其次为桦木林面积占22.4%,蓄积占17.93%;再次为栎类林,其面积蓄积分别占17.08% 和12.26%,阔叶混交林面积蓄积分别
22、占11.16%和15.57%,其他各优势树种面积蓄积除针阔混交林蓄积占6.53%外,均不足5%,全林区珍贵优质树种资源日渐减少,如红松林面积仅占全林区面积的1.15%,蓄积占1.86%;水曲柳、黄波罗、核桃林面积仅占1.4%,蓄积占1.30%。(2) 西南高山林区西南高山林区包括云南、四川、西藏3省(自治区)的部分地区,总面积94万km2,占国土面积9.8%。其中在横断山脉地区的川西、滇西北和西藏东部是原始林分布地区,主要树种以云冷杉为主的暗针林,树木高大,森林单位面积蓄积高。西南地区林区林分面积1902万hm2,林分蓄积34.56亿m3,分别占全国林分面积的16.73%和林分蓄积34.09%
23、。其中针叶林面积占64.78%,蓄积占74.63%,阔叶林面积占35.22%,蓄积占25.37%。(3) 南方低山丘陵林区南方低山丘陵林区包括江西、福建、浙江、安徽、湖北、湖南、广东、广西、贵州、四川等省(自治区)的全部或部分县市区域。总面积113.5%万km2,占国土总面积的11.8%。全林区林分面积3162万hm2,林分蓄积141 403万m3,分别占全国林分面积的27.81%和林分蓄积的13.95%。其中针叶林面积占75.98%,蓄积占49.92%;阔叶林面积占34.02%,蓄积占50.08%。(4) 西北山地林区西北山地林区地处中国西北地区,主要包括新疆天山、阿尔泰山、甘肃祁连山、白龙
24、江、子午岭、陕西秦岭、巴山等林区,总面积8.77万km2,约占国土面积的0.9%。该林区以天然林为主西北山地林区有林地面积231万hm2,仅占全国有林地面积的1.73%,森林覆盖率为26.34%,活立木总蓄积3.95亿m3,占全国活立木总蓄积量的3.35%。在此叙述中国森林的变迁是为了更好的进行下一步的研究,即数字图像处理和模式识别在林业中的应用。3.1.2中国森林分布图图2.1中国森林分布图3.2中国森林编码依据针叶林;落叶针叶林;常绿针叶林;阔叶林;落叶阔叶林;常绿落叶阔叶混交;常绿阔叶林;硬叶林;季雨林;雨林;珊瑚岛常绿林;红树林;竹林;散生竹林;混生竹林;丛生竹林;灌木林;旱生灌木林;
25、中生灌木林;湿生灌木林;高寒灌木林;经济林;油料林;干果林;香料林;药材林;工业原料林;条编林。森林分类采取数码标记,其方式如下: 1111林钢组 林钢 林系组 林系针叶林林纲组为1 ,阔叶林林纲组为2,竹林林纲组为3 ,灌木林林纲组为4,经济林林纲组为5;落叶针叶林林纲组为为11,常绿针叶林林纲组为12,落叶阔叶林林纲组为21,常绿落叶阔叶林林纲组为22,;散生竹林林纲组为31,;旱生灌木林林纲组为41,油料林林纲组为51,落叶松林林系组为111,;云杉冷杉林林系组为121;毛竹林林系组为311,;锦鸡儿灌丛林系组为4110,;油茶林林系组可写为511;兴安落叶松林林系为1111。其他依此类
26、推。4 林地分类系统的实现4.1 林地分类系统算法和模型植被覆盖在土地的最表层,是遥感图像反映的最直接的信息。由于植物内部的叶绿素、水分、结构等有着特殊的光谱效应,因而在遥感图像的影像上以各种色调、色彩、形状、大小、结构来反映它的内容和特点,尤为直观,较易识别5。林地分类系统和算法及模型是比较多的,在本文中将重点介绍贝叶斯决策。基于最小错误率的贝叶斯决策:在模式分类问题中,人们往往希望尽量减少分类的错误,从这样的要求出发,利用概率论中的贝叶斯公式,就能得出使错误率为最小的分类规则,称这为基于最小错误率的贝叶斯决策8。现举一个林地的识别例子来说明解决问题的过程。假设要识别的林地已作过预处理,抽取
27、出d个表示林地基本特性的特征,成为一个d维空间的向量x,识别的目的是要将x分类为林地或者非林地。用决策论的术语来讲就是将x归类于两种可能的自然状态之一,如果用表示状态,则:=1 表示正常; =2 表示异常;类别的状态是一个随机变量,而某种状态出现的概率是可以估计的。例如,根据林地检查的大量统计资料可以对某一地区林地和非林地的比例做出估计,这就相当于在识别前已知正常状态出现的概率P(1)和异常状态出现的概率P(2)。这种由先验知识在识别前就得到的概率P(1)和P(2)成为状态的先验概率。在两类识别问题中显然有P(1)+P(2)=1。如果不做林地特征的仔细观测,只依靠先验概率P(1)和P(2)做决
28、策,那么合理的决策就应该为:若P(1)P(2),则做出=1、的决策;反之,则做出=2的决策。显然这是不合理的,因为在这个例子中,由于P(1)P(2),如果仅仅按照先验概率来决策,就会把所有的林地类型都归于林地类别中。这里,为简单起见,我们假定特征向量是一维的(即只用一个特征),d=1。在自然状态下观察的类别条件概率分布应为已知,如图3.1所示。Px|1Px|2图3.1类条件概率密度P(x|1)是正常状态下细胞特征观察x的类条件概率密度:P(x|2)是异常状态下细胞特征观察x的类条件概率密度。设P(i|x)为后验概率,则有贝叶斯公式:P(x|i)p(i) p(x|j)p(j) P(i|x)= 可
29、见,贝叶斯公式实际上是通过观察x(记被识别林地特征的测量)把状态的先验概率转化为状态的后验概率P(i|x),见图3.2。1.0P1|x0.80.60.40.2P2|x0.0 图3.2 后验概率这样,基于最小错误概率的的贝叶斯决策规则为:If P(1|x) P(2|x) x1If P(1|x) P(x|2)P(2)P(1)12 则x若l(x)=(3) P(1)P(2) x12h(x)=-lnl(x)=-lnp(x|1)+lnp(x|2)(4)对上式l(x)取自然对数的负值,可写为以上4种不同形式的实质是一样的,用最后一个在计算机时可能会方便一点。4.2 信息提取及特征分析4.2.1特征选取如果要
30、建立一个识别不同种类对象的系统,首先必须确定应测量对象的哪些特性以产生描述参数。被测量的这些特殊的属性称为对象的特征,而所得的参数什组成了每个对象的特征向量。适当的选择特征是很重要的,因为在识别对象是它是惟一的依据。几乎没有解析方法能够指导特征的选取。很多情况下凭直觉的引导可以列出一些可能有用的特征表,然后用特征排序方法计算不同特征的相对效率。利用其结果对表进行删减,从而选出若干最好的特征10。良好的特征应具有4个特点:可区别性 对于属于不同类别的对象来说,它们的特征值应具有明显的差异。举例来说,针叶林也阔叶林中叶面是一个好特征,因为针叶林与阔叶林的叶面有显著区别。可靠性 对同类的对象,特征值
31、应比较相近。例如,对树龄不同的阔叶林来说,颜色是一个很好的特征。换句话说,小树与参天大树颜色差别很大,尽管它们都属于阔叶林类。独立性 所用的各特征之间应彼此不相关。树种的直径和重量属于高度相关的特征,因为重量大致与直径的三次方成正比。问题在于这两个特征基本上反映的是相同的属性,即树种的直径大小。虽然相关性很高的特征可以组合起来(例如取均值)以减少噪声干扰,它们一般不应该作为单独的特征使用。数量少 模式识别系统的复杂度随系统的维数(特征的个数)迅速增长。尤为重要的是用来训练分类器和测试结果的样本数量随特征的数量呈指数关系增长。在某些情况下,甚至无法取得足够的样本训练分类器。总之,增加带噪声的特征
32、或与现存特征相关性高的特征实际上会使分类器的分类能力下降,特别是在训练集大小有限的情况下。实际应用中特征提取过程往往包括:先测试一组直觉上合理的特征,然后将其减少成数目合适的最佳集。通常,符合上述要求的理想的特征是很少甚至没有的。4.2.2分类器的设计分类器的设计包括建立分类器的逻辑结构和分类规则的数学基础。通常对每一个所遇到的对象,分类器计算出表示该对象与每类典型之间的相似程度,这个值是该对象特征的一个函数,用来确定该对象属于哪一类。大多数分类器的分类规则都转换成阈值规则,将测量空间划分成互不重叠的区域,每一个类对应一个(或多个)区域。如果特征值落在某一个区域中,就将该对象归入对应的类别中。
33、在某些情况下,某些区域对应于“无法确定”一类。4.2.3分类器的训练一旦分类的基本决策规则确定以后,需要确定划分类别的阈值。一般的做法是用一组已知的对象来训练(training)分类器。训练集是由每个类别中已被正确识别的一部分对象组成的。对这些对象进行度量,并将度量空间用决策面划分成不同的区域,使得对训练样本集的分类准确性最高。当训练分类器时,可以使用简单的规则,诸如将分类错误的总量降低到最小值。如果希望某些错误分类要少于其他的错误分类,可以借助于使用损失函数,对不同的错误分类采用适当的加权。决策规则则变为使分类器操作的整个“风险”达到最低。如果一个训练样本集代表了对象集的总体分布,那么分类器
34、对新的对象操作的性能就和对训练样本集一样。然而,获取足够大的样本集经常是一件费力的事。为了使样本集成为具有代表性的,它必须包括可能遇到的各种类型对象的例子,包括一些很少见的对象。如果样本集未包含某些不常见的对象,那么它就不具有代表性了。如果它包含分类错误,则称为有偏差的样本集。4.2.4分类性能的测量分类器的准确率可以通过直接对一组已知类别的对象的测试集进行分类的结果进行估计。如果该测试集对对象总体具有代表性并且没有错误,则所得到的性能估计是很有用的9。另一种估计性能的方法是使用一组已知对象的测试集,估算每一类别中对象特征的PDF。给出了PDF后,就可以根据分类参数来估算期望错误率了。如果PD
35、F的一般形式已知,这种方法比使用数量有限或不足的测试集计算的方法要好。你可能会觉得可以直接用对训练集的分类性能来评价分类器的整体性能,但这种估计通常是乐观的。较好的方法是使用一个独立的测试集来评价分类器的性能。但这种方法无疑增大了需要预先分类的数据量。如果预先分类的对象代价很高的话,可以使用循环的方法对分类器整体性能进行估计:以每一个对象为测试对象,而数据集中的其他对象作为训练样本训练分类器,并进行测试。当循环结束时,就可以得到分类器整体性能的估计。4.2.5特征选择在模式识别问题中,经常面临的一个问题是,从许多可能的特征中选择一些付诸于度量并呈现给分类器的特征。如前所述,所要提取的应当是具有
36、可区别性、可靠性、独立性好的少量特征。一般而言,人们希望如果特征是有用的话,则当它们被排除在外后,分类器的性能至少应下降。而实际上去掉噪声大的或相关程度高的特征,反而能改善分类器的性能。因此,特征选择可以看作是一个(从最差的开始)不断删去无用的特征和组合有关联的特征的过程,直至特征的数目减少至易于驾驭的程度,同时分类器的性能仍然满足要求为止。例如,从一个具有M个特征的特征集中挑选了较少的N个特征时,要使采用这N个特征的分类器的性能最好。一种不太理想的特征选择方法执行过程如下:对每一种可能的由N个特征组合的子集,训练分类器,然后用各个类别的测试样本进行测试,统计分类器的错分类。根据这些错分类计算
37、分类器总的性能指标,作为一个实例,可以用错误概率的线性求和,其权重取决于错误的严重性。最后,选择一组具有最佳性能指标的N个特征。除了一些非常简单的模式识别问题外,使用这种方法的最大问题自然是计算量大,在实践中往往只能得到足够做一次训练和评价分类器性能的资源,因此在多数实用问题中这种方法是行不通的,必须使用一种开销较小的方案以达到同样的目标。在以下的讨论中,我们考虑将两个特征压缩成一个特征的最简单情况。假设训练样本集中有M个不同类别的样本。令 Nj 表示第j类的样本数,第j类中第i个样本的两个特征分别记为xij 和yij 。首先可以计算每类的每一个特征均值: (1)(2) xj和yj上的联系号(
38、)表示这两个值仅是基于训练样本的估量,而不是真实的类均值。 特征均值就是区别植被类型的一种标志和依据。4.2.6特征方差在理想情况下同一类别中所有对象的特征值应该很相近。第j 类的x特征的方差估值为:(3)而y特征的方差估值为:(4) 特征方差反映每一类林地类型的复杂程度,比如根据特征分辨出是纯林还是混交林等。 4.2.7特征相关系数第j类特征x与特征y的相关系数估计为:(5) 公式中x、y反映两种特征, 则表示相关度(系数)。其把高维空间化为低维空间,即把两个相关因素化为一个因素或舍弃一个因素。它的值的范围为-1到+1。如果该值为0,说明这两个特征之间没有相关性,而接近+1则表明这两个特征相
39、关性很强。值为-1表示任一特征都与另一个特征的负值成正比,因此如果相关系数的绝对值接近1,则说明这两个特征可以组合成一个特征或干脆舍弃其中一个。4.2.8类间距离类间距离主要用于分类,例如林地与草地之间的类间距离必定小于林地与湖泊之间的类间距离。用来区分两类能力的一个特征指标是类间距离,即类均值的方差归一化间距。对x特征来说,第j类与第k类之间的类间距为:(6)显然,类间距离大的特征是好的特征。4.2.9降维降维也是把高维空间化为低维空间,从而降低问题的复杂度。有许多方法可以将两个特征x 与y合成为一个特征z,一个简单的方法是用线性函数: z=ax+by (7)由于分类器的性能与特征幅值的缩放
40、倍数无关,可以对幅值加以限制,如: a2+b2=1 (8)合并到式(7)成为:z=xcos+ysin (9)其中是一个新的变量,它决定x和y在组合中的比例。如果训练样本集中每一对象都对应于二维特征空间(即xy平面)中的一个点,则式(9)描述为所有点在z轴(成x轴成角)上的投影,如图4.3所示。显然应选取使得类间距最大或者满足评价特征质量的其他条件的。图4.34.3解决多类问题的决策树利用线性判别函数设计多类分类器有多种方法11。例如,可以把c类问题化为c-1个两类问题,其中第I个问题是用线性判别函数把属于i类的点同不属于i类的点分开,见图3.4。图4.4 把多类问题转化为多个两类问题111非1
41、非133222也可以定义c个判别函数,然后求这个c个判别函数的最大值以决定待识别的对象所属的类,但这样计算起来非常复杂,所以现在描述决策树。4.3.1决策树的基本概念决策树,又称为多级分类器,是模式识别中进行分类的一种有效方法,对于多类或多峰分布问题,这种方法尤为方便。利用树分类器可以把复杂的多类分类问题转化为简单的分类问题来解决,并采用分级的形式,使分类问题逐步的得到解决,见图1n2n4n5n3t1t 2 t3t4t5t6t73.5。图4.5 决策树示意图一般而言,决策树有一个根节点n1,一些中间节点n和叶节点t组成,每个t对应着一定的类别(不同的t也有可能对应着相同的类别)。决策树的一种简
42、单形式是二叉树。所谓二叉树,就是指除叶节点外,树的每个节点仅分为两个分支,二叉树结构使得分类器的概念简单、直观、便于解释,而且在各个节点上可以选择不同的特征和采用不同的决策规则。因此设计方法灵活多样,便于利用先验知识,从而获得一个较好的分类器16。4.3.2决策树设计的基本考虑一个性能良好的决策树,应该有小的错误率和低的决策代价。在设计时,应该主要考虑以下几个问题:(1) 选择一个合适的树结构,即合理安排树的节点和分支;(2) 确定在每个非终止节点上要使用的特征;(3) 在每个非终止节点上选择合适的决策规则。解决了以上3个问题,决策树的设计也就完成了。在林地分类中,可以使用XML数据结构来进行
43、存储,并用递归的方式来查询。下面介绍先序遍历二叉树。遍历是对树的一种最基本的运算,所谓遍历二叉树,就是按一定的规则和顺序走遍二叉树的所有结点,使每一个结点都被访问一次,而且只被访问一次。由于二叉树是非线性结构,因此,树的遍历实质上是将二叉树的各个结点转换成为一个线性序列来表示。 设L、D、R分别表示遍历左子树、访问根结点和遍历右子树, 则对一棵二叉树的遍历有三种情况:DLR(称为先根次序遍历),LDR(称为中根次序遍历),LRD(称为后根次序遍历)。先根次序遍历的递归定义若二叉树为空,则返回;否则,依次执行以下操作:访问根结点;按先根次序遍历左子树;按先根次序遍历右子树;返回。例:图4.6为表
44、示表达式 ()/的二叉树。图4.6二叉树图先序遍历此树时,首先访问根结点,得到字符。继而访问结点的左子树,按递归定义,先访问子树的根结点,得到字符。类推访问结点的左子树,此时只有叶子。得到叶子后,访问叶子父结点的右子树,得到右子树的根结点字符。再访问结点的左子树,得到叶子字符后,访问字符父结点的右子树,得到右子树根结点字符,。先序遍历完整棵树,得到序列为:/ 这就是表达式的前缀表示或称波兰表示。现在举一个实际的例子表示先序遍历二叉树实现林地分类的具体过程。在介绍这个例子之前先介绍:(1)比值植被指数(RVIRatio Vegetation Index)由于可见光红波段(R)与近红外波段(NIR)对绿色植物的光谱响应十分不同。两者简单的数值比能充分表达两反射率之间的差异。比值植被指数可表达为:RVI=DNNIRDNR或 RVI=NIRR式中:DN为近红外、红波段的计数值(灰度值);为地表反射率,也可通过两波段的半球反射率表示,简单表示为NIR/R。对于绿色植物叶绿素引起的红光吸收和叶肉组织引起的近红外强反射,使其R与NIR值有较大的差异,RVI值高。而对于无植被地面包括裸土、人工