1、1 引言1 课题的提出以及研究意义使计算器具有人类的感知的能力,能够识图认字,能听话和说话,能与人们自然的进行信息交互,是人们长期以来的梦想。经过二十余年的奋斗,这些梦想已逐渐部分成真。赋予计算机识图认字的智能,能够解脱人们将汉字输入计算机的繁重劳动,克服计算机汉语信息的汉字输入困难的问题,对我国信息化发展更具有特殊重要的价值。随着计算机技术、通信技术、多媒体技术以及Internet的迅速发展,人们越来越深刻地感受到了计算机处理事情的便捷。提取并识别图像中的文字,在图像数据库的组织与管理、视频索引、公交、交通、旅游、摄影等方面将有着极其广泛的应用。随着电力系统的规模增大,电力设备也越来越多,且
2、设备分布具有跨地域性的特点,因此怎样管理维护这些设备,并可随时查看这些设备的信息成为一个急需解决的问题。 图像中往往包含着丰富的文字信息,若能将图像中的文字进行自动检测、分割、提取和识别,则对图像高层语义内容的自动理解、索引和检索非常有价值。因此,90年代,随着多媒体技术的发展以及对基于内容的多媒体检索的需求,图像中的文字获取又逐渐成为研究热点之一。电力设备标牌图像中的文字获取对图像识别、检索有重要意义。从电力设备标牌图像中提取文字需要首先定位包含文字的图像区域,由于电力设备标牌中的文字在字体、大小、对齐方式和排列上变化多端,文字背景复杂,而许多应用场合还要求算法具有一定处理速度,这些都使得从
3、其图像中有效地提取文字变得困难,对其深入研究很有意义。电力设备标牌图像中有丰富的文字信息,对图像中的文字信息的提取将是图像处理方面研究的一个重要方向。在电力系统中,电力设备种类繁多,通过对设备图像的采集,识别出电力设备标牌的文字信息,建立设备信息图文库,对电力设备的年检、统计等工作更加便捷、高效,对提高电力系统的设备管理水平非常重要。在电力管理上的技术需求越来越引起人们的关注和期待,而在此方向的技术研究目前还是一个空白点,因此,研究设备图片中的字符识别技术具有广泛的实际应用价值和重要的学术意义。2 相关技术研究现状目前电力设备标牌识别的研究还是一个空白点。其相关技术包括车牌识别技术和对图像中的
4、文字识别技术1。电气标牌字符的识别研究还很滞后,目前仍没有相对成熟的系统。随着电力系统的规模增大,电力设备也越来越多,怎样管理维护这些设备,是我们现在需要努力研究并有待应用的一门技术。当前,图像作为一种重要的可视化信息媒体,已被应用到几乎所有的科学技术领域和日常生活的各个方面。随着图像信息的快速增长,从海量的图像资源中快速高效地提取并识别信息已成为人们迫切的需求。因此,20世纪90年代,基于内容的图像检索(CBIR)2技术应运而生,从可视化角度开辟了一条更为直观 、准确的途径,并很快成为智能信息处理领域的研究热点。如今牌照定位是从一张图片中找到标牌的位置,将包括牌照的子图像从这张图片中切割出来
5、。主要有边缘特征法3、神经网络法4,5、基于灰度的检测方法、基于数学形态学法、基于颜色的分割方法、基于区域特征的方法、小波变换的方法等。文字识别技术已经广泛应用到了各个领域中,它作为计算机智能接口的重要组成部分,在信息处理领域中可以大大提高计算机的使用效率。字符识别的对象是汉字、字母和数字。我国牌照的独有的特点是包括汉字的识别。汉字因为其结构复杂,使得识别过程有别于数字和字母。目前主要的字符识别方法有:模板匹配法、统计特征字符识别法、结构特征字符识别法、人工神经网络法。模板匹配对噪声比较敏感,并对字符的字体变化具有不适应的特点。基于统计特征的字符识别法对于形近字符区分能力弱,而且需要寻找特征,
6、特征有时随图像变化而失效。结构特征的描述和比较要占用大量的存储和计算资源,因此算法在实现上相对复杂、识别速度慢。神经网络法也存在找寻特征和计算量大的问题。光学字符识别(OCR)技术是计算机自动、高速地辨别纸上的文字,并将其转化为可编辑的文本的一项实用技术。它是新一代计算器智能接口的一个重要组成部分,也是模式识别领域的一个重要分支。因此,在电力标牌的字符识别中,OCR技术也得到了广泛的应用,是其进行识别不可或缺的技术力量。Lienhart等6,7先后开发出两个视频中的文字检测、分割和识别系统。这两个系统都是利用文字的单色性相对于背景的高对比度和视频字幕的简单纹理来进行图像分割。近几年,国内学者也
7、开始关注并积极投身到电力设备标牌的字符检测领域来,但是都仅限于在进行基于内容的多媒体检索的研究时,附带地介绍了图像和视频中的文字获取,并没有进行系统深入的研究,也没有开发出相应可行的系统。如何识别图像中的文字仍然是一个有待研究解决的问题。3 本课题主要内容电力设备标牌字符识别涉及到的技术和车牌识别技术有些相似处,车牌识别技术已经较为成熟,但是,电力设备标牌识别与之有很多不同之处。主要包括:(1)图像的预处理技术。标牌中有很多钢印信息,通过二值化8,9提取标牌特征时,需要完整的提取其特征量。而车牌上的信息在提取时不存在上述问题。(2)电力设备标牌中的信息识别技术。标牌中的字符很多,尤其是所涉及的
8、汉字比较丰富,而车牌中字符构成比较简单。本文对电力系统中设备标牌中的字符识别技术进行了研究,对设备标牌中的字符识别系统的每一个模块进行了研究及实现。电力设备图片在识别前首先需要对图像进行预处理,以更好的提取标牌中的信息。其次,分割图像。最后进行标牌上的字符识别。因此,本课题主要研究内容为:(一)电力设备标牌的图像预处理方法的研究。采集到的设备图片不可避免的会受到噪声的污染,需要对设备图片进行处理以及修正,突出图片中的标牌信息,增强图像,以便更好的进行字符识别。(二)分析电力设备标牌特点,结合设备标牌特点研究适合标牌图像的二值化方法。(三)研究边缘检测算子并对图像进行边缘检测处理,分析实验结果,
9、并进行图像的分割。(四)应用光学字符识别(OCR)12,13,14,15技术和字符识别技术进行电力设备标牌的识别16,17,18,19。在拟采用的研究手段上分别从设备图像预处理、标牌的二值化算法以及标牌图像的分割和字符的识别四个方面进行阐述:1)进行图像的滤波处理、经灰度直方图灰度修正以及灰度图像对比处理把我们感兴趣的部分突出出来。2)为了进行有效的识别,采用阈值法进行标牌图像的二值化。通过对其标牌二值化,提取标牌图像中的钢印信息。3)进行标牌图像的边缘检测和分割。4)采用基于光学字符识别(OCR)的技术以及MATLAB软件算法完成对标牌字符的识别。2 电力设备标牌图像预处理电力设备标牌图像由
10、于背景的灰度值介于标头字符的灰度值和钢印灰度值之间,所以用单一的一个阈值无法将标头字符和钢印同时提取出来。为了进行有效的识别,首先需要对数字图像进行处理。 二维物理图像被栅格划分成小的区域,这些小的区域称为数据元素(Picture Element),简称像素。对每个像素进行采样和量化,得到相应的整数值。这个值代表像素的明暗程度和颜色深浅等信息。每个引入噪声。图像可以分为二值图像、灰度图像、彩色图像。灰度图像只含亮度信息,不含彩色信息。灰度值用8位(Bit)表示,从0到255,一共256级,从黑(0)到白(255)。二值图像就只有代表黑白两色的两个灰度值,归一化后灰度值是黑(0)到白(1)。彩色
11、图像每个像素值都有三个分量,分别表示红色(R),绿色(G)和蓝色(B)。每个分量又按各分量的灰度分为0到255共256级。根据RGB的不同组合就可以表示256 256256种颜色,也就是常说的24位真彩色。2.1 图像的读取clear;close all;I=imread(bae.jpg);imshow(I);(结果见图2(a) 2.2 去噪在图像形成、传输或变换的过程中,由于受到其它客观因素诸如系统噪声、曝光不足或过量、相对运动等影响,获取图像往往会与原始图像之间产生某种差异(称为降质或退化)。退化后的图像通常模糊不清或者经过机器提取的信息量减少甚至错误,因此必须对其采取一些手段进行改善。图
12、像增强技术正是在此意义上提出的,目的就是为了改善图像的质量。图像增强根据图像的模糊情况采用各种特殊的技术突出图像中的某些信息,削弱或消除无关信息,达到强调图像的整体或局部特征的目的。图像增强尚没有统一的理论方法。利用巴特沃斯(Butterworth)低通滤波器对受噪声干扰的图像进行平滑处理:I=imread(1.jpg);imshow(I);J1=imnoise(I,salt & pepper); % 叠加椒盐噪声figure,imshow(J1);f=double(J1); % 数据类型转换,MATLAB不支持图像的无符号整型的计算g=fft2(f); % 傅立叶变换g=fftshift(g
13、); % 转换数据矩阵M,N=size(g);nn=2; % 二阶巴特沃斯(Butterworth)低通滤波器d0=50;m=fix(M/2); n=fix(N/2);for i=1:M for j=1:N d=sqrt(i-m)2+(j-n)2); h=1/(1+0.414*(d/d0)(2*nn); % 计算低通滤波器传递函数 result(i,j)=h*g(i,j); endendresult=ifftshift(result);J2=ifft2(result);J3=uint8(real(J2);figure,imshow(J3); % 显示滤波处理后的图像 (结果见2(b),2(c)
14、) 图2(b) 加噪后图像图2(a) 电力设备标牌图像 图2(c) 滤波后图像23 图像的灰度化灰度图像(gray image)是每个像素只有一个采样颜色的图像,这类图像通常显示为从最暗黑色到最亮的白色的灰度,尽管理论上这个采样可以任何颜色的不同深浅,甚至可以是不同亮度上的不同颜色。灰度图像与黑白图像不同,在计算机图像领域中黑白图像只有黑色与白色两种颜色;但是,灰度图像在黑色与白色之间还有许多级的颜色深度。灰度图像经常是在单个电磁波频谱如可见光内测量每个像素的亮度得到的,用于显示的灰度图像通常用每个采样像素8位的非线性尺度来保存,这样可以有256级灰度(如果用16位,则有65536级)。像素有
15、两个属性:二维坐标位置和像素值。位置由行和列两格坐标决定。像素值反映该点的亮度、颜色等信息,其主要形式是灰度,反映明暗程度。灰度值一般是整数,其位数越长,像素值的取值范围就越大,量化后的灰度阶数就越多,也就是灰度分辨率越高,得到的图像灰度变化越接近原始图像。I=imread(bae.jpg);I2=rgb2gray(I);imshow(I);figure,imshow(I2);( 见图2(d) Stru=strel(disk,16);Back=imopen(I,Stru);(数学形态学开操作估计背景亮度)从原始图像中减去背景图像:I2=imsubtract(I,Back);figure,ims
16、how(I2);(图2(e) 图2(e) 减去背景显示内容后的图图2(d) 灰度图像2.4 直方图灰度级的直方图是反映图像中的灰度级与出现这种灰度的概率之间的关系的图形。它给出了一幅图像的概貌的描述,从直方图中的灰度级分布还可以看出图像的灰度分布特性。2.4.1 显示灰度直方图:i=imread(bae.jpg);I1=rgb2gray(i);imhist(I1);(图2(f) 灰度变换法增强图像对比度:J=imadjust(I1,0.5 0.9,0 1); figure,imshow(J);(图2(g)灰度变换后的直方图:figure,imhist(J); (图2(h) 2.4.2 直方图均
17、衡化:J,T=histeq(J3,64);扩展到255个,但是只有64个灰度级。figure,imshow(J); (图2(i) 图2(g) 变换后图像图2(f)直方图 图2(i) 均衡化后图像图2(h) 变换后图像的直方图figure,imhist(J); (图2(j)转移函数的变换曲线:figure,plot(0:255)/255,T); (图2(k)J=histeq(J3,32);figure,imshow(J);扩展到255,但是只有32个灰度级。(图2(l) 图2(j) 均衡化后直方图图2(k) 转移函数的变换曲线figure,imhist(J); (图2(m)图2(l) 均衡化后图
18、像05010015020025005001000150020002500300035004000图2(m) 均衡化后直方图2.5 种子填充技术种子填充和边缘提取是一对可以互求的操作。知道区域可以求边界,同样,知道了边界可以填充得到区域。也就是说,可以使用结构元素通过对要填充的图进行膨胀、求补和求交操作来实现种子填充。直观地看,种子填充就是指定一个背景点作为起始点,不断地把与之相连的背景点的值由0变1,知道达到物体的边界。种子填充对去除图像中不规则的形状很有效。如一张照片中含有一个圆,但由于反光的原因,图像看起来是一个圆环。在进一步处理之前,可以利用种子填充把圆环恢复成一个圆。MATLAB图像处
19、理工具箱中的imfill函数用来对目标封闭图像进行种子填充,它的语法格式为: BW=imfill(BW1,holes);它表示填充图像的空洞,该空洞是边缘图像不能达到的图像的像素的集合。此技术在后面的识别过程中有所应用2.6 本章小结在这一章,分别对图像进行了去噪和直方图均衡化等预处理。并且可以从结果看出,虽然去噪后的图像效果并不是很明显,但是在经过直方图均衡化以后的图像中的字符信息最终能够得到很好的清晰化处理,因此,这种预处理是有效可行的。3 电力设备标牌图像的二值化及其分割3.1 标牌图像的二值化二值化处理就是用计算出来的阈值把原始图像分为对象和背景两部分。二值化的阈值选取主要分为整体阈值
20、法、局部阈值法和动态阈值法3类。阈值的选择是一个比较复杂的问题。有的可以由计算机自动选择,有的则需人工干预。二值图像是指整幅图像画面内仅有黑、白二值的图像,在它们之间不存在其它灰度的变化。在数字图像处理中,二值图像占有非常重要的地位。在某些情况下图像本身是有灰度的,我们也设法使它变成二值图像再进行处理(即灰度图像的二值化)。这是考虑到在实用的图像处理系统中,要求处理的速度高、成本低、信息量大的浓淡图像处理的花销太大。此外,二值化后的图像能够用几何学中的概念进行分析和特征描述,比灰度图像优势大得多。二值化的方法有很多,但又没有对任何对象都普遍适用的方法,必须根据具体的对象而定。二值化的关键是要找
21、到合适的阈值t来区分目标和背景。设原灰度图像为,二值化后的图像为,二值化的过程表示如下: =或者 =还可以将阈值设置为一个灰度范围t1,t2。凡是灰度在范围内的图像灰度级都变成1,其它像素灰度级都变为0,那么二值化后的图像为:=由以上二值化公式可以看出,阈值的选取直接影响处理的结果。如果阈值选得过高或过低,会出现两种相反的情况:一是过多的目标被误认为是背景;二是影响二值化后图像中的目标的大小和形状,甚至会使目标丢失。二值化效果的好坏直接影响到系统的性能。目前提出了好多算法。大体上有全阈值法和局部阈值法。阈值的选择方法主要有:最小误差法、最大方差法、平均灰度值法。其中最小误差法包括Ptile方法
22、和双峰(2Mode)方法。Ptile预先给定t,当灰度值大于或等于m的象素占全体象素的比率为t时,取m为阈值;某图像的直方图具有2个峰:一个为背景,另一个为对象,分割两个区域的阈值m由两个峰值的谷对应的灰度值决定,通常把这种阈值的选择叫做2-Mode方法。全阈值法是指对整幅图选取单一的阈值来进行二值化。局部阈值法是根据局部信息确定局部阈值来二值化图像。 目前对电力标牌图像的处理与识别的研究比较少。标牌图像有其自身的特点,对其特点的分析将有助于对电力标图像的处理和识别。标牌图像具有以下几个特点:(1)标牌上的字符信息包括汉字、字母以及数字,字符种类较多。(2)标牌上有体现设备指标的钢印信息,其灰
23、度值较高。1)阈值二值化图像J=find(I=125);I(J)=255;title( 图像二值化( 域值为125 );figure(2),imshow(I);(图3(a)clc;I=imread(bae.jpg);bw=im2bw(I,0.5);选取阈值为0.5figure(3);imshow(bw);显示二值图像(图3(b)2)采取全阈值方法进行二值化:i=imread(bae.png); level=graythresh(i);BW=im2bw(i,level); figure,imshow(BW) (图3(c) 图3(b) 阈值二值化图像图3(a) 阈值二值化后图像3)采用双阈值法进行
24、二值化:wmf10=imread(1.jpg); %读取图像wmf1=wmf10(:,:,1);%由于是灰度图像,三个页面相同,故只对第一页面数据操作figure(1);subplot(121);imagesc(wmf1);colormap(gray); %显示原图象h=fspecial(average,3); wmf1_filted=uint8(round(filter2(h,wmf1); %均值滤波th1=0.94*max(max(wmf1); %确定阈值th1wmf1th1=(wmf1_filtedth1); %按阈值th1二值化wmf1th1_label numth1_label=bw
25、label(wmf1th1,8);rc=zeros(2,numth1_label); %选择种子点坐标for i=1:numth1_label r c=find(wmf1th1_label=i); rc(1,i)=r(2);rc(2,i)=c(2);endr=rc(1,:);c=rc(2,:);coe=1.4;th2=mean2(wmf1)+coe*std2(wmf1); %确定阈值th2wmf1th2=(wmf1th2); %按阈值th2二值化wmf1th2_select=bwselect(wmf1th2,c,r,8); %保留含有种子点的前景区域subplot(122);imagesc(w
26、mf1th2_select);colormap(gray); (图3(d)图3(d) 双阈值后图像 图3(c) 全阈值后图像以上结果可以看出:标牌采用双阈值的结果并没有全阈值的效果好,因此,采用全阈值图像进行后一阶段分割和识别。3.2 边缘检测图像的边缘是指图像局部区域亮度变化显著的部分。该区域的灰度剖面一般可以看作一个阶跃,即从一个灰度值在很小的缓冲区域内急剧变化到另一个灰度相差较大的灰度值。图像的边缘部分集中了图像的大部分信息,图像边缘的确定与提取对于整个图像场景的识别与理解是非常重要的,同时也是图像分割所依赖的重要特征。边缘检测主要是图像的灰度变化的度量、检测和定位,自从1959提出边缘
27、检测以来,经过五十多年的发展,已有许多种不同的边缘检测方法。边缘检测的基本思想是先利用边缘增强算子,突出图像中的局部边缘,然后定义像素的“边缘强度”,通过设置阈值的方法提取边缘点集。但是由于噪声和图像模糊,检测到的边界可能会有间断的情况发生。所以边缘检测包含以下两项内容:1)用边缘算子提取边缘点集。2)在边缘点集合中去除某些边缘点,填充一些边缘点,将得到的边缘点集连接为线。一、图像边缘检测的基本步骤:(1)滤波。边缘检测算法主要是基于图像强度的一阶和二阶导数,但导数的计算对噪声很敏感,因此必须使用滤波器来改善与噪声有关的边缘检测器的性能。需要指出的是,大多数滤波器在降低噪声的同时也导致了边缘强
28、度的损失。因此,增强边缘和降低噪声之间需要折中。边缘检测主要基于导数计算,但受噪声影响。而滤波器在降低噪声的同时也导致边缘强度的损失。(2)增强。增强边缘的基础是确定图像各点邻域强度的变化值。增强算法可以将邻域(或局部)强度值有显著变化的点突显出来。边缘增强一般是通过计算梯度幅值来完成的。增强算法将邻域中灰度有显著变化的点突出显示。一般通过计算梯度幅值完成。(3)检测。在图像中有许多点的梯度幅值比较大,而这些点在特定的应用领域中并不都是边缘,所以应该用某种方法来确定哪些点是边缘点。最简单的边缘检测判据是梯度幅值阈值判据。但在有些图像中梯度幅值较大的并不是边缘点。最简单的边缘检测是梯度幅值阈值判
29、定。(4)定位。如果某一应用场合要求确定边缘位置,则边缘的位置可在子像素分辨率上来估计,边缘的方位也可以被估计出来。二、 Canny算子边缘检测基本原理(1)图像边缘检测必须满足两个条件:一是能有效地抑制噪声;二是必须尽量精确确定边缘的位置。(2)根据对信噪比与定位乘积进行测度,得到最优化逼近算子。这就是Canny边缘检测算子。(3)先平滑后求导数的方法。三、 Canny算子边缘检测算法(1)用高斯滤波器平滑图像。(2)用一阶偏导的有限差分来计算梯度的幅值和方向。(3)对梯度幅值进行非极大值抑制。(4)用双阈值算法检测和连接边缘。Canny算子检测边缘的方法是寻找图像梯度的局部极大值,梯度是用
30、高斯滤波器的导数计算的。Canny 方法使用两个阈值来分别检测强边缘和弱边缘,而且仅当弱边缘与强边缘相连时,弱边缘才会包含在输出中。因此,此方法不容易受噪声的干扰,能够检测到真正的弱边缘。四、 使用canny算子进行边缘检测:clear;close all;i=imread(bae.bmp);imshow(i);Threshold=graythresh(i);BW=im2bw(i,Threshold);figure,imshow(BW);i=imread(bae.bmp);BW1=edge(BW,canny,0.2);figure,imshow(BW1); (图3(e)图像取反:figure,
31、imshow(BW1); (图3(f) 图3(f)边缘检测取反图3(e)canny算子边缘检测3.3 电力设备标牌的图像分割3.3.1 阈值分割:I3=im2bw(I2,140/255);figure,imshow(I3); (图3(g) 图3(g) 阈值分割 1.Hough变换Hough变换是图像处理中从图像中识别几何形状的基本方法之一。Hough变换的基本原理在于利用点与线的对偶性,将原始图像空间的给定的曲线通过曲线表达形式变为参数空间的一个点。这样就把原始图像中给定曲线的检测问题转化为寻找参数空间中的峰值问题。也即把检测整体特性转化为检测局部特性。比如直线、椭圆、圆、弧线等。2. Hou
32、gh变换的基本思想设已知一黑白图像上画了一条直线,要求出这条直线所在的位置。我们知道,直线的方程可以用y=k*x+b 来表示,其中k和b是参数,分别是斜率和截距。过某一点(x0,y0)的所有直线的参数都会满足方程y0=kx0+b。即点(x0,y0)确定了一族直线。方程y0=kx0+b在参数k-b平面上是一条直线,(你也可以是方程b=-x0*k+y0对应的直线)。这样,图像x-y平面上的一个前景像素点就对应到参数平面上的一条直线。我们举个例子说明解决前面那个问题的原理。设图像上的直线是y=x, 我们先取上面的三个点:A(0,0), B(1,1), C(22)。可以求出,过A点的直线的参数要满足方
33、程b=0, 过B点的直线的参数要满足方程1=k+b, 过C点的直线的参数要满足方程2=2k+b, 这三个方程就对应着参数平面上的三条直线,而这三条直线会相交于一点(k=1,b=0)。同理,原图像上直线y=x上的其它点(如(3,3),(4,4)等)对应参数平面上的直线也会通过点(k=1,b=0)。这个性质就为我们解决问题提供了方法,就是把图像平面上的点对应到参数平面上的线,最后通过统计特性来解决问题。假如图像平面上有两条直线,那么最终在参数平面上就会看到两个峰值点,依此类推。简而言之,Hough变换思想为:在原始图像坐标系下的一个点对应了参数坐标系中的一条直线,同样参数坐标系的一条直线对应了原始
34、坐标系下的一个点,然后,原始坐标系下呈现直线的所有点,它们的斜率和截距是相同的,所以它们在参数坐标系下对应于同一个点。这样在将原始坐标系下的各个点投影到参数坐标系下之后,看参数坐标系下有没有聚集点,这样的聚集点就对应了原始坐标系下的直线。3. Hough变换:程序见附录A,结果图如下图3(h)参数空间: 图3(h) Hough变换参数空间3.3.2 图像分割:i=I(35+1:42,1:355,:); figure;imshow(i); (图3(1)i=I(84+1:20,1:268,:); figure;imshow(i); (图3(2)i=I(84+1:20,268:420,:); fig
35、ure;imshow(i); (图3(3)i=I(102+1:19,1:268,:); figure;imshow(i); (图3(4)依此方法,可以把此电力设备标牌分割成很多各自独立又简单的小模块,依次为如下结果(图3(5)、3(6)、3(7)、3(8): 图3(2) 分割结果2图3(1) 分割结果1图3(3) 分割结果3 图3(4) 分割结果4 图3(6) 分割结果6图3(5) 分割结果5 图3(8) 分割结果8图3(7) 分割结果7 对其中模块需要的具体数字等分割开来,用以分别识别: i=I(6+1:15,1:20,:); figure;imshow(i); 图3(10)字母分割结果图3
36、(8) 分割数字结果图3(9)分割数字结果在图像的分割阶段,虽然Hough变换的结果并不理想,但是不予采用的情况下还是得到了比较理想的分割结果,为后来的字符识别必要的好的基础。 3.4 本章小结 在本章中,对电力设备标牌图像进行了二值化以及图像的分割。虽然采用了预计比较理想的双阈值法进行了二值化,但是结果并没有全阈值的结果好,因此,对于此图像,采用全阈值才是最可行的二值化方法。边缘检测过程采用了性能最好的Canny算子进行,并且结果良好。图像分割过程只是采用了简单的MATLAB算法,结果即可得到,因此,即使Hough变换非常不适合此图像没有提取出适合的直线特征 ,还是可以从处理的比较好的图像中
37、直接分割出有效的字符图像。 4 电力设备标牌的字符识别4.1 OCR软件识别一、 OCR简介所谓OCR (Optical Character Recognition光学字符识别)技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。 由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。OCR识别率决定因素:1.图片的质量,一般建议150dpi以上 。2.颜色,一般对彩色识别很差,黑白
38、的图片较高,因此建议ocr的为黑白tif格式 。3.最重要的就是字体,如果是手写识别率很低。近期,一些大公司意识到OCR的好处,开始在自己的产品中捆绑OCR技术。Google已经启动OCR软件的开发工作,在它的招聘启示中这样写道:“Google currently reads almost every web page in the world. Come help us read all the printed material as well!”(Google现在已经能够“阅读”世界上几乎所有网页,你的到来将让Google阅读所有印刷信息!)。随着google启动OCR开发工作,OCR应用
39、进入了全面爆发时代。二、 OCR对电力设备标牌图像的识别结果:读取图像以及识别结果:图4.2 OCR识别效果图4.1 OCR读取图像 由以上结果可以初步看出,OCR只是对汉字的识别比较敏感,加上OCR对黑白颜色识别结果较好,可以接着把二值图像分割的小模块进行分别识别。图4.5 识别3 图4.4 识别2图4.3 识别1 图4.8 识别6图4.6 识别4图4.7 识别5 4.2 数字识别针对标牌图片中的数字进行识别采用软件MATLAB算法 根据数字轮廓特征识别来实现。由于受噪声和随机污点的干扰,以及二值化和粘连字符处理会引起字符的变形。为了尽量减少这种变形对信息特征的干扰,或者从变形的字符中提取可
40、靠的特征信息,将字符的整体轮廓分解为顶部、底部、左侧和右侧4个方向的轮廓特征来描述,使得当其中某部位的笔划发生变形时,不会改变或者减少对其他部位特征的影响。(1)字符轮廓定义左轮廓(LP(k),k=1,2,M)定义为字符最左侧边界像素点的水平方向坐标值。同理,右侧轮廓(RP(k),k=1,2,M)定义为字符最右侧边界像素点的水平方向坐标值。相应地,顶部轮廓(TP(k),k=1,2,N)定义为字符最高边界像素点的垂直方向坐标值。底部轮廓(BP(k),k=1,2,N)定义为字符最低边界像素点的垂直方向坐标值。(2)结构基元以及基元的检测基元共有5个分别为:左斜(L)、右斜(R)、竖直(V)、圆弧(
41、C)和突变(P)。假设PD(k)表示某侧轮廓的一阶微分,k=1,2,K,SL,SV和SR分别为检测到的PD(k)大于零,等于零和小于零的个数,PT、RT和LT为正整数,则:若PD(k)PT,则在k处检测到结构突变(P);若SLLT,SRLT,SRRT,则检测到结构为左斜(L); 若SLRT,则检测到结构为右斜(R); 若SLLT,SRRT,则检测到结构为圆弧(C)。(3)数字字符的识别算法将数字字符的顶部、左右两侧的局部轮廓结构特征和轮廓统计特征组合成特征向量,用以描述10个数字。根据特征向量,采用结构语句识别算法识别底部残缺和完整的数字字符。由于底部特征丢失,会改变左右两侧的部分结构特征,但
42、不会影响顶部特征,因此特征描述和结构匹配都从顶部轮廓特征开始。局部结构轮廓特征和统计特征描述数字:0:TS=C, Size(LS)=Size(RS)=1;S2M-ST。式中,Size()表示结构集合中有几个结构元素。1:WmaxH/2。2:TS=C,LS(1)C,LS(Ln-1)=P,LS(Ln)=L。式中,Ln表示左侧轮廓的结构元素个数。3:TS=C,LS(1)C,PLS;或 TS=V,RS=C。4:TS(1)=L,PTS,RS=V。5:TS=V,PRS。6:TS=C,PRS,Size(LS)=1;或 TS(1)=L,VRS。7:TS=V,PLS,Size(RS)=1。8:TS=C,Size
43、(LS)=Size(RS)=1;S2M-ST。9:TS=C,LS(1)=C,LS(2)=P。(4)MATLAB在图像处理方面的应用 MATLAB软件功能强大,语言简洁易学,人机界面友好,工具箱具有丰富的技术支持。MATLAB可以进行图像的读取、图像格式的转换、图像增强、直方图的显示和均匀化以及边缘检测甚至字符的识别。以下是对数字字符的识别结果,其程序参见附录B、C。 图4(c) 上轮廓图4(b) 左轮廓图4(a) 读取字符4 图4(d) 右轮廓图4(e) 宽度 图4(f) 二值化图4(f) 种子填充程序识别结果:Digit =4t = 0.04374.3 GUI界面设计4.3.1 GUI介绍1.定义 图形用户界面(Graphical User Interface,简称 GUI,又称图形用户接口)是指采用图形方式显示的计算机操作用户界面。与早期计算机使用的命令行界面相比,图形界面对于用户来说在视觉上更易于接受。 如Windows是以图形界面方式操作的,因为你可以用鼠标来点击按钮来进行操作,很直观。而DOS就不具备GUI