基于神经网络的网络信息挖掘的应用.doc可修改原格式下载

资源描述

1、基于神经网络的网络信息挖掘的应用摘要：人工神经网络是二十世纪科学技术发展取得的重大成果之一，是人类认识自然道路上的一座里程碑。一门影响巨大、意义深远的科学技术，其发展过程必然揭示了科学发展的基本规律以及影响其发展的主要原因。本文简要介绍了人工神经网络的发展过程和基本特征，从神经网络具有自学习能力、联想存储能力、告诉寻找优化解的能力三个方面论述了其特点和优越性。然后本文针对网络文本挖掘，实现了网络信息挖掘中的数据预处理问题，包括中文分词和特征提取。针对网络信息文本挖掘的实际应用问题，提出将人工神经网络应用在网络信息挖掘技术当中，以实现文本挖掘中的分类功能，并将其实现。最后本文探讨和分析了人工神经

2、网络的发展前景。关键词：人工神经网络；模式识别；神经计算；网络信息挖掘；文本分类目录基于神经网络的网络信息挖掘的应用2目录31 人工神经网络的发展历程42 人工神经网络的基本特征和优越性52.1 人工神经网络的基本特征52.2 人工神经网络的优越性63 人工神经网络的模型64基于神经网络的网络信息挖掘的应用74.1 web挖掘预处理74.1.1 Web文本挖掘及其一般流程74.1.2 数据预处理技术84.1.3 特征提取算法94.2 改进神经网络算法104.2.1 BP算法训练网络步骤104.2.2 BP算法存在的问题114.2.3改进的BP算法115 人工神经网络的发展前景13结语14参考文

3、献14作为一门活跃的边缘性交叉科学，人工神经网络的研究与应用成为人工智能、认知科学、神经生理学、非线性动力学等相关专业的热点。近十年来，针对神经网络的学术研究大量涌现，它们当中提出了数百种神经网络，涉及联想记忆、自学习与自组织、计算机视觉等众多的方面，取得了引人瞩目的进展。1 人工神经网络的发展历程人工神经网络的研究始于40年代初。半个多世纪以来，经历了兴起、高潮与萧条、高潮及稳定发展的曲折道路。1943年，心理学家McCulloch和数理逻辑学家Pitts建立了神经网络和数学模型，称为MP模型。他们通过MP模型提出了神经元的形式化数学描述和网络结构方法，证明了单个神经元能执行逻辑功能，从而开

4、创了人工神经网络研究的时代。1949年，心理学家D.Hebb提出了突触联系强度可变的假设，根据这一假设提出的学习规律为神经网络的学习算法奠定了基础。60年代，人工神经网络的到了进一步发展，更完善的神经网络模型被提出，其中包括感知器和自适应线性元件等。MMinsky等仔细分析了以感知器为代表的神经网络系统的功能及局限后，于1969年出版了“Pereeptron”一书，指出感知器不能解决高阶谓词问题。他们的论点极大地影响了神经网络的研究，加之当时串行计算机和人工智能所取得的成就，掩盖了发展新型计算机和人工智能新途径的必要性和迫切性，使人工神经网络的研究处于低潮。1982年，美国加州工学院物理学家J

5、Hopfield提出了HNN模型，且易用集成电路实现。80年代以后人工神经网络及其应用，又得到发展。为适应人工神经网络的发展，1987年成立了国际神经网络学会，并决定定期召开国际神经网络学术会议。1988年1月Neural Network 创刊。1990年3月IEEE Transaction on Neural Network问世。我国于1990年12月在北京召开了首届神经网络学术大会，并决定以后每年召开一次。这些为神经网络的研究和发展起了推波助澜的作用，人工神经网络步入了稳步发展的时期。90年代初，诺贝尔奖获得者Edelman提出了Darwinism模型，建立了神经网络系统理论。同年，Ai

6、hara等在前人推导和实验的基础上，给出了一个混沌神经元模型，该模型已成为一种经典的混沌神经网络模型，该模型可用于联想记忆。1991年，Hertz探讨了神经计算理论，对神经网络的计算复杂性分析具有重要意义。1992年，Holland用模拟生物进化的方式提出了遗传算法，用来求解复杂优化问题。1993年方建安等采用遗传算法学习，研究神经网络控制器获得了一些结果。1994年Angeline等在前人进化策略理论的基础上，提出一种进化算法来建立反馈神经网络，成功地应用到模式识别，自动控制等方面。1995年Mitra把人工神经网络与模糊逻辑理论、生物细胞学说以及概率论相结合提出了模糊神经网络，使得神经

7、网络的研究取得了突破性进展。1996年，ShuaiJW等模拟人脑的自发展行为，在讨论混沌神经网络的基础上提出了自发展神经网络。1997、1998年董聪等创立和完善了广义遗传算法，解决了多层前向网络的最简拓朴构造问题和全局最优逼近问题。随着理论工作的发展，神经网络的应用研究也取得了突破性进展，涉及面非常广泛，就应用的技术领域而言有计算机视觉，语言的识别、理解与合成，优化计算，智能控制及复杂系统分析，模式识别，神经计算机研制，知识推理专家系统与人工智能。涉及的学科有神经生理学、认识科学、数理科学、心理学、信息科学、计算机科学、微电子学、光学、动力学、生物电子学等。美国、日本等国在神经网络计算机软

8、硬件实现的开发方面也取得了显著的成绩，并逐步形成产品。自1958年第一个神经网络诞生以来，其理论与应用成果不胜枚举。人工神经网络是一个快速发展着的一门新兴学科，新的模型、新的理论、新的应用成果正在层出不穷地涌现出来。2 人工神经网络的基本特征和优越性2.1 人工神经网络的基本特征人工神经网络是一种由大量处理单元互联组成的非线性、自适应信息处理的系统。它是在现代神经科学研究成果的基础上提出的，试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络的工作过程可分为训练和测试两个阶段。在训练阶段，以一组输入输出模式对作为训练样本集来训练网络。网络训练的过程即是网络参数（包括权值、阈值

9、等）的调整过程。在测试运行阶段，给定新的输入，网络即能计算得到相应的输出。人工神经网络具有四个基本特征：(1) 非线性非线性关系是自然界的普遍特性，大脑的智慧就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态，这种行为在数学上表现为一种非线性关系。具有阈值的神经元构成的网络具有更好的性能，可以提高容错性和存储容量。(2) 非局限性一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征，而且可能主要由单元之问的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子。(3) 非常定性人工神经网络具有自适应、自组织、

10、自学习能力。神经网络不但处理的信息可以有各种变化，而且在处理信息的同时，非线性动力系统本身也在不断变化。经常采用迭代过程描写动力系统的演化过程。(4) 非凸性一个系统的演化方向在一定条件下将取决于某个特定的状态函数。例如能量函数，它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值，故系统具有多个较稳定的平衡态，这将导致系统演化的多样性。2.2 人工神经网络的优越性人工神经网络的特点和优越性，主要表现在以下几个方面：（1）具有自学习能力。例如实现图像识别时，只要先把许多不同的图像样板和对应的识别结果输入人工神经网络，网络就会通过自学习能力，慢慢学会识别类似的图像。自学习能力对于预测有

11、特别重要的意义。预期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益预测，其前途是很远大的。（2）具有联想存储能力。人的大脑是由联想功能的。如果有人和你提起你幼年的同学张某某，你就联想起张某某的许多事情。用人工神经网络的反馈网络就可实现这种联想。（3）具有告诉寻找优化解的能力。建筑一个复杂问题的优化解，往往需要很大的计算量，利用一个针对某问题而设计的反馈型人工神经网络，发挥计算机的高速运算能力，可能很快就找到优化解。人工神经网络是未来微电子技术应用的新领域。智能计算机的构成可能就是作为主机的冯诺依曼计算机与作为智能外围机的人工神经网络的结合。3 人工神经网络的模型人工神经网络模型主

12、要考虑网络连接的拓扑结构、神经元的特征、学习规则等。神经网络的类型可分为前向神经网络、反馈神经网络、随机神经网络及自组织神经网络等。介绍下前向神经网络和反馈神经网络模型。(1) 前向网络网络中各个神经元接受前一级的输入，并输出到下一级，网络中没有反馈，可以用一个有向无环路图表示。这种网络实现信号从输入空间到输出空问的变换，它的信息处理能力来自于简单非线性函数的多次复合。网络结构简单，易于实现。反传网络是一种典型的前向网络。(2) 反馈网络网络内神经元间有反馈可以用一个无向的完备图表示。这种神经网络的信息处理是状态的变换，可以用动力学系统理论处理。系统的稳定性与联想记忆功能有密切关系。Hopfi

13、eld网络、波耳兹曼机均属于这种类型。4基于神经网络的网络信息挖掘的应用网络信息挖掘是数据挖掘与知识发现技术的一个重要应用，网络信息挖掘是指在大量训练样本的基础上，得到数据对象间的内在特性，并以此为依据在网络资源中进行有目的的信息提取。人工神经网络是一种大规模的并行连接机制系统，具有对非线性数据快速建模的能力，能够模拟人脑来处理不完整或模糊的信息，可以通过对训练样本集的反复学习来调节自身的网络结构和连接权值，并对未知的数据进行分类和预测。人工神经网络适合处理非线性和含有噪声的数据，特别适合那些以模糊、不完整的知识和数据为特征的，缺少清晰分析数据的问题。近年来，人工神经网络技术在数据挖掘方面得

14、到很好的应用，越来越多的数据挖掘工具采用了神经网络技术。本章介绍的是基于神经网络的Web挖掘技术。4.1 web挖掘预处理Web挖掘的对象是大量的、异质的、分布的Web文档。由于Web文档本身是半结构或者无结构的，并且缺乏机器可理解的语义，所以需要对其进行Web预处理。4.1.1 Web文本挖掘及其一般流程本文研究的是Web文本挖掘，Web文本挖掘是指借鉴数据挖掘的基本思想和理论方法，从大量非结构化、异构的Web文档的集合D中发现有效的、新颖的、潜在可用的及最终可理解的知识K(包括概念、模式、规则、规律、约束及可视化等形式)的非平凡过程。把D看作输入K看作输出的话，那么Web文本挖掘的过程就是

15、从输入到输出的一个映射：DK。文本挖掘的一般流程如图4.1所示：图4.1 web文本挖掘的一般流程4.1.2 数据预处理技术图4.2 web文本挖掘预处理过程(1)分词处理将中文中的词与词分割开来，就是分词。由于在中文的句子中词语间没有特定的分隔符，因此，在进行词频统计之前要先对文档进行分词处理。中文自动分词的方法主要有以下3个，基于规则的分词方法、基于统计的分词方法和基于理解的分词方法。本文主要介绍的是基于规则的分词方法。基于规则的分词方法又叫做机械分词方法，即按照一定的规则将待分析的汉字串与一个“充分大的机器词典中的词条一一进行匹配，若在词典中找到某个字符串，则匹配成功，即识别出了一个词。

16、(2)文本特征表示文本表达了巨大的、丰富的信息，但是要把这些信息编码为一种标准形式是非常困难的。文本挖掘中的文本特征表示是基于自然语言处理和统计数据分析的，对从文本中抽取出的特征项进行量化，以一定的特征项表示目标信息。在文本分类或聚类时只需对这些特征项进行操作，就能实现对非结构化的文本的处理，利用量化后的特征项，文本可以表示成为概率模型、布尔模型、矢量模型等，这是一个典型的非结构化的对象向结构化转化的处理步骤。矢量空间模型的基本思想：文本文档看成是由一组特征项(T1，T2，T3Tn)构成的，对于每一特征项(Ti)，都根据Z在文档中的重要程度给它赋予一定的权值Wi，可以将其看成一个n维坐标系，

17、(W1，W2，W3Wn)为其对应的坐标值，这样由特征项(T1，T2，T3Tn)分解而得的正交词条矢量组就构成了一个文本向量空间，每篇文本文档就映射成为这个空间中的一点。所有文档和用户目标都可以映射到此文本向量空间，这样就将文档信息的匹配问题转化为向量空间中的矢量匹配的问题。可以选择字、词或词组作为特征项，但是由实验结果得出，选取词作为特征项的效果要优于选取字和词组作为特征项，因此，这里选取词作为特征项，词的权值由词频来决定。 (3)特征提取指从分类文本中有目的地抽取关键词项的相关信息。它是挖掘目标共性与规则的提取过程，特征提取算法的优劣对挖掘工具的效果有很大影响。本文介绍的是基于词频统计的特征

18、提取办法。中文文档中，词、词组和短语是文档组成的基本元素，并且在不同内容的文档中，各词条出现的频率都有一定的规律性，所以不同的特征词条就可以用来区分不同内容的文本。我们可以抽取一些特征词条构成特征矢量，Web文本由这个特征矢量来表示，但是并不是所有的词条都能作为特征项，一个有效的特征词条集，必须具备以下三个特征：完全性：特征词条能够表示目标内容；区分性：根据特征矢量集，能将目标同其它文档区分开来；精练性：在满足以上两条的基础上，特征矢量的维数应该尽可能的小。4.1.3 特征提取算法常用的特征抽取方法有：文档频率DF (Document Frequency)、互信息方法MI(Mutual Inf

19、ormation)、信息增益方法IG(Information Gain)。下面将介绍一种基于文档频率的特征抽取算法TFDF(Tem Frequency and Inverse Documentation Frequency)算法。特征项频率(Term Frequency：TF)是指特征项在文档中出现的次数。特征项可以是字、词或是短语。不同类别的文档，在某些特征项的出现频率上有很大的差异，因此频率信息是文本分类的重要参考之一。在最初的文本自动分类中，文档向量就是用TF来构造的。反文档频率IDF(Inverse Document Frequency)是指在一组文档中，刻画某一文档特征的特征项(本文

20、中，特征项为词)，可以根据它在这组文档中出现的频率赋予相应的权重，只在少数文档中出现的较特殊的词，权值要比在多篇文档中出现的词的权值要高，权值计算公式如下式：其中N代表总文档数目，nj指包含特征项tj的文档数目，tfij指特征项tj在文档di中出现的次数，idfj指出现特征项tj的文档的倒数。4.2 改进神经网络算法网络中隐藏着许多可以为科研活动、商业活动的决策所需要的信息。分类是一种数据分析形式，可用于抽取能够用于描述重要数据集合的模型。分类方法用于预测数据对象的离散类别，本节研究基于前向神经网络的分类方法。多层前向神经网络需要解决的关键问题是学习算法。以Rumelhart和MeClella

21、nd为首的科研小组提出的误差反向传播(errorBackPropagation，BP)算法，为多层前向神经网络的研究奠定了基础。多层前向网络能逼近任意非线性函数，在科学技术领域中有广泛的应用。4.2.1 BP算法训练网络步骤用BP算法训练网络的步骤如下：从训练样本集中取一个样本，把它的输入信息输入到网络中。由网络正向计算出各层节点的输出。计算网络的实际输出与期望输出的误差。从输出层起始反向计算到隐层，按一定原则向减小误差的方向调整网络的各个连接权值。对训练样本集中的每一个样本重复以上步骤，直到整个训练样本集的误差达到要求为止。通过网络训练使得网络达到要求后，网络各节点间的连接权值就完全确定，这

22、样就称BP网络已经学习好了。BP算法流程图如图4.3所示：图4.3 BP算法流程图4.2.2 BP算法存在的问题BP算法存在的问题：(1)存在局部极小的问题。由于存在一些平坦地区，在此区域内误差的改变很小，造成网络完全不能够得到训练。(2)学习算法的收敛速度慢。(3)网络的结构设计，即隐层节点数的选择，目前来说没有理论指导。(4)新加入的样本会影响到已经学好的样本。4.2.3改进的BP算法针对BP学习算法收敛速度慢、局部极小值的问题，从三个方面进行讨论。(1)增加动量项方法参数越大，权值的改变量越大，网络的训练速度就越快，但是取较大的参数的结果可能会导致产生振动，为了在增大学习率的同时不产生振

23、动，可以增加一个动量项。动量项的引入可以加快网络训练的速度，这是因为引入动量项的效果实质是使学习过程中参数的值不再是恒定的值，而是不断地变化的值。引入这个动量项之后，使得调节向着底部的平均方向变化，不致产生大的摆动，即动量项起到缓冲平滑的作用。(2)速率渐小法取比较大的学习速率，有利于加快学习速度，取较小的学习速率有利于收敛。将参数与误差函数关联，做如下调整：当误差函数减小时，增大学习率；当误差函数增大时，减小学习率。(3)针对激励函数的改进标准BP算法采用sigmoid函数作为激励函数，但是采用sigmoid函数的网络的收敛速度往往很慢，并且网络极容易陷入局部极小值，这无疑是需要进行改进的。

24、图4.4 改进BP算法流程图5 人工神经网络的发展前景神经网络是在许多学科的基础上发展起来的，它的研究深入必然会带动其它相关学科的发展。许多现代科学理论的创导者对脑的功能和神经网络都有着强烈的兴趣，并从中得到了不少启示，创导或发展了许多新理论。神经生物学家也正在期待着另一次理论的飞跃，这将使他们能够解释已知的各种现象，并提出可由实验室验证的假说。虽然他们已积累了大量关于大脑组成、大脑外形以及大脑运转基本要素等知识，但他们仍然解答不了有关大脑信息处理的一些实质性问题。而建立的对认知过程的一种定量描述，则为神经科学家提出了一个独一无二的机会来发展和验证大脑的工作原理。神经网络理论的发展，推动了理论

25、神经科学的产生和发展，为计算神经科学提供了必要的理论和模型。同时，也促进脑科学向定量、精确和理论化方向发展。以神经网络研究为开端，整个学术界对计算的概念和作用有了新的认识和提高。计算并不局限于数学中，并不仅仅采取逻辑的、离散的形式，而且大量的运算表现在对模糊的低精度的模拟量的并行计算。对于后一类计算，传统的计算机无法施展其威力。神经网络的数学理论本质上是非线性的数学理论，因此，现代非线性科学方面的进展必将推动神经网络的研究，同时，神经网络理论也会对非线性科学提出新课题。神经网络研究的对象是神经系统，这是高度进化的复杂系统，也是系统科学中一个重要的具体领域。神经网络研究不仅重视系统的动态特性，而

26、且强调事件和信息在系统内部的表达和产生。神经网络在国民经济和国防科技现代化建设中具有广阔的应用领域和应用前景。主要应用领域有：语音识别、图像识别与理解、计算机视觉、智能机器人、故障机器人、故障检测、实施语言翻译、企业管理、市场分析、决策优化、物资调运自适应控制、专家系统、智能接口、神经生理学、心理学和认知科学研究等等。随着神经网络理论研究的深入以及网络计算能力的不断拓展，神经网络的应用领域将会不断拓展，应用水平将会不断提高，最终达到神经网络系统可用来帮人做事的目的，这也是神经网络研究的最终目标。神经网络研究在近十几年取得了引人注目的进展，从而激起了不同学科与领域的科学家和企业家的巨大热情和浓厚

27、的兴趣。我们相信，神经网络将使电子科学和信息科学产生革命性的变革。结语本文首先介绍了神经网络的发展史、通过对网络信息挖掘及其相关技术的研究，将神经网络应用在挖掘技术中，设计了网络信息挖掘系统，并实现了其中的中文分词、特征提取与分类功能。本文的主要研究成果首先，设计了针对中文文本文档的分词与特征提取系统，此系统能够根据已有词库将输入的中文文本文档的词与此分开，分词后的文档经过特征提取将文档中出现次数最多的三个词作为该文档的特征项提取并输出。其次，对基于三层BP网络的BP学习算法进行了改进，讨论了三种改进方法，选择其中改进后使得网络训练速率提高、改善极小值问题的自适应激励函数BP算法作为分类算法，

28、并将其实现，设计系统显示训练过程。虽然神经网络理论研究有着非常广阔的发展前景，但历来这个领域的研究就是既充满诱惑又不乏挑战的，没有人能肯定它的发展不会再经受挫折，也没有人知道一旦成功实现最终目标会给科技界带来多大的辉煌和巨变。不过，我们有理由相信，只要我们坚持不懈地努力，来自神经网络理论研究的一些新理论和新方法必将给21世纪科学研究带来源源不断的动力。参考文献1钟义信，潘新安，杨义先.智能理论与技术-人工智能与神经网络M，北京:人民邮电出版社，19922McCulloch W S,Pitts W.A logical Calculus of the Ideas Immanent in Nervo

29、us ActivityJ.Bulletion of Mathematical Biophysics3云俊，陈庆虎，王少棒人工智能的新发展；人工神经网络及其应用J计算机工程与应用，2001(9)：55574巫影,陈定方,唐小兵神经网络综述J科技进步与对策，2002(6)：1331345文传潭人工神经网络反其应用J计算机仿真,1997(2)：10126蒋宗礼人工神经网络导论M北京：高等教育出版社，20017徐香梅.基于遗传算法的人工神经网络的应用期刊论文-世界华商经济年鉴高校教育研究 2009(9)8刘付芬.人工神经网络的研究与应用期刊论文-福建电脑 2009(8)本文来自网络，版权归原作者所有，请下载后，尽快删除。 .14

展开阅读全文