CH5第3讲人工神经网络

CH5第3讲人工神经网络人工神经网络方法及应用引言利用机器模仿人类的智能是长期以来人们认识自然、改造自然和认识自身的理想。研究ANN目的：（1）探索和模拟人的感觉、思维和行为的规律，设计具有人类智能的计算机系统。（2）探讨人脑的智能活动，用物化了的智能来考察和研究人脑智能的物质过程及其规律。研究ANN方法（1）生理结构的模拟：用仿生学观点，探索人脑的生理结构，把对人脑的微观结构及其智能行为的研究结合起来即人工神经网络（ArtificialNeuralNetwroks，简称ANN）方法。（2）宏观功能的模拟：从人的思维活动和智能行为的心理学...

人工神经网络方法及应用引言利用机器模仿人类的智能是长期以来人们认识自然、改造自然和认识自身的理想。研究ANN目的：（1）探索和模拟人的感觉、思维和行为的规律，设计具有人类智能的计算机系统。（2）探讨人脑的智能活动，用物化了的智能来考察和研究人脑智能的物质过程及其规律。研究ANN方法（1）生理结构的模拟：用仿生学观点，探索人脑的生理结构，把对人脑的微观结构及其智能行为的研究结合起来即人工神经网络（ArtificialNeuralNetwroks，简称ANN）方法。（2）宏观功能的模拟：从人的思维活动和智能行为的心理学特性出发，利用计算机系统来对人脑智能进行宏观功能的模拟，即符号处理方法。ANN的研究内容（1）理论研究：ANN模型及其学习算法，试图从数学上描述ANN的动力学过程，建立相应的ANN模型，在该模型的基础上，对于给定的学习样本，找出一种能以较快的速度和较高的精度调整神经元间互连权值，使系统达到稳定状态，满足学习要求的算法。（2）实现技术的研究：探讨利用电子、光学、生物等技术实现神经计算机的途径。（3）应用的研究：探讨如何应用ANN解决实际问题，如模式识别、故障检测、智能机器人等。人工神经网络概述什么是人工神经网络？T.Koholen的定义：“人工神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。”脑神经信息活动的特征(1)巨量并行性。(2)信息处理和存储单元结合在一起。(3)自组织自学习功能。ANN研究的目的和意义(1)通过揭示物理平面与认知平面之间的映射，了解它们相互联系和相互作用的机理，从而揭示思维的本质，探索智能的本源。(2)争取构造出尽可能与人脑具有相似功能的计算机，即ANN计算机。(3)研究仿照脑神经系统的人工神经网络，将在模式识别、组合优化和决策判断等方面取得传统计算机所难以达到的效果。神经网络研究的发展(1)第一次热潮(40-60年代未)1943年,美国心理学家W.McCulloch和数学家W.Pitts在提出了一个简单的神经元模型，即MP模型。1958年，F.Rosenblatt等研制出了感知机(Perceptron）。(2)低潮(70-80年代初):(3)第二次热潮1982年，美国物理学家J.J.Hopfield提出Hopfield模型，它是一个互联的非线性动力学网络他解决问题的方法是一种反复运算的动态过程,这是符号逻辑处理方法所不具备的性质.1987年首届国际ANN大会在圣地亚哥召开，国际ANN联合会成立，创办了多种ANN国际刊物。1990年12月，北京召开首届学术会议。神经网络基本模型ANN类型与功能人工神经网络研究的局限性（1）ANN研究受到脑科学研究成果的限制。（2）ANN缺少一个完整、成熟的理论体系。（3）ANN研究带有浓厚的策略和经验色彩。（4）ANN与传统技术的接口不成熟。一般而言,ANN与经典计算方法相比并非优越,只有当常规方法解决不了或效果不佳时ANN方法才能显示出其优越性。尤其对问题的机理不甚了解或不能用数学模型表示的系统,如故障诊断、特征提取和预测等问题,ANN往往是最有利的工具。另一方面,ANN对处理大量原始数据而不能用规则或公式描述的问题,表现出极大的灵活性和自适应性。神经网络的应用人工神经网络以其具有自学习、自组织、较好的容错性和优良的非线性逼近能力，受到众多领域学者的关注。在实际应用中，80%～90%的人工神经网络模型是采用误差反传算法或其变化形式的网络模型（简称BP网络），目前主要应用于函数逼近、模式识别、分类和数据压缩或数据挖掘。李一平（河海大学环境科学与工程学院）.《太湖生态系统的人工神经网络模拟研究》，环境科学与技术，2004年第二期构造了具有3层节点的人工神经网络模型,将太湖2001年5～12月全湖共26个采样点的实测值作为学习样本,一共有26×8=208组数据。从这些数据中分别随机抽取1/4的数据各52组作为检验样本和测试样本,其余的104组(占50%)数据作为训练样本。每个样本均含有12个输入因子,分别是风速、风向、水温、ｐＨ、ＤＯ、高锰酸钾指数、浊度、ＴＮ、ＴＰ、叶绿素ａ、透明度、ＢＯＤ5。以浮游植物作为输出因子。用2002年8月的各点的浮游植物数据进行预测比较，BP网络建模特点：非线性映照能力：神经网络能以任意精度逼近任何非线性连续函数。在建模过程中的许多问题正是具有高度的非线性。并行分布处理方式：在神经网络中信息是分布储存和并行处理的，这使它具有很强的容错性和很快的处理速度。自学习和自适应能力：神经网络在训练时，能从输入、输出的数据中提取出规律性的知识，记忆于网络的权值中，并具有泛化能力，即将这组权值应用于一般情形的能力。神经网络的学习也可以在线进行。数据融合的能力：神经网络可以同时处理定量信息和定性信息，因此它可以利用传统的工程技术（数值运算）和人工智能技术（符号处理）。多变量系统：神经网络的输入和输出变量的数目是任意的，对单变量系统与多变量系统提供了一种通用的描述方式，不必考虑各子系统间的解耦问题。基本BP网络的拓扑结构b1bia1c1cqcjahbpan………………Wp1WiqWpjW1qW1jWijV11W11WpqWi1Vh1VhiV1iVn1VniV1pVhpVnp输出层LC隐含层LB输入层LAWV输入函数输入区的功能是将输入信号b的各分量以一定的规则综合成一个总输入值p，不同的网络和不同性质的神经元采用不同的综合规则，综合规则可以形式化为用某个输入函数表示，最常用的输入函数是“加权和”形式，如下所示：活化函数活化函数分为线性与非线性，最简单的线性活化函数就可以采用恒同函数；而非线性活化函数中的常用函数即是Sigmoid函数，具有这种活化功能的神经元组成的神经网络具有强大的表达能力。a=g(p)=1/(1+exp(-cp))前馈式神经网络各种神经元以层状方式组成前馈式神经网络。每一层由多个节点（神经元）组成，每层中的节点与相邻层中的节点通过权值连接；但与同层中的其他节点和非相邻层中的节点没有连接。第一层为输入层，最后一层为输出层，中间为隐层。神经元的输入函数为“加权和“的形式，输出函数为恒同函数，活化函数为S型函数。前馈式神经网络的逼近能力前馈式神经网络的输入输出关系，可以看成是一种映射关系，即每一组输入对应着一组输出。由于网络中神经元的活化函数的非线性，使网络实现的是复杂的非线性映射。Hornik的等人的研究还表明三层前馈式神经网络不仅能以任意精度逼近任意函数，还能以任意精度逼近其各阶导数。BP算法Rumelhart和McClelland领导的PDP小组提出了前馈式神经网络的学习算法，即BP算法，解决了多层网络的学习问题，从实践上证实了人工神经网络具有很强的运算能力，使BP算法成为前馈式神经网络的经典算法。BP算法BP算法采用的是最速下降法，它使期望输出与实际输出之间的误差平方和最小，即权值修正公式BP算法的不足1收敛速度非常缓慢2初始值比较敏感3权值调节路径常常呈现锯齿型1.样本数据1.1收集和整理分组采用BP神经网络方法建模的首要和前提条件是有足够多典型性好和精度高的样本。而且，为监控训练（学习）过程使之不发生“过拟合”和评价建立的网络模型的性能和泛化能力，必须将收集到的数据随机分成训练样本、检验样本（10%以上）和测试样本（10%以上）3部分。此外，数据分组时还应尽可能考虑样本模式间的平衡。1.2输入/输出变量的确定及其数据的预处理一般地，BP网络的输入变量即为待分析系统的内生变量（影响因子或自变量）数，一般根据专业知识确定。若输入变量较多，一般可通过主成份分析方法压减输入变量，也可根据剔除某一变量引起的系统误差与原系统误差的比值的大小来压减输入变量。输出变量即为系统待分析的外生变量（系统性能指标或因变量），可以是一个，也可以是多个。一般将一个具有多个输出的网络模型转化为多个具有一个输出的网络模型效果会更好，训练也更方便。由于BP神经网络的隐层一般采用Sigmoid转换函数，为提高训练速度和灵敏性以及有效避开Sigmoid函数的饱和区，一般要求输入数据的值在0~1之间。因此，要对输入数据进行预处理。一般要求对不同变量分别进行预处理，也可以对类似性质的变量进行统一的预处理。如果输出层节点也采用Sigmoid转换函数，输出变量也必须作相应的预处理，否则，输出变量也可以不做预处理。预处理的方法有多种多样，各文献采用的公式也不尽相同。但必须注意的是，预处理的数据训练完成后，网络输出的结果要进行反变换才能得到实际值。再者，为保证建立的模型具有一定的外推能力，最好使数据预处理后的值在0.2~0.8之间。2.神经网络拓扑结构的确定2.1隐层数一般认为，增加隐层数可以降低网络误差（也有文献认为不一定能有效降低），提高精度，但也使网络复杂化，从而增加了网络的训练时间和出现“过拟合”的倾向。Hornik等早已证明：若输入层和输出层采用线性转换函数，隐层采用Sigmoid转换函数，则含一个隐层的MLP网络能够以任意精度逼近任何有理函数。显然，这是一个存在性结论。在设计BP网络时可参考这一点，应优先考虑3层BP网络（即有1个隐层）。一般地，靠增加隐层节点数来获得较低的误差，其训练效果要比增加隐层数更容易实现。对于没有隐层的神经网络模型，实际上就是一个线性或非线性（取决于输出层采用线性或非线性转换函数型式）回归模型。因此，一般认为，应将不含隐层的网络模型归入回归分析中，技术已很成熟，没有必要在神经网络理论中再讨论之。2.2隐层节点数在BP网络中，隐层节点数的选择非常重要，它不仅对建立的神经网络模型的性能影响很大，而且是训练时出现“过拟合”的直接原因，但是目前理论上还没有一种科学的和普遍的确定方法。目前多数文献中提出的确定隐层节点数的计算公式都是针对训练样本任意多的情况，而且多数是针对最不利的情况，一般工程实践中很难满足，不宜采用。事实上，各种计算公式得到的隐层节点数有时相差几倍甚至上百倍。为尽可能避免训练时出现“过拟合”现象，保证足够高的网络性能和泛化能力，确定隐层节点数的最基本原则是：在满足精度要求的前提下取尽可能紧凑的结构，即取尽可能少的隐层节点数。研究表明，隐层节点数不仅与输入/输出层的节点数有关，更与需解决的问题的复杂程度和转换函数的型式以及样本数据的特性等因素有关。在确定隐层节点数时必须满足下列条件：隐层节点数必须小于N-1（其中N为训练样本数），否则，网络模型的系统误差与训练样本的特性无关而趋于零，即建立的网络模型没有泛化能力，也没有任何实用价值。同理可推得：输入层的节点数（变量数）必须小于N-1。(2)训练样本数必须多于网络模型的连接权数，一般为2~10倍，否则，样本必须分成几部分并采用“轮流训练”的方法才可能得到可靠的神经网络模型。总之，若隐层节点数太少，网络可能根本不能训练或网络性能很差；若隐层节点数太多，虽然可使网络的系统误差减小，但一方面使网络训练时间延长，另一方面，训练容易陷入局部极小点而得不到最优点，也是训练时出现“过拟合”的内在原因。因此，合理隐层节点数应在综合考虑网络结构复杂程度和误差大小的情况下用节点删除法和扩张法确定。3.神经网络的训练3.1训练BP网络的训练就是通过应用误差反传原理不断调整网络权值使网络模型输出值与已知的训练样本输出值之间的误差平方和达到最小或小于某一期望值。虽然理论上早已经证明：具有1个隐层（采用Sigmoid转换函数）的BP网络可实现对任意函数的任意逼近。但遗憾的是，迄今为止还没有构造性结论，即在给定有限个（训练）样本的情况下，如何设计一个合理的BP网络模型并通过向所给的有限个样本的学习（训练）来满意地逼近样本所蕴含的规律（函数关系，不仅仅是使训练样本的误差达到很小）的问题，目前在很大程度上还需要依靠经验知识和设计者的经验。因此，通过训练样本的学习（训练）建立合理的BP神经网络模型的过程，在国外被称为“艺术创造的过程”，是一个复杂而又十分烦琐和困难的过程。由于BP网络采用误差反传算法，其实质是一个无约束的非线性最优化计算过程，在网络结构较大时不仅计算时间长，而且很容易限入局部极小点而得不到最优结果。目前虽已有改进BP法、遗传算法（GA）和模拟退火算法等多种优化方法用于BP网络的训练(这些方法从原理上讲可通过调整某些参数求得全局极小点)，但在应用中，这些参数的调整往往因问题不同而异，较难求得全局极小点。这些方法中应用最广的是增加了冲量（动量）项的改进BP算法。3.2学习率η和冲量系数α学习率影响系统学习过程的稳定性。大的学习率可能使网络权值每一次的修正量过大，甚至会导致权值在修正过程中超出某个误差的极小值呈不规则跳跃而不收敛；但过小的学习率导致学习时间过长，不过能保证收敛于某个极小值。所以，一般倾向选取较小的学习率以保证学习过程的收敛性（稳定性），通常在0.01~0.8之间。增加冲量项的目的是为了避免网络训练陷于较浅的局部极小点。理论上其值大小应与权值修正量的大小有关，但实际应用中一般取常量。通常在0~1之间，而且一般比学习率要大。4网络的初始连接权值BP算法决定了误差函数一般存在（很）多个局部极小点，不同的网络初始权值直接决定了BP算法收敛于哪个局部极小点或是全局极小点。因此，要求计算程序（建议采用标准通用软件，如Statsoft公司出品的StatisticaNeuralNetworks软件和Matlab软件）必须能够自由改变网络初始连接权值。由于Sigmoid转换函数的特性，一般要求初始权值分布在-0.5~0.5之间比较有效。5.网络模型的性能和泛化能力训练神经网络的首要和根本任务是确保训练好的网络模型对非训练样本具有好的泛化能力（推广性），即有效逼近样本蕴含的内在规律，而不是看网络模型对训练样本的拟合能力。从存在性结论可知，即使每个训练样本的误差都很小（可以为零），并不意味着建立的模型已逼近训练样本所蕴含的规律。因此，仅给出训练样本误差（通常是指均方根误差RSME或均方误差、AAE或MAPE等）的大小而不给出非训练样本误差的大小是没有任何意义的。要分析建立的网络模型对样本所蕴含的规律的逼近情况（能力），即泛化能力，应该也必须用非训练样本（本文称为检验样本和测试样本）误差的大小来表示和评价，这也是之所以必须将总样本分成训练样本和非训练样本而绝不能将全部样本用于网络训练的主要原因之一。判断建立的模型是否已有效逼近样本所蕴含的规律,最直接和客观的指标是从总样本中随机抽取的非训练样本（检验样本和测试样本）误差是否和训练样本的误差一样小或稍大。非训练样本误差很接近训练样本误差或比其小，一般可认为建立的网络模型已有效逼近训练样本所蕴含的规律，否则，若相差很多（如几倍、几十倍甚至上千倍）就说明建立的网络模型并没有有效逼近训练样本所蕴含的规律，而只是在这些训练样本点上逼近而已，而建立的网络模型是对训练样本所蕴含规律的错误反映。因为训练样本的误差可以达到很小，因此，用从总样本中随机抽取的一部分测试样本的误差表示网络模型计算和预测所具有的精度（网络性能）是合理的和可靠的。值得注意的是，判断网络模型泛化能力的好坏，主要不是看测试样本误差大小的本身，而是要看测试样本的误差是否接近于训练样本和检验样本的误差。6.合理网络模型的确定对同一结构的网络，由于BP算法存在（很）多个局部极小点，因此，必须通过多次（通常是几十次）改变网络初始连接权值求得相应的极小点，才能通过比较这些极小点的网络误差的大小，确定全局极小点，从而得到该网络结构的最佳网络连接权值。必须注意的是，神经网络的训练过程本质上是求非线性函数的极小点问题，因此，在全局极小点邻域内（即使网络误差相同），各个网络连接权值也可能有较大的差异，这有时也会使各个输入变量的重要性发生变化，但这与具有多个零极小点（一般称为多模式现象）（如训练样本数少于连接权数时）的情况是截然不同的。此外，在不满足隐层节点数条件时，总也可以求得训练样本误差很小或为零的极小点，但此时检验样本和测试样本的误差可能要大得多；若改变网络连接权初始值，检验样本和测试样本的网络计算结果会产生很大变化，即多模式现象。对于不同的网络结构，网络模型的误差或性能和泛化能力也不一样。因此，还必须比较不同网络结构的模型的优劣。一般地，随着网络结构的变大，误差变小。通常，在网络结构扩大（隐层节点数增加）的过程中，网络误差会出现迅速减小然后趋于稳定的一个阶段，因此，合理隐层节点数应取误差迅速减小后基本稳定时的隐层节点数。总之，合理网络模型是必须在具有合理隐层节点数、训练时没有发生“过拟合”现象、求得全局极小点和同时考虑网络结构复杂程度和误差大小的综合结果。设计合理BP网络模型的过程是一个不断调整参数的过程，也是一个不断对比结果的过程，比较复杂且有时还带有经验性。这个过程并不是有些作者想象的（实际也是这么做的）那样，随便套用一个公式确定隐层节点数，经过一次训练就能得到合理的网络模型（这样建立的模型极有可能是训练样本的错误反映，没有任何实用价值）。虽然神经网络的类型很多，建立神经网络模型时，根据研究对象的特点，可以考虑不同的神经网络模型。前馈型BP网络即误差逆传播神经网络是最常用、最流行的神经网络。BP网络的输入和输出关系可以看成是一种映射关系，即每一组输入对应一组输出。由于网络中神经元作用函数的非线性，网络实现是复杂的非线性映射。关于这类网络对非线性的逼近能力，Hornikl等分别利用不同的方法证明了如下一个事实：仅含有一个隐层的前向网络能以任意精度逼近定义在Rn的一个紧集上的任意非线性函数。误差反向算法是最著名的多层前向网络训练算法，尽管存在收敛速度慢、局部极值等缺点，但可通过各种改进措施来提高它的收敛速度、克服局部极值现象，而且具有简单、易行、计算量小、并行性强等特点，目前仍是多层前向网络的首选算法。

                    本文档为【CH5第3讲人工神经网络】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

CH5第3讲人工神经网络

你可能还喜欢