首页 人工神经网络深度学习

人工神经网络深度学习

人工神经网络深度学习人工神经网络及其应用第七讲深度学习主讲人：方涛第七讲深度学习主讲内容§7.1研究背景§7.2从BP网络看深度学习§7.3几种典型的深度学习模型§7.4开源深度学习框架§7.5深度学习的未来§7.1研究背景约翰·麦卡锡（1927-2011）LISP之父—不走寻常路的常识逻辑学家1956年，约翰.麦卡锡召集了一次会议来讨论人工智能未来的发展方向，开启了AI的发展2016年---人工智能（AI）奠基60周年21世纪初，“深度...

人工神经网络及其应用第七讲深度学习主讲人：方涛第七讲深度学习主讲内容§7.1研究背景§7.2从BP网络看深度学习§7.3几种典型的深度学习模型§7.4开源深度学习框架§7.5深度学习的未来§7.1研究背景约翰·麦卡锡（1927-2011）LISP之父—不走寻常路的常识逻辑学家1956年，约翰.麦卡锡召集了一次会议来讨论人工智能未来的发展方向，开启了AI的发展2016年---人工智能（AI）奠基60周年21世纪初，“深度学习”的出现，AI研究获得了长足的进步没有大数据，没有“大计算”，就没有人工智能的今天！*MarvinMinsky—人工智能之父和框架理论的创立者1927-2016MITAILab创始人之一1970年获得图灵奖美国工程院和美国科学院院士在近60年的人工智能历史中，马文-明斯基一直是一位闪耀着耀眼光彩的杰出的人工智能权威，是当之无愧的人工智能之父。（李德毅院士）明斯基在1950年进入普林斯顿大学攻读数学系的博士研究生学位，比我晚一年。我们很快意识到，我们两人都对人工智能很感兴趣。事实上，当时明斯基已经对如何实现人工智能颇有想法了，这一点在之后他设计和建造的世界上第一个神经网络模拟器Snare上得到了证实。（JohnMcCarthy人工智能先驱，LISP语言之父，图灵奖获得者）1969：Perceptron（感知器）---神经网络的局限性（深度学习的前身）§7.1研究背景*2016年,阿尔法狗（AlphaGo）4:1大胜围棋9段李世石高手，AI重大历史时刻“监督学习的策略网络（PolicyNetwork）”通过13层全连接网络，反复训练围棋棋盘布局，调整参数，以最佳概率预测落子选择（MovePicker），如何下棋子“价值网络（ValueNetwork）”给定棋子位置，预测每一个棋手赢棋的可能，就是计算局面§7.1研究背景主要设计者----位于伦敦Google旗下DeepMind公司大卫·席尔瓦（DavidSilver）----剑桥大学计算机科学学士，硕士，加拿大阿尔伯塔大学计算机科学博士黄士杰（AjaHuang），台湾交通大学计算机科学学士，台湾师范大学计算机科学硕士和博士，加拿大阿尔伯塔大学计算机科学博士后§7.1研究背景GeoffreyE.Hinton加拿大多伦多大学教授专注于神经网络几十年，1985年，提出Boltzmann机1986年，提出受限Boltzmann机、BP算法2006年，提出神经网络进行降维开启了深度学习时代，并在随后的ImageNet图片识别的比赛，取得了非常有说服力的结果（74%->85%），震撼了学术界◆Hinton,G.andSalakhutdinov,R.(2006).Reducingthedimensionalityofdatawithneuralnetworks.Science,313(5786):504–507.◆Hinton,G.E.(2002).Trainingproductsofexpertsbyminimizingcontrastivedivergence.NeuralComp.,14(8):1771–1800◆Hinton,G.E.,Dayan,P.,Frey,B.J.,andNeal,R.M.(1995).Thewake-sleepalgorithmforunsupervisedneuralnetworks.Science,268:1158–1160◆Hinton,G.E.andSejnowski,T.E.(1986).LearningandrelearninginBoltzmannmachines.InParallelDistributedProcessing,volume1,pages282–317.MITPress◆Rumelhart,Hinton,Williams,LearningRepresentationsbyBack-propagatingerrors,Nature,1986,323(6088):533-536*AndrewNg斯坦福大学教授2012年6月,《纽约时报》披露了GoogleBrain项目大规模计算机系统方面的世界顶尖专家JeffDean用16000个CPUCore的并行计算平台训练一种称为“深度神经网络”（DNN，DeepNeuralNetworks）的机器学习模型（内部共有10亿个节点)在语音识别和图像识别等领域获得了巨大的成功§7.1研究背景2012年11月，微软公开演示全自动同声传译系统深度学习,讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成，效果非常流畅§7.1研究背景2013年1月，百度创始人兼CEO李彦宏高调宣布成立“深度学习研究所”（IDL，InstitueofDeepLearning§7.1研究背景机器学习解决目标识别与分类问题的思路三个主要组成部分中间的特征提取部分将很大程度上决定最终的效果，如何提取特征？“巧妇难为无米之炊”§7.1研究背景§7.1研究背景Sift被认为是局部图像特征描述子研究领域一项里程碑式的工作，对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性，还SIFT具有很强的可区分性特征抽取非常费力，需要领域知识启发式提取最大的问题？--人工设计BOW……*§7.1研究背景待检测图像行人模型图像金字塔适应目标尺度变化局部滤波器变形动态规划求解可变形部件模型行人检测* 1981年的诺贝尔医学奖，颁发给了DavidHubel和TorstenWiesel(JohnHopkinsUniversity)，以及RogerSperry。前两位的主要贡献，是“发现了视觉系统的信息处理”：可视皮层是分级的：这个发现激发了人们对于神经系统的进一步思考→神经-中枢-大脑的工作过程，”或许”是一个不断迭代、不断抽象的过程§7.1研究背景人脑视觉系统如何提取特征？关键在于抽象和迭代，从原始信号开始进行低级抽象，逐渐向高级抽象迭代从低层到高层的特征表示越来越抽象，生物视觉特征分层抽象的过程，就是一个计算机建模过程§7.1研究背景人脑视觉系统如何提取特征？§7.1研究背景§7.1研究背景HMAXNeocognitronVisNet§7.1研究背景从层次增加看深度学习发展简史2020年又是冰河期？*§7.1研究背景*♦浅层机器学习模型(第二次浪潮)--1-2层隐层的BP网络（20世纪80年代末期）--SVM、Boosting等，模型的结构可视为带一层隐层节点或没有隐层节点（20世纪90年代）NeuralNetwork问题--比较容易过拟合，参数比较难tune，而且需要不少技巧--训练速度比较慢，--有限样本和计算单元情况下对复杂函数的表示能力有限--梯度越来越稀疏：从输出层越往输入层，误差校正信号越来越小--收敛到局部极小值近20多年，主要SVM和boosting算法§7.1研究背景*♦深度机器学习模型(第三次浪潮) GeoffreyHinton（加拿大多伦多大学教授、机器学习领域的泰斗）及其学生2006年在科学杂志发表”DeepLearning”文章，开启了深度学习在学术界和工业界的浪潮。--多隐层的人工神经网络具有优异的特征学习能力--通过无监督学习的“逐层初始化”（layer-wisepre-training）来有效克服深度神经网络在训练上的难度--深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本集中学习数据集本质特征的能力。--强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点--深度学习就是特征学习，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易“深度学习”通过多层次抽象来实现特征的表达§7.1研究背景DeepLearning—以多层次神经网络为基础发展起来的一种新的机器学习方法，被认为是AI的新的前沿Theoretical:“…well-knowndepth-breadthtradeoffincircuitsdesign[Hastad1987].Thissuggestsmanyfunctionscanbemuchmoreefficientlyrepresentedwithdeeperarchitectures…”[Bengio&LeCun2007]Biological:Visualcortexishierarchical(HubelandWiesel).§7.1研究背景§7.2从BP网络看深度学习7.2.1BP网络——仅适合浅层网络梯度下降算法——梯度逐层反向计算，直到梯度接近零为止*§7.2从BP网络看深度学习为什么BP网络只适合浅层网络？训练速度慢问题易于过拟合问题在学习训练中,网络对学习样本达到非常高的逼近精度,但对测试样本逼近误差随网络训练次数而呈现先下降,后反而上升的奇异现象全局优化问题BP网络深度较深时，会涉及到求解一个高阶非凸优化问题，容易陷入很坏的局部极小梯度弥散问题BP网络深度较深时，梯度随着深度向前而显著下降，误差反传到更前面的隐含层时已非常小，使得前几层不能有效进行调节，训练速度很慢 .§7.2从BP网络看深度学习7.2.2深度学习的基本思想加拿大多伦多大学的GeofferyHinton教授2006年首次提出了“深度信念网络”的概念。与传统的训练方式不同，为大幅度减少了训练多层神经网络的时间，采用两个技术█“ 预训练”（pre-training）：无监督学习→参数初始值逐层贪婪训练，就是先训练网络第1个隐含层，再训练第2个…，最后将训练好的网络参数作为整个网络参数的初值（预训练，找到神经网络中一个接近最优解的权值）█“ 微调 ”(fine-tuning)：监督学习进一步优化训练整个网络，对神经网络参数（权值）改变很小*§7.2从BP网络看深度学习7.2.2深度学习的基本思想█层数保持不变，神经网络的参数数量增加，从而带来了更好的表示（represention）能力█增加更多层次，更深入的特征表示，以及更强的函数模拟能力随着网络的层数增加，每一层对于前一层次的抽象表示更深入。即每一层神经元学习到的是前一层神经元值的更抽象的表示第1隐含层学习到的特征--“边缘”第2隐含层学习到的特征--由“边缘”组成的“形状”第3隐含层学习到的特征--由“形状”组成的“图案”。。。。。最后隐含层学习到的特征--由“图案”组成的“目标”神经网络本质----模拟特征与目标之间函数映射关系。层数多，参数多，模拟映射函数更复杂、更多容量*Deeplearning与NeuralNetwork深度学习---是模拟人脑进行分析学习，称UnsupervisedFeatureLearning--源于人工神经网络，含多隐层的多层感知器就是一种深度学习结构--用深度网络结构来抽象和迭代组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度网络训练的主要思想是用非标签数据进行逐层贪婪训练和用有标记数据来进行整个网络的微调相同之处--采用分层结构：输入层、隐层（多层）、输出层--连接方式：相邻层节点之间有连接，同一层以及跨层节点之间相互无连接不同之处--训练机制不同：ANN采用后向传播机制,DLlayer-wise的训练机制--层数多，BP残差传播到最前面的层已经变得太小（梯度扩散）§7.2从BP网络看深度学习*7.2.3深度学习流行的激励函数§7.2从BP网络看深度学习传统激励函数---Sigmoid系非线性的Sigmoid函数对中央区域的信号增益较大，对两侧区域的信号增益小，特征空间映射效果好从神经科学看，中央区域类似神经元兴奋态，两侧区域类似神经元抑制态问题：（1）sigmoid函数在实际梯度下降中，容易饱和和终止梯度传递（2）同时近乎有一半的神经元被激活*§7.2从BP网络看深度学习类似生物神经元激励函数与Sigmoid系的不同：（1）单侧抑制（红框里前端全没激活）（2）相对宽阔的兴奋边界（3）稀疏激活性神经科学家Dayan、Abott2001年模拟脑神经元接受信号更精确的激励模型█Softplus(x)=log(1+ex)具有（1）与（2）特性█ReLU（修正线性单元：RectifiedLinearUnit)：f(x)=max(0,x)具有三个特性可极大提升随机梯度下降的收敛速度梯度计算非常简单应用很多神经元的生物特性具有生物特性的激励函数* 假定神经网络的输出O等于输入I，即输入I经过这个系统变化之后没有任何的信息损失，保持了不变，这意味着输入I经过每一层都没有任何的信息损失,训练调整网络参数（连接权）每层的输出就是输入的另外一种表示---特征system输出O输入Ii=o7.3.1自动编码器(AutoEncoder)§7.3几种典型的深度学习模型§7.4几种典型的深度学习模型有标签数据的特征学习无标签数据的无监督特征学习编码器产生特征标签/无标签编码无标签数据的无监督特征学习编码器产生特征增加分类器§7.3几种典型的深度学习模型稀疏自动编码器§7.3几种典型的深度学习模型§7.4几种典型的深度学习模型自动编码器(AutoEncoder)7.3.2深度信任网络DBN受限可视层各节点间无连接隐含层各节点间无连接可视层作为向量输入隐含层作为特征检测器可为二值节点（可取0或1）或实数节点（0～1）可视层、隐含层的节点数量不定§7.3几种典型的深度学习模型RestrictedBoltzmanMachine(RBM)*RBM的能量对特定的(v,h)，其能量函数定义为对每种可能的p(v,h)分布满足Boltzmann分布§7.3几种典型的深度学习模型RBM的状态更新/重采样给定可视层每个节点v，隐含层的每个节点hj依下式确定的概率取1（条件独立）同样，给定隐含层每个节点h，可依下式确定的概率获得可视层各结点的的无偏估计样本（条件独立）§7.3几种典型的深度学习模型§7.3几种典型的深度学习模型将多个RBM层叠在一起前一层RBM的隐含层作为后一层RBM可视层的输入深度信任网络DBN的构成概率生成模型多个受限玻尔兹曼机RBM层组成§7.3几种典型的深度学习模型深度信任网络DBN的训练对比散度CD算法ContrastiveDivergence(Hinton,2002)预训练获得生成模型的连接权（训练RBM---可视层节点和隐节点间的权值）利用GibbsSampling已知v重采样h已知h重采样v定义上述操作为一轮，可多轮依据下式修正连接权wijDBN每层RBM内--隐含层对可见层进行特征提取层与层之间每层对前一层提取出的特征进行再提取第3层第2层第1层§7.4几种典型的深度学习模型YannLeCunIn1995,YannLeCunandYoshuaBengiointroducedtheconceptofconvolutionalneuralnetworks.YoshuaBengio7.3.3深度卷积网络§7.3几种典型的深度学习模型在贝尔实验室的研究--提高手写识别滤波——池化§7.3几种典型的深度学习模型输入图像通过多个可训练的滤波器组进行非线性卷积，卷积后在每一层产生特征映射图，再特征映射图中每组池化（亚采样），最终得到输出值*§7.3几种典型的深度学习模型层间局部连接—稀疏连接方式深度卷积网络---多层感知器(MLP)的变种卷积神经网络中，层间的神经元不是全连接，利用层间局部空间相关性，通过局部连接方式，上层的神经元只与和它相近的下层神经元相连，以大大降低神经网络的参数规模*§7.3几种典型的深度学习模型每个卷积滤波器共享相同的参数。卷积神经网络中，卷积层的每个卷积滤波器重复作用于整个感受野中，对输入图像进行卷积，卷积结果构成输入图像的特征图，提取出图像的局部特征神经元共享权值----一个特征映射面上的神经元共享权值，大大降低学习的卷积神经网络模型参数数量特征映射结构采用sigmoid函数作为卷积网络的激活函数共享权值*§7.3几种典型的深度学习模型最大池化采样—非线性降采样方法最大池采样方法对卷积特征进行降维，具有平移不变性Softmax回归—有监督学习算法，解决多分类问题训练样本集由m个带标签样本构成：最小化代价函数*§7.3几种典型的深度学习模型深度卷积网络训练与BP网络的向前传播和反向调整权矩阵类似的一种多层的监督学习神经网络，隐含层的卷积层和池化采样层是实现卷积神经网络特征提取功能的核心卷积神经网络的低隐含层是由卷积层和最大池化采样层交替组成，高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器*§7.3几种典型的深度学习模型§7.4开源深度学习框架◆Caffe源自加州伯克利分校的Caffe被广泛应用，包括Pinterest这样的web大户。与TensorFlow一样，Caffe也是由C++开发，Caffe也是Google今年早些时候发布的DeepDream项目（可以识别喵星人的人工智能神经网络）的基础。◆Theano2008年诞生于蒙特利尔理工学院，Theano派生出了大量深度学习Python软件包，最著名的包括Blocks和Keras。§7.4开源深度学习框架◆TorchTorch诞生已经有十年之久，但是真正起势得益于去年Facebook开源了大量Torch的深度学习模块和扩展。Torch另外一个特殊之处是采用了不怎么流行的编程语言Lua（该语言曾被用来开发视频游戏）。◆Brainstorm来自瑞士人工智能实验室IDSIA的一个非常发展前景很不错的深度学习软件包，Brainstorm能够处理上百层的超级深度神经网络——所谓的公路网络HighwayNetworks。§7.4开源深度学习框架◆DeepLearning4j创业公司Skymind于2014年6月发布的一个面向生产环境和商业应用的高成熟度深度学习开源库，是”forJava”的深度学习框架，可与Hadoop和Spark集成，即插即用，方便开发者在APP中快速集成深度学习功能，可用于：人脸/图像识别；语音搜索；语音转文字（Speechtotext）;垃圾信息过滤（异常侦测）；电商欺诈侦测。埃森哲、雪弗兰、博斯咨询和IBM等明星企业都在使用。◆Marvin是普林斯顿大学视觉工作组新推出的C++框架。该团队还提供了一个文件用于将Caffe模型转化成语Marvin兼容的模式。。§7.4开源深度学习框架◆ConvNetJS斯坦福大学博士生AndrejKarpathy开发浏览器插件，基于JavaScript可以在游览器中训练神经网络。◆。。。20世纪90年代人类脑计划（HumanBrainProject,HBP)继人类基因计划后，又一国际性科研大计划2013年1月欧盟启动“人类大脑计划”(HumanBrainProject)巨型计算机模拟整个人类大脑（10亿欧元）2013年4月美国“大脑活动图谱计划”(BrainActivityMapProject，或称BrainInitiative)研究大脑活动中的所有神经元，探索神经元、神经回路与大脑功能间的关系（38亿美元）2014年科技部脑科学信息化重大专项“类人脑工程”2014年诺贝尔奖生理学医学奖大脑的定位系统--“位置细胞”与“网格细胞”发现§7.5深度学习的未来随着神经网络研究的不断变迁，其连接及其计算与生物神经元的连接模型其实渐行渐远？！！*开启计算机“高智商”新时代IBM成功构建模拟人脑功能的认知计算机芯片（2011-8-18）通过模拟大脑结构，首次成功构建出两个具有感知认知能力的硅芯片原型，可以像大脑一样具有学习和处理信息的能力。两个计算机芯片结合了神经元的计算能力、突触（或神经节）的记忆能力和轴突的通信能力———开发新一代计算机◆模仿大脑构建智能计算机的曲折挑战以冯·诺依曼架构为基础，内存和处理器分开，以总线作为数据通道。利用软件实现人工智能一个更大的局限，就是受限于计算机的结构，被计算机科学家称为“冯·诺依曼瓶颈”。◆类脑芯片----目前最接近复杂的认知计算机◘新的计算机芯片的核心是其构造与大脑类似，有“神经元”，有“突触”，还有“轴突”。“神经元”是计算机的数字信息处理器；“突触”是学习和记忆的基础；“轴突”则是数据通道◘新芯片采用45纳米工艺，晶体管构造，设计模仿大脑神经元和突触组织。两个芯片均有256个数字神经元和256个轴突，数字神经元为10兆赫，具有芯片的标准功能，如存储器、通信控制器等，可基于输入动态连接突触，神经元可记住最近的活动，引发突触。使用量大的轴突，其权重较大。其中一个芯片拥有262144个可编程突触；而另一个芯片拥有65356个学习突触，这种芯片最令人感兴趣。理论上,每个数字神经元可同时与另外255个数字神经元连接，对于拥有65356个学习突触的芯片而言，可产生1700个不同的组合◆模仿大脑构建智能计算机的曲折挑战IBM完成本次一代类脑芯片原型，就动用了6个实验室，联合了来自康奈尔大学、威斯康星大学、加州大学、哥伦比亚大学和政府研究机构的上百位研究人员。不算IBM的投入，仅美国国防部高级研究计划局就资助了4100万美元的研究经费。即使这样，该研究也历时6年，耗费人工高达数百万小时距离实用又进一步IBM公布仿人脑功能的芯片（2014-8-8）已研制出一款能模拟人脑神经元、突触功能以及其他脑功能的微芯片，从而完成计算功能，这是模拟人脑芯片领域所取得的又一大进展。IBM表示这款名为TrueNorth的微芯片擅长完成模式识别和物体分类等繁琐任务，而且功耗还远低于传统硬件。由三星电子为IBM生产,制造技术与三星电子生产智能手机及其他移动设备使用的微处理器制造技术一致◆在仿人脑功能芯片技术方面实现重大进展IBM阿尔马登研究中心（AlmadenResearchCenter）研究员、脑灵感计算首席科学家哈门德拉•莫得哈（DharmendraModha）：“我们拥有极具野心的商业化目标。”不过他也表示，TrueNorth不会取代传统电脑芯片，他们是互补的关系。TrueNorth微芯片(左)的热成像图距离实用又进一步IBM公布人造纳米尺度随机相变神经元芯片（2016-8-4）*********.************

                    本文档为【人工神经网络深度学习】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

人工神经网络深度学习

你可能还喜欢