首页 基于图像大数据的目标识别算法及在智慧旅游中的应用研究

基于图像大数据的目标识别算法及在智慧旅游中的应用研究

基于图像大数据的目标识别算法及在智慧旅游中的应用研究基于图像大数据的目标识别算法及在智慧旅游中的应用研究告正文 (一)立项依据与研究内容(4000-8000字): 1.项目的立项依据(研究意义、国内外研究现状及分析，附主要参考文献目录。基础研究需结合科学研究发展趋势来论述科学意义;应用研究需结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。) 图像目标识别是指对图像中的目标物体,如行人、动物、建筑物、食物、车牌等,进行识别～即判断图像中是否存在所要识别的目标物体～如果有则定位目标物体在图像中的位臵。该研究具有广泛的应用背景。应用之一是...

基于图像大数据的目标识别算法及在智慧旅游中的应用研究告正文 (一)立项依据与研究内容(4000-8000字): 1.项目的立项依据(研究意义、国内外研究现状及分析，附主要参考文献目录。基础研究需结合科学研究发展趋势来论述科学意义;应用研究需结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。) 图像目标识别是指对图像中的目标物体,如行人、动物、建筑物、食物、车牌等,进行识别～即判断图像中是否存在所要识别的目标物体～如果有则定位目标物体在图像中的位臵。该研究具有广泛的应用背景。应用之一是汽车的辅助驾驶。据统计～全世界每年死于交通事故的人数多达130万人。因此～迫切需要一个能自动对行人进行检测～并及时提醒驾驶员的系统。应用之二就是对公共场所的人流量进行统计。大型商店、博物馆、旅游景点、地铁等公共场所都需要实时的人流量信息。博物馆可以根据实时的人流量信息来控制进入博物馆的人群～商场可以根据一段时间的客流变化情况来调整相应的经营策略。除此以外～图像目标识别在旅游、互联网、医疗等领域都有广泛的应用。目前～国内外的很多研究机构都开展了图像目标识别的研究。斯坦福大学的李菲菲教授领导的团队创建了一个公开的图像数据集ImageNet[1],该数据集收集了1500万张图片～这些图片总共有22000个类别。从2010年开始～在该数据集上开展了名为ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)的公开评测。ILSVRC从ImageNet中选取了1000个类～每个类有大约1000张图片。所用于训练的图片有120万张～5万张验证图片～15万张测试图片。这1000个类涵盖了各种动物、各种自然场景等～每个类的图片尽可能的覆盖了光照、角度、姿态、遮挡的变化。ILSVRC是国际公认的权威测试比赛～吸引了很多著名的研究机构参与。2011年最好的成绩是74.3%的识别率～由欧洲的xerox研究中心取得[2]。所用的方法是用压缩Fisher矢量对特征进行压缩～并用随机梯度下降的方法来训练线性SVM～所用的特征是著名的SIFT特征[16]和颜色特征。 2012年～多伦多大学的Hinton教授和他的学生用GPU(图像处理单元)训练的卷积神经网络模型～在ILSVRC取得了85%的识别率[3]。和2011年的结果相比～识别率整整提高了10个百分点～这一结果不仅震动了学术界～也震惊了工业界。Google由此启动了著名的Google Brain 计划～专门研究深度学习技术。卷积神经网络是由LeCun在1998年提出的模仿人类大脑所具备的高效表达信息的结构[5]～并成功应用于美国各个银行的支票上的数字识别。卷积神经网络的基本结构如图1所示～对于一张32x32像素的输入图像～采用6个5x5的模板对输入图像分别进行卷积～得到6个28x28的特征映射(feature maps)～即图中的C1,每一个特征映射内的权值是相同的,然后对这6个特征映射层分别进行下采样,即图中的S2,然后对S2再进行卷积和下采样(对应于图中的C3和S4),然后对S4做两次全连接(对应于图中的图1. 卷积神经网络的基本结构，图片来源于[5] C5和F6),最后的输出层采用的是高斯连接的方式。卷积神经网络中层次之间的紧密联系和空间信息使得其特别适用于图像的处理和理解～并且能够自动的从图像中抽取出丰富的相关特性～被认为是第一个真正成功的采用多层次网络结构的具有鲁棒性的深度学习方法。近几年～针对卷积神经网络的学习结构上出现了一些改进～其中最具代表的是多伦多大学的Krizhevsky等人在2012年提出的8层卷积神经网络结构[3]～如图2所示～该结构的输入是224 x224的RGB图像～共有5个卷积层和5个Max pooling层～然后是两个全连接层～最后是一个softmax输出层。和图1所示的基本结构相比～图2的结构多了3个卷积层和3个采用Max pooling方式的下采样层～这个结构更适合于像素比较大的图像～而且层次越深～学习出来的语义信息就越丰富。进一步～为了避免过拟合～图2中的两个全连接层还加入了Dropout技术[7]～为了加快训练速度～全连接层的激励函数改为了ReLUs函数[8]～而不是传统的tanh函数和sigmoid函数～同时还在ReLUs激励函数的基础上～增加了局部响应归一化操作～加强了模型的泛化能力。图2所示的结构是目前在图像识别领域应用最多的卷积神经网络结构～在此基础上～香港中文大学的Yi Sun等人提出在第一个全连接层部分～要同时和卷积层及采样层做全连接～而不是只和采样层做全连接～这样做的目的是为了避免信息的丢失[9]。Yi Sun等人把这个改进的结构成功应用于人脸识别～并取得了非常好的效果。2014年～Google公司的Christian 图2. 八层结构的卷积神经网络，图片来源于[3] 等人对卷积神经网络做了比较大的改进～引入了Inception模块～一个Inception模块由多个卷积层和Max pooling层组成～整个网络结构中有9个Inception模块～再加上常规的卷积层、采样层、全连接层和softmax输出层～总共有22层[4]。这个网络结构在ILSVRC 2014比赛中取得了93.4%的识别率～比排名第二的牛津大学的VGG团队[13]高了1个百分点～比ILSVRC 2013的最好结果更是提高了4.5个百分点。识别性能上又有了进一步的飞跃。值得注意的是～在ILSVRC 2014上～几乎所有的参赛队伍都采用了基于卷积神经网络的识别方法～只是在细节的处理上有所不同。不管卷积神经网络的结构如何变化～其思想都是把特征提取和分类器进行有机的整合～通过随机梯度下降的方式进行反向传播～不断的对卷积模板参数和全连接层的参数进行优化～使得最终学习到的特征和分类器接近最优。而传统的方法中～特征提取和分类器是分离的～特征提取是一个无监督的过程～这样提取的特征和训练的分类器通常是次优化的。卷积神经网络的缺点是要学习的参数比较多～并且需要反复迭代～从而导致学习的过程很费时。因此～尽管卷积神经网络在1998年就已被提出～但在之后的10多年间～并未引起学术界的重视。在2012年前～主流的分类器仍然是以支撑向量机[6]为代表的这一类学习速度相对较快的机器学习框架。近几年～由于GPU的出现～使得在一台电脑上实现大规模并行计算成为可能～大大缩短了卷积神经网络的训练时间[3],再加上其优异的识别性能～逐渐成为图像识别领域的主流算法。Google的相似图片搜索引擎的核心算法即是卷积神经网络。Facebook也聘请了卷积神经网络的发明人LeCun作为该公司人工智能实验室的主任。许多著名的大学～如牛津大学、伯克利大学、东京大学等都开展了对卷积神经网络的研究。近两年～针对卷积神经网络的研究在我国也受到了重视～开展相关研究工作的课题组包括中科院自动化所谭铁牛老师课题组、中科院计算所山世光老师课题组、华南理工大学林俊斌老师课题组、哈尔滨工业大学苏统华老师课题组、香港中文大学汤晓欧老师课题组等等。百度公司在2012年成立了深度学习研究院～聘请了包括余凯和吴恩达在内的世界知名的科学家～专门从事包括卷积神经网络在内的深度学习的研究与开发。腾讯、阿里巴巴这些公司也都相继开展了相关研发～并取得了较好的成果。尽管卷积神经网络促进了图像识别领域的飞速发展～但在实际应用中～我们发现～如果测试样本与训练样本在角度、光照、姿态等方面差异较大～卷积神经网络识别错误的可能性仍然较大。比如要识别某一建筑物～如果训练样本中对该建筑物的拍摄角度都是比较垂直正面的～那对于比较倾斜拍摄角度的测试样本～不管对训练模型如何进行优化～模型的识别结果往往还是会出错。尽管卷积神经网络的模型具备了一定的旋转、尺度、位移不变性～但对于差异较大的测试样本依然难以识别正确。因此～为了达到实际应用的需求～一个直接的办法就是构建一个能覆盖各种角度、光照、姿态、遮挡等变化的大规模的训练数据库～即图像大数据训练库。而且～以卷积神经网络为代表的深度学习的特点之一就是训练数据越多～效果就越好。这是因为卷积神经网络参数非常多,例如～图2所示的网络结构的参数个数就达到了6千万,～如此规模的参数～显然需要大数据的支持～才能达到比较理想的识别效果。如何构建一个覆盖实际变化要求的图像大数据库～这是急需解决的一个问题。如果单纯靠人力的办法～将会非常的耗时耗力。文献[3,10]的采取的办法有:1)在一张256 x256的图像上进行随机采样～得到多张224 x224的采样图像,2) 在原有图片上加入一些微小的光照、颜色、噪音扰动,3) 利用主成分分析～在图像的主成分上加入高斯扰动～再对图像进行重构。通过以上的步骤～图像训练库的数据增加了2000多倍～有效的提高了识别率。但以上的方法并没有考虑如何对角度进行自动的变换。卷积神经网络面临的第二个问题是识别效果也容易受背景变化的影响。其原因在于卷积神经网络的输入图像本身包含了各种背景～在特征提取过程中～背景像素也参与了计算。尽管卷积神经网络通过多次的迭代学习过程～能够不断弱化背景图像的影响[12]～但卷积神经网络本身并不具备图像分割的能力～背景图像的存在依然会对最终的识别效果造成很大的影响。Girshic等人提出不要直接对整个图像进行识别～而是先在图像中筛选出可能包含目标物体的矩形区域～对这些候选区域再用卷积神经网络进行判别是否为要识别的目标物体～这样不仅有效的提高了识别率～还能定位出目标物体在图像中的具体位臵[11]。Girshic等人提出的方法的确在很大程度上避免了背景图像的干扰～但每一个候选区域毕竟还是一个矩形区域～不是物体本身的轮廓～因此还是有背景图像的存在～对最终的识别效果还是会产生影响。卷积神经网络面临的第三个问题是训练过程依然比较耗时。在前文中提到～近几年～由于GPU的出现～大大缩短了卷积神经网络的训练时间～但通常也需要几天甚至几周的时间。比如～在ILSVRC提供的训练集上～用文献[3]所述的方法训练一个卷积神经网络模型～大概需要6天左右的时间。为了达到比较好的的识别率～通常需要训练5个甚至更多的卷积神经网络模型。在硬件资源有限的情况下～训练多个模型的时间将会成倍的增加。因此～如何在有限的硬件资源条件下～有效的提高模型训练的效率也是急需解决的一个问题。本项目将开展基于图像大数据的目标识别及应用研究。首先研究如何自动构建一个覆盖实际变化要求的图像大数据训练库。在文献[3,10]的提出的办法基础上～把我们提出的多摄像机之间的单应性约束方法[15]进行改进～使其适合于目标的拍摄角度变化～从而构建一个能覆盖各种角度、光照、姿态、遮挡等变化的大规模的训练数据库～使得训练出来的模型能满足实际的需求,对要识别的目标物体～我们将借鉴语音识别的成功经验[17]～用深度信任网络[18]来代替混合高斯模型的打分机制～提高物体分割的效果～从而达到更好的识别率, 为了有效提高卷积神经网络的训练速度～我们将把网络中最后的全连接层用的线性支撑向量机[19]来替代～在卷积特征不变的情况下～训练多个线性分类器～从而有效的提高训练的时间～而且又不损失精度。 [参考文献] [1] Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. arXiv:1409.0575, 2014. [2] Sanchez, Jorge and Perronnin, Florent, High-dimensional signature compression for large-scale image classif- ycation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011. [3] Krizhevsky, A., Sutskever, I.and Hinton,G.E. ImageNet Classification with Deep Convolutional Neural Net- works. Advances in neural information processing systems (NIPS), MIT Press, Cambridge, MA, 2012. [4] Szegedy, Christian and Liu, Wei and Jia, Yangqing and Sermanet, Pierre and Reed, Scott and Anguelov, Dragomir and Erhan, Dumitru and Vanhoucke, Vincent and Rabinovich, Andrew. Going deeper with convo- lutions.arXiv: 1409.4842, 2014. [5] Y. Lecun, L. Bottou, Y. Bengio and P. Haffner. Gradient-Based Learning Applied To Document Recognition. Proceedings of the IEEE, 86(11): 2278-2324, November, 1998. [6] C.-C. Chang and C.-J. Lin. LIBSVM : a library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27:1--27:27, 2011. [7] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012. th[8] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27Internati- onal Conference on Machine Learning (ICML), 2010. [9] Sun, Yi and Wang, Xiaogang and Tang, Xiaoou. Deep learning face representation from predicting 10,000 classes. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014. [10] Andrew G. Howard. Some improvements on deep convolutional neural network based image classification. CoRR, abs/1312.5402, 2013. [11] Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014. [12] Matthew Zeiler, Rob Fergus. Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision (ECCV), 2014. [13] Simonyan, Karen and Zisserman, Andrew. Very deep convolutional networks for large-scale image recogniti- on. arXiv preprint arXiv:1409.1556, 2014. [16] David G. Lowe. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision (IJCV), 60, 2, pp. 91-110, 2004. [17] Dahl, George E and Yu, Dong and Deng, Li and Acero, Alex, “Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition”, IEEE Transactions on Audio, Speech, and Language Processing, Vol.20,Num.1,pp 30-42, 2012. [18] Hinton, G. E. and Salakhutdinov, R. R.Reducing the dimensionality of data with neural networks. Science, Vol. 313. no. 5786, pp. 504 - 507, 28 July 2006. [19] R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification. Journal of Machine Learning Research, 1871-1874, 9, 2008. 2.项目的研究内容、研究目标,以及拟解决的关键问题。(此部分为重点阐述内容) 研究目标: 通过自动构建图像大数据训练库～分割目标物体和背景～以及加快卷积神经网络的训练过程～达到以下研究目标: (1) 有效的提高图像目标识别的精度～使其能满足实际场景的需求, (2) 能够快速的扩展要识别的目标物体的种类～从而满足用户方方面面的需求, (3) 搭建实用的移动应用系统～以智慧旅游为切入点～为拓展到交通、农业、食品等与图像相关的领域打下基础。研究内容: (1) 图像大数据训练库的自动构建训练数据的丰富性和多样性对模型的识别效果至关重要。我们将研究在小样本的基础上～通过计算机合成的办法～自动对样本进行扩充～使得扩充后的样本能尽可能的覆盖光照、颜色、噪音、角度、遮挡等的变化～从而生成一套自动构建图像大数据训练库的工具。其中～角度变化的样本扩充方面～现有的文献中很少提及～但现实生活中却大量存在～因此将是本项目研究的重点。 (2) 图像中目标物体与背景的自动分割如果要识别的物体都处在单一背景中(比如都是白色的背景)～那用卷积神经网络识别的效果将会非常的好。例如著名的MNIST数据集～包含了0到9这10个数字的各种写法～但背景都是单一的黑色。在MNIST数据集上～卷积神经网络的识别率能达到99.8%以上～超过了人类的识别能力。但如果在MNIST数据集上加入各种背景噪声～那识别率将会有比较明显的下降。因此～设计一种有效的自动背景分割算法～将会对模型训练的效果产生较大的提升。我们将在经典图像分割算法的基础上～进行改进～使分割的效果更加理性。 (3) 快速的卷积神经网络模型训练方法现有的方法中～采用一台主机4块GPU显卡～能比1块显卡的训练速度提升3.75倍。但如前所述～卷积神经网络的学习过程是反向传播～不断迭代的过程～所以即使用4块显卡～仍然还是比较耗时。我们将研究将卷积神经网络和各种分类器进行组合～将卷积神经网络只看成一个特征提取的过程～识别的过程将交个其他能够快速训练的分类器来完成。这里～如何保证在加快训练速度的同时～识别的精度不会有降低将是研究的重点。拟解决的关键问题: (1) 如何对目标物体在各种拍摄角度下的形状进行模拟,是图像大数据训练库的自动构建中的难点和关键点。 (2) 快速有效的图像分割算法。 (3) 如何保证在加快训练速度的同时,识别的精度不会有降低。 3.拟采取的研究方案及可行性分析。(包括有关方法、技术路线、实验手段、关键技术等说明。) 研究方案 (1) 图像大数据训练库的自动构建在光照、颜色、噪音扰动处理以及随机采样上～我们将采用文献[1,2]提出的方法。在图像重构方面～文献[1]是采用主成分分析的方式～为了达到更好的图像重构效果～我们将采用文献[3]提出的受限波尔兹曼机的方式来对图像进行重构。受限玻尔兹曼机是一个单层的随机神经网络～本质上是一个概率图模型。输入层与隐层之间是全连接～但层内神经元之间没有相互连接。每个神经元要么激活(值为1)～要么不激活(值为0)～激活的概率满足sigmoid函数。受限玻尔兹曼机的优点是给定一层神经元的状态时～另外一层神经元的状态是相互独立的。这对于做随机采样来说比较方便～可以分别固定一层～采样另一层～交替进行。将多个受限波尔兹曼机组合在一起～就构成了一个自动编码系统。如图3所示～在第一个虚线框中～由4个受限波尔兹曼机串联组合成一个自动编码系统～输入是一幅图像～每一个矩形框代表了一个受限波尔兹曼机～矩形框中的数字代表了神经元的个数。第一个虚线框展示了如何把一幅图像自动编码成30维向量的过程。第二个虚线框是一个解码过程～是自动编码的一个逆向过程～仍然由自动编码的4个受限波尔兹曼机组成～只是组合顺序上颠倒了过来。通过这样的一个过程～又把30维的编码向量还原成了一幅图像～从而实现了图像的重构。我们将在受限波尔兹曼机各个参数上进行变化～从而构建多个图像重构器～从而生成多张重构的图像样本。图3. 利用受限波尔兹曼机来对图片进行重构的过程,图片来源于[3] 为了实现对拍摄角度的模拟～将把我们提出的多摄像机之间的单应性约束方法[15] 进行改进～使其适合于目标的拍摄角度变化。单应性约束的功能是把一个视角中的映射到另一个视角中去。如图4-3所示～给定世界坐标系中的一点p=(x,y,z)～设其在视角1和视角2中的ww w w 投影点分别为p=(x,y,1)和p=(x,y,1)～单应性约束表示了p和p之间的映射关系。具有说来1211 1 22 2 pHp,?～我们希望找到一个单应性矩阵H～使得～也即 12 ，，，，，，HHH xx11121312,,,,,, ,,yHHHy, ?,,,,12122232,,,,,, 11HHH ,,,,,, ，，，，313233，， H称为由世界坐标系和图像坐标系导出的单应性矩阵。如图4所示～单应性约束可以看成两步投影的过程:对于视角1所在的图像坐标系中的一点p～首先将其投影到世界坐标系1 中的三维点p,然后将p投影到视角2所在的图像坐标系中的一点p。单应性矩阵H的计算ww2 可以通过Direct Linear Transform (DLT)算法[5]来求解～但需要给定两个视角下的四组匹配 (x, y)11 摄像机 1 , y, z)(xwww 摄像机 2 单应性约束 H , y) (x22地面图4.单应性约束。其功能是把一个视角中的一点映射到另一个视角中去。点。也可以通过也即旋转矩阵R和平移矩阵T来求解[6]。在这里～我们采用第二种求解方法。 (2) 图像中目标物体与背景的自动分割为了达到更好的识别率,对要识别的目标物体,我们将用图像分割算法将其从背景中分割出来。我们将在经典的GrabCut图像分割算法基础上,将借鉴语音识别的成功经验[8],用深度信任网络[3]来代替混合高斯模型的打分机制,提高物体分割的效果,从而达到更好的识别率。GrabCut算法基本思想是把图像分割问题与图的最小割问题相关联。首先用一个无向图G=表示要分割的图像,V和E分别是顶点和边的集合。而GrabCut图是在普通图的基础上多了2个顶点,这2个顶点分别用符号“S”和“T”表示,统称为终端顶点,S表示前景终点,T表示背景终点,相应地,边的权值需反映出像素点与前景、背景的相似程度,相邻像素间的颜色差异。GrabCut算法首先需要用户简单交互选定前景和背景样本,对前景、背景区域建立混合高斯模型,并利用 k-means算法初始化混合高斯模型,分别计算节点到前景或背景的距离和相邻节点之间的距离,然后获得分割能量权重,对未知区域构造 S-T网络图,接着采用最大流-最小割算法对其进行切分。GrabCut算法的分割过程是通过迭代不断更新、修正混合高斯模型参数,使算法趋于收敛。因为迭代过程中优化了组参数 ,使得分割能量渐减少,最终能够保证收敛于最小值,最终实现图像分割。 (3) 快速的卷积神经网络模型训练方法为了有效提高卷积神经网络的训练速度,我们将把网络中最后的全连接层用的线性支撑向量机来替代,在卷积特征不变的情况下,训练多个线性分类器,从而有效的提高训练的时间,而且又不损失精度。为了有效的训练线性分类器,将采用我们提出的多示例SVM训练方法[4]。我们的方法可以形式化的描述为,给定一系列的图像,把它们都标记为,Y=1,I i{1,…,n},也即这些图像都是含有目标物体的。对于一张图像中的每个待检测窗口,它们的标记为 y{1,-1}。然后,对于图像中人工标定好的窗口i (DW),设检测出的窗口(DW)和(DW)之间覆盖的区域为表示,为, gtdtgt, (1) 如果>50%,则DW视为正的窗口,否则为负窗口,也即虚警。 ,dt 由此,寻找超平面的过程可以看成以下的最优化过程, (2) 这里,w和b是线性SVM的参数,c>0是误差参数,是松弛因子。 , 公式 ,2,是一个混合整数规划问题,只存在概念上的解。为了得到该式的解析解,我们推导了一个启发优化算法。我们的算法基于以下事实,当我们增加训练样本中的正例时,线性SVM的超平面将向负样本方向移动,也即增加了系统的查全率。而且,我们相信学习的过程是一个迭代训练的过程。算法1 给出了基于SVM的多实例学习的启发优化算法的完整学习过程。 _____________________________________________________________________ 算法1,MIH_SVM //基于SVM的多实例学习的启发优化算法 ____________________________________________________________________ 输入:R: 希望达到的召回率 target R: 第i次循环达到的召回率 i F: 希望达到的虚警率 target F: 第i次循环达到的虚警率 i Pos: 正样本集合 Neg: 负样本集合 PosBags: 正包集合初始化: i=0 用Pos 和 Neg来求取初始的线性SVM参数w, b 使用式(1)来计算正包的R和 F ii while R< R and F>F do itargetitarget for each bag in PosBags do 使用式(1)来DW的类型 dt if DW是虚警then dt 把DW加入Neg中 dt else 把DW加入Pos中 dt end if end for i= i+1 用Pos 和 Neg来求取初始的线性SVM参数w, b 使用式(1)来计算正包的R和 F ii end while Output: (w, b) ____________________________________________________________________ [参考文献] 可行性分析, (4) 本项目的特色与创新之处。通过图像大数据训练库的自动构建, 图像中目标物体与背景的自动分割这两个方面的研究,有效的提高图像目标识别的精度,使其能满足实际场景的需求,通过快速的卷积神经网络模型训练方法,使得我们能够快速的扩展要识别的目标物体的种类,从而满足用户方方面面的需求,通过搭建实用的移动应用平台,以智慧旅游为切入点,为拓展到交通、农业、食品等与图像相关的领域打下基础。 5.年度研究计划及预期研究结果。(包括拟组织的重要学术交流活动、国内外合作与交流计划等。) 年度研究计划 2015年6月——2015年9月,开展前期的资料搜集和准备工作,进行深入的理论分析,并进行简单的实验验证。 2015年10月——2016年6月,进入全面的程序设计和算法测试阶段,通过实验分析不断改进和完善模型细节。 2016年7月——2016年3月,根据前期的研究成果,开发完成一个完整的图像目标识别软件系统,并以旅游文化中的特色产品识别为目标,建立1-2个基于移动端的示范应用。 2017年1月——2017年6月,完成论文的撰写和发表工作,并申请软件著作权,撰写并按时提交结题报告。预期的结果 (1)在高水平的国际期刊和国际会议上发表学术论文5篇以上,其中SCI收录2篇,EI收录3篇。 (2)开发完成一个完整的图像目标识别软件系统,并申请软件著作权1项以上。 (3)根据前期研究成果,以旅游文化中的特色产品识别为目标,建立1-2个基于移动端的示范应用,并撰写研究报告1份。 (二)研究基础与工作条件 1、工作基础。(与本项目相关的研究工作积累和已取得的研究工作成绩。) 目前主要研究进展包括, (1)图像大数据训练库的自动构建目前已实现的功能有,在原有图片上加入一些微小的光照、颜色、噪音扰动,利用主成分分析,在图像的主成分上加入高斯扰动,再对图像进行重构,在图片上进行随机采样。通过以上的步骤,图像训练库的数据增加了2000多倍。在角度变化方面,我们对不同视角之间的单应性约束方法已研究多年,下一步打算对单应性约束方法进行适当的改进,使其适合于目标物体的角度变化。 (2)图像中目标物体与背景的自动分割我们对经典的GrabCut图像分割算法已完全掌握,对该算法开展了大量的实验。并把分割好的图像送入卷积神经网络进行训练,和不做分割的图像训练的结果相比,识别率有2-3个百分点的提高。下一步,我们打算用深度信任网络来代替GrabCut算法中的基于混合高斯模型的打分机制,提高物体分割的效果,从而达到更好的识别率。 (3)快速的卷积神经网络模型训练方法我们在多GPU显卡的并行训练方面,已开展了大量的工作,并取得了一定的效果。在2块显卡并行训练时,速度能提升1.5倍,在4块显卡并行训练时,速度能提升3.6倍。下一步,我们将把卷积神经网络中最后的全连接层用的线性支撑向量机来替代,在卷积特征不变的情况下,训练多个线性分类器,从而有效的提高训练的时间,而且又不损失精度。 2、工作条件。(包括已具备的实验条件，尚缺少的实验条件和拟解决的途径，包括利用现有实验室的计划与落实情况。) 现在学校已经为项目主持人分配了办公室一间,配备了基本的实验办公用品,提供科研用笔记本一台、GPU服务器一台。学校已经购买了国内外多种科技文献数字资源,我们可以及时的查阅到最新的文献资料。学院的智能信息处理实验室正在筹建中,服务器等实验设备已进入招投标环节。 3、申请人简历。(包括申请者和项目组主要成员的学历和研究工作简历，近期已发表与本项目有关的主要论著目录和获得学术奖励情况及在本项目中承担的任务。论著目录要求详细列出所有作者、论著题目、期刊名或出版社名、年、卷(期)、起止页码等;奖励情况也须详细列出全部授奖人员、奖励名称、奖励等级、授奖年等。)

                    本文档为【基于图像大数据的目标识别算法及在智慧旅游中的应用研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于图像大数据的目标识别算法及在智慧旅游中的应用研究

你可能还喜欢