首页 基于局部时空特征的视频人体动作识别研究（可编辑）

基于局部时空特征的视频人体动作识别研究（可编辑）

基于局部时空特征的视频人体动作识别研究（可编辑）基于局部时空特征的视频人体动作识别研究（可编辑）基于局部时空特征的视频人体动作识别研究分类号: 密级: U D C : 编号: 工学硕士学位论文基于局部时空特征的视频人体动作识别研究硕士研究生 :汪涛指导教师 :张磊教授学科、专业 :信号与信息处理论文主审人 :陈涛副教授哈尔滨工程大学 2013 年3 月分类号: 密级: U D C : 编号: 工学硕士学位论文基于局部时空特征的视频人体动作识别研究硕士研究生 :汪涛指导教师 :张磊教授...

基于局部时空特征的视频人体动作识别研究（可编辑）基于局部时空特征的视频人体动作识别研究分类号: 密级: U D C : 编号: 工学硕士学位论文基于局部时空特征的视频人体动作识别研究硕士研究生 :汪涛指导教师 :张磊教授学科、专业 :信号与信息处理论文主审人 :陈涛副教授哈尔滨工程大学 2013 年3 月分类号: 密级: U D C : 编号: 工学硕士学位论文基于局部时空特征的视频人体动作识别研究硕士研究生 :汪涛指导教师 :张磊教授学位级别 :工学硕士学科、专业 :信号与信息处理所在单位 :信息与通信工程学院论文提交日期 :2013 年3 月4 日论文答辩日期 :2013 年3 月12 日学位授予单位 :哈尔滨工程大学 Classified Index : U.D.C : A Dissertation for the Degree of M.Eng Study of Video Human Action Recognition Based on Local Spatio-Temporal Features Candidate: Wang Tao Supervisor: Prof. Zhang Lei Academic Degree Applied for: Master of Engineering Specialty: Signal and Information Process Date of Submission: March . 4, 2013 Date of Oral Examination: March. 12, 2013 University: Harbin Engineering University 哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作，是在导师的指导下，由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出，并与参考文献相对应。除文中已注明引用的内容外，本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字): 日期: 年月日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定，即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索，可采用影印、缩印或扫描等复制手段保存和汇编本学位论文，可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文(?在授予学位后即可 ?在授予学位 12 个月后 ?解密后)由哈尔滨工程大学送交有关部门进行保存、汇编等。作者(签字): 导师(签字): 日期: 年月日年月日基于局部时空特征的视频人体动作识别研究摘要在如今的计算机视觉以及多媒体系统中，自动识别和解释人类行为受到研究人员的极大关注，这种研究已经应用到多媒体内容的检索与分类以及人机互动与监控系统中。相关的工作焦点集中在利用移动模式中的局部时空描述技术来描述人体的动作。通过在时空域中检测和描述特征算法来获得特征描述子，也就是时空特征。由于基于局部时空特征的表达对在尺度、方向和光照的改变下依然具有良好的稳定性特点，所以本文基于局部时空特征对视频人体动作识别开展研究。本文首先分析了传统的视频人体动作识别系统的基本原理，根据系统结构中的各个模块将系统分为特征提取以及模型匹配。在特征提取的过程中针对现有的特征提取算法的缺点，提出了一种新的特征提取方法;而在模型匹配过程中，针对传统的基于 BoW 模型在编码过程中有较多的重构错误的缺点，提出用稀疏编码代替矢量量化来进行编码，并结合三个正交平面 (three orthogonal planes，TOP )映射的空间金字塔以及 pooling 模型来进行识别前的表达，通过将视频数据库分为比例为7:3 的训练视频与测试视频的实验分配方式，验证了此系统的有效性。另外，本文还研究了基于实例到类(instance-to-class，I2C )距离的人体动作识别，提出直接通过朴素贝叶斯最近邻 (NBNN )算法及其变种局部朴素贝叶斯最近邻 (LNBNN )算法直接对测试视频进行分类识别，通过对视频数据库的实验仿真，对比传统的基于实例到实例(instance-to-instance，I2I )的SVM 分类算法有比较明显的性能提高。关键词:局部时空特征;人体动作识别;稀疏编码;I2C 距离哈尔滨工程大学硕士学位论文基于局部时空特征的视频人体动作识别研究 ABSTRACT Nowdays ，in the field of computer vision and multimedia systems, the scientific community has given particular attention to the automatic recognition and interpretation of human behaviours. The applications of such research are in the context of classification and retrieval of multimedia contents, humancomputer interaction and surveillance systems. Recent works have been focused on describing human actions using local description techniques of moving patterns. The description is achieved through algorithms that detect and describe features who are named ‘space-time interest points’ in the spatio-temporal domain.Representation based on local spatio-temporal feature has very good stability even if some action is changing of scale or orientation or illumination ，therefor ，the focus of this paper researches video human action recognition based on local spatio-temporal feature. Firstly,this paper analyzes the basic traditional principles of video human action recognition system. According to various modules in the system,the system is divided into feature extraction and model matching.In order to reduce the influence of the shortcomings of common feature detector algorithm,this paper puts forward to a new feature extraction method. Then,in the phase of model matching, traditionally,the BoW model has much more reconstruction error due to the more restrictive constraint ，this paper puts forward to representation before recognition using sparse coding instead of vector quantization,and combines space pyramid with mapping three orthogonal planes TOP under pooling model.At last, this paper designs experiments which divids video database into training video and testing video by the ratio of 7:3,which verifies the effctiveness of this system. In addition,this paper studies video human action recognition based on instance-to-class I2C distance .And it puts forward to using Naive Bayes Nearest Neighbor algorithm NBNN and Local Naive Bayes Nearest Neighbor algorithm LNBNN to classify test videos directly. Through experiment simulation, video human action recognition based on I2C distance has a more obvious performance improvement compared to the traditional SVM classification which is based on instance-to-instance I2I distance. Key words: Local spatio-temporal feature;Human action recongnition;Sparse coding;I2C distance 哈尔滨工程大学硕士学位论文基于局部时空特征的视频人体动作研究目录第1 章绪论............................................................................................................................. 1 1.1 课题研究的目的及意义............................................................................................. 1 1.2 课题研究的现状.........................................................................................................2 1.2.1 人体动作识别研究的现状......................................................... ......................2 1.2.2 相关研究中存在的问题...................................................................................5 1.3 论文的研究内容.........................................................................................................6 1.4 本文的主要组织框架.................................................................................................6 第2 章视频人体动作识别系统.............................................................................................8 2.1 文本分类和检索.........................................................................................................8 2.2 图像和物体检索.........................................................................................................9 2.3 人体动作识别........................................................................................................... 10 2.4 动作识别的基本算法............................................................................................... 11 2.4.1 K-means 算法................................................................................................ 11 2.4.1 SVM 算法...................................................................................................... 12 2.5 本章小结......................................................... .......................................................... 14 第3 章时空兴趣点检测与描述........................................................................................... 15 3.1 3D corner 检测器...................................................................................................... 15 3.1.1 Harris-Laplace (2D ).................................................................................. 15 3.1.2 3D Harris ......................................................................................................... 16 3.2 周期特征检测器....................................................................................................... 17 3.3 新时空检测器........................................................................................................... 18 3.3.1 帧差分............................................................................................................. 18 3.3.2 可控滤波器..................................................................................................... 18 3.3.3 时间Gabor 滤波器......................................................................................... 19 3.4 3D 时空兴趣点描述.................................................................................................20 3.4.1 梯度方向直方图.............................................................................................21 3.4.2 光流.................................................................................................................21 3.4.3 联合HOG 和HOF 描述子............................................................................22 3.5 本章小结...................................................................................................................22 哈尔滨工程大学硕士学位论文第4 章基于稀疏编码结构映射的人体动作识别...............................................................24 4.1 从矢量量化(VQ )到稀疏编码 (SC )................................................................24 4.2 基于TOP 的空间金字塔匹配.................................................................................25 4.2.1 空间金字塔匹配.............................................................................................26 4.2.2 基于TOP 的空间金字塔匹配.......................................................................26 4.3 pooling ...............................................................................................................27 4.4 实验数据库...............................................................................................................28 4.4.1 KTH 数据库....................................................................................................29 4.4.2 HMDB 数据库................................................................................................29 4.5 实验设计与结果分析...............................................................................................31 4.5 本章小结...................................................................................................................34 第5 章基于I2C 距离的人体动作识别...............................................................................35 5.1 关于距离...................................................................................................................35 5.2 基于I2C 距离分类...................................................................................................36 5.3 实验设计与结果分析...............................................................................................40 5.3.1 KTH 数据库结果分析....................................................................................40 5.3.2 HMDB 数据库结果分析......................................................... .......................42 5.4 本章小结...................................................................................................................44 结论...........................................................................................................................................45 参考文献...................................................................................................................................47 攻读硕士学位期间发表的论文和取得的科研成果...............................................................51 致谢......................................................... ........................................................... .......................52 第1 章绪论第1 章绪论 1.1 课题研究的目的及意义现代计算机的记忆力与运算速度越来越快，然而计算机对人的依赖并没有变弱;人 [1] 类感知外部世界约 80%的信息是由视觉获取的，如何利用计算机的优势让计算机具有人类视觉功能，并使之能自主学习、理解和分析周围人或者事物的活动的能力，这是下一代智能计算机的重要组成部分。因此，基于视觉的人体动作分析正是计算机视觉的重要研究方向，它将计算机 “看人”转变成“理解人”。人体动作识别主要的任务是从一个未知的视频中自动地分析目前正在发生的行为动作，让计算机能够自动地分析场景中的人在“干什么”，其主要方法是从图像序列中提取各种运动特征，并通过分类器训练和判断行为类别。人体动作识别如今已是计算机视觉研究中比较重要的一个领域，人体动作识别和分析如今在计算机视觉，机器人技术和人工智能通信方面已经获得了越来越重要的重视，这是由于计算机的运算速度越来越快，大量的数据和信息被存储和处理，从视频中分析复杂的人体动作具有广阔的应用前景。比如自动化监测系统，娱乐产业，机器人学习和工业控制领域等。在自动化监测系统方面，尤其是在机场和地铁站或者是在火车站等人比较多的公共场所，需要从正常的行为中检测出异常和可疑的行为动作。例如，在机场中自动化监测系统必须自动地识别出象“一个人丢下了一个手提包”或者“一个人把他/她的包放进了一个垃圾箱里”这样的可疑行为。这种方式突破了传统以人工处理为主要手段的监控方式，节省了大量的人力成本。识别人类的活动同样也能实现对患者、儿童、老年人以及残疾人的实时监测，保护人的生命安全。在娱乐产业中，人们主要的兴趣点在于动作捕捉与分析，尤其是在电影制作中，精确的动作捕捉往往能代替一个演员，比如在电影《阿凡达》中。在计算机游戏中，游戏设计者通常利用动作捕捉技术来实现数字动画，以达到游戏者通过他们的身体移动和计算机游戏互动的目的，比如在索尼EyeToy 游戏。理想情况下，在电影和计算机游戏中动作捕捉应实现演员或者游戏者本身不需要穿戴特殊的额外的装备。在计算机游戏中需要能够以一个比较鲁棒和可靠的方式来分析游戏者的动作，以达到最大的娱乐度。在机器人学习和工业控制方面，人机通信也必须将视觉信息作为主要的通信方式，例如在大型的机器控制上人们可以通过表情，姿势或者相关动作来简单地控制机器，不 1 哈尔滨工程大学硕士学位论文仅有效的提高了工作效率，同样也能保障人身安全。因此在这些方面，动作识别常常被认为是一个加上时间维度的模式匹配问题，提高图像质量，减少输入数据的噪声和发展可靠的动作表达和识别方法是有必要的。 1.2 课题研究的现状 1.2.1 人体动作识别研究的现状人类的行为有各种类型，根据它们的复杂程度，我们一般将它们分为四种不同行为 [2] 类型 :姿势(gestures )，动作(actions )，交互动作(interactions )，群体行为(group activities )。姿势是指一个人身体的一个部位的的基本移动，它是一个人有意义的行为的最基本的单元，比如“伸展一个手臂”或者“抬起一直腿”都是非常标准的姿势例子。而动作是多个姿势按时间顺序组成的个人行为，比如“走”，“挥手”，“打拳”等等。交互动作则是包含俩个或者是更多的人或者是物体参与的这样一个行为过程，例如“俩个人打架”是俩个人之间的交互动作，而“一个人从另外一个人那儿偷了一个手提包” 则是包含俩个人和一个物体之间的交互动作。最后，群体行为是指由多个人或者物体共同参与组成的行为过程，“一群人在游行”、“一群人开一个会议”和“俩群人在打架” 等都属于典型的群体行为。这四种行为的复杂程度从前往后一个比一个复杂。目前国内外人体动作识别研究都处在快速发展阶段，无论从技术层面还是从应用层面来看，都取得了很大的进步。图1.1 是研究方法的结构树，所有的动作识别首先分为两大类:单层方法和分层方法。单层方法是直接基于图像序列来表达和识别人体动作，此类方法由于本身的序列特性适用于姿势和动作识别;而分层方法通过描述其它简单的行为来表达高水平的人类活动，识别系统由多层构成，主要应用于复杂行为分析。时空卷时空方法轨迹时空特征单层方法基于样例序列方法基于模型动作识别统计方法分层方法语义方法基于描述的方法图1.1 人体动作识别研究方法的结构树 2 第1 章绪论多层方法根据基于识别方法上分为三类:统计方法，语义方法和基于描述的方法。统计方法是通过建立统计基于状态的串联分层模型来表达和识别高水平的人类活动;类似的，语义方法是利用一个语法的语义比如SCFG (stochastic context-free grammar )来建立连续动作的模型;基于描述的方法通过描述行为的子动作和行为的时间、空间和逻辑结构来表达人类行为。其中基于局部时空兴趣点的单层方法是通过从3D 时空卷中提取局部特征来表达和识别人体动作。类似于物体识别过程，基于局部时空兴趣点方法的系统首先从3D 时空卷中提取局部特征，这种特征必须是能够捕捉人体的局部动作信息，其次用合适的描述方法将这些特征描述出来，最后识别算法应用于对这些动作分类，见图 1.2 。由于对在尺度、方向和光照的改变下依然具有良好的稳定性特点，基于局部时空兴趣点的单层方法越来越受人们的关注，正是由于如此好的特性，本文选取基于时空局部特征的视频动作方法重点研究。动作特征分析动作特征提取分类器训练识别结果图1.2 人体行为识别的一般过程 Chomat 和 Crowley[3]提出用局部外观来描述动作，他们利用运动能量感受野(Motion energy receptive fields )和Gobar 滤波从一个图像序列中捕捉动作信息，并且首次利用计算在每一个像素位置一个动作发生的局部概率，最后集成来识别动作的方法，这种方法只能识别比如“来”、 “去”、 “左”和 “右”这样的简单姿势。 Zelnik-Manor 和 Irani[4]提出在多时间尺度上利用局部时空特征的方法，多时间尺度视频卷用于分析处理一个动作的执行速度变化，对 3D (XYT )时空卷中的每一个点，他们计算归一化的局部亮度梯度，然后计算每个视频中的这些时空梯度直方图，提出了一个基于直方图的距离测量方法，同时应用非监督聚类算法来学习动作，于是便能识别 [5] 出篮球运动和网球运动这样的视频动作。相似的，Blank 等人计算每一帧的局部特征，只不过他们选取利用光流来计算局部特征，而分类的时候采用简单的最邻近分类算法来识别动作，改进了识别效果，能识别出像“走”和 “跳”这样的简单动作。从另外的方面来考虑，很多文献中也出现了从视频卷提取稀疏局部特征来表达动作。Laptev 和Lindeberg[6]最先通过从视频中提取稀疏时空兴趣点来识别人体动作。他们应用加入时间约束将二维图像平面的 Harris 兴趣点算子扩展到三维时空 Harris 兴趣点算子，并通过检测3D (XYT )时空corner 来检测时间和空间中变化最剧烈的局部结构。 3 哈尔滨工程大学硕士学位论文由于这些特征点具有尺度不变的特性，这种方法能识别出具有复杂背景的人体动作。 [7] Willems 等人引入3D Hessian 矩阵通过测量极值来检测时空兴趣点，实现了不用任何迭代处理就能同时对位置和尺度兴趣点进行定位，作者在整个视频结构上加入了 [8] [6] box-filter 的处理，提高了检测器的速度。Schuldt 等人利用Laptev 和Lindeberg 的特征提取方法加上应用SVM 分类算法能实现多动作的识别。 Dollar 和Rabaud[9]提出了一种新的时空特征检测方法。他们在2D 图像平面进行高斯滤波和在时间轴上1D Gabor 滤波得到时空兴趣点，并利用小的3D 卷(cuboid )来捕捉这些兴趣点的邻近位置的像素值，选择亮度梯度的向量来描述这些局部特征，最终采用 K-means 算法来识别。这种方法不仅能识别老鼠的行为还能识别人体动作。Niebles [10] 等人基于Dollar 特征提取方法提出了一种新的非监督学习和分类算法，这种识别方法是一种生成的方法，通过收集时空特征作为一个动作类的模型，并通过利用文本挖掘领域中常用的概率潜在语义分析方法来识别动作统计，因此，他们能够识别诸如花样滑冰这样稍微复杂的动作。在此背景下，各种各样的时空特征提取方法应运而出。Yilmaz 和Shah[11]提出从3D 轮廓串中提取一种叫做动作草图的稀疏特征的识别方法，这种方法具有视角不变特性。 [12] Scovanner 等人设计了一个类似于Dollar 的cuboid 特征提取方法叫做3D-SIFT 描述器。 [13] [14] Liu 等人提出利用紫色cuboid 特征来选择重要和有意义的特征。Bregonzio 等人提出了一种改进的提取cuboid 特征的检测器，特征选择方法类似于Liu 。Rapantzikos 等人[15] 利用颜色和动作信息来扩展cuboid 特征。在大多数的这些利用稀疏局部特征的方法中，在检测兴趣点的过程中空间和时间的关系常常被忽略。上述的方法由于在特征中没有利用空间和时间的关系因而可用于简单的动作的识别，这和物体识别忽略局部特征的空间关系相似，通常被称为词袋 (bag-of-words ，BoW )。词袋方法能够成功的应用于简单的周期动作。近年来，动作识别在局部特征中考虑空间配置的方法越来越引起人们的重视。不像基于词袋范式的方法，这些方法尝试在提取的特征中模拟时空分布以为了得到更好地识 [16] [10] 别效果。Wong 等人扩展了pLSA ，在此基础上提出了一种基于pLSA 的隐藏形状模 [10] 型(pLSA-ISM )。对比Niebles 等人的pLSA 方法，pLSA-ISM 方法从动作中心中能 [17] 捕捉特征的时空局部信息，成功的从KTH 数据库中进行动作的识别和定位。 [18] Savarese 等人提出了一种从特征中捕捉时空邻近信息的方法。从每个动作视频中，他们在一个局部的3D 区域中测量特征共生模式，构造了一种叫做ST-correlograms 的直 [19] [20] 方图。Liu and Shah 同样考虑了特征中的相互关系。相似地，Laptev 等人通过将整个 4 第1 章绪论的时空卷划分成几个网格的形式构造了时空直方图，这种方法通过分析哪种特征在哪个网格来测量3DXYT 空间中的局部特征描述的分布情况。这些方法同样在KTH 数据库 [20] 上做过测试，获得了成功的识别结果。值得注意的是，Laptev 等人测试了从各种电影场景中获得的实际的视频。 Ryoo 和Aggarwal[21]提出了时空关系匹配(STR )方法，明确地考虑了识别动作中的检测特征的空间和时间关系。他们通过计算在局部特征中成对(before 和during )的时空关系来测量构造两个视频的相似性，能够检测和定位复杂结构的动作，他们的系统不仅分类简单的动作(KTH 数据库)，同样能从连续视频中识别相互作用的动作(握手和推人)。 1.2.2 相关研究中存在的问题近 10 年以来，虽然视觉人体动作识别研究发展迅速，已经取得了较长的进步，市面上已经出现简单的手势识别产品，但对于整个人体动作来讲，远未能达到能够应用的地步。在实际的视频人体动作识别中存在着许多问题。归纳起来，基于局部时空特征的 [49] 视频人体动作识别的应用主要面临着以下几点问题 : (1)由于人体动作是非刚性运动，人体动作识别主要涉及人体动作如何表达以及如何分类两个问题。即使是同一种动作，动作内部和类型之间的变化也往往是多样的。比如说跑步这个动作，每个人跑步的幅度不同，跑步的速度也不同;或者是非周期性的运动比如弯腰或者转身等等，另外人体衣着对人体动作的观测也有可能是不一样的。因此寻求鲁棒的人体动作表达算法是目前的一个难题，目前也常常通过需求合适识别算法来克服这个问题。 (2 )在视频人体动作识别中，由于摄像机和人体之间距离的不同，动作的尺度大小也会不一样，在提取视频人体动作特征时，需要适应尺度变化特征。此外，人体动作必须在不同时间上的位置也要表现出来。现有的动作识别方法很多是假设人体动作已经从时间域上分割出来，即必须要给定动作的开始帧和结束帧。动作的持续时间长度被动作执行的速度所决定，因而会对最后的识别结果产生影响，人体动作识别算法需要对人体动作的执行速度具有鲁棒性。 (3 )用摄像机采集人体动作视频采集环境时，采集背景有时候会比较复杂，动作常常受障碍物的遮挡，环境受到不同光照时也会影响动作执行者的外观，这时固定不变的动作外观模型常常会失去作用，更好地适应这些变化也是视频动作识别所要研究的。另外在摄像机抖动的情况下，人体运动模型也会无规律地变化。 5 哈尔滨工程大学硕士学位论文 1.3 论文的研究内容本文详细的阐述了基于局部时空特征的视频人体动作识别系统的基本理论以及系统各个部分常用算法，主要研究如下: (1)视频人体动作识别系统基本原理研究，包括基本的BoW 模型、K-means 聚类算法和SVM 分类算法等。 (2 )从兴趣点检测的角度出发，研究了常用的一些算法如3D harris 检测器和周期性特征检测器，提出了一种新的检测算法;从兴趣点描述的角度出发，研究了常用局部时空特征描述算法(HOG/HOF 描述子)。 (3 )从增强特征的表达出发，研究稀疏编码以及空间金字塔在视频人体动作识别中的表达以及应用。提出了用稀疏编码代替矢量量化来进行编码，并结合三个正交平面映射的空间金字塔以及 pooling 模型来进行识别前的表达。通过选取合适的实验数据库，设计合理的实验方案，来验证算法的有效性。 (4 )从识别算法中的距离角度出发，研究了基于 I2C 距离的人体动作识别，整理并分析图像分类中的距离类型并将其扩展至视频人体动作分类中，研究朴素最近邻 (NBNN )算法以及它的变种LNBNN 算法和NBNN 核算法在人体动作识别中的应用; 通过设计合理的实验方案，对实验结果进行分析总结。 1.4 本文的主要组织框架本论文的章节安排如下: 第1 章绪论，介绍课题研究目的和意义，人体动作识别的国内外研究现状，主要是基于局部时空特征的人体动作识别的研究现状，相关研究中出现的问题。第2 章介绍视频人体动作系统的基本原理以及相关的基本算法。第3 章主要对人体的动作表达进行分析，主要的局部时空兴趣点检测算法分析以及改进。研究选取合适的特征描述算法。第4 章是基于稀疏编码结构映射的人体动作识别研究。第5 章是基于I2C 距离的人体动作识别研究。本论文的主要研究内容与各章节的对应关系如图1.3 所示。 6 第1 章绪论兴趣点检测与 3D Harris,Dollar ’, 描述 STSD ，HOG/HOF 第2章第3章人体动作特征表达和增强 VQ，SC，TOP ，识别 pooling 第4章 I2C,SVM ，NBNN ，分类识别 LNBNN,NBNN核第5章图1.3 论文主要研究内容及与各章节关系 7 哈尔滨工程大学硕士学位论文第2 章视频人体动作识别系统在许多分类问题上，一个主要原则问题是要考虑如何有效地建立一个分类系统，以达到正确的表达数据的目的。现在这个问题就是找到一种有效地对数据的描述，这样能够正确的探索出数据与他们所在类之间的关系。BoW (Bag of Words )模型就是一种在自然语言处理和信息检索中应用到的简单并且有效的方法。下面简单的介绍下BoW 模型在文本分类和检索中的应用，以及其在视觉领域中的物体识别应用，最后将进一步研究这种模型如何在人体动作识别系统中的使用。 2.1 文本分类和检索在文本检索系统中，一个文本(比如一个文档，一个网页或者句子)被表示成一个无序的词汇的集合，这个集合的特点就是无视语法、标点符号甚至词序。一般地，BoW 模型一般由下列标准步骤构成: 1. 这些文档首先被解析成单词的形式存在。 2. 这些单词通过它们的词根来表达，比如‘walk’, ‘walking’ 和 ‘walks’被词根‘walk’ 来表达。 3. 一个停用词表用来过滤非常常见的词汇，比如‘the’, ‘an’ 等等，这种词汇在大多数文档中出现的频率很高但对特定的文档却有没有任何的区别作用。 4. 剩下的单词被分配为一个唯一的标识符。 5. 最后，每一个文档被表达成一个向量，而这个特定的向量是由这个文档中包含的有鉴别作用的词汇根据其出现的频率组合而成的。上述的组合能被各种不同的方式加权，比如 tf-idf (词的频率-逆文档频率)或者在一个网页搜索引擎中，网络页面的加权同样依靠链接到那个特殊页面的网络页面的数量。而在检索阶段，一个文本被表达成计算它的词频的向量，然后对比其它文档，返回一个最为接近的向量的文档。另外，有序的匹配和分离的单词可以被用于返回的文档的排序。分类中常见得分类器有 kNN (k-Nearest Neighbors )，SVM (Support Vector Machines )，naives Bayes 。 8 第2 章视频人体动作识别系统 2.2 图像和物体检索 Sivic 和Zisserman[22][23]将BoW 模型扩展应用至视觉领域中。在他们的工作中，根据文本检索的方法一步一步研究了BoW 模型在视觉领域的可行性，从视觉描述子到视觉词汇中的矢量量化，再到矢量模型的加权和索引。在这里词汇被定义为视觉单词或者码词，而码词的获得是通过检测一幅图像的兴趣点然后对这些兴趣点周围的区域进行描述的结果。这些方法通常运用最稳定极值区域法 (MSER[24] )和尺度不变特征变换法(SIFT[25] )。这些方法中一个必要的步骤是需要建立一个码书，或者被叫做视觉词汇，类似于一个单词字典。在前边的步骤中视觉单词的提取因而需要被聚集在一个小的和基本的数量的视觉单词，而这个基本数量的视觉单词就是代表了码书。一个简单的方法就是应用 K-means 聚类所有的向量。码词就是被定义为学习聚类的中心。聚类阶段可以被看成是文本检索中的相对应的词汇。聚类中心的数量就是码书的大小，类似于单词字典的大小，这可能适应了在不同数据和任务中完成的聚类算法。从不同的角度或者在不同条件下看，兴趣点的聚集表达了一个物体的一部分或者一个场景的一部分。一个基本原因是同一个类的对象可能有一个较高的类间变化，但是在每一个类里某些特征是相同的。举一个例子来说，一辆摩托车总是由轮胎，车镜，车座等构成，而这些部件在各种场景中总是非常彼此相似的。一个基本原型是通过建立直方图来表达每个物体或者场景的视觉单词。图 2.1 是将 BoW 模型应用于一辆摩托车的示意图。这辆摩托车是由量化局部区域(视觉单词)的直方图来表达，这种模型因为忽略了区域间的空间结构信息，所以计算简单适用。图2.1 BoW 模型应用实例 BoW 模型的优势是其简单性和相对少量的监管需求。在物体识别中，数据只是被标记为图像中一个物体的存在或者是不存在，物体分割或者边界盒子是不需要的。然而，这种方法能够对整个图像分类却不能够分类局部物体。在现实世界数据(PASCAL 视觉 [26] 物体分类挑战 )中方法对比中，BoW 模型却取得了非常良好的性能，尽管缺乏任何模型的空间结构信息。 9 哈尔滨工程大学硕士学位论文在视觉领域的学习方法中，比如在物体识别中，能被用到的方法包括朴素贝叶斯，分层贝叶斯模型，或者判别模型如KNN,SVM,Adaboost. 2.3 人体动作识别 [9] 在人体动作识别中用到的是BoW 模型在视频序列中的扩展应用，Dollar 在曾经介绍过。第一步，利用特征检测算法在视频中检测出感兴趣动作发生的区域，称为 STIPs (Space-Time Interest Points )检测，图2.2 显示了视频里一个人挥着手的动作并检测出时空兴趣点(STIPs )。 a 兴趣点检测 b 视频盒子图2.2 时空兴趣点(STIPs)(红色点) 第二步，从每个时空兴趣点周围可以提取小的视频盒子(video patches or cuboids )，它们表达的是动作的局部信息，这将用于学习和识别不同的人体动作。每个视频盒子用一种或者联合几种特征描述算法来进行特征数据的量化，这被叫做时空兴趣点描述 (space-time interest points description )。图2.2 中图b 是这种小的视频盒子的提取演示。那么一个视频序列就将被视频盒子描述所表达，原视频序列就可以被丢弃了。第三步，识别分类。识别分类过程分为训练阶段和测试阶段。在训练阶段，视觉词汇(也被叫做码书)的建立通过从所有训练视频提取的特征描述子来聚类。聚类的时候常用K-means 算法，每个聚类中心被称为时空单词，而这个时空单词的长度取决于提取的相对应的特征描述子的长度。每个特征描述通常运用欧氏距离来分配到最近的视觉单词，每个训练视频将被计算成几个时空单词组合的直方图。因此，每个视频都能用码书中的时空单词表达成一个直方图，直方图数据通常通过支持向量机(SVM)训练成可分类的模型。在测试阶段，一个基本的方法是:对每个测试视频，STIPs 被检测和描述成 10 第2 章视频人体动作识别系统特征向量，每个特征描述子被成功分配至码书中最近的视觉单词，然后生成一个由若干时空单词组成的直方图，最后经过 SVM 分类算法进行类别划分。图2.3 是人体动作识别的整个流程结构图。训练阶段测试阶段训练测试视频视频兴趣点检测兴趣点检测兴趣点描述兴趣点描述生成码书生成每个视生成每个视频的直方图频的直方图训练分类分类存储模型识别图2.3 人体动作识别的整个流程结构图 2.4 动作识别的基本算法在动作识别中，两个经典的基本算法是K-means 算法和 SVM 算法，下面简单介绍一下这两种算法。 2.4.1 K-means 算法 [27] K-means 算法是一种非常有效的著名的聚类算法。给定一组观察值 x ,x ,...,x ， 1 2 N x 这里每个观察值是一个d 维的实值向量，K-means 聚类算法的目的是将这组值分成k i ? T T T k ? N N ?k 个部分。定义为第j 个聚类的参数化表达，? ?[? ,...,? ] ，，U 是一个大 j 1 k 小的矩阵，它的第(i，j )元素值等于u x ，最小化函数: j i N k 2 J ?,U ??u x ??? 2-1 ij i j i 1 j 1 u 式 2-1 系数需满足: ij 11 哈尔滨工程大学硕士学位论文 uij ? 0,1 , j 1,...,k 2-2 并且 k ?uij 1 2-3 j 1 算法流程如下所示: 1. 对所有的选择随机初始化值? 0 ，。 ?j j j 1,...,k 2. 重复下面的过程: ―for i 1 to N ? 对寻找离最近的值 x ? i j ? 设定b i j ―End for ―for j 1 to k ? 参数更新:将的均值作为新的，。 xi ?X ?j b i j ―End For 3. 直到在两次迭代中不再变化，算法结束。 ? j 这种算法的主要优势是它的计算简单。然而，它不能保证J ?,U 在全局收敛;不同的初始化分区可能导致K-means 算法产生不同的最终聚类结果，对应于一个不同的局部最小J ?,U 因而每次会产生一个不同的码书。这个问题将通过计算多次实验的平均结果值来解决。 2.4.1 SVM 算法 [28] 支持向量机 (Support Vector Machine，SVM )是一种应用于分类的监管学习方法。在一个 n 维空间里，给定两组向量数据集，SVM 在这个空间构造一个超平面，并且最大化这两个数据集的差异。 x ,i 1,2,...,N y 给定一个训练数据集X ，其中 i 是其特征向量，是它们的类别标签(+1 i w w w w 是，-1 是 )，那么由参数和定义的优化超平面，可以通过公式 2-1 来优化寻 1 2 0 找: 最小化: 1 2 N J ?w,w ,? ? w ??C ?? 2-4 0 i 2 i 1 约束条件: 12 第2 章视频人体动作识别系统 T 2-5 y [w ? x ?w ]?1?? ,i 1,2,...,N i i 0 i

                    本文档为【基于局部时空特征的视频人体动作识别研究（可编辑）】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于局部时空特征的视频人体动作识别研究（可编辑）

你可能还喜欢