基于视觉的多用户手势识别人机交互技术研究

基于视觉的多用户手势识别人机交互技术研究第20卷增刊 2008年9月系统仿真学报@ JournalofSystemSimulation V01．20Suppl． Sep．，2008 基于视觉的多用户手势识别人机交互技术研究张东明，张国锋，戴树岭 (北京航空航天大学，虚拟现实国家重点实验室，北京100083) 摘要。提出了一种基于视觉手势识男1的多用户榆入技术，利用双手手指在显示屏幕上进行点击和拖拉完成人机交互功能。该方法使用三个摄像机从不同角度实时拍摄显示屏幕表面的图像，运用图像处理技术分析识别手势在图像中的位置，根据三副图像...

第20卷增刊 2008年9月系统仿真学报@ JournalofSystemSimulation V01．20Suppl． Sep．，2008 基于视觉的多用户手势识别人机交互技术研究张东明，张国锋，戴树岭 (北京航空航天大学，虚拟现实国家重点实验室，北京100083) 摘要。提出了一种基于视觉手势识男1的多用户榆入技术，利用双手手指在显示屏幕上进行点击和拖拉完成人机交互功能。该方法使用三个摄像机从不同角度实时拍摄显示屏幕表面的图像，运用图像处理技术分析识别手势在图像中的位置，根据三副图像中的手势位置和摄像机参数计算双手手势输入的实际位置．通过手势识别训练和冗余数据平均计算等方法提高了系统的识别率和鲁棒性．实验表明，该系统具有较强的可用性和适用性．关键词：人机交互；多用户输入；手势识别；手势交互中图分类号：TP391 文献标识码：A 文章编号：1004．73】X(2008)S．0053．04 ResearchonVision—BasedMulti··userGestureRecognition Human-ComputerInteraction ZHANGDong-ming，ZHANGGuo-feng,DAIShu—ling (VimlalRealityLab，BeijingUniversityofAcronaulJcs＆Astronautics，Beijing100083，Chi∞) Abstract：Thispaperpresentsavision-basedmulti··USergesturerecognitionHuman··ComputerInteractionwhichachieves naturalinteractionsthroughclickingandmovingthefingersonthecomputerscreen．Usingthreecamerastocapturevideo imagesofcomputerscreen，andrecognizethefingersusingimageprocessing．Theinputpositionsaredetectedwiththe obtainedfingertippositionsandcamerasparameters．Atrainingprocessofgesturerecognitionandanaveragearithmeticof redundantdataareintroducedtoimprovetheaccuracyandrobustnessofsystem．Experimentalresultsdemonstratethe usabilityandadaptabilityofsystem． Keywords：humancomputerinteraction(HCD；multi-userinput；gesturerecognition；gestureinteraction 引言人机交互是研究人、计算机以及它们间相互影响的技术。人机交互技术的发展过程，是一个从人适应计算机到计算机不断地适应人的发展过程。随着人类对自动化需求的不断提高，传统的窗口、图标、鼠标、指针州IMP)交互方式由于操作的自然性、高效性等方面的缺陷已经无法完全满足人们的需求，同时传统的交互方式只支持单用户操作，已经不能适应新型多用户系统的要求。人机交互技术遵循“以人为中心”的自然交互准则，在日常生活中，人们习惯于用双手与外界进行大部分交互操作。早在20多年前鼠标刚刚问世后不久，BillBuxton就提出了类似的多手输入技术【”，BruceTognazzini也提出了利用多点触摸屏输入技术实现多用户输入【2】。本文根据“双目定位”原理，研究基于视觉的手势识别多用户人机交互技术。在满足用户以手指输入的操作习惯的同时，实现了对多用户输入的支持。基于视觉的手势交互领域目前采用的方法是在显示平面的两个顶角安装两个摄像机，利用摄像机拍摄图像，经过图像处理提取手势，并根据三角定位和坐标变换计算指尖的坐标位置，实现手指的输入【31。此种交互方式的缺陷是只能收稿日期：2008．03-07 修回日期：2008-06—10 作者简介z张东1弭(1983一)，男，吉林人，硕士，研究方向为虚拟现实：张国峰(1963．)．男．黑龙江人，博十，副教授，研究方向为鲁棒控制、虚拟现实、计算机控制与仿真；藏树岭(1966一)，男，河北人。回族，博士．教授，研究方向为虚拟现实技术及其工程应用。 ·53· 支持单用户的输入，本文在此基础上，对现有系统进行了改进，通过使用三个摄像机实现了双手输入的功能，同时利用冗余摄像机数据进行坐标纠正，进一步提高了手势输入识别的精确性和系统的鲁棒性。 1双摄像机定位工作原理及缺陷 1．1【双摄像机定位工作原理基于视觉的手势输入是利用人体双目定位的原理，在显示平面的边缘安装两个摄像机，摄像机的光轴与显示平面平行，利用显示平面边缘的摄像机获取显示平面的图像，由于整个显示平面位于两个摄像机拍摄的交叉范围内，所以在显示平面上的任何物体都会在两个摄像机拍摄的图像中成像，物体的位置不同，成像的位置也就不同。因此通过两个摄像机图像中成像的位置，可以计算出物体的实际位置，以此判断输入点位置【4】。系统原理图如图1所示：图i 双摄像机定位原理图、|邕、．、、＼、、』一、、，■ 一一鹾第20卷增刊 2008年9月系统仿真学报 V01．20Suppl． Sep，2008 在图l的直角坐标系中，设一号摄像机(CCDI)的中心 sl位于原点O，CCD2的中心s2位于x轴的正半轴。CCDl 及CCD2的主光轴PSI，PS2与x轴的锐夹角分别为砷，B0。两摄像头距离S1S2=d0。设物体位于M点，物体在图像中的像高分别为hl。h2。摄像机镜头的焦距为f。MA，MB为物体在摄像机中的主光线，分别交x于A，B。MA与PSl 夹角为71，MB与PS2夹角为尼。根据透镜成像原理可以得出： IIII 见 {2tann，亏2tany2 (1) 利用三角关系可以得到以下公式：口=ao—Yl,p=风一托【z) I碉=／+掣S1na’|两阿+器sin (3)D lAB}I爿S+S是+BS2I (4) 一M：—[ABl*—sinfl (5) sin(a+卢) X=AM‘COS@-As, (6) Y=AM‘sin口 (7) 根据测量数据及摄像机采集的数据，利用以上7个公式可以得出手指输入的实际位置x和Y。 1．2双摄像机定位法在双手输入情况下的缺陷双摄像机的定位系统实现后，可以实现单手输入功能。但是当需要同时检测双手输入时，就会出现问题。如图2 所示，双手M1，M2同时输入时，在CCDl和CCD2中会分别出现两个手部图像，每个摄像机中的两个手部图像对应两条射线，四条射线交叉产生四个交点，因此产生了N1， N2两个伪输入点。由于图像上的双手没有明显区分的标记，所以无法区分四个交点的真伪。四个交点区分为(M1，M2) 和(N1，N2)两组，双手在任意一组中都有可能，无法正确识别双手的输入位置。图2双摄像机定位——双手输入示意图 2三摄像机双手定位原理为了解决双手输入的问题，Cheng等利用卡尔曼滤波方法对每只手进行状态预测，预测手的下一个输入坐标点的范围，去掉伪输入点，确定真实输入坐标【51。此种方法在一定程度上实现了双手输入，但是存在一些诸如双手位置不能太近，输入速度不能过快等限制。 ·54· 本文通过增加一个摄像机，利用三个摄像机实现了双手同时输入的功能，并避免了卡尔曼滤波法的限制。三摄像机系统原理如图3所示，在原有系统中增加摄像机CCD3， CCD3中的两个手势图像有两条射线与其对应，这两条射线与CCDl及CCD2的图像相对应的射线相交，生成新的交点，在新产生的交点中必定有一组交点与(Ml，M2)近似重合，此组交点与(MI，M2)的平均值即为手势输入的近似位置。同时由于计算所得近似输入位置是经过(CCDl， CCD2)和(CCD2，CCD3)两组摄像机数据平均计算得出，使得定位精确性进一步提高。 V ／CCD3溉／／／，-，／务1／N2：：：：：．迁：∑√ ccbl C0／D2 叉图3三摄像机双手定位原理图在三摄像机双手定位系统中，手势可能出现在两个摄像机的连线上，此时手势在两个摄像机中的图像对应的射线是重合的。如图4所示，MI在CCDI和CCD3的连线上，CCDI 和CCD3中M1的图像对应的射线相互重合，无法辨别Ml 和N1的真伪。如前文讨论CCDI和CCD2确定了(Ml， M2)和(N1，N2)两组数据，不可能存在(MI，N1)，(M2， N2)，(M1，N2)，(M2，N1)这样组合的点，因此只要确定MI，M2，Nl，N2中的任意一点为真即可确定另一个点的位置。在MI，Nl无法确定的时候，我们可以确定M2 的位置，因此MI的位置亦可以确定。，，⋯⋯⋯一⋯一⋯⋯⋯一⋯⋯⋯⋯⋯⋯⋯⋯⋯。⋯⋯⋯～： T· ccrY ＼。。夏／／／。 ML，／／／：：’；∽、 ≥≯靠～一’擘二：∑弋，图4三摄像机双手定位——单手位于摄像机连线上如果两个手势均出现在摄像机的连线上，此时两个手势在三个摄像机中的图像对应的多条射线重合，如图5所示， M1在CCDI和CCD3的连线上，CCDI和CCD3中MI的图像对应的射线相互重合，M2在CCD2和CCD3的连线上， CCD2和CCD3中M2的图像对应的射线相互重合，由于在重合的几条射线上有M1，M2，NI三个交点，因此判断手势位置最简单的方法是利用排除法，找到不在重合射线上的点N2，即可排除N1，剩余的MI，M2即为手势输入真实位置。第20卷增刊 2008年9月张东明：基于视觉的多用户手势识别人机交瓦技术研究 V01．20Suppl． Sep．，2008 I‘ ‘、℃耐／黍NI＼／／／7／／，巡三警蕃：：：～～～。，∑／。 3系统结构为提高系统的可移植性和重用性，本文将手势识别功能设计成独立于应用程序的手势识别软件包，与摄像机等硬件设备共同构成手势识别系统，手势识别系统为应用软件提供了标准的鼠标输入消息。因此在开发其他的以手势为输入的应用软件时仅需将开发的重点集中在应用层即可，底层的手势识别功能由手势识别系统实现。如图6所示，手势识别系统可以划分为物理层和识别层两层，物理层主要包含采集视频数据的核心硬件设备——三台摄像机及显示屏幕，物理层将采集到的图像数据实时传送给识别层；识别层主要包含手势识别定位处理软件，利用摄像机采集的视频数据，经过一系列处理，计算出双手与显示屏幕的接触状况及输入的位置，并将输入的坐标转化为鼠标点击、拖拉等消息发送给操作系统，大部分应用软件不需要经过改动或仅需小规模改动即可直接使用，实现了对现有系统的最大兼容性。图6手势识别系统体系结构图 4核心算法研究识别层是整个手势识别系统的核心部分，实现了手势识别定位的主要功能。如图7所示，识别层包含了图像校正、手势识别训练、图像处理、手势识别、点击检测等算法。其中图像校正、图像处理、手势识别相关算法Zhang和xu等人在基于视觉的单手交互的研究过程中已经给出了较好的解决方案【6～，本文重点在双手输入的点击检测算法上进行研究，同时增加了手势识别训练算法，以提高系统定位的精确性。 4．1手势识别训练算法在手势识别定位系统中，由于每个人的手型、肤色各不相同，因此为了使系统适应更多的使用者，提出了一种新的罔慷投正发送 ④i骑D i系统蔷澜一丁斟一翮～周+瘌兰 (堡堡坚y 1 匝互固砸到图7系统核心算法简图训练方法。系统经过简单训练，即可学习人的手型、肤色等特征，适应不同使用者。训练过程设计如下：在新的使用者进行操作之前，以白色屏幕为背景拍摄一系列的使用者操作手势，再分析出合适的阈值。训练结束后即可以利用该阈值进行图像处理，提高手势识别精度。 4．2点击检测算法三摄像机双手定位的核心算法是根据识别出的手势在图片中的位置计算手势的实际点击输入位置，即点击检测算法。点击检测算法依据三摄像机双手定位原理，排除伪输入点，判断真实双手输入坐标值，判别算法流程图如图8所示。二个摄像机中手势数据 ——一一℃CDl和CCD2""-'----．．～图像中手势对应射线是否只有一个～＼奎皇：—／舌判断m单手输入位置Ml，参见图I解决方案参见图4 解决方案参见图5 解决方案是断⋯权手输入位胃Ml，M2 图8点击检测算法流程图 5实验应用本文实验程序运行在主频3．0GHz的Pentium4CPU的计算机，操作系统为WindowsXP，视频采集设备采用普通的CCD摄像机。实验程序的视觉处理速度约为20帧／秒，系统正确识别率约为85％，误识率约为2％，漏识率约为 13％，X、Y坐标的算术平均值误差约为0．75、1．38，且由于镜头非线性畸变的影响，距离显示屏幕中心越远的点识别误差越大。正确识别率略低于双摄像头定位系统，漏识率略 ·55· 第20卷增刊 2008年9月系统仿真学报 V01．20Suppl． Sep．，2008 高，但由于漏识表示向系统发出的输入消息减少，因此漏识率相对于误识率对系统的实用性影响较小。实验证明，系统的实时性和鲁棒性较好。利于三摄像机手势识别系统，可以通过手指来操作所有支持鼠标的应用程序。如图9所示，利用手指可以在Windows 操作系统自带的I田j图程序中进行书写和绘I田-操作。为了演示对双手输入的支持，本文实现了一个简单的多用户操作软 Co) 图9绘图功能示例 (匐缩小固像 m)旋转图像 (c)拉伸图像 (d)拉伸结果图10双手输入交互程序示例件，该软件支持用户使用双手进行图像的放大、缩小、旋转等功能，试验结果如图10所示。 6结论本文对双摄像头单手定位输入系统加以改进，通过增加一个摄像头，实现了三摄像头双手定位输入功能，通过双手手指在显示屏幕上进行点击和拖拉完成人机交互功能，本文通过手势识别训练和冗余数据平均计算等方法提高了系统的识别率和鲁棒性，由于实现了双手输入功能，可以应用于多用户交互领域，具有较好的实用价值。参考文献：【l】 BillBuxton．MultitouchOverview【EB／OL]．Nov,2007／Apt,2008． http：／／wwwbillbuxton．com／multitouch／Overview．html．【2】2 BruceTognazzini．TogonSoftwareDesign【M】．NY：Addison·Wesley, 1996：35-40．【3】PrescottB，McleanGE Line-basedCorrectionofRadialLens Distortion【J】．GraphicalModelsandImageProcessing(S1077·3169)， 1997，59(I)：39-47．【4】王旭．霍炬，杨明．双相机空间定位硬件系统的构成研究阴．自动化技术与应用。2005，24(9)：71-74．【5】陈孝杰，史元春，龚伟．显示表面上基于双摄像机的双笔同时定位 fc]／／第一届建立和昔人机环境联合学术会议(HHME2005)．中国昆明：中国计算机学会多媒体技术专业委员会．2005． (6]6 ZhenyouZhang．AflexiblenewTechniqueforCameraCalibration[J】． IEEETransactionsOnPatternAnalysisandMachineIntelligence (S0162·8828)．2000，22(1I)：1330—1334．【7】徐一华，李善青，贾云得．一种基于视觉的手指屏幕交瓦方法[J】．电子学报，2007，35(1I)：2236．2240． ⋯-m- 一●一⋯●一一一—．_⋯-i-一一●一⋯--II--i-S-⋯●一⋯-m-⋯-m- 一●一一 (上接第52页) 虚拟地理环境基本框架：Ontology．CVGE。等等aCBR为决策群体研讨提供了辅助工具，基于这些辅参考文献：助工具和群体协商成果将会形成问题解决方案t解决方案可 [1】龚建华，林珲．分布式地学虚拟环境研究【J】．中国图形图像学报．以直接施加在地理场景层，通过图形图像技术来模拟该解决 2002，6(9)：879．885．方案的效果。对如路径。所示。 [21 邓志鸿，唐世渭，张铭，等．Ontology研究综述[J】北京大学学报协同虚拟地理环境为群体决策提供了一个很好的支撑 (自然科学版)，2002，38(5)：730-738．、平台。其中，相关领域知识的本体表达为群体决策们提供了～York：HarperBroth哪．1960．。 ‘。一个语义桥梁，消除了决策者们在一些重要概念和术语理解 [41 李文航．协同虚拟地理研讨室的理论及关键技术研究[D】．中国科可能存在的“二义性”，提高了决策效率。同时，协同虚拟地学院博上学位论文．2007．理环境自身具有的人机交互、虚拟现实以及各类信息沟通能 [5】 B8ad。。F’c81””铝。D，M。G“i肌嚣8Dtd甜·111。d髂。ip‘i∞109i。力则可以为问题的直观重现或者是解决方案的预验证提供 c。mbndg。u。i二it；P懈。，2003．～ ?。 i 强有力的支撑。【6】 Guar／noN．Semanticmatching：formalontologicaldistinctionfor 4结论：：：：塞=：：=爻：。慧暑舞≥≮箸：本文围绕面向群体决策的协同虚拟地理环境中基于本如Emerg抽g1n南啊mi伽Te。hn。l。gy．8pring盯V盯189：1997：体的知识表达进行研究，以虚拟森林灭火为例，首先提出了【7】 FinnicGSuz H．R5model衙c丛e．b笛ed嘲。oniIlg【J】．在协同虚拟地理中进行群体决策的迭代过程模型，在此基础 knowledge．Basedsyste吣．2003，16：59-65．上重点分析基于本体的领域知识表达方法，为群体问的知识 is] 唐丽玉，陈崇成，池子文．面向协同式森林灭火决策的领域本体交换提供语义层次上的E￡操作，最后设计了基于本体的协同构建及其解析[J】_地球信息科学，2008，10(3)：3“一349。 ·56‘

                    本文档为【基于视觉的多用户手势识别人机交互技术研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于视觉的多用户手势识别人机交互技术研究

你可能还喜欢