首页 基于视觉的多用户手势识别人机交互技术研究

基于视觉的多用户手势识别人机交互技术研究

举报
开通vip

基于视觉的多用户手势识别人机交互技术研究 第20卷增刊 2008年9月 系统仿真学报@ JournalofSystemSimulation V01.20Suppl. Sep.,2008 基于视觉的多用户手势识别人机交互技术研究 张东明,张国锋,戴树岭 (北京航空航天大学,虚拟现实国家重点实验室,北京100083) 摘要。提出了一种基于视觉手势识男1的多用户榆入技术,利用双手手指在显示屏幕上进行点击 和拖拉完成人机交互功能。该方法使用三个摄像机从不同角度实时拍摄显示屏幕表面的图像,运 用图像处理技术分析识别手势在图像中的位置,根据三副图像...

基于视觉的多用户手势识别人机交互技术研究
第20卷增刊 2008年9月 系统仿真学报@ JournalofSystemSimulation V01.20Suppl. Sep.,2008 基于视觉的多用户手势识别人机交互技术研究 张东明,张国锋,戴树岭 (北京航空航天大学,虚拟现实国家重点实验室,北京100083) 摘要。提出了一种基于视觉手势识男1的多用户榆入技术,利用双手手指在显示屏幕上进行点击 和拖拉完成人机交互功能。该 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 使用三个摄像机从不同角度实时拍摄显示屏幕表面的图像,运 用图像处理技术分析识别手势在图像中的位置,根据三副图像中的手势位置和摄像机参数计算双 手手势输入的实际位置.通过手势识别训练和冗余数据平均计算等方法提高了系统的识别率和鲁 棒性.实验表明,该系统具有较强的可用性和适用性. 关键词:人机交互;多用户输入;手势识别;手势交互 中图分类号:TP391 文献标识码:A 文章编号:1004.73】X(2008)S.0053.04 ResearchonVision—BasedMulti··userGestureRecognition Human-ComputerInteraction ZHANGDong-ming,ZHANGGuo-feng,DAIShu—ling (VimlalRealityLab,BeijingUniversityofAcronaulJcs&Astronautics,Beijing100083,Chi∞) Abstract:Thispaperpresentsavision-basedmulti··USergesturerecognitionHuman··ComputerInteractionwhichachieves naturalinteractionsthroughclickingandmovingthefingersonthecomputerscreen.Usingthreecamerastocapturevideo imagesofcomputerscreen,andrecognizethefingersusingimageprocessing.Theinputpositionsaredetectedwiththe obtainedfingertippositionsandcamerasparameters.Atrainingprocessofgesturerecognitionandanaveragearithmeticof redundantdataareintroducedtoimprovetheaccuracyandrobustnessofsystem.Experimentalresultsdemonstratethe usabilityandadaptabilityofsystem. Keywords:humancomputerinteraction(HCD;multi-userinput;gesturerecognition;gestureinteraction 引 言 人机交互是研究人、计算机以及它们间相互影响的技 术。人机交互技术的发展过程,是一个从人适应计算机到计 算机不断地适应人的发展过程。随着人类对自动化需求的不 断提高,传统的窗口、图标、鼠标、指针州IMP)交互方式 由于操作的自然性、高效性等方面的缺陷已经无法完全满足 人们的需求,同时传统的交互方式只支持单用户操作,已经 不能适应新型多用户系统的要求。 人机交互技术遵循“以人为中心”的自然交互准则,在日 常生活中,人们习惯于用双手与外界进行大部分交互操作。 早在20多年前鼠标刚刚问世后不久,BillBuxton就提出了 类似的多手输入技术【”,BruceTognazzini也提出了利用多点 触摸屏输入技术实现多用户输入【2】。本文根据“双目定位”原 理,研究基于视觉的手势识别多用户人机交互技术。在满足 用户以手指输入的操作习惯的同时,实现了对多用户输入的 支持。 基于视觉的手势交互领域目前采用的方法是在显示平 面的两个顶角安装两个摄像机,利用摄像机拍摄图像,经过 图像处理提取手势,并根据三角定位和坐标变换计算指尖的 坐标位置,实现手指的输入【31。此种交互方式的缺陷是只能 收稿日期:2008.03-07 修回日期:2008-06—10 作者简介z张东1弭(1983一),男,吉林人,硕士,研究方向为虚拟现实: 张国峰(1963.).男.黑龙江人,博十,副教授,研究方向为鲁棒控制、虚 拟现实、计算机控制与仿真;藏树岭(1966一),男,河北人。回族,博士. 教授,研究方向为虚拟现实技术及其工程应用。 ·53· 支持单用户的输入,本文在此基础上,对现有系统进行了改 进,通过使用三个摄像机实现了双手输入的功能,同时利用 冗余摄像机数据进行坐标纠正,进一步提高了手势输入识别 的精确性和系统的鲁棒性。 1双摄像机定位工作原理及缺陷 1.1【双摄像机定位工作原理 基于视觉的手势输入是利用人体双目定位的原理,在显 示平面的边缘安装两个摄像机,摄像机的光轴与显示平面平 行,利用显示平面边缘的摄像机获取显示平面的图像,由于 整个显示平面位于两个摄像机拍摄的交叉范围内,所以在显 示平面上的任何物体都会在两个摄像机拍摄的图像中成像, 物体的位置不同,成像的位置也就不同。因此通过两个摄像 机图像中成像的位置,可以计算出物体的实际位置,以此判 断输入点位置【4】。系统原理图如图1所示: 图i 双摄像机定位原理图 、|邕 、. 、、\、、』一 、、 ,■ 一 一鹾 第20卷增刊 2008年9月 系统仿真学报 V01.20Suppl. Sep,2008 在图l的直角坐标系中,设一号摄像机(CCDI)的中心 sl位于原点O,CCD2的中心s2位于x轴的正半轴。CCDl 及CCD2的主光轴PSI,PS2与x轴的锐夹角分别为砷,B0。 两摄像头距离S1S2=d0。设物体位于M点,物体在图像中 的像高分别为hl。h2。摄像机镜头的焦距为f。MA,MB为 物体在摄像机中的主光线,分别交x于A,B。MA与PSl 夹角为71,MB与PS2夹角为尼。 根据透镜成像原理可以得出: IIII 见 {2tann,亏2tany2 (1) 利用三角关系可以得到以下公式: 口=ao—Yl,p=风一托 【z) I碉=/+掣S1na’|两阿+器sin (3)D lAB}I爿S+S是+BS2I (4) 一M:—[ABl*—sinfl (5) sin(a+卢) X=AM‘COS@-As, (6) Y=AM‘sin口 (7) 根据测量数据及摄像机采集的数据,利用以上7个公式 可以得出手指输入的实际位置x和Y。 1.2双摄像机定位法在双手输入情况下的缺陷 双摄像机的定位系统实现后,可以实现单手输入功能。 但是当需要同时检测双手输入时,就会出现问题。如图2 所示,双手M1,M2同时输入时,在CCDl和CCD2中会 分别出现两个手部图像,每个摄像机中的两个手部图像对应 两条射线,四条射线交叉产生四个交点,因此产生了N1, N2两个伪输入点。由于图像上的双手没有明显区分的标记, 所以无法区分四个交点的真伪。四个交点区分为(M1,M2) 和(N1,N2)两组,双手在任意一组中都有可能,无法正 确识别双手的输入位置。 图2双摄像机定位——双手输入示意图 2三摄像机双手定位原理 为了解决双手输入的问题,Cheng等利用卡尔曼滤波方 法对每只手进行状态预测,预测手的下一个输入坐标点的范 围,去掉伪输入点,确定真实输入坐标【51。此种方法在一定 程度上实现了双手输入,但是存在一些诸如双手位置不能太 近,输入速度不能过快等限制。 ·54· 本文通过增加一个摄像机,利用三个摄像机实现了双手 同时输入的功能,并避免了卡尔曼滤波法的限制。三摄像机 系统原理如图3所示,在原有系统中增加摄像机CCD3, CCD3中的两个手势图像有两条射线与其对应,这两条射线 与CCDl及CCD2的图像相对应的射线相交,生成新的交 点,在新产生的交点中必定有一组交点与(Ml,M2)近似 重合,此组交点与(MI,M2)的平均值即为手势输入的近 似位置。同时由于计算所得近似输入位置是经过(CCDl, CCD2)和(CCD2,CCD3)两组摄像机数据平均计算得出, 使得定位精确性进一步提高。 V /CCD3溉/// ,-,/务1/N2:::::.迁:∑√ ccbl C0/D2 叉 图3三摄像机双手定位原理图 在三摄像机双手定位系统中,手势可能出现在两个摄像 机的连线上,此时手势在两个摄像机中的图像对应的射线是 重合的。如图4所示,MI在CCDI和CCD3的连线上,CCDI 和CCD3中M1的图像对应的射线相互重合,无法辨别Ml 和N1的真伪。如前文讨论CCDI和CCD2确定了(Ml, M2)和(N1,N2)两组数据,不可能存在(MI,N1),(M2, N2),(M1,N2),(M2,N1)这样组合的点,因此只要确 定MI,M2,Nl,N2中的任意一点为真即可确定另一个点 的位置。在MI,Nl无法确定的时候,我们可以确定M2 的位置,因此MI的位置亦可以确定。 ,,⋯⋯⋯一⋯一⋯⋯⋯一⋯⋯⋯⋯⋯⋯⋯⋯⋯。⋯⋯⋯~: T· ccrY \。。夏///。 ML,///::’;∽、 ≥≯靠~一’擘二:∑弋, 图4三摄像机双手定位——单手位于摄像机连线上 如果两个手势均出现在摄像机的连线上,此时两个手势 在三个摄像机中的图像对应的多条射线重合,如图5所示, M1在CCDI和CCD3的连线上,CCDI和CCD3中MI的 图像对应的射线相互重合,M2在CCD2和CCD3的连线上, CCD2和CCD3中M2的图像对应的射线相互重合,由于在 重合的几条射线上有M1,M2,NI三个交点,因此判断手 势位置最简单的方法是利用排除法,找到不在重合射线上的 点N2,即可排除N1,剩余的MI,M2即为手势输入真实 位置。 第20卷增刊 2008年9月 张东明:基于视觉的多用户手势识别人机交瓦技术研究 V01.20Suppl. Sep.,2008 I‘ ‘、℃耐/ 黍NI\// /7//,巡 三警蕃:::~~~。,∑/。 3系统结构 为提高系统的可移植性和重用性,本文将手势识别功能 设计成独立于应用程序的手势识别软件包,与摄像机等硬件 设备共同构成手势识别系统,手势识别系统为应用软件提供 了 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 的鼠标输入消息。因此在开发其他的以手势为输入的 应用软件时仅需将开发的重点集中在应用层即可,底层的手 势识别功能由手势识别系统实现。 如图6所示,手势识别系统可以划分为物理层和识别层 两层,物理层主要包含采集视频数据的核心硬件设备——三 台摄像机及显示屏幕,物理层将采集到的图像数据实时传送 给识别层;识别层主要包含手势识别定位处理软件,利用摄 像机采集的视频数据,经过一系列处理,计算出双手与显示 屏幕的接触状况及输入的位置,并将输入的坐标转化为鼠标 点击、拖拉等消息发送给操作系统,大部分应用软件不需要 经过改动或仅需小规模改动即可直接使用,实现了对现有系 统的最大兼容性。 图6手势识别系统体系结构图 4核心算法研究 识别层是整个手势识别系统的核心部分,实现了手势识别 定位的主要功能。如图7所示,识别层包含了图像校正、手势 识别训练、图像处理、手势识别、点击检测等算法。其中图像 校正、图像处理、手势识别相关算法Zhang和xu等人在基 于视觉的单手交互的研究过程中已经给出了较好的解决方 案【6~,本文重点在双手输入的点击检测算法上进行研究, 同时增加了手势识别训练算法,以提高系统定位的精确性。 4.1手势识别训练算法 在手势识别定位系统中,由于每个人的手型、肤色各不 相同,因此为了使系统适应更多的使用者,提出了一种新的 罔慷投正 发送 ④i骑D i系统 蔷澜一丁斟一翮~周+瘌兰 (堡堡坚y 1 匝互固砸到 图7系统核心算法简图 训练方法。系统经过简单训练,即可学习人的手型、肤色等 特征,适应不同使用者。训练过程设计如下:在新的使用者 进行操作之前,以白色屏幕为背景拍摄一系列的使用者操作 手势,再分析出合适的阈值。训练结束后即可以利用该阈值 进行图像处理,提高手势识别精度。 4.2点击检测算法 三摄像机双手定位的核心算法是根据识别出的手势在 图片中的位置计算手势的实际点击输入位置,即点击检测算 法。点击检测算法依据三摄像机双手定位原理,排除伪输入 点,判断真实双手输入坐标值,判别算法流程图如图8所示。 二个摄像机中手势数据 ——一一℃CDl和CCD2""-'----..~ 图像中手势对应射线是否只有一个~\奎皇:—/ 舌 判断m单手输 入位置Ml,参 见图I解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 参见图4 解决方案 参见图5 解决方案 是 断⋯权手输入位胃Ml,M2 图8点击检测算法流程图 5实验应用 本文实验程序运行在主频3.0GHz的Pentium4CPU的 计算机,操作系统为WindowsXP,视频采集设备采用普通 的CCD摄像机。实验程序的视觉处理速度约为20帧/秒, 系统正确识别率约为85%,误识率约为2%,漏识率约为 13%,X、Y坐标的算术平均值误差约为0.75、1.38,且由 于镜头非线性畸变的影响,距离显示屏幕中心越远的点识别 误差越大。正确识别率略低于双摄像头定位系统,漏识率略 ·55· 第20卷增刊 2008年9月 系统仿真学报 V01.20Suppl. Sep.,2008 高,但由于漏识表示向系统发出的输入消息减少,因此漏识 率相对于误识率对系统的实用性影响较小。实验证明,系统 的实时性和鲁棒性较好。 利于三摄像机手势识别系统,可以通过手指来操作所有 支持鼠标的应用程序。如图9所示,利用手指可以在Windows 操作系统自带的I田j图程序中进行书写和绘I田-操作。为了演示 对双手输入的支持,本文实现了一个简单的多用户操作软 Co) 图9绘图功能示例 (匐缩小固像 m)旋转图像 (c)拉伸图像 (d)拉伸结果 图10双手输入交互程序示例 件,该软件支持用户使用双手进行图像的放大、缩小、旋转 等功能,试验结果如图10所示。 6结论 本文对双摄像头单手定位输入系统加以改进, 通过增 加一个摄像头,实现了三摄像头双手定位输入功能,通过双 手手指在显示屏幕上进行点击和拖拉完成人机交互功能,本 文通过手势识别训练和冗余数据平均计算等方法提高了系 统的识别率和鲁棒性,由于实现了双手输入功能,可以应用 于多用户交互领域,具有较好的实用价值。 参考文献: 【l】 BillBuxton.MultitouchOverview【EB/OL].Nov,2007/Apt,2008. http://wwwbillbuxton.com/multitouch/Overview.html. 【2】2 BruceTognazzini.TogonSoftwareDesign【M】.NY:Addison·Wesley, 1996:35-40. 【3】PrescottB,McleanGE Line-basedCorrectionofRadialLens Distortion【J】.GraphicalModelsandImageProcessing(S1077·3169), 1997,59(I):39-47. 【4】 王旭.霍炬,杨明.双相机空间定位硬件系统的构成研究阴.自动 化技术与应用。2005,24(9):71-74. 【5】 陈孝杰,史元春,龚伟.显示表面上基于双摄像机的双笔同时定位 fc]//第一届建立和昔人机环境联合学术会议(HHME2005).中国 昆明:中国计算机学会多媒体技术专业委员会.2005. (6]6 ZhenyouZhang.AflexiblenewTechniqueforCameraCalibration[J】. IEEETransactionsOnPatternAnalysisandMachineIntelligence (S0162·8828).2000,22(1I):1330—1334. 【7】 徐一华,李善青,贾云得.一种基于视觉的手指屏幕交瓦方法[J】. 电子学报,2007,35(1I):2236.2240. ⋯-m- 一●一⋯●一一一—._⋯-i-一一●一⋯--II--i-S-⋯●一⋯-m-⋯-m- 一●一一 (上接第52页) 虚拟地理环境基本框架:Ontology.CVGE。 等等aCBR为决策群体研讨提供了辅助工具,基于这些辅 参考文献: 助工具和群体协商成果将会形成问题解决方案t解决方案可 [1】 龚建华,林珲.分布式地学虚拟环境研究【J】.中国图形图像学报. 以直接施加在地理场景层,通过图形图像技术来模拟该解决 2002,6(9):879.885. 方案的效果。对如路径。所示。 [21 邓志鸿,唐世渭,张铭,等.Ontology研究综述[J】北京大学学报 协同虚拟地理环境为群体决策提供了一个很好的支撑 (自然科学版),2002,38(5):730-738. 、 平台。其中,相关领域知识的本体表达为群体决策们提供了 ~York:HarperBroth哪.1960. 。 ‘。 一个语义桥梁,消除了决策者们在一些重要概念和术语理解 [41 李文航.协同虚拟地理研讨室的理论及关键技术研究[D】.中国科 可能存在的“二义性”,提高了决策效率。同时,协同虚拟地 学院博上学位论文.2007. 理环境自身具有的人机交互、虚拟现实以及各类信息沟通能 [5】 B8ad。。F’c81””铝。D,M。G“i肌嚣8Dtd甜·111。d髂。ip‘i∞109i。 力则可以为问题的直观重现或者是解决方案的预验证提供 c。mbndg。u。i二it;P懈。,2003. ~ ?。 i 强有力的支撑。 【6】 Guar/noN.Semanticmatching:formalontologicaldistinctionfor 4结论::::塞=::=爻:。慧暑舞≥≮箸: 本文围绕面向群体决策的协同虚拟地理环境中基于本 如Emerg抽g1n南啊mi伽Te。hn。l。gy.8pring盯V盯189:1997: 体的知识表达进行研究,以虚拟森林灭火为例,首先提出了 【7】 FinnicGSuz H.R5model衙c丛e.b笛ed嘲。oniIlg【J】. 在协同虚拟地理中进行群体决策的迭代过程模型,在此基础 knowledge.Basedsyste吣.2003,16:59-65. 上重点分析基于本体的领域知识表达方法,为群体问的知识 is] 唐丽玉,陈崇成,池子文.面向协同式森林灭火决策的领域本体 交换提供语义层次上的E£操作,最后设计了基于本体的协同 构建及其解析[J】_地球信息科学,2008,10(3):3“一349。 ·56‘
本文档为【基于视觉的多用户手势识别人机交互技术研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_469243
暂无简介~
格式:pdf
大小:289KB
软件:PDF阅读器
页数:4
分类:互联网
上传时间:2011-07-21
浏览量:41