视频识别(精选十篇)
视频识别 篇1
传统的人脸识别系统几乎都依赖静态图片, 因此, 以视频图像作为输入的具有高鲁棒性的人脸识别系统的发展成为近年来的热点及难点。视频图像有两个有效的独特性: (1) 同个主体的多帧融合; (2) 实时信息。多帧融合保证了姿势的变化, 允许适当的选取一些高质量的帧 (如:高质量的近距离正面姿势的人脸图像) 。隐藏在视频中动态的面部运动被认为是实时信息。
本文介绍和讨论了视频中人脸识别的方法, 分析了各类方法中典型技术的优缺点。最后展望了基于视频人脸识别未来的发展方向和趋势。
1 视频中人脸识别方法
基于视频的人脸识别系统通常包括三个模块:人脸检测模块、跟踪模块和识别模块。本文主要介绍人脸识别模块的各类识别方法。
1.1 基于时空信息的方法
传统做法是利用视频中的空间信息进行人脸识别, 通过对输入视频中每个人脸或若干人脸采用基于静止图像的人脸识别方法, 再利用融合方法 (如多数投票或概率、距离累加等方法) 进行最终的识别。如文献[2]通过实时投票来提高识别率。不同于简单的投票方法, Li et al.提出基于形状纹理模型和核特征提取方法, 然而这种方法不能完全利用空间信息。
近年来, 一些学者开始利用视频中人脸的时间和空间信息进行识别。Zhou和Chellappa提出了一种合成视频序列中实时信息的人脸识别方法, 利用含有跟踪状态向量和识别变量的状态空间模型用来描述主体, 再利用序贯重要采样 (SIS) 的方法有效估计出跟踪状态向量和识别变量的后验概率分布, 实验表明该算法的有效性, 但是在姿态变化时或者目标被遮挡时其识别率只有57%。文献在视频序列中对比了PCA、LDA和ICA等方法, 表明利用加权概率方法可以解决由于遮挡引起的错误问题。Krueger和Zhou采用线性径向基函数方法, 从训练视频中选择有代表性的人脸图像作为样本模型, 这个模型可以有效捕捉小范围的2D运动, 但是不能处理大的3D姿态变化或者遮挡问题。
基于时空信息的视频人脸识别方法虽然取得了一定的进展, 但仍有以下三个缺点: (1) 局部信息在人脸图像分析中很重要, 但是现有的方法仍不能很好的获取局部信息。 (2) 脸部动态信息 (类间信息) 对于区分不同人起着重要作用, 但是与人脸表情和感情相关的个人类内实时信息也被提取并被使用。 (3) 对所有的时空特征采用相同的权重。
1.2 基于统计模型的方法
动态模型利用了人脸的时间和空间连续变化的信息, 能够更好地刻画人脸的动态变化特性。Zhou et al.利用视频样本图像中低维特征来获得统计模型, 在单帧与视频流或两个视频流之间进行匹配。Satoh通过选择两个视频中最接近的两帧来匹配视频序列。共同子空间方法用P C A分别为每段人脸视频建立本征子空间, 将输入图像与相关子空间之间的夹角作相似性度量。为了提高性能, 文献提出了一种根据脸部特征和姿态选择有用帧, 然后通过降维形成子空间。文献提出一种新的分类算法, 即主成分零空间分析法 (PCNSA) , 用来处理不同的类有不相等及非白噪声协方差矩阵的问题。
文献把运动人脸建模成一个ARMA (Auto-Regressive and Moving Average) 模型 (用姿态作为状态量, 采用外观作为观测量) , 采用ARMA子空间之间的夹角作为相似性度量。Liu et al.用HMM和ARMA模型直接面向视频匹配。文献表明由于视频引起的局限可以由HMM人脸识别框架解决。
1.3 多模生物特征认证
融合视频中获取的多种生物特征能提高识别的性能, 如声音、步态、动作等。Shan et al.融合人脸和步态特征进行识别, 得到良好的识别率。文献用P C A或M D A获得侧面人脸融合步态特征提出一种新的识别方法。采用人脸和声音识别技术实现了自动视频特征识别, 该方法结合直方图归一化, boosting技术和线性鉴别分析来解决光照、姿态和遮挡等问题, 并用扩展的kalman滤波 (EKF) 方法优化了语音去噪算法。
2 总结和研究趋势
人脸识别技术发展迅速, 取得了丰硕的研究成果, 但是仍然存在许多问题。人脸是非刚性物体, 随着年龄的变化而变化, 难以完全描述其特征;人脸被遮挡, 如胡须、眼镜、帽檐等;光照的剧烈变化和人脸的姿态变化;分辨率低等, 都成了人脸识别技术中亟待解决的问题。总的来说, 要找到一种真正识别率高、鲁棒性好、复杂性低的人脸识别方法非常困难, 需经过长时间的研究和实践。
随着研究的深入, 基于视频的人脸识别需要进一步研究的工作包括以下几个方面。
2.1 超分辨率重建和模糊复原
由于采集条件和运动的影响, 视频序列中采集的人脸图像分辨率低且人脸模糊。人脸图像超分辨率技术和图像复原技术是解决这一问题的两种方法, 也是未来需要重点解决的问题。
2.2 视频人脸数据库和测试方法的标准化
到目前为止, 基于视频的人脸识别还没有一个包含各种条件变化、统一、大规模的视频人脸数据库和测试标准。许多文章都采用不同的视频人脸数据库和测试方法, 从而无法比较各种算法。因此建立一个公共的、大规模的视频人脸数据库和标准的测试方法是该领域首要任务之一。
2.3 人脸的3D建模
现阶段基于二维的人脸识别方法在一定程度上可以解决姿态或光照的变化问题。由于人脸是三维物体, 如利用人脸的三维信息来解决姿态, 光照变化问题应是最本质的解决方法。但是现阶段利用视频数据生成的3D模型计算复杂度很大, 很不实用。因此如何降低三维人脸建模的复杂度和提高建模的精度是未来发展的一个重要方向。
摘要:本文介绍和讨论了基于视频的人脸识别的各类方法, 分析了各类方法中典型技术的优缺点, 最后展望了基于视频的人脸识别将技术未来的发展方向和趋势。
关键词:人脸识别,视频,综述
参考文献
[1]严严, 章毓晋.基于视频的人脸识别研究进展[J].计算机学报, 2009, 32 (5) :878~884.
视频识别 篇2
随着公安工作信息化建设的不断引向深入,公安工作就是信息第一,谁先掌握利用各类信息,谁就先取得工作的主动权。本文结合剖析当前公安工作信息化应用现状,阐述了如何利用视频识别技术提升公安基础工作信息化建设水平。
当前公安工作信息化应用现状
缺乏长期系统的信息化建设规划
信息化建设不是一朝一夕一蹴而就的事情,而是一个长期积累循序渐进、逐步完善的过程,想把信息化建设搞好就要树立长期作战持之以恒的思想。公安机关的领导几年一调换,对信息化建设的认识和重视程度不尽相同,如果没有一个长期的信息化建设规划来保证各任领导的接力运作的连续性,就难以保证信息化建设的持久发展。
基层领导干部和广大民警缺乏对信息化建设的足够重视
对于公安工作领域来讲,应用包括信息技术在内的技术改造,是实现结构优化升级、提高整体素质的重要途径。但是,有些领导和同志对此并未给予足够的重视,认为信息化工作可有可无,是“讲起来重要、做起来次要”的软任务,排不上议事日程,更没有把信息化作为提升管理水平、提高工作效率、改进公安工作的重要手段来抓。只有当广大的基层领导和民警真正从思想上和行动上引起高度的重视,才能实现真正意义上的信息化应用,才能把广大民警从传统落后的工作模式中解放出来,提高工作效率,产生巨大的政治效益和经济效益。
基础信息获取的准确性和有效性急待加强
目前基础工作信息化建设很多基础数据都是通过下级部门向上级部门上报,基层单位每年要向上级机关上报各类报表,各类数据,其中多数内容重复且可以通过其他渠道获取。往往上级部门收到的同一时期的数据,在不同时间上报数据又有所不同。这种职能部门向下要、基层单位向上报的单向信息采集手段,极易使基层干部在繁重的基础工作中疲于应付,重量轻质、重内轻外,造成信息采集的死角、漏洞较多。
各类系统资源没有得到充分的挖掘和利用
由于没有统一建设一个信息化平台,造成了公安机关各部门的信息资源不能得到充分的利用,也不能为领导的决策提供及时、准确、详细的可靠依据。各级各部门的信息化建设目前基本处在各自应用的水平,没有达到各警种各部门之间的信息共享,各类信息的应用资源没有得到充分的挖掘和合理有效的综合利用,还不能为领导决策提供科学及时的服务,也不能为一线民警提供全天候、全方位、全过程的综合信息支持。
信息化系统如何提升公安基层基础工作的困境
目前,在公安信息系统应用上,仍为上级决策、了解情况而用,到了基层则是查询应用多而分析应用少、操作应用多而实战应用少、表层应用多而深层应用少。究其原因,不是技术问题,而是需求分析没有做好,不下基层作需求调研而盲目进行、不结合实战需求而搞“花架子”,造成许多工作不能贴合公安基层基础工作。
突破信息化发展瓶颈,开创公安管理新局面
构建信息化建设平台,实现信息资源综合利用
公安机关需坚持“取之于基层、用之于基层”,以“给谁用、方不方便用、用的实际效果好不好”为原则,以“解决基层基础信息来源、归类、应用”为目的,搭建了由信息采集、整合、应用三层结构组成的基础工作综合信息平台。平台就是基础,只有正确运用良好的基础信息平台,才会取得良好的使用效果,只有综合利用才能达到预期的目的。
丰富信息来源基础,夯实信息化建设支撑公安信息研判
在信息建设中,信息来源应该采取自采和调采两种方式采集,可以大大拓展信息来源,有效缓解了基层的采集任务。所谓自采,就是广大民警把以往的“头脑信息”、“口袋信息”、“纸片信息”、“档案信息”以及每天实际操作工作中了解、采集到的鲜活信息及时输入信息平台。所谓调取,就是通过一定的途径和技术手段,挖掘、整合、利用专业系统、职能部门以及社会化资源共享的信息。把调取的信息经过技术处理,极大地丰富了信息平台的内容,而且确保了基础数据的完整性和权威性,最终达到研判效果。
以“绩效考核”力推信息化应用,形成全警参与的整体合力
充分发挥利用好信息化建设的优势,最根本的就是要坚持“以人为本”的工作理念。牢固树立先进典型,广泛开展宣传教育,引导民警深刻认识信息化建设的重要作用;同时坚持建立信息考核制度,充分调动基层民警做好基础工作信息化建设的积极性和主动性,为公安信息化建设献计献策。
信息化建设专业性强,建立民警的信息技术人才刻不容缓
一是增加人才;二是加强对现有民警的专业技术培训,让他们有一定的技术基础,且熟悉公安业务,但应该为他们提供系统的专业技术培训以提高其技术水平。三是建立一支相对固定的技术队伍。利用这支技术队伍,逐步渗透项目开发的各个领域,系统规划、功能设计及推广培训等应以公安自身的技术力量为主导,以利技术人员掌握核心技术,为进行自主开发或者自行修改创造条件。
智能视频分析识别技术与公安信息化
城市治安视频监控系统的现状
城市治安视频监控系统作为平安城市建设、公安“科技强警”和公安信息化建设的一项重要内容,得到了国务院、公安部、各级地方政府和公安机关的高度重视,在短短的几年时间,已经建成了全世界规模最大、覆盖面最广的视频监控系统,为快速扭转城市治安状况、加强城市管理、提高公安机关的战斗力、创造和谐安定的社会环境、塑造良好的城市形起到了较大的作用。当前城市治安视频监控系统正处在大规模建设阶段的后期,有些系统已经集成相当规模并投入运行,有些还在建设当中,有些在原来的基础上扩大规模。而系统建成后如何应用,发挥其应有的效益则还没有得到应有的重视。当前应用的现状是仅仅各级监控中心走马观花的看看各监控点的视频,和在发生案件后刑侦部门为查找线索翻翻录像资料。这种低层次的应用对于几千万甚至几个亿的建设投资,或每年成百上千万租赁费用来讲,显然是远远不够的。同时在大规模视频监控系统中,因其缺乏对视频的智能分析,对治安事件无法实时记录和预警;长期观察监控
视频也突显了人员疲劳的局限性;而且海量的录像数据难以管理和有效查看。具体来说主要体现在以下几个方面:
1、缺少视频信息情报的标准化生成方法,进而缺少利用视频信息情报指导侦查、破案的新型警务工作模式。现在视频监控的应用已融入民警的日常办案工作当中,但采用的仍然是人工的方式去浏览、排查,费时费力。
2、视频信息的跨域、跨警种共享以及与其他信息系统的互联互通问题突出,跨系统的语言不统一造成信息成为一个个的孤岛,限制了大情报、大信息系统的建设及应用。
3、存储传输的问题,由于要节省大量的存储空间及传输带宽的限制,不得不对视频数据进行大量压缩,不仅造成图像模糊的问题,而且视频压缩时固定压缩比的方式不够灵活,不得不占用大量的存储空间及传输带宽。
4、高效计算的问题,由于视频监控要求计算的多功能性和实时性,而视频数据的特殊性,带来计算成本的增加,需要构建统一的用于视频监控的视频计算理论和框架。
5、视频信息化情报化警务应用各环节缺乏统一的标准和规范。所有这些问题的根本在于对视频内容的不理解,没有一个高效的、标准化的视频数据交换和视频情报提取的方法。解决这些实际问题,需要对视频结构化描述及以此技术为核心的新型视频监控系统构建进行重点研究。
视频智能分析技术在城市治安动态监控系统中的应用
智能视频分析技术属于模式识别技术的一种,它是通过设计一定的计算机算法,从视频中分析、提取和识别个体运动行为的特征,令计算机判断出这些个体进行了一些什么行为,进而可以判断这些行为是否符合某些规则,是否属于“某一类型”的行为,而这些类型的行为是应该提醒监控人员注意的“可疑行为”,这样当计算机发现了这些“可疑行为”时就可以进行即时的报警,摆脱了人工的干预和判断,实现令计算机“代替”人进行监控,也即实现了“自动监控”或是“智能监控”。从更形象一点的角度来解释,监控系统中摄像头和视频传输技术解决了“眼睛”的问题,使监控人员能够在不身处现场的情况下通过摄像头看到现场的情景,而这一现场还由于传输技术的进步摆脱了地域的限制,甚至于可以在千里之外(通过数字网络传输视频);而智能视频分析监控技术则给监控系统加上了“大脑”,使机器能够代替人(至少在一定程度上)来随时监看这些视频,无须再由人工随时去监看这些视频。
智能视频分析技术的广义类别
从广义上来说,除了以上的描述被定性为智能视频分析外,我们也可以把智能视频分析定性为所有运算功能,起到对视频画面进行分类,比对或识别的作用。另一方面,它可以对画面进行分析,对画质进行某些优化,提供更好的画质以供监控人员观看。其中具体包括:视频分析类、视频识别类、视频改良类。
视频分析类
主要功能是在监控画面中找出物件,并检测物件的运动特征属性,例如:物件相对的像素点位置,物件的移动方向及相对像素点移动速度,物件本身在画面中的形状及其改变。根据以上的基本功能,视频分析可分为以下几个功能模块:
(a)周界入侵检测、物件移动方向检测;
(b)物件运动、停止状态改变检测;
(c)物件出现与消失检测;
(d)流量统计包括(人流量、车流量统计);
(e)PTZ自动追踪系统;
(f)摄像机智能自检功能。
视频识别类
视频识别类包括人脸识别及车牌识别,其主要的技术在于在视频画面中找出局部中一些画面的共性。例如:人脸必然有两个眼睛,如果我们可以找到双目的位置,那么就可以定性人脸的位置及尺寸。不过,以现有的技术来说,人脸识别系统必须在双目可视的情况下,才可进行人脸比对。其主要包括:
(a)人脸识别系统;
(b)车牌识别系统;
(c)照片比对系统;
(d)工业自动化上的机器视觉系统。
视频改良类
视频改良的主要功能是将以前不可视、模糊不清,或者是在振动的画面进行一些优化处理,以增加视频的可监控性能。具体包括:
(a)夜视图像增强处理;
(b)图像画面稳定系统;
(c)车牌识别影像增强系统。
智能视频在公安机关的应用范畴
由于近年来国内外恐怖袭击经常发生,而且用于恐怖袭击的武器也不断先进,造成公安及无辜平民的死伤也不断上升,反恐形势十分严峻,这导致公安对可应用于安全防范的智能视频系统或功能需求十分紧迫。
周界入侵检测、物件移动方向检测
周界入侵检测是利用运动目标的智能视频分析原理,在摄像机监视的场景范围内,根据监控需要和目的设置警戒区域。系统可以自动检测入侵到警戒区域内的运动目标及其行为,一旦发现有满足预设警戒条件,则自动产生报警信息,并用告警框标示出进入警戒区的目标,同时标识出其运动轨迹。另外,我们还可以利用周界防范入侵检测系统来代替红外线对射或地感线圈。其主要功能应用于围墙边缘,以防止不相关的人非法闯入警戒区域。它也可以代替故有的移动侦测系统,减少系统总体的误报率,增加系统的可信度。尤其在城市安防项目中,由于摄像机的数目过多,只能采用电子手段来减少系统对监控人员的需求量。
物体出现与消失
从视频中分析出物品的存在与否是一个非常有意义的智能视频分析功能。物品消失侦测采用区域检测对比算法来实现的。其基本原理是从固定摄像头摄像画面中提取出区域进行保存,物品状态分析服务器根据算法可以设定一定的时间周期,将与这些区域图像数据与原始数据进行比对。其具体方式为:系统根据算法把一个区域分割为多个区域,由于视频流是实时连续的,因此区域的检测和分割需要在每一帧内不停地计算,此外还要对帧间的区域进行跟踪,把不同时间的区域连接起来,从而给出正确的物品类型、状态和物品运动方向。当超过设定好的时间时,在区域物品状态发生变化之际,系统就会对消失或移动的物品进行报警。
PTZ自动跟踪
在摄像机监视的场景范围内,当移动目标出现后,用户可以手动锁定(例如通过鼠标点击来锁定目标)或预置位自动触发锁定某个运动目标,可触发PTZ摄像机进行自主自动的PTZ跟踪,并且PTZ摄像机可自动控制云台进行全方位旋转。同时,该功能还可以针对被锁定的运动目标进行视觉导向的自动跟踪,以确保跟踪目标持续出现在镜头中央。自动PTZ跟踪模块弥补了固定摄像机监控视野窄的缺点,是完善的安全监控系统所必备的功能。
功能实现过程为:主摄像机对视频监控区域的全景范围进行图像抓拍,并将抓拍到的图像传至视频服务器处理:视频服务器处理图像数据以提取目标的位置信息,对各从摄像机进行调度;从摄像机根据目标的位置信息对目标进行锁定跟踪,自动进行镜头缩放,以获得目标的清晰图像,如此一来,系统能对监控区域进行全方位的跟踪,并能对进入监控区域的目标进行自动锁定跟踪,而且相应速度快、精确度高。
人脸捕捉、比对及照片
比对传统的视频监控系统存在一些很明显的不足之处,如:24小时地不停工作,有太多的现场和摄像机。监控工作本来就是一件无目的性的事情,当需要调用视频的时候,监控人员要查询以往所有的录像将是一件非常繁琐的事。而人脸检测/捕捉技术,能在一个大的背景复杂的摄像机监视场景范围内,准确检测和捕捉到人脸,并将实时存储的人脸照片或视频作为有用信号存储,再配合人脸分析比对数据库资料,这样一来,系统可短时间自动调出该人的信息。系统再根据人脸捕捉的结果进行人脸自动比对或照片比对。
智能视频的应用不足
我们不得不承认,现在的智能视频系统只是处于初级阶段,存在不足之处,如:
(1)场景环境要求较高,往往需要根据不同的环境以及不同的需求进行不同的参数设置;
(2)需专业人员指导安装才可以顺利使用实施。只有熟悉技术的专业人员才能根据经验对现场环境进行判断分析,再指导安装实施使用;
基于视频的人脸识别问题研究 篇3
[关键词]视频人脸识别;低分辨率;失焦;隔行扫描;运动模糊
0.引言
经过多年研究,人脸识别技术已取得了长足的进步和发展。随着视频监控、信息安全、访问控制等应用领域的发展需求,基于视频的人脸识别已成为人脸识别领域最为活跃的研究方向之一。
根据NIST的FERET和FRGC测试及其他研究人脸识别的评价报告,许多人脸识别方法性能都因光线变化、姿势等其他因素而降低。这些影响系统性能的因素可分为四类:技术,环境,用户和用户交互系统。
基于视频的人脸识别是人脸识别领域中的一个巨大挑战,近年来吸引了许多研究人员的关注。McKenna et al.利用PCA在视频数据中建立人脸本征空模型,用概率投票的方法来融合序列信息。Zhou et al.利用视频中的时间和空间信息,提高识别性能。但是基于视频人脸识别仍存在一些问题。
1.基于视频的人脸识别的影响因素
1.1图像低分辨率
低分辨率图像是远距离人脸识别中的一个难题,如图1所示。在这种情况下,摄像机的视野通常较宽,脸部在整个图像中比例较小,人脸图像的分辨率始终比较低,这大大降低了人脸检测和识别的性能。
目前还没有应用低分辨率人脸图像就能达到良好识别性能的算法,解决这一个问题的有效途径之一就是采用超分辨率重建算法,即从一组低分辨率图像中估计出一幅或多幅高分辨率图像。超分辨率重建技术本质上是将一个场景的低分辨率图像中的信息组合起来形成高分辨率图像。高分辨率图像不仅指图像的实际像素数大,更主要的是包含更多的高频信息。利用高清晰度摄像机也是解决这一问题的有效途径之一。不过,高清晰度的图像会降低人脸检测速率。
1.2失焦
在远距离人脸识别应用中,人脸与摄像机之间的距离是现存的空间。这意味着,在大多数情况下人脸没有对准光圈焦点就会使得人脸图像模糊。
虽然焦点只是概念上的一点,但在实际中焦点有一个小的范围,这就是所谓的模糊圈。这种非理想聚焦是由光学成像中像差引起的,当光圈直径增加时像差程度会越高。因此,使用小光圈镜头可降低模糊程度。
1.3视频图像中的隔行扫描
隔行扫描就是每一帧被分割为两场,每一场包含了一帧中所有的奇数扫描行或者偶数扫描行,通常是先扫描奇数行得到第一场,然后扫描偶数行得到第二场。视频由不同时间的时刻捕捉的画面组成,当人脸运动过快时就会产生交错,即一个帧的上下场分属于两个画面。交错会使视频产生运动伪影,影响人脸正确检测和识别,如图3所示。为了最大限度地减少隔行扫描产生的伪影,可用非交错显示扫描代替。然而,这种技术会降低图像的分辨率,特别是在物体运动的时候。
产生的运动模糊
逐行扫描是指每一帧图像由电子束顺序地一行接着一行连续扫描而成,它克服了隔行扫描的缺點,画面平滑自然无闪烁。因此,使用逐行扫描视频系统可以完美的解决这一问题。
1.4Motion Blur运动模糊
运动模糊是数字影像系统常见的现象。当物体迅速移动或相机震动时就会产生,如图4所示。为了避免运动模糊,相机应使用快速曝光,但这会导致新的问题,因为采取快速曝光,就要增加光圈数,这又与失焦产生冲突。
2.结语
基于视频图像的车辆目标识别 篇4
1 图像预处理
本研究以车型图像为例进行目标识别。采用低误判率和高定位精度的Canny算子[2]进行边缘检测,检测结果如图1所示。
2 Gabor小波滤波器
二维的Gabor小波滤波器因可以同时获取空间和频率域的最小不确定性而常用于信号处理,并且它和人眼视网膜神经细胞的感受非常相似,从而应用于图像处理、理解、识别等领域,在人脸和特征识别领域[3]也已成功地应用。
二维Gabor小波滤波器定义为,其极坐标形式定义为
其中,δ为高斯函数的标准差,ω0为复平面波的空间频率,φ=arctan(ν/μ)是方向角,r=姨x2+y2,θ=arctan(y/x)。
本文用两组实Gabor小波滤波器线性组合成复合滤波器ΣnwnGn(n=1,2)。可以根据图像目标的特点初始化w1G1+w2G2的参数值,其中w为列向量,其包含复合滤波器的线性组合系数wn,G为矩阵,每一列包含复合滤波器的一个Gn。为了获取目标的局部特征,可以假定目标的尺寸在一定的范围之内,因此参数α,b应小于目标的尺寸,一般取这个范围的下限。复合滤波器参数的选择要使滤波器窗口中心位于目标头部时的相关输出区别于滤波器窗口中心位于目标尾部时的相关输出,其中J是标准函数。
标准函数的选择:假设两类待识别目标的特征矢量分别为f1,f2,在一般情况下,为了准确地区分两类目标,特征矢量f1、f2应当分属于特征空间中的两个不同的区域。最常用的衡量两类目标特征矢量分离和聚合程度的标准函数是:
式中,式中s表示输入图像的平移,zi表示所有属于类别i的s的平均值。E,F只与输入图像有关,对识别问题而言是固定的;由(2)式可知J与G,w有关,可以用神经网络选择G,w的参数以活得最大的J值。
神经网络的结构如图2所示。它由3层神经元(输入,输出和隐含层)和两个连接权重集合(G,w)组成。输入层神经元的数据是不同的供训练神经网络用的图像像素数据。输入层和隐含层之间的连接权重集合是矩阵G。在隐含层神经网络计算输入训练图像和矩阵G中的Gn的矢量内积。隐含层和输出层之间的连接权重集合是ω。输出层的结果用来计算J,再根据J值修改G,w以期得到最大的J值。
设A=GTEG,B=GTFG,由(2)式可知,J=(w TAw)/(w TBw)。为了找到使J最大的ω,可以采用以下的梯度迭代公式:
式中λw为收敛速度的步长。本文中,每一步迭代使ω改变大约1%。同理也可以得到使最大的G。G包含α,b,ω,φ四个参数,于是有下列迭代公式:
式中,λa,λb,λω,λφ是迭代步长。每一步迭代使α,b,ω,φ分别改变大约1%。G包含两个实Gabor小波滤波器,a,b,ω,φ都是矢量;diag是取对角线上的元素。
4 实验结果
实验中输入图像是3类典型的汽车图像(小汽车、卡车和客车),参见图1。特征矢量由20个分量组成,即在输入图像与复合滤波器相关运算结果中沿其过中心的水平线上均匀取20点组成。结果选取80×60的小汽车图像为例。
首先用(3)式迭代100次,再用(4)式迭代1次,最后重复上述过程300次。标准函数J随迭代次数的变化情况参见图3,从中可以看出,标准函数J随迭代次数增加到峰值后,再下降到一个稳定值3.80,而且稳定值约为J初始值的4倍。这反应了本文算法的有效性和高效性。图4是滤波器G的连接权重w复合滤波器参数随迭代次数的变化情况,图中上线对应于滤波器G1的连接权重w1,下线对应于滤波器G2的连接权重w2。
图5给出a,b,ω,φ随迭代次数变化的曲线图。a)中,最下面与横坐标重叠的线是ω;水平线是φ,大小为π/2;最上面曲线是b,最后稳定于3.45;第二条曲线是a,稳定于2.00。b)中,最下面一条曲线ω与横坐标重叠;b线急剧下降,最后稳定在0.25;a线稳定在1.95。
测试样本是训练样本时,当使用表1的复合滤波器来提取特征时识别率为81%,当使用表2时识别率为99.5%;当测试样本不是训练样本时,识别率分别为70.3%和93.4%。可见本文算法对复合滤波器参数的选择是有效的。
以上的仿真实验是针对同三种目标的同一方位的图像进行的,该算法具有较强的鲁棒性,取得了较好的识别结果。
参考文献
[1]杜宇人,高浩军.基于车辆轮廓定位匹配的车型识别方法[J].扬州大学学报:自然科学版,2007,10(2):62-65.
[2]WANG Li-wei,ZHANG Yan,FENG Ju-fu,et al.On the Euclidean distance of images[J].IEEE Trans.on Pattern Analysis and Ma-chine Intelligence(S0162-8828),2005,27(8):1334-1339.
视频识别 篇5
TI TMS320DM6446实现了一种使用安检摄像头拍摄的录像进行统计人群流量,检测、追踪特定人的检测系统。获得的人群流量统计、
检测特定人数据结果,实时显示在监控中心,可以同时将统计、检测分析到的数据存储在本地非易失性存储器或通过网络传输到
远程数据中心。
关键词视频图像分析和模式识别;人流量统计;特定人检测
中图分类号TP文献标识码A文章编号1673-9671-(2011)072-0169-04
在火车站、飞机场、地铁、汽车站、展会等人群密集场所,随时掌握人群数量、密度等对指挥、安检等部门适时做出正确决策具有重要意义。特别是近年全世界频繁的恐怖袭击活动,全世界范围暴发的甲流等疫情,严重地威胁着公共场所的群众安全。如何快速有效地确保人群拥挤的公共场所内群众的安全摆在了各国政府面前。采用图像处理方法实现智能化检测、分析是今后安检系统智能化发展的方向。若仅仅简单地将摄像头拍摄的视频送到监控室显示的安检系统,再完全依靠人眼盯着显示器监控检测区域的变化,由于监控人员无可避免的疲劳、疏忽等原因,极容易让可疑人物通过。
1系统指标
本系统是专门为解决富有挑战性的安全监控数据采集工作/分析而设计的:利用安装在高处的单个静止摄像头来监视特定区域,利用运动分割与模型匹配的方法,检测并统计通过监视通道的人员信息,搜查特定人有没有通过监视通道,远程发送/接收数据,实时更新要求检测的人员图像信息。由于监视通道人数可能众多,并且要求系统具有一定的实时性。为实现这一目标,我们在软件和硬件方面都做出很大的努力。
算法上:
增加算法的并行性,减少处理间的相互依赖;使用指针交换避免图像数据拷贝;在保证统计人数精度前提下,尽力简化算法,减少处理器处理时间。
举个例子说明软件算法设计对处理效率的影响。一般图像、视频处理顺序如下:
图1
类似这样的处理流程,图像数据拷贝消耗大量CPU资源。我们在设计算法流程上充分利用C语言指针的灵活性,通过指针交换,完全避免了图像数据的拷贝。实验结果表明,处理效率得到了极大的提高。
硬件上:
选用TI公司达芬奇TMS320DM6446。DM6446是一个双核SoC单片系统,其中C64x核时钟高达594MHz, ARM926EJ-S高达297-MHz。达芬奇引入了视频处理子系统(VPSS.Video Pro—cessing SubSystem)。视频处理子系统的结构框图如图2所示.包括视频处理前端(VPFE.Video Processing Front End)和视频处理后端(VPBE,Video Processing Back End)。视频处理前端用于负责从外设接收并处理原始的视频流信号。视频处理前端中的CCD控制器(CCDC)将具体负责对视频数据的采集工作。视频处理后端实现对视频流信号进行显示、编码输出等功能。TMS320DM6446处理器完美集成了视频外设及加速器,使得BOM(Bill of Materials)成本大幅下降。由于BOM成本进一步降低,系统开发所需的时间相应减少,因此预计可更早推向市场,能够获得更低的市场价位。TI推出的达芬奇系列芯片不仅是一个平台,还有一系列经过生产、测试、优化的开放性软件。第三方开源社区具有大量的软件资源支持,如ARM可上Montavista linux,V4L2驱动等。结合业界标准API,可使客户专注于开发个性化的产品。
图2
2系统方案
2.1系统结构
图3所示为本系统结构框图,主要分为摄像头模块,TVP5146转换模块,处理器模块,存储器模块,监视器显示模块,和网络通信接口模块等六个部分。
图3系统结构框图
1)处理器采用达芬奇DM6446。DM6446 SoC是视频监控的理想选择。
2)系统处理得到的各种检测/分析、统计数据可以存储在设备本身自带的大容量存储器,如硬盘,也可以通过通信接口(RJ-45以太网口、RS-232、RS-485串行口等)传输到远程数据中心。
2.2运动目标(人群)流量统计系统
检测人群流量基于视频分析的肤色检测、运动目标检测与跟踪算法。在智能视频监控中,对运动目标(对本项目为人群)的检测与跟踪是提高系统智能性的关键技术。系统在检测和跟踪到运动目标后,可以对目标进行特征提取及识别以区别目标的种类(如人、车等),通过提取到的特征和指定的待查人特征相比较,可获取检测结果;通过跟踪轨迹的分析,可以判断出目标的行为是否合法(如汽车的逆行、可以目标进入危险区域等)。
为完成该任务,本项目具体实施流程如图4所示。
图4实施流程图
图中具体模块的功能介绍如下:
1)前景检测模块:将运动目标从背景中分割出来。
前景检测模块将当前帧的像素分为前景像素和背景像素。本项目采用混合高斯模型算法。对于图像上某一像素点,随着时间的变化,其像素值为x1,x2,…,xt,…(下标表示时间)。如果该点是背景,那么x的取值应该在某个固定值u附近。如有目标运动到该像素点,x的取值将与u差别很大。在这种情况下可采用均值为u,标准差为σ的单高斯模型来描述该像素点。如果xt与均值u的差值的绝对值大于3σ,那么在t时刻,该像素点为前景;否则为背景。这种单高斯模型可以实现固定背景上的前景检测,但是很多时候,背景中可能还包含一些微小但复杂的运动,比如树叶摇晃。假设背景为蓝天和绿树叶,树叶在风中摇晃,某些点的像素值可能在蓝色(天空)和绿色(树叶)间变换。此时单高斯模型已不能满足要求,需要建立均值分别为u1(蓝色)和u2(绿色)的双高斯模型。本项目为了体现一般性,视应用场合采用混合高斯模型。
2)目标模型建立模块:应用减背景算法得到当前中出现的所有运动目标,忽略细节,将具有相同大尺度特征,如颜色、纹理、轮廓等作为运动目标,本项目采用颜色相邻区域作为运动目标,并用圆框表示目标,圆框的中心表示目标的位置,用颜色直方图对目标建模。并存入目标模型列表,统计目标数量。
3)新运动目标检测模块:应用前景检测的结果检测新进入场景的运动目标。
4)运动目标跟踪模块:应用新运动目标检测模块的结果初始化该模块,跟踪新进入的目标。目标跟踪可以看作是匹配问题,即用当前帧中的检测结果和目标模型进行匹配,找到当前帧中目标的位置。对当前帧进行团块提取后,观测结果可以由一组团块表示,在这些团块中找到与目标模型匹配的团块,就可以确定目标的位置。目标匹配首先需要满足两个准则:颜色相似性准则和空间相邻准则.首先,将从图像中提取出的目标与模型中的目标逐一进行比较,寻找与其颜色最接近的一个,如果颜色相似性达到阈值要求,进而比较两个目标之间的欧几里德距离是否小于预定的门限.如果上述两个条件都满足,则认为观测到的目标是模型目标的候选匹配目标。
5)轨迹生成模块:收集所有目标的位置,并在每条轨迹结束时将其保存。
此外,可对目标的行为进行分析,如目标是否进入禁入区域等。
3系统硬件设计
本系统以DSP强大的图像处理能力为支持,设计一个稳定的、低成本的、可扩展性好的、网络化的高速图像处理平台,为实现智能监控提供了硬件基础。根据系统设计要求,系统硬件结构可分为六部分,主要分为摄像头模块,TVP5146转换模块,处理器模块,存储器模块,监视器显示模块,和网络通信接口模块。
DSP通过DMA通道将图像读进DSP内部存储器,读取完成后将图像数据指针传给核心算法进行处理。将处理结果数据指针转给显示程序模块,输出到NTSC/PAL/VGA等监视器。这样通过指针链表的循环使用,避免了图像数据拷贝,大大的提高了系统效率。
器件选型:
由于本系统采用的算法复杂性较大,实时性要求高,并且需要大量存储器存储中间结果,视频输入输出较复杂,因此选择达芬奇高性能数字媒体系统芯片。
核心处理器采用TI公司的高性能定点DSP媒体处理平台 TMS320DM6446。该款处理器具有丰富的片上资源,能满足大多视频系统需求。
4系统软件设计
4.1视频采集系统驱动程序的结构框(如图5所示)
图5视频采集系统驱动程序的结构框
软件设计涉及到嵌入式Linux操作系统、视频处理算法及ARM和DSP之间的分工协作。为了能使用户尽量的发挥达芬奇技术的优势并且在此基础上快速的开发自己的产品,TI推出了达芬奇软件框架RF5(Reference Framework 5)和达芬奇开发工具。
利用达芬奇软件框架和达芬奇开发工具,软件设计可以分为图6所示的四个步骤:
图6软件设计步骤
1)设计视频处理算法Codec库。在主机Linux环境下,按照照xDM标准开发核心算法,利用代码生成工具(Code Generation Tools)编译生成*.a64p库文件。
2)创建Codec Server。利用xDC(eXpress DSP Component)Tools配置工具生成木*.x64P可执行文件,也就是DSP Server。
3)配置Codec Engine,将第二步生成的算法的DSP Server集成到Codec Engine中。根据DSP Server的名字及其中包含的具体的视频处理算法创建Codec Engine的配置文件*.cfg。这个文件定义Engine的不同配置,包括Engine的名字、每个Engine里包括的算法库及每个算法库运行在ARM端还是DSP端等。
4)设计应用程序。在主机Linux环境下开发视频应用程序,首先完成视频文件的读取操作,然后通过Codec Engine调用核心处理算法,完成视频图像处理。
4.2统计数量流程图(如图7)
4.3运动检测
使用SAD(The sum of absolute differences)方法检测运动。
4.4人物跟踪
检测和跟踪人过程,第一步使用视频的头几帧图像来构建背景图;第二步,获得背景图后,将人物从背景图里分离出来;第三步,将代表每个人的像素团块分组并计算每个人的边框;最后,通过比较当前帧和前一帧人物边框,匹配当前帧的人和前一帧对应的人。通过这样方法达到跟踪人物的目的。
4.5肤色检测
人体的皮肤颜色是人体的一个重要特征,肤色检测被广泛的应用于人脸跟踪、人脸检测、手语识别、敏感图像过滤等领域中,具有重要的理论研究意义和实际应用价值。
经过统计证明,不同人种,不同环境下的肤色区别主要受亮度影响,受色度影响较小。
5系统设计与创新
在诸多特殊场景下的视觉监控有着相当广泛的应用前景,例如警戒地带的入口控制,机场,火车站,地铁等场合下的特定人员的识别,人群流量的实时统计,异常情况的检测和报警,多台摄像机交互式联网实时监控等。而目标检测是本系统中视频识别中的目标跟踪,行为理解和描述,多摄像机的数据整合等步骤的前提。目标检测包括以下几个步骤:目标检测,阴影去除,目标分类等。
多运动目标的检测跟踪是把数字图像处理,自动控制,信息电子科学完美的结合起来,形成的一种能从视频信号中实时地识别目标,提取目标特征信息,自动跟踪指定目标的技术。为了对检测出的运动目标或指定目标区域进行实时跟踪检测,通过跟踪算法实时计算出目标在区域场景中的准确位置,目标移动速度,移动方向等重要信息。多运动目标的检测与跟踪主要可以分为多目标检测与多目标跟踪两个部分。多目标检测主要目的是实现从指定场景中检测运动目标作为跟踪对象,它是实现智能化自动化跟踪的前提。
针对目前普通安检系统适应性差,无图像处理/分析功能或处理功能弱,无搜索、跟踪特定人员等实用功能。我们设计出了基于视频识别技术的智能化和自动化的安检系统,以满足日益增加的应用需求。
为了便于调试和生产,采用模块化设计的思想指导系统的设计,系统中各个模块间采用通用接口,方便更换、升级部分模块,系统拥有较强的升级性能和灵活性。
采用TI TMS320DM6446高性能达芬奇平台为核心处理视频图像,简化了硬件设计,减少其他器件的使用,在降低系统BOM成本的同时,提高了系统可靠性,加快了新产品的开发进程;最重要的是能是客户专注于系统特色功能的设计、实现。一方面为实施安检的指定区域提供了有价值的统计数据以供决策分析使用;另一方面通过系统搜寻跟踪特定人员,从而不必完全依靠安保人员逐个排查,可以让人群快速地通过关卡,对海量视频搜索来说具有非常实用的价值。
6评测与结论
为克服背景光源的非均匀性,提高系统正确度,我们对每一帧图像进行核心算法之前,先使用开运算补偿不均匀的背景亮度。
实验结果显示,经过补偿不均匀背景亮度处理后,即使摄像机在灯光闪烁环境下的拍摄的视频,统计结果依然能保持一定精度。
在计算机模式识别、机器视觉、图像/视频处理领域,不存在能解决大多数问题的单一算法,因此只能综合各种算法的检测结果给出最后的判断。
由于系统处理算法比较多,下一步继续优化软件,以提高系统处理视频流的速度,提高统计精度和识别准确率。
参考文献
[1]冈萨雷斯.数字图像处理(MATLAB版)[M].北京:电子工业出版社,2005.
[2]美国德州仪器公司著,卞红雨,等编译.TMS320C6000系列DSP的CPU与外设[M].北京:清华大学出版社,2007.
[3]刘瑞祯,于仕琪.OpenCV教程:基础篇[M].北京:北京航空航天大学出版社,2007.
[4]施家栋,等.基于光流的人体运动实时检测方法[J].北京理工大学学报,2008,8(9).
[5]傅莉,方帅,徐心和.基于计算机视觉的人体运动目标检测[J].兵工学报,2005,26(6).
[6]周金模.基于达芬奇技术的嵌入式实时视频系统研究[D].华中师范大学,2008.
[7]俞海滨.基于达芬奇技术的AVS视频解码器的设计与实现[D].江苏大学,2008.
[8]余谦,刘任庆.基于达芬奇技术的视频采集系统研究[J].广播与电视技术, 2008,35(3).
作者简介
黄秋娇,学士,广西现代职业技术学院,中级职称,主要研究方向:电子和信息技术。
基于视频特征的火焰识别算法研究 篇6
根据火灾检测对象的不同, 火灾探测装置可以划分为感烟式、感温式、感光式及基于视觉的探测器。感烟、感温探测器只有当火灾发展到一定的程度时, 才会做出响应。感光火灾探测器是探测火焰发出的红外或紫外光并发出报警信号, 这种探测器由于判据单一, 容易对高功率热源或强光产生误报警。
基于视觉的探测器利用火焰信号的视频特征进行识别判断, 火焰视频图象的特征大致可以分为两种:静态特征和动态特征[1]。静态特征主要有火焰颜色特征、亮度特征、形状特征和色彩分布特征等。由于燃烧物体的本质和空气湍流的作用, 燃烧的火焰呈现出显著的运动特征, 动态特征主要有火焰面积变化、边缘变化、形状变化、扇动规律、整体移动等。
利用火焰信号的视频特征进行火焰探测具有以下优势:检测系统可适用于多粉尘、高湿度的大面积室内场所;系统不仅可以进行火焰信号的检测, 还可以提供丰富直观的火灾信息;利用视觉技术检测火焰信号, 由于抽取火焰信号的特征比较多, 能够提高报警的准确度, 减少漏报和误报现象的发生。
针对传统的感烟探测器和感温探测器不适合于大空间建筑的不足, 鉴于红外火焰探测判据单一, 容易对高功率热源或强光产生误报警。本文采用了基于视频特征的探测方式来进行火焰信号的识别判断。
一、火焰识别算法设计
根据火焰信号的视觉特征, 本文火焰检测方法主要分为三大模块:运动目标检测模块, 颜色检测模块和动态特征检测模块。首先通过运动检测模块提取监控区域可能存在火焰信号的运动目标, 然后利用颜色检测模块对运动目标进行颜色匹配, 如果满足要求则进入最后环节的动态特征检测, 通过三个模块中火焰视频特征的融合, 实现火焰信号的准确判断, 并排除如太阳光、手电筒、车灯、电焊等类似火焰干扰物的影响。
1.1 运动目标检测模块
运动目标检测模块是火焰检测系统至关重要的环节, 是火焰识别、定位等后续处理的基础。运动目标检测算法主要有帧间差分法、光流法、基本背景消减法[2,3,4,5]。各种算法有其不同的优缺点, 应用的场合也不同, 帧间差分法不能获得完整的运动目标的信息, 只能获得运动目标的轮廓信息;光流法计算量大难以满足实时性要求;背景消减法能提取出较完整的目标, 但背景建模和背景的实时更新既是重点也是难点[6,7]。
针对火焰检测系统对算法的实时性要求较高, 以及考虑算法方便在微处理器上移植, 本文通过比较混合高斯模型和选择性背景更新模型的优缺点。最终提出了改进的选择性背景更新模型。
选择性背景更新模型的主要思想是:把当前帧图像
Xt (t, y) 看作为感兴趣的运动前景图像Frontt (x, y) 和背景图像Bgrdt (t, y) 两部分组成。通过一个运动阈值分割出运动前景Frontt (x, y) , 对于属于运动前景的像素点不做背景更新;对于属于背景的像素点则把上一帧的背景估计值Bgrdt-1 (x, y) 更新到当前帧的背景Bgrdt (x, y) 。具体步骤为:
(1) 对Bgrd0 (x, y) 初始化, 可以把Bgrd0 (x, y) 初始化为第一帧图像X0 (x, y) 。
(2) 对当前图像进行背景差分, 获得背景差分图Dt (x, y) 像, 公式如式 (1) 所示。
(3) 通过运动阈值Motion_Tt (x, y) 对差分图像Dt (x, y) 进行二值化处理, 获得运动区域二值图像Mt (x, y) , 公式如式 (2) 所示。
式中Motion_Tt (x, y) 是一个自适应阈值。下一时刻像素点Xt+1 (x, y) 的运动阈值Motion_Tt+1 (x, y) 通过公式 (3) 来更新。
(4) 计算背景更新图像Bgrdt+1 (x, y) , 公式如式 (4) 所示。
其中公式 (3) 、 (4) 的α代表更新系数, α取值范围为0~1, 表示更新速度的快慢。从公式 (4) 可以知α越小, 更新速度越快;反之, 越慢。对于α取值主要考虑两个方面:一方面为了使算法能够及时响应环境变化, α不能太大;另一方面, 考虑摄像机的噪声等情况会引起图像出现一些瞬间的变化, 这时又要求α不能太小。根据火焰的特点以及大量实验结果分析, 更新系数α为0.8左右时可以获得较理想的效果。
图1为选择性背景更新模型的检测结果。从检测效果可以看出选择性背景更新模型建立的背景很好地接近真实监控环境的背景, 能够提取出完整和准确的火焰目标。
1.2 颜色检测模块
通过选择性背景更新提取运动目标之后, 为了排除不具有火焰颜色信息的运动目标, 需要分析火焰颜色在图像中的分布特征, 进而建立有效的火焰颜色提取公式以提高视频火焰检测的可靠性。在火焰的颜色检测环节中, 主要采用有RGB、HSI、YCbCr等方法[8,9,10], 本文通过实验发现, RGB法能检测出部分的火焰信息, 但同时把大量的非火焰像素误判断为火焰像素;HSI法检测结果相比RGB法相比虽有所改善, 但也同样存在误判的问题, 而且有些场合存在较严重的漏报现象;而本文采用了如式 (5) 所示的检测方法, 算法在进行火焰颜色判断时明显优越于前面两种方法, 实验结果如图2所示。
从图2火焰检测结果可以看出, 本文采用的基于空间的火焰颜色检测方法能够提取较为完整的火焰信号, 而且算法很好地适用于不同场景。
1.3 动态特征检测
1.3.1 面积增长特征
在火焰的视频特征中, 火焰区域的面积随时间变化可以作为火灾检测一个有力的判据。因此在视频火焰检测中, 可以通过分析燃烧火焰的面积变化趋势来进行动态特征检测。设火焰区域在t时刻的面积为At, t+k时刻的面积为At+k, 则火焰区域面积的增长率可以用公式 (6) 表示。
公式中dA即为t+k时刻相对于t时刻火焰候选区域面积的变化量, △At即为t时刻到t+k时刻火焰候选区域面积的变化率。
在视频图像中, 面积可以用像素点数量来表示。本文对视频图像进行运动检测和颜色检测之后, 获得了火焰候选区域的二值图像, 可以计算二值图像中火焰目标的像素点总数, 因此, 火焰区域的增长率公式 (6) 可以用公式 (7) 来表示。
上式中Nt和Nt+k分别表示t时刻和t+k时刻图像中火焰候选区域的目标像素点总数, dN表示Nt+k时刻相对t时刻图像中火焰候选区域目标像素点总数的变化量, △At即为火焰候选区域像素点总数的变化率, 即为火焰面积变化率。
1.3.2 圆形度检测
圆形度用来衡量物体形状的复杂程序。圆形度越大, 表示物体形状越不规则, 反之, 圆形度小表示物体形状规则性好[11,12]。用物体形状周长的平方与面积的比来表征圆形度是比较常见的, 为了便于观测, 本文通过圆形度值除以4π使其值最小值为1, 定义如下:
公式中:Cm为第m个图元的圆形度;Pm为第m个图元的周长;Am为第m个图元的面积;n为图像中图元的个数。
从公式 (8) 可知, 圆的圆形度最小, 其值为1。形状越接近圆形, 则圆形度Cm越接近1;形状越不规则, 则圆形度Cm越大。由于燃烧物体的本质和空气湍流的作用, 燃烧火焰呈现出不稳定性, 火焰形状呈现不规则的外观, 并不断变化着, 而诸如蜡烛火焰、太阳、车灯、白炽灯等大部分火焰干扰物的形状规则程度要比火焰高。因此, 本文通过圆形度分析进一步排除火焰干扰物。
在数字图像中, 目标面积为表示目标区域的像素点总数, 物体形状的周长为边界链码中得到的边界长度。计算边界长度有两种方式: (1) 计算边界上的像素点总个数; (2) 按照计算曲线周长的方法求取边界长度。本文采用第二种, 具体过程为:垂直和水平方向上相邻像素点之间的距离为1, 而对角方向上相邻像素之间的距离为, 按照这样的规则遍历边界链码, 把相邻像素两点间距离逐点累加便求出边界长度。
在计算圆形度时, 首先对通过火焰运动检测和颜色检测后获得的火焰二值图像中候选区域进行标记, 然后计算各个标记候选区域的周长和面积。由于面积小的候选区域在视频图像中无法体现出变化情况, 因此通过设定面积阈值舍弃较小面积区域。为了验证圆形度对于排除火焰干扰物的有效性, 本文对燃烧火焰及常见干扰物进行了实验, 实验数据如表1所示。
通过表1实验数据, 可以发现燃烧火焰的圆形度明显要比干扰物的圆形度大, 可见通过设定圆形度阈值排除常见火焰干扰物是可行和有效的。
图3的原图像是通过在CCD上面加了滤光片后拍摄的, 图中只存在在太阳和火焰信号, 通过圆形度进行检测后, 火焰信号被选中 (框选) , 而太阳没有被选中, 因此, 可以判断圆形度特征可以成为火焰检测的一个重要判据。
二、具体实施步骤
火焰检测系统通过上述的三个模块对视频图像进行检测, 首先通过运动检测模块判断监控区域中是否存在运动目标, 若监控区域中不存在运动目标, 则检测系统重新读取新的一帧视频图像进行运动检测;当监控区域中出现运动目标时, 则系统进入下一个环节, 开始运动目标的颜色检测。通过颜色检测模块, 系统对监控场所中的运动目标进行火焰颜色识别, 若该运动目标被识别为非火焰颜色目标, 则系统判断该目标为非火焰目标, 系统将重新读取新的一帧视频图像重新进行运动检测;若该运动物体检测为具有火焰颜色的运动目标, 则系统初步判断该目标为火焰目标, 系统紧接着进入火焰动态特征检测环节。火焰动态特征检测模块进一步识别具有火焰颜色的运动目标是否具备火焰的动态特征, 若该目标不具备火焰的动态特征, 系统重新读取新的一帧图像进行运动目标检测;若该目标满足火焰动态特征, 则最终确定为火焰目标。火焰检测算法总体流程如图4所示。
三、结语
本文通过对火焰视频特征的研究, 给出了一种适用于相对复杂监控场所的火焰运动目标提取方法, 该模型建立的背景模型能很好地逼近真实环境的背景, 提取出比较完整和准确的火焰目标。同时在RGB、HSI和YCbCr颜色空间分析和讨论了火焰颜色分布特征, 进而引入一种新颖的基于YCbCr颜色空间的火焰颜色检测方法。通过实验证明了本文的火焰颜色检测方法要优越于经典的基于RGB和HSI颜色空间的火焰检测方法。在经过火焰运动检测和颜色检测后, 为了进一步提高检测的准确率, 本文通过研究火焰的动态特征, 对面积增长特征以及圆形度特征等进行了分析, 通过试验证明了火焰这些动态特征用以检测识别火焰目标和火焰干扰物是完全可行的。
参考文献
[1]范华中, 张伯虎, 冯艳.图像处理技术在火焰目标提取中的应用[J].电光与控制, 2006, 13 (1) :99-104.
[2]Lipton A.Fujiyoshi H and Patil R.Moving target classificationand tracking from real-time video.In:Proc.IEEE Workshop OilApplications of Computer Vision, Princeton, NJ, 1 998:8-14.
[3]Cheung, C.Kamath, Robust Background Subtraction withForeground Validation for Urban Traffic Video.EURASIP Journal onApplied Signal Processing, 2005, 14:1-11.
[4]Dubuisson M P, Jain A K.Contour extraction of movingobjects in complex outdoor scenes.International J.ComputerVision, 1995, 14 (1) :83-105.
[5]吕国亮, 赵曙光, 赵俊.基于三帧差分和连通性检验的图像运动目标检测新方法[J].液晶与显示, 2007, 22 (1) :87-92.
[6]Liu Chebin, Ahuja N, Institute B.Vision based fire detection[C].Proceedings of the 17th International Conference on Pattern Recognition.Cambridge, UK:IEEE Press, 2004:134-137.
[7]Li Jin, Fong N K, Chow W K, etal.The motion analysis of firevideo images based on moment features and flicker f requency[J].Journalof Marine Science and Application, 2004, 3 (1) :81-86.
[8]Chen T H, Wu P H, Chiou YC.An early firedetectionmethod based on image processing.In:Proceedings of IEEEInternational Conference on Image Processing (ICIP'04) [C].Singapore:2004:1707-1710.
[9]Celik T, Demirel H, Ozkaramanli H, and Uyguroglu M.FireDetection using Statistical Color Model in Video Sequences.JournalofVisual Communication&Image Representation, 2007, 18:176-185.
[10]Chen T H, Wu P H, Chiou YC.An early firedetectionmethod based on image processing.In:Proceedings of IEEEInternational Conference on Image Processing (ICIP'04) [C].Singapore:2004.1707-1710.
[11]吴龙标, 宋卫国, 卢结成.图像火灾监控中的一个新颖的火灾判据[J].自然科学进展, 2001, 11 (1) :60-66.
基于视频流的车型识别系统研究 篇7
这种方法为静止背景建立背景模型, 通过对当前图像帧和背景模型进行比较, 确定出亮度变化较大的区域, 即认为是前景区域。
影响背景模型精确度的主要因素是场景中的光照条件、阴影的变化、大面积运动区域和视频信号中的噪声等, 它们都可能影响背景模型的有效性, 在室内应用中影响更为明显。根据适应环境的能力, 可以将背景模型分为非自适应和自适应两大类。
非自适应背景模型一般为每个图像点建立一个静态统计模型, 因此, 当背景发生变化时需要人工重新初始化。否则, 背景模型错误所引起的误差就会不断积累, 影响算法的性能。自适应背景模型则为每个图像点建立一个动态统计模型, 通过不断地自动更新这个动态模型使其适应背景的变化。现在的视觉侦察系统已基本摒弃了前一种方法, 而采用动态更新的自适应模型。
背景消减也有它自身的缺点, 比较严重的一点是当背景发生突然的变化时背景模型的响应速度不够快, 这是因为背景模型的更新是一个缓慢的过程, 对背景的突然变化缺乏快速响应的能力。
出于计算处理速度和算法性能以及应用场合等因素的考虑, 和大部分视觉监视系统一样, 本文选择了建立背景模型作为检测前景区域的基本方法。
2 背景建模算法
2.1 背景建模算法概述
将运动目标所在的前景区域从背景中分割提取出来, 即实现前景和背景的分离, 是整个视觉监视系统处理中的第一步工作。
统计建模方法是基于概率统计理论的。理论上讲, 所谓静止的“背景”就是在图像序列中灰度不发生变化或变化很小的像素。从统计学的角度来看, 背景中像素的灰度值可以看作是一个统计的结果, 即图像序列中各个像素在统计上最可能出现的值。基于这一思想, 我们就可以建立基于统计的背景更新模型。设t时刻的背景图Bt (x, y) 为:
其中G (*) 为背景更新函数, ft (x, y) 为在时刻t采集到的图像, n为用来估计背景图像序列的长度, Bk (x, y) 为在时刻k得到的背景图像, 并给定一定的权重, 用来调整t-1时刻的背景在t时刻背景中的比重。如果采样时间间隔为△t, 则统计时间为n*△t。
常用于进行背景建模的算法有:均值法、中值法、时间中值滤波和模型法等算法。本文采用的是均值法。
2.2 均值法背景建模
它是利用如下的公式来计算背景的:
其中Ij (x, y) 是当前的第j帧视频图像在 (x, y) 处的像素值, 而Bj-1 (x, y) 是上一帧时的背景在 (x, y) 处的像素值。它们按照一定的比例取和即得当前要求的背景图像中 (x, y) 处的像素值。
2.3 背景差分提取车辆轮廓
这种方法的主要思想是:将当前图像灰度化后和背景图像逐个像素进行比较, 确定出像素点灰度值有变化的区域, 即得到车辆的轮廓信息。只要背景模型足够精确, 就可以获得关于车辆轮廓完整精确的描述。如图1为某路段根据均值法背景建模所得到的背景图象, 图2为有车通过时的灰度图象, 将图1与图2中对应像素点灰度值不同的点找出, 采用连接, 填充, 同色等处理, 得到图象3。
3 车长及车高信息的提取
为了达到对车辆分类的目的, 仅仅确定车辆的轮廓是不够的, 应该提取车辆的主要信息及参数, 才能对车辆进行准确分类。本文所采用的方法是提取车辆长度和车辆高度两个关键参数。如在图3中, 找到横坐标最大的像素和横坐标最小的像素, 将两者横坐标相减, 便可得到车辆的相对长度;同理, 也可求出车辆的相对高度。
4 实验及结果
为了更好地提取车型的特征, 本文把摄像机安装在道路的侧面, 通过侧面来拍摄车道上车辆。很多文献利用正前方或者正上方来拍摄车道, 但是这样做有很多缺点。本文之所以安排在侧面有如下几个方面的好处: (1) 与安装在正前方相比, 可以有效地避免车灯的干扰, 根据实验结果, 当车灯打开时, 摄像机几乎拍摄不到任何有效的信息; (2) 与安装在正前方相比, 侧面能够得到更多、更为有效的车型特征, 如车长、车高、车辆轮距, 而在正面只能够得到不是很准确的车宽、车高, 而在车型识别中车长才是最主要的决定性要素; (3) 如果安装在正上方, 一则它也无法完全避免车灯的影响, 而且它只能得到变形的车长和车宽, 要经数学处理后才能得到车长、车宽信息, 但是这样处理后误差明显增大, 没有在侧面来得简单、精确。所以, 本文所讨论的视频图片都是基于侧面的拍摄结果。
设求得的车辆相对长度为x (并非实际车长, 而是在800X600分辨率环境下求的像素点坐标差) , 给出以下约定:
两次实验, 通过和肉眼识别做对比, 结果如下:
本文的测试方法是在学校附近的公路上采集视频录像, 然后通过本系统分析其结果, 再与人工处理结果对比。系统运行的主要环境为:CPU主频为AMD3200+2.01G Hz、内存大小为1G的PC机, 同时配以“天敏视讯SDK2000”图像采集卡和一个松下Color CCTV牌的CCD摄像头用于采集视频图像。图像的分辨率为352×288。由上表可以看出, 本文所采用的方法, 可以较为精确地识别车辆信息, 考虑到上述实验结果是仅提取车长信息所得出的, 若加之以车辆高度信息, 识别率有望再上一个台阶。
5 结束语
利用图像处理实现交通流的检测是一个很有前途的方向, 关键是要研究简便、实用、快速的处理算法。本文采用均值法背景建模的方法, 对原始图像进行处理, 以达到车型识别的目的, 通过对实验结果的分析, 此方法是具有可行性的。
摘要:在智能交通系统中, 车辆信息的获取对车辆自动监控和全自动收费系统的建立起着关键的作用。因此, 车辆图像检测技术的研究对提高公路交通的自动化程度, 促进智能交通系统的发展有重大的实际意义。主要讨论如何通过背景建模的方法提取车辆轮廓信息来达到车型识别的目的, 并指出了下一步的研究方向。
关键词:图象检测,车型识别,背景建模
参考文献
[1]张全元.基于实时视频流的车型识别系统设计[D].中国地质大学 (武汉) 硕士学位论文, 2007.
[2]王春波, 张卫东.智能交通系统运动车辆的视觉检测[J].红外与毫米波学报, 2001 (20) .
[3]林晓梅, 李琳娜.基于小波边缘检测的图像去噪方法[J].光学精密工程, 2004 (1) .
[4]詹伟, 基于AVI视频流的公路收费站车型识别系统研究[D].中国地质大学 (武汉) 硕士学位论文, 2006.
[5]刘宏兵, 杨万海.图像小波边缘提取中阈值选取的一种自适应算法[J].西安电子科技大学学报, 2000 (3) .
[6]S Peeta, R L Kashyap.Unsupervised Video Segmentation and Object Tracking[C].IEEE International Conference on Image Processing, 1999.
视频识别 篇8
1 总体设计
本题中通过摄像头对视频显示界面进行信息采集, 对视频中关注的数据进行识别并记录, 其总体流程图如图1所示。
2 硬件设计
对显示视频的字符提取与识别系统的硬件要求为整机结构设计合理, 扩展能力强, 易于安装维护, 同时要求其外形合理, 重量轻, 在便携性方面具有一定的优势, 此外要求训练系统具有良好的环境适应性, 可耐高低温、抗振、抗冲击等, 运行稳定可靠。
根据上述要求, 在实际设计显示视频的字符提取与识别系统硬件时采用一体成型技术构建框架, 系统的硬件主要有视频采集装置、数据传输线及视频分析处理设备三部分组成,
(1) 视频采集装置。该装置采用静态分辨率为1280960、动态分辨率为1280720的视频采集设备, 最大帧频为30FPS, 输出的格式静态时为BMP/JPEG, 动态时为AVI/YUY2, 感光元件为CMOS。
(2) 数据传输线。采用传输速率为800Mbps的Fire Wire (火线) 1394传输线。
(3) 视频分析处理设备。其芯片组选用Intel Q77 Chipset CPU选用INTEL Core I7-3770, 内存选用DDR3/4G, 显卡显存选用1G, 显示屏选用20.1寸液晶显示器 (分辨率16001200) , 配备2个USB接口, 2个千兆光纤网口。在选择硬盘时, 考虑到显示视频的字符提取与识别软件运行的可行性问题, 采用80G2.5英寸固态硬盘作为系统安装盘, 采用4T3.5英寸硬盘用于存储应用软件和必要数据。
3 软件设计
整个系统的软件设计, 主要包括视频读取与转码模块、预处理模块、特征提取模块及字符识别模块四个主要模块, 通过以上模块功能的实现, 最终得出识别的结果。
各模式的主要作用为:
视频读取与转码模块:通过MATLAB读取将视频读入系统并将不同压缩格式的视频文件转换为MATLAB易于识别及处理的AVI格式。
预处理模块:将转码得到的视频文件处理为可供特征提取的图像。
特征提取模块:为了获取字符间差异的本质特征, 为字符识别提供前提条件。
字符识别模块:选用适用性强的识别方法, 通过MATLAB编程最终实现本题的字符识别功能。
3.1 视频读取与转码模块
随着科技的飞速发展, 人们对视频清晰度的要求越来越高, 高质量的视频图像同时也会占用大的存储空间, 另外不同品牌的视频采集装置采集到的视频会有不同的格式。本系统应用的是MATLAB进行系统的实现, 此软件主要支持AVI格式的视频文件, 所以系统在软件设计的时候, 设计了其它格式的视频图像转码为AVI格式的模块。
3.2 预处理模块
此模块主要实现的是对系统程序读取到的视频信息进行处理, 目的是做好图像处理前一切准备工作。此模块主要包括视频预处理和图像预处理两个部分。
3.2.1 视频预处理
视频预处理主要是通过对视频结构的处理, 实现对视频镜头的分割, 最终提取用于图像预处理的代表帧。
(1) 视频镜头分割。若干个镜头在一起有序的衔接成为一个视频, 所以镜头也是视频检索的基本单元。镜头间的衔接也称为镜头的切换, 有些视频为了增加观看效果有意地进行了编辑, 为的是镜头间切换更加美观、紧密。镜头的切换方式通常分为渐变和突变两种。顾名思义, 渐变就是镜头在切换的时候是一个逐渐的过程, 没有明显的跳跃;突变就是一个镜头的结束直接切换到另一个镜头的开始, 两个镜头间的切换没有过渡, 切换是一个瞬间完成的过程。
镜头边界检测是视频结构化的重要工作, 也是代表帧选取的前提。其方法根据视觉特征的不同, 主要有边缘差值法、像素差值法、压缩域方法、运动矢量法等, 不同方法的运用主要取决于视频流镜头切换方式的不同。
(2) 代表帧的选取。代表帧概括地表示了所属镜头的内容, 是视频流中提取的静止图像。通常情况下, 一个镜头中的帧所含的内容不会是完全一样的。代表帧一般要选取最能代表镜头的帧, 此帧要具有尽可能强的镜头概括力。根据摄像头采集视频特征的不同, 可以采用时间自适应算法、平均法及大运动变化镜头的代表帧提取方法等算法进行代表帧的选取。
3.2.2 图像预处理
对获取的视频图像一般要灰度化、二值化、边缘检测等图像的预处理过程, 其基本流程图如图2所示。
(1) 图像灰度化。AVI格式的视频为BMP格式的彩色图像, 所以对提取帧图像的处理首先要进行灰度化、二值化等帧图像的预操作。图像的灰度化又称灰度的归一化, 顾名思义就是将读取的图片由彩色转为灰度颜色, 因为选取的代表帧一般都是调色板内容比较复杂的彩色图像, 这样很多算法都无法适用于图像的处理, 所以使图像有一致的灰度尺度, 便于下一步对图像进行二值化处理。
(2) 图像二值化。图像的二值化是数字识别中重要的一步, 上一步得到的灰度图像通过二值化将变为黑白两种颜色的二值图。这步很大程度地方便了最后的数字识别的实现。关于图像的二值化成熟的算法比较多, 比如可以在处理时应用特定阈值法, 也可应用自适应阈值法。
(3) 整体倾斜度调整。采集到的视频信息会因为视频采集装置相对于显示界面角度的不同, 图像发生倾斜的问题, 这不利于对图像中的字符进行识别, 所以对它进行倾斜度的调整是十分必要的, 处理后得到的字符均在同一水平位置, 这样便于下部的图像边缘检测, 更不利于提高字符识别的准确率。
(4) 图像边缘检测。在复杂背景下的文字提取过程中, 首先必须将彩色复杂背景变换为灰度图像, 然后运用边缘检测方法提取出边缘信息。Roberts, Sobel和Canny算子等都属于常见的边缘检测算子。当Roberts算子运用到彩色图像时, 与灰度化彩色图像不同, 它是将彩色图像中两个像素的RGB颜色空间的三个分量 (r, g, b) 的偶数距离代入Roberts算子中计算, 确定图像边缘, 最终获得文本区域。
在检测视频字符的算法中, 利用其边缘检测和线条特征, 将Canny算子进行改进, 然后应用于图像边缘检测中。一旦候选图像的边缘被检测出, 用连通扫描算法追踪相邻的边缘像素, 形成线条, 然后过滤线条, 再将相邻的线条聚集起来, 从而候选文字区域获得, 最后依照文本特征确定文本区域。
各个尺度下沿着边界的模极大曲线是由沿边界方向将该尺度下的边缘连接起来而获得, 通过检测二维小波变换的模极大点可确定图像的边缘点。当图像经小波变换分解成多个尺度, 对每个尺度上的成分采用相应的时域或空域取样步长, 能不断地聚焦到对象的任意微小细节。正因为小波变换所具备的这种多尺度特性, 恰好将其用于检测图像边缘。
(5) 字符归一化处理。图像中字符的大小一般是不同的, 视频采集装置与显示界面距离的不同, 也会造成字符在被系统识别的时候出现大小不一的问题, 所以有必要对字符进行归一化的调整。顾名思义, 结字符进行归一化就是将像素值不同的字符归一化为相同的尺寸, 在本系统中指的是归一化为相同的宽度和高度。本系统设定的字符归一化值为1625个像素。
3.3 图像特征提取模块
特征提取为的是获取字符间差异的本质特征。在整个字符的识别过程中, 需要将图像的固有属性或本质特征进行量测, 形成数值化的特征向量。图像特征的选择和提取直接影响识别过程。如果选择的特征对不同的类别有大的区分度, 这样设计的分类器的性能就会比较好, 这样会直接影响到字符识别的效果。根据不同的情况会选择不同的特征提取方法, 现阶段使用较为普遍的方法有:骨架特征提取法、逐像素特征提取法及弧度梯度特征提取法等。
3.4 字符识别模块
复杂背景就是指图像的背景中蕴含着丰富纹理信息。图像中的字符有时候是嵌入在纹理之中的, 有时候字符本身就是一种纹理, 它所具备的信息包括可能出现的位置、字体、大小和颜色也不尽相同, 而且这些信息在字符定位前都是不知道的。
一般的字符识别的方法都有很强的局限性, 当识别的样本发生一定的变形或环境发生变化等干扰时, 几种方法的识别准确率和抗干扰性都不是很理想。基于BP神经网络的数字识别方法对于复杂的视频数字识别环境有较强的自适应性, 该方法的决策区域由自身的学习机制形成, 不需要事先给出判别函数和经验知识, 神经元的拓扑结构决定了此方法的特征, 通过训练得到可以进行识别的映射。另外神经网络的基本成果几乎均被MATLAB所包括, 所以在应用MATLAB实现本系统的设计中, 采用神经网络的字符识别方法可以很大程度地减少工作量。鉴于基于BP神经网络在字符识别中的特点优势, 本系统识别模块采用此方法实现。
神经网络由神经元、电子元件、处理元件及光电元件等处理单元互连组成的网络。它反映的基本特征类似于人脑的功能, 但它只是人脑的某种简化、抽象与模拟, 并不是人脑的真实描写。神经元间的互相作用实现了网络的信息处理。对不同字号的印刷体数字在清晰的背景下进行识别, 基于BP神经网络的方法, 能取得较好的识别率。此方法也可用于文本分类、手写体数字的识别等领域。
用此方法进行字符的识别, 视频帧图像首先要进行预处理, 之后要对图像的特征进行提取, 接着根据需要识别的实际设计BP神经网络, 将事先得到的特征向量输入神经网络, 网络会进行迭代训练一直到网络稳定。另外也要相应地处理测试的图像, 网络训练完成后, 把得到的特征向量输入到神经网络中, 对字符进行识别, 并记录识别得到的结果。
4 结束语
本文设计了一种对显示视频中的字符进行自主识别的系统, 对于可视化设备的智能化操作具有一定的相实意义。
参考文献
[1]李弼程, 邵美珍, 黄洁.模式识别原理与应用[M].西安:西安电子科技大学出版社, 2008:263-265.
[2]王笑雨.运动目标检测与跟踪系统设计[D].哈尔滨:哈尔滨工业大学, 2008.
[3]邬建瓴.数字识别及应用[D].武汉:华中科技大学, 2006.
[4]Deng H W.Unsupervised image segmentation using a simple MRF model with a new implementation scheme[J].Pattern Recogniti on.2004, 37 (12) :2323-2335.
视频监控中车型识别技术的应用 篇9
1 数字图像处理基本知识
1.1 RGB颜色模型
颜色模型中与设备连接使用的模型就是RGB模型。RGB模型属于一种与人的视觉系统关系十分紧密的模型, 按照人眼特点, 将全部颜色都安装基础颜色进行调配。
在笛卡尔坐标系统中, RGB模型在三个轴上面的具体结构如图1所示。RGB模型所拥有的空间模型属于正方体, 在这种模型之中, 灰度值在源点与定点之间, 进而正方体每一个节点上面都能够反映出不同深度的颜色, 可以以源点作为基础, 按照矢量的方式表示颜色改变坐标。
在这个模型中, 每个颜色都应有三个角度上的平面, 也就是说颜色可以反映在三个平面上, 这种模型在实际应用中较为便捷。但是, 这种表示方式没有给人们带来直观感, 而是给人们一个RGB值, 人们很难看出所对应的颜色。
1.2 HSI颜色模型
在颜色模型中, HSI颜色模型表示颜色的不同视觉感知, 其中H表示的是颜色的色调, S表示的是颜色的饱和度, I表示的是颜色的亮度与灰度。其中亮度与物体之间的反射效率之间呈现正比, 物体要是没有任何颜色, 仅仅是亮度改变, 那就是颜色维量发生变化[1]。
HSI模型在颜色处理方面优点较多, 主要表现在两个方面。首先HSI模型在处理中, 能够有效将颜色上面的亮度分量与色度分量区别开来, 进而颜色分量与图像上面的信息之间就没有任何直接关联;其次, HSI模型在实际处理中, 能够有效将色调与饱和度相结合, 让颜色与视觉感知相结合。正是由于HSI模型特点使HSI模型与人的视觉系统相结合, 进而赋予图像处理分析算法。
2 运动目标检测与提取
想要完成对于车辆的自动识别、分类, 首先就需要对视频图像进行检测, 进而获取车辆有关信息, 也就是对目标车辆进行检测与分割, 这就是目标检测。目标检测指的是图像在场景上的变化, 如果图像发生改变, 就说明目标在运动, 需要使用监测技术对目标进行检测。在目标提取中, 需要利用有关手段将目标出现之后检测出来, 并且将这个图像从原来的图像中划分出来, 为下一步识别提供数据基础。在视频监控系统中, 关键性内容就是目标检测与提取算法[2]。
2.1 光流法
光流能够有效反映出图像变化规律, 其中包含物体运动信息, 人们能够通过这些信息反映出有关运动特点。光流要素主要有三种, 分别是运动速度场、光学特点部分、成像投影, 其中运动速度场是构成光流的必要性因素;光学特点部分能够携带物体运动的信息, 例如像素点;成像投影能够将空间运动信息反映在图像平面上, 这样人们才能够了解有关信息[3]。
2.2 背景差分算法
背景差分算法是现在运动分割中最常使用的一种方式, 能够在摄影机静止状态下应用, 以图像序列上面的数值对视频及图像运动特点进行分析, 明确图像上面是否有物体运动。背景差分算法在实际应用中最简单的方式是在视频中抽取出来有关信息, 使用前帧与图像差分作为检测方式, 这种差分法的检测效果较好, 能够提供系统数据资料, 计算数量较小, 拥有较高的使用价值。
3 基于特征脸和纹理特征的车型识别研究
3.1 基于特征脸的车型识别方法研究
3.1.1 特征脸法
特征脸法是一种以代数作为特征的方式, 是现在人脸识别中最常使用的方式。特征脸法在实际应用中以总体散布矩阵方式作为产生矩阵, 经过多次变化之后会得到最优的特征向量, 得到的特征向量所形成的图像与人脸基本一致, 因此, 特征向量也被称为特征脸[4]。
3.1.2 基于K-L变换的特征脸法
(1) K-L变换。从压缩能量角度分析, K-L变换方式效果最佳, 低维空间在变换之后能够提高车辆表现性能, 但是, 这并不表示K-L变换能够辨别不同车型的车辆。生成矩阵是选择训练样本散布矩阵方式, 最显著特点就是能够有效反映出样本分布上最大方向几何, 但是图像统计方式, 并不是对于车脸的统计方式。K-L变换所查找出来的图像之间还是存在一定差异, 这些差异能够制定出车辆之间的差异, 并且这些差异并不是由于光线或者背景等因素的改变, 这些都是由于车辆内部结构上面所形成的差异, 特征脸方式在车辆识别理论方面还有一定不足。
(2) 主成分分析方法。主成分分析方法也被称为离散K-L变换, 是以目标统计特性作为交换基础的方法。主成分分析方法在实际应用中最为重要的性质就是分量正交并不会受到变换的影响, 在各方面都拥有较高的应用价值。主成分分析方法主要目的就是能够有效降维思想, 将传统多个指标转变成综合指标。
3.2 基于纹理特征的车型识别方法研究
3.2.1 基于纹理特征的车脸车型识别
车脸图像在实际应用中能够有效将灰度共生矩阵所具有的纹理特征量提取出来, 其中包括能量与对比度。任何一个车脸图像都具有5个纹理特征, 本文在对于基于纹理特征的车脸车型识别中, 需要将各个车辆图像上面的特点输入向量中。
3.2.2 纹理特征的提取
为了能够将共生矩阵纹理信息直观描述出来, 能够在共生矩阵上面反映出有关参数, 其中具有代表性的参数主要有三种, 分别是能量、熵及对比度。能量是灰度共生矩阵上面各元素数值的平方和, 也就是能量, 能够客观反映出图像灰度分布特点, 如果能量数值较大, 纹理就较粗, 如果能量数值较小, 纹理就较细。熵是图像上面所具有的信心, 纹理信心是图像中所包含的信息。如果图像没有任何信息, 灰度共生矩阵就是零矩阵, 图像所具有的熵就更大。对比度能够有效反映出图像清晰度与纹理深浅水平, 如果图像上面的纹理较深, 图像所具有的对比度就越大, 这样图像清晰程度就越高。
4 结语
伴随着车辆逐渐普及, 交通环境逐渐恶化, 各种交通事故不断增加, 要积极将高科技应用在交通系统中, 这样才能够从本质上解决交通中所存在的问题。在20世纪80年代之后, 科学技术得到较大发展, 各国为了解决交通问题, 研究出了有效集成智能、自动控制等技术, 常见的是系统性交通管理系统, 主要是应用在道路沿途安装检测上, 能够及时采取交通数据, 完成对于交通数据的处理, 进而提高交通管理质量。本文对交通系统中视频监控进行研究, 分析车型识别技术所具有的价值。
摘要:智能交通系统是我国交通行业未来主要发展趋势, 也是现在交通运输领域的热点研究课题。近几年, 车型识别技术相继出现, 主要应用在车辆检测上, 帮助对车辆进行自动识别, 检测出的参数主要是通过传感器获取的车辆有关数据。这种方式在实际应用中能够有效辨别车型, 同时计算方法较为方便。正是由于车型识别技术在实际应用中所具有的优势, 所以, 其成为智能交通系统中的关键技术。对于视频监控中车型识别技术进行研究, 不仅仅具有理论性价值, 还能扩大其应用空间。
关键词:车型识别,车脸,目标检测,特征提取,纹理特征
参考文献
[1]刘相锋, 周航.步态识别技术及其在视频监控中的应用[J].电视技术, 2011 (1) :119-121.
[2]李彬, 曲寒冰, 靳薇.浅谈人脸识别技术在智能视频监控中的应用与发展趋势[J].中国安防, 2011 (3) :50-53.
[3]刘治红, 骆云志.智能视频监控技术在哨位安全威胁智能识别中的应用[J].兵工自动化, 2011 (7) :82-85.
视频识别 篇10
当前多数Android智能终端等都安装有精良的摄像头, 能随时捕获到实时视频信息, 例如车牌、广告标语等。研究基于Android平台的视频字符实时识别对于扩展其应用如交通执法等具有重要意义。目前Android智能终端对实时视频的主要处理方式是将信息通过网络传输到服务器, 由服务器进行处理[1]。该处理模式存在大量网络通信, 并且网络一旦发生故障, 整个系统将无法运行。此外还有通过向智能终端中增加嵌入式处理器, 实现网络视频监控的实时处理和显示的方案[2,3], 该类方案可提高处理速度, 但开发成本较高。
在Android平台上进行视频字符实时识别的主要难点在于:移动终端处理能力低、内存小, 若采用传统方法, 则每帧视频从采集、格式转换、图像预处理、字符定位、位置校正、字符分割到模板匹配, 对于一般移动设备所需时间在1000ms以上, 不能满足实时性要求。
针对上述问题, 本文提出一个三阶段视频字符实时识别方法, 将Android平台的视频字符实时识别问题划分为视频采集及图像预处理、字符区域定位和字符识别三个阶段, 提出了基于感兴趣区域 (ROI) 运动检测的视频字符实时定位算法、基于误差阈值筛选的多模板匹配算法进行字符识别算法, 并采用基于NDK的开发框架。在每个阶段都明显地提高了处理效率, 从而在整体上达到了对Android平台下的视频字符能够进行实时识别的效果。
1 Android平台的视频字符实时识别方法
本文所提出的三阶段视频字符实时识别方法如图1所示。视频采集及图像预处理阶段, 通过Android的Camera系统采集视频并提取视频帧, 然后对视频图像进行格式转换、灰度化、二值化以及边缘检测等处理。字符区域定位阶段, 提出基于ROI运动检测的算法来过滤相似帧, 即仅对位置变化较大的帧执行字符定位过程, 从而大大减少了计算量。对于需进行定位的帧, 通过数学形态学与连通区域相结合的方法进行字符区域定位, 保证了较高的准确率和处理效率。字符识别阶段, 考虑字母大小写混排的情况, 采用二维投影法对字符进行分割, 最后基于误差阈值筛选的多模板匹配算法进行字符识别。
1.1 视频采集及图像预处理
Android视频采集框架有两类:MediaRecord系统和Camera系统。前者主要用于视频录制, 难于实时提取视频帧;后者则提供了一个拍照和录制视频的框架, 可满足视频采集与帧数据提取同时进行的要求。因此本文采用Android Camera系统进行视频采集, 通过setPreviewCallback和onPreviewFrame接口, 实时截取每一帧视频流数据[4]。
视频图像预处理的目的是使得字符区域的特征明显, 方便提取。预处理主要包括格式转换、灰度化、二值化以及边缘检测等过程。其中, 格式转换将Camera接口获取的YUV格式视频流, 依据式 (1) 转换为便于图像处理与字符识别的RBG图像格式[5]。
灰度化公式:
二值化公式:
公式 (2) 中, 阈值t采用OTSU算法 (即最大类间方差) 获得。
对图像进行边缘检测可去除不相关信息, 保留图像重要的结构属性。本文采用Canny边缘检测, 通过双阈值法检测强边缘和弱边缘, 当二者连接成轮廓才输出。
依上述方法对视频图像灰度化、二值化和Canny边缘检测的示例结果如图2所示。
所有算法均采用Android NDK (Native Development Kit) 开发框架。NDK是基于原生程序接口的软件开发工具, 通过NDK开发的程序直接以本地语言运行, 而非虚拟机, 因此可较大程度地提高效率。本文进行了Java方法和NDK性能对比实验, 实验分为5组, 每组在相似背景下拍摄一段视频, 分别采用Java方法和NDK方式对视频进行预处理, 记录前10帧视频每帧处理的时间耗费, 计算每帧视频处理的平均时间。所得的结果如表1所示。
本文的实验均采用HTC Wildfire S (G13) 设备。表1的实验结果表明在相似背景下, 采用NDK方法平均每帧所耗费的时间仅为采用Java方法处理时的20%。
1.2 基于ROI的视频字符实时定位
考虑到用户拍摄视频时, 若设备不发生大幅度移动, 则视频图像有一定的相关性, 即连续两帧或几帧图像中包含的字符是相同的, 本文提出了基于ROI运动检测进行相似帧过滤处理算法。算法通过计算ROI区域信息量判断出相似帧, 相似帧之间可共用定位结果。对于需进行定位的帧, 通过数学形态学与连通区域相结合的方法进行字符区域定位。
1.2.1 ROI相关概念
由于仅研究视频图像中字符区域的特性, 因此本文的ROI概念是指前一帧的字符区域。
定义:设第i帧图像为Fi, Fi的字符区域定位结果为矩形区域Recti=Fi (xi, yi, wi, hi) , 其中 (xi, yi) 是矩形左上角在图像中的坐标值, wi是矩形的宽度, hi是矩形的高度, 则将Recti所确定的区域定义为Fi+1的ROI, 记为Mi+1, 即Mi+1=Fi+1 (xi, yi, wi, hi) 。
本文采用二值图像进行计算。将二值图像中ROI区域的黑色像素值定义为ROI信息量, 记为Di。将相邻帧ROI信息量的差分定义为ROI状态变化, 记为δ。
1.2.2 基于ROI运动检测的相似帧过滤
基于ROI运动检测的相似帧过滤处理, 旨在保持不遗漏新字符区域定位的原则上尽量省去相同字符区域的重复定位的过程。其主要思路是根据ROI信息量的改变来判断移动设备的位置变化情况, 当ROI状态变化δ<阈值d时, 位置没有明显变化, 前后帧相似, 可沿用前帧字符区域定位结果, 否则位置发生明显变化, 需重新进行字符区域定位。
阈值d选取的方法是关键, 若阈值设置过大, 则会遗漏新的字符区域, 若阈值设置过小, 又会出现多次重复定位。d的选取应考虑相邻帧ROI状态变化δ与图像信息量的占比关系。若视频图像大小为M×N像素, 通过大量实验测试可知, 当δ不小于图像总信息量的1%时, 定位效果最佳, 即d=M×N/100。
1.2.3 字符区域定位流程
引入ROI运动检测的相似帧过滤处理后, 字符区域定位处理流程如下:
Step1 i=1, 初始帧定位, 结果为Rect1。
Step2设当前视频帧字符区域定位结果为Recti=Fi (xi, yi, wi, hi) 。计算Recti的信息量Di。
Step3检测下一视频帧, 对应Fi+1 (xi, yi, wi, hi) 区域子图像为Mi+1, 计算Mi+1二值图像信息量Di+1。计算ROI状态变化δ=|Di+1-Di|。当δ>d时, 转向Step4;否则i++, Di+1=Di, Mi+1=Mi, 转向Step2。
Step4使用字符定位算法处理当前视频帧, 转向Step2。
为测试加入ROI运动检测后对处理效率的改进效果, 进行了对比实验。拍摄5组视频, 每组时长10秒, 通过计数器记录10秒内各设备处理的视频帧数, 分别计算处理帧数和平均每帧处理时间。实验结果如表2所示。
测试结果表明, 在字符区域定位步骤中加入ROI运动检测后, 在保证定位准确率不变的前提下, 处理速度提高了40%。
经预处理后, 视频图像字符区域特征已较明显, 并且通常同Android设备所拍摄的图像大小和像素信息基本相似, 因此本文采用基于连通域分析的字符定位方法。先对图像进行数学形态学膨胀处理, 形成类似矩形的连通区域, 再对这些连通域进行筛选[6]。经过上述处理的字符区域定位示例结果如图3所示。
2 字符识别
完成字符定位操作后, 针对印刷文本工整、行间距固定、字符之间空隙规则清晰等特点, 采用基于二维投影法 (垂直投影和水平投影) 对单个字符进行分割。在此基础上, 本文提出了基于误差阈值筛选的多模板字符识别算法, 以提高识别率和效率。
2.1 多模板匹配
传统模板匹配算法存在以下不足之处:①对具有一定程度旋转、变形的字符包容度低;②逐点匹配, 若模板较多, 则计算量很大, 匹配效率不高。针对上述问题, 为提高识别率, 本文提出了基于误差阈值筛选的多模板匹配算法。即对字符建立多个模板, 将模板细分为左倾、右倾、正三类。通过对同一字符建立不同的模板, 模板字符的特征区域被适度的进行了扩展和加强, 识别率相应会提高。
2.2 误差阈值筛选
多模板匹配的方法主要针对模糊不清、倾斜的字符, 通过增加模板库的方法, 实现字符的精确识别, 但是相应的其计算量也会有所增加。为降低多模板对效率产生的影响, 本文采用误差阈值筛选法进行模板选择的方法, 将与待匹配字符图像特征差别较大的模板事先剔除, 通过减少模板匹配的次数, 降低模板匹配的整体时间耗费。
设模板为Tk, 待匹配字符图像为S, 其大小为w×h, Tk与S的误差为Ek, 其公式为:
误差阈值筛选法的思路:设模板库中共有n个模板, 将待匹配图像S与字符模板Tk (k:1~n) 依次进行匹配, 取一个误差阈值E0, 在与每个模板上的像素点比对结束前, 若累计所得的Ei>E0, 则停止该点的计算, 将该模板筛除, 继续下一个模板的匹配。若在模板上的像素点匹配结束后, Ei仍不大于E0, 则将误差值保存到筛选结合R中。所有模板完成之后, 选取最小值Rmin即为对应模板匹配的结果。算法流程如图4所示。
为测试基于误差阈值筛选的多模板字符识别算法的有效性, 选取3组×100帧图像进行测试, 分别采用单一模板和多模板进行字符识别。实验结果如表3所示。
实验表明, 采用多模板匹配法, 视频字符实时识别的准确率达到94%, 而采用单一模板识别率为91%。可见本文算法提高了识别率。
对于多模板匹配中未能成功识别的字符, 其误识主要原因分析如下:
①视频图像中字符本身存在污点和粘连, 导致字符定位失败。
②视频边缘存在部分字符, 导致字符分割失败。
③由于拍摄角度问题, 部分字符本身存在较大的倾斜和变形, 在模板匹配时匹配失败导致误识。
3 系统实现及总体性能测试
3.1 系统实现
在上述算法研究基础上, 本文开发了Android平台下的视频字符实时识别软件。软件的运行界面如图5所示, 框内是预览界面, 点击下方“开始获取”按钮即可进行字符识别, 点击“停止预览”即停止, 字符识别的结果显示在标题栏上。
3.2 性能测试和分析
为测试本文提出的视频字符实时识别方法对处理效率的改进效果, 进行了对比实验。实验共分为10组, 累计连续100帧视频字符识别的总时间, 计算平均每帧字符识别的时间。拍摄10组视频, 分别执行本文方法和普通方法 (不采用ROI运动检测以及误差阈值筛选法) , 通过计时器记录对连续100帧视频进行字符识别所需时间, 计算平均处理每帧的时间耗费。实验结果如表4所示。
实验中, 采用普通方法平均每帧识别时间是666.7ms, 而采用本文方法平均每帧识别时间是277.5ms, 时间耗费减少了58.4%。由此可见, 本文提出的识别方法由于进行了关键算法改进, 并采用了NDK开发框架, 所得到的综合性能提高十分显著。对比参考文献[7]所描述的字符识别时间0.4s (PC平台) , 本文方法已达到实时识别的要求。
4 结束语
结合交通执法等对移动智能终端的应用需求, 本文设计并实现了基于Android平台的视频字符实时识别系统。系统可保证较高的准确率和处理速度, 满足实时识别的要求。并且该方案完全利用移动设备本身的计算能力进行视频字符的实时识别, 既不使用任何额外硬件, 也不占用任何网络资源, 同时在Android移动设备上具有通用性。
参考文献
[1]Paul K.Android on Mobile Devices:An Energy Perspective[C]//2010 IEEE 10th International Conference on Computer and Information Technology, 2010 (7) :2421-2426.
[2]董剑, 张源, 杨珉.利用硬件加速层优化Android显示系统[J].小型微型计算机系统, 2012, 33 (7) :1546-1550.
[3]Muzzammil bin Saipullah, K Ammar Anuar, Nurul Atiqal, et al.Real-Time Video Processing Using Native Programming on Android Platform[C]//Proc Signal Processing and its Applications, 2012:276-281.
[4]韩超, 梁泉.Android系统原理及开发要点详解[M].北京:电子工业出版社, 2010.
[5]刘云粼, 王树东.基于SSE2的YUV与RGB色彩空间转换[J].中国图像图形学报, 2010, 15 (1) :45-49.
[6]Meng Qing-yuan, Hu Hong-ping, Bai Yan-ping.A method of character recognition based on general characteristic and connected regions[C]//2011 International Conference on Multimedia and Signal Processing, 2011:94-98.