图像语义

关键词:

图像语义(精选五篇)

图像语义 篇1

关键词:语义提取,局部算子,支持向量机,语义标注

随着多媒体和互联网技术的迅猛发展,网络图像资源与日俱增,图像已经成为一种非常重要的信息资源,其包含的信息量远远大于文字,因此如何充分理解图像中所包含的语义内容、如何真正有效地利用语义进行图像资源的检索,如今已成为一个重要的课题。计算机对图像内容的理解一般指图像的低层视觉特征,如颜色、纹理、形状等;而实际上,人类对图像的理解即图像语义信息表达的内容要远远多于图像的视觉特征。这种从图像低层视觉特征与图像高层语义特征之间存在着的较大差距,即“语义鸿沟”[1]。现在,图像语义提取已成为解决图像低层视觉特征与人类高级语义之间“语义鸿沟”的关键技术,许多学者在此方面也进行了大量的尝试性工作和研究。

1 语义层次模型

图像语义模型是图像语义直观形象的描述形式。通过语义模型,能使用户了解和掌握如何从图像中提取语义特征,对于更好地理解和应用图像的语义信息具有重要作用。根据图像中各语义要素间组合的抽象程度,图像语义按图像语义层次模型大致可分为特征语义、对象语义、空间关系语义、场景语义、行为语义和情感语义等6个层次,用以对不同层次的图像内容进行描述,这个模型称为图像层次化语义模型。

图像的语义层次可用图1来简单描述,其中的每一部分对应于图像的一个语义层次,并相应于人对图像的理解层次。图中的箭头表示语义的级别,下一个层次通常包含了比上一个层次更高级更抽象的语义,而更高层的语义往往通过较低层的语义推理而获得。

考虑到图像语义的模糊性、复杂性、抽象性,图像的语义模型主要包括以下几种语义特征:

(1) 视觉特征语义(如颜色、纹理、结构、形状、运动等),与视觉感知直接相连,称为低层语义;

(2) 对象语义(如人、物等)和空间关系语义(如人在房前,球状草地上等),这需要进行一定的逻辑推理并识别出图像中目标的类别,它们合称为对象层;

(3) 场景语义(如海滨、旷野、室内等)、行为语义(如进行图像检索、表演节目等)和情感语义(如赏心悦目的图像、使人兴奋的视频等),合称为概念层,由于涉及到图像的抽象属性,需要对所描述的目标和场景的含义进行高层推理。

2 图像语义提取方法

按照语义层次模型划分,人们正在研究的语义提取主要包括:对目标类别和目标空间关系语义的提取,这常需借助领域知识;对场景和行为语义的提取,也就是对图像和场景理解和解释;对情感语义的提取,这目前主要在艺术图像领域。

另外根据语义信息的来源不同,图像语义提取方法又可以分为4类,即基于处理范围的方法、基于机器学习的方法、基于人机交互的方法、基于外部信息源的方法[1]。下面以这种分类方法对图像语义提取方法进行详细的介绍。

2.1 基于处理范围的方法

按照对图像提取特征范围的大小来分一般分为2类:基于全局的提取方法和基于区域的提取方法。基于全局的提取方法一般是从全局角度对图像进行描述和分析,如图像的颜色直方图、纹理特征,形状特征等,它们反映的是图像整体特性,在早期研究图像语义时用得较多;基于区域的提取方法是在图像分割和对象识别的前提下进行,利用对象模板、场景分类器等,通过识别对象及对象之间的拓扑关系挖掘语义,生成对应的场景语义信息[1],或者是利用一些局部算子来提取图像语义,是现阶段主要的研究方法。这些局部特征提取算子主要有:Harris算子、SIFT算子、LBP算子、SURF算子等,它们能够很好的表示图像的语义信息。

Harris算子[2]是一种简单的局部算子提取方法,它对旋转、尺度、光照变化以及噪声均有不变的特性。其检测原理为:当一个窗口在图像上移动,如果窗口位于图像区域中灰度值的平坦区域,窗口的各个方向上都不会有特别明显的变化;如果窗口位于图像的边缘区域,窗口沿图像的边缘方向上没有明显变化,在与图像的边缘方向垂直的方向,灰度变化会相当明显;如果在角点处,窗口的各个方向上都有变化。Harris角点检测就是利用这个物理现象,通过判断窗口在各个方向上的变化以决定其是否为角点。实际上,Harris角点检测就是对于一幅图像,提取与自相关函数的曲率特性有关的角点特征。Harris算子中只用到了图像灰度的一阶差分与滤波,操作比较简单,提取的特征点均匀且合理,在纹理信息丰富的区域,Harris算子能够提取大量有用的特征点,而在纹理信息少的区域,Harris算子提取的特征点则较少,这是由于在它的计算过程中,只用到了图像的一阶导数,所以即使存在有图像的旋转、灰度的变化、噪声的影响以及视点的变换等,Harris算子对角点的提取也是比较稳定的。

David G.Lowe[3]于2004年提出了一种SIFT(Scale Invariant Feature Transformer)图像局部特征描述算子。SIFT算法的本质就是从图像中提取SIFT关键点的过程,该过程为:尺度空间极值点的检测,即初步确定关键点位置和所在尺度;特征点位置的精确确定,即去除低对比度的关键点和不稳定的边缘相应点,以增强匹配稳定性、提高抗噪能力;特征点方向参数的确定,即使算子具备旋转不变性;特征点描述子的生成,即生成SIFT特征向量。SIFT算子匹配能力强,能提取比较稳定的图像特征,可以处理2幅图像之间发生平移、旋转、仿射变换、视角变换、光照变换情况下的匹配问题,甚至在某种程度上对任意角度拍摄的图像也具备较为稳定的特征匹配能力,从而可以实现差异较大的2幅图像之间的特征的匹配。后来Y.Ke提出了对SIFT的特征描述符用PCA代替直方图的方式,进行降维,并取得了更好的效果。

LBP(Local Binary Pattern)是一种描述图像局部空间结构的非参数算子。芬兰奥卢(Oulu)大学的ojala et a1.最早提出了这个算子并且描述了它在纹理分类中的强区分能力[4]。LBP算子定义为一种灰度尺度不变的纹理测量,是从局部领域纹理的普通定义得来的。LBP算法的本质就是利用图像中每个像素点与其邻域内其他各点的灰度值的差异,描述图像纹理的局部结构特征,该局部结构用一个二进制的数字来量化。这种以邻域为单位的局部结构可以看作是一个纹理单元,该纹理单元在整幅图像中有规律的出现就构成了一定的纹理,而对整幅图像中纹理单元的统计就表达了整幅图像的纹理特征,LBP算法一般可以分为基本LBP描述、旋转不变量的LBP描述和uniform模式的LBP描述。

SURF(Speeded Up Robust Features)算法是Bay等人[5]于2006年提出,是一种新的快速兴趣点检测与描述方法,它的性能超过了SIFT且能获得更快的速度。SURF算法主要包括2个部分:利用快速Hessian检测子检测兴趣点和用SURF描述子去描述兴趣点。SURF算法的计算速度可以比SIFT 快3倍,它对图像的旋转、尺度伸缩、光照、视角等变化保持不变性,尤其对图像严重的模糊和旋转处理得都非常好,但是在处理图像光照和视角变化时不如SIFT算法。SURF是非常新的局部不变特征方法,国外也只是仅有一些SURF的应用研究。

2.2 基于机器学习的方法

机器学习方法就是对图像低层特征进行学习,挖掘图像特征与图像语义之间的关联,从而建立起图像特征到图像高层语义的语义映射关系,主要包含2个关键步骤:一是低层有效特征的提取,如颜色,纹理,形状等特征;二是映射算法的运用,目前,应用于图像语义映射的技术已有很多,主要包括:贝叶斯、神经网络、遗传算法、聚类、支持向量机等。

贝叶斯学习算法是基于参数估计(Parameter Estimation)的方法,是一种监督学习(Supervised Learning)方法,贝叶斯 (Bayes)模型具有很强的实用性。文献[6]提出利用混合贝叶斯网络进行医学图像的语义检索,这种模型结合了支持向量机,用6个支持向量机将医学图像特征离散化,并提取出6个中间语义层,然后利用贝叶斯网络从而得到高层语义特征即关于肌瘤的恶化程度。对比结合K-NN的贝叶斯网络,这种结合SVM的贝叶斯网络的分类效果更好,这对于缩小语义鸿沟也是不错的尝试。

人工神经网络(简称神经网络)是人们从模仿脑细胞结构和功能的角度出发建立的一种信息处理系统,它能智能地对信息进行表示、存储和处理,并具有一定的学习、推理能力,在模式识别、优化计算、智能控制、专家系统等众多领域得到了广泛的应用并取得了引人瞩目的成果,另外神经网络结合其他算法,如模糊算法,遗传算法等一起使用,能使结果更加优化。文献[7]利用遗传算法训练的RBF神经网络来建立图像的颜色、纹理、形状等低层视觉特征到高层语义特征的映射,最后识别出了山脉、草原、鲜花和度假区等4类高层语义场景,最低的查准率为82.5%。

支持向量机(SVM)是在统计学习理论基础上发展起来的一种新的通用学习方法。与传统统计学相比,统计学习理论(Statistical Learning Theory)是一种研究有限样本情况下机器学习规律的理论,它在解决小样本、非线性以及高维模式识别中具有显著的优势,是一种非常有效的映射方法,是近年来的一个研究热点,在获取图像语义方面也取得了很多的成果。文献[8]提出一种改进的SVM即聚类引导的SVM,简称CGSVM,它利用聚类结果选择最好的图像样本进行标注并且优化处罚系数,并且能够得到比一般的SVM更高效的图像分类且使图像语义检索拥有更高的准确度。

2.3 基于人机交互的方法

对图像语义的提取,现已提出的方法主要侧重将低层的图像视觉特征映射到高层语义,以填补所谓的语义鸿沟(Semantic Gap)。基于人机交互的语义提取方法一般是系统使用低层特征,而用户则加入高层知识,提取方法主要包括图像预处理和反馈学习2个方面。早期一种简单的图像预处理方式是对图像库中的图像进行人工标注,现在人们更多的是用一些自动或半自动的图像语义标注方法。反馈学习是在提取图像语义的过程中加入人工干预,通过用户与系统之间的反复交互来提取图像的语义,同时建立和修正与图像内容相关联的高层语义概念。

文献[9]介绍了一种基于图像区域对象本体的语义标注算法。该算法首先建立语义区域描述子模型,根据区域的相似特征完成相似语义标注,然后,建立图像区域目标标注描述模型与图像语义标注描述子模型的对应关系,把空间关系描述子与语义对象,对象语义关系描述子相对应。文献[10]提出了一种新的自动提取图像的原始标注的方法,系统包括3个步骤,首先是把数据库中的所有图像分成规则的小块,融合不同的低层内容描述子,然后在基于块构件的对象语义概念,最后依据对象语义概念形成候选标注并得到一幅图像的最终标注结果。

2.4 基于外部信息源的方法

当前图像识别和理解的技术水平还比较低,如果完全依靠图像的视觉特征来获取网络图像的语义还相当困难。同时,对于海量的网络图像而言,人工交互的语义提取又显得微不足道,并且网络图像的最大特点是嵌入在HTML文档中,且现在文本提取语义信息的技术相比图像语义提取成熟很多,并且HTML文档中的文本内容作为网络图像的外部信息源与其语义信息有着紧密的联系。那么,考虑外部信息源,利用自然语言处理技术来提取网络图像语义信息是将会是一种非常有效的策略。文献[11]给出了一种www 图像语义表征模型和图像语义词典的建设方法,提出利用图像语义词典,用嵌有www 图像的HTML网页的相关外部文本信息来提取网络图像高层语义信息的方法。网页中的图像包含3个方面的属性:文件属性、视觉属性和语义属性。根据图像语义表征模型,分别建立了图像主题词分类词典、图像主体词分类词典、图像主体属性词典和图像主题词对照词典,然后利用自然语言文本提取技术从www图像所在网页的相关外部文本信息中提取图像的主题词、主体词及其属性词等高层语义信息。

3 结 语

图像语义提取方法涉及到多个学科和技术领域,需要研究的问题还很多。本文依据语义的不同信息来源,详细介绍了基于处理范围的语义提取方法、基于机器学习的语义提取方法、基于人机交互的语义提取方法和基于外部信息源的语义提取方法。虽然已经有许多方法来实现图像语义提取,但由于各种理论和相关技术的限制,效果好的、鲁棒性强的方法还很难实现,因此仍有许多问题有待下一步去学习、解决和深入研究。

参考文献

[1]EAKINS J P.Automatic image content retrieval:are wegetting anywhere[C]//Proc.of 3rd Int.Conf.on Elec-tronic Library and Visual Information Research.Milton:[s.n.],1996:123-135.

[2]HARRIS C,STEPHENS M.A combined corner and edgedetection[C]//Proc.of 4th Alvey Vision Conf.Alvey:AVC,1988:189-192.

[3]G.LOWE D.Distinctive image features from scale-invariantkeypoint[J].International Journal of Computer Vision,2004,60(2):91-110.

[4]OJALA T,PIETIKINEN M.Multiresolution gray-scaleand rotation invariant texture classification with local binarypatterns[J].IEEE Transactions on Pattern Analysis andMachine Intelligence,2002,24(7):971-987.

[5]BAY H,TUYTELAARS T,COOL L.SURF:speeded uprobust features[C]//Proceedings of the 9th European Con-ference Computer Vision.[S.l.]:UCCV,2006:404-417.

[6]LIN Chun-yi,YIN Jun-xun,GAO Xue,et al.A semanticmodeling approach for medical image semantic retrieval u-sing hybrid bayesian networks[C]//Proceedings of IEEESixth International Conference on Intelligent Systems Designand Applications.Jinan,China:IEEE,2006:482-487.

[7]伍小芹,温小斌,康耀红.基于神经网络生成图像语义的算法研究[J].计算机工程与应用,2007,43(31):61-63.

[8]GAO Ke,LIN Shou-xun,ZHANG Yong-dong.Clusteringguided SVM for semantic image retrieval[C]//.Proceed-ings of 2007 2nd International Conference on PervasiveComputing and Applications.Birmingham:ICPCA,2007:199-203.

[9]SHI Lei,GU Guo-chang,LIU Hai-bo,et al.A semanticannotation algorithm based on image regional object ontolo-gy[J].IEEE Computer Science and Software Engineering,2008,4:540-543.

[10]LIU Zheng,MA Jun.Refining image annotation based onobject-based semantic concept capturing and WordNet on-tology[C]//Proceedings of IEEE Fifth International Con-ference on Fuzzy Systems and Knowledge Discovery(FSKD)[S.l.]:IEEE,2008(4):96-100.

基于语义化人脸图像检索系统设计 篇2

1 语义化人脸检索系统的主要设计流程

在语义化的人脸检索系统中对人脸进行图像检索就是将人脸中的有效特性进行提取进行输入, 在图像检索系统中甄别输入图像的特征进行相关的匹配的检索过程。基于上述内容, 我们在进行人脸图像识别过程中, 首先需要做的就是将检索系统中的图片进行相关的特征提取, 然后进行语义化的特征参数建立和存储。对于等待检测的人脸图像, 我们要通过人脸肤色的差异进行脸部图像分割, 通过分割我们能够得到人脸眼部和眉毛的相关带状区图像, 然后通过对图像中的眉毛眼睛的特征提取, 科学的将图像特征相关参数转变成语义化的特征描述, 之后通过相关的搜索方法在数据库中进行特征匹配和分析, 最终系统数据库会得到一张相似度最高的人脸识别图像。人脸语义化的图像检索过程见图1和图2的表述。

文章阐述的人脸图像识别系统主要还是语义化的人脸识别。在检索系统中存储的人脸图像数据特征也只是有一组进行相关的人脸识别。我们在图像检索过程中, 通过语义化的图像数据库中的数据特征, 采用相关的数据匹配规则就能够快速的得出相关的人脸识别图像编号, 这些搜索的数据编号就是人脸识别系统中的最终搜索结果。在数据图像的特征搜索中我们的数据编码使用的是十进制的计数方法, 将图像数据在一定的区间进行归一化的特征处理, 将特征区间划分为十个区间, 之后再将图像的特征进行十进制的详细编码。语义化的人脸图像检索系统主要有两种查询方式。第一种是语义化的查询方式;第二种是特征匹配形式的查询方式。语义化的检索方式在这两种检索方式中更为简便, 因为语义化的检索方式可以不适用图像进行检索, 采用模型方式进行检索。这样能够有效的减少手动检索的时间, 使得检索的效率更高。

2 语义化人脸检索系统的实验仿真

2.1 检索系统中的人脸图像的分割

在人脸图像检索平台中, 我们通过人脸肤色的区别进行人脸的图像检索, 在一千张自建图片中进行人脸的图像检索, 之后通过精确的界别区分定位来找出人脸的特征区域图。将我们得到的人脸的特征图片通过肤色的界别来进行人脸的分割定位, 我们能够得到相关的人眼带状图, 然后通过人眼的带状图同理得到眉毛带状图。

2.2 检索系统中的人脸眉毛以及眼睛的主要特征提取

在人脸图片进行分割之后, 我们会得到相应的人眼带状图和眉毛带状图, 然后进行相关的图像特征提取, 将提取的特征参数通过语义化的方式进行语义转化编码处理。最后将我们得到的人脸特征参数以及语义化的特征编码存储在图像检索特征库中。

在简述系统中, 我们可以得到人脸眼部和眉毛部分的特征参数, 然后我们通过一定的分类方法将参数分类。详细的分类方法见表1和表2。我们将眼部特征值和眉毛特征值进行相关的归一化技术处理, 然后使用十进制的编码方式进行编码处理, 同0到9等自然数进行特征分类的具体表述。我们在检索数据库系统中随机找出100张人脸部位图片自动进行人脸部门的分割以及相关特征参数的提取。将提取后的特征参数进行表格方式的存储, 将每一个特征参数归一化编码处理。

2.3 检索系统中的系统界面的建立

在人脸图片识别系统的平台中, 我们要建立相关的人脸搜索界面。在界面中选择添加按钮会在人脸图片搜索系统中出现选择特征配置的相关界面。在添加人脸图像特征界面上会有两种添加形式。第一种是Single添加模式;第二种是Batch添加模式。“Single”表示添加单张图片的特征, “Batch”表示添加整个文件夹图片的特征。添加完人脸的特征, 我们设置了两种图像检索方法, “语义查询”和“匹配查询”。语义查询是在图像库中搜索某一类型的人脸图片, 特征条件的选择是“与”的运算, 因此每种特征只能选择一个。

2.4 检索系统中人脸图像的实验检索相关结果

我们对100张照片进行了检索实验, 观察输出的特征最匹配的的6张图片, 能够正确检索出来的有72张, 检索成功率为72%。其中24张图片没有检索出来, 部分检索失败的图片如图13所示。观察检索失败的图片, 发现失败原因是人脸角度的影响。由于有些人拍照时脸有点倾斜的状况, 或者是抬头低头等情况, 这样的眼睛特征与实际特征相差太大, 所以不容易检索出来。

参考文献

[1]陈粟.基于语义描述的特定人脸图像检索[D].中国科学技术大学, 2005.

[2]牛盼盼, 王向阳, 周璐, 等.基于多语义特征的彩色图像检索技术研究[J].计算机科学, 2009, 36 (3) :226-230.

[3]袁玲.基于人脸检测及特征验证算法研究[D].南京理工大学, 2010.

一种基于GMM的图像语义标注方法 篇3

视觉特征和语义特征是基于内容的图像检索中常用的两类重要特征。视觉特征属于底层特征,体现了人对图像内容的直观感受;语义特征属于高层特征,反映了人对图像内容的主观理解。然而在它们之间往往存在着很大的差异,即所谓的“语义鸿沟”。如何克服这种“语义鸿沟”,目前仍然是一个亟待解决的问题。因此,深入地研究视觉特征与语义特征之间的内在联系,让人的视觉直观感受与主观理解相一致,已成为基于内容的图像检索技术的一个重要研究课题[1]。

基于语义的图像标注利用机器学习和统计学习方法,将图像内容与语义概念联系起来,从而可以达到有效缩减“语义鸿沟”目的。目前,许多研究者致力于这方面的研究,提出了一些有效的模型和算法,如:Lavrenko[2]提出的连续特征相关模型(Continuous Relevance Model,CRM),通过学习区域类型和图像提供的关键字的联系,进而实现图像标注;Duygulu[3]提出的机器翻译模型(Translation Model,TM),采用图像分割(Normalized Cuts)算法和最大似然估计法,为每个图像区域估算出概率最大的关键字作为该区域的标注信息;Mori等人[4]提出的共生模型(Co-occurrence),通过对已有关键词描述的图像集合的统计信息分析,来挖掘图像和文本之间的关系;D. Blei[5]等人使用潜在狄里克雷分布模型(Latent Dirichlet Allocation Model, LDA),使用三层结构的贝叶斯模型,通过一组包含语义的训练数据来获得底层的语义组,进行图像标注。以上各种模型或算法在图像标注上都取得了较好的效果,但不足的是没有针对语义概念进行具体的图像语义描述,容易受到那些视觉相似而语义不同图像的干扰,使得语义标注结果出现歧义。

据此,本文提出了一种基于高斯混合模型(Gaussian Mixture Model,GMM)的图像语义标注方法,对于每一个语义概念,分别建立基于颜色特征和纹理特征的GMM模型,然后对每一幅测试图像,采用期望最大化(Expectation- Maximization,EM)算法,分别求取其颜色特征和纹理特征的GMM模型,然后对每一幅测试图像,采用期望最大化(Expectation Maximization,EM)算法,分别求取其颜色特征和纹理特征的语义后验概率,最后融合两种概率的排序结果,对测试图像进行标注。该模型方法建立起了语义概念与其视觉分布之间一对一的映射关系,有效地估计出每个语义概念在特征空间中对应的特征分布,能对图像进行具体的语义描述,较准确地为待标注的图像预测正确表达的若干文本关键字,从而缩减了底层特征与高层语义之间的“语义鸿沟”,在一定程度上提高了图像的标注性能。

1 底层特征提取

1.1 颜色特征

为了符合人眼视觉特征,使用了HSV颜色模型。首先将彩色图像红绿蓝三基色分量rgb转化为亮度h、饱和度s、色调分量值v(h∈[0,360],s∈[0,1],v∈[0,1])[6],再根据HSV模型颜色特征进行非等间隔量化计算

Η={0h(315,20]1h(20,40]2h(40,75]3h(75,155]4h(155,190]5h(190,270]6h(270,295]7h(295,315](1)

S={0s[0,0.2)1s[0.2,0.7)2s[0.7,1)(2)

V={0v[0,0.2]1v(0.2,0.7]2v(0.7,1](3)

根据量化后H,S,V的级数,组合为一维矢量F

F= HQsQv +SQv + V (4)

式中:QvQs分别为VS的量化级数;这里Qv=Qs=3,式(4)可表示为

F=9H+3S+V; (5)

式中,F的量化级数取值范围为[0,71],构成一个72维的一维直方图。为了计算方便,减少维数复杂度,对F构造累加直方图,进行归一化处理后,作为图像的颜色底层特征。

1.2 纹理特征

图像纹理反映的是图像的一种局部结构化特征,具体表现为像素点灰度级或者颜色分布的某种规律性变化。本文使用灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM)提取纹理特征。灰度共生矩阵描述的是相隔d像元距离,在θ方向上分别具有灰度值ij的一对像元的出现概率,记为P(i,j|d,θ),当dθ为某一具体值时,可简记为Pij,灰度共生矩阵的各元素值由式(6)求得

Ρ(i,j|d,θ)=Ρ(i,j|d,θ)ijp(i,j|d,θ)(6)

为了能更直观地用共生矩阵描述纹理状况,可以从共生矩阵导出一些反映矩阵状况的参数。本文从0°,45°,90°,135° 4个方向分别提取灰度共生矩阵并归一化,选用能量、惯性矩、熵、相关、局部平稳性等互相独立的5种特征,求取它们各自的平均值和方差组成一个10维的特征向量,作为图像的纹理特征。

2 高斯混合模型(GMM)

2.1 GMM原理

GMM是一种常用的数学模型,被广泛应用于语音、图像识别等方面,取得了良好的效果。用它来表示的密度函数的一般表达式为

Ρ(x)=j=1ΜλjΡj(x)=j=1Μ{λj1(2π)d|Σj|exp[-12(x-μj)ΤΣj-1(x-μj)]}(7)

式中:M是高斯模型的分量数目;Pj(x)表示第j个高斯模型分量的概率密度函数;x表示d维的特征向量;参数集合θ =(λj, μj, Σj),j=1,2,…,M;λj, μj, Σj)分别表示第j个高斯分量的权重、均值向量和方差矩阵,j=1Μλj=1

一个训练集图像特征向量集合X=(x1, x2,…,xn),其分布密度函数(即极大似然函数)为

Ρ(X|θ)=i=1np(xi|θ)=L(θ|X)(8)

式中:极大似然参数θ通过EM算法[7]估计。

2.2 EM算法

在GMM模型中,具体某个数据xi属于哪类高斯模型分量未知,要完成它所在数据集的聚类,只需估计出模型中参数θ,也即θML=argmax L(θ|X )即可。因此,常用EM算法估计。其基本思想是从模型参数θ的初始值θ0开始,估计出一个新的参数θj,使得新参数下的似然概率P(n+1)≥P(n)。新的模型参数再作为当前参数进行估计,这样迭代运算直到模型收敛。每一次迭代运算都包括一个E步——期望步(Expectation Step)和一个M步——极大似然步(Maximum Likelihood Step)。

E步:计算式(9)

Ρ(wj|xt,θj)=λj(n)p(xt|θj(n))k=1Μλk(n)p(xt|θk(n))(9)

式中:P(wj|xt,θj)为特征矢量xt属于每个高斯分量wj的后验概率值。

M步:更新模型参数θj(n+1)

λj(n+1)=1Μj=1ΜΡ(wj|xt,θj)(10)

μj(n+1)=j=1ΜΡ(wj|xt,θj(n))xtj=1ΜΡ(wj|xt,θj(n))(11)

Σj(n+1)=j=1ΜΡ(wj|xt,θj(n))(xt-μj(n+1))(xt-μj(n+1))Τj=1ΜΡ(wj|xt,θj(n))(12)

GMM模型参数θ的初始值θ0=(λ0, μ0, Σ0)的获取,对算法的结果有较大的影响。本文采用K-means算法初始化EM算法,操作方便,执行效率也相对较高。当前后两次连续迭代产生的似然值的差小于预先设定的收敛系数ε=0.01时迭代停止。

3 基于GMM图像语义概率的标注

基于GMM的图像语义标注方法,基本思想是在分析已标注好的训练集底层特征的基础上,建立起图像语义概率GMM,采用EM算法估计出用于标注的GMM参数,以正确预测未标注图像的若干文本关键字。因此,基于GMM图像语义概率的标注主要由三部分组成:图像语义概率GMM的建模、训练集的训练和测试集图像的标注。

3.1 图像语义概率GMM的建模

定义语义概念类Z={zk, k=1,2,…,t},图像的训练集T={Ii, i=1,2,…,n}。对于某一个语义概念类zk,Ti代表的是具有相同概念zk的标注图像集合。Pz|k(zk|x)表示图像的语义概念后验概率。根据贝叶斯准则

ΡΖ|X(zk|x)=ΡX|Ζ(x|zk)ΡΖ(zk)ΡX(x)(13)

式中:x为图像的底层特征;PZ(zk)为第K个概念在整个训练集中出现的概率。PX|Z(x|zk)可由式(7)得到。PX(x)对于所有概念类是个常数(图像标注时该常数被忽略)。因此求得图像的语义概念后验概率,首先要求得PX|Z(x|zk),即GMM

ΡX|Ζ(x|zk)=j=1ΜλjΡj(x|zk)=j=1Μ{λj1(2π)d|Σj|exp[-12(x-μj)ΤΣj-1(x-μj)]}(14)

至此,基于图像语义概率的GMM已初步建立。

3.2 训练集的训练

训练阶段步骤为:

1) 对某一个语义概念zkZ,提取该概念的所有训练集图像颜色特征XL和纹理特征XG,颜色特征为72维,灰度共生矩阵为10维。

2) 对每一个语义概念类建立两个GMM,即颜色特征L-GMM和纹理特征G-GMM。将提取的颜色特征XL和纹理特征XG分别作为GMM的输入向量,使用K-means算法初始化EM算法,利用EM算法分别获得该训练集的颜色和纹理高斯分布参数θ=(λj, μj, Σj),得到关键字。

3) 对训练集中的全部语义概念类Z,为了得到其颜色特征GMM和纹理特征GMM:L-GMM,G-GMM,重复1)~2)的步骤。

3.3 测试集图像的标注

标注阶段步骤为:

1) 对于每一张测试图像I,提取其颜色特征和纹理特征(与训练阶段步骤1)相同)。

2) 根据式(13)和(14),分别计算出该图像的颜色和纹理后验概率值。

3) 求出属于全部概念的颜色概率PL和纹理后验概率PG之和,然后将其降序排列,选择前N个排序值之和最小(Pmin)的概念类标注图像I,N是常数。

4 实验结果与分析

实验采用了Corel5k图像数据集[8],该图像数据集包含了5 000幅来自Corel图像库的图像,共分为50类,每类有100幅图像,共374个语义概念,每幅图像有1~5个语义概念作为其标注词。为了验证本文方法的性能,实验中将该图像数据集分成两个互不相交的子集——训练集和测试集,从每类图像中随意抽取90幅作为训练数据,10幅作为测试数据。在实验中高斯混合模型的分量数M取5,测试集图像的标注步骤3)中排序值之和最小的个数N取4,即对测试图像标注时,每一幅图像的语义概念个数为4。为了对本文方法的标注性能进行定量比较,采用图像的查准率(precision)P=R/H和查全率(recall)R=R/G作为评价指标,其中H是在测试时所有返回的被某语义概念标注的图像总数,R是被此语义概念已正确标注的图像总数;G是在训练集中被此语义概念标注的图像总数。

表1所示为采用本文方法的部分测试集图像标注结果。可以看出,本文方法的图像关键字标注结果与基准标注是相一致的。

另外,为了衡量不同图像标注方法的性能,本文方法与Co-occurrence, Translation, CRM 3种方法进行了性能指标比较,结果如表2和图1所示。

从表2和图1可以很直观地看出,相对Co-occurrence,Translation,CRM这3种方法,本文提出的L-GMM+G-GMM方法表现出更好的标注性能,其特点有:

1) 采用GMM方法能够对图像进行具体的语义描述。GMM是用参数化的方法描述样本空间中的数据分布,为语义概念与底层视觉特征建立起一一映射的关系,能有效地将底层特征映射到高层语义。

2)建立两个GMM增强了最后的标注效果。采用GMM方法时,把颜色和纹理分别同语义概念建立映射关系,避免了单特征作为一个特征矢量标注方法的决定性作用。

3) 由于EM算法使用K-means聚类进行初始化,而K-means聚类算法对初始聚类中心依赖性比较大,使得聚类后可能偏离全局最优分类,陷入局部最优值,从而导致GMM的数据聚类的不稳定,干扰最后的排序结果。

5 小结

本文提出的一种基于GMM的图像语义标注方法,对每一个语义概念类建立两个GMM,即颜色特征GMM和纹理特征GMM,采用EM算法获得高斯模型参数,融合颜色和纹理后验概率值排序结果,对测试图像进行标注。实验证明,本文方法取得了相对较好的效果,提高了图像标注的查准率和查全率。

目前,自动图像语义标注仍然是一个有待深入研究的课题。由于计算机视觉的局限性和高层语义的复杂性,如何对图像进行较准确的分割,提取基于区域的局部特征,并与全局特征相融合来准确地表示图像的真实含义,可以作为今后的一个重要研究内容。

参考文献

[1]龚淼,付正,张尤赛.综合BTC颜色矩和灰度共生矩阵的图像检索算法[J].电视技术,2012,36(11):31-33.

[2]LAVRENKO V.A model for learning the semantics of pictures[C]//Proceedings of International Conference on Advances in Neutral Informa-tion Processing Systems.[S.l.]:IEEE Press,2004:553-560.

[3]DUYGULU P,BARNARD K,DE FREITAS J F G,et al.Object recog-nition as machine translation:Learning a lexicon for a fixed image vocabu-lary[C]//Proc.the 7th European Conference on Computer Vision-PartIV.Copenhagen:[s.n.],2002:97-112.

[4]ESCALANTE H J,MONTES M,SUCAR E.Word co-occurrence andMarkov random fields for improving automatic image annotation[C]//Proc.British Machine Vision Conference on machine vision and relatedareas.[S.l.]:IEEE Press,2007:75-78.

[5]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Jour-nal of Machine Learning Research,2003,3(5):993-1022.

[6]王梅,周向东.基于扩展生成语言模型的图像自动标注方法[J].软件学报,2008,19(9):77-80.

[7]PILLA R S,LINDSAY B G.Alternative EM methods for nonparametricfinite mixture models[J].Biometrika,2001,88(2):535-550.

图像语义 篇4

关键词:定性映射,语义图像检索,特征提取,相关反馈

引言

计算机技术、多媒体技术和网络技术的飞速发展, 引领人类进入了一个多媒体信息时代。人类接触到和需要处理的图像信息每天都在呈几何级数的速度增长, 如何从海量的图像资源库中快速、准确地检索到所需的图像信息, 即建立有效的图像分类和检索机制成为迫切需要解决的问题。

1 图像检索技术

20世纪70年代, 在数据库技术和计算机视觉两大领域的推动下, 图像检索技术开始受到关注, 并逐渐活跃起来。

早期的基于文本的图像检索 (Text-Based Image Retrieval, TBIR) 通过手工对图像库中的每一幅图像加注描述性的文本, 然后根据加注的关键字, 使用文本检索技术实现图像检索的目的[1]。但随着图像数据库规模的日益扩充, 对图像的手工描述, 费时费力, 且主观性强, 易于出错, 难以表达图像中的全部信息 (如纹理、亮度、形状等) 使得它无法适应图像检索的实际需求[2]。

为解决上述问题, 20世纪90年代初出现了基于内容的图像检索 (Content-Based Image Retrieval, CBIR) 。由于传统的CBIR系统过于关注图像的底层特征, 无法深入表达图像的语义内涵, 缩小语义鸿沟对检索带来的障碍, 越来越多的研究者致力于基于语义的图像检索 (Semantic-Based Image Retrieval, SBIR) 的研究[3]。

本文结合属性论方法中的定性映射模型, 提出了一种基于定性映射的语义图像检索技术。

2 基于定性映射的颜色特征提取

在图像的低层物理特征中, 颜色特征是人眼识别图像的最可靠和最稳定的感知特征之一。因此, 本文提取颜色特征来描述图像。

2.1 HSI颜色空间

HSI颜色空间是美国色彩学家孟塞尔 (H.A.Munseu) 提出的一种感知颜色的模型[4]。在这种HSI模型中, 包含色调H、饱和度S和强度I三种基本特征量, 其中, 色调H由角度表示, 取值为0°~-360°, 饱和度S表示色彩的纯度, 取值为0~1。可以通过以下公式, 将常见的RGB颜色空间转换为HSI颜色空间。

2.2 HSI颜色空间的定性映射模型

设X (i, j) =H (i, j) ∧S (i, j) ∧I (i, j) 为图像中像素点x (i, j) 的色调H (i, j) 、饱和度S (i, j) 和强度I (i, j) 构成的一个整合性质, x= (h, s, i) 是X (i, j) 的量值, X (i, j) 的定性基准为 ( (h11, h12) , …, (hn1, hn2) , (s11, s12) , …, (sn1, sn2) , (i11, i12) , …, (in1, in2) 则由定性映射和定性基准模糊原理知, 定性基准区间构成的定性基准阵列[5,6]可表示如下:

C中不在同一行、不在同一列的定性基准区间将三维属性空间分割为3n个超立方体。以C为定性基准的合取性质的判断可定义为下述定性映射的形式:

以超长方体阵列C为定性基准的定性映射, 就是要确定一个向量c= (h, s, i) ∈H×S×I是否落在C的某超立方体中, 如果落在其中, 则有:

否则为0, 其中j, k, l∈{1, 2, 3, …, m}。反之, 具有此性质的对象x必具有以此为定性基准的性质。

根据一般经验, 将人们能感知的颜色划分为红、黄、绿、蓝、紫、黑、灰、白共8种。在HSI颜色空间中, 对应这8种颜色的定性基准可描述如式 (7) 所示。

得到颜色的定性基准后, 按照定性基准统计图像的颜色特征, 设8种颜色在图像中所占像素数分别为A1, A2, A3, A4, A5, A6, A7, A8, S为像素数目总和, 则第j种颜色在图像中所占的百分比别为

3 低层颜色特征到高层语义的转换

一幅图像由多个颜色特征表示, 每种颜色特征对应一个语义集, 那么一幅图像就可以用多个语义集来描述。图1为低层颜色特征到高层语义的映射过程, 其中, 红色特征对应语义集{红花, 太阳, 国旗, …}, 蓝色特征对应语义集{蓝天, 大海, …}等, 整个图像的语义定义为:{{红花, 太阳, …}, {蓝天, 大海, …}, ……}, 这样就可以提取出一个语义集。

4 相关反馈技术[7]

从图像8种颜色对应的百分比中, 选取所占比例最大的前3种颜色c1、c2、c3, 构造该图像的颜色特征M, 则M可表示为:

其中, ωi为各颜色所占的语义权重。

通过在检索过程中动态调整图像的语义权重, 可以优化检索结果。语义的相关反馈就是通过更新语义和图像之间的权重系数wi实现的, 具体过程如下:

STEP1.把所有的权限系数wi设置为1, 初始时图像的所有语义的权值大小相等。

STEP2.对于检索的结果, 若图像和语义相关, 则权重wi不变;若图像和语义无关, 则表示该语义的权重更新为原来权重的一半。

经过用户多次使用及反馈后, 语义的准确性提高。

5 语义图像检索

语义图像检索系统结构如图2所示。用户可以提交需要查询的语义关键字, 系统根据该语义关键字对图像库中的每一幅图像的语义进行匹配, 并按照每幅图像的语义权重大小, 依次将查询到的图像显示在屏幕上。用户根据需要对检索结果进行反馈, 图像的语义权重会随着系统的使用而不断修正。在多次反馈后, 查询结果逐渐趋于准确。

系统选取自然图像 (如:蓝天、白云、草地、树木、花朵等) 为图像库, 每幅图像大小均为250×360, 以JPG格式存储。系统界面如图3, 下拉列表框中有六个图像语义关键词, 分别是:花朵、白云、草地、天空、树、道路。用户选择要查询的关键词, 然后点击“检索”按钮, 则系统会根据图像中语义所占比重的大小, 将前15幅相应语义的图像显示在界面上。图4为多次反馈后的结果。

6 总结

本文通过研究属性论方法中的定性映射等相关技术, 将定性映射用于语义图像检索, 实现基于定性映射的颜色特征提取, 并映射为高层语义, 借助相关反馈技术进一步提高语义检索的准确性, 设计了一个基于定性映射的语义图像检索系统, 为解决语义图像检索问题, 提高图像检索效率提供一个有效的新途径。

参考文献

[1]张黎, 陈敏.基于内容的图像与视频检索技术研究[J].医学信息, 2005, 18 (5) :425-429.

[2]史美艳.基于语义的图像检索技术研究[D].济南:山东大学, 2011.

[3]杨芳芳.基于区域特征的有监督图像语义标注[D].苏州:苏州大学, 2010.

[4]宋西平, 李国琴, 罗陆锋等.基于HSI色彩空间与FFCM聚类的葡萄图像分割[J].农机化学研究, 2015, (10) :40-44.

[5]许广林.智能融合的定性映射模型及其属性计算网络实现技术的研究[D].上海:上海海事大学, 2008.

[6]周如旗, 冯嘉礼, 张谦.模糊属性Petri网建模方法及学习模型研究[J].计算机工程, 2014, 40 (6) :190-194.

图像语义 篇5

传统的做法是将一般的基于文本的图像检索技术(Text-Based Image Retrieval,TBIR)引入到医学领域中,即采用基于文本(例如:病人姓名、病单号和症状名等)的医学图像检索(Text-Based Medical Image Retrieval,TBMIR)技术来管理这些海量的医学图像数据,以提高检索水平。然而,TBMIR技术存在着许多问题,不仅需要预先对这些海量图像进行人工标注,而且被描述的文本会受到主观因素的影响。为此,研究者在医学应用中引入了基于内容的图像检索(Content-Based Image Retrieval,CBIR)技术。这种基于内容的医学图像检索(Content-Based Medical Image Retrieval,CBMIR)技术由于采用了图像的内在特征来匹配,不需要文本形式的标注,所以极大地提高了在海量数据中快速检索具有类似症状图像的效率。然而,CBMIR本质上是一种基于内容的图像检索,也存在着著名的“语义鸿沟”问题。为此,近些年一些学者研究了基于内容的医学图像语义检索(Content-Based Medical Image Semantic Retrieval,CBMISR)技术。

医学领域需要CBMIR有更加严格的安全机制。虽然目前的计算机网络为远程医疗、远程诊断和远程手术提供了可能,但在利用这些公用网络检索图像时也会存在不少的可以带来灾难性的安全问题,例如:被伪造或篡改过的已确诊的头部MRI等。近些年发展起来的图像取证技术,为解决该问题给出了一种新的途径。图像取证是指对图像的篡改、伪造和隐密进行分析、鉴别和认证,可分为主动与被动两种。主动技术包括防伪技术、防篡改技术和认证技术。被动取证(即盲取证)仅根据待认证的图像本身判断其是否经过伪造处理,不需要事先对数字图像做任何预处理。在医学领域引入盲取证技术,不仅可以鉴别图像的篡改或伪造操作,而且可以提升图像检索效率以及方便图像存储和管理。

1 盲取证的研究现状

图像盲取证的主要任务包括:(1)篡改检测,即判断由成像设备获取的图像是否被恶意修改过,并尽可能的对这些修改区域进行恢复;(2)来源鉴别,即判断图像的出处(如:成像设备的品牌和型号等),并在可能的情况下识别这些成像设备。因此相应的盲取证研究现状就分为篡改检测的研究现状和来源鉴别的研究现状。

1.1 篡改检测

1.1.1 拷贝-移动检测

最简单的篡改是拷贝-移动操作,即为了掩盖或伪造新目标,将同一幅图像中的一块区域拷贝到其他区域。被篡改的图像中会出现两块或多块在自然物体图像中有很小概率出现的相似区域,这可以作为篡改证据。Fridrich等首次对拷贝-移动检测进行了研究,将沿图像逐像素拖动的矩形窗口的DCT变换系数作为小块特征来进行字典排序。随后,Popescu、吴琼以及魏为民等分别采用主成份变换、奇异值分解小波低通子带以及Pearson系数的方法来研究拷贝-移动检测。

1.1.2 重采样检测

图像重采样是一类常用的篡改操作,如旋转和缩放等。这些操作往往伴随着插值操作,并导致像素之间的相关性发生变化,是判别图像是否被修改的一种依据。Popescu采用期望最大化EM算法来检测重采样操作,并把重采样后像素间的相关性变换归结为原始信号和周期信号的叠加,然后对应于EM算法输出的傅立叶频谱图中的规律性亮点。同济大学的朱秀明提出通过增加小补偿量的办法来避免EM算法可能遇到的奇异点,对Popescu的算法进行了改进。某些情况下,图像的旋转和缩放操作是合理的,所以单一的重采样检测就会有很大的局限性。

1.1.3 图像拼接检测

图像拼接是篡改中的基础操作。Farid和Ng都采用了双相干特征系数来检测图像拼接。Chen等采用相位叠合和小波系数的特征函数矩来捕捉拼接带来的图像边缘和噪声分布的变化,并将这两者输入SVM对图像分类。张震等将原始图像划分成若干区域以提取区域质量评价值和基于隐马尔可夫模型的区域矩特征,然后输入SVM对拼接图像进行鉴别。Shi等认为图像拼接是可以产生复杂异常的局部操作,并采用多尺寸离散余弦块变换(MBDCT)和Markov模型来捕捉这些局部异常,将Markov模型的转移概率矩和MBDCT低阶矩输入SVM对图像分类。

1.1.4 模糊操作检测

模糊操作是另一类常用的篡改操作,常用的是高斯模糊。王波等认为模糊会破坏由成像系统带来的局部图像色彩的相关性,并提出基于异常色调率检测和定位的方法。Hsiao等提出利用DCT变换的高频相对缺失来衡量模糊程度,过高的区域被认为是篡改区域。Sutcu提出利用图像小波系数的规律性来估计图像边缘的清晰度和模糊度,以检测篡改。周琳娜等分析了离焦模糊和人工模糊边界的不同特性,用同态滤波和形态学滤波增强模糊图像边缘并分离这两类边缘,以实现定位。王鑫等利用Elder-Zucker方法衡量局部块的模糊程度以判断是否存在景深相似但模糊程度有较大差异的图像块。

对篡改检测的研究,除了上述常用的四种方法外,还包括JPEG图像双重压缩检测和图像修复检测。JPEG图像双重压缩部分,相关的研究包括Fridrich的对第一次压缩估计的量化矩阵方法,戴蒙采用的抖动模式分析方法,以及张静的JPEG2000格式的双重压缩检测方法。图像修复检测部分,由于经常采用Criminisi等提出的用样本纹理来填充大块区域的修复方法会导致图像中有异常相似的纹理区域,吴琼等通过用模糊隶属度表示图像块的连通性的方式来描述了这种相似性,并作为图像篡改判别依据。

1.2 来源鉴别

1.2.1 CFA插值检测

CFA插值系数和插值模式是数码相机成像系统中可以用来鉴别图像来源的重要参数。Bayram等指出不同数码相机采用的CFA插值系数和插值模式不一样,分别采用Popescu方法和Gallagher方法获得两组Fourier谱图极值点特征,然后被SFFS算法筛选输入SVM进行分类。吴旻等提出和Bayram结论相反的利用CFA插值对数码相机进行分类的方法,并只选择边缘的非平滑区域(不同品牌数码相机图像的平滑区被认为采用类似的插值方法)用以估计插值系数,然后输入SVM来鉴别相机的品牌和型号。

1.2.2 模式噪声检测

模式噪声产生于特有相机的拍摄过程中,分为固定模式噪声FPN和图像响应非一致噪声PRNU。FPN是指当传感器阵列没有曝光时点对点的差别,取决于曝光时间和温度。PRNU是自然图像模式噪声中的主体部分,其核心是像素非一致性PNU,即像素对光的灵敏性。PNU在拍摄中保持稳定并且不依赖于环境温度,因此能够表征传感器的本质特性。

1.2.3 色差检测

色差是最常见的一类由于光学系统不能很好聚焦不同波长的光线而导致的失真模式。图像的篡改或伪造操作,通常会破坏这种固有的区域色差模式,这种区域色差不一致可以作为图像被篡改的一种证据。Johnson方法利用了横向色差模型,进一步的研究可加入纵向色差模型或其他的光学失真模型,从而提高图像篡改检测的灵敏性和准确性。

2 图像检索的研究现状

2.1 TBIR检索技术

早期的图像检索使用的是TBIR技术,即用文本对被检索的图像进行描述,用精确或概率匹配执行查询操作。然而,完全的TBIR要求通过用自动标注取代改变手工标注的方式来减少标注的不准确、不完整以及主观性。此外,图像中所包含的丰富视觉特征往往无法用文本来客观地描述。通过相关的调研得知,当前已有的自动标注算法有如下分类:(1)相关模型方面,包括:跨媒体相关模型CMRM,连续相关模型CRM,多伯努利相关模型MBRM和一致性语言模型CLM;(2)生成式模型方面,包括:概率隐语义分析模型PLSA,高斯混合模型GMM,高斯-隐荻利克雷分配模型模型Guass-LDA,相关隐荻利克雷分配模型Corr-LDA;(3)传播式模型方面,包括:基于流形的自动图像标注和基于流形的多种相似性综合;(4)利用词汇间关系的标注方法方面,包括:互相关标记传播模型CLP,Word Net多测度混合模型和利用随机游走进行标注改善。

2.2 CBIR检索技术

CBIR涉及的关键技术包括:图像特征的提取和表达方法、图像相似性比较方法、相关反馈机制、性能评价、压缩域检索、以及图像高维特征压缩和索引。CBIR从提出到现在,在国内外已经取得了不少的成就:(1)技术上,各种新的方法层出不穷,如一些用于降维的特征提取方法和分割方法;(2)学术上,已有一些较为知名的学术专刊和专集,如ACM Multimedia和SPIE每年专门的CBIR国际会议等;(3)应用上,已经有许多CBIR系统,如IBM的QBIC系统,哥伦比亚大学开发的Visual SEEK以及UIUC的MARS,MTI的PhotoBook,UC Berkeley的Chabot系统等等。

3 医学图像检索的研究现状

3.1 TBMIR检索技术

TBMIR是传统的TBIR在医学方面的应用。首先,对待检索的医学图像按照病人姓名、病单号和症状名等文本进行手工标注。然后,采用TF-IDF文字向量内积的方式执行查询操作。TBMIR的优点包括:检索速度快,引擎等技术比较成熟,实现较简单;其缺点有:医学图像被标注的文本需要手工完成,且依赖于医师的个人见解。另外与其他类型的图像相比,医学图像由于所含信息量大、灰度和空间分辨率高、图像相似性大以及颜色类型少等,具有极强的复杂性,比较容易产生“语义鸿沟”问题,使得TBMIR中精确、客观和完整的文本不易得到。因此,CBMIR检索技术就是在这种情况下产生的。

3.2 CBMIR检索技术

目前,研究者们开发了一些既包括针对病理学、检验学和影像学等单一来源的图像检索系统,也包括多来源、多分类的特定应用的CBMIR系统。在放射学中,乳腺照片是最经常被用来进行分类和CBMIR研究的。美国的普渡大学和芝加哥大学、英国的曼彻斯特大学、加拿大的卡尔加里大学在研究乳腺癌方面做了广泛和深入的研究。ASSERT是专用于高分辨CT肺部图像的项目,它针对影像中某些局部病灶特征来建立相似性准则。综上,目前对CBMIR的研究已经取得了不少进展,但在体现医学图像固有性质方面还需要加强,因此人们对CBMISR检索技术进行了研究。

3.3 CBMISR检索技术

目前,CBMISR检索技术已经被应用到X片、CT和MRI等医学图像中。德国亚琛工业大学的Thomas M.Lehmann等研制的IR-MA是目前较为成熟的IRMA与PACS结合的医学图像语义检索系统,美国密苏里大学的Adrian S.Barb等通过医学视觉特征建立了HRCT图像中肺部语义变量层次化模型。目前,医学图像语义理解的研究已得到普遍的关注,然而要缩小“语义鸿沟”,理论上仍有许多复杂且艰巨的问题需要解决。

4 医学图像语义表达的研究现状

医学图像语义是指关于图像的全部或部分的结构性和诊断意义的文字描述,内容包括:器官组织的名称、属性、相互之间的约束关系以及图像表述的病症信息等。医学图像语义的表达涉及到用视觉特征来表达的图像内容,这些视觉特征不能直接反映符合人类的理解习惯的图像语义。为此,有不少学者专门研究了医学图像内容的语义表达方式,可分为以下几种。

4.1 利用语义网

2000年T.Lehmann提出一种层次化医学图像语义网络,首先根据全局特征对图像进行分类,其次提取感兴趣区的局部特征,并在多分辨率下建立一个层次化的语义网,然后赋予每个节点相关的图像语义,最后实现基于语义的医学图像检索系统。2004年Hongshun Su用多层语义网络表达肺部结构和特征模型,用几个特征描述的节点来表示肺部的器官和组织。节点检测的过程就是从低层表达到高层表达的转换过程,即首先经过图像处理、特征提取后,由推理引擎完成与肺部模型的匹配,进而根据综合隶属度选择最佳匹配,以完成检测。

4.2 利用分类码

医学图像的分类码指:医学设备类型、人体定位信息、解剖结构和生物信息等。2002年Zrimec T.提出了利用分类码表达初步医学图像内容信息的CBMIR系统。

4.3 利用图像模型

2002年Zrimec T.建立了基于元数据和图像视觉特征的医学图像模型,该模型可接受任意数量的图像属性和图像特征。2003年Richard Chbeir提出了包含图像元数据、视觉特征和语义特征的医学图像模型和图像区域模型,其中图像元数据包括基于上下文的和基于特定领域的与图像有关的元信息,视觉特征包括用数值表示的低层物理特征,语义特征包括用关键词表达的空间关系特征和与医学知识有关的语义。不同类型设备和不同部位的医学图像,其使用的语义是不同的,即不存在一个抽象化的一般性关键词汇集合。

5 尚存的可切入研究点

以上是对相关研究现状的简要综述,可以发现这些研究还存在如下几个值得研究的地方。

5.1 语义表达方面的关键问题

医学图像语义检索的关键在于语义表达和相似度度量,而图像语义表达的核心任务是从低层视觉特征提取出需要的高层语义,来弥补“语义鸿沟”问题。现有的医学图像检索系统大都只利用了图像的底层视觉特征进行图像语义描述,这些并不能表达医学图像的真正含义。

5.2 图像检索方面的关键问题

图像检索方面的关键问题主要包括:(1)融合多种有权重特征的医学图像。医学图像检索中,如何将底层的物理特征、高层语义特征和相关文本结合起来,以及如何设置他们的权重,使检索结果尽可能完善是CBMIR需要研究的重点问题之一。(2)CBMIR与PACS结合。目前两者的结合运用效果并不是特别好。为了能有效存储海量的医学图像数据以及实现远程医疗资源共享,这些大中型医院就需要考虑如何有效地管理和访问的问题。(3)快速准确的配准与分割技术。图像的变形和三维复杂性以及病灶的存在对特征提取的结果影响较大,需要配准技术来提高检索的准确性。另外,医学影像的临床诊断决策一般是根据图像局部特征(ROI)来进行的,这些感兴趣的区域由于特定的设备和运用环境等在分割中存在不确定性。

5.3 图像取证方面的关键问题

图像取证方面的关键问题主要包括:(1)数字图像来源鉴别方面。现有的算法尽管在鉴别不同设备类型获取的数字图像方面已经能够达到比较好的效果,但是对于不同型号设备,这些方法的鉴别效果不是很好。(2)数字图像篡改伪造检测方面。现有算法存在较低的查全率和查准率,难以达到准确取证分析的目的,而且对于检测出的篡改伪造图像,难以分辨究竟是正常的图像处理操作,还是恶意的篡改伪造操作。(3)数字图像篡改伪造定位方面。这方面的难题主要在于计算量过大的对整幅图像相似块的遍历搜索。

摘要:为了找到本研究领域关键问题的切入点,该文对基于盲取证的医学图像检索及语义表达进行了一次广泛的文献调研,并就盲取证、图像检索、医学图像检索以及医学图像语义表达这几个方面进行了详细的文献综述。最后,列举了已有研究尚存在的可以值得切入的几个问题点。

本文来自 古文书网(www.gwbook.cn),转载请保留网址和出处

相关文章:

全景图像01-07

图像表示01-07

数字图像01-07

平面图像01-07

基本图像01-07

图像法01-07

实时图像01-07

高清图像01-07

图像梯度01-07

泡沫膨胀01-07

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:全景图像 下一篇:图像法