图像表示(精选九篇)
图像表示 篇1
现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等因素的影响, 这些影响往往会使图像品质下降, 在图像上造成噪声污染。噪声可以被理解为妨碍人体感觉器官对所接收的信源信息理解的因素, 在理论上则可定义为不可预测只能用一定概率统计方法来认识的随机误差[1]。由于噪声极大地影响图像信息的正确表达和理解, 因此对图像进行去噪处理已成为图像处理中最为重要的研究内容。图像去噪一般需要通过使用一些图像增强的方法来达到噪声抑制和图像品质改善的效果。
图像增强通常包含有频域[2]和空域[3]两大类处理算法。在空域图像增强处理中, 直方图均衡化算法可以使图像的全局对比度得到增强。通过这种处理, 图像的亮度可以更均匀地在直方图上分布, 图像的显示效果更好。但这种方法不足之处在于增强的是全局对比度, 而不是局部对比度。对于图像局部区域的增强, 可以采用分块的方式进行局部增强, 也就是先对图像进行分块, 然后对各个图像块施以直方图均衡化增强处理[4,5]。尽管分块的方式让局部区域也可以得到自适应地增强效果, 但分块会破坏图像边缘的连续性。研究者提出了很多保护图像细节信息的频域处理方法, 例如在小波域的彩色图像增强[6]和基于DCT的图像增强[7,8]等。相比较于直方图均衡化算法, 这些方法更利于保护图像细节, 但频域处理算法往往基于图像频率信息主要集中在低频部分, 而噪声的频率系数则分布在整个频域 (大部分集中在高频部分) 这样的认识。通过滤除图像的高频部分, 来近似获得去除噪声的图像。但在图像上噪声和图像纹理同时存在的区域 (例如边缘) , 简单地用高频和低频是无法区别噪声和纹理的。在这种情况下, 频域的图像增强往往会让图像噪声更加凸显或者边缘模糊。
本文分析研究了DCT系数在不同图像区域的特征情况[9], 即图像平滑区域往往会存在更多的非零DCT系数, 而DCT振幅值在纹理区域变化较小而在边缘区域变化显著。文献[10, 11]将图像分块后转换到频域, 然后在频域基于主成分分布在中低频且系数值较大而噪声分布在高频且系数值较小的特征使用门限法来抑制噪声。这种传统的方法会在图像上造成块效应并且纹理信息会被衰减。本文在分析研究DCT系数特征的基础上, 对算法进行了改进, 具体的做法包括对系数值较小的中低频成分中的噪声进行抑制, 对非零系数进行幂指数运算增强边缘信息, 以及对反变换结果进行Kaiser加窗[12]处理来消除块效应等方面。与传统的去噪算法相比, 本算法在抑制噪声的同时增强了纹理细节, 得到了更好的可视化效果。图1为本算法的流程图。
1 彩色图像的稀疏表达
对颜色比较好的表示可以依据对彩色图像的视觉感观和类别等方面。在图像处理中, 颜色的刻画更多地依赖于人对色彩的主观感知。同时, 与人对色彩的感觉与空间距离也密切相关。Lab颜色模型是一种基于人对颜色感觉的颜色分析模型。Lab色彩模型是由亮度 (L) 和有关色彩的a、b三个要素组成。a表示从洋红色至绿色的范围, b表示从黄色至蓝色的范围。要将原始彩色图像转换到Lab颜色模型空间, 首先需要利用式 (1) 将图像由RGB颜色空间转换到XYZ空间:
在得到图像在XYZ颜色空间的各个分量后, 由XYZ空间的Y分量和一个参考的白点经式 (2) 就可以得到L分量, a和b分量则可以由式 (3) 和式 (4) 计算得到:
其中L*、a*和b*分别是Lab模型的各个分量, 而X0、Y0和Z0为选择的参考白点。
原始图像经过DCT变换后, 可以得到与图像内容直接相关的DCT系数。DCT系数个数比较少, 但通过这些系数, 图像可以有效地被重建, 而系数的这种分布情况就决定了用稀疏的方式来表示。这一过程的算法实现如下:
图2显示了图像由RGB颜色空间到Lab空间的转换, 可以看到图2 (b) 中L分量表示了原图像的亮度信息, 图2 (c) 中b分量显示了原图像上的红色到绿色区域的色彩变化信息, 图2 (d) 中a分量则显示原图像上的黄色到蓝色区域的色彩变化信息。
图3显示了原始图像上不同类型区域的DCT系数的分布情况和稀疏表示。可以看到在L分量上, 平滑的区域上存在很少的非零系数 (见图3 (b) 下) , 而在纹理的区域上存在多一些的非零系数但变化缓慢 (见图3 (b) 上) , 在边缘区域存在很多的非零系数且变化显著 (见图3 (b) 中) 。对于色度分量a和b, 在平滑区域同样是非零系数很少 (见图3 (c) 和 (d) 下) , 但边缘区域幅度变化不显著 (见图3 (c) 和 (d) 中) , 在相同的颜色区域, 基本不发生变化。在纹理区域, 由于色度分量相比较于亮度分量丢失了更多的纹理细节信息, 因此基本没有任何的非零系数 (见图3 (c) 和 (d) 上) 。由以上分析知道, 相对较于亮度分量, 在色度分量上的DCT系数稀疏性更好。
2 噪声抑制与图像增强
对于图像f (x, y) 的每一个N×N分块, 二维DCT变换的计算公式定义如下:
原始图像信号经过DCT转换后, 信号成分大多分布在中低频区域, 因此通过对这些系数进行反变换进行重新构建就可以得到与原始图像非常近似的新图像, 其中低频区域需要尽可能被复原, 高频区域可通过Z型扫描方法识别计算出来, 扫描的方式是从直流分量开始由低频到高频的顺序完成的。由于在高频区域往往同时包含噪声和纹理信息并且这些区域的系数值较小, 纹理增强的同时噪声也会被放大, 这样处理后的图像会出现边缘效应, 因此需要对噪声进行约束。这里可以使用阈值来识别噪声, 阈值的定义如下:
其中, △为用户参数。对系数值较小的中低频成分中的噪声则由式 (7) 进行抑制。并且采用幂指数运算增强边缘信息, 见式 (8) 。
在式 (8) 中, 是指图像平均亮度的直流分量。由于纹理和边缘信息存在于系数值较小的高频区域, 因此,
由于α取0到1之间的值, 高频区域的系数值在经过幂指数运算计算后会被放大, 即
最后再利用式 (9) 进行DCT反变换。
由于在图像上存在边缘细节信息, 但DCT不能用稀疏的形式有效地表示图像的边缘和纹理。因此, 在每个图像块内选择阈值和抑制噪声的处理过程中, 如果阈值较大, 则更多的低频成分会被保留, 在图像上产生块效应, 本文的算法在增强处理后对每个图像块使用Kaiser加窗处理来消除这个缺陷。算法实现伪代码如下:
3 实验结果及讨论
本文提出的算法是先将图像分成N×N的图像块, 然后对每个图像块施以DCT变换, 再进行幂指数计算, 最后用门限法进行噪声抑制和纹理边缘信息增强。本文试验所使用的图片, 图4和图5的原始图像为数字图像处理界标准图像, 原始图像大小为512×512。图7的图像是用实验室的视频设备扑捉的, 图像大小为640×480。
图4显示了在不同分块大小 (N) 情况下的图像增强效果。随着图像块边长N的增大, 像素的相关性和DCT系数的稀疏度减少。对图4 (a) 进行的处理, 参数α取值0.71, △取值0.056。对比图4 (b~c) 和图4 (d~e) , 可以看到, 当在亮度通道N=8时增强效果较好, 而当亮度通道N=16时, 无论色度通道N为8或者16图像都会出现变形失真现象。这是因为人体的视觉感知对亮度的敏感性高于色度。因此选择亮度通道处理窗口为8, 色度通道处理窗口为16能达到比较好的视觉效果。
在高频区域对非零DCT系数施以幂指数计算增强纹理和边缘。图5显示了不同指数参数α对增强效果的影响, 这里取△=0.056, lum N=8, chrom N=16。当α<0.67, 图像边缘处出现亮线;当α>0.75, 增强效果不明显;而在区间[0.67, 0.75], 图像区域清晰明显。但当区间为[0.67, 0.69], 图像上出现块效应。当区间为[0.71, 0.75]边缘的亮度逐渐降低, 但整体的增强效果更好。
为了消除因保留更多低频成分 (即阈值选择较大时) 而产生的块效应, 本文采用了Kaiser加窗处理消除这种块效应。图6 (a) 的增强效果是在△=0.056, α=0.71, N为8的情况下获得的。在图6 (a) 上可以看到出现了块效应, 在加窗处理前诸如眼睛这样的边缘区域被模糊了, 通过加窗处理之后图像效果被显著改善了, 见图6 (b) 所示。
图7对比了线性图像增强算法与本文所提出的图像增强算法的处理效果。本文的算法更好地抑制了图像噪声, 并获得了更好的图像可视化效果。本算法达到这样的处理效果主要原因是线性增强算法没有识别经过DCT变换后高频区域存在的噪声和纹理区域, 因此线性增强算法会在增强纹理细节信息的同时放大噪声, 在增强后的图像上造成边缘效应, 而本算法则克服并较好地解决了这些缺陷。通过利用信噪比 (SNR) 计算公式[13]可以得到本文的SNR为3.17比传统线性增强处理 (同一区域为2.61) 提高了20%左右, 选择对比的是人脸区域。
4 结语
本文提出的算法分析了图像上不同区域的DCT系数特征, 例如在图像平滑区域会呈现出的非零DCT系数较少的情况, 而在纹理区域DCT振幅较小而在边缘区域较大的情况。本文提出的算法首先在图像上进行分块并执行二维DCT, 把它们转换到频域。然后施以对图像的主成分进行Zig-Zag扫描来保留中低频信息, 而在高频区域针对DCT系数小的情况设定阈值抑制噪声, 对余下的非零系数应用幂指数计算进行增强。最后为了克服块状效应, 对DCT逆变换后的输出采用Kaiser函数进行加窗处理。相比于传统图像增强算法, 本文提出的算法在抑制噪声的同时对图像纹理和边缘进行了增强, 改善了图像的视觉效果。本文的算法既可以应用于一些图像软件作为自动处理模块, 同时又可以作为一些智能图像分析算法的预处理算法, 例如在本单位研究的人脸识别算法研究中, 通过本算法的图像增强处理, 由于纹理信息的更好保留, 提取的特征也更容易进行分析处理。
摘要:提出一种对图像DCT (离散余弦变换) 系数使用稀疏表达的彩色图像增强算法。该算法改进了传统算法在边缘保留和噪声抑制方面的一些不足, 例如增强高频成分中的纹理信息的同时抑制噪声。传统的图像增强算法往往认为图像的高频成分主要为噪声区域, 在这样的前提下高频成分中的纹理信息和噪声区域就很难加以区分。所提出的算法主要依据图像上不同区域DCT系数的不同分布特征识别图像的噪声和非噪声频率成分, 进行噪声抑制和边缘增强, 并且使用Kaiser加窗处理来解决因保留低频成分产生的块效应。实验结果表明, 与传统图像增强算法相比, 所提出的算法不仅抑制了图像噪声, 而且增强了图像的纹理和边缘, 改善了图像的视觉效果。
图像表示 篇2
共22分)1.(2分)小明和小华是同班同学,小明中午回家吃饭,小华在班上吃中饭。下面()图描述的是小明一天的情况。
A.B.C.D.2.(2分)星期六小明和家人从家中出发,乘车0.5小时后,来到离家10千米远的植物园,游览1小时后,走出植物园,休息1小时,然后乘车0.5小时返回家中。下面的折线统计图中,()描述了这一活动的过程。
A.B.C.3.(2分)小明妈妈从家出发到超市,购物若干时间后再回到家。下面比较准确地描述了这件事的图是(),A.B.C.D.4.(2分)A、B代表家长和孩子,下图表示他们的关系,表示B是A的儿子,那么A是B的()。
A.姨妈 B.爷爷或奶奶 C.妈妈或爸爸 5.(2分)如图是小月放学后的活动情况。下面的描述中()与图意不相符。
A.学校到书店的距离是300m B.小月放学后在书店停留了12分钟 C.小月从书店离开返回家一共用了24分钟 D.小月放学后到家期间一共是42分钟 6.(2分)如下图a~d是水滴进玻璃容器的示意图(滴水速度相同),如下图e~h表示的是容器中水的高度随滴水时间变化的情况(图中刻度、单位都相同),与示意图c容器相对应的统计图是()。
A.图e B.图f C.图g D.图h 7.(2分)服装厂制作一批新款女式短裙,下图是制作短裙的数量和所用布料的变化情况。从图中可以看出,用660米布料可以制作()条这样的短裙。
A.500 B.400 C.550 D.600 8.(2分)下图表示的是学校足球队乘车去体育馆训练,然后返回学校的过程,下面说法错误的是()。
A.体育馆距离学校5km B.去体育馆的车速是5千米/时 C.足球队在体育馆的时长是1.5时 D.返回学校用时0.5时 9.(2分)你知道龟兔赛跑的故事吗?乌龟与兔子赛跑,开始兔子跑得快,于是兔子便骄傲起来在途中睡着了,最终乌龟比兔子先到了终点.选一选,下面()图表示了这个故事。
A.B.C.10.(2分)星期天,林林从家出发到书店看了一会儿书,然后回到家里,下面第()幅图描述的是林林的行为。
A.B.C.11.(2分)五年级一班同学星期一第一节课到二楼教室上数学课,第二节课到三楼语音室上英语课,第三节课到四楼美术室上美术课,第四节课到室外上体育课,下面第()幅图描述了这一过程。
A.B.C.二、填空题(共2题;
共4分)12.(2分)“龟兔赛跑”是同学们熟悉的寓言故事,如图表示路程(米)与时间(分钟)的关系,从中可以知道:
(1)赛跑中,兔子共睡了_______分钟.(2)乌龟在这次赛跑中的平均速度是_______米/分.13.(2分)如图是打国际长途电话所需付的电话费与通话时间之间的关系图.(1)打2分钟需要_______元电话费,3分钟以上每分钟_______元.(2)打6分钟需要_______元,10.4元打了_______分钟. 参考答案 一、选择题(共11题;
共22分)1-1、2-1、3-1、4-1、5-1、6-1、7-1、8-1、9-1、10-1、11-1、二、填空题(共2题;
图像的超小波稀疏表示 篇3
关键词:超小波,图像表示,稀疏表示
图像稀疏表示旨在确保图像精度的前提下,用数量最少的基函数组合近似表示图像,使图像的特征用尽量少的变换系数表达出来,在图像压缩、特征提取、图像检索、图像去噪和图像复原等应用中具有重要作用。Vinje和Gallant通过生理学的实验显示[1],主视觉皮层的神经元在接受自然图像作为输入刺激时,其响应是满足稀疏性的,证实了图像稀疏表示模型能够有效匹配人类的视觉感知特性。
Mallat和Zhang将Coimfan和Wickerhauesr等提出的信号稀疏分解概念推广到图像处理领域[2,3]。在图像稀疏表示中,基函数的选择是关键。基函数与图像信号的结构越匹配,越容易形成图像的稀疏表示。随着多尺度几何分析的兴起,出现了Ridgelet,Curvelet,Contourlet,Wedgelet等一系列图像稀疏表示的超小波方法。它们放宽了正交基表示图像的严格条件限制,采用框架(超完备基)来表示图像,获得更好的图像表示效果。本文针对Fourier变换和小波变换用于图像表示应用存在的不足,研究了各种新兴起的超小波变换稀疏表示图像的方法,分析了它们各自的特点与优势,并对未来发展进行了展望。
1 Fourier变换和小波变换表示图像存在的问题
经典的Fourier变换可以对平稳信号形成最优表示,但表示图像这种非平稳信号时,只能把图像分解成具有不同强度和不同频率的分量组合,而不能同时表示出频率分量在图像上出现的位置,丧失了图像的空间分析特性。小波基具有良好的空间-频率局部化特性,较好地解决了Fourier变换在时域分析和频域分析之间的矛盾,被静止图像编码新标准JPEG2000选用。但是图像表示通常采用二维可分离小波基,基函数各向同性,只能有效表示零维奇异点。这是因为二维可分离小波基是由一维小波基通过张量积的方式推广得到的,支撑区间在不同分辨力下,表现为不同尺寸大小的正方形,不具有各向异性特征。它在表示图像边缘时,相当于用一系列的“点”去捕捉图像中的“线”。 这种维度的差异严重影响了小波的逼近效率,导致在边缘轮廓处聚集了大量的大幅度小波系数。而且可分离二维小波变换在表示图像时,只能表达出水平、垂直和对角3个方向的图像信息,不利于完整表达自然图像[4]。
为了克服实数小波变换的时移敏感性和方向性缺乏的缺陷,Kingsbury提出了复数小波稀疏表示图像的方法[4],用两个实数滤波器分别近似逼近复小波的实部和虚部,具有近似的平移不变性和更多的方向选择性。复小波变换采用双树结构,一树生成变换的实部,一树生成虚部[4,5],变换后产生了6个方向的高频子图像,分别指向±15°,±45°,±75°。但是分析方向数目还是无法满足自然图像角度分辨力的要求。由此看来,小波变换只能最优描述零维奇异目标函数,表示二维或更高维奇异性信号存在明显缺陷。
2 超小波图像稀疏表达方法
最近几年,出现了一些新的图像变换表示方法:如脊波(Ridgelet)、曲波(Curvelet)、轮廓波(Contourlet)、线波(Beamlet)、楔波(Wedgelet)、板波(Platelet)等。这些方法的基本思想是为了使基函数能更好地表现图像特征,放宽了对基函数的正交性要求,改用一组超完备的框架基作为图像稀疏表示的原子。事实证明,基于超小波变换的图像表示方法可以更加稀疏地表示图像。
超小波关注如何表达图像的不连续性(或奇异性),沿袭小波的理论模式,构造出一些列能够多分辨力表达图像的“基”或“标架”,这些超小波的母函数具有各向异性的特点,通过灵活地调整基的方向和支撑区间的形状,可以用较少的系数快速有效地捕捉图像的奇异信息。它们具有下列共同特点:
1) 具有几何规则性,能够逼近图像中任意方向的线、曲线的不连续性;
2) 有容易计算的分析(正变换)和综合(反变换)表达;
3) 对分析(变换)域的结果有明确的物理解释,便于实施去噪、压缩的近似处理,以及超分辨重建的进一步工作。
2.1 Ridgelet变换与Curvelet 变换
脊波理论由Emmanuel J Candes在1998年提出[6],一个典型的Ridgelet母函数如图1所示,具有各向异性的特点。小波变换是逐点刻画点的奇异性,而Ridgelet变换是沿脊线刻画线的奇异性。因此,Ridgelet变换在方向选择和识别方面,比小波变换性能优越,可以更有效地表示信号的一维方向奇异特征。
用脊波作为基函数来检测直线特征,可以有效地捕获各个尺度、各个位置和各个方向上的信息,逼近直线型奇异函数具有优越性。然而自然图像的边缘不一定都是直线型的,脊波变换不能很好地处理曲线奇异性,这样脊波变换就满足不了要求。
为了表示图像中的曲线奇异性,文献[7]提出了单尺度脊波变换,把图像固定尺度均匀剖分,每个剖分块中的曲线近似看作直线。在剖分块中,再对每个分块进行脊波变换。单尺度Ridgelet变换巧妙地将曲线奇异转化为直线奇异来处理。
以单尺度Ridgelet变换为基础,E.J.Candes和D.L.Donoho构造了多尺度Ridgelet,也就是第一代Curvelets变换[8]。第一代Curvelet先对图像作小波变换,然后对不同尺度的子带图像采用不同大小的尺寸分块后进行脊波变换。Curvelets变换能在所有可能的尺度上进行Ridgelet变换,克服了单尺度脊波变换固定尺度的缺陷,对曲线状奇异特征具有稀疏表示的能力。
但是Curvelet变换存在数字实现复杂、数据冗余量巨大的缺陷。而且,由于Curvelet变换是基于块剖分的变换,重构图像中存在块边界效应。为了解决这一问题,需要预先对各剖分块进行叠加处理。这样不仅运算复杂度增大,还加大了变换系数的冗余度。于是,Candes等人又提出了实现更简单、更便于理解的第二代Curvelet变换[9]。定义径向窗函数W(r)和角度窗函数V(t),它们满足可允许条件
对于每一个j≥j0,定义傅里叶频率的频率窗:
2.2 Contourlet变换与Shearlet变换
鉴于Curvelet变换是一种频率定义的方法,导致笛卡儿坐标与极坐标间转换需要插值计算。M. N. Do和Martin Vetterli直接从离散时间域提出一种与Curvelet类似的方向性多分辨变换——Contourlet变换[10],更适合数字图像表示。
Contourlet变换作为Curvelet变换的另一种快速数字实现方式,继承了Curvelet变换支撑区间各向异性的多尺度关系特点。如图3所示,它将多尺度分析和方向分析分拆进行,首先用拉普拉斯塔形分解方法搜索边缘奇异点,再用方向滤波器组将位置相近的奇异点集结成轮廓线段。Contourlet变换基的支撑区间是“长条形”结构,其长宽比随尺度变化,如图4所示。Contourlet表示图像边缘的系数能量更加集中,对于曲线有更“稀疏”的表达。图5、图6分别为小波变换和Contourlet变换用相同数量的系数重建图像的效果。
2007年,Guo和Labate等人提出了一种新的接近最优的多维函数表示方法——剪切波(Shearlet)变换[11]。相对于轮廓波变换来说,Shearlet变换具有完备的理论和数学基础,它与小波变换类似,通过一个基本函数的膨胀、剪切和平移变换来构造基函数,可以在广义多分辨分析的框架下进行研究,它在频率空间沿斜率方向逐层加倍细分,并且对剪切操作在方向数目上没有限制。Shearlet变换是一种更为灵活的数字图像表示方法,可以对图像进行灵活的多分辨和多方向分解,对图像中的边缘和纹理等细节信息给出接近最优的性能表示。
2.3 Beamlet变换与Wedgelet变换
为了确定图像中线段的端点及长度信息,Donoho提出了连续Beamlet变换及其在多尺度分析中的应用[12],Xiaoming Huo提出了离散Beamlet变换[13]。在文献[14]中,Donoho用Beamlet分析的理论框架将Beamlet变换和Wedgelet变换统一为Beamlet多尺度几何分析理论。
在n×n的二进方块内连接边界上任意两个像素点就构成了一条离散小线基,基上的像素点可通过插值法确定。各种方向、尺度和位置的小线基的集合形成小线库。数字图像在一条小线基上的离散Beamlet变换,就是这条小线基上各像素灰度值的和。Beamlet变换对线定位精确、简单易行,变换系数以金字塔方式组织,从而实现多尺度分析。
Donoho进而提出了Wedgelet变换,与Beamlet变换结合,使用多尺度Wedgelet基对图像轮廓进行分段线性近似[15]。一个图像子块借助一条分割线分成两个楔块,每一个楔块用唯一的特征值表示。Wedgelet变换使用线的位置、两个楔块的特征值近似描述了这个子块的性质。
在应用中先利用Beamlet词典生成Beamlet基,Wedgelet基在Beamlet基的基础上生成。在Wedgelet变换中,图像中的边缘用所选取的最优Beamlet基来分段近似表示。
3 结论
自然图像是包含多种形态结构成分(Morphological Diversity)的复杂信号,而现在常用的傅里叶变换和小波变换无法最优地表达图像中各种类型的结构。本文针对傅里叶变换和小波变换稀疏表示图像存在的问题,较为全面地分析了近来新出现的各种超小波表示图像方法。超小波建立在冗余框架下,用过完备字典分解图像。基的种类和个数有所增加,便于表示图像中的各种几何结构,如边缘、轮廓、角点、纹理等,为图像稀疏表示提供了更好的选择。
从图像稀疏表示的发展进程来看,图像表示的基函数经历了从非冗余的正交基到适度冗余的紧框架变迁,正在向过完备字典演进。过完备字典放弃了正交性约束,能够凸显图像中有意义的局部特征,更好地抵御噪声干扰。
图像表示 篇4
共22分)1.(2分)“龟免赛跑”是我们非常熟悉的故事,兔子跑得快,但太骄傲,在途中睡了一觉;
乌龟跑得慢,但一直不停地跑,结果乌龟先抵达终点,赢得胜利。下面哪幅图基本反映了比赛的过程?()。
A.B.C.D.2.(2分)小明妈妈从家出发到超市,购物若干时间后再回到家。下面比较准确地描述了这件事的图是(),A.B.C.D.3.(2分)服装厂制作一批新款女式短裙,下图是制作短裙的数量和所用布料的变化情况。从图中可以看出,用660米布料可以制作()条这样的短裙。
A.500 B.400 C.550 D.600 4.(2分)小明骑自行车上学,开始以正常速度匀速行驶,但行至中途自行车出了故障,只好停下来修车,车修好后,因怕耽误上课,他比修车前加快了骑车速度继续匀速行驶,下面是行驶路程S(米)与时间t(分)的图像,那么符合这个同学行驶情况的图像大致是(). A.B.C.D.5.(2分)如图是小月放学后的活动情况。下面的描述中()与图意不相符。
A.学校到书店的距离是300m B.小月放学后在书店停留了12分钟 C.小月从书店离开返回家一共用了24分钟 D.小月放学后到家期间一共是42分钟 6.(2分)假定甲、乙两人在一次赛跑中,路程s与时间t的关系如图所示,则下列说法正确的是()A.甲比乙先出发 B.乙比甲跑的路程多 C.甲、乙两人速度相同 D.甲先到达终点 7.(2分)A、B代表家长和孩子,下图表示他们的关系,表示B是A的儿子,那么A是B的()。
A.姨妈 B.爷爷或奶奶 C.妈妈或爸爸 8.(2分)下图表示的是学校足球队乘车去体育馆训练,然后返回学校的过程,下面说法错误的是()。
A.体育馆距离学校5km B.去体育馆的车速是5千米/时 C.足球队在体育馆的时长是1.5时 D.返回学校用时0.5时 9.(2分)百合外国语学校生活区水池有2个进水口,1个出水口,每个进水口进水量与时间的关系如图甲所示.出水口出水量与时间的关系如图乙所示,某天0 点到6 点,该水池的蓄水量与时间的关系如图丙所示. 下列推论:①0点到1点,打开两个进水口,关闭出水口;
②1点到3点,同时关闭两个进水口和一个出水口;
③3点到4点,关闭两个进水口,打开出水口;
④5 点到6点,同时打开两个进水口和一个出水口. 其中,可能正确的推论是()A.①③ B.①④ C.②③ D.②④ 10.(2分)星期天,林林从家出发到书店看了一会儿书,然后回到家里,下面第()幅图描述的是林林的行为。
A.B.C.11.(2分)五年级一班同学星期一第一节课到二楼教室上数学课,第二节课到三楼语音室上英语课,第三节课到四楼美术室上美术课,第四节课到室外上体育课,下面第()幅图描述了这一过程。
A.B.C.二、填空题(共2题;
共4分)12.(2分)“龟兔赛跑”是同学们熟悉的寓言故事,如图表示路程(米)与时间(分钟)的关系,从中可以知道:
(1)赛跑中,兔子共睡了_______分钟.(2)乌龟在这次赛跑中的平均速度是_______米/分.13.(2分)如图是打国际长途电话所需付的电话费与通话时间之间的关系图.(1)打2分钟需要_______元电话费,3分钟以上每分钟_______元.(2)打6分钟需要_______元,10.4元打了_______分钟. 参考答案 一、选择题(共11题;
共22分)1-1、2-1、3-1、4-1、5-1、6-1、7-1、8-1、9-1、10-1、11-1、二、填空题(共2题;
图像过完备稀疏表示理论及应用综述 篇5
图像表示问题是图像处理任务中的重要组成部分。小波变换一直是图像处理领域里应用广泛的变换分析工具与表示方法。但是小波变换只能表达奇异点位置等一维奇异特性,不能有效表示图像的方向性、各向异性等特征。在处理高维信号的过程中,由一维小波基张成的高维小波基达不到最优稀疏逼近,不能很好地表达图像纹理和边缘信息。
为了检测、表示、处理高维奇异性,寻找图像等高维信号的稀疏表示,研究者提出了多尺度几何分析方法。它是基于脊波、曲波、轮廓波等完备基上的一种变换结果,能够很好地提取线奇异特征,也一直是图像处理领域的的研究热点。
过完备稀疏表示方法采用过完备基来代替传统的正交基函数,在过完备基里寻求少量元素来表示图像的特征,由于其采用的基函数的冗余性,因此其具有更好的稀疏表达能力。近年来,过完备稀疏表示作为一种有效表示模型广泛应用于图像去噪、图像恢复等图像处理领域以及图像识别等任务中。首先介绍过完备稀疏表示的理论框架以及主要研究方向,然后分别从重构性和区分性两个方面对其在图像处理及图像分析领域的应用进行综述。
1 过完备稀疏表示理论
1.1 过完备稀疏表示问题的提出
过完备稀疏表示是针对不确定方程组的求解问题提出的。对于一个不确定性方程组Ax=b,A∈IRn×m,且n<m。在A满秩的条件下,由于方程数目小于未知数的个数,方程有无数组解。给定不同的正则约束函数,不确定性方程组的解也会不同。过完备稀疏表示模型是从解的稀疏性来给不确定性方程组一种约束,使得方程组有唯一解。将其引入到信号表示理论中,信号的过完备稀疏表示即是从过完备字典里寻求最少原子的线性组合来表示信号[1,2,3,4]。
1.2 图像稀疏表示模型
一般情况下自然图像的数据信息也具有冗余性,因此可以在冗余字典上进行稀疏表示。如果将图像信号看作一维向量b,其稀疏表示是指信号b在冗余字典A下的低维投影,投影系数即为稀疏表示系数x。图像稀疏表示问题可描述为式(1),由于式(1)是NP问题,所以往往通过式(2)来近似求解
式中:‖x‖0为x的l0范数,即向量x中非零元素的个数,
1.2.1 字典构建方法
构造合适的过完备字典有助于得到最优稀疏表示。过完备字典的构建方法可以划分为两类。一方面,可以通过数学模型来构建字典。由于其模型较简单,正交和双正交变换的字典构建方法一度占据主导地位。然而研究表明这种构建方法得到的字典不能保证信号表示的稀疏性,进而影响信号的重构准确度。文献[5]提出利用适合刻画图像几何边缘的Bandlet基、适合刻画纹理的Gabor基、适合刻画轮廓的Curvelet基等不同形状的基函数组合构建字典。另一方面,可以通过训练图像样本来学习一组适合某一类信号特征的字典。字典学习的算法有MOD算法、组合正交基学习算法、广义PCA算法、K-SVD算法等[6]。最常用的方法是ELAD于2006年提出的K-SVD学习算法[7]。该方法交替执行信号在当前字典的稀疏表示与原子的更新过程,来达到学习字典的目的。
1.2.2 稀疏分解算法
除字典构建步骤外,设计快速有效的稀疏分解算法同样是关系到信号表示是否最优的关键步骤。文献[8]将现有的稀疏分解算法归纳为贪婪追踪算法、基于lp范数正则的算法、迭代收敛算法。贪婪追踪算法包括有匹配追踪算法(MP)以及在其基础上改进的正交匹配追踪算法(OMP)。此类算法是以贪婪思想为核心,在每一步迭代过程中,从字典里选择与残差最匹配的原子来参与稀疏逼近。基于lp范数正则算法采用lp(0≤p<1)范数来代替非凸性的l0范数来对问题的解进行稀疏约束,其中具有代表性的方法是基追踪算法(BP)。该算法中,l1范数取代了l0范数,利用l1范数能促使小系数收缩为零的特点,将基函数选择问题转化成线性规划问题。迭代收敛算法顾名思义是对稀疏系数初始化后,按照类似式(3)的迭代公式不断进行迭代直至收敛的过程,公式为
cn+1=Tθ(cn+R+(x-Rcn) (3)
式中:Tθ()为收敛函数。
2 过完备稀疏表示在图像处理与分析中的应用现状
2.1 基于重构性的图像处理领域的应用
图像处理是通过各种技术将源图像处理成为视觉更能接受的图像。图像统计表明图像碎片在过完备字典上能稀疏表示。稀疏表示理论表明信号稀疏表示能对信号进行准确的重构。基于过完备稀疏表示的图像重构是将源图像进行过完备稀疏表示后,再进行图像重构的处理技术。下面就该技术在图像去噪、图像恢复、图像融合、图像超分辨力等图像重构应用领域进行综述。
2.1.1 图像去噪方面的应用
图像在传输过程中常受到成像设备和外部环境噪声干扰等影响,成为含噪图像。去噪处理是从被噪声污染的图像中去除噪声恢复干净图像的处理过程。去噪过程要尽可能地保持原有信息的完整性,而去除信号中的无用信息。目前图像去噪算法有空间域滤波、变换域滤波、基于偏微分方程、变分法、形态学噪声滤除方法等。基于过完备稀疏表示模型,研究者们提出不同的图像去噪算法[9,10,11,12,13,14]。
文献[9]提出一种全局过完备稀疏表示模型的去噪方法。该方法借助K-SVD字典学习算法的思想,给定过完备字典和所求的无噪图像以及稀疏表示系数中的两项,求解第三项,直至收敛得到所求的无噪图像。通过对含零均值的均匀高斯白噪声的灰度图像进行试验,结果显示在噪声等级σ<50的情况下去噪效果良好且优于当前提出的其他算法。
另外,文献[11,12,13,14]也均在文献[9]的基础上利用稀疏域模型提出新的图像去噪算法。文献[11]提出适用于彩色图像的字典学习方法,并将文献[9]中去噪算法应用于彩色图像去噪技术中。文献[12]将文献[9]中的模型在时间域扩展应用到图像序列或者视频去噪处理中,对football,tennis,garden,mobile等图像序列进行实验,结果表示与VBM3D(28.9 dB)、NL(27.92 dB)、文献[9]的去噪方法(27.08 dB)相比,本方法获得更高的信噪比(29.23 dB)。文献[13]中将过完备稀疏表示模型应用到心电图去噪算法中,去噪结果信噪比相比软阈值法去噪后的图像提高4 dB,相比平滑滤波方法处理后的图像提高2 dB。文献[14]将结构相似度作为图像最优稀疏逼近的评价指标,提出了一种新的去噪方法。与文献[9]中结果相比,其去噪处理后的图像与源图像的结构相似度更高。
2.1.2 图像修补方面的应用
利用损坏图像的已知信息,按照一定的规则对损坏区域进行修补,使修复后的图像达到或接近源图像的视觉效果。对破损区域进行修补,即是对破损区域的像素值进行估计的过程。基于稀疏表示的图像修补方法是通过对图像破损边缘碎片进行稀疏表示,然后对破损部分像素进行估计的一种方法[9,15,16,17,18,19,20]。
文献[9]将过完备稀疏表示模型去噪算法应用到彩色图像修补技术中,但是该方法只能修补含较小损坏区域的图像。文献[15]提出一种适用于大区域修补的方法,该方法中,假定相似图像区域的像素值形成子空间,使用稀疏表示寻找与破损区域相似的子空间,通过对相似子空间的像素信息进行参数估计,得到需要修补区域的像素值。修复后的图像没有模糊区域和块特征,且被修复的区域在纹理与结构上都符合视觉的需要。
文献[16]也采用过完备稀疏表示模型研究出一种图像修补算法。首先对破损边缘区域的图像块进行稀疏表示,由图像中完整区域的像素值对应的表示系数来计算被损坏的像素值,直到图像完全修复。为了得到更优稀疏表示,文献[17]提出一种多尺度字典学习模型。将该模型应用到彩色图像和视频修复处理中,取得较好的修复效果。
2.1.3 图像超分辨力方面的应用
由于图像传感器产生的图像分辨力的限制,超分辨力问题已成为需解决的热点问题。以前的超分辨力技术是通过多个图像进行融合得到高分辨力图像,现在只通过处理一幅单图像就可以获取高分辨力图像。已有的基于重构的超分辨力方法很多,但是随着放大系数的提高,这些方法得到的图像已不能满足实际需求。
基于稀疏表示的图像超分辨力方法在文献[21,22,23,24]中被提出。文献[21,22]首先在稀疏表示系数相同的条件下,学习高分辨力和低分辨力两组字典。将低分辨力图像用低分辨力字典里的原子稀疏表示得到系数,与高分辨力字典进行重构得到高分辨力图像。文献[23]提出不同的字典学习方法,在采用稀疏表示模型之前,对低分辨力图像进行预处理,这种改进使整个计算框架得到简化。
2.1.4 图像压缩方面的应用
随着数字化信息技术的发展,人们对数据信息的需求量日益增大。为了降低信号存储以及传输成本,通常在采集信号的同时对其采取压缩处理。
文献[25]从自然信号的冗余性出发,采用稀疏表示模型对数字全息图像数据进行压缩,获得压缩系数为300的图像数据,节省了图像存储空间和数据采集时间。结果显示重构图像与源图像的相关度高达95%。
2.1.5 图像融合方面的应用
图像融合是将多源信道所采集到的关于同一目标的图像经过某种规则处理得到一幅高质量的新图像。大量有效的图像融合算法都是在采用小波及多尺度分析的基础上提出的。
文献[26]提出基于稀疏表示的多聚焦图像融合方法。该方法将待融合的源图像块在过完备字典上进行稀疏表示,采用比较其模值绝对值大小的规则融合出一组新系数,由新系数与冗余字典重构融合图像。实验表明,融合图像很好地保留了源图像的边缘信息,且具有较高的清晰度。
2.2 基于区分性的目标识别领域的应用
图像分类为目标的识别提供了重要判断依据。目前已经有很多方法被提出来,例如PCA,ICA,LDA,Bayesian分类方法。对于缺损图像的识别,部分已提出的方法却显得无能为力。过完备稀疏表示理论的发展,为图像分类与识别,尤其是对缺损图像的识别,引导了一种新的途径。该模型不仅可以通过重构得到更能被视觉所接受的图像,而且从表示系数中可以获得一些与被表示信号相关的语义信息,这种语义信息则可以为图像提供分类的依据。
2.2.1 人脸识别方面的应用
基于过完备稀疏表示的人脸识别是采用该模型进行图像分类的最典型应用[28,29,30,31,32]。文献[28]以该模型为基础提出一种人脸识别算法。以人脸图像库中人脸图像作为原子构建过完备字典,计算被识别图像在此字典上的稀疏表示系数,根据系数中的非零项来判断被识别图像的身份。通过对人脸图像库的多项试验,表明该方法是一种有效的识别方法,且对含有噪声和闭塞的人脸图像具有较强稳健性。
文献[30]提出了基于区域稀疏表示的人脸识别算法。将各个区域的表示结果进行加权,通过加权后的结果对人脸表情进行识别。该算法正确识别率达到95.3%,并且能识别缺损范围为25%的图像。相比基于整体脸部识别的算法,对于同一缺损图像,该算法识别率更高。
文献[31]将稀疏表示分类算法推广到时域人脸图像识别中,通过试验得出,与SIFT算法的识别率93.83%相比,该算法识别率成功的提高到了94.45%。
2.2.2 其他识别领域的应用
过完备稀疏表示在文字检测、图像分类等其他识别领域也得到了广泛的应用[33,34,35,36,37,38]。文献[33]利用稀疏表示的稀疏度来衡量待认证的艺术作品与真品的相似度,由相似度来区分珍品与模仿品,由试验结果得出该方法优于基于小波分解的方法。
文献[34,35]提出采用稀疏表示模型进行文字检测的方法。文字检测是从带有文字的图片中将文字检测出来。文献[34]中首先对文字边缘进行采样学习得到过完备字典,使用Canny算子检测出图片里的边缘,将这些边缘在学习到的字典上稀疏表示,根据稀疏表示模型得到的系数进行判断是否为文字边缘,从而达到文字检测的目的。文献[35]的方法不同之处是该方法学习了两类不同的字典——关于文字内容的字典和关于背景内容的字典,然后根据在两组字典上进行稀疏表示的重构误差大小来判断待检测图像块是文字还是为背景。采用该方法对不同类别的图像试验,结果表明可以从图像中检测出不同尺寸、颜色、字体的文字。
3 总结
本文介绍了过完备稀疏表示模型理论框架,重点对其在图像处理与分析领域的应用进行综述。过完备稀疏表示模型进一步丰富了图像稀疏表示领域,它作为一种自适应表示方法,在图像去噪、图像修复、图像超分辨力、图像融合、图像压缩、图像分类与识别等领域都得到了有效的运用。但是过完备稀疏表示问题属于一种优化问题,涉及到字典学习和稀疏求解的计算过程比较复杂,设计出更为简单的稀疏求解算法和更适合特定类别信号的字典构建方法在未来的研究中显得尤其重要。
图像表示 篇6
关键词:显著区域检测,稀疏表示,视觉显著性,显著图
0 引言
随着信息技术的发展,图像已经成为人们获取信息的主要来源。如何高效准确地进行图像分析和处理成为人们研究的焦点。通过视觉注意机制,人类可以快速准确地检测出图像中的显著区域,优先注意到图像的重要部分,从而迅速地获取有用的信息。通过检测图像中的显著区域并优先分配计算资源,可以有效地提高图像处理的效率和准确度。因此,显著区域检测技术被广泛应用于目标检测[1]、目标识别[2]、图像分割[3]、图像压缩[4]以及图像检索[5]等应用领域。
检测图像中的显著区域,首先需要计算图像中各部分内容的视觉显著性。到目前为止,已经有很多学者提出了视觉显著性计算模型。生物视觉研究成果表明,显著性源于视觉信息的独特性、稀缺性以及奇异性,并由亮度、颜色、方向、边缘等图像特征所致[6]。因此,一些研究者通过计算图像区域相对于其周围邻域的特征对比度来得到视觉显著性。其中以Itti等提出的模型最具代表性[7],得到各国研究者的广泛关注。Itti等通过计算多个特征图像的多尺度下的中央-四周特征差异来生成视觉显著性。Ma等提出一种计算局部对比度并采用模糊增长的方法生成显著图[8]。基于局部对比度计算的方法容易在边缘部分产生较高的显著性值,而物体内部的显著性值反而较低,出现“显著性反转”的现象。一些研究者通过计算全局对比度来解决这个问题[6]。还有一些研究者基于信息论的观点,通过计算图像特征的稀少性来生成显著图[9,10]。为了提高计算效率,一些学者提出基于频域分析的视觉显著性计算方法,例如Hou等提出的基于谱残差的方法[11],Guo等提出的基于相位谱的方法[12],以及Hou等最近提出的利用DCT的“图像签名”算子的方法[13]等。这些方法计算速度快,适合实时监测。但是,通过实验我们发现这些方法虽然运算速度较快,检测的准确度却不是很高。因此,如何在保持计算速度的情况下,提高检测的准确度是需要解决的问题。
因此,基于以上的分析,本文提出一种利用稀疏表示的视觉显著性计算方法。首先,计算图像的稀疏编码表示。然后,利用图像的稀疏编码计算视觉显著性,提高计算效率。根据视觉显著性计算结果,提取显著区域。
1 显著区域检测算法
本文提出的利用稀疏编码的图像显著区域检测算法如图1所示,主要包括视觉显著性计算和显著区域检测两部分。
2 视觉显著性计算
2.1 稀疏表示
生物视觉系统的研究发现,当视觉神经系统接收到某幅自然图像时,大部分神经元对该图像的响应很弱甚至为0,只有很少的神经元有较强的响应。当接收的自然图像发生变化时,产生较强响应的神经元可能会改变,但这些神经元的个数仍然只占整体的少部分,这种特性叫作稀疏性[14]。为了模拟神经元响应的稀疏特性,人们提出了针对自然图像的有效编码方法,即稀疏编码。
在稀疏编码模型中,利用基函数的线性叠加表示输入图像,在最小均方差意义下使得线性叠加的结果尽可能地与原图像相似。同时表示的特征尽可能地稀疏化,即基函数的权值尽可能多地为0或接近0。图像的线性叠加可以表示为[15]:
式中,X表示输入图像,表示为多个基函数的线性组合,A为基函数组成的矩阵,S为线性组合时基函数的权值向量。从神经生物学的角度,式(1)表示的稀疏编码模型可以解释为,人的视觉感知系统将输入图像刺激X通过感受野A的特征提取,将其表示为视觉细胞的活动状态S。S即为输入图像的稀疏编码。
对于式(1)表示的稀疏编码模型,Olshausen提出的优化准则为:
式中,I(x,y)表示输入图像X中的像素值,Φi(x,y)为基函数矩阵A中的第i个列向量,ai为向量S的第i个响应值。式(2)中的第1项用原始图像与重构图像之间的误差平方和表示重构图像的信息保持度,第2项反映了编码的稀疏程度[15]。
根据式(1)表示的稀疏编码模型及式(2)的优化准则,本文从自然图像库中选取10 000个8×8的图像块进行训练得到字典A。则图像的稀疏编码可以通过式(3)求得:
式中,D=A-1。
2.2 生成显著图
通过上面的方法,我们得到了输入图像的图像块级别的稀疏编码。为了计算视觉显著性,我们需要像素级别的稀疏编码。为此,本文通过计算包含某像素的所有图像块的稀疏编码的均值来得到该像素的稀疏编码。
位于(x,y)的像素的稀疏编码记为PS(x,y)=[ps1(x,y),ps2(x,y),…],psk(x,y)表示该像素在第k个子码中的编码值。图像中所有像素在第k个子码中的编码值组成的矩阵Fk可以看作是对输入图像提取的第k个稀疏特征图。
研究表明,视觉显著性源于视觉信息的独特性和稀缺性。本文通过计算图像中各部分内容与其周围环境所包含的视觉信息的差异来计算视觉显著性。根据目前有效编码理论中广泛采用的贝叶斯决策理论,P(X)表示某数据集X的初始概率,即先验概率,反映了根据已有知识断定X是正确的可能程度;P(D|X)为似然函数,表示X为正确假设时,观察到D的概率;P(D)表示D的先验概率;P(X|D)是给定样本D时,X的后验概率。贝叶斯定理可以表示为:
由式(4)可以看出,如果新的样本数据D产生了信息差异,则先验概率和后验概率是不同的。为了衡量D引起的差异的程度,可以通过计算先验概率分布与后验概率分布之间的Kullback-Liebler(K-L)距离得到:
由此可知,将图像中某位置的周边环境划分为两个区域,即中央区域和周边区域,周边区域远大于中央区域。周边区域的信息分布看作是先验概率,中央区域的信息分布为后验概率。如果某位置引起了观察者的注意,则其中央区域和周边区域的信息分布是不同的,其差异程度即为其显著程度[16],可以通过式(6)得到:
式中,SMi(x,y)表示第i个稀疏特征图中像素(x,y)的视觉显著性,Pcx,y表示(x,y)的中央区域的信息分布,Psx,y表示(x,y)的周边区域的信息分布。综合显著图可以由式(7)计算得到:
3 显著区域检测
得到综合显著图之后,选择合适的阈值对显著图进行阈值分割,获得二值图像,其中白色区域对应位置即为图像中的显著区域。将二值图像和原始图像进行叠加,即可提取出显著区域。阈值可以通过式(8)计算得到:
式中,L为显著图中像素最大的灰度值,pi为灰度值i出现的概率。
4 实验设计及结果分析
为了客观地评估本文算法的正确性和有效性,我们在两个公开的测试图像库上进行了实验,并和目前比较流行的7种算法进行了实验对比。本文算法的运行环境为Matlab 7.0,硬件平台为个人计算机(Intel Core i3/双核2.53 GHz CPU,内存为2 GB)。
4.1 测试图像集
本文选取的第一个测试图像集为Bruce等人提供的人眼跟踪图像库。库中包含120幅测试图像以及通过人眼跟踪设备记录的20个测试者在测试图像上的人眼跟踪数据(Ground Truth)。该数据集可以从http://www-sop.inria.fr/members/Neil.Bruce获得。
第二个测试图像集为Achanta等人提供的公开图像测试集,该测试集包含有1000幅测试图像,以及由人工精确标注的显著性区域结果(Ground Truth)。该数据集可以从http://ivrgwww.epfl.ch/supplementary_material/RK_CVPR09/index.html获得。
4.2 实验结果及对比分析
限于篇幅,本文从测试图像集中选择4幅图像比较典型的图片,在图2中给出利用本文算法和目前大家关注度比较高的其他8种算法计算得到的显著图直观的实验对比结果。这8种算法分别为ITTI(Itti的引用最多的经典算法)、GBVS[17](Kouch等人的基于图论的视觉显著性计算方法,检测准确度较高)、AIM[18](第一个测试图像集的作者Bruce等人的基于信息最大化的算法)、FTSRD[19](第二个测试图像集的作者Achanta等人的算法)、SUN[20](利用图像统计信息的算法)以及SR(基于谱残差的方法)、IS(基于DCT的图像签名的方法)、ICL[21](基于增量编码长度的算法)这三种影响力比较大的基于频域分析的算法。这几种算法的作者都提供了源代码,方便我们进行实验比较。
图2中的前两幅图片来自Bruce提供的测试集,其Ground Truth是对人眼跟踪数据经过高斯模糊处理后的人眼关注图。后两幅图片来自Achanta提供的测试集,其Ground Truth是以二值图像表示的由人工精确标注的显著区域结果。从图2中可以看出,一些算法如FRSRD、SUN出现了显著性反转的情况,一些算法如ITTI、SR、ICL、IS计算出的显著性结果更强调边缘部分,而本文算法的结果与Ground Truth最接近。
为了客观地评价本文算法的效果,本文采用目前本领域常用的ROC曲线、AUROC值对本文算法以及其他算法进行定量比较分析。
为了分割显著区域并计算ROC曲线,本文参考文献[19],将各种方法得到的显著图中各像素的显著值调整到[0,1]。然后从0到1每隔0.05取一个阈值,分别将各算法的显著图进行二值化,进行显著区域和非显著区域的分类,并与Ground Truth进行比较,计算相应的TPR(True Positive Rate)和FPR(False Positive Rate),分别得到21组TPR和FPR的对应值,画出ROC曲线。图3是各种算法的ROC曲线图。表1为各种算法的AUROC值对比结果。从图3和表1可以看出,本文算法的ROC曲线是最高的,AUROC值是最大的。
4.3 时间复杂度评估
我们对本文算法和其他8种算法在两个测试图像集上单幅图像的平均运行时间进行了测试,对比结果如表2所示。
从表2中可以看出,ITTI、FTSRD、SR、IS等几种算法的平均运行时间比本文算法的运行时间要短,其余几种算法的平均运行时间高于本文算法。但是,本文算法的检测准确度要高于ITTI、FTSRD、SR、IS等几种算法。因此综合考虑,本文算法相对于其他算法仍然具有一定优势。
5 结语
本文针对图像中的显著区域检测问题进行了研究,提出一种利用稀疏编码的显著区域检测算法。该算法首先对原始图像提取稀疏特征,采用稀疏编码对图像进行表示,在此基础上通过计算图像中各部分内容之间的信息差异来得到视觉显著性结果。结合视觉显著性计算结果,提取显著区域。本文在两个国际上公开的测试图像集上进行了实验,并和8种目前大家关注度比较高的算法进行了对比,结果证明了本文算法的正确性和有效性。
图像表示及在检索系统中的应用 篇7
关键词:图像表示,颜色特征,边缘特征,文本分析
0 引言
互联网上的图像数据信息日渐庞大,用户对网上图像搜索的要求也在不断增长,使各种基于Web的图像搜索引擎应运而生。图像搜索引擎的出现,使我们对网上图像信息的搜索变得非常简单,尽管还不很完美,却已经可以满足我们的大多数需求。图像搜索,是通过搜索图像文本或者视觉特征,为用户提供互联网上相关图形图像资料检索服务的专业搜索引擎系统,是搜索引擎的一种细分。通过输入与图片名称或内容相似的关键字来进行检索,另一种通过上传与搜索结果相似的图片或图片URL进行搜索。基于内容的图像检索CBIR(Content Based Im2age Retrieval,下简称CBIR)是一种基于图像的视觉特征(颜色、纹理、形状等)进行图像检索的技术。由于计算机科学和数据库技术的发展,CBIR已成为国内外的一个研究热点。基于内容的图像检索系统具有一个固定的体系结构,如图1,表示了基于内容的图像检索系统的体系结构。系统的核心是图像特征数据库,因此如何构建图像特征数据库就成为系统构建的关键,进而判断哪些特征能够最好的表征图像特点就是构建该数据库的核心问题。目前,主要的图像表示方法是通过颜色特征匹配以及文本展示,而本文在现有基础上提出一种以图像标题,图像颜色,图像形状等3个要素来表示一副图像的新方法。
1 图像的三要素
图像专家研究认为,每一幅图像都是由若干信号组成,其中的部分信号是故意的行为,目的是要传达一个消息[1]。例如图2中的图形,这是某公司连续4年内销售业绩的增减趋势图。
当人们看到这幅图像时可以提取的信息包括图像的目的和图像本身的数学含义,首先人们可以看出这是趋势图,这是由左侧的数字以及条形图的长度不同得出,其次,人们得知此图是某公司的销售业绩趋势图,这是由图像的标题得出,最后,人们还可以得出此图反映了3种不同商品的销售业绩。是由条形图中不同颜色所表示的。由以上分析,我们可以推知一副图像的信息是由3个要素组成:标题,颜色,形状大小。
2 标题
《现代汉语辞典》解释标题的意思为“标明文章、作品等内容的简短语句”。图像标题的功能亦不例外,而且由于标题多由文本组成,我们就可以使用通常文本分析的方法来分析图像标题。文本分析是指对文本的表示及其特征项的选取,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前中文文本分析的过程可以分为三个阶段:中文分词、文本表示和文本理解三个步骤。
2.1 中文分词
与英文不同.中文的词与词之问没有明显的切分标志。因而若想对中文文本进行分析研究,就先要对中文文本进行分词处理。现有的分词方法主要有:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[2]。基于字符串的中文分词算法是目前普遍使用的方法,它又叫做机械分词方法,是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。本文使用了在中文分词领域较为流行的工具je分词器,它采用正向最大匹配的中文分词算法,基本算法如下:1.读取一个字,然后联想,直到联想到不能为止。如果当前可以构成词,便返回一个Token;2.如果当前不能构成词语,便回溯到最近的可以构成词语的节点,返回;3.最差的情况就是返回第一个单字;4.然后从返回结果的下一个字重新开始联想。其主要特点如下:1.支持英文、数字、中文(简体)混合分词;2.常用的数量和人名的匹配;3.超过22万词的词库整理,并可以按需自行添加词库;4.实现正向最大匹配算法[3]。
2.2 文本表示
由于计算机无法理解自然语言的描述,所以必须要把文本数据转换为结构化数据。文本表示就是这样一个过程。目前文本表示通常采用的向量空间模型(VSM),是20世纪60年代末期由G.Salton等人提出的。在VSM模型中,一个文本D的内容被看成是它含有的特征项t组成的集合:D=D(t1,t2,t3……tn),所谓“特征项”在中文文本中主要指分词处理后得到的词汇,而特征项的维数则对应不同词汇的个数。另外一种表示方法是每一个特征项t依据一定的原则被赋予一个权重W,表示它在文本中的重要程度。这样一个文本D可用它含有的特征项及特征项所对应的权重来表示:D=D(t1,w1;t2,w2;……tn,wn),权重用来表征某一特征项对该类文章的标志作用,不同的权重计算公式考虑了不同的分类情况,因此使用适合的权重计算公式即可降低复杂度,又可增加文本表示的准确度[4]。
2.3 文本理解
目前文本理解没有统一的方法,本文的目的是将图像标题文本进行分类,得出通常情况下图像的标题的用途。通过前两步,标题文本已经可以由计算机识别,我们采用先计算机分类再手工调整的方法,将大量实验数据也就是图像标题分为了一下几类,并由此看出图像标题的确是具有信息传递的功能:1.通用标题,用以表达图像的基本信息;2.评论有关图形,对图像所表达的信息加以评述;3.相关信息,介绍图像之外的内容;5.图像结论,对图像的信息总结概况。
3 颜色特征
颜色特征是在图像检索中应用最为广泛的视觉特征,因为颜色往往和图像中所包含的物体或场景十分相关。此外,与其他的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,因此具有较高的可靠性。
颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是不同色彩在整幅图像中所占的比例,而并不关心每种色彩所处的空间位置,即无法描述图像中的对象或物体。颜色直方图特别适于描述那些难以进行自动分割的图像。直方图中的数值都是统计而来,描述了该图像中关于颜色的数量特征,可以反映图像颜色的统计分布和基本色调;直方图只包含了该图像中某一颜色值出现的频数,而丢失了某象素所在的空间位置信息;任一幅图像都能唯一的给出一幅与它对应的直方图,但不同的图像可能有相同的颜色分布,从而就具有相同的直方图,因此直方图与图像是一对多的关系;如将图像划分为若干个子区域,所有子区域的直方图之和等于全图直方图;一般情况下,由于图像上的背景和前景物体颜色分布明显不同,从而在直方图上会出现双峰特性,但背景和前景颜色较为接近的图像不具有这个特性。
面向图像检索的颜色特征的表达涉及到若干问题。首先,需要选择合适的颜色空间来描述颜色特征;其次,要采用一定的量化方法将颜色特征表达为向量的形式;最后,还要定义一种相似度(距离)标准用来衡量图像之间在颜色上的相似性。在本节中,实验主要是基于HSV空间上的颜色直方图算法来进行的,之后再利用欧几里得距离测算两幅图片之间的相似度。一种常见算法是采用把RGB空间向HSV空间转化后,并进行非均匀量化为32色,在此基础上提取图像的色彩直方图的方法。用空间的颜色直方图来描述图像的整体颜色特征。具体的HSV32色量化方法如下[5]:
1)对于亮度V≤0.2的颜色认为是黑色,Code32=0
2)对于饱和度S≤0.1和V≥0.2的3种灰度。分别为:深灰(0.2,0.5)、浅灰[0.5,0.8]、白色[0.8,1],Code32=1,2,3
3)其它颜色认为是彩色,将其划分为28种彩色,Code32=4+4 3 H+2 3 S+V
此算法虽然对于人眼的辨认范围有充分地考虑,但是需要的存储空间过于庞大,一张图片需要32色的颜色特征向量。通常对于此算法都要进行改进,通过选取排名前10位的颜色特征向量进行比较,而不是整个32色的颜色特征向量。这样,虽然颜色的信息会有所损失,但是这些损失是可接受的,能够满足人眼大致认知图片的需求,而忽略部分细节,所以此改进后的算法总体来说对于图片的检索效率以及存储空间有了显著提高,而在检测精度方面也能满足需求。
4 图像大小及边缘特征
研究图像的大小就是研究图像边缘检测,就要先研究图像去噪和图像锐化。前者是为了得到更真实的图像,排除外界的干扰,后者则是为我们的边缘检测提供图像特征更加明显的图片,即加大图像特征。两者虽然在图像处理中都有重要的地位,但在本文中主要为图像边缘检测服务,这里可以称其为图像预处理。无论是对图像的预处理的研究,还是对边缘检测算法的研究,我们最终所要达到的目的都是为了处理速度更快,图像特征识别的更准确。早期的经典算法有边缘算子法、曲面拟合法、模板匹配法、门限化法等,经典的边缘检测方法是对原始图像中像素的某小邻域来构造边缘检测算子,常用的边缘检测算子有Roberts算子、Sobel算子、Prewitt算子、Kirsch算子、Laplacian算子、LOG算子、Canny算子。这些算子主要应用于计算几何各个现实领域当中,如遥感技术、生物医学工程、机器人与生产自动化中的视觉检验、零部件选取及过程控制等流程、军事及通信等等。在图像处理的过程中老算法也出现了诸多问题。经过多年以来的发展,现在已经出现了一批新的图像处理算法如小波变换和小波包的边缘检测法、基于数学形态学、模糊理论和神经网络的边缘检测法等,这些算法扩展了图像边缘检测技术在原有领域的应用空间,同时也使它能够适应更多应用需要。
图像边缘是图像的基本特征之一,它是图像局部特征不连续(或突变))的结果,例如灰度的突变或者纹理的突变等等。图像边缘蕴含了丰富的图像内在信息(如方向和形状),它一般位于目标与背景之间,目标与目标之间和区域与区域之间。边缘的检测是利用在图像特性上的差异来实现的[6]。
5 图像检索系统的探索及初步实现
本文根据以上理论设计了一种简单的Web图像检索系统,该系统由四个模块组成:登录模块、输人模块、检索模块、输出模块。
5.1 登陆模块
在登录模块,用户需要选择需要检索的图像特征如标题,用途等以进人特定的图像索引数据库进行检索。
5.2 输入模块
图像检索系统的输人界面包括两部分:基本检索和高级检索。在基本输人模块里系统共设置了五个搜索条件图像格式、图像大小、图像类别采用下拉列表供用户选择,图像内容描述或图像标题和图像主色调采用文本框供用户填写。系统的高级输入模块最多允许用户对一幅图像的设置三个搜索条件,每个条件之间可使用与、或、非等进行连接查询。
5.3 检索模块
该模块是整个检索系统的核心模块,其主要工作是:接收用户对目标图像的条件限制和特征描述,表示成与索引数据库字段对应的形式计算目标图像与库中记录的相似度。与输人模块的基本检索和高级检索对应,系统的检索模块分基本检索和高级检索两种。
对于图像类别、大小、文件格式三种检索条件,系统采用布尔检索,即在Img Type、Img Size和FileType三个字段上直接匹配检索,只有库中记录与目标图像严格匹配时相似度才为1,否则相似度为0。
对于图像内容描述,系统采用模糊检索。系统自动提取用户在图像内容描述文本框中输人的关键词,与库中记录的ImgContent字段进行比较,本文采用简单的同义词比率作为两者的相似度。
对于图像颜色,系统读取用户在文本框中输人的颜色词,系统将它转换成HSW颜色值,然后采用模糊检索求其与库中图像的Img Color字段的相似度。一幅图像的主色调可能有多个,分别计算目标图像每个主色调与资源图像每个主色调的颜色距离,根据公式将这些颜色距离转换成目标图像与库中图像的相似度。将图像的总相似度定义为图像各相似度之积。有了上述相似度之后就可以得出图像总相似度。
5.4 输出模块
在输出模块,系统筛选出图像总相似度大于一定阈值的数据库记录,并按相似度由大到小对记录进行排序,将排序后的记录作为检索结果反馈给用户。输出界面每屏显示8个图像资源。输出界面在显示图像缩微图的同时显示图像相似度、图像格式、图像大小、图像类别和图像来源等相关信息。
6 结论
本文通过对于CBIR相关技术的研究,特别是对于现有的图像特征进行了重新定义,着重探讨了图像标题的分类及用途,颜色特征提取算法以及边缘检测算法的吸取、改进和完善,并融合文本搜索技术设计开发了一套图文检测系统。虽然,这套系统初步实现了预定功能,算法原理简单也易于实现,但是在精确度、效率、搜索速度、普适性方面还存在不足,比如在颜色方面,只能对单色或简单颜色搭配的情况进行处理,这就为今后的研究指明了方向。
参考文献
[1]Stephanie Elzer,Sandra Carberry,Daniel Chester et al.Exploring and Exploiting the Limited Utility of Captions in Recognizing Intention in Information Graphics[J].Proceedings of the43rd Annual Meeting of the Association for Computational Linguistics(ACL-05),2005:223-230.
[2]李晓明,闫宏飞,王继民搜索引擎—原理、技术与系统[M].北京:科学出版社,2008
[3]袁津生,赵传刚.搜索引擎与信息检索系统[M].北京:中国水利水电出版社2008
[4]董超.基于主题信息服务的垂直搜索引擎的设计与实现[D].北京:北京邮电大学,2010.
[5]吴险峰.基于内容的图像检索技术的研究和实现[D].成都:四川大学,2005.
图像表示 篇8
本文算法是在文献[6]算法上的改进,改进过程分为以下两个部分:1)二维特征提取的改进;2)用边缘方向插值代替双三次插值作为高分辨率图像的初始估计。
1 图像降质的稀疏表示
设X为高分辨率图像,Y为低分辨率图像,x为X的图像块,y为Y的图像块,则x与y之间有如下关系
式中:L为投影矩阵,D为过完备字典,α为稀疏表示。
构造两个字典:高分辨率字典Dh和低分辨率字典Dl,对于每一个高分辨率图像块和低分辨率图像块有相同的稀疏表示。
高分辨率图像块x可以通过高分辨率字典Dh和稀疏表示α得到
稀疏表示α是通过低分辨率图像块y和低分辨率字典Dl得到的,所以组合所有的图像块x即得到复原的高分辨率图像块。
主要的问题就是稀疏表示α的确定,用式(3)来计算
式中:F为特征提取,后面章节将介绍F的获得过程。
为了使得到的稀疏表示α更加稀疏,用l1范数代替0范数,如
求解式(5)即可得
以上算法是经典图像稀疏表示模型,但是算法存在一个主要的问题:没有考虑图像块之间的关系,所以考虑到邻近图像块的相关性,设置了图像块之间的重叠区域,式(4)可写成
式中:P为复原区域与复原区域的重叠部分,ω为重叠部分中之前复原部分。进一步得到
解此式即得到稀疏表示а,进一步可得到高分辨率图像X。
2 稀疏表示的图像复原
低分辨率图像Y可以由高分辨率图像X通过模糊和下采样得到,即
式中:H为模糊滤波器。
稀疏表示的图像复原过程就是求式(9)的过程
式中:X0为通过稀疏表示得到的高分辨率图像;X*为最终的高分辨率图像。
完整的算法流程图如图1所示。
3 过完备字典学习算法
影响稀疏表示复原效果好坏的一个主要因素是字典的选择,字典通常可以通过两种方法得到:1)由已知的信号变换构造出字典,如小波变换、Contourlet变换等;2)由给定的训练数据进行学习构造出字典,如K-SVD树字典学习算法、在线字典学习算法等[7]。
过完备字典学习算法被广泛用于信号的稀疏表示中,字典学习算法首先从训练数据开始,设M为一组训练数据,把M放入一个N×L的矩阵中,即M∈RN×L,通过字典训练求的字典D∈RN×L和对应的稀疏表示α∈RN×L,这时要满足约束条件即保证信号残差ε=M-Dα和稀疏表示α均最小,即
高分辨率字典Dh计算公式如
低分辨率字典Dl计算公式如
字典训练过程流程图如图2所示。
4 改进的稀疏表示复原算法
对原始稀疏表示超分辨率复原算法的改进主要集中在两个方面:特征提取的改进、初始估计的改进。
4.1 特征提取方法的改进
图像边缘是图像的重要特征,边缘特征提取是图像复原关键的一部分。前面提到特征提取F就是本文算法提取的图像边缘特征,是为了使训练出来的字典适用于大多数和训练数据相关的低分辨率复原图像,这样可以使得到的复原高分辨率图像分辨率更高。
算法中利用MATLAB函数库中conv2(二维卷积运算函数)进行图像的粗边缘提取,利用的是一阶、二阶梯度滤波算法。一阶梯度滤波算子如图3a、3b所示,二阶梯度滤波算子如图3c、3d所示。
改进算法中对二阶梯度滤波算法的算子进行改进,如图4a、4b所示。
以图5为例,分别进行原始二阶梯度滤波的图像特征提取和改进后二阶梯度滤波的图像特征提取处理,结果如图6所示,改进后的特征提取算法提取的特征更细腻,保留了更多的高频细节。后文将讲述这样改进将使图像的复原效果进一步提高。
4.2 复原算法初始估计的改进
原始算法对于输入低分辨率图像先进行双三次插值放大,得到高分辨率的初始估计,双三次插值虽然效率很高,但是插值效果却有待提高,为了提高复原效果,将用边缘方向插值代替双三次插值,改进算法的处理效果较之前明显改善。
边缘方向插值的基本思想为:利用高分辨率图像和低分辨率图像协方差的几何对偶性质,用可以计算的低分辨率图像的局部协方差系数对高分辨率图像进行自适应插值。
算法原理如下:
输入低分辨率图像Xi,j(尺寸是H×W),用式(13)进行图像插值
Y2i+1,2j+1是插值得到的高分辨率图像,α是线性插值系数,它的计算公式如
式中:R=[Rkl],(0≤k,l≤3)r=[rk],(0≤k≤3)是高分辨率图像的局部协方差系数,利用高分辨率图像和低分辨率图像协方差的几何对偶性可以由低分辨率图像的协方差计算出高分辨率图像的协方差,几何对偶性是指高分辨率图像和低分辨率图像沿相同方向的协方差是一致的,如图7所示。
图7中可以看到,当从Y2i,2j插值到Y2i+1,2j+1时的高分辨率协方差Rkl,rk和低分辨率协方差Rkl,rk是几何对偶的,几何对偶能促使不用明确估计边缘方向的情况下就能够计算二维信号的局部协方差。
用经典计算协方差的方法很容易计算出低分辨率图像的协方差如下
y=[y1,…,yk,…,yM2]T是低分辨率图像中M×M像素大小的一个数据变量,C是yk的沿对角线方向的4个相邻像素点,所以根据上面两个公式再根据高低分辨率协方差的一致性可以得到系数α为
所以可以利用公式(14)进行边缘方向插值,改进复原效果。
5 仿真结果
对于输入的彩色图像,根据人眼的视觉特性对亮度信息比较敏感,将彩色图像进行颜色空间的分离,分解成y、cb和cr三个分量,对y分量进行改进的稀疏表示的图像复原处理,对cb和cr分量只进行双三次插值处理。图像的评价是通过计算y分量的峰值信噪比(Peak Signal to Noise Ratio,PSNR)来完成,PSNR值越高,重建的效果越好。
5.1 图像复原
对于如图8a所示的大小为256×256的高分辨率图像,对其进行下采样2倍得到128×128的低分辨率图像作为输入低分辨率图像,如图8b所示,算法处理过程中的图像块尺寸是5×5大小的像素,块与块之间的重叠像素是4,字典大小为512,稀疏正则化参数λ是0.15,稀疏正则化参数的取值依赖于输入图像的噪声水平,本次仿真输入的图像是低噪声图像,所以取λ=0.15,采样的图像块的个数取值为110 000。如图8所示为文献[6]稀疏表示原始算法和改进稀疏表示复原算法的复原效果比较图。
从图8可以看出,改进算法重建效果明显优于插值算法的结果,双三次插值结果过于模糊且缺乏高频信息。通过对重建图像的PSNR值比较可以知道改进算法得到的图像的PSNR值较高,说明改进算法有效。
对于Lena输入图像,分别采用双三次插值、稀疏表示算法和改进的稀疏表示复原算法进行处理,目标放大倍数设置为2倍,如图9所示,可见改进算法在视觉效果上较双三次插值有明显提高,不仅保留大部分图像细节,而且复原出的图像更接近于原始图像,比较PSNR值后发现也较稀疏表示原始算法有所提高。
5.2 图像特征提取对复原效果的影响
图像复原中的字典学习不是对训练图像直接训练,而是针对图像的特征向量,因为直接对训练样本的特征进行学习,能够更好地抓住图像的高频分量之间的联系,进而准确地预测出高分辨率图像的高频信息,所以图像特征提取算法的选取直接影响重建的效果。
图像特征提取比较典型的方法包括:一阶、二阶梯度滤波算法、拉普拉斯滤波算法、索贝尔算法、普利维特算法和罗伯茨算法等,原始图像稀疏复原算法中的特征提取采用一阶、二阶梯度滤波算法,以低分辨率Lena图像作为输入图像,目标放大倍数为2倍,将以上特征提取算法分别用于稀疏表示的改进算法中,可以得到表1所示的PSNR值。
从表1的PSNR值可以看到,改进一阶、二阶梯度滤波算法作为低分辨率图像的图像特征提取算法得到更高的PSNR值,说明改进的特征提取方法的有效性。
5.3 目标放大倍数对复原效果的影响
对于图像超分辨率复原,还比较关心不同目标的放大倍数进行复原的问题,如图10所示为改进稀疏表示算法对于Lena低分辨率图像分别在放大倍数为2和4时的复原结果。
从图10可以看出,随着放大倍数的增加,复原效果却在减弱。通过比较表2的不同算法在不同放大倍数下的PSNR值可以看到随着放大倍数的增加,复原效果明显变差。
6 结论
虽然稀疏表示的图像超分辨率复原算法较传统的基于重建的超分辨率复原算法取得更好的效果,但由于其复杂度较高,学习过程效率明显偏低,所以在工程上的应用并不多,如何提高学习过程的效率是接下来要注重研究的问题。
本文改进算法首先对图像特征提取过程进行改进,通过不断探索,找到了一条改进策略,提高了图像复原的效果,同时,算法在初始估计上也进行了改进,对于输入的低分辨率图像,通过边缘方向插值代替原始的双三次插值,实现图像的初始放大。
算法中同时用到了迭代反投影算法对重建的图像进行全局约束,而这种算法有一个很大的缺点:对高分辨率图像的错误校正具有局限性,接下来的工作也将继续寻找最优的全局约束算法,改善复原效果。
参考文献
[1]肖杰雄.基于POCS算法的超分辨率图像重建[D].上海:上海交通大学,2009.
[2]赵环旭,滕青芳.小波融合技术在运动模糊图像复原中的应用[J].电视技术,2014,38(5):9-11.
[3]FREEMAN W T,LIU C.Advances in markov random fields for vision and image processing[M].Boston,USA:MIT Press,2011.
[4]MALLAT S,YU G.Super-resolution with sparse mixing estimators[J].IEEE transactions on image processing,2010,19(11):2889-2900.
[5]DONG W S,ZHANG L,RASTISLAV L,et al.Sparse representation based image interpolation with nonlocal autoregressive modeling[J].IEEE transactions on image processing,2013,22(4):1382-1394.
[6]YANG J C,WRIGHT J,THOMAS S,et al.Image superresolution via sparse representation[J].IEEE transactions on image processing,2010,19(11):2861-2873.
图像表示 篇9
新课程提倡在教师指导下的以学习者为中心的学习, 教师是学生学习过程的帮助者、促进者, 而不是知识的简单提供者与灌输者。学生是信息加工的主体, 而不是知识的被动接受者和灌输的对象。本节课采用任务驱动法和教学辅助网站进行教学, 强调教学过程中学生的主体作用及教师的主导作用, 突出以“学”为中心的教学设计。
教学目标
1. 知识与技能:
(1) 了解位图与矢量图的构成; (2) 掌握像素、分辨率和量化位数等相关概念; (3) 学会计算位图文件大小的方法; (4) 掌握位图与矢量图的区别, 理解计算机中位图与矢量图的表示。
2. 过程与方法:
(1) 通过任务的设置, 强调学生去发现问题、解决问题, 在解决问题的同时, 掌握本课的知识, 培养学生自主学习信息技术的能力, 提高学生自主解决问题的能力; (2) 通过学生实践, 使学生获得位图和矢量图的感性知识, 并且培养学生积极主动的学习和使用信息技术、探索知识的能力; (3) 课前分小组, 营造小组竞争的氛围, 培养学生的团队精神及协作学习的能力。
3.情感态度和价值观:
(1) 用生活经验感悟所学知识, 用知识解释生活, 引导学生理论联系实际; (2) 通过小组合作讨论, 体现同学之间的合作精神, 培养学生与他人合作与交流的人际关系; (3) 培养学生在小组竞争中的团队精神, 倡导友谊第一, 比赛第二。
教学重点、难点
重点: (1) 位图图像和矢量图形的构成及特点; (2) 位图图像和矢量图形的区别。
难点: (1) 图像的压缩技术; (2) 图像量化位数的理解 (拓展) 。
教材分析
本章是粤教版信息技术选修教材《多媒体技术应用》的第三章, 主要讲述了各个媒体信息的格式及存储、呈现和传递的特征和方法, 以及它们在计算机中是如何表示的, 让学生了解各种信息的数字化表示方法和简单原理。本节课是第三章学习的第二课时, 本课主要讲解位图图像和矢量图形的相关概念, 通过本课的学习, 让学生掌握数字图像信息在计算机中是如何表示的。但由于本章的内容主要以理论原理为主, 在追求实际操作技术掌握想法的主导下, 学生的学习热情可能会受影响, 故对教学设计中情境创设和激趣提出了更高的要求。本课旨在通过理论与实践的学习, 感受多媒体的特殊魅力所在, 从而增强学生的学习兴趣, 同时为进一步深入地学习动画、音频和视频等媒体信息做铺垫, 保持学生学习的积极性。
学生分析及教学策略
教学对象是高中二年级的学生, 已经具备一定的计算机操作能力。通过本单元第一课时的学习, 学生基本掌握了多媒体的概念、类型、内涵和特征, 认识到图形图像属于感觉媒体, 这就为数字图像的学习打下了良好的基础。
本课主要介绍的是理论知识, 在课前进行的调查表明, 学生都接触和使用过数字图像, 但“位图和矢量图”这两个名词, 整个班只有部分学生听说过, 并且对其不甚了解。为了提高学生自主学习的积极性, 本课中创设了一定情境, 利用教学辅助网站, 设置“任务”驱动教学, 让学生利用各种学习资源, 去主动建构知识, 让自己成为知识的探索者和学习过程中真正的认知主体。为了使学生能充分了解理论知识, 设置“在线测试”, 掌握学生学习效果。
以学生的亲手操作、亲身体验为基础, 立足于“做中学”, 强调学生的全员参与和全程参与。通过学生实践, 让其发现位图图像和矢量图形的区别, 然后学生通过教学辅助网站的自主学习与共同讨论等方法, 归纳总结位图图像和矢量图形的特征和区别, 然后再运用所学知识解决实际问题。
教学手段
在计算机网络教室中, 教师利用多媒体网络教学系统进行基本提示和演示, 给学生布置以本课知识为中心的基本任务, 让学生观察与思考相结合, 使学生通过对问题的探究来掌握本课的知识。通过学生探索、讨论和实践进行自主性学习, 并进行互动式的辅导和交流, 控制整个教学过程, 学生通过上机实践, 进行自主学习和探究性学习。
教学过程
教学评价
本节课教学过程中的评价主要有三个方面:
1.通过教学辅助网站“在线测试”, 学生在自主探究的过程中, 得到自我学习情况的有效评价 (自评) 。
2. 小组讨论, 充分调动组内成员的积极性, 主动与同学交流, 以小组互评的方式展开, 鼓励大家表达自己观点 (互评) 。
3. 学生在完成“任务”的过程中, 教师及时地点评表现优秀的学生和小组 (师评) 。
点评
本课是以学生通过操作实践渗透理论知识的学习为主线, 重点了解位图图像和矢量图形的相关知识。本课的目标明确, 思路清晰, 力求突破教学的重点与难点, 突出体现了“以学论教”教学理念的特点, 至少有三个亮点: (1) “学习”源于问题的发现与解决, 让“学而有用”。例如, 通过“图片对比”环节引发学生认知上的冲突, 激发学生对问题的思考, 引导学生懂得辨别位图和矢量图, 从而渗透相关概念性知识的了解和学习。 (2) “学习”贴近学生的具体生活实际, 让“学而有趣”。特别是让学生用数码相机拍照的课堂活动, 不仅仅提高了课堂上学生的参与度, 更重要的是激发学生对有效像素数问题的求知欲, 针对性强。 (3) 反映了技术学习不只是操作技能熟练程度的训练, 本质上是要提高学生认知思维活动的程度与质量。例如, 把bmp“保存”为jpg的操作中, 通过对图片文件大小变化的观察、讨论和思考, 引导学生初步了解图像压缩技术。该课强调了在实践操作过程中学生的观察与思考, 关注学生对问题的发现与解决, 重视学习方法指导的有效渗透, 强化对学生学习的即时反馈 (如“在线测试”) 。