远距离聚类

关键词: 函数 距离

远距离聚类(精选五篇)

远距离聚类 篇1

样本距离函数主要有以下几方面的应用, 拟合优度检验, 多样本相等分布检验, 多元总体随机向量独立性检验。本文对推广的Ward最小方差法作进一步的讨论。

很多的聚类方法仅仅满足组内距离的最小化或组间距离的最大化, 比如最短距离法两组间的距离等于分别来自两组观测量间的最小值, 没有考虑组内观测量的距离。类平均法也是, 等于组间每两个观测量距离的平均值。聚类本质上既包括组间的分离性又包括组内的统一性性[5]。Murtagh谈到聚类函数标准时也提及, 类间的分离性和组内的统一性应被包含在同一个目标函数里[6]。

聚类算法的过程几乎相同, 基本原理都是通过计算类与类之间的距离, 将距离中最小的两类合并成一个新类, 只是距离的迭代公式不同。兰斯斯 ( ( ( (LLaa55nncc) ) ee) 和威廉姆 (Williams) 于1967年给出了一个统一的表示形式:

四、实验

4.2评价指标。对两测定结果一致部分进行检验, 称Kappa检验。具体公式如下:

在试验中, Kappa指标值可能显示分类的一致性是由偶然因素造成的, 为增强结论的说服力, 还采用了一致性检验Adjusted Rand指标。

AR值介于-1和1之间, 值越大表示一致程度越好。在不同的问题中一致程度与指标值关系可能会有所不同, 但在同一个分类问题中, AR值越大表示分类越好[10]。

4.4结果分析。将-距离, Ward法, 最长距离法, 类平均法, 中间值法, 最短距离法, 重心法7个系统聚类算法进行比较。聚类结果分别采用Kappa和Adjusted Rand两个指标评价。

比对表2和表3结果:在实验1中, -距离法, Ward方法, 最长距离法在低一些维度上都取得相似的分类效果, 明显优于其它算法;当维度20, -距离法明显表现得好, 取得满意的分类效果。对于试验2, 在低维数据分类上, -距离法, Ward法, 最长距离法, 类平均法都表现的比较好。但随着维度的增加, -距离、 Ward算法会好一些, 且前者优于后者。为了更直观地说明实验结论, 参见图1图2。

五、总结

摘要:本文基于统计观测样本距离函数研究聚类算法。通过定义观测样本距离为组间组内对象的任意指数形式距离之差, 引入ε1-距离算法 (指数为1) , 由此传统的Ward最小方差法 (指数为2) 进行了推广。该算法具有超度量性和空间扩张性。在分类问题应用中, 相比传统聚类算法, 该算法能够把具有几乎相同重心的高维样本数据给区分开来。

关键词:距离函数,推广,组间组内距离,聚类算法

参考文献

[1]Cramér H.On the composition of elementary errors[J].Scandinavian Actuarial Journal, 1928, 1928 (1) :13-74.

[2]Szekely G J.E-statistics:Energy of Statistical Samples[R].Department of Mathematics and Statistics Technical Report in Bowling Green State University, 2003.

[3]Székely G J, Rizzo M L.Energy statistics:a class of statistics based on distances[J].Journal of Statistical Planning&Inference, 2013, 8 (8) :1249–1272.

[4]Székely G J, Rizzo M L.A new test for multivariate normality[J].Journal of Multivariate Analysis, 2005, 93 (1) :58-80.

[5]Dubien J L, Warde W D.A mathematical comparison of the members of an infinite family of agglomerative clustering algorithms[J].Canadian Journal of Statistics, 1979, 7 (1) :29-38.

[6]Murtagh F.Multidimensional clustering algorithms[J].Compstat Lectures Vienna Physika Verlag, 1985.

[7]Hartigan J A.Representation of Similarity Matrices by Trees[J].Journal of the American Statistical Association, 1967, 62 (320) :1140-1158.

[8]Milligan G W.Ultrametric hierarchical clustering algorithms[J].Psychometrika, 1979, 44 (3) :343-346.

[9]Anderberg M R.Cluster Analysis for Applications[M].New York:Academic Press, 1973:132-136.

远距离聚类 篇2

关键词:专家赋权;模糊C均值聚类;类间距离权重;群决策

一、引言

随着社会的发展,决策问题变得越来越复杂,仅仅依靠单个决策者做出有效的决策越来越困难。为了提高决策的有效性、准确性和客观性,人们通常采用群决策的方法。多属性群决策是群决策中具有代表性的一类群决策,其中属性权重的确定是多属性群决策研究中的一个重要内容。

目前,在群决策研究中基于判断矩阵的专家赋权方法大致可以分为两类:第一类是根据专家所给的判断矩阵的一致性程度来赋权[1-5],判断矩阵的一致性越好,专家的权重就越大;第二类是利用系统聚类的思想对专家先分类、再赋权[6-13],同一类中专家越多,此类专家的权重就越大。总的来说,上述方法在专家赋权上取得了较好的效果,但是仍存在以下问题:(1)以往研究中的聚类分析都是关于硬性聚类,极少考虑模糊聚类的情况;(2)在类间权重确定时,专家数目相同的类别往往被赋予相同的类间权重,无法区分类间信息的差异。

针对上述问题,提出了基于模糊C均值聚类和距离的专家赋权方法,采用模糊C均值聚类进行聚类分析,并在计算过程中,对类间权重确定方法进行改进,最后通过算例说明了该方法的有效性。

五、结语

根据对现有的专家赋权的分析,提出了一种基于模糊聚类和距离的专家聚类赋权方法,对专家聚类赋权进行了改进,提高了多属性群决策时专家聚类赋权的合理性。

参考文献:

[1]王应明,徐南荣.群体判断矩阵及权向量的最优传递矩阵求法[J].系统工程理论与实践,1991,11(4):70-74

[2]王应明.群组判断矩阵排序中的广义最小偏差方法[J].系统工程理论与实践,1994,14(9):63-68

[3]徐泽水.群组决策中专家赋权方法研究[J].应用数学与计算数学学报,2001,15(1):19-22

[4]梁樑,熊立,王国华.一种群决策中确定专家判断可信度的改进方法[J].系统工程,2004,22(6):91-94

[5]梁樑,熊立,王国华.一种群决策中专家客观权重的确定方法[J].系统工程与电子技术,2005,27(4):652-655

[6]郭文明,相景丽,肖凯生.群组AHP权重系数的确定[J].华北工学院学报,2000,21(2):110-113

[7]刘万里.关于AHP中群体决策逆判问题的研究[J].模糊系统与数学,2000,14(3):106-110

[8]吴云燕,华中生,查勇.AHP群决策权重的确定与判断矩阵的合并[J].运筹与管理,2003,12(4):16-21

[9]曾雪兰,吉建华,吴小欢.基于相容性指标的聚类分析专家赋权法[J].广西大学学报,2005,30(4):337-340

[10]高阳,罗贤新,胡颖.基于判别矩阵的专家聚类赋权研究[J].系统工程与电子技术,2009,31(3):593-596

[11]李琳,刘雅奇,李双刚.一种群决策专家客观权重确定的改进方法[J].运筹与管理,2011,20(4):77-99

[12]周漩,张凤鸣,惠晓滨等.基于信息熵的专家聚类赋权方法[J].控制与决策,2011,26(1):153-156

远距离聚类 篇3

聚类是指将物理或抽象对象的集合按有关特征的相似程度进行分簇的过程,同一簇中的对象尽可能相似,不同簇中的对象尽可能相异,它是一种无监督的分类方法。聚类在数据挖掘、图像分割、模式识别、空间遥感技术、特征提取和信号压缩等诸多领域中有着广泛的应用。模糊c均值聚类算法(FCM)是由Bezdek[1]于1981年提出的基于模糊集合理论的聚类算法,该算法是目前应用最为广泛的聚类算法之一[2]。传统的模糊聚类方法一般是用来解决静态数据聚类的。但现实生活中,数据通常是不断变化的,使得新的数据与原聚类分析得到的聚类结果不一致。因此,对于新增加的数据,要想获得新的聚类结果,要么重新聚类,要么增量聚类[3]。重新聚类代价太大,而且浪费了以前获取的有用信息。增量式聚类可以利用前期的聚类结果对新增数据进行聚类,这样不仅本身就大大节约了前期聚类的计算资源,提高了聚类效率;而且增量式聚类算法既能够适用于动态数据集,又对于静态数据集的聚类问题效率也有很大提高。

经典的模糊c均值聚类算法只适用于球型结构聚类,这一特点影响了模糊c均值聚类的聚类性能[4]。文献[5]提出了基于FCM的增量式聚类学习算法,但该算法在处理非球形聚类的数据集时,效果不佳。文献[3]中利用Mahalanobis距离(马氏距离)可以自适应地调整数据的几何分布,从而使相似数据点的距离较小的优点用于模糊聚类,取得了较好效果。

早期的增量式聚类方法比较典型的是增量式DBSCAN算法,该算法基于DBSCAN算法,未考虑更新对象之间的关系,效率较低[6]。文献[7]中提出了一种基于密度的高性能聚类算法,算法使用分区和抽样等技术处理海量数据,该算法能较好地处理高维数据,但由于使用了抽样技术,不可避免地引入了抽样误差。文献[8]中提出的算法可以在已取得的聚类结果的基础上,通过计算和比较相似度直接得到全部数据的聚类,该方法优点是可以发现任意形状的聚类,但不足之处是容易将多个聚类合并成一个聚类。文献[9]中在基于密度和自适应密度可达聚类的基础上,提出了一种新的增量聚类算法,该算法能够有效地处理动态数据机,提高聚类效率和资源的利用率。文献[10]中提出了基于相对密度的增量式聚类算法,该算法抗噪声能力较强,能发现任意形状的聚类,并有效解决了聚类结果对参数设置过于敏感、参数值难以确定以及高密度簇完全被相连的低密度簇所包含等问题;但不足之处是必须用簇中的所有点来表示聚类形成的任意形状,这在内存有限情况下对动态数据集进行增量式聚类有难度。文献[11]中提出了一种基于层次距离的增量式聚类算法,该算法可直接处理混合型数据集,并利用概念层次树来解决数据间的相似度问题。尽管这些聚类算法在解决增量式学习时有一些优点,但也存在一些局限性。总的来看,增量聚类继承了已有聚类的执行结果,通过对新增数据的逐个或批量处理,在很大程度上避免了大量的重复计算,减少了计算量,提高了聚类效率。

本文提出了一种改进的增量式聚类方法。本文用马氏距离替代经典的模糊c均值算法中的欧氏距离,相对于传统的基于欧氏距离的增量聚类而言,提出的算法能更适合于非球型结构的聚类。并将其用于增量学习中,给出了一种无需再次聚类的增量学习算法,实验表明该算法能较好地将增量样本正确聚类。

1模糊c均值聚类

Χ={x1,x2,...,xn}为n元数据集合,xjRp,即数据集合X中的第j个元素xj是一个p维向量,xj={xj1,xj2,...,xjp},j=1,2,...,n。模糊c均值聚类方法就是把X划分为c个子集或c个类别,其中第i个类别的聚类中心为vi={vi1,vi2,...,vip},i=1,2,...,c。用uij表示数据集合X中的第j个元素xj对第i个类中心vi的隶属度。为了表达的方便,分别将隶属度矩阵和聚类中心标记为U={uij}和V={vi}。则模糊c均值聚类算法的优化目标函数为:

JFCΜm(U,V,X)=i=1cj=1nuijmdij2=i=1cj=1nuijmxj-vi (1)

约束条件:

i=1cuij=1,0uij1,1ic,1jn (2)

其中,m为大于1的模糊指数,控制分类矩阵U的模糊程度,m越大,分类的模糊程度越高,在实际应用中m一般取为2。模糊c均值聚类算法就是使目标函数最小化的迭代收敛过程。在迭代求解JFCΜm的条件极值时,由Lagrange乘数法求得的隶属度和聚类中心分别为:

uij=1k=1c(dijdkj)2m-1 (3)

vi=j=1n(uij)mxjj=1n(uij)m (4)

可以看出,模糊c均值聚类算法就是一个反复修改聚类中心矩阵和隶属度矩阵的分类过程。模糊c均值聚类算法可描述如下。

初始化:给定聚类类别数c,2≤cn,n是数据个数,设定迭代停止阈值ε,初始化聚类中心矩阵V(0),设置迭代计数器t=0,最大迭代次数为T;

步骤一 用式(3)计算或更新隶属度矩阵U;

步骤二 用式(4)更新聚类中心矩阵V;

步骤三 如果‖v(t+1)-v(t)‖<εt>T,则算法停止并输出隶属度矩阵U和聚类中心V;否则,令迭代计数器t=t+1,转向步骤一。

2基于马氏距离的模糊聚类增量学习算法

模式识别中常利用样本间的距离表示其间的差异,根据样本到各类距离的远近来判断样本所属的类别,马氏距离就是其中最常用的一种。该距离计算仅涉及协方差矩阵的求逆,不再和特征矢量的维数有关,而是和样本数目有关,因此在高维特征空间中带来计算上的优势,在无穷维特征空间中解决了计算上存在的问题[12]。利用马氏距离的这些优点,在经典模糊c均值聚类中替代欧氏距离,并用矩阵理论解决协方差矩阵的奇异问题。

2.1基于马氏距离的模糊聚类

X为一个l×p输入矩阵,其中包含l个样本xiRp,i=1,...,l。样本xi到总体X的马氏距离可定义为:

dM(xi,X)=(xi-v)T∑-1(xi-v) (5)

其中v为所有样本的均值向量,∑为协方差矩阵,表示为:

=1lj=1l(xj-v)(xj-v)Τ (6)

i=1cuij=1,0uij1约束下,基于马氏距离的模糊c均值聚类的目标函数可表示为:

min{J(U,V,)=i=1cj=1luijm(xj-vi)Τ-1(xj-vi)} (7)

运用Lagrange乘数法,依据文献[13]提出的GK算法,需按照式(8)~式(11)不断更新聚类中心、协方差矩阵和隶属度值,直到满足迭代终止条件。

vi=j=1l(uij)mxjj=1l(uij)m1ic (8)

Fi=j=1l(uij)m(xj-vi)(xj-vi)Τj=1l(uij)m1ic (9)

Dij2=(xj-vi)T[ρidet(Fi)1/nFi-1](xj-vi)

1≤ic,1≤jl (10)

uij=1k=1c(Dij/Dkj)2/m-11ic,1jl (11)

基于马氏距离的模糊聚类算法描述如下:

Step 1:确定聚类数目c,设定迭代停止阈值ε=0.001,模糊指数m=2;

Step 2:用值在[0,1]间的随机数初始化隶属度矩阵U(0)={ uij(0)},使其满足式(7)的约束条件;

Step 3:用式(8)更新c个聚类中心vi;

Step 4:利用式(9)计算协方差矩阵Fi;

Step 5:利用式(10)计算距离;

Step 6:利用式(11)更新隶属度uij;

Step 7:如果两次迭代之间的聚类中心距离小于设定阈值ε,则算法停止,否则转Step 3。

2.2基于马氏距离的模糊聚类增量学习算法

传统的聚类增量算法是计算新增样本与聚类中心的距离,因为涉及质心漂移问题,需要每新增一个样本点就重新聚类一次,算法耗时且精度过低。本文利用马氏距离可以自适应地调整数据的几何分布,从而使相似数据点的距离较小的优点,提出了一种新的模糊聚类增量学习算法。算法描述如下。

(1) 将样本集随机分成N+1个互不相交的子集,分别记为Sub0,Sub1,…,SubN。为了实验方便,通常Sub0子集约占整个样本集的60%,其余可等分为N部分,作为增量样本来测试。

(2) 取子集Sub0,采用上述的基于马氏聚类的模糊聚类算法进行聚类,得到聚类模型A0。

(3) 对其余N个子集,作增量聚类处理。对每次增量学习:

(3.1) 计算模型A0中任意两个类间的马氏平均距离:

dM_AVG(ci,cj)=(vi-vj)T∑-1(vi-vj)

其中ci,cj是由第(2)步得到的聚类模型A0中的第i类和第j类,vivj分别为第i类和第j类的聚类中心。并设阈值r为最大的类间马氏平均距离,即有r=Μax1i,jc,ijdΜ_AVG(ci,cj)

(3.2) 计算子集中每一个样本xk到任意一个类ci的马氏距离:d(ci,xk)=(xk-vi)T∑-1(xk-vi),其中最小距离标记为dk_j_Μin=Μin1icd(ci,xk),并设此时对应的类为第j类,即样本xk到类cj的马氏距离最小。

(3.3) 如果dk_j_Min<r,把样本xk加入到第j类;重新计算第j类的聚类中心vj

否则,将样本xk单独作为一类,并初始化该类的聚类中心为样本xk本身。

重复前面的步骤,直到没有剩余的数据为止。

3实验分析

采用UCI[14]提供的4个数据集Iris、Balance-scale、Wine和Pima来对算法进行验证。表1给出了这4个数据集的特征。实验平台为Matlab 6.5,CPU为P4 2.66GHz,内存256MB。

为了验证提出算法的实用性,本文分别做了两次实验,实验结果如表2所示。首先,用本文描述的基于马氏距离的模糊聚类方法对数据集进行了聚类,结果如表2中的误分率。从表2中可以看出,相对于传统的模糊c均值聚类方法,基于马氏距离的模糊聚类方法能较有效地改善聚类效果,得到较高的聚类精度。然后,为验证增量学习,分别从各数据集中取出约60%的样本作为初始训练样本子集Sub0,用提出的基于马氏距离的模糊聚类增量学习算法进行了验证,结果如表2中的增量学习误分率。可以看出,增量学习方法在数据集Iris和Pima上保持了与传统的基于马氏距离的模糊聚类方法相一致的误分率,而在其余两个数据集上略有提高,但总体性能仍然优于模糊c均值聚类算法。

4结语

在海量数据库的知识发现中,特别是在数据不断增长的情况下,利用增量式聚类技术,不仅易于维护和扩充聚类的结果,而且能够提高聚类分析的效率,降低了知识库维护的开销。马氏距离可以自适应地调整数据的几何分布,在数据相关的数据集中可以提高聚类精度,减小聚类中心的误差,并能完成非球型或椭圆型分布的数据集的聚类。本文用马氏距离替代了模糊c均值聚类中的欧氏距离,提出了一种基于马氏距离的模糊聚类增量学习方法,实验结果表明了该方法的有效性。

远距离聚类 篇4

关键词:XML,编辑距离,结构聚类,改进算法

XML文档是半结构化数据其信息描述结果是树形结构[1],具有文档类型定义(Document Type Define, DTD)。目前对于XML文档树的相似性度量,大多源于编辑距离的思想,即把一个XML文档树转化为另一棵XML文档树所需的最小的编辑代价。虽然这种思想考虑了树节点的父子和兄弟关系,结构聚类精度较高,但由于树结构的复杂性,简单地通过遍历来计算编辑距离往往计算量很大,当聚类的文档比较多时,该方法无法满足实际应用。

本文提出一种基于编辑距离的XML文档结构聚类的改进算法,首先通过重复剪枝算法和嵌套剪枝算法简化XML文档树的结构,然后按照提出相似度计算方法度量文档之间的结构相似度,根据相似度的值进行文档聚类。实验表明通过算法改进降低了时间复杂度,其性能可以满足实际应用。

1 相关概念

1.1 编辑距离

通常在树的转换过程中涉及的编辑操作包括:插入节点、删除节点、替换节点、移动子树[2]。相关操作如图1所示,为计算编辑距离,应事先规定好每种操作的编辑代价。容易得知不同编辑操作顺序其总的编辑代价不同,定义在树转换过程中,如果某种编辑顺序所得的总编辑代价最小,此代价即为两树之间的编辑距离[3]。

1.2 节点重复与嵌套

实际上,XML文档中通常包含有冗余的标记,这种标记重复性使得XML文档树结构庞大并且深度嵌套。即使两XML文档是基于相同的DTD,由于标记的重复和嵌套也会得到较大的编辑距离,从而影响聚类的精度和效率。其中,嵌套节点指同父节点有相同标记的非叶子节点,重复节点是指按照先序遍历重复出现的节点。图2显示了节点重复和嵌套的例子。基于DTD-1的树A1与A2由于嵌套节点R而具有较大的结构差异;同样基于DTD-2的树B1与B2由于重复节点C而具有较大的结构差异。

2 算法描述

根据上述概念,首先构造嵌套剪枝和重复剪枝算法,其中嵌套剪枝的目的是消除初始树结构中的嵌套节点而重复剪枝是消除初始树结构中的重复节点。在按照先序遍历的嵌套剪枝中,对于当前遍历节点,检查其是否有同名父节点,如果没有就继续遍历;如果有,就移动当前节点的子树到其父节点的子节点列表的末尾以便遍历;如果节点为节点时就不移动。其算法描述如下:

在重复剪枝算法中,先序遍历每个节点,对于每个节点,检查从根节点到此节点的路径是否已存在或者是否可以在保存路径的哈希表中找到,如果不存在,就在哈希表中存储它的索引路径;如果节点已存在,则此节点是个重复节点;对于重复节点,使用路径索引在哈希表找到对应节点,将节点的所有子树移动到对应节点的子节点列表的末端,删除当前节点,遍历对应节点子树。当遍历了子树所有节点后,然后同样遍历被删除节点的右兄弟节点直到结束。算法描述如下:

通过嵌套剪枝和重复剪枝剪枝后,简化了XML文档树的结构,有助于编辑距离的计算。在编辑距离的计算之前,对编辑操作作如下约定:①对于插入节点,当新节点是叶节点时允许插入;②对于删除节点,当节点是叶节点时允许删除;③任何节点可以执行更新操作;④分别定义插入、删除、更新节点的代价为ci(x)=1、cd(y)=1、cr(x,y)=1(如果更新前后节点相同时,cr(x,y)=0);⑤定义在节点x插入子树的代价wi(x)为分别插入子树所有节点的代价之和,即undefined其中x1…xk是子树节点;⑥同样,删除节点y子树的代价wd(y)为分别删除子树所有节点的代价之和,即undefined其中y1…yk是子树节点。

编辑距离计算算法:

其中,si是节点s的第i个子节点,tj是节点t第j个子节点;函数numofChildren(s)返回节点s的子节点数目;函数numofNodes(s)返回以节点s为根的子树的节点数目;函数Labelof(s)返回节点s的标记;函数Updatecost(Labelof(s),Labelof(t))返回将节点s的标记更新为节点t的标记的更新代价。

对于简化后的两棵树,分别对不同树的相同深度两节点的调用一次函数CalculateDistance计算两节点的编辑距离D[i][j],其中i,j分别代表树s和树t的相同深度两节点的前i棵和前j棵子树,D[0][0]表示两棵树根节点的编辑距离,其中,所有标号根据计算中根节点选择而定。算法中的第一层循环计算两棵树根节点第一棵子树之间的编辑距离,然后一直计算下去,最终返回两棵树的编辑距离。由于函数CalculateDistance对不同树相同深度的两节点分别调用一次,所以算法的时间复杂度为O(mn)。

由于编辑距离是两棵树之间变换的最小编辑代价,算法在计算D[i][j]时,直观上可以通过3种方法来实现树s前i棵子树转换为树t前j棵子树,一种是在树s前i棵子树转换为树t前j-1棵子树后直接插入树t第j棵子树,其编辑代价d1=D[i][j-1]+numofNodes(tj),由于插入节点的代价为1所以numofNodes(tj)代表插入树t 第j棵子树的总代价;二是在树t前j棵子树转换为树s前i-1棵子树后直接插入树s第i棵子树,其转换代价d2=D[i-1][j]+numofNodes(si),由于插入节点的代价为1所以numofNodes(si)代表插入树s 第i棵子树的总代价;三是在树s前i-1棵子树转换为树t前j-1棵子树后直接将树s的第i棵子树转换为树t第j棵子树,其编辑代价d3=D[i-1][j-1]+calculatedistance(si, tj)。通过取d1,d2,d3的最小值,即D[i][j]=min(d1,d2,d3)可以得到最小的编辑代价即编辑距离。

在对两XML文档结构相似性的比较中,如果单纯地以简化结构后的编辑距离为依据可能并不充分,还应考虑树s到树t的生成距离,即删除树s后重新完全生成t的编辑代价。以编辑距离与生成距离的比值代表XML文档的结构相似度。在聚类算法的选择中,本文以层次聚类算法进行验证。

3 实验评价

为了验证改进的效果,本文利用了真实的XML文档集和合成的XML文档集,其中真实的XML文档集来自ACM SIGMOD Record,其是基于3个DTD文件;合成的XML文档集是由IBM AlphaWorks XML Ggenerator产生,其是基于4个DTD文件,实验程序结构如图3所示,实验环境为P4 1.2G,512M内存,开发工具VC++6.0。

基于7个给定的DTD文档集,分别利用本算法和XML文档结构聚类Selkow算法[4]进行对比结果如表1。

由对比结果可以看出,本算法在改进聚类的性能上有一定提高,在耗时上改进明显,特别对大文档尤其显著。

4 结束语

本文给出了基于编辑距离XML文档结构聚类的改进算法,在性能对比中表现出了良好的性能,可以快速有效进行XML文档结构聚类。考虑到本文仅从XML文档结构角度进行聚类,为了克服XML的语义局限,下一步研究中考虑结合文档的结构与语义特征来进行聚类,以便使聚类结果更准确。

参考文献

[1]M.Garofalakis,A.Gionis,R.Rastogi,S.Seshadri,K.Shim,XTRACT:a system for extracting document type descriptors from XML documents,in:Proceedings of the ACM SIGMOD Conference,Texas,USA,2000.

[2]T.Dalamagas,T.Cheng,K.J.Winkel,T.Sellis,Using a structural distance metric to cluster xml documents by structure,in:Proceedings of the EDBTWorkshop on Clustering Information over the Web(ClustWeb04),Heraklion,Greece,2004.

[3]K.Zhang,D.Shasha,Simple fast algorithms for the editing distance between trees and related problems,SIAM J.Comput.18(1989)1245~1262

远距离聚类 篇5

昆虫是地球上最繁盛的动物类群,其种类多数量大,在自然生态系统和人类社会生活中扮演着重要的角色。昆虫既可以作为有利资源供人们使用,同时也可以给经济带来重大的损失。因此研究昆虫生态学和昆虫形态学具有重大的意义[1]。研究昆虫生态学和昆虫形态学首先要研究昆虫的形态特征以及昆虫的结构特征,图像分割[2]技术将所要识别的图像与背景分割开来是昆虫图像识别的第一步,图像匹配将分割出来的昆虫图像作为模板,利用图像的特征信息对目标昆虫图像进行筛选得到所要的昆虫图像,是昆虫图像识别的又一重要环节。因此图像匹配在昆虫图像识别中有重要的作用。

测序技术[3]、多元线性回归[4]、机器视觉技术[5]、DNA条形码[6]、EM算法[7]等是常见的昆虫识别方法。目前,昆虫图像匹配的方法一般有两种,一种是以灰度为基础的匹配,另一种是以特征为基础的匹配。以灰度为基础的匹配主要利用昆虫图像的灰度信息,采用统计相关的方法得到昆虫图像的相关匹配,虽然匹配率较高但是以灰度为基础的匹配计算量大,速度慢,并且极易受噪声和光照变化的影响,因此在大部分场合不宜使用。以特征为基础的昆虫图像匹配通过提取昆虫图像的特征如颜色、纹理、形状、空间关系等,对提取到的特征参数进行描述,并运用所描述的参数来进行匹配的一种算法,是目前研究的热点。常见的特征提取方法有Harris特征[8]、SUSAN特征[9]、M估计法[10]、随机抽样最大似然估计MLESAC( Maximum likelihood estimation by sample and consensus)[11]。SURF算法[12]由于对光照、旋转、尺度变换有良好的鲁棒性,在图像匹配领域得到广泛应用。但将SURF算法应用于色彩度要求较高的昆虫图像识别时容易受噪声点干扰,匹配精度较低。本文针对SURF算法在昆虫图像识别中的不足结合K-means算法和马氏距离,提出了一种融合K-means均值聚类和马氏距离的改进SURF图像匹配算法。实验证明,本文所提出的算法比传统的SURF匹配算法效率高、匹配错误少、匹配效果好。

1 SURF算法及其在图像匹配中的不足

1. 1 SURF算法简介

SURF算法由Herbert Bay[12]等人提出,是一种具有快速鲁棒特征的匹配描述方法。SURF算法主要分为四个部分: 特征点检测、主方向选取、特征描述符生成、特征点匹配。

1. 1. 1 特征点检测

SURF算法要得到关键的特征点首先要计算积分图像,然后构建Hessian矩阵检测特征点,最后构建图像金子塔来表述尺度空间。SURF利用Hessian矩阵完成兴趣点检测和尺度变换的操作,并且采用盒子滤波模板[13]作为例子,其中盒子滤波器的估计值分别为Dxx、Dyy和Dxy,由此可得Hessian矩阵的近似行列式可表示为:

通过不断增加盒子滤波器的窗口尺寸来构建图像金字塔,其中图像金子塔分为若干层,每一层叫做一个octave。图像金字塔的构建如图1 所示。

1. 1. 2 主方向选取

为了使图像具有旋转不变性,需要定义主方向,首先以Hessian矩阵定位的特征点为中心,计算以6s为半径的圆邻域在x和y方向的Harr小波,其中s为特征点所在的尺度值,小波边长为4s。取高斯系数 δ = 2s为中心检测特征点,计算小波响应,统计60 度扇形内所有的点的水平和垂直Harr小波总和,旋转360 度,将得到的最大的矢量作为该特征点的主方向。

1. 1. 3 特征描述符生成

获得特征点主方向后,还要得到特征点的描述算子。选取边长为20s的正方形区域,以特征点的主方向作为该区域的方向,将此区域划分为16 个子区域,对每个子区域统计25 个像素的相对于主方向的水平垂直方向的Harr小波特性。记平行于主方向的Haar小波响应为dx,垂直于主方向的Haar小波响应为dy,统计每个子区域Haar小波响应的总和及绝对值之和。所以每个小区域就有4 个特征量,每个特征点就是16 × 4 = 64维的特征向量。

1. 1. 4 特征点匹配

Bies和Lowe提出的BBF[14]( Best-Bin-Fist) 的kd-trees近似算法是特征点匹配的常用方法。匹配算法如下: 设X和Y分别是图像A和B的SURF特征点集合,对于X中的任一特征点Xi,在图像B中与其欧式距离最小特征点Yi,次小的特征点Y'i对应的欧式距离为d1和d2。当d2≤ ρ ≤ d2时,说明Xi与Yi是一对匹配点 ρ 是一个预先设定的阈值。ρ 在不同应用下取值不同,一般取值小于1。

1. 2 SURF算法在图像匹配中的不足

SURF算法主要用于图像匹配中,但当图像含有较多噪声点时存在不足。

首先SURF算法得到特征点后没有检测噪声点而是直接进行匹配。由于外界噪声或其他因素的影响,有可能使检测到的特征点含有噪声点或其他一些不相关的点,SURF算法在得到含有噪声点的特征点后直接进行匹配,发生误匹配的概率较大。

其次,应用欧式距离进行特征点匹配时受阈值的影响较大,并且匹配效率有待提高。传统的SURF匹配过程采用kd-trees近似算法,计算两特征点的欧式距离,通过比较匹配阈值与门限值来确定是否匹配成功。由于图像所选的特征点通常受纹理、光照、旋转等多元因素影响,而欧式距离将不同属性之间的差异同等看待,且容易受变量之间相关性的干扰,从而使特征点的匹配效果变差。另外,应用欧氏距离进行匹配时,门限值的设定对实验效果有很大的影响。由大量实验表明,如果门限值选取得较大,虽然匹配点对较多,但是误匹配对也较多,致使匹配精度较低; 如果门限值选取得较小,虽然匹配精度有所提升,但是匹配对较少,不符合性能最优条件。图2 和图3 分别是采用不同匹配阈值得到的结果。

由图2 和图3 可以看出当 ρ 为0. 3 时图像匹配准确率较高但是匹配点对较少; 当 ρ 为0. 85 时虽然匹配点数较多但是误匹配现象比较突出,如图3 中斜线部分为误匹配对。针对以上两点问题本文采用K-means聚类算法和马氏距离对SURF算法进行改进。

2基于聚类和马氏距离的SURF昆虫图像匹配算法与实现

本文对SURF算法从两个方面进行改进。首先由SURF算法得到带有描述符的特征点,根据匹配图像的特征点在不同方向的像素特征,应用K-means算法对特征点进行聚类,去除噪声改变数据集; 然后,采用马氏距离代替欧式距离。虽然欧式距离对区域描述性好,但是没有考虑特征点的分布信息和几何信息从而导致匹配精度和效率不理想,马氏距离将总体的相关性考虑在内,考虑了特征点的分布信息和几何信息以及对于整幅图像的缩放与平移变换,具有重大的优越性。本文改进算法的总体流程如图4 所示。

改进算法包括三个主要功能模块,图4 中步骤2 - 8 主要利用SURF构建特征点数据集,步骤9 - 13 利用聚类算法对噪声点处理,步骤14 - 17 利用马氏距离优化特征点匹配。每一功能模块的具体算法描述如下。

2. 1 利用SURF构建特征数据点集

以图3( a) 和图3( b) 为例说明特征点选取过程。选取图上任意一点X = ( x,y) 计算矩形区域积分图像的像素和:

计算该点二阶偏导数卷积值:

其中 σ 表示尺度值,g( σ) 为高斯滤波函数公式如下:

同样方法计算Lxy( x,σ) 与Lyy( x,σ) ,然后代入Hessian矩阵公式:

得到该点的Hessian矩阵,应用式( 1) 得到该点的Hessian矩阵的判别式Det( Hqpprox) 值。

在每个尺度空间里取每个点的Hessian矩阵的近似行列式Det( Hqpprox) 值与相邻位置和相邻尺度周边的邻域进行比较得到候选的局部极大值点,然后得出特征点的主方向。接着对选取正方形区域划分子区域,统计每个子区域Haar小波响应的总和及Haar小波响应绝对值之和,得到每个子区域的特征向量。至此,含有特征点的特征点选取结束。特征点选取效果如图5( a) 所示,此时检测到的特征点点集个数为96,其中白色点为噪声点。

2. 2 利用聚类算法对噪声点处理

聚类算法对噪声点处理首先对特征点进行聚类,然后剔除噪声点。

2. 2. 1 特征点聚类

设由SURF算法得到的图3( a) 中特征点集为X = { ( x1,y1) ,( x2,y2) ,…,( xn,yn) } 。图( b) 中特征点集为Y = { ( x'1,y'1) ,( x'2,y'2) ,…,( x'n,y'n) } 。分别对集合X和Y选取K个特征点作为初始聚类中心记为Z = { ( x1,y1) ,( x2,y2) ,…,( xk,yk) } ,其相应的子集为S = { ( x1,y1) ,( x2,y2) ,…,( xk,yk) } ,利用式( 6) 和式( 7) 进行分类,定义dj表示与Zj( n) 之间的距离:

分类公式如下:

根据公式( 8) 计算各子集Sl( x,y) ( l  { 1,2,3,…,K} ) 的新簇中心Zl( n + 1) :

其中Nl是集合Sl( n) 中的元素个数,Zl( n + 1) 是属于Sl的X的平均值,当所有的簇满足式( 9) 时聚类结束。

2.2.2噪声点剔除

定义公式

其中,A表示P × P的正定矩阵,E表示数据集中所有误差的平方和,将图3( a) 和图3( b) 中特征点集应用上式,重复迭代,直到误差平方和收敛于某一值,将不满足式( 10) 的特征点舍弃,使算法对噪声、背景等有强的鲁棒性。

图像的聚类效果如图5( b) 所示。从图中可以看出特征点a不满足式( 10) ,因此a为噪声点被剔除。

2. 2. 3 聚类后的去噪效果图

经检测聚类后的特征点个数为83,聚类使特征点数据集减小了。通过实验得到被筛选的的特征点集,并对这些点集进行分析,确定K-means聚类算法改进了特征点集。上述算法解决了SURF算法得到特征点后没有检测噪声点而是直接进行匹配的问题,对于下一步要进行的特征点匹配有很大帮助。

2. 3 马式距离优化特征点匹配

传统的SURF算法利用阈值法进行匹配,匹配阈值由欧式距离确定,阈值公式表示为:

其中Dnear表示最近邻欧式距离,Dsub - near表示次近邻欧式距离,欧氏距离的定义公式为:

若( n1,n2,…,nK) ,( n'1,n'2,…,n'K) 是一对待匹配的特征点,根据式( 11) 和式( 12) 进行特征点的匹配。

马氏距离表示数据的协方差距离,它能够有效地计算两个未知样本集的相似度[15,16]。应用马氏距离进行特征点匹配方法如下。

针对图3( a) 和图3( b) 经均值聚类优化的特征点数据集X和Y,马氏距离首先计算任意一点样本均值 μ 和协方差矩阵 Σ 。

任意一点Xi= ( xi,yi) 的马氏距离定义为:

其中 Σ 表示协方差矩阵,Σ-1是 Σ 的逆矩阵,μ 为样本的均值。

将式( 13) 、( 14) 代入式( 15) 中,并将式( 15) 代替SURF算法中式( 12) 。由式( 15) 计算得到图3( a) 每个特征点的马氏距离Adi,及图3( b) 每个特征点的马氏距离Bdi定义公式:

式中,α 为匹配阈值,若 α 越接近于1,则说明这两个特征点的相似度越高。当 α 在一定阈值范围内时,表明马氏距离很接近,特征描述很相似,则匹配成功,否则重新生成特征点。

本文应用马氏距离代替欧式距离进行特征点的匹配解决了应用欧式距离进行特征点匹配时没有考虑多方面因素的影响而将不同属性的因素同等看待,致使匹配鲁棒性较差的问题,并且对于应用欧式距离匹配阈值选择较困难的问题也得到较好的解决。

3 改进算法的核心代码实现

根据改进算法的实现流程,软件编程实现基于聚类和马氏距离的SURF昆虫图像匹配算法的核心代码如下。

4 改进算法的实验与仿真

算法在Windows 7 系统下,设备为Intel i5 - 2400 2 GHz四核处理器、4 GB内存,基于MATLAB 2014a。为了验证本文改进算法的有效性,对算法进行效果验证,选取1 张动物图片和3 张昆虫图片,图片来源于课题组的科研数据库。这4 张图片的大小分别为48、841、9810、294 KB,并且图片的水平分辨率和垂直分辨率均为96 dpi。经过大量实验验证,设置初始参数匹配阈值0. 8 ≤ α ≤ 1. 2 ,SURF算法中金字塔各层数据如下:

Oct1:9,15,21,27 Oct2:15,27,39,51

Oct3:27,51,75,99 Oct4:51,99,147,195

Oct5:99,195,291,387

4. 1 图像匹配实验

再次对图3 中的图像进行匹配,图6 是传统的SURF算法和本文算法的效果图。

表1 记录了传统的SURF匹配算法和本文算法匹配实验30次所用的平均时间和平均特征点数。

根据图6 和表1 的对比可以看出,本文在配准率方面有明显提高,原因是本文应用聚类算法去除噪声点,然后又应用马氏距离进行精匹配。并且经试验验证,当0. 8 ≤ α ≤ 1. 2 时,改进后的算法几乎不受匹配阈值 α 的影响。由于应用聚类时要遍历所有特征点因此匹配时间较原来稍长,但是可以满足一般匹配需要。

4. 2 将本文算法应用于昆虫图像

选取天堂凤碟成虫、华北大黑腮金龟成虫和蜘蛛成虫为例,为了体现算法的有效性,选取不同背景下昆虫图片进行对比。同样采用传统的SURF算法和本文算法进行实验比较,实验环境和参数设置与上述实验保持一致,两种算法对昆虫图像的匹配效果如图7 - 图9 所示。

图7天堂凤碟成虫图像的匹配

从图7 - 图9 可以看出传统SURF算法误匹配较多,如图中斜线部分,本文算法相比传统的SURF算法匹配效果明显提升。图中增加了带背景噪声的图像匹配,改进算法对有背景噪声的图像匹配仍然具有较好的效果,几乎没有受到背景噪声干扰。表2 为传统的SURF匹配算法和本文算法对昆虫图像特征匹配的性能比较。从表中数据可以看出,改进算法的匹配成功率达到百分之九十以上,相比传统的SURF算法有较大的提升。对于噪声点较多的图像进行匹配,本文算法仍然有较好的匹配效果。

5 结语

针对传统的SURF算法由于噪声点及其他外界条件的影响致使误配率低的问题,本文提出的基于均值聚类和马氏距离的SURF算法改进了传统SURF算法匹配效率低匹配精度低的不足。

在图像信息检索中,应用本文算法可以很好地实现特征匹配,从而提高信息检索的效率。应用于昆虫图像识别领域,改进算法较原SURF算法具有更高的匹配效率,可以有效识别不同环境下的昆虫极其样本。对果树害虫防治和农业生产具有重要意义。

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:房屋管理 下一篇:区域活动活动教案