闫汇聪 刘德山 陈 浪 马斯宇
(辽宁师范大学计算机与信息技术学院 辽宁 大连 116081)
高光谱图像(HSI)分类的研究具有重要应用意义。高光谱图像具有丰富的地理信息量,能够实现对地表的清晰表达[1],其图像属性也使得人们能够对不同物质进行分类[2-3]。目前,研究人员利用丰富的光谱信息和光谱数据开发了多种分类算法,这些算法被广泛应用于军事[4]、农业[5]、矿业[6]、渔业[7]、林业[8]等领域。同时,这些算法在环境污染监测、农业精耕细作、土地利用分析、矿产勘查等领域都有着广泛的应用[9]。对高光谱图像而言,由于其成像的方式是多光谱,其像素的空间关系和光谱关系相互影响。此外,如果直接用高光谱数据对地物进行分类应用,一方面会导致训练样本的数量有限、维度高、容易产生Hughes 现象;
另一方面计算量大、耗时长,限制了HSI分类的表现[10]。高光谱图像具有如下特点:(1) 相同的物体可能具有不同的光谱表现,相反,不同的物体也会反映出相同的光谱特点。这样就对分类技术是一个考验。(2) 类别边缘以及像素之间存在信号的影响。(3) 高光谱图像的成像过程中存在外界多种因素的影响(如大气、雾等),从而带来噪声数据。(4) 由于各种原因,高光谱图像的学习样本相对不足,增加学习算法的困难。
近年来有一些基于机器学习的常规分类方法提出,如基于 (KNN)[11]、 支持向量机(SVM)[12]、极端学习机(ELM)[13]以及稀疏表示(SR)[14]等技术的算法。在信息刻画和提取策略上,空间和光谱的结合是一个重要的研究方面[15]。在稀疏表示分类的理论与算法框架[16]基础上,Zhang等[17]提出了一种在高光谱图像分类中的应用方法。与上述方法相比,一些方法侧重于有效的特征提取。Kalluri等[18]从HSI中提取光谱导数信息。Jolliffe等[19]利用了HSI的主成分分析特征。Li等[20]提取了线性和非线性特征,并开发了一种用于HSI分类的多特征学习机制。
以字典学习为基础的SR理论凭借其良好的分类性能在信号处理、计算机视觉和模式识别等方面有很多成功应用的模型,近年来对高光谱图像处理领域产生了重要的影响[42-47]。基于SR理论方法,Zhang等[21,41]提出了协同表示(CR)方法。文献[22]提出一种局部协同表示方法。文献[23]根据不同约束项的作用给出加权正则的协同表示框架。基于协同表示和正则化技术,文献[24-25]分别提出最近邻子空间与核映射正则化的方法。文献[26]结合多任务学习,同时利用邻域信息给出联合协同表示(JCR)的方法。Xiong等[27]研究了邻域信息提取的作用,提出加权联合协同表示 (WJCR)方法。以构建局部自适应字典为基础,Li等[28]提出一种非局部联合协同表示 (NJCR)方法。文献[29]提出基于核方法投影数据的稀疏表示分类算法(KSRC),通过使用核技术优化算法获得的稀疏表示向量,以此确定待测像素的类标签。高光谱图像中数据的关联具有非线性特性,为此,文献[30]利用核映射技术提出了一种核协同表示(KCRC)分类算法。为加强空间信息的提取,Jiang等[31]在改进协同表示算法的目标函数提出一种具有空间感知的协同表示方法(JSACR)。
现有的算法从不同的角度研究的信息刻画与提取的途径和技术,为我们的研究提供了重要启发。在研究中我们发现,协同表示的相关算法在高光谱图像分类的学习过程中没有很好地刻画高光谱图像的特性,如像素的局域性和标签信息等,因此其性能受到限制。为此,我们提出一种散度核协同表示技术并利用空谱融合获取特征的分类方法(IKCRC)。所提出新方法以最大获取像素的类信息与关联信息为出发点,强调分类的有效性,建立一种新的协同表示模型与计算框架。
本文提出算法的主要贡献:(1) 不仅考虑到空间和谱信息的刻画,同时考虑到数据间的关联信息,引入信息散度矩阵到优化目标函数的正则约束中,有利于特征的有效提取。(2) 引入核学习,在CRC的基础上提出了IKCRC算法模型。增强算法的分类能力。(3) 在学习样本相对较少的情况下能够展示出较好的信息提取能力并具有更高的分类精度。
1.1 空谱特征学习
空间与谱特征学习网络(SSN)[33]可同时获得空间和光谱的信息,其特点是以分层的形式学习图像特征。SSN在学习阶段的结构由多个学习的单元(SSFLU)连接,构成一个多层的深度学习网络。每一层是一个SSFLU,一个SSFLU由两部分组成:一部分是光谱特征的学习模块;
另一部分是空间特征的学习模块。由线性判别分析(LDA)[32]实现光谱特征部分的学习。LDA同时具有分类和降维功能,利于信息的刻画提取。空间特征的学习由多个具有不同尺度的空间滤波器(AWF)[33]实现。图1是文献[34]中所描述的SSFLU结构。图2为SSN空谱特征学习的原理结构。
图1 SSFLU结构
图2 SSN空谱特征学习的原理
1.2 LDA算法
LDA算法[32]能够实现最小化类内散度和最大化类间散度。在SSN的空谱特征学习中使用 LDA将高光谱图像在光谱维度上进行降维,同时保证类间的最大区分性。
设数据集为X=[X1,X2,…,XN]∈RN×D,Xj∈RD(j=1,2,…,N)。数据一共分C类,假设过滤器数量为Kspe,则Wspe∈RD×Kspe。第c类样本均值为:
(1)
式中:Nc是第c类像素的个数,Xn,c是第c类中的像素。所以类内散度Sw为:
(2)
式中:pc=Nc/N。然后求高光谱总的像素平均:
(3)
类间散度Sb计算为:
(4)
LDA使用一系列过滤器使类间散度和类内散度的比例最大化:
(5)
选择Kspe个最大的特征向量:
Sbwspe=λSwwspe
(6)
通过上述方法对HSI图像像素进行过滤,获得过滤后的HSI像素为Kspe层。
1.3 字典学习[21,30]
协同表示(CRC)[21]和核协同表示算法(KCRC)[30]改进了传统字典的构造:把字典中代表某类的一个原子(列向量)扩展到该类的多个原子,以使得样本信息具有协同作用。
2.1 协同表示分类(CRC)
(7)
(8)
式中:I表示单位矩阵。
当解析地获取得到表示系数向量XCR,可以计算像元y和其类依赖近似Dcδc(d)的最小逼近残差:
(9)
2.2 核协同表示分类(KCRC)[30]
高光谱图像的不同特征通道通常是线性不可分离的,而典型的线性稀疏表示模型无法充分表示高光谱数据样本的非线性结构特征。为解决非线性问题,文献[30]中给出了一种核协同表示算法(KCRC)。其中稀疏表示的计算为:
(10)
式中:k(D,y)=[k(d1,y),k(d2,y),…,k(dN,y)]T∈RN×1和G=φφT∈RN×N表示核Gram矩阵,其中每个元素G(i,j)=k(di,dj)。
2.3 散度核映射协同表示与空谱特征融合的算法(IKCRC)
在本节中我们提出空谱融合特征信息与散度核协同表示的分类方法(IKCRC)。利用LDA算法提取数据的散度矩阵作为判别信息的流行正则项引入到KCRC算法中,以提高KCRC在高光谱图像分类中的准确性。IKCRC算法基于优化目标函数的计算形式如下:
(11)
式(11)为流形正则项,μ为修正参数,β为正则化参数,λ为惩罚参数。
本文算法采用高斯径向基核函数(Gaussian Radial Basis Function Kernel),简称Gaussian核,其定义为:
(12)
式中:σ为高斯核函数的频带宽度。
IKCRC的核协同表示优化目标函数计算式为:
(13)
式中:φ(y)和φ(D)与式(10)中的意义相同,表示变换为高维空间下的数据。求取式(13)于表示系数向量X的导数,可以解析得到核特征空间H中表示系数向量的解:
λ(μSb-(1-μ)Sw)+βI]-1φT(D)φ(y)
(14)
式中向量的内积由核函数计算。通过下式的计算可确定类别:
(15)
式中:Gc可视作诱导特征空间中与第c类相关联的亚字典,Xc为与第c类相关联的类依赖的表示系数。
关于IKCRC的算法的理论思想:目标函数中引入散度矩阵体现出像素数据之间的关联与区分信息。目标函数中包含着字典信息、稀疏表示信息以及协同表示息。这样的信息构成能更全面刻画出数据的分类本质。从机器学习角度来说,核映射的引入源于其具有对非线性分类的能力。对复杂背景下的数据更有意义,而高光谱图像即是这样类型的数据。由于高光谱图像具有维度高,像素构成影响因素多等特点,挖掘其空谱融合特征对于高效分类具有重要作用。因此,这样的算法结构即形成一种分类模型。
IKCRC的算法步骤如下:
输入:高光谱数据集。
步骤1使用SSN[33]的SSFLU特征提取得到新的据集(特征信息数据)。
步骤2依据式(1)-式(6)局部嵌入类信息散度矩阵。
步骤3通过式(11)-式(14)稀疏表示向量X(训练学习阶段)。
步骤4对待测的y,通过X寻找到y的最优逼近,从而得到预测的标签(预测阶段)。
输出:测试数据集的预测标签。
我们把所提出的算法与相关算法做对比实验。实验所用的高光谱数据集分别为Indian Pines和Salinas。本文所有实验使用MATLAB R2016b,硬件环境为CPU 3.2 GHz;
内存8 GB。
3.1 高光谱图像数据集
Indian Pines数据集:该数据集是印第安纳州西北部一个区域的高光谱遥感图像。
图像大小145×145 像素,每个像素的空间分辨率为2 000万像素。AVIRIS传感器在0.4~2.5 μm的光谱范围内产生220个波段,为降低实验误差通常去除20个吸水带将光谱带的数量降至200[36]。如表 1 所示,该数据集包含 16 个真实类别,其中大多数为农作物如玉米、大豆、小麦、燕麦等。本实验采用去除后保留的其余200个波段的数据作为实验对象。图3给出了波段50、27和17组成的三波段伪彩色图和真实地面图。
表1 Indiana Pines 数据集描述
(a) 实际地面图 (b) 波段50、27和17组成的伪彩色图图3 Indian Pines
Salinass数据集:该数据集是美国加利福尼亚南部的Salinas山谷区域的高光谱图像,图像由AVIRIS传感器获取。该图像大小为512×217像素。如表2所示,在该数据集中有16种地物的类别。该数据集在空间上具有224 个波段[37]。
按照常规做法,本实验中使用数据去除20个大气水分吸收和低信噪比的波段,采用处理后保留的 204个波段的数据。图4给出的是由波段 50、30和20组成的实际地面图和伪彩色图。
表2 Salinas 数据集描述
(a) 实际地面图 (b) 由波段50、30和20组成的伪彩色图图4 Salinas
3.2 实验和参数设置
我们使用IKCRC与相关经典算法做对比实验。这些算法分别是KCRC[30]、SRC[38]、KSRC[29]、SVM[12]、SVM-CK[39]、JSACR[31]。在Indiana Pines数据集上随机选择每个类别的10%的样本用作训练;
由于Salinas数据集相对量大,我们在该数据集上随机选择每个类别的5%用作训练;
剩余样本用于测试。
IKCRC采用“Gaussian”核函数。IKCRC中有三个计算参数,它们分别是:修正参数μ、惩罚参数λ、正则化参数β。为得到最佳的参数选取,实验采用交叉验证方法以及网格搜索方式。
3.3 评价指标
我们采用通常的3个指标来评估实验结果。这3个指标分别是总体分类精度、平均分类精度和Kappa系数[40]。总体分类精度(OA)的计算方法由式(16)给出。其中,C为图像中待分类样本的类别数目,Ni代表第i类样本中待分类样本的数量,Ni代表第i类样本中被准确划分的样本个数,1≤i≤C。
(16)
平均分类精度(AA)的计算由式(17)给出,该数值体现出算法对各种类别样本的总体分类效果。
(17)
Kappa系数(kappa coefficient),计算过程如式(18)-式(19)所示,它可以用于一致性检验,也可以用于衡量分类精度。式中:OA指总体分类精度。
(18)
(19)
3.4 在Indian Pines数据集上的实验结果
在Indian Pines数据集上将本文所提算法与KCRC、SRC、KSRC、SVM、SVM-CK、JSaRC进行对比。几种分类算法在Indian Pines数据上的分类结果如表3所示,不同分类算法的效果由图5给出。
表3 Indian Pines数据分类中不同分类算法的比较(%)
图5 不同算法在Indian Pines数据上的对比实验
表3给出了7种不同算法在Indian Pines数据上的分类精度,其中最好的结果由黑体标出。可以看出,本文算法在Corn、OatsSoybean-notill、Soybean-mint等数据上的分类精度优于其他6种算法,在Grass-pasture-mowed、Hay-windrowed等5类数据上精确度都达到了100%。从表3还可以看出,本文算法在OA、AA和Kappa系数上的指标均优于其他6种算法。图5给出的是7种算法的分类结果图,由此可以看到:由KCRC、SRC等4种算法产生的分类结果图噪声都比较多,SVM-CK和JSACR分类效果较好,本文算法IKCRC分类效果最准确。
3.5 在Salinas数据集上的实验结果
我们在Salinas数据集上将本文所提出的算法与KCRC、SRC、KSRC、SVM、SVM-CK、JSACR进行对比。7种不同分类算法在的分类结果如表4所列,其分类结果如图6所示。
表4 Salinas数据分类中不同分类算法的比较
图6 不同算法在Salinas数据上的对比实验
可以看到,本文算法的分类精度总体优于其他对比的6种算法。特别是在Brocoli_green_weeds_1、Fallow等12类数据上精确度都达到了100%。而且IKCRC在OA、AA和Kappa系数上均优于其他6种算法。
由图6可以观察到,SRC、KCRC两种算法的分类结果图包含了较多的噪声。
由以上实验结果与对比可见本文算法具有在高光谱图像分类中显示出良好的结果,从而验证了该算法对高光谱图像分类的有效性。本文算法有效性的原因在于:在有限的高光谱图像训练样本下,运用图像数据训练样本的几何结构散度信息,同时采用空谱融合的特征提取策略,构造新的核协同模型。
3.6 训练样本选取的影响
本节给出CRC、SRC、KSRC、SVM、SVM-CK、JSACR以及本文算法在不同训练样本个数情况下的分类性能实验。我们分别在Indiana Pines和Salinas两个数据集上进行实验,在Indian Pine数据集上分别随机选取该类样本数的1%、2%、3%、4%、5%、6%、7%、8%、9%、10%作为训练样本,其余的作为测试样本。在Salinas数据集上分别随机选取该类样本数的0.5%、0.1%、1.5%、2%、2.5%、3%、3.5%、4%、4.5%、5% 作为训练样本,其余的作为测试样本。将实验的总体分类准确度(OA)作为评价指标。实验结果如图7所示。
(a) indian pines 数据集
(b) Salinas数据集图7 不同训练样本个数下各种算法的分类准确率
由图7(a)可知,在Indian Pine 数据集上,IKCRC、JSACR、SVM-CK等3类算法OA指标识别曲线明显优于SRC、KSRC、KCRC、SVM算法,其中本文提出的IKCRC分类准确率最高。由图7(b)可以看出,在Salinas数据集上,几种算法的准确率都有所提高。IKCRC、JSACR、SVM-CK这3类算法依然在OA指标识别曲线明显优于SRC、KSRC、KCRC、SVM算法,其中本文提出的算法IKCRC在训练样本取5%的时候总体分类精度接近100%。
3.7 修正参数分析
在本节中,我们分析主要修正参数μ影响IKCRC 性能,实验结果如图8所示,其显示了不同的参数值和相应的分类精度。
(a) indian pines 数据集
(b) Salinas数据集图8 不同修正参数取值在两个数据集对分类准确率的影响
由图8可以看出,参数μ的不同值带来不同的结果。对于Indian Pines的数据集,μ=0.2时分类精度最高;
对于Salinas数据集,μ=0.1时分类精度最高。IKCRC的性能可以通过改变参数进行调整。
本文给出散度核协同表示构建新方法,采用空谱融合特征信息模块构造出新的高光谱图像分类方法的框架模型(包括对应算法的模块构造和目标函数的设计)。该研究旨在针对高光谱图像样本相对少的现实情况能够更有效刻画与提取分类所需要的数据信息。由对比实验表明,IKCRC在标准数据集上的分类效果优于其他对比算法。同时,在不同训练样本的选择下进行了分析对比,由此进一步验证了IKCRC具有更稳定更好的分类性能。在进一步的研究中,为更好地刻画数据信息,引入流形学习的技术方法到算法的改进中是一个值得探索的方面。
猜你喜欢散度光谱像素基于三维Saab变换的高光谱图像压缩方法北京航空航天大学学报(2022年8期)2022-08-31带势加权散度形式的Grushin型退化椭圆算子的Dirichlet特征值的上下界数学年刊A辑(中文版)(2022年1期)2022-08-20像素前线之“幻影”2000小哥白尼(军事科学)(2022年2期)2022-05-25具有部分BMO系数的非散度型抛物方程的Lorentz估计数学物理学报(2019年6期)2020-01-13“像素”仙人掌红领巾·萌芽(2019年8期)2019-08-27H型群上一类散度形算子的特征值估计数学物理学报(2018年3期)2018-07-17ÉVOLUTIONDIGAE Style de vie tactile中国与非洲(法文版)(2017年10期)2017-11-23Hörmander 向量场上散度型抛物方程弱解的Orlicz估计山西大同大学学报(自然科学版)(2016年2期)2016-12-12高像素不是全部CHIP新电脑(2016年3期)2016-03-10星载近红外高光谱CO2遥感进展中国光学(2015年5期)2015-12-09