基于大数据分析的海量图像快速分类研究*

时间:2023-08-19 11:20:03 来源:网友投稿

吕波

(雅安职业技术学院,四川 雅安 625000)

多媒体技术的快速发展,摄像设备不断多样化,每天不断产生大量的图像,从而出现了海量图像,在图像实际应用中,如何从海量图像中找到自己真正需要的图像十分关键,而图像分类是图像搜索的基础,因此如何对海量图像进行分类显得十分重要[1-3]。

针对海量图像分类问题,学者们进行了大量的研究,出现许多有效的图像分类方法[4-6]。如有学者提出了基于生成对抗网络的图像分类方法,在海量图像分类过程中,由于该方法工作过程过于复杂,难以掌握,导致海量图像分类效果不佳;
有学者提出了BP神经网络的图像分类方法,在海量图像分类过程中,由于该方法计算繁琐,导致海量图像分类效率低[7-11],

大数据分析方法已广泛应用在自然图像分类领域,检测、配准、生成等技术也逐渐应用在图像分类方面[12-14]。大数据分析方法对信息的多级处理,模拟人类大脑思维方式,不同的空间对应不同层的特征,具有差异的语义信息,分类层次特征结构,分类能力高[15-17]。为了获得理想的图像分类结果,提出了基于大数据分析的海量图像分类方法,并对其性能进行分析。

卷积神经网络(convolutional neural network,CNN)是一种大数据分析技术,模拟人类大脑对信息处理过程,使用卷积神经网络算法分类图像,将神经网络由数个神经元组成,使高层抽象特征通过低层单一特征生成,被应用于海量图像分类方面[18-19]。

2.1 卷积神经网络的组成

卷积神经网络是在人工神经网络基础模型演变而来,人工神经网络模型结构图,见图1。

由图1可知:人工神经网络模型连接各数据节点,等数据流入网络后计算出结果。

卷积神经网络将神经元作为基本节点,多种不同的神经元相互联系组成多层的神经网络,每层都表示独立特征,层次越高表示的语义越准确。

(1) 卷积层。原始的输入矩阵利用卷积核抽样器生成卷积层。

(2) 下采样层。以卷积层为基础实施池化计算,生成下采样层。

(3) 全连接层。通过迭代计算构建多个交叉的采样层,与多个卷积层生成全连接层,完成CNN 构建。CNN结构如图2所示。

2.2 CNN训练过程

通过第1 层卷积样本矩阵,由多层次变换得出y"。假定y表示该样本的期望输出,二者误差用E描述,反向传播时微调卷积核矩阵是依据误差最小原则进行操作。假设v层的第y个神经元的输出,则有:

其中:修正项、v-1 层的第k个神经元的输出、v层的第j与第k个神经元间联结的权重、分别用描述。v层的第y个神经元的输出用描述。v-1层的第k个神经元的输出计算公式,如公式(2)所示:

其中:激活函数用δ描述。

误差函数是按照计算值与期望值的误差计算,具体计算过程如公式(3)所示:

其中:误差函数用θ描述,二次代数函数用f描述。

v层的第j神经元的误差计算公式如公式(4)所示:

CNN最后一层误差计算公式如公式(5)所示:

其中:最后一层的梯度值、乘积运算符、v层的输出分别用θ、Θ、cV描述。

其他各层的误差计算公式如(6)所示:

其中:v+1 层的权重用mv+1描述,v+1 层误差用描述,函数用T描述。

权重梯度计算公式如(7)所示:

偏值梯度计算公式为:

卷积核的更新公式是使用梯度下降,卷积核的更新公式,具体如下:

其中:mv、dv分别表示第v层的权重、修正项。

2.3 基于大数据分析的海量图像分类流程

基于大数据分析的海量图像分类流程是通过构建一个五层的卷积神经网络实现海量图像分类。先将收集海量图像实施图像预处理后,输入卷积神经网络中,通过改变卷积神经网络模型结构以及调整相关参数,训练卷积神经网络;
采用训练好的卷积神经网络的输出层输出海量图像分类结果。

基于大数据分析的海量图像分类流程是:先收集海量图像数据,图像数据分为测试数据与训练数据;
对海量图像实施前期数据预处理,将海量图像去伪彩,转换成灰度图像,提取海量图像部分特征,实施归一化处理成30×30;
卷积核是5×5,一层全连接层、两层下采样层、两层卷积层构成CNN 模型,其中下采样层使用尺度是2 的不重复池化,6 个特征图构成第一层卷积层,16 特征图构成第二层卷积层,输出了类别是多类,sigmoid 函数是激活函数;
通过卷积神经网络改变模型结构,调整迭代次数和卷积核大小等参数后,判定训练时间和分类率是否满足要求,当满足要求时,可完成海量图像的分类,如果不满足,需重新进行卷积神经网络训练直至满足要求。

因此基于大数据分析的海量图像分类流程,如图3所示。

海量图像数据预处理过程:因受外界环境的影响导致海量图像质量下降需对海量图像实施预处理。海量图像分成若干个子图像,设定8 个子图像,子图像的离散余弦波变换计算过程,如公式(11)所示:

其中:子图像用f(m,n)描述,0≤u≤7,0≤v≤7、C(u)=C(v)=。

利用离散余弦变换的逆变换,如公式(12)所示:

在样品数较少情况下数据预处理过程:

(1) 利用镜面上下左右对称方法增强数据集。

(2) 对突出特征的刮痕数据集实施背景分割。

(3) 将变换的海量图像实施主成分分析降维处理。

3.1 实验对象

为了验证本文方法的海量图像分类效果,在Windows7操作系统,Matlab R2013c试验环境下。选取15000幅图像作为仿真试验样品。其中,训练数据是选取10000幅图像,测试数据是选取剩下5000幅图像,运用本文方法与文献[12]的图像分类方法、文献[13]的图像分类方法分别实图像分类精度、不同迭代次数、分类误差曲线、图像分类时间等方面对比仿真试验。

3.2 图像分类精度

分别运用文献[12]方法、文献[13]方法与本文方法分类500 幅图像,三种方法分类精度用图4描述。由图4的实验结果可知:本文方法和图像平均分类精度要高于文献[12]和文献[13],获得更优的图像分类结果。

3.3 不同迭代次数分类误差曲线

考虑到训练集样本数量与训练误差的关系对图像分类效果的影响,将迭代次数分别为30次、60次,不同迭代次数分类误差曲线,用图5描述。由图5可知,本文方法的训练误差与迭代次数和训练集样本数量成反比,当迭代次数和训练集样数量增加时,训练误差也随之减少。在图5(b)中,本文方法最小训练误差0.02,文献[12]最小训练误差0.08、文献[13]最小训练误差0.11,说明本文训练误差最小。

3.4 海量图像分类时间

对比三种方法的海量图像分类时间,具体结果见表1。由表1结果可知:本文方法海量图像的平均分类时间3.5min分别比文献[12]方法、文献[13]方法节省14min、29min,说明本文方法图像分类时间最短,提升海量图像的分类效率。

表1 三种方法的海量图像分类时间

本文设计了基于大数据分析的海量图像分类方法,并将其应用仿真试验中进行测试,实验结果表明:本文方法的图像分类准确率高、训练误差小、图像分类时间短、图像分类效果好,可有效提高海量图像分类效率,为后期图像处理方面提供理论依据。由于本人时间与精力有限,本文研究中仍存在不足,以后希望将更多先进的科学技术融入本方法中,可以更快速实现海量图像分类。

猜你喜欢海量神经元卷积一种傅里叶域海量数据高速谱聚类方法北京航空航天大学学报(2022年8期)2022-08-31海量GNSS数据产品的一站式快速获取方法导航定位学报(2022年2期)2022-04-11基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02一种并行不对称空洞卷积模块①计算机系统应用(2021年9期)2021-10-11AI讲座:神经网络的空间对应电子产品世界(2021年8期)2021-01-16海量快递垃圾正在“围城”——“绿色快递”势在必行当代陕西(2019年14期)2019-08-26从滤波器理解卷积电子制作(2019年11期)2019-07-04仿生芯片可再现生物神经元行为中国计算机报(2019年49期)2019-02-07基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20这个神经元负责改变我们的习惯中国新闻周刊(2017年36期)2017-10-21

推荐访问:大数 海量 据分析