版权信息
主管单位:北京电子控股有限责任公司
主办单位:北京电子控股有限责任公司
出版地区:北京
国际刊号:1003-9767
国内刊号:11-2697/TP
出版周期:半月刊
期刊开本:A4
审稿周期:1-2天
所在栏目:电信技术
综合影响因子:0.125
复合影响因子:0.05
期刊级别: 省级期刊
杂志社地址:北京市东城区北河沿大街79号万科·北河沿甲77号

《信息与电脑》录用通知

您的当前位置:首页 >> 录用通知

基于Swish激活函数的人脸情绪识别研究
 

基于Swish激活函数的人脸情绪识别研究

王灵矫,李乾,郭华

(湘潭大学 信息工程学院,湖南 湘潭 411105

摘要:激活函数的选取对深度学习模型的性能有着重要的影响。根据传统激活函数与新型Swish激活函数的优缺点,将Swish函数引入深度学习模型,提出了一种改进的反向传播算法,并在卷积神经网络系统中使用多层小尺寸卷积模块提取细化特征,构建了人脸情绪识别深度学习模型Swish-FER-CNNs。实验结果表明,新模型相对于现存模型的准确率提高了4.02%

关键词:激活函数;反向传播;卷积神经网络;深度学习;计算机视觉

中图分类号: TP393      文献标识码: A

A research on face emotion recognition based on Swish activation function

Wang Ling-jiao, Li Qian, Guo Hua

(College of Information Engineering, Xiangtan University, Hunan 411105,China)

Abstract: The selection of activation function has an important impact on the performance of deep learning model. According to the advantages and disadvantages of the traditional activation function and the new Swish activation function, Swish function is introduced into the deep learning model, and an improved back propagation algorithm is proposed. A multi-layer small-size convolution module is used to extract refinement features in the convolution neural network system, and a deep learning model Swish-FER-CNNs for face emotion recognition is constructed finally. The experimental results show that the accuracy of the new model is improved by 4.02% compared with the existing model.

Key words: activation function; back propagation; convolutional neural network; deep learning; computer vision

1 引言

人类通过眼睛感知光信息洞悉世界,情绪是人类沟通的一个重要组成部分,影响人类的交流。准确分析人脸情绪,对深入理解人类行为至关重要。在文献[1]中,Giannopoulos等人已经提出了使用卷积神经网络的方法分析人脸情绪。

卷积神经网络系统主要由卷积层、池化层、激活函数、全连接层、分类函数等多部分组成[2],组成的方式不同导致网络模型的性能差异显著。经典的AlexNet深度学习模型使用5层卷积层、3层全连接层、ReLU激活函数等联接构成的网络,在ImageNet分类上准确率提高显著[3],但参数较多、计算负载大,在人脸情绪识别数据集上有过拟合的问题。Jeon[4]AlexNet的基础上进行了结构精简,成功的将其引入人脸情绪识别领域,但网络层数较浅,模型拟性能较弱,识别准确率不高。

卷积神经网络自学习机制的关键是反向传播算法,系统产生的误差通过网络结构向底层传播,调节系统自身参数[5]。激活函数[6]作为反向传播算法中重要的组成部分,表示神经元潜在动作可能的抽象映射,影响系统性能。ReLU激活函数[7]是多段线性函数,加强了模型的非线性并且可以提高模型的收敛速度。但当时,ReLU的输出皆为0,导致模型无法迭代,出现神经元死亡和均值偏移问题。之后,Maas提出的L-ReLU激活函数在一定程度上解决了这些问题,但在x<0时为线性函数,对输入噪声的鲁棒性较差[8]。文献[9]中提出的P-ReLUL-ReLU相似,不同之处在于当x<0时,斜率为系统学习所得,函数性能提高,但仍未解决对输入噪声鲁棒性较差的问题。

为更好地拟合数据与系统模型,本文结合Swish激活函数,改进反向传播算法,解决了鲁棒性较差的问题,同时改善了神经元死亡和均值偏移问题。针对AlexNetJeon的深度模型(简称Jeon’s)网络层数较浅、参数较多等不足,加深了神经网络层数并使用更小的卷积核,便于感知细化特征,提出了Swish-FER-CNNs情绪识别模型,提高了识别准确率。

2 基于卷积神经网络的情绪识别模型

卷积神经网络使用卷积层提取图像特征,以池化层简化参数,提高计算效率。采用多层卷积和池化级联能进一步感知和提取图像特征,获取高维特征并使用全连接层将学习到的隐式特征映射到样本标记空间,最后通过softmax分类器进行分类,得到分类标签,具体模型如图1所示。


1 情绪识别模型原理图


3 Swish-FER-CNNs情绪识别模型

Swish-FER-CNNs情绪识别模型结合激活函数Swish噪声鲁棒性较强等优良特性,提出改进的反向传播算法参与模型迭代,并针对Jeon’s深度学习模型的局限性,采取加深系统网络层数、细化卷积尺寸的方式,提取更细密的感受野信息,以提高模型识别准确率。

3.1 改进的反向传播算法

反向传播算法是调整网络模型的参数更迭的依据。已知输入通过前向传播得到,产生的误差为代价函数。来自代价函数的信息通过模型向后传播,用于计算梯度。反向传播算法是一种计算微积分中链式法则的算法,分别是两个实数集合间的映射函数,令为激活函数,,则链式法则为:

                                                                                                            1

上式可反映上层网络输出,受下层网络输出的影响而变化的数学关系。又有,故的选取对于深度学习网络的迭代性能有较大影响。下文通过对Swish激活函数进行性能分析,提出了一种改进的反向传播算法。

3.1.1 Swish激活函数

本文中使用的Swish激活函数的定义如下:

                                                           2

其中,为常数。函数图像如图2所示。

2  Swish激活函数

时,Swish激活函数的一阶导数易于计算,利于模型训练。当时,与ReLU函数相比,Swish函数既能够均衡正负轴比重,减缓了均值偏移现象,又由于它无硬饱和性,避免了神经元死亡现象;与L-ReLU函数相比,Swish函数是非线性的,具有软饱和性,鲁棒性更好;与P-ReLU相比,Swish函数不需要计算参数,减少了计算量。因此, Swish激活函数的性能优于ReLUL-ReLUP-ReLU 函数。

3.1.2 Swish-FER-CNNs中的反向传播算法

反向传播算法可广泛应用于深度学习梯度计算,其中包含前馈传播和后馈传播两部分。激活函数是算法的重要组成部分。使用激活函数的前馈传播模型可表示为:

                                           3    

其中表示节点,所有父节点的集合,表示激活函数映射操作。

总而言之,反向传播算法中激活函数影响模型的计算量,Swish激活函数对噪声鲁棒性较强,计算复杂度较低,从而提高反向传播算法性能。

改进的反向传播算法使用表示第层隐含层输出值,表示激活函数的输入值,包含所有参数(权值和偏置),为正则式,为总代价函数,表示当前位置梯度,表示梯度的更迭矢量,表示矩阵点积。算法对于每一层都生成了对激活函数输入值的梯度,从输出层向后计算梯度一直到第一个隐含层,生成的梯度可视为指导每层输出该如何调整以减小模型误差的依据,再根据以上产生的梯度可以计算得到对每层参数的梯度,从而实现代价函数向后传播,详细算法如下所示。

改进的反向传播算法:

3.2 Swish-FER-CNNs网络模型

为适应Kaggle数据48*48灰度图像,并进一步提高模型性能,本文优化了网络结构,与改进的反向传播算法相结合,构建了Swish-FER-CNNs深度学习模型。改进的网络结构如表1所示。

1  Swish-FER-CNNs网络结构

type

kernel

stride

pad

output

dropput

input

42*42*1

convolution1

3*3

1

1

42*42*16

convolution2

3*3

1

1

42*42*32

pooling1

3*3

2

20*20*32

convolution3

4*4

1

1

20*20*32

pooling2

3*3

2

10*10*32

convolution4

3*3

1

1

10*10*32

convolution5

3*3

1

1

10*10*64

pooling3

3*3

2

3*3*64

full-connected1

1*1*2048

0.45

full-connected2

1*1*1024

0.45

output

1*1*7

相比Jeon的深度学习模型,Swish-FER-CNNs网络模型多次使用了级联的两层3*3的卷积层替代Jeon使用的5*5卷积层,加深了网络的层数,尺寸较小的过滤器可提取细化的特征,每层卷积后均激发Swish函数,使整体网络的激活函数频数增加,网络的非线性拟合能力增强。

4 数据集

实验采用的数据集为kaggle人脸情绪识别数据集——fer2013,该数据集由PieereAaronICML2013研讨会上发布,共由35887张人脸情绪图片组成。其中,生气的表情有4953张,厌恶547张,恐惧5121张,高兴8989张,悲伤6077张,惊讶4002张,中性6198张。数据集由三个部分组成,第一部分为训练集,包含28709张图片。第二部分为验证集,包含3589张图片。第三部分为测试集,包含3589张图片。

5实验分析

实验使用caffe[10]的深度学习框架,操作系统为ubuntu16.04GPUGTX1050Ti。训练的学习率为0.001,动量为0.9,学习策略为SGDSwish-FER-CNNs模型开始迭代后,测试准确率开始逐步增加,测试误差逐步下降,之后趋于平稳,这说明模型的准确率达到模型的饱和状态,训练迭代次数选择合理。训练完成后,测试集准确率达到74.76%,测试误差收敛到0.3168。训练图如下所示:

3 训练准确率

4 训练损失函数

采用训练好的模型对测试数据集进行识别分类,7类表情的测试准确率使用公式计算:

                                                                                                        4

其中表示各类情绪的识别准确率,表示第类中正确识别的个数,表示错误识别的个数,Swish-FER-CNNs学习模型对各类情绪识别的准确率如表2所示。

2  Swish-FER-CNNs模型情绪识别准确率混淆矩阵

Swish-FER-CNNs

Angry

Disgust

Fear

Happy

Sad

Suprise

Neutral

Angry

65.33

1.01

7.29

4.49

15.29

1.52

5.07

Disgust

20.67

71.41

1.03

0.00

1.91

1.90

3.07

Fear

9.1

1.15

53.31

1.80

19.01

7.05

8.59

Happy

1.60

0.00

1.02

92.88

1.22

0.40

2.88

Sad

6.0

0.00

1.02

5.01

68.42

0.73

18.82

Surprise

2.10

0.00

8.01

1.92

1.92

85.75

0.30

Neutral

2.01

0.90

1.50

7.50

12.11

12.10

73.02

由于kaggle数据集中各类别的情绪样本不均匀,导致各类样本在模型中的学习数据量不一致。因此,各个类别的分类效果不同。

Jeon’s深度学习模型分别采用ReLUL-ReLUP-ReLUSwish激活函数,与本文的Swish-FER-CNNs深度学习模型进行对比,结果如图5所示。

5 各模型的测试混淆矩阵精度

如图所示,分别使用ReLUL-ReLUP-ReLUSwish激活函数,模型识别准确率依前述顺序依次递增。改进后的Swish-FER-CNNs深度模型,相较于使用Swish激活函数的Jeon’s深度学习模型,取得了更高的识别准确率。


为更直接地分析模型的性能,采用准确率ACC表示模型在测试集中识别的准确率,如下所示:

                                                                                                 5

测试集中的人脸情绪分为种类别,采用表示某个类别中正确识别情绪的个数,表示该类别错误识别的个数。各方法识别情绪的准确率如表3所示。

3 各方法识别准确率

模型

测试集的准确率

相较ReLU+Jeon’s准确率提高度

ReLU+Jeon’s

70.74%

--

L-ReLU+Jeon’s

70.88%

+0.14%

P-ReLU+Jeon’s

70.99%

+0.25%

Swish+Jeon’s

73.54%

+2.80%

Swish-FER-CNNs

74.76%

+4.02%

由表3可以得出,经过充分的迭代,在Jeon’s深度学习模型下,不同激活函数的识别准确率为:ReLU<L-ReLU<P-ReLU<Swish,因此Swish激活函数性能优于前三者。此外,Swish-FER-CNNs网络模型与基于Swish等激活函数的Jeon’s深度学习模型相比,具有更高的识别准确率。


5 结论

研究了激活函数的性能和网络结构的特性,采用性能优良的Swish激活函数改进反向传播算法,并使用能够提取细化特征的多层小尺寸卷积模块,改进了网络结构,构建了人脸情绪识别深度学习模型Swish-FER-CNNs。新模型相比现存模型提高了人脸情绪识别准确率。虽然Swish激活函数提高了识别准确率,但是模型的收敛时间相对较长,构建识别准确率高但收敛快的激活函数将是下一步的研究方向。

参考文献

[1] Giannopoulos P, Perikos I, Hatzilygeroudis I. Deep learning approaches for facial emotion recognition: A case study on FER-2013[M]//Advances in Hybridization of Intelligent Methods. Springer, Cham, 2018: 1-16.

[2] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:2015,1502.03167.

[3] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.

[4] Jeon J, Park J C, Jo Y J, et al. A real-time facial expression recognizer using deep neural network[C]//Proceedings of the 10th International Conference on Ubiquitous Information Management and Communication. ACM, 2016: 94.

[5] LeCun Y, Boser B E, Denker J S, et al. Handwritten digit recognition with a back-propagation network[C]//Advances in neural information processing systems. 1990: 396-404.

[6] Ramachandran P, Zoph B, Le Q V. Searching for activation functions[J]. arXiv preprint arXiv:2017,1710.05941.

[7] Xu B, Wang N, Chen T, et al. Empirical evaluation of rectified activations in convolutional network[J]. arXiv preprint arXiv:1505.00853, 2015.

[8] Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic models[C]//Proc. icml. 2013, 30(1): 3.

[9] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1026-1034.

[10] Jia Yangqing, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014: 675-678.

第一作者简介:

       王灵矫(1971-),男,四川西充人,副教授/博士,研究方向为计算机视觉与人工智能。

第一作者联系方式:

E-

地址:湖南省湘潭市雨湖区羊牯塘社区湘潭大学信息工程学院南楼607


第二作者简介:

李乾(1993-),男,湖南湘潭人,硕士研究生,研究方向为计算机视觉与深度学习。

 

第三作者简介:

    郭华(1976-),女,四川岳池县人,硕士,高级实验师,研究方向为信号与信息处理。


推荐资讯