(12)发明专利申请
(10)申请公布号 CN 108491835 A(43)申请公布日 2018.09.04
(21)申请号 201810599295.7(22)申请日 2018.06.12
(71)申请人 常州大学
地址 213164 江苏省常州市武进区滆湖路1
号(72)发明人 杨彪 曹金梦 张御宇 吕继东
邹凌 (51)Int.Cl.
G06K 9/00(2006.01)G06N 3/04(2006.01)
权利要求书2页 说明书5页 附图2页
CN 108491835 A(54)发明名称
面向面部表情识别的双通道卷积神经网络(57)摘要
本发明公开了一种双通道卷积神经网络对人脸面部表情识别的方法,首先针对不同的输入图像进行预处理包括人脸检测、旋转校正、降采
则将其灰样以及数据样本扩充(若输入RGB图像,
度化以降低计算复杂度),从而提高人脸检测精度。其次对于样本扩充后的灰度图像,计算对应的LBP图像,从而构成双通道样本集,用于后续的模型训练与测试。然后利用双通道特征提取网络(Binary Channel-Feature Extraction Network,BC-FEN)进行人脸图像全局及局部特征的有效提取。最后利用加权融合分类网络(Weighted Merge Classify Network,WMCN)完成人脸图像的特征融合及表情分类,提高了人脸表情识别精度。
CN 108491835 A
权 利 要 求 书
1/2页
1.一种基于双通道卷积神经网络对人脸表情识别的方法,其特征在于,包括以下步骤:1):进行数据预处理,减少背景信息干扰;2):搭建一个双通道卷积神经网络自动提取有效特征,并以加权的策略将特征融合;3):利用softmax进行表情分类。
2.根据权利要求1所述的一种基于双通道卷积神经网络对人脸表情识别的方法,其特征在于,所述步骤1)具体包括:
(1):人脸检测
采用Viola-Jones算法进行人脸检测,从而减少人脸图像中与表情分析无关的背景信息,增强特征描述子对不同面部表情的表达能力;
(2):旋转校正
针对检测到的人脸图像中可能存在的角度差异,利用旋转变化矩阵进行校正,定义如下:
其中,Lx、Ly表示原始坐标,Lx’、Ly’表示变换后的坐标,θ表
示旋转角度(通过测量两眼中心向量与水平方向的夹角得到);(3):降采样
降采样是为了减小待处理图片尺寸,降低算法复杂度,并保证输入数据尺度一致。本发明采用线性插值方法进行降采样,同时,为避免过分降采样导致人脸LBP图像信息丢失,将降采样后的图像尺寸定为64*64(单位:像素);
(4):数据样本扩充
由于目前人脸表情基准数据库中的样本量无法满足要求,因此本发明对原始数据进行旋转与平移产生合成数据,并添加高斯白噪声,从而人为地扩充数据样本;
(5):人脸LBP图像计算局部二值模式(Local Binary Pattern,LBP)是一种常用的图像局部纹理描述方法,它通过对比局部范围内的中心点与邻域点的像素值,得到关于该区域的二进制编码。得到某像素对应的LBP编码后,可以计算该像素的LBP值,计算方法如下:
其
中,S()表示符号函数,N表示邻域点的数目,gc与gn分别表示中心点与邻域点的像素值。通过计算图像每一点的LBP值,可以得到对应的LBP图像。
3.根据权利要求1所述的一种基于双通道卷积神经网络对人脸表情识别的方法,其特征在于,所述步骤2)具体为:
(1):搭建双通道特征提取网络(Binary Channel-Feature Extraction Network,BC-FEN),以获取不同通道人脸图像与表情变化相关的特征。其中单通道特征提取网络包括一组输入层,两组卷积-下采样层(convolution-down sampling,C-S)以及一组特征向量层(feature vector,fv)。
(2):对于不同通道的输入图像,采用相同的网络结构,但是针对不同通道图像的特点调整网络参数。对于人脸灰度图像(描述全局信息),输入层大小为32×32像素,两组隐含层中卷积层与下采样层C1,S1,C2,S2大小分别为28×28,14×14,12×12,6×6,输出特征向量维度为500;对于对应的LBP图像(描述细节信息),输入层大小为32×32像素,两组隐层的卷
2
CN 108491835 A
权 利 要 求 书
2/2页
积层和下采样层C1,S1,C2,S2大小分别为30×30,16×16,14×14,7×7,输出特征向量维度同样为500。
(3):对于任意通道,特征向量层与两个下采样层S2及S1同时相连,保证所提取特征具有多尺度特性。在此过程中,为了防止过拟合,在下采样层-特征向量层之间进行“dropout”操作(参数为0.5)。
(4):对fv1、fv2进行加权融合得到向量fw={p1,p2,…,pm},其中第i个成分pi通过如下方式计算得到:pi=α·si+(1-α)·li,其中,权重α用来衡量人脸灰度图像与对应的LBP图像对最终融合特征的贡献,α的取值通过实验方式确定。对于融合后的特征向量fw,将其输出到两个级联的全连接层fc1与fc2,其中fc1维度为300,fc2维度为100。
4.根据权利要求1所述的一种基于双通道卷积神经网络对人脸表情识别的方法,其特征在于,所述步骤3)具体包括:
(1):softmax函数可用于计算多类别分类问题的类别概率分布,假设对于给定输入x:
其中,输入x与输出y都是K维向量,
分母起
到正则化作用,保证输出向量的每个成分在[0,1]范围内。(2)作为神经网络的输出,softmax函数中的值可用K个神经元来表示,即对给定输入x,每种分类的概率y可表示为
其中,P(y=k|x)表示输入x属
于第k类的概率。
(3)对于softmax函数的求解,本发明采用交叉熵作为损失函数,定义如下:
其中,zi表示输入样本的真实值,yi表示softmax输出值。采用基
于梯度下降优化的反推算法进行最小化,从而得到网络输出。
3
CN 108491835 A
说 明 书
面向面部表情识别的双通道卷积神经网络
1/5页
技术领域
[0001]本发明属于智能监控领域,特别涉及一种面向面部表情识别的双通道卷积神经网络。
背景技术
[0002]随面部表情识别指利用计算机视觉技术从人脸图像中预测表情,它在揭示人的意图、情感及其他内在状态方面发挥着极大的作用,是机器感知人类情绪变化并与人类进行沟通的重要手段,在人机交互、健康监控、辅助驾驶等方面获得了广泛应用。[0003]面部表情识别流程包括图像预处理、面部特征提取以及表情分类。人脸检测通常利用级联分类器实现,譬如目前流行的Viola-Jones人脸检测框架。检测到人脸后,可以利用眼睛、嘴角等特征点进行旋转校正,并从校正后的脸部区域中提取能够反映表情变化的面部特征,包括嘴、眼睛、眉毛、鼻子等典型区域的位置与形状或脸部的全局/局部灰度特征。最后,利用分类器(支持向量机与随机森林分类器等)识别不同面部表情。[0004]近年来,面部表情识别取得了较大进展,但是,光照变化、局部遮挡、面部旋转等复杂因素通常会影响人脸检测结果,进而降低表情识别的准确率。即使准确检测到人脸,面部表情识别也是一项极具挑战的任务,其难点在于:(1)相同表情的面部图像可能因人而异;(2)相同被试不同表情的差异可能不明显;(3)相同表情的强弱程度可能导致面部图像存在差异。因此,面部表情识别不仅需要准确检测人脸,更需要能够有效描述表情变化的特征以及准确区分不同表情的分类器。基于上述问题,本发明主要考虑面部表情特征的提取与表情识别问题,搭建一个双通道卷积神经网络来识别六种基本面部表情(高兴、愤怒、悲伤、恐惧、沮丧、惊讶)。发明内容
[0005]本发明目的在于搭建一个双通道卷积神经网络识别六种基本面部表情(高兴、愤怒、悲伤、恐惧、沮丧、惊讶),此方法对人群分布不均、尺度不一等问题具有很强的鲁棒性,同时能够通过视频帧间的关联信息增强人群计数的准确性。[0006]本发明的技术方案为:
[0007]一种基于双通道卷积神经网络对人脸表情识别的方法,包括以下步骤:[0008]1):进行数据预处理,减少背景信息干扰;[0009]2):搭建一个双通道卷积神经网络自动提取有效特征,并以加权的策略将特征融合;
[0010]3):利用softmax进行表情分类。[0011]进一步,所述步骤1)具体包括:[0012](1):人脸检测
[0013]采用Viola-Jones算法进行人脸检测,从而减少人脸图像中与表情分析无关的背景信息,增强特征描述子对不同面部表情的表达能力;
4
CN 108491835 A[0014][0015]
说 明 书
2/5页
(2):旋转校正
针对检测到的人脸图像中可能存在的角度差异,利用旋转变化矩阵进行校正,定
其中,Lx、Ly表示原始坐标,Lx’、Ly’表示变换后的坐
义如下:
标,θ表示旋转角度(通过测量两眼中心向量与水平方向的夹角得到);
[0016](3):降采样
[0017]降采样是为了减小待处理图片尺寸,降低算法复杂度,并保证输入数据尺度一致。本发明采用线性插值方法进行降采样,同时,为避免过分降采样导致人脸LBP图像信息丢失,将降采样后的图像尺寸定为64*64(单位:像素);[0018](4):数据样本扩充
[0019]由于目前人脸表情基准数据库中的样本量无法满足要求,因此本发明对原始数据进行旋转与平移产生合成数据,并添加高斯白噪声,从而人为地扩充数据样本。[0020](5):人脸LBP图像计算[0021]局部二值模式(Local Binary Pattern,LBP)是一种常用的图像局部纹理描述方法,它通过对比局部范围内的中心点与邻域点的像素值,得到关于该区域的二进制编码。[0022]得到某像素对应的LBP编码后,可以计算该像素的LBP值,计算方法如下:
其中,S()表示符号函数,N表示邻域点的数目,gc与gn分别表示中心
点与邻域点的像素值。通过计算图像每一点的LBP值,可以得到对应的LBP图像。[0023]进一步,所述步骤2)具体为:[0024](1):搭建双通道特征提取网络(Binary Channel-Feature Extraction Network,BC-FEN),以获取不同通道人脸图像与表情变化相关的特征。其中单通道特征提取网络包括一组输入层,两组卷积-下采样层(convolution-down sampling,C-S)以及一组特征向量层(feature vector,fv)。[0025](2):对于不同通道的输入图像,采用相同的网络结构,但是针对不同通道图像的特点调整网络参数。对于人脸灰度图像(描述全局信息),输入层大小为32×32像素,两组隐含层中卷积层与下采样层C1,S1,C2,S2大小分别为28×28,14×14,12×12,6×6,输出特征向量维度为500;对于对应的LBP图像(描述细节信息),输入层大小为32×32像素,两组隐层的卷积层和下采样层C1,S1,C2,S2大小分别为30×30,16×16,14×14,7×7,输出特征向量维度同样为500。[0026](3):对于任意通道,特征向量层与两个下采样层S2及S1同时相连,保证所提取特征具有多尺度特性。在此过程中,为了防止过拟合,在下采样层-特征向量层之间进行“dropout”操作(参数为0.5)。[0027](4):对fv1、fv2进行加权融合得到向量fw={p1,p2,…,pm},其中第i个成分pi通过如下方式计算得到:pi=α·si+(1-α)·li,其中,权重α用来衡量人脸灰度图像与对应的LBP图像对最终融合特征的贡献,α的取值通过实验方式确定。对于融合后的特征向量fw,将其输出到两个级联的全连接层fc1与fc2,其中fc1维度为300,fc2维度为100。[0028]进一步,所述步骤3)具体为:
5
CN 108491835 A[0029]
说 明 书
3/5页
(1):softmax函数可用于计算多类别分类问题的类别概率分布,假设对于给定输
其中,输入x与输出y都是K维向量,
分
入x:
母起到正则化作用,保证输出向量的每个成分在[0,1]范围内。
[0030](2)作为神经网络的输出,softmax函数中的值可用K个神经元来表示,即对给定输入x,每种分类的概率y可表示为
其中,P(y=k|x)表示输入
x属于第k类的概率。[0031](3)对于softmax函数的求解,本发明采用交叉熵作为损失函数,定义如下:
其中,zi表示输入样本的真实值,yi表示softmax输出值。采用基
于梯度下降优化的反推算法进行最小化,从而得到网络输出。[0032]本发明的有益效果:[0033](1)考虑到光照变化、局部遮挡、面部旋转等复杂因素,本发明对采集得到的人脸图像进行预处理以限制分析范围,从而提高人脸检测结果准确率。[0034](2)考虑到表情识别受到不同个体差异以及情绪强弱差异影响较大,本发明通过同时分析人脸灰度图像与对应的LBP图像,利用不同参数的卷积神经网络自动提取面部全局及细节特征,并通过加权融合分类网络进行特征融合。[0035](3)利用softmax分类不同表情从而解决问题,提高人脸表情识别的准确性。附图说明
[0036]图1是本发明提出的面部表情识别算法流程;[0037]图2是本发明中提出的LBP编码示意图;
[0038]图3是本发明中提出的双通道卷积神经网络中单通道特征提取网络结构图;[0039]图4是本发明中提出的加权融合分类网络结构图。
具体实施方式
[0040]下面将结合附图对本发明作进一步的说明,但本发明的保护范围并不限于此。[0041]图1给出了基于双通道卷积神经网络的人脸面部表情识别算法流程:[0042]本发明提出的人脸面部表情识别算法流程,包括图像预处理模块与双通道卷积神经网络(Binary Channel-Convolution Neural Network,BC-CNN),后者又由双通道特征提取网络(Binary Channel-Feature Extraction Network,BC-FEN)与加权融合分类网络(Weighted Merge Classify Network,WMCN)构成,可以同时完成人脸图像的特征提取与表情分类。本发明对输入的人脸图像进行预处理,包括人脸检测、旋转校正、降采样以及数据样本扩充,如果输入RGB图像,还需进行灰度化以降低计算复杂度。对于样本扩充后的灰度图像,计算对应的LBP图像,从而构成双通道样本集,用于后续的模型训练与测试。
6
CN 108491835 A[0043]
说 明 书
4/5页
本发明的具体操作步骤:
[0044]1)进行数据预处理,减少背景信息干扰[0045](1)人脸检测
[0046]采用Viola-Jones算法进行人脸检测,从而减少人脸图像中与表情分析无关的背景信息,增强特征描述子对不同面部表情的表达能力。[0047](2)旋转校正
[0048]针对检测到的人脸图像中可能存在的角度差异,利用旋转变化矩阵进行校正,定义如下:
其中,Lx、Ly表示原始坐标,Lx’、Ly’表示变换后的坐
标,θ表示旋转角度(通过测量两眼中心向量与水平方向的夹角得到)。[0049](3)降采样
[0050]降采样是为了减小待处理图片尺寸,降低算法复杂度,并保证输入数据尺度一致。本发明采用线性插值方法进行降采样,同时,为避免过分降采样导致人脸LBP图像信息丢失,将降采样后的图像尺寸定为64*64(单位:像素)。[0051](4)数据样本扩充
[0052]由于目前人脸表情基准数据库中的样本量无法满足要求,因此本发明对原始数据进行旋转与平移产生合成数据,并添加高斯白噪声,从而人为地扩充数据样本。[0053](5)人脸LBP图像计算[0054]局部二值模式(Local Binary Pattern,LBP)是一种常用的图像局部纹理描述方法,它通过对比局部范围内的中心点与邻域点的像素值,得到关于该区域的二进制编码。得到某像素对应的LBP编码后,可以计算该像素的LBP值,计算方法如下:
其中,S()表示符号函数,N表示邻域点的数目,gc与gn分别表示中心
点与邻域点的像素值。通过计算图像每一点的LBP值,可以得到对应的LBP图像。[0055]图2给出了LBP编码示意图。
[0056]2)搭建一个双通道卷积神经网络自动提取有效特征,并以加权的策略将特征融合[0057]图3给出了双通道卷积神经网络中单个通道特征提取网络结构图,其包括一组输入层,两组卷积-下采样层(convolution-down sampling,C-S)以及一组特征向量层(feature vector,fv)。
[0058]对于不同通道的输入图像,采用相同的网络结构,但是针对不同通道图像的特点调整网络参数。对于人脸灰度图像(描述全局信息),输入层大小为32×32像素,两组隐含层中卷积层与下采样层C1,S1,C2,S2大小分别为28×28,14×14,12×12,6×6,输出特征向量维度为500;对于对应的LBP图像(描述细节信息),输入层大小为32×32像素,两组隐层的卷积层和下采样层C1,S1,C2,S2大小分别为30×30,16×16,14×14,7×7,输出特征向量维度同样为500。
[0059]对于任意通道,特征向量层与两个下采样层S2及S1同时相连,保证所提取特征具有多尺度特性。在此过程中,为了防止过拟合,在下采样层-特征向量层之间进行“dropout”操作(参数为0.5)。
7
CN 108491835 A[0060]
说 明 书
5/5页
对fv1、fv2进行加权融合得到向量fw={p1,p2,…,pm},其中第i个成分pi通过如
下方式计算得到:pi=α·si+(1-α)·li,其中,权重α用来衡量人脸灰度图像与对应的LBP图像对最终融合特征的贡献,α的取值通过实验方式确定。对于融合后的特征向量fw,将其输出到两个级联的全连接层fc1与fc2,其中fc1维度为300,fc2维度为100。[0061]图4给出了加权融合分类网络结构图。[0062]3)利用softmax进行表情分类
[0063]softmax函数可用于计算多类别分类问题的类别概率分布,假设对于给定输入x:
其中,输入x与输出y都是K维向量,
分母起
到正则化作用,保证输出向量的每个成分在[0,1]范围内。[0064]作为神经网络的输出,softmax函数中的值可用K个神经元来表示,即对给定输入x,每种分类的概率y可表示为
其中,P(y=k|x)表示输入x
属于第k类的概率。
[0065]对于softmax函数的求解,本发明采用交叉熵作为损失函数,定义如下:
其中,zi表示输入样本的真实值,yi表示softmax输出值。采用基
于梯度下降优化的反推算法进行最小化,从而得到网络输出。[0066]以上所述对本发明进行了简单说明,并不受上述工作范围限值,只要采取本发明思路和工作方法进行简单修改运用到其他设备,或在不改变本发明主要构思原理下做出改进和润饰的等行为,均在本发明的保护范围之内。
8
CN 108491835 A
说 明 书 附 图
1/2页
图1
图2
图3
9
CN 108491835 A
说 明 书 附 图
2/2页
图4
10
因篇幅问题不能全部显示,请点此查看更多更全内容