首页 年龄估计方法及装置、电子设备及计算机可读存储介质

年龄估计方法及装置、电子设备及计算机可读存储介质

举报
开通vip

年龄估计方法及装置、电子设备及计算机可读存储介质(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112613379A(43)申请公布日2021.04.06(21)申请号202011496968.X(22)申请日2020.12.17(71)申请人深圳集智数字科技有限公司地址518000广东省深圳市南山区南山街道南山社区南新路1003号103(72)发明人黄泽元 (74)专利代理机构北京集佳知识产权代理有限公司11227代理人林哲生(51)Int.Cl.G06K9/00(2006.01)G06K9/62(2006.01)G06N3/04...

年龄估计方法及装置、电子设备及计算机可读存储介质
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112613379A(43)申请公布日2021.04.06(21)申请号202011496968.X(22)申请日2020.12.17(71)申请人深圳集智数字科技有限公司地址518000广东省深圳市南山区南山街道南山社区南新路1003号103(72)发明人黄泽元 (74)专利代理机构北京集佳知识产权代理有限公司11227代理人林哲生(51)Int.Cl.G06K9/00(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书10页附图5页(54)发明名称年龄估计方法及装置、电子设备及计算机可读存储介质(57)摘要本发明提供年龄估计方法及装置、电子设备及计算机可读存储介质,以提高年龄估算的准确性。该方法包括:目标神经网络接收目标图像;目标神经网络在训练过程中根据真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算分类损失值,基于分类损失值进行参数调整;目标图像是将不同的脸部图像按预设比例混合得到的混合脸部图像;目标神经网络对目标图像提取特征向量;目标神经网络基于特征向量,计算各年龄分类对应的概率值;将各年龄分类对应的概率值与年龄偏差值的乘积进行累加,得到年龄预测值;每一年龄分类对应的年龄偏差值是在训练过程中预测得到的,年龄偏差值属于参数。CN112613379ACN112613379A权 利 要 求 书1/2页1.一种年龄估计方法,其特征在于,包括:目标神经网络接收目标图像;所述目标神经网络在训练过程中根据真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算分类损失值,基于所述分类损失值进行参数调整;所述目标图像是将不同的脸部图像按预设比例混合得到的混合脸部图像;所述目标神经网络对所述目标图像提取特征向量;所述目标神经网络基于所述特征向量,计算各年龄分类对应的概率值;将各年龄分类对应的概率值与年龄偏差值的乘积进行累加,得到年龄预测值;每一年龄分类对应的年龄偏差值是在训练过程中预测得到的,所述年龄偏差值属于所述参数。2.如权利要求1所述的方法,其特征在于,所述训练过程包括:向神经网络模型输入图像样本由所述神经网络模型进行年龄预测;任一图像样本至少包括第二目标图像和年龄标签;所述第二目标图像是将包含不同年龄的脸部图像按预设比例混合,得到的混合脸部图像;计算图像样本的损失值;所述损失值至少包括根据所述第二目标图像的真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算的分类损失值;根据计算出的损失值进行参数调整,训练过程结束后,经参数调整后的神经网络模型为所述目标神经网络。3.如权利要求2所述的方法,其特征在于,所述损失值还包括:基于各年龄分类对应的概率值、年龄偏差值和真实年龄,计算得到的回归损失值。4.如权利要求3所述的方法,其特征在于,所述图像样本还包括:X张参考图像和相应的年龄标签;任一年龄标签包含真实年龄;X为正整数;所述损失值还包括绝对值损失;所述绝对值损失的计算方式包括:计算所述第二目标图像的年龄预测值与任一参考图像的年龄预测值之间的第一差值,以及,所述第二目标图像的真实年龄与所述任一参考图像的真实年龄的第二差值;计算所述第一差值与所述第二差值之间的差值的绝对值,得到X个差值绝对值;将X个差值绝对值累加,得到所述绝对值损失。5.如权利要求4所述的方法,其特征在于,所述根据计算出的损失值进行参数调整包括:计算绝对值损失与回归损失值、分类损失差的和值,作为总损失值;根据所述总损失值优化参数。6.如权利要求3所述的方法,其特征在于,所述分类损失值通过如下分类损失函数计算得到:Loss1=‑log(pg)+∑(|i‑g|/M)*(‑log(1‑pi));所述回归损失值通过如下回归损失函数计算得到:2Loss2=(∑pi*(i+Δi)–g);其中,g表示所述第二目标图像的真实年龄,i表示任一年龄分类,pg表示将所述第二目2CN112613379A权 利 要 求 书2/2页标图像的年龄预测为g的概率值,pi表示任一年龄分类对应的概率值,Δi表示所述任一年龄分类对应的年龄偏差值,M表示年龄分类的总数量。7.一种年龄估计装置,其特征在于,包括预处理模块、目标神经网络和后处理模块;所述目标神经网络在训练过程中根据真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算分类损失值,基于所述分类损失值进行参数调整;所述预处理模块用于:将不同的脸部图像按预设比例混合得到的目标图像;所述目标神经网络包括:输入单元,用于:接收目标图像;特征提取单元,用于:对所述目标图像提取特征向量;基于所述特征向量,计算各年龄分类对应的概率值;后处理模块,用于:将各年龄分类对应的概率值与年龄偏差值的乘积进行累加,得到年龄预测值;每一年龄分类对应的年龄偏差值是在训练过程中预测得到的,所述年龄偏差值属于所述参数。8.如权利要求7所述的装置,其特征在于,还包括训练模块,用于:向神经网络模型输入图像样本由所述神经网络模型进行年龄预测;任一图像样本至少包括第二目标图像和年龄标签;所述第二目标图像是将包含不同年龄的脸部图像按预设比例混合,得到的混合脸部图像;计算图像样本的损失值;所述损失值至少包括根据所述第二目标图像的真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算的分类损失值;根据计算出的损失值进行参数调整,训练过程结束后,经参数调整后的神经网络模型为所述目标神经网络。9.一种电子设备,至少包括处理器和存储器;其特征在于,处理器通过执行存储器中存放的程序实现如权利要求1‑6任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1‑6任一项所述的方法。3CN112613379A说 明 书1/10页年龄估计方法及装置、电子设备及计算机可读存储介质技术领域[0001]本发明涉及计算机领域,特别涉及年龄估计方法及装置、电子设备及计算机可读存储介质。背景技术[0002]在一些场景需要使用神经网络基于人脸图像进行年龄估计。一种估计方式是将年龄估计作为分类任务,也即,预先 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 年龄分类(比如0‑100岁,每一整数年龄值为一个分类),由神经网络计算各年龄分类的概率值,取最大的概率值所对应的年龄分类作为预测年龄值。举例来讲,假定25岁这一年龄分类的概率值为0.8,在0‑100这101个年龄分类中其概率值最大,则会选择25岁作为预测的年龄值。[0003]其在训练过程中,采用了分类损失函数计算分类损失值进行参数调整,其使用的分类损失函数为Loss=‑log(pg)+∑(‑log(1‑pi)),其中,g表示真实年龄,Pg表示该真实年龄所对应的年龄分类由神经网络计算出的概率值,i表示任一年龄分类,Pi表示神经网络计算出的该年龄分类的概率值。[0004]在上述训练过程中,年龄分类之间是相互独立的,如张三的真实年龄是24岁,那么只有24这个类别为正类,其他比如0岁,23岁,25岁,99岁都为负类,并无任何差别。假定0岁和23岁对应的概率均为0.02,那么通过传统的分类损失函数计算的0岁对应的损失值,与23岁对应的损失值是相同的。但实际上将张三的年龄预测为23岁或25岁,比将其预测为0岁或99岁要更为贴近事实。[0005]发明人因而发现,上述年龄估算方式和神经网络训练方式无视了年龄并非整数值的特点,并且,也忽略了年龄彼此并非独立的特点。这使得传统的年龄估算方式的准确度相对不高。发明 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 [0006]有鉴于此,本发明实施例提供年龄估计方法及装置、电子设备及计算机可读存储介质,以提高年龄估算的准确性。[0007]为实现上述目的,本发明实施例提供如下技术 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 :[0008]一种年龄估计方法,包括:[0009]目标神经网络接收目标图像;所述目标神经网络在训练过程中根据真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算分类损失值,基于所述分类损失值进行参数调整;所述目标图像是将不同的脸部图像按预设比例混合得到的混合脸部图像;[0010]所述目标神经网络对所述目标图像提取特征向量;[0011]所述目标神经网络基于所述特征向量,计算各年龄分类对应的概率值;[0012]将各年龄分类对应的概率值与年龄偏差值的乘积进行累加,得到年龄预测值;每一年龄分类对应的年龄偏差值是在训练过程中预测得到的,所述年龄偏差值属于所述参4CN112613379A说 明 书2/10页数。[0013]可选的,所述训练过程包括:向神经网络模型输入图像样本由所述神经网络模型进行年龄预测;任一图像样本至少包括第二目标图像和年龄标签;所述第二目标图像是将包含不同年龄的脸部图像按预设比例混合,得到的混合脸部图像;计算图像样本的损失值;所述损失值至少包括根据所述第二目标图像的真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算的分类损失值;根据计算出的损失值进行参数调整,训练过程结束后,经参数调整后的神经网络模型为所述目标神经网络。[0014]可选的,所述损失值还包括:基于各年龄分类对应的概率值、年龄偏差值和真实年龄,计算得到的回归损失值。[0015]可选的,所述图像样本还包括:X张参考图像和相应的年龄标签;任一年龄标签包含真实年龄;X为正整数;所述损失值还包括绝对值损失;所述绝对值损失的计算方式包括:计算所述第二目标图像的年龄预测值与任一参考图像的年龄预测值之间的第一差值,以及,所述第二目标图像的真实年龄与所述任一参考图像的真实年龄的第二差值;计算所述第一差值与所述第二差值之间的差值的绝对值,得到X个差值绝对值;将X个差值绝对值累加,得到所述绝对值损失。[0016]可选的,所述根据计算出的损失值进行参数调整包括:计算绝对值损失与回归损失值、分类损失差的和值,作为总损失值;根据所述总损失值优化参数。[0017]可选的,所述分类损失值通过如下分类损失函数计算得到:[0018]Loss1=‑log(pg)+∑(|i‑g|/M)*(‑log(1‑pi));[0019]所述回归损失值通过如下回归损失函数计算得到:[0020]2Loss2=(∑pi*(i+Δi)–g);[0021]其中,g表示所述第二目标图像的真实年龄,i表示任一年龄分类,pg表示将所述第二目标图像的年龄预测为g的概率值,pi表示任一年龄分类对应的概率值,Δi表示所述任一年龄分类对应的年龄偏差值,M表示年龄分类的总数量。[0022]一种年龄估计装置,包括预处理模块、目标神经网络和后处理模块;所述目标神经网络在训练过程中根据真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算分类损失值,基于所述分类损失值进行参数调整;[0023]所述预处理模块用于:将不同的脸部图像按预设比例混合得到的目标图像;[0024]所述目标神经网络包括:[0025]输入单元,用于:接收目标图像;[0026]特征提取单元,用于:[0027]对所述目标图像提取特征向量;[0028]基于所述特征向量,计算各年龄分类对应的概率值;[0029]后处理模块,用于:[0030]将各年龄分类对应的概率值与年龄偏差值的乘积进行累加,得到年龄预测值;每一年龄分类对应的年龄偏差值是在训练过程中预测得到的,所述年龄偏差值属于所述参数。[0031]可选的,还包括训练模块,用于:向神经网络模型输入图像样本由所述神经网络模型进行年龄预测;任一图像样本至少包括第二目标图像和年龄标签;所述第二目标图像是5CN112613379A说 明 书3/10页将包含不同年龄的脸部图像按预设比例混合,得到的混合脸部图像;计算图像样本的损失值;所述损失值至少包括根据所述第二目标图像的真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算的分类损失值;根据计算出的损失值进行参数调整,训练过程结束后,经参数调整后的神经网络模型为所述目标神经网络。[0032]一种电子设备,至少包括处理器和存储器;其特征在于,处理器通过执行存储器中存放的程序以及调用其他设备实现上述任一项的方法。[0033]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的方法。[0034]可见,在本发明实施例中,在训练神经网络的过程中,引入了真实年龄值与各年龄分类的距离计算分类损失值,假定真实年龄为24岁,0岁和23岁对应的相同概率,但由于0岁与真实年龄的距离,要大于23岁与真实年龄的距离,那么根据距离计算分类损失值时,预测为0岁对应的损失值,要大于预测为23岁对应的损失值,这也更为贴近事实,训练出的目标神经网络的预测结果也更为准确。[0035]同时,在预测过程中,在得到年龄分类对应的概率值,本发明实施例并没有直接将最大的概率值所对应的年龄分类作为预测的年龄值。而是将各年龄分类对应的概率值与年龄偏差值的乘积进行累加,得到的累积值一般不是整数值,符合年龄并非整数值的特点。附图说明[0036]图1为本发明实施例提供的年龄估计装置的一种示例性结构;[0037]图2a为本发明实施例提供的年龄估计方法的一种示例性流程;[0038]图2b为本发明实施例提供的全连接值向量示意图;[0039]图3为本发明实施例提供的迭代训练的示例性流程;[0040]图4为本发明实施例提供的迭代训练的另一示例性流程;[0041]图5为本发明实施例提供的迭代训练的又一示例性流程;[0042]图6为本发明实施例提供的年龄估计装置的另一种示例性结构;[0043]图7为本发明实施例提供的电子设备的一种可能的硬件结构示意图。具体实施方式[0044]本发明提供一种年龄估计方法及装置,电子设备及计算机可读存储介质。[0045]上述年龄估计装置或电子设备具体可为提供年龄估计服务的计算机\计算机集群、服务器\服务器集群、智能终端等,其可基于改进后的残差神经网络实现年龄估计。[0046]请参见图1,上述年龄估计装置的一种示例性结构包括:预处理模块1、目标神经网络2和后处理模块3。[0047]其中,目标神经网络2在训练过程中根据真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算分类损失值,并基于分类损失值进行了参数调整。[0048]上述各模块可以软件或硬件形式部署于同一设备中,也可分别部署在独立的设备中。[0049]年龄估计装置可先进行训练,训练结束后,进行正式预测。现先从正式预测阶段开6CN112613379A说 明 书4/10页始,介绍年龄估计装置如何进行工作。[0050]图2a示出了上述年龄估计装置所执行的年龄估计方法的一种示例性流程,包括:[0051]S0:目标神经网络接收第一目标图像;[0052]第一目标图像(也可称为目标图像)即为需要进行年龄估计的图像。[0053]在一个示例中,上述第一目标图像可以是将不同的脸部图像按预设比例混合得到的混合脸部图像。可由前述的预处理模块1将不同的脸部图像按预设比例混合得到的混合脸部图像。当然,在不需要进行混合的情况下,也可不使用预处理模块1。[0054]上述不同的脸部图像来自同一个人。[0055]在混合前可先对两脸部图像进行图像校准,主要是对人脸的关键点(五官)对准。[0056]进行校准后,假定是RGB通道,则分别将各通道的像素值按预设比例β相累加。[0057]假设β=0.4,两张脸部图像在某一通道的某一像素点的像素值分别是a,b,则可按0.4*a和0.6*b进行混合。[0058]在正式预测阶段,目标图像为待识别的图像。[0059]目标图像可由其他设备输入,在年龄估计装置具有拍摄功能时,也可由年龄估计装置拍摄得到。[0060]S1:目标神经网络对第一目标图像提取特征向量。[0061]在一个示例中,可以基于残差神经网络作为骨干,也即,将训练后的残差神经网络目标神经网络。[0062]残差神经网络如何提取特征向量,可参考传统的残差神经网络,在此不作赘述。[0063]此外,也可提取多尺度特征,再进行融合。[0064]举例来讲,可进行如下操作:[0065]步骤a:将第一目标图像并行进行N个分支卷积处理。[0066]残差神经网络可包括多个残差块,传统的残差神经网络中,每一残差块包含3个卷积层,第一个卷积层进行1*1卷积操作,用以负责减小维度,中间的卷积层执行3*3卷积操作,第三个卷积层进行1*1卷积操作,负责增加维度。[0067]传统残差神经网络在一个残差块内的尺度是单一的。[0068]为了进行多尺度融合,可将每一残差块的中间卷积层,改进成包括并行的N个分支,对第一卷积层的输出结果进行卷积处理,再将N个分支卷积处理得到的卷积结果进行融合,然后输出给第三个卷积层进行处理。[0069]其中,任两个分支卷积处理采用的卷积相关参数不同,卷积相关参数包括:卷积核和卷积次数中的至少一种。[0070]举例来讲,假定将中间卷积层改进为包括并行的四个分支,第一个分支卷积计算1次,第二个分支卷积计算2次,第三个分支卷积计算3次,第四个分支卷积计算4次,可以看到,由于卷积计算次数不同,这4路卷积的感受野是不一样的。[0071]此外,各分支在进行卷积计算时的卷积核也可不尽相同。[0072]步骤b,将N个分支卷积处理得到的卷积结果进行融合,得到融合结果。[0073]融合的方式有多种,例如,在一个示例中,可直接将N个分支卷积处理得到的卷积结果进行堆叠,也即拼接在一起。[0074]在另一示例中,则可采用如下的融合方式:7CN112613379A说 明 书5/10页[0075]假定任一卷积结果包括m个通道的特征值;m为正整数,例如256;m个通道中的任一通道可称为通道i。[0076]步骤1:计算每一卷积结果中通道i的特征值所对应的概率值,得到N个概率值;[0077]计算方式为:[0078]将N个分支卷积处理得到的卷积结果分别进行池化和全连接层计算,得到N个全连接值向量;其中,每一全连接值向量包括m个通道对应的全连接值。全连接值向量示例性地1N可参见图2b。图2b中的C1至Cm为全连接值,下标表示通道,上标表示属于哪个全连接值向量。[0079]计算每一全连接值向量中在通道i所对应的全连接值的概率值,得到N个概率值。[0080]以对4个分支的卷积结果进行融合为例:可对每一路卷积结果进行池化和全连接计算,获得维度为(c,1,1)的结果(C表示通道,c是256个通道的全连接数),也即全连接值向量,再对这4个全连接值向量做横向的softmax,得到每一全连接值向量在各个通道的概率值。[0081]步骤2:将最大概率值所对应的特征值,作为融合结果中在通道i所对应的融合特征值。[0082]1请参见图2b,以道道1为例,通道1在各全连接值向量中对应的全连接值分别为C1、234C1、C1、C1。[0083]2若全连接值向量2中的C1具有最大概率值,则将融合结果中在通道i所对应的融合特征值。[0084]步骤c:根据融合结果提取得到特征向量。[0085]仍以残差神经网络为例,最后一个残差块的输出为特征向量。[0086]S2:目标神经网络基于特征向量,计算各年龄分类对应的概率值。[0087]年龄分类一般为整数的年龄值。例如,年龄分类可包括0‑100岁。当然,年龄分类本质上类别可以是任意的整数值,分类的总数量也可灵活设计,如可包括10类,20类等。[0088]S3:将各年龄分类对应的概率值与年龄偏差值的乘积进行累加,得到年龄预测值。[0089]本步骤可由目标神经网络,也可由前述的后处理模块执行。[0090]所对应的计算公式如下:[0091]∑pi*(i+Δi)。[0092]其中,i表示任一年龄分类,pi表示任一年龄分类对应的概率值,Δi表示该任一年龄分类对应的年龄偏差值。Δi是在训练过程中预测得到的,可设计为残差神经网络添加一个分支去预测。Δi属于系统参数,会在训练过程中被优化。[0093]在本发明实施例中,在预测过程中,在得到年龄分类对应的概率值,本发明实施例并没有直接将最大的概率值所对应的年龄分类作为预测的年龄值。而是将各年龄分类对应的概率值与年龄偏差值的乘积进行累加,得到的累积值一般不是整数值,符合年龄并非整数值的特点。[0094]下面重点介绍如何对神经网络模型进行训练。[0095]请参见图3,每一次迭代训练示例性地包括如下步骤:[0096]S31:向神经网络模型输入图像样本,由神经网络模型进行年龄预测。[0097]在本步骤中,神经网络模型会根据图像样本进行年龄估计的学习。8CN112613379A说 明 书6/10页[0098]图像样本至少可包括第二目标图像和年龄标签;第二目标图像是将包含不同年龄的脸部图像按预设比例混合,得到的混合脸部图像,而年龄标签也是混合脸部图像所对应的实际年龄(真实年龄)。[0099]上述不同的脸部图像可来自同一个人,也可来自不同的人。例如,可将张三的脸部图像(23岁)与李四的脸部图像(33岁)进行像素混合。[0100]在混合前先对两脸部图像进行图像校准,主要是对人脸的关键点(五官)对准。进行校准后,假定是RGB通道,则分别将各通道的像素值按预设比例β相累加:[0101]假设β=0.4,两张脸部图像在某一通道的某一像素点的像素值分别是a,b,则可按0.4*a和0.6*b进行混合。[0102]混合后人脸的真实年龄的计算也相类似,0.4*23+0.6*33=29.4。得到29.4即可作为第二目标图像的年龄标签。[0103]采用这种混合策略,不用增加任何数据量,就可以得到额外的信息,增强了神经网络模型对年龄的识别效果。[0104]S32:计算图像样本的分类损失值。[0105]分类损失值根据第二目标图像的真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算得到。[0106]在一个示例中,分类损失值可通过如下分类损失函数计算得到:[0107]Loss1=‑log(pg)+∑(|i‑g|/M)*(‑log(1‑pi))。[0108]其中,g表示第二目标图像的真实年龄pg表示将第二目标图像的年龄预测为g的概率值,i表示任一年龄分类,pi表示任一年龄分类对应的概率值,M表示年龄分类的总数量。[0109]需要说明的是,传统分类损失函数为Loss=‑log(pg)+∑(‑log(1‑pi)),在传统分类损失函数的计算中,年龄分类之间是相互独立的。举例来讲,假定张三的真实年龄是24岁,0岁和23岁对应的概率均为0.02,那么通过传统的分类损失函数计算的0岁对应的损失值,与23岁对应的损失值是相同的。但实际上将张三的年龄预测为23岁或25岁,比将其预测为0岁或99岁要更为贴近事实。[0110]因此,在本实施例所提供的分类损失函数中加入了距离(即|i‑g|)。假定张三的真实年龄为24岁,0岁和23岁对应的相同概率,但由于0岁与真实年龄的距离,要大于23岁与真实年龄的距离,那么根据距离计算分类损失值时,预测为0岁对应的损失值,要大于预测为23岁对应的损失值,这也更为贴近事实,训练出的目标神经网络的预测结果的也更为准确。[0111]S33:根据计算出的分类损失值进行参数调整。[0112]如何进行调整可参考现有的方式,在此不作赘述。[0113]传统年龄估计,会将年龄预测作为分类任务或回归任务,对于回归任务而言,不像分类任务一样去预测样本的类别,而是预测具体的数字。其问题是容易过拟合。[0114]在本发明实施例中,还可将回归任务和分类任务将结合,请参见图4,其在训练过程示例性地包括如下步骤:[0115]S41‑S42与S31‑S32相同,在此不作赘述。[0116]S43:基于各年龄分类对应的概率值、年龄偏差值和真实年龄,计算回归损失值。[0117]在一个示例中,回归损失值可通过如下回归损失函数计算得到:[0118]2Loss2=(∑pi*(i+Δi)–g);9CN112613379A说 明 书7/10页[0119]其中,g表示第二目标图像的真实年龄,i表示任一年龄分类,pg表示将第二目标图像的年龄预测为g的概率值,pi表示任一年龄分类对应的概率值,Δi表示任一年龄分类对应的年龄偏差值。[0120]前已述及,传统的回归任务会让神经网络输出一个值,然后与真实值做比较计算损失,其问题是容易过拟合,直接回归一个值缺乏可解释性,也难以和分类损失做兼容。[0121]在本实施例中,假定年龄分类为0‑100,可将回归损失值设计为概率值与年龄偏差值相乘做累加。这样就非常容易与分类任务做结合。[0122]并且,年龄偏差值是个0‑1之间的数,实际中年龄也不是总是整数。引入年龄偏差值相对整数的年龄分类更具有代表性。[0123]S44:根据计算出的分类损失值和回归损失值进行参数调整。[0124]具体的,可将分类损失值和回归损失值相加,根据相加结果进行参数调整。如何进行调整可参考现有的方式,在此不作赘述。[0125]年龄存在“比较”的特点,例如,李四比张三大9岁。孤立地计算分类或回归,都少了这种视角。所以,在下面的实施例中,加入相比较的图像进行联合训练。[0126]请参见图5,其在训练过程示例性地包括如下步骤:[0127]S51:向神经网络模型输入包括第二目标图像、X张参考图像和相应的年龄标签,由神经网络模型进行年龄预测。[0128]也即,在本实施例中,图像样本包括:第二目标图像、X张参考图像和各图像相应的年龄标签。X为正整数。[0129]任一年龄标签包含真实年龄。[0130]以X=2为例,可输入一张真实年龄大于第二目标图像中的真实年龄的图像,和一张真实小于第二目标图像的真实年龄的图像。[0131]参考图像可为同一人的脸部图像,也可为不同人的脸部图像,也可以是混合图像。[0132]S52‑S53与前述的S42‑S43相同,在此不作赘述。[0133]S54:计算绝对值损失。[0134]在一个示例中,绝对值损失的计算方式包括:[0135]步骤A:计算第二目标图像的年龄预测值与任一参考图像的年龄预测值之间的第一差值,以及,第二目标图像的真实年龄与任一参考图像的真实年龄的第二差值;[0136]神经网络模型会预测第二目标图像和各参考图像的的年龄值,采用的计算是:∑pi*(i+Δi)。[0137]在得到年龄预测值后,会计算第一差值和第二差值。[0138]举例来讲,第二目标图像、两张参考图像的年龄预测值分别是a1、b1、c1,真实年龄分别为a2、b2、c2,则第一差值包括(a1‑b1)和(a1‑c1),第二差值包括(a2‑b2)和(a2‑c2)。[0139]步骤B:计算第一差值与第二差值之间的差值的绝对值,得到X个差值绝对值。[0140]沿用前例,可得差值分别为:(a1‑b1)‑(a2‑b2),和(a1‑c1)‑(a2‑c2)。[0141]再对差值取绝对值。[0142]步骤C:将X个差值绝对值累加,得到绝对值损失。[0143]S55:计算绝对值损失与回归损失值、分类损失差的和值,作为总损失值,根据总损失值优化参数。10CN112613379A说 明 书8/10页[0144]在本实施例中,引入了绝对值差值,引进彼此之间的年龄差作为约束,使年龄估计不再是孤立的预测。在本发明其他实施例中,也可不计算分类损失值和回归损失值,直接计算绝对值损失来优化参数。[0145]需要说明的是,无论是何种训练方式,训练过程结束后,经参数调整后的神经网络模型为目标神经网络。[0146]下面介绍年龄估计装置。请参见图1,其示例性的包括:[0147]预处理模块1、目标神经网络2和后处理模块3。[0148]其中,预处理模块用于:将不同的脸部图像按预设比例混合得到的第一目标图像;[0149]在训练过程中,预处理模块可用于将不同的脸部图像按预设比例混合得到的第二目标图像;[0150]请参见图6,目标神经网络2包括:[0151]输入单元21,用于:接收第一目标图像;[0152]特征提取单元22,用于:[0153]对第一目标图像提取特征向量;[0154]基于特征向量,计算各年龄分类对应的概率值;[0155]后处理模块3,用于:[0156]将各年龄分类对应的概率值与年龄偏差值的乘积进行累加,得到年龄预测值;每一年龄分类对应的年龄偏差值是在训练过程中预测得到的,年龄偏差值属于上述参数。[0157]当然,后处理模块3也可作为目标神经网络2的组成部分。[0158]具体细节请参见前述介绍,在此不作赘述。[0159]在本发明其他实施例中,上述装置还可包括训练模块。[0160]或者,可由独立的训练设备完成训练。[0161]训练模块或训练设备用于:[0162]向神经网络模型输入图像样本由神经网络模型进行年龄预测;任一图像样本至少包括第二目标图像和年龄标签;第二目标图像是将包含不同年龄的脸部图像按预设比例混合,得到的混合脸部图像;[0163]计算图像样本的损失值;损失值至少包括根据第二目标图像的真实年龄值与各年龄分类的距离、真实年龄所对应的概率值以及各年龄分类的概率值计算的分类损失值;[0164]根据计算出的损失值进行参数调整,训练过程结束后,经参数调整后的神经网络模型为目标神经网络。[0165]具体细节请参见前述介绍,在此不作赘述。[0166]在本发明其他实施例中,上述损失值还包括:基于各年龄分类对应的概率值、年龄偏差值和真实年龄计算的回归损失值。[0167]具体细节请参见前述介绍,在此不作赘述。[0168]在本发明其他实施例中,上述图像样本还可包括:X张参考图像和相应的年龄标签;任一年龄标签包含真实年龄;[0169]损失值还可包括绝对值损失;[0170]训练模块或训练设备还用于通过如下计算方式计算绝对值损失:[0171]计算第二目标图像的年龄预测值与任一参考图像的年龄预测值之间的第一差值,11CN112613379A说 明 书9/10页以及,第二目标图像的真实年龄与任一参考图像的真实年龄的第二差值;[0172]计算第一差值与第二差值之间的差值的绝对值,得到X个差值绝对值;[0173]将X个差值绝对值累加,得到绝对值损失。[0174]具体细节请参见前述介绍,在此不作赘述。[0175]图7示出了上述实施例中的年龄估计装置或电子设备的一种可能的硬件结构示意图,包括:总线、处理器71、存储器72、通信接口73、输入设备74和输出设备75。处理器71、存储器72、通信接口73、输入设备74和输出设备75通过总线相互连接。其中:[0176]总线可包括一通路,在计算机系统各个部件之间传送信息。[0177]处理器71可以是通用处理器,例如通用中央处理器(CPU)、网络处理器(Network Processor,简称NP)、微处理器等,也可以是特定应用集成电路(application‑specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。[0178]存储器72中保存有执行本发明技术方案的程序或脚本,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。脚本则通常以文本(如ASCII)保存,只在被调用时进行解释或编译。[0179]输入设备74可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、语音输入装置、触摸屏等。[0180]输出设备75可包括允许输出信息给用户的装置,例如显示屏、扬声器等。[0181]通信接口73可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。[0182]处理器71通过执行存储器72中所存放的程序,可实现执行时实现上述的年龄估计方法,也可实现上述实施例提供的预处理模块、目标神经网络和后处理模块等的功能。[0183]详细介绍请参见本文前述记载,在此不作赘述。[0184]本发明实施例还要求保护一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的年龄估计方法。[0185]本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,之处参见方法部分说明即可。[0186]专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及模型步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。[0187]结合本文中所公开的实施例描述的方法或模型的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、WD‑ROM、或技术12CN112613379A说 明 书10/10页领域内所公知的任意其它形式的存储介质中。[0188]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。13CN112613379A说 明 书 附 图1/5页图1图2a14CN112613379A说 明 书 附 图2/5页图2b图315CN112613379A说 明 书 附 图3/5页图416CN112613379A说 明 书 附 图4/5页图5图617CN112613379A说 明 书 附 图5/5页图718
本文档为【年龄估计方法及装置、电子设备及计算机可读存储介质】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥10.0 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
掌桥科研
掌桥科研向科研人提供中文文献、外文文献、中文专利、外文专利、政府科技报告、OA文献、外军国防科技文献等多种科研资源的推广、发现、揭示和辅助获取服务,以及自动文档翻译、人工翻译、文档格式转换、收录引证等科研服务,涵盖了理、工、医、农、社科、军事、法律、经济、哲学等诸多学科和行业的中外文献资源。
格式:pdf
大小:718KB
软件:PDF阅读器
页数:18
分类:
上传时间:2022-01-25
浏览量:0