基于深度学习的人脸识别技术综述.docx
基于深度学习的人脸识别技术综述简介:人脸识别是计算机视觉研究领域的一个热点,同时人脸识别的研究领域非常广泛。因此,本技术综述限定于:一,在LFW数据集上(LabeledFacesintheWild)兼得优秀结果的方法二,是采用深度学习的方法前言1.FW数据集(LabeledFaCeSlntheWild)是目前用得最多的人脸图像数据库。该数据库共13,233幅图像,其中5749个人,其中1680人有两幅及以上的图像,4069人只有幅图像C图像为250.250大小的JPEG格式。绝大多数为彩色图,少数为灰度图。该数据库采集的是自然条件下人脸图片,目的是提高自然条件下人脸识别的精度。该数据集有6中评价标准:»Unsupervised;二,Image-restrictedwithnooutsidedata;三,Unrestrictedwithnooutsidedata:N,Image-restrictedwithlabel-freeoutsidedata:五,Unrestrictedwithlabel-freeoutsidedata:六,Unrestrictedwithlabeledoutsidedata:目前,人工在该数据集上的准确率在0S4270992(L在该数据集的第六种评价标准下(无限制,可以使用外部标注的数据),许多方法已经赶上(超过)人工识别精度,比方face+QeeplD3,EQJ ST-HSOd 9nsHuman PerformanceHunanr unneledHunan, cropped Hman, inverse askHuman,funneled110.9920Humanzcropped110.9753Human,inversemask】0.9427Table7:Meanclassificationaccuracy0andstandarderrorOfthemeanSee.l8.2B.3.4.3e.0.7.8.9falsepositiverateFaceNet 等。Figure7:ROCcurvesaveragedover10foldsofView2.图-/发一:人类在LFW数据集上的识别精度表二:第六种标推下,局部模型的识别准确率(详情参见IfW结果)Unrestricted,LabeledOutrideDataResult%Simileclassifiers0.8472±0.0041AttributeandSimileclassifiers110.8554±0.35MultiplLE*ConM0.8445±0.0046Associate-Predicte0.9057±0.56TOnVVS-Pete230.9310士0.0135Tom-VS-Pete÷Attribute30.9330±0.0128combinedJointBayesian%0.9242±0.0108KighYmLBP"0.9517±0.0113DFD330.8402±0.0044TLJointBay3an"0.9633±0.0108r2011b190.9130±0.30Face+400.9950上0.36DpFac-esmbe10.9735±OoO25ConvNet-RBM420.9252土0.38POOF-gradhist440.9313±0.0040PooFXOGy0.9280±0.0047FRFCn'50.9645±O.25DeepID460.9745±0.0026JUSSianFace"70.952±0.0066DeepID2480.9915±0.13530.9333±0.0124D<pID2*550.W7±0.12560.9808±0.16DeepID3570.9953±0.10Insky.so0.9551土0.13Uni-UM600.9900±0.32FaCeNet620.9963士0.09续上表本文综述的人脸识别方法包括以卜几个筛选标准:一,在上表中识别精度超过0.95(超过人类的识别准确度"二,公布了方法局部结果为商业公司提交,方法并未公布,比方Tencent-Bestlmage):三,使用深度学习方法:三,近两年的结果。本文综述的方法包括:1,face+(0.9950J;2,DeepFace(0.9735):3,FR+FCN(0.9645):4.DeepID(0.9745):5,FaceNet(0.9963);6.baid的方法(0.9977);7,pose+shap+xpressionaugmentation(0.9807);8.CNN-3DMMestimation(0.9235,准确率没那么高,但是值得参考).人脸识别方法1,fac+(0.9950)参考文献:Naive-DeepfaceRecognition:TouchingtheLimitofLFWBenchmarkorNot?face+从网络上搜集了5million张人脸图片用于训练深度卷积神纾网络模型,在LFW数据集上准确率非常高。该篇文章的网路模型很常规(常规深度卷积神经网络模型),但是提出的问题是值得参考的。问题-:他们的MegviiFaceRecognitionSystem经过训练后,在LFW数据集上到达了0.995的准确率。在宾实场景测试中(ChineseID(CHID),该系统的假阳性率(FP=1O-5)非常低.但是,真阳性率仅为066,没有到达真实场景应用要求其中,年静差异(包括intmvariatioru同一个人,不同年龄照片:以及intervaHom不同人,不同年龄照片)是影响模型准确率原因之一而在该测试标准(CHlD)E人类表现的准确率大于0.90Figure5.SomeFailedCasesintheCHTDBenchmark.TherecognitionsystemsuffersfromIheagevariationsintheCHIDbenchmark,includingintra-variation(i.c.,sameperson'sfacesCupturedindiITcrentage)andinter-variation(i.e.,peopleWithdifferentages).Becauselittleagevariationiscapturedbytheweb-collecteddata,notsurprisingly,thesystemcannotwellhandlethisvariation.Indeed,wedohumantestonallthesefailedcases.Resultsshowthat90%failedcasescanbesolvedbyhuman.Theresiillexistsabiggapbetweenmachinerecognitionandhumanlevel.图1-1:在CHlD中出错的样本问题二,数据采集偏IL基丁网络采集的人脸数据集存在偏整。这些偏差表Si在,1,个体之间照片数量差异很大I2,大局部采集的照片都是,微笑,化装,年轻,漂亮的图片.这些和真实场景中差异较大。因此,尽管系统在LFW数据集上有高准确率,在现实场景中准确率很低。批注(pl:假阳性率.英语名称IfalSe p。SitiVerate. FPR.通俗名称;误论率或第1类错误的。解择:IP实际无病0阴性,但被昇为有病或阳性的百分 比.问题三,模型测试I假阳性率)非常低.但是现实应用中,人们更关注I真阳性率!。批注p2:出阳性率(UUePOmiVeQte, TPR).又称Ift感 度(sensitivity. SEN).即实际有病而按该筛位试验的标 ,被正硝修文为有病的百分比.它反映输检试验发现病 人的能力。问题四:人脸图片的角度,光线,闭合(开口、闭口)和年汾等差异相互的作用,导致人脸识别系统现实应用准确率很低因此,该文章提出未来进一步研究的方向。方向一M从视易中提取训练数据.视算中人脸画面接近于现实应用场景(变化的角度,光照,表情等);方向二,通过人脸合成方法1加训练数据.因为单个个体不同的照片很困难(比方,难以搜集大量的单个个体不同年龄段的照片,可以采用人脸合成的方法(比方3D人脸重建)生成单个个体不同年龄段的照片)。该文章提出的方向在后续方法介绍中均有表达。2,DeepFace(0.9735)参考文献:Deepface:Closingthegaptohumal-levelperformanceinfaceverification2.1 简介常规人脸识别流程是:人脸检澳1-对齐-表达-分类。本文中.我们通过额外的3d模虱改良了人Ift对齐的方法.然后,通过基于4million人脸图像(4000个个体)调练的一个9层的人工神经网络来进行人脸特征表达.我们的模型在LFW数据集上取得了0.9735的准确率.该文章的亮点有以下几点:一,基于3d模型的人脸对齐方法:-.大数据训练的人工神经网络。2.2 人脸对齐方法成正面图像,文中使用的人脸对齐方法包括以下几步:1.通过6个特征点检测人脸;2,剪切:3.建立Delagay triangulation: 4,参考标准3d模型;5.将3d模型比对到图片上;6,进行仿射变形;7,最终生FigUre L Alignment PiPdin (a) The detected face. Wilh 6 initial fiducial points, (b) The induced 2D-aligned crop, (c) 67 HdUClal points on IhC 2Daligncd crop with Iheir corresponding Delaunay triangulation, we UddCd Ihanglcs on IhC contour to avoid Wsconiinuii心.(d) The reference 3D shape irunsrrd k> IhC 2D-aligncd CroP image-plane. (C) Triangle visibility w.r.t. to the fitted 3D-2D camera; black triangles arc lc、 isible. (f) The 67 Iiducial points induced by the 3D model that arc using to direct the piecc-wisc ainc warpping, (g) The Iinal Irontalized crop, (h) A neu view generated hy the 3D model (not used in IhiS paper).图2一1人脸对齐的流程2.3深度神经网络hpmr: Otfhnr4IhrIkffFacrar<ik<lMv AfmNHadD(II'mgkwmMMEp3现NEUliIu,n WtrrMp加eMinZ*, hdlu*dby m fealh >flccied byer aid i*> Iulh-Iumeiitd l*)tn. Cu4n lh>tr* naput< (w each by l¼e t nclMle m*r th> 10 »IiMePMrilmcIE. hr NKVt ih» W c<w from d k<cal Md Glb ymrtMd y图2-2:深度神经网络2.4结果该模型在LFW数据集上取得了0.9735准确率,在其它数据集比方SocialFaceClassification(SFC)dataset和YouTubeFaces(YTF)dataset也取得/好结果,详情请参见原文C3. FR÷FCN(0.9645)参考文献:RecoverCanonical-ViewFacesintheWildwithDeepNeuralNetworks3.1 筒介自然条件下,因为角度,光线,occlusions(咬合张口闭口),低分辨率等原因,使人脸图像在个体之间有很大的差异,影响到人脸识别的广泛应用本文提出了一种新的深度学习模型,可以学习人脸图像看不见的一面。因此,模型可以在保持个体之间的差异的同时,极大的减少单个个体人脸图像(同一人,不同图片)之间的差异。与当前使用2d环境或者3d信息来进行人脸重建的方法不同,该方法宣接从人脸图像之中学习到图像中的短那么观察体(Carwnicalview,标准正面人脸图像)。作者开发了一种从个体照片中自动选择合成CanOniCal-VieW的方法。在应用方面,该人脸恢更方法已经应用于人脸核实。同时,该方法在LFW数据集上获得/当前最好成绩。该文章的亮点在于:一,新的检就选择CanomCalweW的方法:二,训练深度神经网络来重建人脸正面标准图片(canonical-view)。3.2 canonicalview选择方法我们设计了基于矩阵排序和对称性的人脸正面图像检测方法。如图3-1所示,我们按照以下三个标准来采集个体人腌图片:一,人腌对称性(左右脸的差异)进行升序排列:二,图像锐度进行降序排列:三,一和二的组合。图3-1正面人脸图像检测方法3.3 人脸重建我们通过训练深度神经网络来迸行人脸重建。IOSS留故为:E(P¾W=EEllKfM;W)Ii1为第1个个体,k为第I个个体的第唾样本.X«和Y为训练图像和目标图像。垢因示,深度神经网络包含三层。前两层后接上了maxpooling:最后一层接上了全连接层。于传统卷积神经网络不同,我们的filters不共享权重(我们认为人脸的不同区域存在不同类型的特征)。第I层卷积层可以表示为:图3-2深度神经网络最终,经过训练的深度神经网络生成的canonicalview人脸图像如图3-3所示。图3-3canonicalview人脸图像4. DeepID(0.9745)参考文献:DeeplD3:FaceRecognitionwithVeryDeepNeuralNetworks4.1 简介深度学习在人脸识别演域的应用提高了人脸识别准确率。本文中,我们使用了两种深度神经网络框架(VGGnet和GoOgleLeNet)来进行人脸识别。两种框架ensemble结果在LFW数据集上可以到达0.9745的准确率。文章获得高准确率主要归功于大量的训练数据,文章的亮点仅在于测试了两种深度卷积神经网络框架。4.2 深度神经网络框架Mepl0511Figure 2 ArdWlKiUlC <4 )vrpll>) nel I. Figure drwn< Z the ame x Fig ®hfurv I Archilcvtinv 5 IXxpll)5 nc<2. Hforr dcctn i the MBM at Fig- &图41两种深度卷积神经网络框架5. FaceNet(0.9963)参考文献:FaceNet:AUnifiedEmbeddingforFaceRecognitionandClustering5.1 简介作者开发了一个新的人脸识别系统:FaceNet,可以直接将人脸图像映射到欧几里得空间,空间的距离代表了人脸图像的相似性。只要该映射空间生成,人脸识别,验证和聚类等任务就可以轻松完成。该方法是基于深度卷枳神经网络,在LFW数据集上.准确率为0.9963,在YouTubeFacesDB数据集上,准确率为0.9512。FaCeNet的核心是百力级的训练数据以及tripletloss5.2 tripletloss图5-1tripletloss示意图5.3深度卷积神经网络采用adagrad优化器,使用随机梯度下降法训练CNN模型。在CPU集群上训练Z1000-2000小时。边界值a设定为0.2。总共实睑了两类模型,参数如表5-1和表5-2所示。layersize-insizeoutkernelparamFLPSconvl220x220×3110×110×617×7×3.29K115Mp<M>ll110×110×6455×55×643×3×64,2Ornorm155×55×6455×55×640conv2a55×55×6455×55×641×1×64,14K13Mconv255×55×6455×55×1923×3×64,1IlIK335Mrnor255×55×19255×55×1920PoOI255×55×19228×28×1923×3×192,20conv3a28×28×19228×28×192lxl×192,l37K29Mconv328x28x19228×28×3843×3×192,1664K521Mpool328×28×38414x14x3843×3×384,20conv4a14x14x38414×14×3841×1×384,1148K29Mconv414×14×38414×14×2563×3×38411885K173Mconv5a14×14×25614×14×256IXlX256J66K13Mconv514×14x2Jb14x14x2563x3×256,1590K116Mconv6a14×14×25614×14×256lxl×2561l66K13Mconv614×14×25614×14×2563x3x256,159()K1I6Mpoo!414×14×2567×7×2563×3×256,20concat7×7×2567x7x25607x7×2561×32×128maxoutp=2103M103Mfc21×32×128l×32xl28maxout=234M34Mfc71281×32×1281×1×128524K0.5ML21×1×1281×1×1280totalI4OM1.6BTable1.NNl.ThistableshowthestructureofourZeiler&Fergus22basedmodelwithIxlconvolutionsinspiredby9.TheinputandoutputsizesaredescribedinTOWfi×cols×tfilters.Thekernelisspecifiedas/5-1CNN模型1r°""×cols,strideandthemaxout6plingsizeasp=2.表5-2CNN模型2type>upui4depth1x1<Mirvdacr#3x3#5*5EuVC#5x5P*E(P)param*KLOPSc*mvI(7x7x3.2)Il2xll26l19KI19Mnaxpool.f*m毋E0m3X3.2cqNon(2)*4x$6mI*22M192INKM)Mn<wu*PnOl2M>2H>ltt2Wm.'<3,2MTNnnlla><x2K<必iM*I2X通Sm.*2pIMKUMMIacCp<nIU>>2Kx2HIQ>2MM62S闷M/j.Mp门MKI79M*Mcm(k)I4×l4x6l<>上012»乱MJm3>3jAMMKI11MIMrIMl<m(4*)Hx4x<M(>22¼M6侬森抬U.I2M5K107MncM<ml4h>44M>222411222464.12%例KII7Mrpcm4<)UmH*<>M>21922X256«MLB12M6MKI2KMIlKelMKE(4d>HxI4x<M<»2I时14421WK«4Li.12m722KI42MIMCptlCNl4c)771(*24WO160252Mm3x3J7I7KXZqMi<m禺)7*7m1(>242软12AM&128口.12卵I.6MMi*cqNi<m15b>7m7m1O24工W3也苗4期1»m纥卵I6M7WMavrPmlIIxlx1024Ufull*UWM1x1m1281BIK0IML2IKMnulizatMXiIxlxIM0tDUJ7,MTable2.、工Detail*oftheN、2InceptMWmc11utnThismodelnaimmiidenticaltotheOaCdr*cihMin116)Thetwomacrdifnencvarelhcu«crfAjpMnginsteadofmuPnnhU(Ekwherehcd.ThepraJiaf*alway*3X3lMdrfromtheiMaveragrPaoIig>MdinPeralklk»thec<wMhmoMmdvk*IftMdcCaehIrKCfWKMI<nmlic.IfIhettKadimc11M<malHyrcdimaftertcwMi*fIl,、drnc<cdWNhPIm1.3×3.aid3x5pmhngkIhrn3WKMcttMcdCofcIiheMnaltuul6. baidu的方法参考文献:TargetingUltimateAccuracy:FaceRecognitionviaDeepEmbedding61简介本文中,作者提出了一种两步学习方法,结合HiutikpatchdeepCNN和deepECtriclearning,实现脸部特征提取和识别。通过12million(18000个个体的训练集训练,该方法在LFW数据集上取得了0.9977的成绩。6.1 multi-patchdeepCNN人脸不同区域通过深度卷积神经网络分别进行特征提取,如图6-1所示。"fc-I-I0=a-吗4 'cplpn1»卜Conv9 FCSoftmaxCnnv1Conv2Conv3ConvlCnv5FigureI.OverviewofdeepCNNstructureonmulti-patch.图6-1multi-patch示意图6.2 deepmetriclearning深度卷积神经网络提取的特征再经过metriclearning将维度降低到128维度,如图7-2所示。Multi-patch _ conv9 Concatenate 128 f1ot TriPICt IeKAFigure 2. Metric learning With triplet loss图6-2metriclearning示意图7,pose+shape+expressionaugmentation(0.9807)参考文章:DoWeReallyNeedtoCollectMillionsofFacesforEffectiveFaceRecognition7.1 筒介该文章的主要思路是对数据集进行扩增(dataaugmentation)。CNN深度学习模型,比方face+,DeepID.FaCeNet等需要基于百万级人脸图像的训练才能到达!精度。而搜集百万级人脸数据所消耗的人力,物力,财力是很大的,所以商业公司使用的图像数据库是不公开的。本文中,采用了新的人脸数据扩增方法。对现有公共数据库人脸图像,从pose,ShaPe和expression三个方面合成新的人脸图像,极大的扩增数据量。在LFW和IJB-A数据集上取得了和百万级人脸数据训练一样好的结果。该文章的思路很好,很适合普通研究者。7.2 pose+shape+expression扩增方法一,pose姿态,文章中为人脸角度,即通过3d人脸模型数据库合成图像看不见的角度,生成新的角度的人脸)。首先,通过人脸特征点检测faciallandmarkdetectoC,获取人脸特征点。根据人脸特征点和开放的Basel3Dfaceset数据库的人脸模板合成3d人脸。如图7-1所示。6BEFig.2:AddingPoeCvariationsbyBynlhCSiZingnovelviewpoints.Left:Originalingc.(角度生成示意图 二,shape (脸型).首先, 据与不同3d脸型数据结合,dtoctedlandmarks,and3DPOsPpstinmtion.Right:renderednovelviews.图7PoSe通过Basel3Dface获取10种高质量3d面部扫描数据。再将图像数生成同一个人不同脸型的图像。如图7-2所示:图72不同脸型生成示意图三,expression(表情,本文中,将图像的张嘴表情替换为闭口表情)。采用中性嘴型将图像中的开口表情换位闭口表情。如图7-3所示。Fig.4:Expressionsynthesisexamples.Top:ExamplefaceimagesfromtheCASIAWcbFacedataset.Bolluin:SynthesizedimageswithCIoseduuths.图7-3不同表情(开口/闭口)生成示意图7.3 模型及训练方法文章模型采用的ILSVRC数据集上预训练的VGG-19模型。训练方法是常规梯度下降训练方法。值得提出的地方是,该文章对测试集也进行了augmentation.8,CNN-3DMMestimatio(0.9235)参考文献:1,RegressingRobustandDiscriminative3DMorphableModelswithaveryDeepNeuralNetWOrk(很优秀的工作,强烈推荐阅读原文)2,中文解析:使用深度卷积神经网络方法进行3D人脸重建8J简介当在真实场景中应用3d模拟来增加人脸识别精度,存在两类问题:要么3d模拟不稳定,导致同一个个体的3d模拟差异较大:要么过于泛化,导致大局部合成的图片都类似。因此,作者研究了一种鲁棒的二维可变人脸模型(3Dmorphablefacemodels(3DMM)牛.成方法。他们采用了卷积神经网络(CNN)来根据输入照片来调节三维人脸模型的脸型和纹理参数V该方法可以用来生成大量的标记样本。该方法在MICC数据集上进行了测试,精确度为stateoftheart。与3d-3d人脸比对流程相结合,作者在LFW,YTF和IJB-A数据集上与当前最好成绩持平。文章的关键点有两个:一,3D重建模型训练数据获取;二,3D重建模型训练。8.2 训练数据作者采用了近期发表的多图像3DMM生成方法(M.Piotraschke2023)c他们在CASlAWebFaCe数据集上采用该方法生成3DMM:这些3d人脸模型用于训练CNN的goundtruth。多图像3DMM重建包括两步:-,从CASlA数据集选取500K当个图像来估计3DMM参数。二,同一个体不同照片生成的3DMM聚合一起,获取单个个体的3DMM(约IoK个体)。8.2.1 Singleimage3DMMfitting采用两种不同的方法来对每一个训练图片配对上3DMM.出于图像I,我们估计a和夕来表示与输入图像I类似的图像。采用了目前最好的人脸特征点检测器(CLNF)来检测K:68个人脸特PlcQRkeL.K和置信值3。其中,脸部特征点用于在3DMM坐标系中初始化输入人脸的角度。角度表达为6个自由度:角度r=%".""和平移,h/yJz.然后再对脸型,纹理.角度,光照和色彩进行处理.8.2.2Multiimage3DMMfitting8.3 3D直建模型训练对于数据集中每一个个体,有多张图片以及单个POol的3DMM:我们将该数据用于训练模型,使模型可以根据同一个体不同的图片来生成类似的3DMM特征向量。Figure 2: Ovrno Cfalr PmCCS (a) IJtffC qwmtiHc、<*t' Iinccwistnincd Pha<x arc used to til a Mnglc M)MM for cc ubj<vt. (b) ThIS i« done by hE fining SIngk image 3DMM Oupc and texture pramccn to each image %qatd Then, all DMM Hmatri for the name 研get arc PoNCd together foe a SBlC ctinuic per sub"c. (C These pooled EImaIC are如图8-1所示,我们采用/101层的deepResNet网络来进行人脸识别。神经网络的输出层为198维度的3DMM特征向量了。然后,使用CASlA图像生成的PoOled3DMM作为目标值对神经网络进行fine-tuned.:我们也尝试了使用VGG-16结构,结果比RssNel结构稍微量一点。F*CCEthewildk>tnuntheytnn图 8-1 3DUiedinplaceofexpemivegroundInMhfacetoMk>IftMna、)deepCNNoEfCAS31)MM(Uramefendirectly重建训练示意图8.3.1 TheasymmetricEuclideanloss我们在实验中发现,使用EIJClideanloSS会导致输出3d人脸缺少细节,如图8-2所示。因此,我们弓I入了asymmetricEuclideanloss£%,)=l7+-7maxl2+2I7p-7max112'、一'%y'over-estimateImdereliinateusingtheelement-wiseoperators:7+三abs(7)三sign(7);7÷=sign(7)7p,(4)ZmU=max©+,臂)(5)图8-2不同loss函数对结果的影响8.4 实验结果8.4.1 3D重建结果MICC数据集包含53个个体的人脸视频和个体的3D模型作为goudtruth-这些视频可以用于单张图片和多张图片的3D重建。实验结果如表&1所示,该重建方法比当前的方法都要好。表813D重建实验结果8.4.2 人脸识别我们研究了同一人不同的照片重建的3DMM是否比不同人的照片重建的3DMM差异更小。我们在LFW,YTF和IJBA数据集上测试了我们的方法。结果如表82和图83所示。我8-2LFW和YTF测试结果Mcthud3DTeMweAcvuracvIOmEERAOCTAR-10«TARlaEigenFaCCSIqhrird+ziaIht-60.02±0.79MW一25gHybridDrunfMiri1178.47i<l51M>l042.4IkrphMX-CTnctnNe973SH)25WA937AuNet98.06i<lV.<k7399,94.2×ft6.U±2.79ft5.70tXMI72.2412.7555Wt174I137±4JIWMMX/74JOM.2I82.>Mil.l46O4O±3I5M73±7.t7/75.2S2.I2747M25683.21士I93S944,642967÷4.7A3DI>FAI/×66.9812J667.IJ±1.9073.301249¼.76±6,27aoo±322/×9O-53±I<W.63±1IW».6±0.7991.I3±16258.20x1214LhX/906±|.079O.7Ol.7*7$士QW91.23±1425260±14/*X5+lJf92J÷<7.7-0794.21IMfcM7f3Mbgslbpii=、gIutirl*f'64fIM74.7K260,J5.IF)FaX-Eymbk-9L4I.I914%3吵M,×73.36±15l73.0»土265M0.4l±160SL36±S.II24.(M±436M)MM/»«/X/77.M+2.M,|XSmxN61I65.O731¼+521/79.5612079.2O±1O78735±l92M.0±.(X)34.S6±6JI93DWAH*m/×M.I(H2.9367.963.I274.95±3(M4O.52+3.MI2.2±2.67/×HX2MIX4XN.32土216%.5,1-WMZl"$1.12116Ut*prwrfXX756+>56X7.6X+2.25