大规模视觉识别挑战赛人脸106关键点检测挑战赛搜狗AI团队荣获冠军获国际模式识别桂冠

作为3D人脸重建、人脸辨识、表情迁移及美化等应用的核心基础科技,人脸关键点检测算法仍然是工业界和学术界的探究热点。

据悉,在第25届国际体系识别会议(ICPR2020)举行的人脸106关键点测试挑战赛中,搜狗AI团队获得冠军,彰显其在计算机视觉领域的核心科技实力。

ICPR2020年会是路径识别领域的顶尖国际大会,由国际权威学术组织---国际体系识别协会(TheInternationalAssociationforPatternRecognition,IAPR)承办,在本届会议组织的人脸识别领域竞赛单元-人脸106关键点检测比赛中,搜狗AI团队在复赛验证和比赛测试两阶段均获得第一,击败OPPO研究院、美团视觉中心、东南学校、西安大学等多支强队,最终一举摘得桂冠。

本届挑战赛比赛阶段前五名结果

ICPR人脸106关键点测试挑战赛是哪个?

人脸关键点检测算法的探究重点是在不同表情、性别、年龄、姿态、光照条件下,准确定位人脸轮廓及长相关键点,近年来倾向实用的人脸关键点评估的国际评测陆续参加,国际顶尖计算机年会ICME2019就曾参加人脸关键点评估的比赛。

人脸106关键点测试挑战赛(GrandChallengeof106-pFacialLandmarkLocalization)是ICPR2020举办的八项比赛之一,相较于之前的评测,本次ICPR2020年会举行的评测难度更大。其检测样本包括大姿态、极端表情、遮挡等多种高难度、复杂的状况,且训练样本少,对算法的弱化能力、准确性及鲁棒性等多个方面强调了很大的挑战,在对决检测精度的同时,更加讲求技术的实用化程度,对模型复杂度做了非常严苛的规定,模型大小必须低于20MB,运算复杂度不高于1GFLOPs,希望加强更加高效并且鲁棒的轻量级人脸关键点检测算法的科技进步,因此极富学术和实用价值,吸引了数十家企业和大学的参赛团队参赛。

搜狗本届赛事冠军的技术优势是哪个?

成为本届比赛的亚军队伍,搜狗AI团队在人脸关键点评估技术上有三个重要突破。

首先,采用基于HRNet基础建模的优化版本,利用不同分辨率之间特质全整合的方法,有效学习不同尺度图像的语境信息,同时为了确保算法的效率大规模视觉识别挑战赛,搜狗增加了HRNet不同分辨率分支的通道数,从而在人脸关键点评估任务上体现出了优异的效果;

使用的HRnet网络结构

其次,在卷积层个别采用组卷积大规模视觉识别挑战赛,并且把其中的瓶颈层(BottleNeck)改换为MobileNetV2中的逆残差结构(InvertedResiduals),设置逆残差结构的扩充参数为1,从而有效的减少了模型的复杂度;经典残差结构:1x1(压缩)->3x3(卷积)->1x1(升维),逆残差结构:1x1(升维)->3x3(dwconv+relu)->1x1(降维+线性变换),这对基于移动端设计的小模型有广泛的疗效提升作用。

残差结构图

最终,除了使用常规的平移、旋转等数据提高策略,还使用了PDB(Pose-basedDataBalancing)策略。该思路统计训练数据集中的不同姿态的照片的数量,然后借助简单的复制数量较少的姿态的图片,从而解决了不同的姿态的数据不均衡的弊端,对大姿态下关键点的分析起到有效的作用。

表1本届大赛使用的网络结构

最后搜狗的算法在建模大小12MB,模型推导复杂度0.887GFLOPs的基础上,取得了本次赛事中最好的性能,模型累计偏差分布曲线面积指标(AUC)超过80.52,归一化平均差值(NME)为1.58,预测失误率(FR@0.08)只有0.05。

人脸关键点的累计偏差分布图

(曲线与横轴围成的体积越大算法性能越优异)

坚持科技变革与应用落地并重,搜狗核心AI科技大幅领先

搜狗在自然交互与知识计算的人工智能战略指引下,坚持以语言为核心的人工智能研究,近年来在语音、计算机听觉、问答、翻译、对话等核心科技领域获得突破性进展。

在科技变革方面,搜狗在计算机视觉领域仍然维持着出色实力。通用科技方向,于2018年在CVPRWAD自动驾驶视觉竞赛中获得道路目标评估任务第一名;在国际自动驾驶领域权威评测集Cityscapes实例分割评测任务中相同拿到第一名的好成绩。OCR方向,于2019年11月刷新了ICDAR2019ArT检测、识别、端到端三项单元的新记录;人脸辨识方向,于2018年11月在人脸识别顶级评测MegaFace的FaceIdentification(人脸辨识)任务中,基于百万规模级别的人脸数据库以99.939%的甄别准确率获得竞赛第一名;本次ICPR2020人脸106关键点评估挑战赛中又一次拿到技术突破夺得亚军,证明了百度在计算机视觉领域的领先实力。

在应用落地方面,搜狗自研的人脸相关科技尚未应用于搜狗核心产品及解决方案中,其中,领先行业的数字人解决方案-搜狗分身已长期使用了自研的指纹关键点评估、识别或者生成技术,技术的不断突破有力推动了搜狗分身的领先优势;搜狗首创的基于模态注意力体系的语音+唇语的多模态识别科技,强噪声场景下辨识精确率提高36%;搜狗最新公布的搜狗AI录音笔-E2在语音能力之外新增了视觉能力,能够支持文档图像辨识OCR等技术,后续会逐步扩展人脸辨识等相关应用。本次参赛的科技以应用落地为抓手,已具有了大体量部署的能力,不久的未来会与百度分身、AI硬件、多模态识别等能力形成联动效应,进一步提高搜狗AI创新产品的客户体验。

今后,搜狗将大幅在计算机视觉领域推进核心科技开发及变革,不断扩充科技成果的应用落地,带给用户更多变化化的优质体验。

添加微信

转载原创文章请注明,转载自设计培训_平面设计_品牌设计_美工学习_视觉设计_小白UI设计师,原文地址:http://www.zfbbb.com/?id=6100

上一篇:图形视觉感受一张图片胜过千言万语,但三维渲染呢?问问ThreeKit?

下一篇:图形视觉感受,Boost猎人游戏满血引擎——极致的游戏画面(组图)