捷报频传,百度大脑登上国际舞台。在今年4月初结束的ICME人脸106关键点检测比赛(Grand Challenge of 106-p Facial Landmark Localization)中,百度大脑视觉技术团队与来自全球的20多个优秀代表队同台竞技,其中包括阿里、华为、美团、中科大等国内视觉技术实力强劲的团队,最终一举摘得桂冠。
ICME 人脸106关键点检测比赛排行榜
ICME 比赛 TOP3 的相对误差分布示意图
IEEE ICME(IEEE International Conference on Multimedia and Expo)是由IEEE Computer Society、Circuits and Systems Society、 Signal Processing Society以及Communications Society共同主办的计算机多媒体领域最重要的国际会议之一,至今已连续举办18届,涵盖文本分析、图形图像、视频、语音音频等多媒体数据的处理、传输、分析与应用等主题。
Grand Challenge of 106-p Facial Landmark Localization则是ICME 2019上举办的四项比赛之一。其测试样本涵盖大姿态、极端表情、遮挡等多种高难度、复杂的情况,且训练样本少,对算法的泛化能力、准确性及鲁棒性等多个方面提出了巨大的挑战,极富学术和实用价值,吸引了来自百度、阿里、华为、美团、中科大等数十个企业和高校的参赛队伍参赛。
据悉,今年比赛主要考验了算法在大姿态、极端表情、遮挡等复杂场景下的鲁棒性和准确性。而百度内部使用的自主研发AutoDL技术——SA-NAS,则能够显著提高算法的鲁棒性和准确性,从而在众多参赛队伍中脱颖而出,获得了第一名的好成绩。
SA-NAS是百度凭借在人脸关键点检测领域的长期积累与研究,自主研发的AutoDL技术。它针对比赛任务的特点、以模型精度和结构的多样性为导向,实现了自动化模型构建。并且该方法相比RL-NAS搜索速度提升超过30倍,收敛过程更加稳定,让设计深度神经网络模型摆脱了低效的人工调参困境。,百度在算法中引入分割稠密监督、加权热力图监督和多种数据增强方法,充分挖掘小样本训练数据中的特征信息、消除了模型训练中的量化误差。,他们以模型结构的多样性为基础、依托检测结果的统计特征,创新地提出了关键点一致性估计算法,从而显著地提升了关键点检测算法准确性与鲁棒性。
据悉,在此次竞赛中大放异彩的AutoDL-SA-NAS网络结构自动化设计工具,是基于百度开源深度学习平台PaddlePaddle实现的,已经进入预发布阶段,即将对外正式开源。未来开发者可以通过开放开源的PaddlePaddle平台,针对自己算法研发任务灵活搜索最佳网络结构,获得优于人工调参的模型效果,提高开发效率。此前PaddlePaddle已经开源了基于AutoDL Design的一系列神经网络,以及使用CIFAR10数据在其上训练出来的一共6个模型,包括了网络结构以及对应的权重。每一位开发者都可以很容易使用PaddlePaddle以及公开的CIFAR10数据,在这6个模型上进行推理以及模型融合,获得超过98%的准确率。
PaddlePaddle是百度视觉技术团队的主要技术研发平台,是集深度学习核心框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台。PaddlePaddle在视觉技术上有深厚的积累,官方已开源覆盖分类、检测、语义分割、OCR、GAN、人体关键点检测等类别,基于真实业务场景验证的优质模型。上个月,PaddlePaddle重磅发布了视频识别工具集,覆盖主流实用的序列建模算法与端到端视频识别模型,可一键式任务启动,公开数据集下载,数据预处理,模型训练,模型inference一步到位。
PaddlePaddle还对深度学习模型训练中显存占用进行了专项优化。以语义分割Deeplabv3+为例,针对显存消耗分析与解决,冗余前向计算,GPU CPU内存交换,使用16位浮点数等,让开发者可在相同的计算设备上训练更大的模型,还可以在消费级别显卡上完成训练。
为了进一步助力开发者进入深度学习领域, 基于PaddlePaddle的一站式深度学习开发平台AI Studio还送出1亿元免费算力,为普通开发者破除算力桎梏。
PaddlePaddle官方支持模型
百度大脑此次拿下ICME人脸106关键点检测比赛冠军,彰显了百度深厚的AI技术实力,也代表着基于PaddlePaddle的百度视觉处理技术将更进一步,未来将持续为各行各业赋能,推动产业智能化发展,为AI领域创造更多可能。