ai软件文字环绕图片AI科技大本营采访腾讯优图实验室高级研究员彭湃|官网

作者|Rachel、Just

监制|AI科技大本营(ID:rgznai100)

移动互联网时代造就了长期的多媒体数据,每天在社交系统、长短视频、直播平台、新闻资讯等内容系统造成了数以亿计的照片和视频,这些数据的内容审核面临艰巨的挑战。人工审核显然费时又费力,这时,以计算机视觉为代表的AI科技开始大显身手。

某些相关业务的系统启用了相应技术平台,有着庞大内容生态的腾讯也不例外。成立于2012年的腾讯优图实验室承载着腾讯在计算机视觉领域的探究内容,专注于图像处理、模式辨识、机器学习、数据挖掘等领域加强科技开发和业务落地,因此,优图也打造了基于深度学习算法的自研内容审核一站式系统:DeepEye。

该系统集色情内容识别、暴力恐怖内容识别、涉政敏感内容识别、低俗行为识别、Logo识别等业务于一身。如此庞杂的识别业务背后,我们不禁要问:DeepEye平台与其它内容审核平台相比有何技术特征?优图在图像和视频理解领域又有什么科技变革?多模态机器学习是否会变成视频内容理解技术的主要探究方向?

ai如何使文字环绕图片_ai文字环绕_ai软件文字环绕图片

成为5月25日-5月27日正式在北京举行的CTA大会(官方:)机器学习论坛的讲演嘉宾,AI科技大本营就上述难题采访了腾讯优图试验室高级研究员彭湃。

彭湃,2016年加入腾讯,负责优图实验室深度学习和图像理解方向的科技研究和工程落地,主导包括Qzone相册、腾讯觅影、优图天眼、DeepEye等重点工程的研究与落地。曾发表多篇研究论文,并被CV领域国际顶尖会议和杂志(SIGIRx3、TKDE、UbiComp、MM、CIKM、ICMR等)收录。

以下为访谈内容实录:

AI科技大本营:您个人在腾讯优图发表了一些高水平会议论文和杂志文章,目前最满意的是哪一篇?在发表论文方面ai软件文字环绕图片,有哪些经验可以分享?

ai软件文字环绕图片_ai如何使文字环绕图片_ai文字环绕

彭湃:关于论文发表方面,其实优图实验室特别鼓励各位在以前的工作中,把一些在项目中看到的好用的模型、方法、Trick沉淀为高水准论文,一方面是升华对难题更加深刻的理解,另一方面也提高了自己和部门在学界业界的影响力。

AI科技大本营:近几年,你们在图像和视频理解领域获得了这些新的技术进展?

彭湃:优图实验室最近在画面化的方向获得了相当大的进展,比如一个关键的核心技术就是行人重识别的科技,我们创新性地强调了基于金字塔结构的行人视觉特性学习算法,该算法发表在计算机视觉领域顶尖会议CVPR2019上,并在行人重识别的3大数据库刷榜第一。

AI科技大本营:优图外部主要的的考核目标是怎么的?他们是怎样平衡科研和项目落地的?

彭湃:优图实验室的观念是做“实用”的前沿科技,这里的“实用”是指我们构建和沉淀出来的核心前沿科技,是要无法用在实际项目落地中去,真正地服务好客户和企业。因此,我们大多之后都是从我们手身上正在做的实际项目出发,思考当前场景下核心的科技挑战和瓶颈是哪个,这样抽象出来的弊端非常具有实用价值,我们把这些方式的科研思维称为业务导向的研究模式。

ai如何使文字环绕图片_ai软件文字环绕图片_ai文字环绕

AI科技大本营:您个人取得过公司级业务突破奖并且技术突破奖各2次,能否准确介绍下内容审核技术上获得了什么突破?

彭湃:我认为所有的殊荣授予的并不是个人,而是团队。在内容审核中,尽管当前的深度学习建模几乎都在高性能GPU上训练,但是业务落地大规模推进的场景,大量的GPU成本高昂,因此CPU部署一般是业务上性价比更高的选用,但特点是判断(Inference)耗时长。考虑实际业务中,正常图片还是占相当大,因此我们的解决策略是锻炼一个浅层的小模型和深度的大模型,小模型用来过滤掉大多数的正常图片,只让有异常的照片进入到大模型。这样的级联模型部署方法可以大大增加业务方的推进成本。

AI科技大本营:内容审核对于视频网站而言是相当重要的工作内容,腾讯优图对于视频审核开发了专门的系统DeepEye,该平台与其它企业的内容审核平台相比有什么独特性?

彭湃:DeepEye是优图实验室维护互联网内容生态健康而成为了一套基于深度学习算法的内容审核平台,该系统具有色情内容识别、暴力恐怖内容识别、涉政敏感内容识别、低俗行为识别、Logo识别等。考虑到内容审核场景面临的大都是数据吞吐量较大的业务,大量的GPU部署将增加业务利润,因此在算法设计和选型上,我们并没有过度依赖于单一的深度模型,而是运用了浅层小模型和深层大模型级联的方法ai软件文字环绕图片,这种推进模式可以迅速在CPU上推动大体量的并行推进,大大增加成本。

AI科技大本营:未来几年,多模态机器学习会是视频内容理解技术的主要探究方向吗?

彭湃:是的,多模态的信息融合要比单一模态来的非常有效果。以内容审核场景为例,有之后不只是是某张图像原本的视觉内容有问题,而是图像左边的文字、数字出现了色情、涉政字眼,这之后只有图像语义理解的单一能力就能够搞定此类case,而结合OCR以及词库过滤就可以更好地缓解这类问题。

添加微信

转载原创文章请注明,转载自设计培训_平面设计_品牌设计_美工学习_视觉设计_小白UI设计师,原文地址:http://www.zfbbb.com/?id=6121

上一篇:ai软件全名全球顶级对冲基金CEO埃利斯:我从不知道什么叫害怕

下一篇:ai软件官方下载中文版情感功能微软文字转AI真人语音在线工具,拥有15种情感选项