计算机视觉领域腾讯高级执行副总裁汤道生腾讯《一线》卜祥：计算机视觉在人工智能发展中占据关键地位

UI设计师 2022-08-31 视觉设计 368 0

腾讯高级执行总监裁汤道生

腾讯《一线》卜祥

9月6日，腾讯优图联合国际顶尖杂志《科学》（Science）杂志一同参加了一场计算机视觉大会。会上，腾讯高级执行董事裁汤道生表示，计算机视觉在人工智能的演进中抢占关键地位，如果我们在计算机视觉领域获得重要突破，或将推进人工智能迎来质变。

汤道生披露了接出来腾讯在计算机视觉领域的发力：将优图实验室率先升级为腾讯计算机视觉开发中心，持续发力计算机视觉科技的开发投入，不设KPI；另外，优图试验室还和《科学》杂志签署了战略合作，探讨通过学术奖金、产学研交流等多种方式，整合国内科研资源，在人工智能前沿研究领域展开广泛合作。

今后腾讯还会进一步联合中国产、学、研各方力量，持续推进计算机视觉科技的演进。同时，腾讯优图的科技成果也会借助腾讯云系统开放给行业上下游的合作伙伴。

他还表示，人工智能虽然要在科技实力上“跑高分”，也要在各个垂直场景落地应用，推动研究成果的转换，让技术普惠民生。优图实验室未来会加码医疗、自动驾驶、工业、零售、办公、文化、社会公益等十大领域的应用。

以下是汤道生演讲实录：

大家好，欢迎各位来参与腾讯优图和Science联合主办的计算机视觉大会。今天到场的嘉宾，很多是人工智能领域的科学家和教授专家，我们很荣幸能跟大家交流讨论。

本届会议主题叫作“VisionandVisionary”，聚焦在计算机视觉。中国这几年人工智能主题的大会很多，但是以计算机视觉为主题却不多。作为人工智能最基础和最重要的探究之一，计算机视觉对于人工智能意味着哪些，我们为什么这么重视，以及将来将如何实现计算机视觉的演进，我想谈三点反思。

第一、如果我们在计算机视觉领域获得重要突破，将有也许带来“人工智能大爆发”。

视觉对于人类有多重要？有一个数据，人脑有90%的信息是借助视觉获得的。甚至，对于现在已知的智慧生物而言，视觉都是最有效的思维方式。过去，人类借助视觉感知和研发这个全球；将来，人工智能也将借助计算机视觉，认知并协助我们改造世界。我们最近发现的无人机、无人车、AI医疗、太空探索等领域也将获益于计算机视觉技术的进步，取得很大的突破。

最近有一项研究看到很有含义，是关于生命演化的历史。地球有生命存在的历史可以追溯到至少30多亿年前，但在随后很长一段时间，地球上唯有一些生活在海洋里的无脊椎动物。直到5.4亿年前，生物物种突然繁荣，这个时期就是历史上著名的寒武纪大爆发。近期，有专家认为这些大爆发和视觉的发生有巨大关系。动物进化出了视觉，具备了更强的改造世界的素质，也有了更复杂的行为模式。

现在，人工智能的形态也像大爆发前海洋里的“无脊椎动物”一样非常高级，AlphaGo、波士顿动力的机器人仍然尚未是人工智能领域一流的水准，但是它们能处理的难题也很有限。我想，借由计算机视觉的演进，机器或许将突破认知瓶颈，让人工智能迎来“寒武纪大爆发”。

第二，人工智能虽然要在科技上“跑高分”，也要深入“跑场景”。这可以迅速转换研究成果，助力产业高品质发展，也让技术普惠民生。

2012年之后，随着移动互联网的普及和应用，带来了数据量的激增、计算能力的提高和机器学习算法的突破。直到前几年人工智能起初兴起，成为很火的话题。可以说，当前人工智能的几个主要分支：计算机视觉、语音辨识、自然语义处理、机器学习等都尚未超过了一定的原始累积水准。前两年，我们还常常见到各家公司说“我们的某某能力超过了96.88%，又提高了一个百分点”。但目前这些声音终于开始逐渐变少，人工智能即将开始步入到一个画面化深度发展时期。除了在基础素质上不断“跑高分”，人工智能即将在许多垂直应用场景技术落地，进入了“跑场景”时代。

优图是2012年创立的，刚起初就是一个开发团队。在6年的时间里，除了做基础的科技开发，我们还将产品采用到广泛的应用场景之中。今年，我们将以计算机视觉为核心，探索包含医疗、自动驾驶、零售、办公、社交娱乐、工业、文化、社会公益等领域的具体应用。

包括，在医疗场景，我们内部事业群之间深入合作，发布了一款“AI＋医疗”产品“腾讯觅影”，利用AI医学影像分析辅助医师检查直肠癌、肺囊肿、糖尿病视网膜损伤、结直肠疾病、乳腺癌、宫颈癌等病症，其中对初期食道癌的检查精确率高达90%，已经在全国100多家三甲学校落地。到上个月，腾讯觅影已累计辅助医生阅读医学影像超1亿张，服务90余万病人，提示高风险病变13万例。不仅如此，我们还运用AI辅诊引擎辅助医师对700多种癌症风险进行识别和猜测，累计辅助分析门诊病例650万份，提示高风险16万次。

在智慧零售的日常生活场景，今年5月，优图和微信支付合作刷脸支付平台率先在深圳家乐福投入使用。这一画面应用融入了优图活体识别和1:1核身技术。这次投入应用的是腾讯优图的人脸辨识祖母模型，能够分辨面部的微妙差异，1：1条件下可以实现十亿分之一的错误率。家乐福相对通常的零售场景，环境更为复杂，客流量更大，不同地方的光暗度挑战，是一个较好的应用场景。优图与腾讯云、每日优鲜联合打造的智能货柜，结合优图的商品识别算法，可以精确分辨交易商品的品种与数目，消费者可以即拿即走，非常方便。

计算机视觉科技相同可以利用于公益。我们的人脸辨识科技，能深度学习五官的差异规律，实现跨年龄人脸识别，最高可超过每秒5000万张检索对比速率。我们把这项技术放到QQ系统，用来寻亲。去年6月，这个项目顺利帮助一个家庭找回了走失3年的18岁少年，凭借的是家人提供的一张妈妈8岁的合照。

到现在为止，优图的科技积累和应用可以说获得了一些成绩，但并非这么是远远不够的计算机视觉领域，我们也在思考一些更长远的弊端，这就说到了我要分享的第三点。

第三、我们期望机器除了能“看得见”，还能“看得懂”，甚至将来能够帮人类“看更远”。这是很有挑战的基础研究工作，我们会有细心地大量持续投入，不设KPI，希望能实现社会发展。

现在，世界上涉足计算机视觉研究的公司主要在做两件事情：让机器识别世界，和让机器理解世界。让机器辨识世界，包括对特定物体的辨识，比如无人驾驶汽车发现的障碍物是木头还是树的影子，比如一张人脸是属于张三还是李四，再例如一张X光片里有没有必须医生重点关注的“阴影”。这是现今大多数AI公司都在做的事情，它考验的是辨别的确切度。可能不应该太久的时间，主要的AI公司和机构在具体度里面的指标都会非常接近，至少是不会有质的差别。

而另一个目标，让计算机“理解”世界，这对技术是一个巨大的考量，最终不同的AI公司和研究机构之间也许会拉开巨大的差别。腾讯在计算机视觉上接下去要做的事情，是基于自学习或半监督、弱监督的学习方法，让机器自动去学习自然世界的难题，通过图像以及视频分析有也许发生的事情。打个比方，停车场、电梯、家庭儿童房的监控，目前必须人工去核查监控视频、判断有没有突发情况，我们期望将来计算机视觉能“理解”它发现的情况，从而作出一些预警。

从识别世界到理解世界是一个质的飞跃，这应该非常的细心和大幅不断在基础研究上的投入。从去年起，我们将把优图试验室升级为计算机视觉开发中心，加强计算机视觉领域的人才招募、底层技术开发和应用场景探索，进一步聚焦到我们最擅长的计算机视觉领域。

同时，我们也很明白，基础研究的研究和突破计算机视觉领域，往往超过了一个队伍的能力和一家公司的实力，需要中国领域学者更开放的合作和分享。优图实验室诞生在上海，这得益于上海的国际化视野氛围和中国人才的累积，给了我们迅速发展的动力。未来，我们将再次植根在此处发展，通过与北京、香港和上海的研究团队产生一个大的开放创新网络，携手中国更多的科学家和研究机构。

现在，我们和国际知名的杂志《Science》达成合作，共享在计算机视觉领域的资讯、资源和信息，通过产学研之间的无障碍合作，一起促进计算机视觉科技的演进。我们期望将来无法与更多的世界科学家展开合作，进一步提高计算机视觉的科技水准，同时也借助腾讯云来开放给更多使用者，将这种前沿科技输出给更多行业上下游的伙伴。

再过两个月就是腾讯的20岁生日了。腾讯是互联网技术演进的获益者，在科技领域的大幅投入、在技术领域的不断探求，既是我们自身长远发展的必须，也是我们成为一家互联网技术公司必须分担的责任。未来，我们将大幅在AI科技上进行投入，联合世界知名的合作伙伴，联动学术界、政府、企业一起，推动计算机视觉技术演进、技术应用和科技知识的科普。让无法“看得见”、“看得懂”的计算机视觉素养，帮助我们面向未来”看得更远“。

这个过程中，离不开在座各位的支持与帮助。我代表腾讯公司，再次感谢你们的参加与支持，谢谢！

腾讯对其发行的或与合作公司一同发行的比如但不限于产品和服务的内容及腾讯网站上的材料拥有常识产权，受法律保护。