大规模视觉识别挑战赛人工智能与未来媒体大讲堂第二十二讲在京师大厦9308开讲

UI设计师 2022-09-25 视觉设计 446 0

9月29日，由上海理工学校新闻传播大学、微软、封面新闻合作主办，人工智能与今后媒体实验室、新闻出版大数据用户行为追踪与预测实验室承办的“人工智能与将来媒体大讲堂”第二十二讲在京师大厦9308开讲。本次讲座由微软中国合伙人、微软全球互联网工程院副主任、首席科学家姜大昕，为我们预测“大体量语言建模——技术趋势及必应问答中的应用”，北京理工学校新闻传播大学方增泉主任主持讲座。

姜大昕老师一开始便强调人工智能是现今很热门的领域，并提及在人工智能领域，都同意这种一个表述，即自然语言处理是人工智能皇冠上的明珠。不过自然语言处理并不是人工智能中最热门的领域。从市面上的投资分析来看，不论是投资总额还是公司数目，视觉辨识和语音辨别两个领域才是大头，自然语言处理只占据了较小的一个别。不过姜老师表示，一般觉得，视觉和语音属于认知智能，自然语言处理属于感知智能之上的思维智能，不仅属于高级智能，也是通向真正人工智能的必由之路。

接着姜老师看到视觉识别和语音识别现早已先后超过人类水平，自然语言处理也正进入突破期，并给我们举了一个实例：横扫NLP任务各大榜单的BERT模型。姜教授觉得，BERT模型正好站在了一个爆发点上，可以说是站在巨人肩膀上的集大成者。在BERT之前，深度学习在自然语言处理领域早已获得了很高的发展，BERT可以说是把这种成果集成到一个建模里面，因此就变得非常的强大。

姜老师还给我们介绍了BERT模型的四个特点，其中最重要的一个特征是BERT模型引入了预训练+微调的新模式，这推动了自然语言处理的新模式，学界和业界觉得这即将宣告了所谓大体量预训练模型时代的到来。以前进行自然语言处理的任务，往往必须按照不同任务而选取相应的建模，而不同训练任务的锻炼数据也常常难以共享，这样会造成每个任务只能从零开始练习模型；另外训练起来的模型也没法为特定的任务服务，不同任务的模型能够混用大规模视觉识别挑战赛，因此没法为特定的任务用小数据训练小模型，这样就极大地限制了自然语言处理科技的应用。

而BERT模型的特征在于将练习拆分成了两步。第一步叫做预训练，也就是用自监督方式学习语言特性表示得出的建模，就被称为是大体量的预训练语言建模，这个预训练模型可以从长期的文本当学校到许多词汇知识、语义知识，这些知识都被存储到了建模的几亿个参数当中。尽管人类很难探讨这些常识，但是这种知识确实可以帮助模型更好地执行不同自然语言处理的任务。第二步就是模型的调整，当通过第一步得出预训练模型后大规模视觉识别挑战赛，再处理给定的特定的自然语言处理任务，只应该用非常少的锻炼数据，就无法在目标任务上超过较好效果。

之后，姜老师应该技术的落地应用做了介绍。他十分自豪地说到：“搜索引擎是过去二五年最成功的大数据产品之一。”他以谷歌必应搜索为例，介绍了其提问系统，并强调了必应问答所遭受的三大挑战：domainscaling，languagescaling，modelscaling。预训练大模型的发生并且答案的召回率和准确度受到大力度加强。

在最终对于大体量语言模型的今后，姜教授强调两点：一是跨语言和多模态，这两个方向至今是学术界和工业界都在尽力攻关的热点方向，有望在将来几年时间内无法受到较多的缓解；二是知识和推理，理解语义往往必须常识，不然一不小心，人工智能就成了人工智障，同时应切实推进人工智能与脑科学、心理学、神经学等多个学科的整合。讲座末尾，方增泉老师做了小结：“整个讲座内容浅显易懂，层层深入，条理清晰。姜教授以清晰的理工科思考模式向我们展现了谷歌必应的提问方式，这对我们传播学非常是智能传播很重要，有促使拓展视野。我们也坦诚地期望姜老师以后能对我们北师大智能传播进行支持，推动北师大与微软的合作向纵深发展。”

文稿|符冬妮、陈欣悦

图片|刘奕凡

排版|潘月慧