计算机视觉领域微软亚洲研究院最新《文档智能:数据集、模型和应用》综述

微软中国研究院最新《文档智能:数据集、模型和应用》综述

文档智能是指借助计算机进行自动阅读、理解并且预测商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习科技的科普极大地推进了文档智能领域的演进,以文档版面分析、文档信息抽取、文档视觉问答或者文档图像分类等为代表的文档智能任务均有明显的性能提高。该文针对初期基于启发式规则的文档分析技术、基于统计机器学习的算法或者近年来基于深度学习和预训练的方式进行详细介绍,并展望了文档智能科技的今后发展方向。文档智能(DocumentAI,orDocumentIntelligence)是近年来一项蓬勃发展的探究课题,同时也是实际的工业界需求,主要是指针对网站、数字文档或扫描文档所涵盖的文本或者丰富的排版格式等信息,通过人工智能科技进行理解、分类、提取或者信息归纳的过程。由于布局和格式的多样性、低品质的扫描文档图像或者模板结构的复杂性,文档智能作为一项特别具备挑战性的任务并取得相关领域的广泛关注。随着数字化进程的推进,文档、图像等载体的构架化预测和内容提取作为关乎企业数字化转型成败的关键一环,自动、精准、快速的信息处理对于制造力的提高至关重要。以商业文档为例,不仅包括了公司内外部事务的处理细节和知识沉淀计算机视觉领域,还有长期市场相关的实体和数字信息。

人工提取这种信息除了耗时、费力、精度低,而且可复用性也不高,因此,文档智能科技应运而生。文档智能科技深层次地结合了人工智能和人类智能,在金融、医疗、保险、能源、物流等多个市场均有不同种类的应用。例如,在金融领域,其可以推动财报分析和智能决策分析,为企业战略的制订和投资决策提供科学、系统的数据支撑;在医疗领域,其可以推动病例的数字化,提高检测的准确度,并借助分析医学文献和病例的关联性计算机视觉领域,定位潜在的诊断方案。在财务领域,其可以推动发票和采购单的手动化信息提取,将长期非结构化文档进行手动结构化转化,并支撑长期下游业务场景,节省大量人工处理时间花费。在过去的30年中,文档智能的演进大致历程了三个阶段,从简洁的规则启发式方式逐步演化至神经网络的方式。20世纪90年代早期,研究人员大多使用基于启发式规则的方式进行文档的理解与分析,通过人工观察文档的布局信息,总结归纳一些处理规则,对固定布局信息的文档进行处理。然而,传统基于规则的方式通常必须较大的人力费用,而且这种人工总结的规则可扩展性不强,因此研究人员起初采取基于统计学习的方式。2000年以来,随着机器学习科技的演进和进步,基于大体量标注数据驱动的机器学习建模成了文档智能的主流方式,它借助人工设计的特点模板,利用有监督学习的方法在标注数据中学习不同特性的权重,以此来理解、分析文档的内容和布局。

但是,虽然传统的文档理解和预测科技基于人工定制的规则或少量标注数据进行学习,这些方式仍然无法带给一定程度的性能提升,但因为定制规则和可学习的样本总量不足,其通用性通常不尽如人意,而且对于不同类型文档的分析迁移成本较高,这距离文档智能科技的实用化和行业化也有非常一段距离。近年来,随着深度学习科技的演进,以及长期无标注电子文档的累积,文档分析与识别科技进入了一个崭新的时代。图1是在当前深度学习框架下文档智能科技的基本框架,其中不同类型的文档通过内容提取工具(HTML/XML抽取、PDF解析器、光学字符识别OCR等)将文本内容、位置布局信息和视觉图像信息组织出来,利用大规模预训练的深度神经网络进行预测,最终完成各项下游应用任务,包括文档版面分析、文档信息抽取、文档视觉问答或者文档图像分类等。深度学习科技的发生,特别是以卷积神经网络(CNN)、图神经网络(GNN)或者Transformer架构[1]为代表预训练技术的发生,彻底颠覆了传统机器学习需要长期人工标注数据的前提,更多地依赖长期无标注数据进行自监督学习,进而通过“预训练-调整”模式来缓解文档智能相关的应用任务,取得了明显性突破。

虽然深度学习极大地提升了文档智能科技的准确性,但是在实际应用中一直有众多弊端亟待解决。首先,受限于当前大体量预训练模型输入长度的限制,文档智能预训练模型一般必须将文档截断为几个个别,分别输入模型进行处理,这针对复杂长文档的多页跨页处理带来了极大的挑战。其次,由于实际场景中的扫描文档图像质量参差不齐,特别是人工标注的训练数据通常质量较高,而业务场景的文档图像由于扫描仪器的清晰度、纸张褶皱和放置位置的轻易性,导致了性能不佳,因而必须借助更多数据增强科技来帮助现有模型提高性能。此外,当前文档智能各项任务一般是独立练习的,不同任务之间的关联性还未被有效地运用。例如,文档信息抽取和文档视觉问答有这种共性的语境表示,可以利用多任务学习框架更好地缓解这类问题。最后,基于预训练的文档智能模型在实际应用中也遭遇了计算资源和锻炼样本不足的弊端,探索基于小模型的深度学习架构和模型压缩技术,以及少样本学习(Few-shotLearning)和零样本学习(Zero-shotLearning)科技也有当前重要的研究方向,并带有很大的实用价值。

接下去,我们首先将介绍当前主流的文档智能模型框架、任务和数据集,随后将分别重点介绍早期基于启发式规则的文档分析技术、基于传统统计机器学习的算法模型,以及近年来基于深度学习,特别是基于多模态预训练技术的文档智能模型和算法,最后我们将展望文档智能科技的今后发展方向。1主流文档智能模型框架、任务及数据集1.1基于聚类神经网络的文档版面分析建模近年来,卷积神经网络在计算机视觉领域获得了很大的顺利,特别是基于大体量标注数据集ImageNet和COCO的有监督预训练模型ResNet[2]在图像分类、物体检测并且画面分割任务上都带给了极大的性能提高。具体来讲,随着多阶段测试模型FasterR-CNN[3]和MaskR-CNN[4]等及其单阶段测试模型SSD[5]和YOLO[6]的普及,目标评估在计算机视觉中几乎成了已解决难题。文档版面分析本质上可以看作一种文档图像的物体检测任务,文档中的标题、段落、表格、插图等基本单元就是必须测量和识别的物体。1.2基于图神经网络的文档信息抽取模型信息抽取是从非结构化文本中提取结构化信息的过程,其成为一个经典和基础的自然语言处理问题已经受到广泛研究。

传统的信息抽取聚焦于怎样从纯文本中提取实体与关系信息,却较少对视觉富文本进行探究。视觉富文本数据是指语境结构虽然由本文内容决定,也有与排版、表格结构、字体等视觉元素有关的文本数据。视觉富文本数据在生活中处处可见,例如,收据、证件、保险单等。1.3基于Transformer结构的通用文档理解预训练模型很多状况下,文档中文字的位置关系蕴含着丰富的语境信息。例如,表单通常是以索引对(KeyvaluePair)的方式展示的。通常状况下,键值对的排布通常是左右以及上下形式,并且有特殊的种类关系。类似地,在表格文档中,表格中的文字一般是网格状排列,并且表头一般出现在第一列或第一行。通过预训练,这些与文本天然对齐的位置信息可以为下游的信息抽取任务提供更丰富的语义信息。对于富文本文档,除了文字原本的位置关系之外,文字格式所展现的视觉信息相同可以帮助下游任务。对文本级(Token-level)任务来说,文字大小、是否倾斜、是否加粗,以及图标等富文本格式无法反映相应的词义。通常来说,表单字段对的键位(Key)一般会以加粗的方式给出。对于通常文档来说,文章的标题一般会放大加粗呈现、特殊概念术语会以斜体呈现等。

对文档级(Document-level)任务来说,整体的文档图像能提供全局的结构信息,例如,个人简历的整体文档结构与科学文献的文档结构是有显著的视觉变化的。这些模态对齐的富文本格式所呈现的视觉特性可以借助视觉模型抽取,结合到预训练阶段,从而有效地帮助下游任务。2基于启发式规则的文档分析技术基于启发式规则的文档分析技术大致可分为自顶往下、自底向下和混合体系三种形式。自顶向下方式将文档图片成为整体逐步将其界定为不同区域,以递归方法进行切割,直至区域分割至预定义的标准,通常为块或列。自底向下以像素或部件为基本元素单位,对基本元素进行分组、合并以产生更大的同质区域。自顶向上方式在特定格式下的文档中无法更快、更高效地预测文档。而自底向上方式虽还要花费更多的计算时间,但通用性更强,可覆盖更多不同布局类型的文档。混合形式则将其两者相结合以尝试形成更好的效果。本节从自顶往下和自底向下两种视角出发,介绍基于ProjectionProfile、ImageSmearing、ConnectedComponents等方法的文档分析技术。3基于统计机器学习的文档分析技术传统的文档分析过程一般分为两阶段:①将文档图片切割,得到多个不同候选区域;②对区域进行属性分类,将其判断为文本、图像等要求类。

基于机器学习的方式也常常从这两个视角入手,部分研究工作尝试使用机器学习算法参与文档的切割,其余则尝试在已生成的区域上构造特点,使用机器学习算法对区域进行分类。此外,由于统计机器学习科技带给的性能上的提高,较多基于统计机器学习的方式在表格检测任务中被尝试使用,因表格检测是文档分析的一个重要子任务,本节也会对其进行一些介绍。因此与前文基于科技角度的阐释方法不同的是,从下文起初将会从文档分析中的任务角度来对其发展状况作出介绍。4基于深度学习的文档智能科技近年来,深度学习方式早已变成许多机器学习难题的解决悖论。在很多探究领域,深度学习方式被证明是非常有效的。最近,预训练模型的流行也进一步发掘了深度神经网络的性能。而文档智能领域的演进也反映出相同的态势。本节中我们将现存的建模分为对于特定任务的深度学习建模和支持多种下游任务的通用预训练模型进行介绍。5未来发展方向商业文档的自动阅读和预测颇具明显的应用价值,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。因此我们分别从自然语言处理、计算机视觉或者多模态融合的视角来梳理一下文档智能的今后发展方向。从自然语言处理的视角出发,近年来以BERT[128]为代表的大规模自监督预训练作为自然语言处理的主流研究方向。

与此同时,在大规模预训练模型基础上,以GPT-3[129]为代表的提示学习(PromptLearning)研究方式;为文本预训练模型的应用给出一种新型的模式,能够超过低计算量与功耗调优的平衡,受到了广泛关注。GPT-3通过上下文学习(In-contextLearning)的方式在零样本(Zero-shot)和少样本(Few-shot)学习中展示出与BERT完全不同的结论和性能,因此需要研究在文档智能领域大模型的性质,以及怎样运用大模型进行文档智能下游任务的调整,例如Parameter-efficient相关的方式也有相当重要的。文档智能中有长期以文档图片为契机的信息抽取和提问任务,如表单/发票理解等。由于这种任务所需的数据,人工标注代价很大,对自监督预训练模型有很强的需求。除此此外,如何减少模型参数微调(Fine-tuning)计算量也有很多任务亟待解决的问题,因此文档图像的提醒学习科技也有未来非常重要的一个研究方向。从计算机视觉的视角出发,以ViT视觉Transformer[119]为代表的大体量预训练技术近年来也成为计算机视觉的主流研究方向。

因为文档图像理解领域不存在类似ImageNet这种大体量人工标注数据集,但无标注的文档图像却长期存在,因此自监督文档图像预训练模型针对文档智能领域的演进至关重要。文档智能领域中图像理解任务大多与版面分析相关,如光学字符识别(OCR)、文档对象识别,特别是表格识别等。传统的探究方式一般依赖任务相关的标注数据来解决,相信随着视觉自监督预训练模型的发展和成熟,对于标注数据的依赖会越来越小。作为自然语言处理和计算机视觉的交叉领域,文档智能更多地应用了多模态融合技术。以LayoutLM[15]为代表的多模态文档智能预训练模型作为文档智能的主流研究方向。当前多模态融合主要采取将不同模态的信息通过跨模态对齐任务进行联合学习和预训练,取得了不错的效果。文档智能领域中的多数任务都会同时利用文本信息和图像信息,因此能否挖掘文本与图像之间的关联成为文档智能理解的重要任务。与此同时,不同模态之间的互补性也将决定文档智能任务的精确度和可扩展性。展望将来,除了解决文档多页跨页、训练数据质量参差不齐、多任务关联性较弱并且少样本零样本学习等难题,还需要非常关注文字检测识别OCR技术与文档智能科技的结合,因为文档智能下游任务的输入一般来自于手动文字检测和辨识算法,文字识别的具体性通常针对下游任务有巨大的影响。

另外,如何将文档智能科技与现有人类知识及其人工处理文档的方法相结合,也是将来值得探索的一个研究课题。6结语信息处理是数字化改革的基础和前提,如今对处理能力、处理速率和处理效率也都有越来越高的要求。以商业领域为例,电子商业文档就包括了采购单据、行业报告、商务邮件、销售合同、雇佣协议、商业发票、个人简历等长期繁杂的信息。机器人流程自动化(RoboticProcessAutomation,RPA)行业正是在这一背景下应运而生,其利用人工智能科技帮助大量人工从繁杂的电子文档处理任务中解脱出来,并借助一系列配套的自动化工具改善制造力,RPA的关键核心之一就是文档智能预测科技。过去的20年间,文档智能预测科技主要历程了三个阶段,从最初的基于启发式规则,过渡到基于统计机器学习的方式,到最近基于深度学习的方式,极大地提升了探讨性能和具体率。与此同时我们也观察到,以LayoutLM为代表的大体量自监督通用文档智能预训练模型也愈发越多地得到他们的关注和使用,逐步变成完善更为复杂算法的基本单元,后续研究工作也层出不穷,促使文档智能领域加速发展。

添加微信

转载原创文章请注明,转载自设计培训_平面设计_品牌设计_美工学习_视觉设计_小白UI设计师,原文地址:https://www.zfbbb.com/?id=6453

上一篇:视觉传达设计专业课程“CGDA2020视觉传达设计奖”评选活动评选活动斩获CGDA2020优秀奖组优秀奖

下一篇:计算机视觉领域计算机视觉在交通领域的主要有如下几个方面的应用