首页 > 公司动态 > 正文

壹沓AI观察:文档智能开放平台表格抽取综合评测

2020-12-21 发布于:公司动态
继上期“Google加入文档智能化战局,Document AI离企业还有多远?”,壹沓科技为行业用户了解当前市场可公开获得的文档智能工具在复杂应用场景下的识别与表单分析实际能力,我们评测比较了七家行业领先中外企业的AI开放平台中的OCR及表格识别、表单识别功能。


此次壹沓评测使用了目前在线开放的七家OCR及表格表单识别接口,包括Google云新推出的Document AI,微软Azure云平台的Form Recognizer,百度AI智能通用表格类OCR,阿里达摩院的表格类OCR,腾讯云表格类OCR,合合表格类OCR和薪火表格类OCR。评测目标是对文字识别准确度,表格抽取完整度,表格结构准确度和键值对抽取完整度以及准确度(目前只有Document AI和Form Recognizer有提取键值对的功能),通过三项实际场景表单样本进行测试评价。


此次壹沓AI团队测评结论可以简单归结为三句话:

文字识别尚可信赖,表格分割不够智能,键值抽取十分局限


测评详情


我们分别从服务可获得性,业务规模,专项能力等维度从上百家OCR及相关服务提供商中选择出以下7家AI文档智能识别开放平台:

1. Google推出的Document AI,工具分为general和specialized,general包括Document OCR,Document Splitter和Form Parser,specialized主要是针对domain-specific的文档,例如收据,发票,W2表格(美国国税局使用的纳税表格)

我们分别测试了Document OCR和Form Parser,前者是针对文档的内容与结构识别,后者的功能是提取表单中的键值对。


2.Microsoft推出的Form Recognizer(表单识别)可以识别和提取表单文档中的键值对和表数据。它的输出包含原始文件中的关系的结构化数据。Form Recognizer有内置的预训练过的模型可以直接调用,其中有针对发票等表单的特定模型。同时Form Recognizer也支持无监督学习使模型无需手动数据标记或密集编码即可了解布局和现场数据。用户也可以使用手动标记的数据进行监督学习。用标签数据训练的模型可以表现更好,并且可以处理更复杂的文档。


3.百度AI开放平台提供的OCR接口多达十个大类,总共几十个针对不同场景的OCR识别,例如,针对汽车场景,教育场景,财务票据等专门定制OCR。此外,百度OCR支持多种语言的高精度整图文字检测和识别服务,包括各类印刷和手写文档、网络图片、表格、数字、二维码等。


4.腾讯云OCR支持20种语言识别,适用于印刷文档识别、网络图片识别、广告图文字识别、街景店招牌识别、菜单识别、视频标题识别、头像文字识别等场景;支持自动识别语言类型,可返回文本框坐标信息,对于倾斜文本支持自动旋转纠正。


5.阿里达摩院是阿里巴巴全球研究院,成立于2017年,读光是一款由阿里巴巴集团达摩院团队打造的OCR云产品,具有完备的图像文字定位、文字识别和文字理解的技术体系。读光OCR孵化于阿里巴巴集团内部,为阿里巴巴集团各个BU和业务方提供高性能、高稳定性的文字识别服务,服务的日均访问量高达上亿次。


6.合合信息成立于2006年,专注于模式识别OCR(光学字符识别)技术,在OCR、人工智能、手写识别、图像处理及自动图像增强等领域精耕十多年,旗下C端产品名片全能王、扫描全能王等共累计用户超10亿。合合的AI开放平台专注于图像文字处理,提供基础OCR,证件OCR,票据OCR等服务。


7.薪火科技成立于2014年1月17日,是专注于人工智能行业解决方案、软件开发等领域的知名高科技公司。薪火的核心技术OCR识别,人脸识别等图像识别算法。薪火的表格OCR对表格、文档、合同等形式的图片进行识别,生成保留内容格式的word文档,节省大量人工录入时间。准确率超过99%,技术实力处于国内领先水平。


测试样本介绍


我们使用了三份样本来进行测试,分别是大学学生成绩单(中文和对照的英文),医院血液检验报告单和海关进口货物报关单,分别代表了教育、医疗、物流三大行业场景。(如下图所示)


大学学生成绩单样本特点:文本是扫描件印刷体,文本清晰;无表格线且结构复杂;行与行之间不对齐,内容紧密;列距紧密。


图片1_gaitubao_822x1162(大学成绩单样本)



医院血检报告单的样本特点:图片是照片的形式,并不完全整齐;无表格线;表格结构较简单,列距较成绩单样本宽很多。


海关货物报关单的样本特点:文本是扫描件印刷体;表格线清晰;表格是行业规范模板。


图片2_gaitubao_833x625

(医院血液检验报告单样本)


海关货物报关单的样本特点:文本是扫描件印刷体;表格线清晰;表格是行业规范模板。

图片3_gaitubao_832x583

(海关货物报告单样本)



一、大学学生成绩单样本测试结果

1. Google Document AI

实验结果表明谷歌的文字识别准确度非常高(由于网页框架限制只截取部分结果),文档抽取完整度也是最高的,但是对于表格结构识别较差,即使是有表格线的文本结构也无法识别出表格结构。尤其是在识别中文表格时,完全无法识别结构,如图所示,每一块区域识别成一段文本。英文的表格识别要稍好一些,但依然存在这类问题,识别结果没有体现出字段之间的逻辑关系。


图片4_gaitubao_616x848

(Document OCR区域结构识别结果)


图片5_gaitubao_287x473

(Document OCR文字识别结果(部分))

图片6_gaitubao_610x874

(Document OCR英文成绩单区域结构识别结果)


图片7_gaitubao_458x426

(Form Parser英文成绩单键值对提取结果)



Google Form Parser目前还无法识别中文。对于英文文字能全面识别,但是表格数据没有定位到所有键值对。下图分别是英文成绩单key value识别结果。图中红框是提取错误的地方,Date of Enrollment没有单独抽出来,而是跟在了female后面


2. Microsoft Azure Form Recognizer

Form Recognizer在英文表单的表现是所有公司里最好的,无论是文字识别准确度,表格结构还是键值对提取都是最好。但是目前Form Recognizer还无法识别中文。


图片8_gaitubao_842x239

(Form Recognizer英文成绩单键值对提取结果)


图中是识别英文成绩单的键值对返回结果。表格结构是按照cell来返回,基本没有错行的情况,但对于无表格线分隔的数据会有几个字段连在一起的情况。(如下图所示)


图片9_gaitubao_622x277

(Form Recognizer英文成绩单表格识别结果(部分))


3. 百度表格类OCR

百度表格OCR识别的结果分为,header,body和footer三个部分,下图是识别英文成绩单的body部分,结构非常混乱。中文识别的结构性更弱,除了header部分,其余基本不能抽出合理的表格。


图片10_gaitubao_499x419

(百度表格类OCR英文成绩单body部分识别结果)


下图是识别的表头,最大的问题是和body部分无法对应。正确的表头应该是‘course,credit,score,GPA’的格式。


图片11_gaitubao_633x504

(百度表格类OCR英文成绩单header部分识别结果)


Footer的识别效果比前两者好一些,但也有少量文字识别错误


图片12

4. 阿里达摩院表格类OCR

阿里达摩院的表格识别整体来说是七家公司里表现最不合格的,对于中文成绩单,文字识别和结构识别都完全错误,可能在字符分割部分算法的鲁棒性不足,结果如下图所示。


图片13_gaitubao_866x621

(阿里达摩院表格类OCR中文成绩单识别结果)


5. 腾讯云表格类OCR

腾讯云的文字识别准确度达到OCR服务水准,但获得的表格结构比较混乱,下图是界面输出的部分识别结果,表格结构有错行错列的问题占比不小。


图片14_gaitubao_586x686

(腾讯云表格类OCR中文成绩单识别结果(部分))



6. 合合表格类OCR

合合的表格OCR可以将文字和表格分开,表格结构基本可以体现出来,没有出现错行错列的问题,但是对于无表格线表格的列切分还存在局部问题,会导致缺少文字。整体文字识别准确度较高,抽取完整度比较高。下图是中文成绩单的识别可视化部分结果,右边一列由于切割线错误导致少了一部分文字。

图片15_gaitubao_

(合合表格类OCR中文成绩单识别结果(部分))


7. 薪火表格类OCR

薪火OCR的优势在于识别准确度很高,基本没有错误,不太需要人工核对,但是对于复杂表格的抽取能力比合合还有相当距离,抽取的表格占比较少,大多数都只是按行返回文字。下图是中文成绩单的识别结果,只识别出图中一个表格,并且最左边一列出现错误。

图片16_gaitubao_871x344

(表格类OCR中文成绩单识别结果(部分))



二、医院血液检验报告单

1.Google Document AI

Document OCR依然是文字识别准确度很高,箭头也可以识别出来,但是结构识别要比国内同行距离很大。


图片17_gaitubao_880x647


(Document OCR医院报告单区域结构识别结果)


图片18_gaitubao_300x536

(Document OCR医院报告单区域结构识别结果(部分))


2. 百度表格类OCR

百度OCR对于更简单的无表格线表格识别依然表现不佳,返回的结果是所有的文字都在一个单元格里。

图片19_gaitubao_816x20

百度表格类OCR医院报告单识别结果


3. 阿里达摩院表格类OCR

和百度OCR一样,对于结构较简单的医院检查单,依然无法识别结构,返回的直接是一个单元格包含所有内容。


图片20_gaitubao_524x250

(阿里达摩院表格类OCR医院报告单识别结果)


4. 腾讯云表格类OCR

对于医院血检报告单这种列与列之间空间较大的无表格线简单表格,腾讯OCR识别的准确度较高,但对于提示指标偏离正常区间的剪头符号也无法识别,部分结构有错行合并的情况。腾讯OCR返回的结果实际上是JSON,与阿里OCR类似,返回的是每个字段的位置坐标,但是在网页端显示的可视化结果里,表前和表后并不是按照位置顺序排列。


图片21_gaitubao_525x1470

腾讯表格类OCR医院报告单识别结果


5. 合合表格类OCR

 医院检查单的结果要好于成绩单的结果,但依然存在个别问题,例如‘提示’和’参考范围’合并到一列,文字识别有少于遗漏,箭头被识别成数字1。


图片22_gaitubao_783x760

合合表格类OCR医院报告单识别结果


6. 薪火表格类OCR

对于简单表格的识别比成绩单要完整很多,但还是存在大量文本识别遗漏的问题。


图片23_gaitubao_783x427

薪火表格类OCR医院报告单识别结果



三、海关货品报关单

1. Google Document AI

谷歌的对于带表格线的表格识别依然不理想,从下图中可以看出完全没有分割出表格的单元格,中间整个表格(橙色区域部分)被识别成一个整体,键值对抽取也因此效果极其有限。单纯的OCR文字识别准确度和之前两份一样依然很高,但对于印章重叠部分有识别错误,当然其他几家公司的产品对于色彩重叠的字符识别也都有同样的问题。


图片24_gaitubao_818x557

(Document OCR海关货物报关单区域结构识别结果的)


图片25_gaitubao_347x819

(Document OCR海关货物报关单文字识别结果)


2. 百度表格类OCR

百度在识别有表格线中文表单要好于Document AI,但也有部分结构错误,例如下图中,件数和毛重应该是分开的两个单元格,结果中识别在一个单元格里,对于有表格线但并存在局部单元格分栏的表格,百度的表格切割会出现问题。此外还有一些识别遗漏的问题,并且被印章重叠的部分识别错误。


图片26

百度表格类OCR海关货物报关单识别结果


3. 阿里达摩院表格类OCR

对于有表格线的文档,阿里达摩院OCR识别结果比无表格线样本好很多,返回的JSON文件中按照表格排序,每个表格中按照字段顺序排列,并标注字段位置。但对于货品条目处省略的列分割线,也无法正确理解此类特殊结构。


图片27_gaitubao_853x470

(阿里达摩院表格类OCR海关货物报关单识别结果)


4.腾讯云表格类OCR

对于有表格线的识别,腾讯OCR要优于百度OCR和阿里OCR,由于网页端限制,结果截屏有限,但从图中我们依然可依然看出腾讯OCR对于件数,毛重的识别是准确分开的,基本还原了原始表格的结构。


图片28_gaitubao_622x600

腾讯表格类OCR海关货物报关单识别结果(部分)


5. 合合表格类OCR

对于有表格线的识别,合合返回结果非常好,文字准确率和结构准确率都很高,但依然还有部分问题,就是对于表格下半部分缺少列分隔线的分列识别。表格下半部分实际上是一个只有行表格线没有列表格线的表格,但是合合没有识别出隐含的列表格线,这也是目前表格识别都不够智能的地方。


图片29_gaitubao_872x1061

合合表格类OCR海关货物报关单识别结果(部分)


6. 薪火表格类OCR

薪火对于表格线文档识别也非常高,结构上比合合稍差的一点是,对于货品描述合合是按照原表格结构换行的,但是薪火合成了一个长字符串,加大了后续用户的切割难度。对于印章重叠的部分,薪火的准确度比合合高一点,但也没有准确识别出‘如实申报’以及货品信息。


图片30_gaitubao_856x553

薪火表格类OCR海关货物报关单识别结果



测评结果汇总:

以下三张表是七家公司OCR三个实验样本结果整合,其中文字识别准确度是针对识别到的文字准确度(OCR正确文字个数/原文总字数)。表格完整度指识别结果覆盖表格面积的百分比,表格结构准确度指准确识别表格划分的单元格内容占比


图片31_gaitubao_773x482

图片32_gaitubao_762x195


整体测评总结:

中英文OCR识别准确度较好的是谷歌,薪火与合合,英文文本的识别准确度整体要高于中文文本。对表格内文字识别而言,表格样本结构的复杂性和文字密集程度会很大影响文字识别的结果,但识别简单的表格例如检验报告单文字OCR准确度很高。此外印章也会影响颜色重叠部分的识别准确度,尽管人类可以通过观察识别印章下面的文字,但对于机器来说目前还有难度。整体来说对于结构简单的表格文档各家平台的准确度都可以满足一般文字提取的要求。


英文表格结构抽取能力最强的是Azure Form Recognizer,对英语成绩单表格几乎全部识别准确,其次是合合,存在分列不完全的问题,而其他平台几乎不能正确切分无格线的英文表格。对于中文表格,合合整体上识别得最好。腾讯,阿里对于简单的表格或者是表格线清晰的表格识别相对准确,但是对于复杂表格的识别能力较弱。百度对于无表格线的文本识别比例较低,基本无法识别出分隔结构。目前,即便是识别准确度最好的AI平台,也并不能完整准确地提取出表格结构,如上文所述的大多会忽视隐藏的表格线。现实生活中的表格大多数是半结构化文档,目前表格类OCR对于这类文档的理解能力还不能直接满足用户使用场景的细致需求。


由于目前提供文档键值对提取接口的平台还只有谷歌云和微软Azure,在英文表单中谷歌和微软对于表格头尾部分有键值对强特征(如冒号,划线等)的部分可以达到90%以上的抽取准确度,但对于表格内非常见表格项的各科科目和成绩分数的配对完全无能为力。


综上所述,目前各个平台对清晰图片的文字OCR准确度已经能够达到可信赖的程度,如果针对个别特殊符号以及印章遮挡部分进行完善优化,就可以达到完全识别的状态。而对于文档表格和表单抽取智能化和通用性还远远不能达到实用的状态,目前仅能对表格线完整,分隔规则的表格可高精度结构化抽取。

所以各个平台都针对特定应用场景的推出识别模型以支撑最常见的应用需求,例如税务票据、身份证件、营业证照、名片等特定场景和格式的文档识别。然而,企业及各类机构所面对的文档智能化的场景远远大于特定的有限类特定格式,如何让人工智能可以象人类员工一样高精度地识别各类表单成为行业智能化普及进程中的关键一环。


壹沓科技与人工智能同行们正就多场景、通用化的中英文表单自动识别和键值抽取任务投入大量的研发资源,并在一些关键问题如字符遮挡、表格键值对齐不一致、连续文本键值抽取中已经取得不小进展。我们坚信——通过有效结合图像处理、计算机视觉、OCR、NLP及知识图谱等AI技术,在不远的将来一定能够使得文档智能化在各行各业完整落地,实现高效算力对重复劳动的全面取代。