谷歌 预览文档AI进行解析表格:只需追赶AWS和Azure?

将混乱的文件转换为整齐的结构数据 - 如果你很幸运


谷歌云平台正在预览文档AI,一个新的服务,用于自动提取来自文档的数据,例如键/值对的表单,具有选择解析器和使用自定义模型的选项。

Document AI背后的思想是,企业处理数千个文档,其中许多文件包含结构化或半结构化数据,而是以不同的格式,并且在从它们中提取结构化数据方面有受益,因此可以进行处理和分析。

这包括将数据转换为标准表单,因此“姓氏”“姓氏”和“姓氏”的同义词被视为代表同一件事。 “我们在各种格式中占据了您的非结构化文档,并将其转化为干净的结构数据,”是 沥青 .

在Document AI中解析发票:发票行中的内容发生了什么?这种精心布局的服务并不那么好。

在Document AI中解析发票:发票行中的内容发生了什么?这种精心布局的服务并不好

这已经预览了这一点,但昨天推出的新一块 - 是一个统一的API,使开发人员能够使用各种不同的解析器或“处理器”处理文档。 API是REST或GRPC,由客户端库包裹java,node.js或python。

可用的处理器涵盖OCR(光学字符识别),通用表单,通用表和文档分配器,“使用机器学习将文档分开在逻辑边界”中,例如将扫描文档的集合分解为逻辑段落和页面。发票,收据,贷款文件,美国统一住宅贷款申请以及几个美国联邦税表的特殊解释。

开发人员和数据科学家还可以建立自己的自定义自动帧自然语言模型来解析和分析文档。这种方法是最强大的,使这些事情能够识别实体并在文件中评估态度。

Automl自然语言模型不是新的,但在文件API中的集成是现在Beta中的部分。也就是说,两张表解析和自动机标记为无条目登录 译文 ,表示封闭的测试版以及包括文档分离器的其他一些特征是“有限的访问”,这意味着Google的预批准是必需的。

它的工作程度如何?

该文件的设计产生了很大的差异。如果它的布局很简单,直截了当的话,准确解析的机会很好,但如果它有更精细的布局,解析器可能会困惑。我们尝试了在旧发票上的发票解析器,结果是展会的,但是解析器为某种原因忽略了其中一个发票线,并决定发票上的一些营销线是要提取的结构化数据,提取键例如,称为“更便宜的朋友,”。

该服务在普通的发票上做得更好,在那里它成功读取了一个名为VAT企业技术新闻的行,并将其解析为供应商_tax_id,究竟是有用的智能解析的那种。

Document AI可以节省大量的手动努力,但有些人检查也很有必要。对于可能是污染或脏污的扫描文件尤其如此。

谷歌对对机密性的担忧敏感 在处理完成后处理后,在处理完成后,通常会删除存储的文档。“

该公司补充说,“谷歌还暂时记录了一些关于您的文件AI API请求的元数据......改善我们的服务和战斗滥用。”谷歌的数据不用于培训和改进文档AI机器学习模型。

价格有所不同,但例子解析器例如为每1000页的价格为65美元,而OCR处理器的文件费用为每1000页1.50英镑。

最后,请注意,AWS有一个类似的服务 textract.,虽然Microsoft Azure具有称为“AI供电文档提取服务” 表格识别器,所以它看起来像Google Cloud最新举动中有一个追赶的要素。 ®


咬住它的手©1998-2021