金融壹账通：荣登CVPR两项榜单榜首搭建文本OCR中台赋能金融场景-- 财富台州网

近日由CVPR2020举办的扫描文档OCR问答与检索竞赛Document Visual Question Answering（DocVQA）落下帷幕。在文档问答和文档检索两个子任务上，金融壹账通GammaLab团队分别以ANLS 84.84%和MAP 80.90%荣获两项任务榜单第一，同时参加该竞赛的还有阿里达摩院、科大讯飞、中科院等公司。

国际计算机视觉与模式识别会议（CVPR）是IEEE一年一度的学术性会议，是世界顶级的计算机视觉会议，三大顶会之一，会议的主要内容是计算机视觉与模式识别技术。

本次金融壹账通Gammlab团队参加的扫描文档OCR问答竞赛（Document Visual Question Answering）是针对表格、报告、信件等真实场景文档图片和相对应的问题，进行作答找到正确答案的竞赛。竞赛在文本检测和文本识别的基础上，加入了“阅读理解”任务，对文档中的内容进行提问。在良好的文字定位和识别能力的基础上，还需要充分理解文档内容，相比常规的OCR竞赛更具有挑战性。

此次竞赛存在两大难点。具体而言，一是文档图片质量参差不齐。其中存在着大量的手写体和分辨率较低、含有网纹的文档图片，常用的通用类OCR模型很难在这些文本上取得较好的效果。二是文档问题多元化。竞赛不仅仅需要文字内容，还需要融入非文字元素（标记、刻度框，分隔符，图表），布局（页面结构，表格）和样式（字体，颜色，高亮）等信息。

针对上述痛点，金融壹账通Gamma Lab团队采用了最先进的OCR通用模型进行突破。首先，在检测阶段，对原始数据进行了页面方向检测和去网纹处理，提高模型文字检测的准确率。其次，在识别阶段，对原始数据进行了旋转、缩放、膨胀、模糊和下划线等数据增强，使模型对于不同画质的图片具有鲁棒性。值得一提的是，Gamma Lab的英文OCR识别模型，有效的解决了竞赛文档中网纹、页面方向、手写体、分辨率低等复杂样本检测和识别的问题，准确率超过官方提供的微软OCR结果，尤其在文字检测方面。

在文档理解上，模型加入了2D位置信息，帮助模型感知不同位置之间词语的关系，这对于理解真实场景中的文档是十分重要的环节。依托Gamma Lab团队在语言模型预训练领域和阅读理解领域的深厚积累，在海量的真实文档上引入了N-gram mask和问题生成的任务，并进一步训练了24层的大型transformer模型，以提升预训练模型在文档上的阅读理解的性能。此外，Gamma Lab团队还引入了表格检测、文本纠错、答案位置聚类等方案进一步提升算法性能。

目前，Gamma Lab已将以上技术整合入金融壹账通金融文本OCR中台。同时，该中台可以支持中文简体、中文繁体、英文等语种的识别，签约境内外客户数十家，涉及银行、保险、资管、证券、宽带运营商等多个行业。上线2个月来，OCR的调用量已经超过10万次。根据使用情况来看，Gamma-OCR的单字符识别准确率可达到99.99%，词条准确率达95.4%。使用该中台产品后，相关机构可减少50%-80%的信息录入时间，节省人力成本1/3以上。

Gamma Lab汇聚众多人工智能、大数据专家，累计申请专利技术200多项，前后获得近十项世界竞赛冠军。事实上Gamma Lab 的迅速崛起离不开金融壹账通对科技人才、科技研发的持续投入。当前，金融壹账通研发技术人才就占46%，吸纳了众多来自麻省理工、牛津、清华、北大、复旦、上海交大等全球名校的人才不断加入。未来，金融壹账通将凭借灵活多样的产品矩阵和科技服务能力，为客户创造更多的价值，把“科技让金融更简单”落到实处。

金融壹账通：荣登CVPR两项榜单榜首 搭建文本OCR中台赋能金融场景

金融壹账通：荣登CVPR两项榜单榜首搭建文本OCR中台赋能金融场景