近日由CVPR2020举办的扫描文档OCR问答与检索竞赛Document Visual Question Answering(DocVQA)落下帷幕。在文档问答和文档检索两个子任务上,金融壹账通GammaLab团队分别以ANLS 84.84%和MAP 80.90%荣获两项任务榜单第一,同时参加该竞赛的还有阿里达摩院、科大讯飞、中科院等公司。
国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学术性会议,是世界顶级的计算机视觉会议,三大顶会之一,会议的主要内容是计算机视觉与模式识别技术。
本次金融壹账通Gammlab团队参加的扫描文档OCR问答竞赛(Document Visual Question Answering)是针对表格、报告、信件等真实场景文档图片和相对应的问题,进行作答找到正确答案的竞赛。竞赛在文本检测和文本识别的基础上,加入了“阅读理解”任务,对文档中的内容进行提问。在良好的文字定位和识别能力的基础上,还需要充分理解文档内容,相比常规的OCR竞赛更具有挑战性。
此次竞赛存在两大难点。具体而言,一是文档图片质量参差不齐。其中存在着大量的手写体和分辨率较低、含有网纹的文档图片,常用的通用类OCR模型很难在这些文本上取得较好的效果。二是文档问题多元化。竞赛不仅仅需要文字内容,还需要融入非文字元素(标记、刻度框,分隔符,图表),布局(页面结构,表格)和样式(字体,颜色,高亮)等信息。
针对上述痛点, 金融壹账通Gamma Lab团队采用了最先进的OCR通用模型进行突破。首先,在检测阶段,对原始数据进行了页面方向检测和去网纹处理,提高模型文字检测的准确率。其次,在识别阶段,对原始数据进行了旋转、缩放、膨胀、模糊和下划线等数据增强,使模型对于不同画质的图片具有鲁棒性。值得一提的是,Gamma Lab的英文OCR识别模型,有效的解决了竞赛文档中网纹、页面方向、手写体、分辨率低等复杂样本检测和识别的问题,准确率超过官方提供的微软OCR结果,尤其在文字检测方面。
在文档理解上,模型加入了2D位置信息,帮助模型感知不同位置之间词语的关系,这对于理解真实场景中的文档是十分重要的环节。依托Gamma Lab团队在语言模型预训练领域和阅读理解领域的深厚积累,在海量的真实文档上引入了N-gram mask和问题生成的任务,并进一步训练了24层的大型transformer模型,以提升预训练模型在文档上的阅读理解的性能。此外,Gamma Lab团队还引入了表格检测、文本纠错、答案位置聚类等方案进一步提升算法性能。
目前,Gamma Lab已将以上技术整合入金融壹账通金融文本OCR中台。同时,该中台可以支持中文简体、中文繁体、英文等语种的识别,签约境内外客户数十家,涉及银行、保险、资管、证券、宽带运营商等多个行业。上线2个月来,OCR的调用量已经超过10万次。根据使用情况来看,Gamma-OCR的单字符识别准确率可达到99.99%,词条准确率达95.4%。使用该中台产品后,相关机构可减少50%-80%的信息录入时间, 节省人力成本1/3以上。
Gamma Lab汇聚众多人工智能、大数据专家,累计申请专利技术200多项,前后获得近十项世界竞赛冠军。事实上Gamma Lab 的迅速崛起离不开金融壹账通对科技人才、科技研发的持续投入。当前,金融壹账通研发技术人才就占46%,吸纳了众多来自麻省理工、牛津、清华、北大、复旦、上海交大等全球名校的人才不断加入。未来,金融壹账通将凭借灵活多样的产品矩阵和科技服务能力,为客户创造更多的价值,把“科技让金融更简单”落到实处。