光学字符识别(Optical Character
Recognition,以下简称OCR)是指分析图像从而获取文字信息的过程,不少智能手机中的名片扫描软件就有这一功能。2018年11月20日,OCR领域的重要指标——国际文档分析与识别大会(ICDAR)测试集被再次刷新,中国高校及企业包揽ICDAR2015排行榜前五,依次为云从科技(Pixel-Anchor)、南京大学与南京理工大学(PSENet)、旷视科技(Mask
Text)、商汤科技(FOTS)、阿里巴巴(IncepText)。 国际文档分析与识别国际会议 (International Conference on Document Analysis and
Recognition,ICDAR)是由国际模式识别学会(IAPR)组织的专业会议之一,专注于文本领域的识别与应用。为了提高自然场景的文本检测和识别水平,国际文档分析和识别会议(ICDAR)于2003年设立了鲁棒文本阅读竞赛(“Robust
Reading
Competitions”)。至今已有来自89个国家的3500多支队伍参与。Google、Microsoft、Amazon、Facebook、北京大学、中国科学技术大学、腾讯、搜狗等均曾参与其中。 鲁棒文本阅读竞赛的测试数据集一直在网上公开,可以随时提交结果,是自然场景文本检测行业中检验算法的测试数据集。ICDAR2015和ICDAR2017
MLT就是其中两个测试子集。 澎湃新闻采访了目前位于ICDAR2015榜单第一名的云从科技。云从科技研究院自身算法工程师李源介绍,CDAR2015和ICDAR2017
MLT是自然场景文本检测领域的权威数据集,“基本上所有文章都会在上面检测”。