技术简介
模式识别与多媒体技术团队提出了多项文档分析与识别、计算机视觉、机器学习新方法,并针对具有技术挑战性和应用重要性的文本检测与识别,研发了创新性的“自然场景与网络图片文本检测技术”及其相应的文本识别新技术(以下称“该创新技术”)。该创新技术像人的眼睛一样去看和像人的大脑一样去学习,能够智能、迅速、精确的自动检测出自然界和网络图片中的各种文字信息。
在自然场景图像、网络图片、多语言(中、英、印等)文档、街景图片集等大量国际标准公开测试库上,与当前主流技术相比,该创新技术均取得了最好性能;更重要的是,该创新技术处理速度比主流方法提高将近10倍,在智能手机上到达了实时效果。
基于该创新技术的学术论文已发表在IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI)上(计算机人工智能、计算机视觉、模式识别与机器学习领域世界上最顶级的学术期刊之一)。
获奖情况
在2013年国际文档分析与识别大会技术竞赛上,我们的创新技术获得本届大赛最受关注的Robust Reading Competition竞赛“自然场景文本检测”、“网络图片文本检测”、和“网络图片文本提取”三项冠军。其中,“网络图片文本提取”和“网络图片文本检测”获胜结果性能比第二名分别提高了19.36%和8.37%。
特别的,“自然场景文本检测”竞赛单元自2003年国际文档与识别大会设立项目以来,由于其技术的挑战性和应用的重要性,先后吸引了来自美国、德国、中国、法国、新加坡、俄罗斯、日本等十多个国家近三十支团队参加,包括了美国加州大学、美国纽约城市大学、清华大学、中国科学院自动化所、新加坡国立大学等单位的文档分析与识别、模式识别、计算机视觉及人工智能领域世界顶级研究团队;该项比赛已经成为评价和检验自然场景与图片文本检测与识别领域最新技术研究进展的最重要国际赛事及标准。今年,我们的创新技术取得了10年来该项竞赛的最好性能,也是中国研究机构首次问鼎该项冠军。
国际文档分析与识别大会(International Conference on Document Analysis and Recognition, ICDAR)是国际模式识别协会(IAPR)举办的文档分析与识别、模式识别领域世界上最重要的国际学术会议之一,每两年举办1次,从1991年第1届开始,到2013年已成功举办12届。
媒体报道
联系方式
联系人:殷绪成 联系人邮箱:xuchengyin@ustb.edu.cn
联系电话:010-82371191 网址:http://prir.ustb.edu.cn