第四讲:智能时代的古籍OCR技术

时间5月21日下午2:00-5:00 
腾讯会议号680 965 346 
抖音直播号BDDHLab

B站直播地址https://live.bilibili.com/22241979
B站回放地址:https://www.bilibili.com/video/BV19S4y1B7ru

主持人:

金连文(华南理工大学)

王军(北京大学数字人文研究中心)

主讲人:

  • 刘成林(中国科学院自动化研究所)
  • 金连文(华南理工大学)
  • 刘永革(安阳师范学院)
  • 张弛宜(北京书同文公司)

筹办人:王军、李斌、李林芳、何燕

技术服务:李斌、王瑞、李佳纯、芦靖雅、张雨桐

承办单位:

北京大学-字节跳动数字人文开放实验室

北京大学人工智能研究院

主办单位:

北京大学数字人文研究中心

中国图象图形学学会

中国自动化学会

联合主办:

中国古籍保护协会古籍智能专委会

中国图象图形学学会文档图像分析与识别专委会

中国自动化学会模式识别与机器智能专委会

指导单位:

中国古籍保护协会古籍智能专委会

高等院校古籍整理研究工作委员会

特别支持:字节跳动公益

内容介绍:

中华文明是历经数千年绵延至今、唯一未曾中断的文明体。作为中华文明的传承载体,收藏在海内外的数十万种古籍文献具有不可估量的历史文化价值。长期以来,古籍整理靠人力完成,高度依赖专家经验,成本高、效率低,进展缓慢。光学字符识别OCR(Optical Character Recognition)是对图片中所包含的文字图像自动识别并输出为字符编码的计算机技术,包括:版面分析、图像分割、文本检测、文字识别等技术过程。OCR是古籍数字化的核心技术,是实现古籍数据库检索、文本挖掘、知识发现以及网络传播的前提和基础。

古籍材料年代久远,所包含的文字量庞大、异体字众多、字形字体多变、版式多样、页面模糊,再加上缺乏充足的训练数据,这使得古籍的OCR远较常规的OCR任务具有挑战性。近年来,深度学习技术在这一领域的应用显著提升了古籍OCR的准确率,降低了应用门槛,极大地推动了古籍数字化的进程。

本次讲座我们荣幸地邀请到了古籍OCR领域的顶级专家:中国科学院自动化研究所副所长、模式识别国家重点实验室主任、中国科学院大学人工智能学院副院长刘成林老师,华南理工大学教授、中国图像图形学学会常务理事、文档图像分析与识别专委会主任金连文老师,以及安阳师范学院计算机与信息工程学院院长、甲骨文信息处理教育部重点实验室主任刘永革老师向大家全面介绍古籍OCR的技术流程和前沿进展。我们还邀请了在古籍OCR领域的业界翘楚书同文公司总裁张弛宜女士向大家介绍古籍OCR的业界实践。

本次讲座得到了中国图像图形学学会文档图像分析与识别专委会和中国自动化学会模式识别与机器智能专委会的鼎力相助,在此表示衷心感谢!

报告人与主讲人简介

报告1:复杂文档图像版面分析

摘要:古籍文档识别面临图像退化、版面复杂、字符类别集大而标记样本少等困难。本报告概要介绍复杂文档图像版面分析研究进展,希望对古籍文档数字化技术研发和应用提供参考。版面分析任务包括文档区域分割和逻辑关系分析,受文档元素多样、图文变形、结构复杂多变等因素影响,一直没有很好地解决。近几年,用结构化预测模型(条件随机场、图神经网络等)结合深度学习的方法,在复杂文档版面分析方面取得了很大进展。本报告首先概述版面分析的基本方法(自上而下和自下而上的方法),然后重点介绍基于全卷积网络和结构化预测的版面分析方法研究进展,包括基于图神经网络的复杂文档图像区域分割和关系分析等。

报告人:刘成林。中国科学院自动化研究所副所长,模式识别国家重点实验室主任,研究员、博士生导师,中国科学院大学人工智能学院副院长。1989年、1992年、1995年分别在武汉大学、北京工业大学、中国科学院自动化研究所获学士、硕士和博士学位。1996年至2004年先后在韩国科学技术院、日本东京农工大学、日立中央研究所从事博士后和研发工作。2005年起在中国科学院自动化研究所任研究员。2008年获得国家杰出青年科学基金。研究兴趣包括模式识别、机器学习、文字识别与文档分析等。在国内外期刊和学术会议上发表论文300余篇,合著英文专著一本。现任Pattern Recognition期刊和《自动化学报》的副主编,以及多个期刊的编委。任中国人工智能学会副理事长、会士,中国自动化学会会士、模式识别与智能系统专委会主任,中国图象图形学学会常务理事。美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)。
时间:14:00~14:45

报告2:古籍OCR——数据、方法及应用

摘要:中国几千年辉煌的文明,留下了海量的古籍,承载着丰富的历史和文化传承,具有极大的历史价值、文物价值、文化价值、社会及科学价值。古籍透彻数字化在古籍保护、检索、传播、信息挖掘及知识发现等方面具有重大意义,而光学字符识别(Optical Character Recognition, OCR)是古籍数字化的重要核心支撑技术之一。本报告将简要介绍目前OCR的主流技术及发展现状,介绍一些典型的面向古籍OCR的开源数据集、弱标注少样本情况下的古籍文字识别技术、高精度古籍图像文字分割技术、以及相关OCR技术在古籍数字化过程中的一些典型应用展示,并对古籍文档图像分析与识别的未来发展方向进行展望及讨论。

报告人:金连文。华南理工大学二级教授,博士生导师。于1991年、1996年分别于中国科技大学、华南理工大学获学术学位和博士学位,目前兼任中国图像图形学学会(CSIG)常务理事、CSIG文档图像分析与识别专委会主任、CAA模式识别与机器智能专委会常务委员等学术服务职务。主要研究领域为文字识别、文档图像理解、深度学习、计算机视觉及应用等,在IEEE Transactions及重要国际国内学术期刊、ICDAR/ICFHR/CVPR/AAAI/IJCAI/NeurIPS/ECCV等重要国际会议上发表学术论文200余篇,其中SCI期刊论文80余篇,Google Scholar引用9000余次,H-Index 49。获省部级科技奖5次,指导学生参加国际学术竞赛荣获冠军20余次。
时间:14:45~16:00

报告3:甲骨文大数据及相关识别处理

摘要:甲骨文是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉,但是甲骨文研究遇到很多难题,在当今信息时代,人工智能技术能不能在甲骨文研究方面发挥作用?我们甲骨文信息处理教育部重点实验室在甲骨文大数据及平台建设、甲骨文检测与识别等方面进行了一些探索。

报告人:刘永革。甲骨文信息处理教育部重点实验室主任,安阳师范学院计算机与信息工程学院院长,教授,硕士生导师,主要研究方向甲骨文信息处理,主持了2项国家自然基金面上项目,主持了2项国家社科基金重大项目子课题,1项教育部、国家语委甲骨文研究与应用专项。
时间:16:00~16:20

报告4:古籍OCR二十五年工程应用历程

摘要:OCR用于大规模工程实践迄今已25年,古籍OCR的工程需求源于《文渊阁四库全书》全文电子版工程,书同文古籍OCR技术从与高校的合作研发启动,经历破冰、自主研发、低谷坚守、突破创新,达到目前大规模生产常规全文古籍数据的实用阶段。本次讲座报告人将结合其25年古籍全文数字化的从业经历,并结合书同文古籍库52个子数据库,阐述古籍OCR在各类大规模工程数据生产中的所发挥的作用,及其相关联的标准及技术的工程应用。

报告人:张弛宜,北京书同文数字化技术有限公司。
时间:16:20~16:40

提问及讨论环节 16:40~17:00

问题征集:
欢迎您提出针对本次讲座的主题,主讲人或与谈人的问题。这些问题将提交给本次讲座的主讲人/与谈人,在自由讨论阶段予以优先回答。请将您的问题交至 gdhc@pku.edu.cn 。谢谢!

会议回顾

2022年5月21日下午,“古籍智能信息处理”系列专题研讨会第四讲在腾讯会议举行。此次研讨会由北京大学数字人文研究中心、中国图象图形学学会、中国自动化学会主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,华南理工大学电子与信息学院金连文教授、北京大学数字人文研究中心主任王军教授主持了研讨会。本期研讨会的主题为“智能时代的古籍OCR技术”,中国科学院自动化研究所刘成林教授、华南理工大学金连文教授、安阳师范学院刘永革教授、北京书同文公司张弛宜总经理先后作了精彩的报告,随后由金连文教授主持讨论和互动环节。本次研讨会通过腾讯会议、Bilibili网站、抖音和蔻享平台同步直播,吸引了来自国内外高校及相关研究领域的近4000位观众在线观看。

开场致辞

会议伊始,北京大学数字人文研究中心主任王军教授介绍了本次研讨会的召开背景和与会嘉宾。

王军教授指出,OCR技术是古籍数字化的核心和基础,由于古籍文字量庞大、异体字众多等原因,古籍OCR比一般的OCR任务更具挑战性;OCR技术是目前古籍数字化领域受关注程度最高、应用面最广、需求量最大的技术;本次研讨会非常荣幸地邀请到古籍OCR领域的顶级专家和业界翘楚,阵容强大。随后,金连文教授主持了研讨会。

专题报告

刘成林教授的报告主题为“复杂文档图像版面分析”。报告介绍了文档分析识别的一般流程:包括图像获取、图像预处理、版面分析、文字识别四个阶段。针对复杂多变的文档,介绍了一些近年来提出的基于深度学习的文档图像版面分析方法,包括基于实例分割的方法和基于关系推理的方法。这些新方法在版面分析的多个任务(背景去除、区域分割、图文分离、文本行分割等)上都取得了良好的性能。但是,基于深度学习的方法对数据标注的要求较高,如何解决标注数据集的缺乏,是一个重要的问题。在古籍文档分析工作方面,刘教授团队构建了CASIA古籍文档数据库,可以用来协助古籍文档版面分析与OCR工作。最后在总结中指出,古籍文档因其独特的复杂性,标记数据不足,其版面分析和识别技术发展相对滞后,未来应着力构建大规模图像和文本语料库、古籍文档图像预训练模型等,并通过全方位的技术研究、推广应用等促进古籍数字化的发展。

金连文教授的报告主题为“古籍OCR:数据、方法及应用”,首先介绍了古籍OCR的研究意义和价值、困难与挑战,然后从数据、算法及应用三个方面分享了自己对于古籍OCR的思考。在数据方面,金连文教授介绍了目前公开的中外文古籍版面数据集、中外文古籍文字检测与识别数据集、甲骨文图像数据集等情况。在算法方面,金教授回顾了一些常用的物体检测及场景文本检测方法如YOLO、SSD、Faster R-CNN、Mask R-CNN、EAST、BDN等背景知识,介绍了两种高精度文字检测分割方法,包括基于强化学习的文字检测方法和基于识别指导的高精度文字分割方法,介绍了基于篇幅标注的古籍文字识别、弱监督的古籍文字识别、端到端古籍版面分析与文字识别方法。金教授还介绍了近期其团队开展的基于Transformer的古籍版面分析、基于图神经网络的文档阅读顺序理解等方法。在OCR应用平台方面,金教授简要介绍了SCUT Tripitaka OCR、北京如是AI研究院古籍OCR、i-慧眼OCR等三个OCR应用平台。

刘永革教授介绍了“甲骨文大数据及相关识别处理”。甲骨文作为最古老的古籍,有其自身的特点,目前的甲骨文大数据建设有“三库一平台”。“三库”,包括著录库、文献库和字形库。著录库目前上线了152种著录,包括甲骨文的原始图像、释文、重片和缀合;文献库,包含了32737篇甲骨文论著;字形库,是包含4487个甲骨文字形的数据库。“一平台”,指的是“殷契文渊”网络平台,以知识图谱技术为依托,将甲骨文研究材料在语义层面进行有机结合,辅助研究工作。甲骨文的识别,作为一种特殊且困难的OCR对象,有国家特殊需求、甲骨文研究需要、释读甲骨文需要三重意义。刘教授选取了现有的三个OCR系统进行了识别实验,总结了甲骨文识别中存在的一些问题。其团队构建了手写甲骨字数据集、OBC306甲骨文识别数据集和甲骨文字检测数据集,希望这些数据集能够帮助计算机工作者提供更好的甲骨文OCR技术。最后,刘教授表示甲骨文就像一个未开发的宝藏,希望能通过信息技术破解甲骨文。

张弛宜总经理介绍了书同文“古籍OCR二十五年的工程及应用历程”。书同文古籍OCR工程的驱动始于1997年文渊阁四库全书电子版工程,该工程首次将国际编码字符集和OCR应用于大型古籍全文数字化。书同文开创了古籍全文数字化数据处理的制作流程。在2018年底,借助CNN方法,古籍OCR技术在工程实践中得到突破。以书同文i-慧眼为例,一台中档 GPU一天可以识别4万页、1400万字。张经理对i-慧眼与书同文众包校对平台“点字成金”做了操作演示。她表示,古籍全文数字化虽然是一个狭窄行业,但是能为中国传统文化数字化传承奠定数据基础,以此为基础的进一步研究成果广传于世,体现我国的文化自信,希望更多有志于此的同学们能参与到这项工作中。

专家讨论

报告结束后,四位主讲人和与谈人就研讨会内容进行了交流探讨,回答了观众们的问题。对于学界和企业协作推进古籍OCR的发展,专家们表达了自己的期望。本次研讨会在各位OCR领域重量级大咖的加持下,对古籍OCR技术做了全面的总结,在长达三个小时的专业技术报告中,观看研讨会直播的观众人数不仅没有减少,反而越来越多,观众们热情参与,积极互动,反响热烈,纷纷表示此次研讨会令其收获颇丰,值得反复观看。本场研讨会荣登B站直播间高能榜第一名,无疑是OCR学界的一件盛事。

系列研讨会的相关信息将会在古籍智能网站(http://gujiai.cn)上进行更新。下期研讨会将于6月25日举办,研讨会的主题是“古籍专题文献库的建设与发展”,敬请关注。

系列研讨会会后活动

为了与广大高校师生、古籍收藏整理从业者和数字人文爱好者更好、更充分地交流和学习,我们计划在每期“古籍智能信息处理”研讨会结束之后和与会者进行互动:

(1)课后作业:每期研讨会后,我们会以在线问卷的形式预留课后问答作业。第三讲课后作业链接为:https://ks.wjx.top/vj/mo3rVx4.aspx

(2)志愿者招募:每期研讨会会后我们将发布会议回放视频,现招募志愿者整理会议文字内容。有意参与研讨会全文整理的志愿者,请与我们联系,报名邮箱:gdhc@pku.edu.cn。十讲专题研讨会作业全部提交的参与者,或者志愿参加研讨会内容整理者,则将被评为”荣誉学员“。我们将在古籍智能网站(gujiai.cn)上发布荣誉学员名单,荣誉学员也将获得北京大学数字人文暑期课优先录取的资格。期待您的参与!