第九讲:古籍语料库的构建与应用

时间:11月20日下午2:00-5:00 
腾讯会议号:988-385-766
B站直播地址:https://live.bilibili.com/22241979

主持人:

苏 祺(北京大学)

李 斌(南京师范大学)

主讲人:

李 斌(南京师范大学)

韩先培(中国科学院软件所)

朱 彦(中国中医科学院中医药信息研究所)

饶高琦(北京语言大学)

筹办人:王军、李斌

技术服务:李斌、付炳豪、芦靖雅、张雨桐

承办单位:

北京大学-字节跳动数字人文开放实验室

北京大学人工智能研究院

主办单位:

北京大学数字人文研究中心

联合主办:

北京大学中国古文献研究中心

南京师范大学文学院

指导单位:

中国古籍保护协会古籍智能开发与利用专委会

全国高等院校古籍整理研究工作委员会

特别支持:

字节跳动公益

内容介绍

古籍数字化的初始结果是电子文本,而古籍语料库则是利用计算机和语料库技术对电子文本进行加工标注后形成的富含知识的电子资源库,能够服务于语言、文学、历史研究和国学教育,是古籍数字化走向深入、活化利用古籍的关键技术和资源。目前,亟需建立统一开放的、大规模、跨时代、多领域的古籍语料库。在前几期会议中,我们邀请了专家先后介绍了古籍的数字化平台建设、历史地理信息系统的建设、古籍录入技术、专题资源库建设、汉字编码字符集、古籍目录数据库的建设以及古籍的自然语言处理等方面的重要内容,展示了古籍数字化各方面的最新进展。

古籍语料库建设是古籍数字化进程中不可或缺的一部分,对于词典编纂、语言教学、语言研究等方面具有重要意义,本次会议我们十分荣幸地邀请到了在古籍语料库建设方面颇有建树的专家:南京师范大学李斌老师、中国科学院软件所韩先培老师、中国中医科学院中医药信息研究所朱彦老师、北京语言大学饶高琦老师,将为大家介绍有关古籍语料库方面的相关知识,包括先秦典籍、中华经典诗词、中医古籍和近现代报纸等语料库的构建以及实际应用等方面的精彩内容。

报告主题与主讲人简介

报告1:古籍语料库的构建和应用

摘要:报告回顾了国内外古籍文本数字化的研究概貌,进而介绍中国古籍语料库的形态、标准和构建方法,包括句读、标点、分词、词性标注、专名标注、实体链接、句法标注等不同的标注层级。接着,以南师大构建的约200万字的先秦文献标注语料库为例,介绍语料库的构建方法;以《左传》《资治通鉴》等数字人文知识库为例,介绍古籍知识库的构建方法。然后,介绍了如何基于这些数据进行语言与内容的计量分析,以及基于语料库的自动分析方法与国际评测情况。最后讨论了语料库知识库在构建和应用中存在的问题与挑战。

报告人:李斌
南京师范大学文学院语言科技系副教授。2009年文学院计算语言学方向博士毕业留校,讲授中文信息处理概论、数据库、语法学、数理逻辑等研究生和本科课程。2010-2013年南京大学计算机系博士后,2015美国布兰迪斯大学中文信息处理方向访问学者、2019年哈佛大学数字人文方向访问学者。研究领域包括计算语言学和数字人文,特别是古汉语信息处理等方面。在古籍断句、分词、词性标注、词义分析的标准制定、资源构建和自动分析等方面做出了诸多研究成果,主持构建的多种语料库在国际LDC平台发布。出版专著《语言探秘》等3部,发表论文60多篇,专利1项,软著十多项。主持完成国家社会科学基金青年项目1项、教育部社科青年项目1项,目前主持国家社科基金项目1项。

报告2:中华经典诗词知识图谱构建技术

摘要:中华诗词历史悠久、数量庞大、形式多样。本报告将汇报中中华经典诗词知识图谱的相关构建技术,包括:利用现有的中华诗词资源和研究成果,构建多维度的中华诗词知识本体体系;以知识本体体系为基础,研究海量异构资源的抽取和整合技术,挖掘海量中华诗词中的概念、实体、关系和事件,构建中华经典诗词知识图谱;基于知识图谱,研究和设计中华经典诗词展示平台,通过分析诗词中的素材与知识图谱中概念、事件、时间、地点等核心元素之间的关联,多维度展示中华诗词所涉及知识点的文化背景、历史渊源和发展脉络。

报告人:韩先培
中科院软件所研究员,担任中文信息处理实验室副主任,入选国家优青、中国科协青年人才托举计划及北京智源青年科学家。主要研究方向为信息抽取、知识图谱及自然语言理解。承担中科院战略先导、科技创新2030课题、国家重点研发专项等十余项课题。在ACL、SIGIR、IJCAI等重要国际会议发表论文60余篇。担任中国中文信息学会理事及语言与知识计算专业委员会副主任。相关成果获中国中文信息学会汉王青年创新奖一等奖及科学技术奖一等奖。

报告3:中医古籍语料库知识库一体化系统研发

摘要:介绍团队面向古籍文本智能化处理与应用的实际需要,迭代研发中医古籍语料库知识库一体化系统的历程。首先介绍了在历代中医方剂数据结构化和标准化过程中,对分词、信息抽取等自然语言处理技术进行了初步的研究和应用。为便于构建和管理更大规模的语料,开发了第一个版本的语料标注系统。随后,面向构建“中医皮肤病古籍专题知识库”的需求,设计了语料库和知识库一体化的系统框架,初步实现了本体术语集管理、古籍文本管理,实体类型和关系模式的自定义设计、实体和关系的半自动标注、知识的语义检索和可视化等功能。最新的版本中,面向不同专题知识库的管理和应用需求,新增了自定义专题库、用户角色管理等功能。报告最后对系统研发过程中的得失进行总结,展望未来的工作,以期为相关古籍文本智能化系统的研究与实施提供有益参考。

报告人:朱彦
中国中医科学院中医药信息研究所副研究员,中国中医科学院中医药信息研究所及长春中医药大学硕士生导师。研究方向:中医药领域本体构建与应用、方剂药品信息标准化与分析挖掘等。中华医学会医学信息学分会医学大数据与人工智能学组委员,《中华中医药杂志》、《中国药物警戒》青年编委。近年来主持国家自然科学基金2项、北京自然科学基金1项,及中国中医科学院科技创新工程及优秀青年科技人才培养专项等项目。第一或通讯作者发表论文20余篇,出版著作2部。  

报告4:近现代报纸语料库的建设与应用——以《申报》《人民日报》大跨度历时语料库为例

摘要:没有任何社会、思想变迁不在语言中留下痕迹(金观涛),因而历时语料库的建设为我们提供了由语言观察社会、历史发展的窗口。北京语言大学基于《申报》和《人民日报》数据建立了自洋务运动(1872年)至新世纪初(2015年)的中国历时报纸语料库。该时段覆盖了现代汉语书面语孕育、发展到成熟的关键阶段,也是中国从近代化走向现代化的转型时期,对语言研究、历史研究具有较大的价值。

我们对近150余年的报纸数据进行分词和命名实体识别加工,并基于此数据采用BCC全文检索引擎构建在线服务系统。通过对报纸用字、用词情况和特殊语法结构进行分析统计,历时语料库可以展示最近一个半世纪内文言文与白话文的竞争、呈现一些重要观念在语言结构和内容上留下的痕迹。我们期待可以基于文本信息对语言演变背后的历史信息进行挖掘和解读。

报告人:饶高琦
北京语言大学汉语国际教育研究院助理研究员,语言智能研究院、中国语言规范与标准研究中心兼职研究员。中文句法错误诊断技术评测(CGED)、面向教育应用的自然语言处理技术工作坊(NLP-TEA workshop)共同主席;语言学微信公众号“汉语堂”主编。研究兴趣为语言资源建设、语言规划、数字人文。在国内外期刊、会议发表论文三十余篇。
问题征集:
欢迎您提出针对本次讲座的主题,主讲人或与谈人的问题。这些问题将提交给本次讲座的主讲人/与谈人,在自由讨论阶段予以优先回答。请将您的问题交至 gdhc@pku.edu.cn 。谢谢!

会议回顾

2022年11月20日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第九讲在腾讯会议如期举行。本次讲座由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学苏祺副教授和南京师范大学李斌副教授主持。
本期讲座的主题为“古籍语料库的构建与应用”,南京师范大学李斌老师、中国科学院软件所韩先培老师、中国中医科学院中医药信息研究所朱彦老师以及北京语言大学饶高琦老师先后发表了精彩的报告。著名计算语言学家冯志伟先生全程参会,并表达了对本次会议的肯定。在讨论和互动环节,各位老师针对线上观众的提问给出了细致的解答。本次研讨会通过腾讯会议、哔哩哔哩平台同步直播,来自国内外高校及相关研究领域的一千多位学者共同观看,共襄盛会。

开场致辞

会议开场,苏祺副教授指出,为了能让古籍真正“活”起来、“智”起来,除了技术上的创新之外,最重要的就是在古籍的语料库方面具有足够丰富的一个语料库资源和知识库。目前在古籍智能方面,亟需建立统一开放、大规模、跨时代、多领域的古籍语料库。古籍语料库的建设是古籍数字化进程中不可或缺的一部分,对于词典编纂、语言教学和语言研究等各个领域和各个层面都具有非常重要的意义。随后,苏祺老师介绍了参与本次研讨会的四位专家,并请各位专家先后发表了基于各自主题的精彩报告。

专题报告


一、古籍语料库的构建和应用

李斌老师从多年古汉语语料库的构建经验出发,首先对比了古埃及、苏美尔等其他语言古籍与汉字古籍在文本分析方面的区别,总结了古汉语标注过程中在各个层面遇到的问题。随后通过统计分析古汉语语料库中的字频、词频和词类的方法,展示了基于先秦文献标注语料库在语言计算层面进行的一系列探索。另外,现场演示的《资治通鉴》检索平台,也将人物关系、时间和地点等内容进行了生动丰富的可视化呈现。李斌老师在语料库标注的基础上,完成了对文史知识的构建与计量挖掘,这一方法对相关研究者具有很好的启发性。最后李斌老师总结了对未来工作的展望,包括如何修正语料库中的错误、加强人才培养、实现语料库更多场景的应用等方面。


二、中华经典诗词知识图谱构建技术

韩先培老师基于政策和中华经典诗词本身具有的特征两个背景,介绍了中华经典诗词知识图谱的构建方法和技术。首先,在古代文学专家的协助下,结合知识抽取技术,形成多层次诗词知识本体体系,为描述和组织中华诗词提供基础。其次,基于前沿的知识图谱技术,构建出多侧面的中华诗词知识图谱,为中华诗词的教育普及提供资源。最后,通过立体化知识展示,研发多维度中华诗词展示平台,为中华诗词的知识传播、教育普及和文化传承提供支撑。韩先培老师介绍的诗词图谱平台,提供了一个中华经典诗词与自然语言处理以及大数据知识挖掘相结合的优秀范例。


三、中医古籍语料库知识库一体化系统研发

朱彦老师以屠呦呦发现青蒿素为例,介绍了中医古籍语料库的必要性,以及基于语料库及知识库进一步激发中医古籍活力的重要性。接着朱彦老师详细介绍了中医古籍本体库的设计思路和构建过程。在清代医书分词语料库和分词规范方面,以及中医实体自动标注方面,老师介绍了前期的研究性工作。在有关中医古籍的知识库及管理系统的设计和功能方面,朱彦老师也从领域专家的视角给其他领域古籍标注系统的构建以很大的启发。最后朱彦老师指出了中医古籍语料库实用、好用、规范、推广的未来工作方向。

四、近现代报纸语料库的建设与应用——以《申报》《人民日报》大跨度历史语料库为例

饶高琦老师以《申报》和《人民日报》为例,通过各种数据的统计和分析,介绍了搭建近现代报纸语料库的方法和技术。首先从语料概况,包括字、词以及标点符号等基本数据展示了语料库搭建的前期工作。随后饶高琦老师介绍了全文检索引擎,该检索系统可进行词性符号、各种通配符和字符混合检索,尤其是词形词类的通配检索。饶老师还化用“中国式现代化”的说法,希望通过语言、数据的变迁,窥探中国现代化进程中容易被忽视的思潮变迁和社会变迁。最后老师作出未来研究展望,即研究和搭建一个近代历时语料库,以期能够解决“现代汉语是怎么来的”这个关键问题。

互动问答

在互动环节,著名计算语言学家冯志伟先生,回顾了他研究语言学和计算机的经历,冯先生结合中国语言学的发展进程,指出计算机在处理古籍内容方面大有可为,并对“古籍智能”系列讲座的开展以及四位专家的报告给予了高度的评价和认可。随后,在苏祺副教授的主持下,四位专家就评论区的留言,例如古代汉语语料库的主要难点有哪些,哪些内容可以做自动标注,《贵州日报》与《人民日报》语言研究的区别等问题,基于自身的研究经验给出了具体而详细的回答。最后,苏祺副教授作了总结性的发言并与参会的各位老师、专家和学者合照留念。至此,本次研讨会在交流与收获的充实氛围中圆满结束。

本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。

本期研讨会视频回放已在B站更新https://www.bilibili.com/video/BV1T841177e9)。“古籍智能”系列研讨会第十讲将于2022年12月下旬举行。系列研讨会的相关信息将会在数字人文开放实验室公众号上进行更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。