第五讲:古籍专题资源库的建设

会议信息

时间:6月25日下午2:00-5:00 
腾讯会议号:498-715-980
B站直播https://live.bilibili.com/22241979

主持人:

杨海峥(北京大学中国语言文学系)
包 平(南京农业大学数字人文研究中心)

主讲人:

包 平(南京农业大学数字人文研究中心)

尹小林(首都师范大学电子文献研究所)

李海燕(中国中医科学院中医药信息研究所)

释贤度(北京如是人工智能技术研究院)

内容介绍

在开发和利用古籍资源时,古籍专题资源库必不可少。它们是以古籍为核心资源建设而成的电子资源库,既包括以电子方式重现原始文献的文献库,也包括从文献中进一步提取数据而成的数据库,还包括建立知识联系、提供知识服务的知识库等等。随着古籍数字化的深入推进,近些年古籍专题资源库不断涌现,或者囊括多种文献,内容全面;或者深耕某一领域,准确翔实。与此同时,库的功能也逐渐增多,从基本的文本图像呈现、检索,到文本标记、数据统计分析,再到古籍整理、知识组织挖掘,乃至结合人工智能技术并提供更为强大的功能。其中的许多库早已成为相关领域的研究者必不可少的工具,而日趋丰富的功能也会为今后的学习和研究带来更大的便利。那么,重要的古籍专题资源库有哪些,它们各自具有哪些特色,具备哪些功能,我们应该如何在学习和研究中加以利用,这些都是本讲将要讨论的内容。

在本讲中,我们非常荣幸地邀请到了知名古籍资源库的建设者和领军专家:南京农业大学数字人文研究中心主任包平老师,首都师范大学电子文献研究所所长尹小林老师,中国中医科学院中医药信息研究所所长李海燕老师,北京如是人工智能技术研究院院长释贤度法师。他们将共同向听众们介绍古籍专题资源库的建设现状、前沿进展,分享自己的实践、思考及未来展望。

报告主题与主讲人简介

报告1:方志物产知识库实践与思考

摘要:中华五千年文明进程中,形成了丰厚而又独特的物产资源,可谓地大物博。早自《山海经》《尚书·禹贡》就开始记载当时重要的物产资源,此后在地记、图经、地方志等文献中一直没有间断。两宋时期特色物产成为地方志的基本内容,明清以来地方志中涉及的物产信息更为全面系统。长期以来,人们更多地关注于历朝历代的人事的更替、事件的始末,而对于与我们生命、生活息息相关的物产缺乏全面系统的梳理与解读。本讲尝试基于对宋代以来9071种地方志文献中所载物产内容进行智能化整理、知识重组与关联、深度挖掘与利用等研究的进展与成果,以此为例,探索物产发展历史的独特之处与自身规律,分享特色历史文献知识库构建的理论与方法。

报告人:包平。南京农业大学数字人文研究中心主任,二级研究员,文学学士,理学硕士、博士,博士生导师。先后任南京农业大学图书馆馆长、信息中心主任;人力资源部部长、人才办主任。从事历史文献资源的收集、整理与利用工作。2008年以来,专注于中华历代方志物产文献资源的系统搜集整理工作,2018年获得国家社科基金重大项目资助。基于数字人文的研究视角对历代物产文献资源的时空分布与变迁、知识聚合与关联、智能考释与辨析、应用实践与拓展等方面开展了研究,形成了体系化的知识重组与智能挖掘研究技术。主持、参与国家、部省级项目20余项,出版专著6部,发表论文112篇,获得部省级奖励5项。现任中国科技史学会数字人文专委会副主任,中国古籍保护协会智能整理与利用专委会委员等。

报告2:《国学宝典》建设与应用

摘要:本次报告以“《国学宝典》建设与应用”为主题,从数据检索、数据统计、数据比对三个方面讲述《国学宝典》古籍数据库在实际生活中的具体应用及数字化为古籍整理工作例如校勘、自动标点等方面提供的新方法、新思路。《国学宝典》收录上起先秦、下至清末两千多年间古籍文献近10000余种,总字数达22亿字。

报告人:尹小林。男,1964年4月出生,四川绵阳人,首都师大电子文献研究所所长、国学传播研究院院长、中国诗歌研究中心专职研究员,中华谱牒文化研究基地执行主任,日本广岛大学客座教授;国学网、《国学宝典》创始人,北京国学时代文化股份有限公司董事长。在国学传播、古籍数字化理论与实践领域均有独立建树。

报告3:中医药古籍数字资源库简介

摘要:中国中医科学院中医药信息研究所与中国中医科学院图书馆是所馆合一的部属综合科研院所,是隶属于中国中医科学院的二级法人单位,馆藏中医古籍约占世存中医古籍的50%,在全国中医古籍资源调查的基础上,已建成中医古籍书目数据库、中医古籍资源图像数据库(“国医典藏”)以及养生、温病、医案、本草、方剂等中医古籍知识库,并且建设了中医古籍后控词表系统,支撑中医古籍的知识组织与挖掘利用。

报告人:李海燕。医学博士,研究员,博士研究生导师。现任中国中医科学院中医药信息研究所所长,兼任中国中西医结合学会信息专业委员会主任委员,研究领域是中医药信息学。主编或副主编著作5部,发表论文100余篇。主持研制并已发布《ISO 22558:2019 中医药数据集分类》《ISO 18790-1:2015 中医药信息标准体系框架分类》《ISO16843-6:2022针刺效应语义分类结构》等ISO国际标准4项、《中医药学语言系统语义网络分类框架》等国家标准2项,获得省部级以上科学技术奖励8项。

报告4:佛教大藏经数字化资源介绍

摘要:介绍现有的佛教大藏经数字化资源,包括CBETA、SAT和高丽藏等大藏经全文数字化成果,CBETA整理的经录数据库,以及在CBETA全文数据基础上构建的专题知识库,如“成唯识论”“瑜伽师地论”等专题知识库。介绍如是研究院利用人工智能等技术在藏经数字化方面的一些工作,包括“《径山藏》数字化”的阶段性成果(全文文本、字图数据库等)、如是古籍数字化工具平台、古籍字典等。

报告人:释贤度。1984年出生,2007华中科技大学本科毕业,2010年中国科学院计算技术研究所硕士研究生毕业,2012年出家,2013年受比丘戒。2013年开始参与佛教文献校勘,同时参与及承担佛教文献整理相关技术工作。2018年底与一群志同道合之人成立北京如是人工智能技术研究院,致力于用人工智能等技术服务于古籍数字化事业,现任如是研究院院长。

问题征集

欢迎您提出针对本次讲座的主题,主讲人或与谈人的问题。这些问题将提交给本次讲座的主讲人/与谈人,在自由讨论阶段予以优先回答。请将您的问题交至 gdhc@pku.edu.cn 。谢谢!

上期回顾

视频回放:https://www.bilibili.com/video/BV19S4y1B7ru

筹办人:王军、李斌、李林芳

技术服务:李斌、王瑞、芦靖雅、张雨桐

承办单位:
北京大学-字节跳动数字人文开放实验室
中国古籍保护协会古籍智能专委会

主办单位:
北京大学数字人文研究中心
北京大学人工智能研究院

指导单位:
高等院校古籍整理研究委员会

特别支持:
字节跳动公益

会议回顾

2022年6月25日下午两点,“古籍智能信息处理”系列专题研讨会第五讲在腾讯会议举行。此次研讨会由北京大学-字节跳动数字人文开放实验室、中国古籍保护协会古籍智能专委会主办,北京大学数字人文研究中心、北京大学人工智能研究院承办,会议由北京大学中国语言文学系杨海峥教授、南京农业大学数字人文研究中心包平教授主持。

本期研讨会的主题为“古籍专题资源库的建设”,南京农业大学数字人文研究中心包平教授、首都师范大学电子文献研究所尹小林教授、中国中医科学院中医药信息研究所李海燕所长和北京如是人工智能技术研究院释贤度法师先后发表了精彩的报告,随后杨海峥教授主持了讨论和互动环节。本次研讨会通过腾讯会议、Bilibili、抖音和蔻享平台同步直播,吸引了来自国内外高校及相关研究领域的共计700多名观众在线观看。

本期会议由杨海峥教授、包平教授主持。

专题报告

一、方志物产知识库实践与思考

包平教授从历史文献所反映的物种的演变与消长、文明与物产的关系问题引入,先回顾了“物产”一词的肇始和我国方志文献的历史发展状况,之后介绍了《方志物产》一书的文献涵盖范围、内容来源及历史发展演变,阐明了资料再辑录、整理与数字化、方志物产资料的多层级自动标注等诸多具体技术原理,最后提出了包括中华物产全景、物产功效的开发和文旅产品开发在内的诸多可应用场景,为方志物产知识库的未来发展指明了方向。

二、《国学宝典》建设与应用

尹小林教授通过缘起、研究意义和应用意义三个部分,对《国学宝典》的建设与应用做了详尽的阐述。缘起部分回顾了对《国学宝典》建设提供帮助的诸多专家前辈,之后详细介绍了数据库建设的七个阶段,包括选底本、录文字、进平台、统规范、校异同、分类序和测产品,并结合实际操作展开分析,从数据检索、数据统计、数据比对三个方面讲述了《国学宝典》古籍数据库在实际生活中的具体应用及数字化过程中为古籍整理工作提供的新方法、新思路,提出了《国学宝典》查有、查无、查源流、查关系和查数字五大实际应用价值。最后倡议古籍数据库建设各方未来应加强合作,以积极开放的态度加大数据交换流通、实现有条件共享,互惠共赢,避免低水平循环,以推动数字人文的纵深发展。

三、中医药古籍数字资源库简介

李海燕所长从中国中医科学院中医药信息研究所与中国中医科学院图书馆馆藏中医古籍切入,介绍了研究所建设中医药古籍数字资源库的相关情况。在全国中医古籍资源调查的基础上,研究所已建成中医古籍书目数据库、中医古籍资源图像数据库“国医典藏”以及养生、温病、医案、本草、方剂等中医古籍知识库,并且建设了中医古籍后控词表系统,以支撑中医古籍的知识组织与挖掘利用。李所长还详细介绍了中国中医药学主题词表、中医临床术语系统、中医药学语言系统和古今医案云平台等中医药信息化产品的使用原理,最后提出中医古籍数字化发展应当实现临床诊疗、科研攻关、文献教学和文化传播的结合发展。

四、佛教大藏经数字化资源介绍

释贤度法师首先介绍了各国佛教大藏经数字化的发展历程,包括CBETA、SAT和高丽藏等大藏经全文数字化成果、CBETA整理的经录数据库以及在CBETA全文数据基础上构建的专题知识库,如“成唯识论”“瑜伽师地论”等专题知识库。并以CBETA为例,介绍了佛教大藏经数字化资源库的功能及特色,包括数据内容、软件功能、专题知识库三个方面。接下来以自身所在的如是研究院为例,介绍了利用人工智能等技术在藏经数字化方面所做的一些工作,包括“《径山藏》数字化”的阶段性成果(全文文本、字图数据库等)、如是古籍数字化工具平台、古籍字典等。报告末尾提出,大藏经数字化的未来发展应当做好两方面的工作:一是作为基础的工作,即准确的文本;二是作为提升的工作,即丰富的应用。

专家讨论

报告结束后,四位主讲人和与谈人就研讨会内容进行了交流探讨,回答了观众们提出的问题。关于学界和企业协作推进古籍专题资源库的建设,专家们表达了自己的期望。其中包平教授对古籍专题数据库未来向数字人文的转变发展提出了几点畅想,认为数据库建设的底层技术和逻辑是相通的,但同时不同的古籍内容也有各自的发展特点;尹小林教授认为只有实现数据的交流共享,才能实现数据库做大做强的可持续发展;释贤度法师针对佛经古籍数字化过程中的异体字编码问题提出了自己的看法与建议,为古籍智能系列研讨会后续讲座的主题做了铺垫。最后王军教授和杨海峥教授做了总结性发言,会议在友好而又热烈的讨论氛围中落下了帷幕,为古籍数字化的未来发展指明了方向。

  • 本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。
  • 本期研讨会视频回放已在B站更新(www.bilibili.com/video/BV1nZ4y1e7cD)。“古籍智能”系列研讨会第六讲将于2022年7月中旬举行。系列研讨会的相关信息将会在古籍智能网站(gujiai.cn)上进行更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。

反馈与建议&志愿者招募

为了与广大高校师生、古籍收藏整理从业者和数字人文爱好者更好、更充分地交流和学习,我们希望听到你的反馈与建议,也希望你能加入我们的志愿者行列:

(1)反馈与建议:如果对系列研讨会有什么发展建议,欢迎发送至邮箱:gdhc@pku.edu.cn。邮件标题为:“建议+建议标题”;

(2)志愿者招募:每期研讨会会后我们将发布会议回放视频,现招募志愿者整理会议文字内容。有意参与研讨会全文整理的志愿者,请与我们联系,报名邮箱:gdhc@pku.edu.cn。邮件标题为:“志愿者+姓名”。