第七讲:古籍目录数据库建设

会议信息

时间:9月24日下午2:00-5:00
腾讯会议号:964-532-052
B站直播:https://live.bilibili.com/22241979

主持人:

杨海峥(北京大学中国语言文学系)

孙显斌(中国科学院自然科学史研究所、北京大学数字人文中心)

主讲人:

孙显斌(中国科学院自然科学史研究所、北京大学数字人文中心)

包菊香(国家图书馆)

夏翠娟(上海图书馆)

苏瑞欣(古联(北京)数字传媒科技有限公司)

筹办人:王军、李斌

技术服务:李斌、王瑞、芦靖雅、张雨桐

承办单位:

北京大学-字节跳动数字人文开放实验室

北京大学人工智能研究院

主办单位:

北京大学数字人文研究中心

联合主办单位:

北京大学中国古文献研究中心

南京师范大学文学院

指导单位:

中国古籍保护协会古籍智能开发与利用专委会

全国高等院校古籍整理研究工作委员会

特别支持:

字节跳动公益

内容介绍

古籍是中华优秀传统文化的承载体,记录着古老且悠久的中华文明。随着科学技术的飞速发展,古籍的保护和利用的手段越发多样。古籍的数字化录入、保存、展示和利用引起了学者的重视,相关领域取得了较大的进展。前几期会议我们邀请了专家先后介绍了古籍的数字化平台建设、历史地理信息系统的建设、古籍录入技术、专题资源库建设、汉字编码字符集等方面的重要内容,展示了古籍数字化各方面的最新进展。古籍目录数据库建设是古籍数字化的一个重要方面。中国古典目录学有着悠久的“辨章学术,考镜源流”的学术传统,目录在整理、利用古籍的过程中发挥着重要的作用。

本次会议我们非常荣幸地邀请到了古籍目录数据库建设的专家:中国科学院自然科学史研究所研究员孙显斌老师、国家图书馆副研究馆员包菊香老师、上海图书馆研究员夏翠娟老师、古联(北京)数字传媒科技有限公司大数据中心主任苏瑞欣老师,为大家介绍古籍目录数据库建设的相关进展,以及古籍目录数据库在学术研究和文化普及中的应用价值。

报告人与主讲人介绍

报告1:古籍目录数据库的建设与应用

摘要:古典目录学是古典文献学的重要分支,从汉代开始就形成自己的范式:即专书叙录、提要式及簿录式目录。目录的分类、提要式目录的小序与学术流变紧密相关,即所谓“辨章学术,考镜源流”,这成为中国古典目录学的重要传统和特征。依靠传统目录学的方法和资料,可以探讨和考察与学术史、书籍史相关的诸多问题。近年来数字人文方兴未艾,利用数字技术建构古籍目录数据库,不仅能够导览古籍数字资源,还可以进行分析研究,目前已有一些成果。报告主要内容即对古籍目录数据库的建设与应用做一概要介绍。

报告人:孙显斌。北京大学计算机科学与技术系软件专业理学学士、中国语言文学系古典文献学专业文学博士。曾任中国科学院自然科学史研究所所长助理、图书馆馆长。现任古代史研究室研究员,兼任北京大学数字人文中心研究员,中国古籍保护协会智能开发与利用专家委员会委员。主要研究领域为古典文献学、数字人文、科学传播等。“中国科技典籍选刊”联合主编,"中国古代重大科技创新丛书"联合主编。主持国家社科基金重大项目子课题、国家社科基金一般项目,中国科学院“十三五”重点培育方向项目“科技典籍整理与研究”。主持国家古籍数字化工程专项经费资助项目“历代典籍目录数据集成与分析系统(第一期)”,参与开发“资治通鉴分析平台”、“中国历代典籍总目分析系统”等数字人文平台。

报告2:国家古籍保护中心古籍书目数据库建设

摘要:“中华古籍保护计划”启动后,国家古籍保护中心作为全国古籍保护工作的业务组织机构,在文化行政部门领导下,组织开展全国古籍普查登记工作,同时负责汇总古籍普查成果,建立中华古籍综合信息数据库,形成全国统一的中华古籍目录;协助部际联席会议办公室建立《国家珍贵古籍名录》;有步骤地开展海外古籍调查等工作。随着工作的展开,出于业务需要及汇总成果、服务社会的需要,国家古籍保护中心建设了一系列古籍书目数据库,如“全国古籍普查登记平台”、“全国古籍普查登记基本数据库”、“国家珍贵古籍名录数据库”等。本讲座将对这些古籍书目数据库进行介绍,希望听众能进一步加深对这些数据库的了解,以期这些数据库在服务社会方面发挥更大的作用。

报告人:包菊香。文学硕士,国家图书馆副研究馆员。2006年7月毕业于北京大学中国语言文学系古典文献专业,随即进入国家图书馆善本特藏部工作。随着“中华古籍保护计划”启动、国家古籍保护中心成立,于2007年7月转入国家古籍保护中心办公室工作至今,主要负责“全国古籍普查登记平台”、“全国古籍普查登记基本数据库”、“国家珍贵古籍名录数据库”等古籍书目数据库的开发与建设工作。

报告3:面向循证研究的中文古籍联合目录构建及服务

摘要:从社会科学循证实践的理念和需求出发,介绍上海图书馆中文古籍联合目录及循证平台、中国家谱知识服务平台作为一个跨机构联合目录,其构建的理念、方法和技术,主要包括跨机构共建共享和多源异构数据融合的探索实践。以及如何利用这些数据,向更多机构、社会团体、公众提供开放数据服务、向研究人员提供面向循证研究的知识服务、向到馆读者提供多媒体展陈服务。

报告人:夏翠娟。上海图书馆研究员,中国人民大学信息资源管理学院博士生。研究方向:元数据、知识本体、知识组织,关联数据、数字人文、文化记忆。主持国家哲学社会科学基金课题2项,参与国家级科研项目10余项。在DIM、IJoL、图书馆学与资讯科学、中国图书馆学报、大学图书馆学报、图书馆论坛、图书馆杂志等国内外学术期刊发表论文70余篇,参与撰写专著3部。是多家学术期刊的外审专家,数字人文研究、Digital Transformation and Society编委。  

报告4:古籍书目产品的设计与技术实现

摘要:古籍书目库是在传统文献目录学的指导下,系统性揭示古籍资源、帮助用户快速了解古籍信息的一类古籍数字化产品。古联公司“籍合网”下的书目产品中,《中华古籍书目数据库》将自古至今已整理的各类书目资源进行数字碎片化处理,实现一站式检索,《唐五代墓志专目数据库》在梳理墓志信息的基础上,实现了墓志志主的相互关联,支持目录到墓志文献之间的内容拓展,为古籍书目产品提供了一种新的模型。在古联公司承建的国家古籍数字化专题资助项目《中国古籍总目》(网络版)数据库建设中,我们利用与北京师范大学中文信息处理研究所合作研发的古籍书目核对系统,对《中国古籍总目》进行深入分析和分类呈现,并将建国后的古籍整理本成果进行系统化展示,在此基础上支持后续拓展,引入更多关联资源,逐步搭建更加全面、系统的中国古籍知识网络工程体系。

报告人:苏瑞欣。2008~2015年就读于北京大学中国语言文学系汉语言、古代汉语专业,取得文学学士、文学硕士学位。2015年入职古联(北京)数字传媒科技有限公司,从事古籍数字化相关工作,现任古联公司大数据中心主任。参与“中华古籍整理出版资源平台”、“中华国学资源总库”等项目,负责古籍内容资源加工的组织和管理工作、多项古籍数字化支撑工具的设计和研发工作。

问题征集

欢迎您提出针对本次讲座的主题,主讲人或与谈人的问题。这些问题将提交给本次讲座的主讲人/与谈人,在自由讨论阶段予以优先回答。请将您的问题交至 gdhc@pku.edu.cn 。谢谢!

上期回顾

内容回顾:会议回顾|"古籍智能信息处理"系列研讨会第六讲

视频回放:https://www.bilibili.com/video/BV1QB4y1a7LB


会议回顾

2022年9月24日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第七讲在腾讯会议如期举行。本次研讨会由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学中国语言文学系杨海峥教授和中国科学院自然科学史研究所、北京大学数字人文中心孙显斌老师主持。

本期会议的主题为“古籍目录数据库建设”,中国科学院自然科学史研究所研究员孙显斌老师、国家图书馆副研究馆员包菊香老师、上海图书馆研究员夏翠娟老师、古联(北京)数字传媒科技有限公司大数据中心主任苏瑞欣老师先后发表了精彩的报告,随后杨海峥教授主持了讨论和互动环节。本次研讨会通过腾讯会议、哔哩哔哩平台同步直播,来自国内外高校及相关研究领域的一千多位观众在线观看,共襄盛会。

开场致词

会议起始,杨海峥教授提到古典目录学有着“辨章学术,考镜源流”的学术传统,在新的智能时代下,古籍目录数据库的建设作为古籍数字化的重要一环,在整理和利用古籍资料过程中发挥重要作用。杨海峥教授介绍了参与本次研讨会报告的各位专家,随后四位专家各自分享了他们主要的工作研究成果。

专题报告

一、古籍目录数据库的建设与应用

孙显斌老师从古典目录学的理论问题切入,指出几个关键的考察维度:目录的构成,特别提到单书目录在唐宋以后的多书目录中的缺失;典籍分类及排序的依据;目录分类的演变;即类求书以及查询一书之著录等问题,并指出这些问题需要在古籍目录数据库建设中得到回应。第二部分孙显斌老师简单回顾了古籍目录数据库建设的发展历程。随后重点介绍了他参与的由北京大学数字人文中心、国家图书馆等单位建设的“中国历代典籍总目系统”和“经籍指掌:中国历代典籍目录分析系统”,包括其浏览、检索和各种分析功能,并表示将持续建设,近期目标是完成品种层的全覆盖及数据的关系化构建。最后,孙显斌老师援引傅斯年先生的话,认为数字人文的发展要重点回应“运用新材料、发现新问题、采取新方法”中的开创“新方法”的使命。

二、国家古籍保护中心古籍书目数据库建设

包菊香老师详细介绍了国家古籍保护中心立足于工作实际而建设的各古籍书目数据库。全国古籍普查登记平台及全国古籍普查登记基本数据库分别是全国古籍普查登记工作的工作平台和发布平台,有效保障了全国古籍普查登记工作的开展及其成果的展示,最终将形成中国境内现藏古籍的统一联合目录,将完整揭示中国境内古籍的存藏情况,而海外中华古籍书目数据库的建设旨在尽快摸清海外中华古籍的存藏情况,这三个数据库均是从空间维度出发开展古籍的调查工作;中华历代古籍书目数据库则是从时间维度出发开展古籍的调查工作,从而摸清我国历代典籍的流散历史和相关学术的演变脉络。国家珍贵古籍名录数据库是以数据库的形式公开发布第一批至第六批《国家珍贵古籍名录》收录的古籍信息,展示的是从中国境内一、二级古籍中遴选的具有重要文物、文献、艺术价值的珍贵古籍。对于未来古籍书目数据库的发展,包菊香老师提出了几点展望,如对数据进行规范统一、细粒度化的标引,切实加强各古籍书目数据库之间的互联互通,以期为公众提供更佳的使用效果。

三、面向循证研究的中文古籍联合目录构建及服务

夏翠娟老师介绍了“古籍循证”这一概念,即以古籍目录的记载和古籍文献中的内容作为依据,将科学的研究方法与研究人员的经验相结合,解决特定研究问题。秉持这一理念,上海图书馆开发的中文古籍联合目录及循证平台,从技术层面探索了跨机构古籍资源和数据的共建共享,并以本体和关联数据的语义框架融合不同来源、不同格式的古籍目录数据,支持研究者发现古籍中的物理证据、历史证据、内容证据、关联证据,以循证实践的方式解决研究中的问题。夏翠娟老师也介绍了作为特殊的民间文献的专题古籍联合目录——中国家谱知识服务平台,以及包括古籍和家谱在内的整个数据基础设施建设情况,通过建设系统性的基础设施来支持包括数智证据的多重证据参照的循证研究。最后从服务层面介绍了向社会提供开放数据服务、向研究人员提供知识服务、向到馆读者提供多媒体展陈服务。

四、古籍书目产品的设计与技术实现

苏瑞欣老师介绍了古联(北京)数字传媒科技有限公司开发的三款古籍书目产品:中华古籍书目数据库、历代石刻总目数据库、中国古籍总目(网络版),及支撑工具古籍书目智能处理系统。中华古籍书目数据库是对历代书目文献的综合利用,“籍合”自古至今各类已整理的书目资源,将准确、权威的书目作碎片化数据处理,实现一站式检索;唐五代墓志专目综合整理石刻资源在各类文献中的著录情况,对墓志的题名、主题词、时间、地点细致标注,通过考证、标注墓志志主之间的人物关系实现库内资源关联,还支持跨库调阅墓志原始文献;中国古籍总目(网络版)则是《中国古籍总目》在新的网络时代所进行的新布局,古籍书目智能处理系统是进行各类书目相关数据库和项目建设的支撑工具。苏瑞欣老师详细描述这些系统的策划、当前进展和后续规划,期待通过书目库建设引入更多关联资源,逐步搭建更加全面、系统的中国古籍知识网络工程体系。

互动问答

报告结束后,与会人员就资源开放与未来数据共享互通的可能进行讨论。夏翠娟老师就上海图书馆现已开放可供大众使用的资源做了补充说明,孙显斌老师、包菊香老师、苏瑞欣老师表示希望未来在顶层设计指导下,从技术和标准层面推进协作与共同建设。会议最后,王军老师和杨海峥老师做了总结性发言并与各位参会老师合照留念。至此,本次会议在热烈讨论氛围中圆满结束。

本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。

本期研讨会视频回放已在B站更新(https://www.bilibili.com/video/BV1Gt4y1w7Fp)。“古籍智能”系列研讨会第八讲将于2022年10月中旬举行。系列研讨会的相关信息会在古籍智能网站http://gujiai.cn)和数字人文开放实验室公众号上同步更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。

反馈与建议&志愿者招募

为了与广大高校师生、古籍收藏整理从业者和数字人文爱好者更好、更充分地交流和学习,我们希望听到你的反馈与建议,也希望你能加入我们的志愿者行列:

(1)反馈与建议:如果对系列研讨会有什么发展建议,欢迎发送至邮箱:gdhc@pku.edu.cn。邮件标题为:“建议+建议标题”;

(2)志愿者招募:每期研讨会会后我们将发布会议回放视频,现招募志愿者整理会议文字内容。有意参与研讨会全文整理的志愿者,请与我们联系,报名邮箱:gdhc@pku.edu.cn。邮件标题为:“志愿者+姓名”。