第二讲:古籍数字化平台的建设

本届第一次研讨会于3月12日首次开始,吸引了相关领域的资深学者和相关专业的同学前来听会。会议期间讨论热烈,大家交流了自己的观点,老师同学们都有所收获。第二次研讨会在大家的热切期待下于3月26日开始,以下是本次研讨会的内容详情:

时间:

3月26日下午2:00-5:00 

参会方式:

第二讲视频回放:https://www.bilibili.com/video/BV13r4y1s7Jc

主持人:

杨海峥(北京大学中文系教授)

主讲人:

徐永明(浙江大学文学院教授)

与谈人:

王兆鹏 (四川大学文科讲席教授)、欧阳剑(上海外国语大学图书馆研究馆员)、洪涛(中华书局古联公司总经理)、朱厚权(元引科技有限公司创始人)

筹办人:

王军(北京大学数字人文中心)、李斌(南京师范大学文学院)、李林芳(北京大学中文系)

技术服务:李斌、王瑞、芦靖雅、张雨桐

主办单位:

北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院

指导单位:

全国高等院校古籍整理研究工作委员会、中国古籍保护协会古籍智能专业委员会

特别支持:

字节跳动公益

内容介绍:

作为人文数据类学术成果的转化探索与实践,古籍的数字化平台是古籍智能化最重要的基础工作之一。随着数字人文理念的出现,从传统古籍数据平台到智能古籍大数据平台,从数字化古籍的传统使用模式到智能化使用模式,古籍的数字化平台不仅可以实现古籍的自动校勘、自动标点、自动编纂、自动注释、自动索引、自动排版等功能,还可以提供分析、挖掘、知识服务等功能。本次研讨会的主要议题包括但不限于以下内容:

1)对古籍数字化平台的理解、古籍数字化平台从传统数据库到结构化数据库到智能数据库的历史溯源、相关技术工具等;

2)古籍数字化平台的使用、应用,以实例说明古籍数字平台的知识化建设模式以及古籍文献的数字人文研究模式的构建等;

3)古籍数字化平台的可持续化发展及商业探索;

4)古籍数字化平台如何在人才培养中发挥作用。

本次研讨会是古籍智能化系列研讨会的第二次专题研讨会,通过这场研讨会,可以对古籍数字化平台的方方面面的作一次详尽的了解,欢迎参加!

报告主题

徐永明:从传统古籍数据平台到智能古籍大数据平台

王兆鹏:古籍数智化的意义

欧阳剑:数字人文视域下的古籍基础数据应用平台开发实践

洪涛:籍合网古籍整理平台

朱厚权:人文数据类学术成果转化探索与实践——以引得CBDB平台为例


会议回顾

2022年3月26日下午,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第二讲在腾讯会议如期举行。本次讲座的主题为“古籍数字化平台”,研讨会邀请多家古籍数字平台的创始人从古籍数字化平台的构建、演进过程、建设模式、研究模式、可持续化发展和商业探索,以及人才培养等各方面进行研讨。本期研讨会由北京大学中文系教授杨海峥主持,浙江大学文学院教授徐永明担任主讲人,四川大学文科讲席教授王兆鹏、上海外国语大学图书馆研究馆员欧阳剑、中华书局古联公司总经理洪涛、元引科技有限公司创始人朱厚权担任与谈人。本期研讨会通过在Bilibili网站上同步直播,以及在腾讯视频上直播,吸引了来自国内外高校及有关单位的千余位观众观看了本次活动。

研讨会介绍

此次研讨会,首先由北京大学数字人文中心王军教授致辞。王军教授在开场词中表示,古籍数字平台具有基础地位和作用,在数字时代,古籍的整理和研究都依托平台展开。王军教授随后对会议的主讲人和与谈人作了简要介绍。之后,研讨会正式开始,会议主持人、北京大学中文系杨海峥教授对与会嘉宾表示了欢迎,并邀请主讲人浙江大学文学院徐永明教授发言。

主讲人发言

徐永明教授首先介绍了古代文献所具备的价值与当前文献正经历的形态转变,然后通过分析传统数字古籍平台的功能和特点,讲述了从传统数据库到结构化数据库再到智慧化数据平台的演进路径。传统数据库的缺点是缺乏后台数据支撑、关联功能差、不能定位、附加值低;结构化数据库可进行定量数据分析、定位等,弥补了传统数据库的部分不足;而如今的智慧化数据和平台以结构化数据作为后台支撑,能更大程度地解决先前的难点。徐永明教授以自己设计、建造的浙江大学“智慧古籍平台”为例,分享了智能化古籍数字平台的理念与实践情况,详尽展示了平台的各种功能,指出智能化古籍数字平台的“智能”表现在智能OCR、智能标点、智能标引、智能搜索、众包技术、图数据库等方面,同时需要学者们的高度参与。他表示,古籍整理任重而道远,期望智能数据平台的建设能够加快这一进程。杨海峥教授在点评中指出古籍数字平台的演化给古籍整理带来了重大变化,还带来了思维方式和研究范畴的新变,在研究、教学的诸多方面都会产生深刻的影响。

与谈人发言

  • 四川大学王兆鹏教授的报告题目为《古籍数智化的意义》。“数智化”即“数字化”与“智能化”的结合,王教授介绍了这一概念的双重意义,即功能性提升与结构性转变,并对这两方面的意义作了详细阐释。功能性提升意味着古籍的自动识别、自动标引及自动校注得以实现,结构性转变包括学术创新和应用的创造性转化。学术创新基于知识的贯通化发展。在此之前,知识被有序地隔开,以后则会打通——打通古今、连通各地、部类贯通,从零散到聚合。大数据会带来数据的聚类化研究,会验证、修正我们的平常的知识,还可以转化为文创产品的开发。王教授以丰富的案例对此做出了讲解,并结合自身经历介绍了古籍数字化带来的深远意义。
  • 上海外国语大学图书馆欧阳剑研究馆员介绍了数字人文视域下的古籍基础数据应用平台实践,指出人文学者的研究模式正从读文献向分析文献转变,向基于古籍大数据的多元化、整体化研究转变。欧阳老师提出了古籍文献的数字人文研究应用模式,即将描述性内容转变为数据,在此基础上进行研究。随后,欧阳老师分享了他目前在古籍基础数据建设、文本分析和典籍知识服务实践等方面的工作,并对相关内容做了举例展示。
  • 中华书局古联公司洪涛总经理以“籍合网”为例,分享了他关于古籍数字化平台建设的见解。洪涛总经理首先对“籍合网”做出了简要介绍。“籍合网”是由隶属于中华书局的古联公司建设和运营的国家级古籍整理出版资源平台,于2018年上线。籍合网面向多类型用户,集合了多种功能,包含专题数据库、在线众包整理平台、大数据中心、自动开发工具等诸多资源。洪总经理介绍了“籍合网”的古籍智能整理出版技术研发工作、出版社编辑使用的古籍整理工作平台,并展示了古籍整理数字化的工作流程。最后,洪总经理讲解了负责古籍整理培训业务的“籍合学院”。作为商业化的大型机构,籍合网平台建立起了所有工作之间的关联和照应,全面诠释了企业对古籍整理数字平台的理解和实践。
  • 元引科技有限公司创始人朱厚权总经理以“引得CBDB”平台为例,介绍了人文书籍类学术成果转化的探索与实践情况。朱老师首先介绍了“引得CBDB”项目的建设过程及现有成果,指出数字人文平台的业态正在不断演进。随后,朱老师在总结以往经验的基础上,展示了他关于目前数字人文平台体系建设的构想,并演示了元引科技为清华大学数字人文学院开发的“文本功能平台”的相关功能。最后,朱老师指出学术研究的独创性与工程实践的可复制性既相辅相成又差异显著,并分享了对于平台和伙伴选择的体悟。

本次报告会内容扎实、丰富,各位专家发言立足于自己做过的工作,讲得诚恳、实际,是一次非常难得的高质量报告会。

专家讨论

在专家讨论阶段,王军教授提出,古籍文献的数字化、结构化、图谱化,在分析过程中需要借助外部知识库,相关版权问题如何得到解决?开放的资源库、版权能否得到授权?是否可以开放API,平台互联互通?专家们对此均发表了积极的意见,一致认为需要形成一种良好的机制,一种学界和业界良性循环的生态;需要建立平台,让大家了解学术界的成果,也使得学术研究成果可以返回到企业,从而形成日益开放、资源有效整合的良好趋势。

在本次研讨会过程中,参会的老师和同学们都热情参与,在直播间积极发表观点。发言完毕后,各位与会嘉宾就观众们提出的问题表达了自己的见解,讨论氛围热烈。此次研讨会,来自不同高校和领域的专家学者们就古籍数字化平台的建设进行了深入的探讨,观众们纷纷表示内容丰富,受益良多。

本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。视频回放已在B站更新(点击阅读原文可跳转至回放界面):https://www.bilibili.com/video/BV13r4y1s7Jc
“古籍智能”系列研讨会第三讲将于2022年4月23日举行。系列研讨会的相关信息将会在数字人文开放实验室公众号以及古籍智能网站(gujiai.cn)上进行更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。