让古籍“活下去”更要“活起来”

  人工智能、大数据技术与蕴藏着东方智慧的中国古典文献结合在一起,是一个有着深厚潜力和重大文化价值的交叉学科领域。经过二十余年的古籍数字化建设,图书馆界、商业公司以及民间藏家已经生产发布了数量可观的数字化典籍资源,为大数据、深度学习、知识图谱等前沿技术在古籍资源上的应用准备了条件。近年来,人工智能技术在古籍OCR、自动句读、命名实体识别等经典问题上的出色表现,使得古籍整理工作和古典文献的研究与教学在智能信息环境下面临着一场深刻而广泛的变革。北京大学数字人文研究中心将古籍资源的智能开发与利用作为核心研究目标,在相关领域取得了一系列突破性的进展。

  北京大学人工智能研究院数字人文研究中心主任王军介绍,数字人文需要以多学科交叉的学术团队为研究主体,以数据为基础、平台为支撑,运用数字技术方法来研究人文科学。北大数字人文研究中心在全国高等院校古籍整理研究工作委员会和中国古籍保护协会的支持下,将古籍的研究机构、教学单位、收藏机构、出版渠道和商业组织连接在一起,组织“古籍智能”系列在线研讨会,共同探讨古籍数字化、智能化平台的建设以及相关标准规范的形成,凝聚多方社会力量,共同推动古籍资源在智能信息环境下的深度开发、利用与传播。

  古籍数字化平台应用实践

  数字人文研究改变了古代文学资料查询检索方式,从电子文献到结构化数据库,从点状检索到网状关联,从逐条拷贝到分类打包,传统的静态文本变成了可随意组合的动态文本。浙江大学人文学院教授徐永明及其团队从2018年的“学术地图发布平台”到2020年的“智慧古籍平台”,一直在探索文史古籍大数据结构化和智慧化建设。徐永明介绍说,“智慧古籍平台”是借鉴知识图谱理念,综合运用大数据的计量统计、定位查询、空间分析、数据关联、网络分析、机器标引、众筹众包等技术开发的平台。它相比传统古籍处理平台有更多优势,例如,以篇目为单位,人机共同完成,内容可关联,随时可修改等。数字平台的结构化建设使学者参与度增加,附加值也提高了。

  数字人文技术的运用解决了古代文学研究资料离散、时空分离的难题。四川大学文学与新闻学院讲席教授王兆鹏领衔的唐宋文学编年系地信息平台建设,借助新技术手段,实现了时间、空间、作家、作品等多维度的检索、查询、显示、统计,甚至可以显示相关的人文地理环境、遗迹遗址图像、视频材料。王兆鹏介绍说,唐宋文学编年地图平台的研发,核心理念是“系地”,但不是以“系地”替代“编年”,而是两者并重,旨在解决年谱和文学编年史时地分离的缺憾。平台数据来源于唐宋人年谱、别集,挖掘提取数据时更注重补阙正误,尤其注重增补谱主的任职地、经行地、出生地、创作地信息。力求既能反映作家活动和作品创作的时间,又能反映作家活动和作品创作的空间地理环境,体现出文献资料的集成性和文学史呈现的全景性。

  古籍传统利用与开发模式的局限性使更多的学者认识到古籍数字化带来的不仅仅是庞大的古籍存储,“数字化”为技术与人文的合流构筑了新平台。上海外国语大学图书馆研究馆员欧阳剑以其开发的中国古籍基础数据分析平台为例,介绍了古籍文献开发应用思路,他谈到,数据是数字人文研究的基础和核心之一,需要从人文数据的完整性、可计算性、可用性及重用性、可发现以及获得性等角度出发进行人文基础数据组织与重构。传统的古籍开发与应用模式难以适应人文学科的数字人文研究的需要,亟须研究辅助工具与研究方式的创新与开发,引入大规模定量计算分析方法,构建可持续完善和丰富的数据集和分析工具,充分利用新的信息技术、中文信息处理技术及跨学科方法来对古籍进行深层次的分析与挖掘。平台建设过程中需要克服人文数据碎片化带来的零散、不系统的弊病,采用数据复原与重构的方式恢复或重建人文数据所蕴含的知识之间的联系,采用数据化、数据融合、数据关联及发布等手段,最终实现知识单元的精细粒度化、知识组织的语义化、知识呈现的可视化。

  走进大数据里的古籍世界

  从数字化古籍的传统使用模式到智能化使用模式,古籍的数字化平台不仅可以实现古籍的自动校勘、自动标点、自动编纂、自动注释、自动索引、自动排版等功能,还可以提供分析、挖掘、知识服务等功能。智慧古籍平台运用现代科技手段拉近了读者与古籍之间的距离,为专业研究者提供了新的研究方法和手段。

  徐永明在线演示了“智慧古籍平台”部分前台功能:点击平台首页的“著述导览”页面,便可查阅著述的章节目录、著述提要等基本信息及相关作者的世系图、社会关系图;点击“篇目导览”即可进入文本阅读界面,文本阅读也是该平台的特色功能。首先,为提高文本的真实性和准确性,平台提供了古籍图片与古籍数字化文本一一对应的功能。其次,为降低阅读时频繁查阅相关资料的工作量,平台提供关键字词的释义功能。文本中的重要信息及疑难词已按人名、地名、职官、时间、典故、名物不同类型以不同颜色显示,点击即可查看不同类型的释义。例如,点击职官名词将展示详细释义,点击地名词将显示该地点的地理定位,点击人名词可跳转到该人物的详细信息,点击传统纪年则展示现代公历的时间,点击疑难词将展示相关释义信息。

  徐永明介绍说,智慧古籍平台强大的后台技术来自于阿里云智能OCR平台,智能标引技术利用结构化的地名、人名、职官、词典等数据库对上传的文本进行批量标引,从而使文本与后台的数据产生了关联。平台使用的众包技术在全国乃至世界范围内遴选和组建专业团队,由不同地方的人员在线完成一项工作,突破了团队人员数量和地域的限制,更高效地完成线上古籍整理。空间分析技术借助地理信息系统软件,使古籍中留存的地理信息可视化。智慧古籍平台与学术地图发布平台相连接,点击著者详情,即可查看所连接的人物行迹图。平台所使用的社会网络分析技术,以人物社会关系数据库为基础,借助图数据库的功能,实现社会网络和家族世系的可视化。总之,上传到“智慧古籍平台”的文献资料经过OCR识别、机器标点、人工校对、专家审核、机器标引、标引审核,在前台就呈现出了如上所述功能。

  数字人文技术在古代文学研究中的实践,不仅仅是技术操作问题,也需要古代文学研究观念上的主动对接和双向融合。“唐宋文学编年系地信息平台建设”首席专家王兆鹏谈到,古籍数智化具有数字化和智能化双重意义,它既有功能性的提升也有深层次结构性转变,大数据时代到来,今后的知识和信息将由过去的分隔走向贯通,实现时空贯通、部类贯通等。平台以历史地图为界面,可视化呈现个体作家一生的活动行迹,或全景化呈现文坛生态,将故事性的文本通过虚拟场景进行更为生动、全面的阐释。不仅如此,古籍还可成为文化创意无穷无尽的资源,例如,“李清照陪你游开封”这类文旅线路的设计,将故事、诗词呈现其中,重建古代文学的历史现场,使阅读欣赏与沉浸式体验相结合,是古籍数字化的创新性探索。

  古籍数字化平台的可持续化发展及商业探索

  智慧古籍平台如何激活学者的研究成果,突破学术圈的壁垒,将前沿的学术研究成果转化为社会大众共享的文化资源。王军认为,学界和业界需要形成一种生态, 将一些资源以授权的方式开放以供学术研究,并且提供平台展示学术成果,将有潜质的成果进行商业化,转化后的成果能够为后续研究提供支持,这样既能保护学术研究,也能保证商业利益。

  中华书局古联公司总经理洪涛从企业视角出发,探讨了企业对平台的理解以及对数据出版的探索。他以籍合网为例,展示了古籍整理数字化的工作流程,介绍了专题数据库、在线众包整理平台、大数据中心、自动开发工具等诸多资源。他谈到,古籍整理平台不仅仅是一个系统,还代表着一整套的商业模式。作为商业化的大型机构,需要考虑的是如何面向多类型用户,集合多种功能,如何运用技术提高编辑的生产效率等,探索与高校合作,设置网络学院等途径,建立人才培养机制,为古籍整理出版储备人才。

  在人文数据类学术成果转化探索与实践方面,元引科技有限公司创始人朱厚权以“引得CBDB”平台为例谈到,数字人文平台的业态正在不断演进,需要有商业介入推动学术发展,助力学者发现新的选题,根据研究需求进行开发,定制相关模型;把优秀的产品盘活;构建开放平台,帮助平台打通信息孤岛。在谈到与高校联合开发时,朱厚权演示了元引科技为清华大学数字人文学院开发的“文本功能平台”的相关功能,有文本处理、文本分析、视觉呈现、研究资源、平台工具等,可以帮助学术研究提高效率。他还特别谈到,学术研究的独创性与工程实践的可复制性既相辅相成又差异显著,学术公益承诺与商业化版本的趋利性需要得到妥善解决。

  数字人文,需要人文学者发挥主观能动性去创造性地使用数字技术,才能推动学术的进步。技术可以帮助我们“发现”潜藏在海量资料和数据底下的文学史事实,帮助我们做出事实判断,但不能代替我们做审美判断和价值判断。技术可以节省、“解放”在学术研究过程中所需要的“体力”,但不能代替“脑力”“智力”,不能代替思想和感悟。好的技术,没有古代文学研究者的参与设计,没有对文学创作现场的深入勘查,没有对作家创作心态的深刻理解,是无法准确完美地建构文学的历史现场、复原作家的创作心境的。完美的视听盛宴需要古典与现代深度融合!

  (中国社会科学网记者 阮益嫘)

原文链接:http://www.cssn.cn/zgs/zgs_jl/202205/t20220515_5408327.shtml