第六讲:古籍数字化与汉字编码字符集

会议信息

时间:7月16日下午2:00-5:00 
腾讯会议号:452-854-916
B站直播:https://live.bilibili.com/22241979

主持人:

杨海峥(北京大学中国语言文学系)

朱翠萍(古联(北京)数字传媒科技有限公司)

主讲人:

王立军(北京师范大学文学院)

王晓明(教育部语言文字应用研究所)

陆 勤(香港理工大学电子计算机系)

张建国(北京北大方正电子有限公司)

朱翠萍(古联(北京)数字传媒科技有限公司)

筹办人:王军、李斌、李林芳

技术服务:李斌、王瑞、芦靖雅、张雨桐

承办单位:

北京大学-字节跳动数字人文开放实验室

北京大学人工智能研究院

主办单位:

北京大学数字人文研究中心

联合主办单位:

北京大学中国古文献研究中心

南京师范大学文学院

指导单位:

中国古籍保护协会古籍智能开发与利用专委会

高等院校古籍整理研究委员会

特别支持:

字节跳动公益

内容介绍

汉字字形复杂,在计算机内部传输、存储和处理时往往会遇到许多困难,在古籍出版及数字化工作中更需专门加以应对。在字形上,汉字在共时层面的累积数量越来越庞大,其中有相当一部分属于冗余成分,需要加以整理与认同。在编码上,还需要考虑同字异写和异体字对应用的需求给汉字编码带来的问题和挑战。在进行古籍数字化及建设相关平台时,也需要对汉字字形问题着重加以考虑,主动进行字符集整理与规范工作,从而保证准确性、确保效率、提升平台的学术价值。

在本讲中,我们非常荣幸地邀请到了著名汉字学专家和中文编码专家、重要字库及古籍数字化平台的建设者和负责人:北京师范大学文学院教授王立军老师,教育部语言文字应用研究所高级工程师王晓明老师,香港理工大学电子计算机系教授陆勤老师,北京北大方正电子有限公司副总裁兼字库业务板块总经理张建国老师,古联(北京)数字传媒科技有限公司副总经理朱翠萍老师,将为大家重点讲解汉字规范和汉字编码的相关知识,并介绍其在字库建设、古籍数字化、古籍平台建设中的意义和实践情况。

报告主题与主讲人介绍

报告1:古籍印刷用字的整理与规范

摘要:作为表意体系文字的代表,汉字字形历来纷繁复杂。在变异和孳乳两大发展规律的推动下,汉字在共时层面的累积数量越来越庞大,其中有相当一部分属于冗余成分,需要加以整理与认同。汉字发展的过程,也是不断整理规范的过程。即使在当代,无论是用于现代汉语文本的简体字,还是用于古籍出版及其他特殊场合的繁体字,都仍然需要进行整理和规范。国务院2013年颁布的《通用规范汉字表》和国家标准委颁布的《古籍印刷通用字规范字形表》代表着国家当前汉字规范的最新标准。本讲座重点就汉字规范的必要性、汉字规范的历史、古籍印刷用字整理与规范的基本原则进行解析。

报告人:王立军。北京师范大学文学院教授、博士生导师。现任北京师范大学文学院院长、教育部哲学社会科学实验室(培育)汉字汉语研究与社会应用实验室主任、教育部人文社科重点研究基地民俗典籍文字研究中心主任、国家语委科研机构中国文字整理与规范研究中心主任,中小学(中职)语文国家教材建设重点研究基地副主任,《民俗典籍文字研究》主编。兼任国家语委语言文字标准审定委员会委员、中国训诂学会学术委员会副主任、中国语言学会常务理事、中国文字学会理事。主要从事汉字学、训诂学和词汇语义学的教学与研究。

报告2:汉字编码与古籍数字化平台构建

摘要:通用的计算机平台以满足人们日常的信息交流为主,不足以支撑专业化的古籍资源库建设,古籍数字化平台需要重新构建。编码是计算机平台的核心要素,作为中文信息处理对象的汉字编码对古籍数字化平台的构建至关重要。本讲通过对国际标准ISO/IEC 10646中CJK统一汉字编码字符集的编码规则、字集构成等方面的深度剖析,并结合“中华字库工程”和“文渊阁《四库全书》”等工程实践,介绍古籍数字化平台的构建过程与方法,有助于提高工程效率、确保资源质量、保留资源原始特征信息,提升古籍资源库的学术价值。

报告人:王晓明。教育部语言文字应用研究所高级工程师,国家语委语言文字规范标准测查认证中心主任,国际标准ISO/IEC 10646贡献编辑。曾任国际标准化组织汉字工作组(IRG)技术编辑20余年。参与国际标准ISO/IEC 10646、国家标准GB 13000以及《通用规范汉字表》等多项规范标准的研制。参加《中华字库工程》、《文渊阁〈四库全书〉》、《四部丛刊》等多项数字化工程的规划设计和研发工作。

报告3:汉字编码和适于关联性汉字的编码方法

摘要:汉字编码是中文数字化的最基本支持技术。由于汉字历史悠久,在书写和传播过程中出现很多不同的形体,还要考虑同字异写(不同地区和国家)和异体字对应用的需求给汉字编码带来的问题和挑战。在保证编码唯一性的前提下,既要考虑数字化汉字的通用性,还要顾及特定应用的特殊性。中文的传统编码侧重于交流和通用,为此制定了一系列汉字编码的认同规则。虽然大字符集汉字的标准化对古籍出版起到了很大的推动作用,但汉字认同对古籍研究和电子化也造成了很大的限制。

此讲座首先介绍汉字编码的基本原理和现有编码机制中汉字认同规则的必要及其局限,特别是一字一码的编码方式对古籍文字研究的局限。在此基础上,此讲座介绍一种新的关联编码技术,有助将汉字中的异体字在编码层级上发生关联,有助查找、索引和输入,在不影响通用汉字使用的基础上避免了因为汉字认同造成的字形缺失。

报告人:陆勤。北京师范大学物理系无线电专业获工学士学位,在美国伊利诺大学(厄本那-香槟分校UIUC)计算机科学系获博士学位,任教香港理工大学电子计算机系20余年,至2020年退休。陆勤教授的主要研究方向包括自然语言处理、信息抽取、搭配抽取和本体构建。近年来的工作集中于情感分析,利用深度学习方法建立和扩展情感处理的资源,在情感分析中考虑个人偏见因素,并致力解决数据不平衡问题对情感分类的影响。
陆勤教授多年来一直致力于中文编码标准化和软件开发国际化,是该领域的先驱和专家,曾经帮助香港特区政府筹划第一个为信息技术开发服务的数字二十一世纪策略。在香港特区政府编制香港增补字符集方面,陆教授一力领军,贡献良多,现时香港所有中文电脑系统已广泛使用这一增补字符集并完全纳入国际标准 ISO/IEC 10646。陆教授在2012年获颁授香港特別行政区政府荣誉勋章。陆教授长期担任 ISO10646国际字符集标准中象形文字(含中文)工作组的召集人(ISO/IEC JTC1/SC2/WG2/IRG),并且是统一码(Unicode)的编辑之一。为表扬她在中文编码方面的突出成就,她在2015年获颁Unicode 斗牛犬奖。  

报告4:方正电子在超大字库方面的探索和实践

摘要:为了满足辞书出版、古籍整理、身份证人名生僻字等方面的需求,解决超大字符集汉字的存储、输入、显示、排版等环节的问题,方正电子开发了方正超大字库解决方案,实现电脑客户端、WEB端、移动端、H5、小程序等多方面的支持。其中,8万多汉字的超大字库有6款;方正典码输入法,采用交互式图形界面,通过部首、笔画、笔顺等特征,免学习,快速定位输入汉字;方正书版支持超大字库的快速排版;方正飞翔提供PDF、ePub、HTML5等多元内容的发布。方正电子还参加了新闻出版署“中华字库”工程30万汉字的超大字库建设、中华优秀传统文化传承发展工程支持项目“中华精品字库”工程100款历代书法名家字库的开发工作。本讲座介绍方正电子作为新闻出版行业的技术服务方,作为中文字库行业的领先企业,在超大字库方面多年来的探索和实践。

报告人:张建国。北京北大方正电子有限公司副总裁兼字库业务板块总经理,高级工程师,兼任中国文字字体设计与研究中心副主任,中国中文信息学会理事及汉字字形信息专业委员会主任委员,全国语言文字标准化技术委员会委员,全国信息技术标准化技术委员会编码分技术委员会(SAC/TC28/SC2)副主任委员。先后担任过方正电子字模开发部部长、内容制作软件开发部部长、研发中心副总经理,领导过方正字库软件、方正飞腾排版软件等的研发。

报告5:基于古籍出版及数字化的字符集整理实践

摘要:字符类型多样、异体关系复杂、终端需求不同、文字规范多维是古籍出版及数字化工作时时面对的问题,主动开展字符集整理与规范工作,是解决古籍排版、数据库字符呈现、古籍文稿自动校对和智能处理工具研发等系列问题的必要措施。本讲以中华书局参与的图书馆汉字规范处理项目,“中华字库工程”,制作“中华书局宋体字库”、中华悉昙体梵文字库、甲骨文字库,搭建“字符属性整理平台”等工作实践,讲述中华书局及古联公司作为专业古籍出版单位在字符集整理与规范方面所做的努力与探索,并希望能够在前述经验基础上,整合已有的《殷墟甲骨文数据库》《殷周金文大词典编纂平台》《战国古文字研究平台》《小学文献数据库》,形成集字形、文献、字库、输入法、协同编纂、成果发布为一体的“历代汉字与古文献综合应用与研究平台”。

报告人:朱翠萍。女,古联(北京)数字传媒科技有限公司副总经理,文字学博士后。主要从事汉字信息处理相关整理与研究工作,先后参与新闻出版重大科技工程项目——“中华字库”工程之“版刻楷体字书文字整理”“宋元印本文献用字搜集与整理”“现代的汉语出版物用字及专门用字、非字符号的搜集与整理”;主持中国博士后科学基金特别资助项目“版刻楷体字书计算机辅助版本校勘研究”;参与“中华国学资源总库项目”,负责搭建“古籍整理工作平台”,参与古籍OCR、自动标点和繁简转换等系统研发工作;发表《基于字料库平台的字书整理研究》《搭建版刻楷体字书计算机辅助版本校勘平台的设想》等多篇文章;《数字人文》副主编。

会议回顾

2022年7月16日下午两点,“古籍智能信息处理”系列专题研讨会第六讲在腾讯会议举行。此次研讨会由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学中国语言文学系杨海峥教授、古联(北京)数字传媒科技有限公司朱翠萍副总经理主持。

本期研讨会的主题为“古籍数字化与汉字编码字符集”,北京师范大学文学院教授王立军先生、教育部语言文字应用研究所高级工程师王晓明女士、香港理工大学电子计算机系退休教授陆勤女士、北京北大方正电子有限公司副总裁兼字库业务板块总经理张建国先生和古联(北京)数字传媒科技有限公司副总经理朱翠萍女士先后发表了精彩的报告,随后朱翠萍女士主持了讨论和互动环节。本次研讨会通过腾讯会议、Bilibili、抖音和蔻享平台同步直播,吸引了来自国内外高校及相关研究领域的共计2000多名观众在线观看。

开场致辞

杨海峥老师首先介绍了本次研讨会的主题,说明了古代汉字的字形复杂和数量庞大的特点,强调了古籍字库、字符集整理规范的重要性和基础作用。杨海峥老师介绍了参与本次研讨会报告的各位老师,随后五位专家分享了他们的主要工作和研究成果。

专题报告

一、古籍印刷用字的整理与规范

王立军老师从汉字字形规范的必要性、汉字字形规范的历史两方面切入,介绍了古籍印刷字形的整理和规范,以及如何在编码中处理复杂字形等方面的问题。由于古人因义构形的造字规则,汉字中存在许多异体现象。汉字本身的特点,加上古籍字形标准不统一、新旧字形间的冲突、不同字库之间字形处理方式不一致等原因,造成了古籍字形现实应用的混乱状况,需要对这一现象进行规范。随后王老师从历时角度具体阐述了汉字规范的发展史。最后重点介绍了《古籍印刷通用字规范字形表》的相关内容,以及古籍印刷用字的字形认同原则、选取原则,这些对古籍印刷通用字收字和字形规范原则标准具有重要意义。

二、汉字编码与古籍数字化平台构建

王晓明老师从理论和实践两方面介绍了古籍数字化的相关工作,包括编码、编码字符集、择定字集和确定字型四个方面。古籍汉字在数字化方面首先需要解决编码问题,这是在计算机中存储和传输文字的基础。其次,王老师详细介绍了与汉字相关的不同编码字符集及其相互关系。目前,基于国际编码字符集的通用计算机平台以满足人们日常的信息交流为主,而古籍数字化需要构建一个专属平台,从而在计算机内实现古籍用字的输入和输出。接下来,王老师讲解了《四库全书》项目的平台构筑实践,指出应综合考量数字化对象的用字规模、字符集的收字及操作系统对字符集的实现情况,灵活选取适于目标古籍数字化的字符集。在确定字型方面,王老师具体介绍了CJK汉字字符集的认同规则,以及如何运用该规则确定古籍用字字型。

三、汉字编码和适于关联性汉字的编码方法

陆勤老师从字符编码基础切入,逐层深入地介绍了汉字编码和关联性汉字的编码方法。首先,陆老师阐述了汉字编码的难点和汉字编码认同的必要性。统一的认同规则能降低索引查找困难,减少认知不同引起的混乱。当前的汉字编码有许多优点,但同样存在局限性,包括缺乏内码和属性信息之间的关联、缺乏字与字之间的关联信息即异体字之间的关联等问题。特别在古籍数字化方面,字符集之间的关联尤为重要。随后,陆老师重点介绍了汉字关联编码技术——异体字序列表示法(IVS),这一方法通过构建基本字、异体字选择符之间的关联字库,能够解决异体字数量多的难点。在古籍汉字数字化方面,异体字序列表示法同样适用,并具有诸多优点,包括古籍的整理工作和需要编码汉字的整理工作具有一致性,编码速度快、灵活性高,适用于多种应用的开发等。

四、方正电子在超大字库方面的探索和实践

张建国老师具体介绍了方正超大字库。方正超大字库产品收录了8万多汉字,具有多种字体。根据相关国家标准、国际标准,还在不断加以扩充。超大字库在行业应用中需要应对显示、输入、存储、交换和多环境多设备的适配等方面的问题;为此,方正电子建设了方正超大字库解决方案,包括显示方案、输入方案和出版方案。在古籍整理方面,还开发了古籍数据库应用、古籍采集加工管理平台等多个平台,方便各类用户使用。中华精品字库工程精选了100位中国历代书法家的代表作品,开发成为电脑字库,累计推出了35款精品书法字库。

五、基于古籍出版及数字化的字符集整理实践

朱翠萍老师的报告包括古籍出版面对的字符集问题、古联公司字符集整理实践两方面内容。首先,朱老师介绍了古籍出版面临的字符类型多样、异体关系复杂、终端需求不同、规范标准交错等问题。针对上述问题,古联公司开发了编校系统以排查错字误字,繁简转换平台以实现繁体字和简体字之间的精准转换。在实践方面,古联公司进行了字符集整理与规范工作,建设了多种文字类资源库及平台,如文字属性整理平台、金文词典编纂平台、殷墟甲骨文数据库、小学文献数据库等。最后,朱老师指出,通过构建上述平台和数据库,期望形成集字形、文献、字库、输入法、协同编纂、成果发布为一体的“历代汉字与古文献综合应用与研究平台”。

互动问答

报告结束后,五位主讲人和与谈人就研讨会内容进行了交流探讨,回答了观众们提出的问题。王立军老师回答了关于“月肉”“柬東”辨析的问题,认为从字理的角度还是比较容易判定的。王晓明老师解答了普通用户如何输入繁难字的问题,建议可以使用逍遥笔,至少可以输入7万字,而且可以手写输入。关于CJK研究进展方面,陆勤老师补充介绍了IRG(Ideographic Research Group)研究组的工作。朱翠萍老师和张建国老师也从各自公司的汉字输入软件方面做了解答。

各位专家从不同角度介绍了古籍数字化领域内汉字编码字符集的有关内容,讲授了自己的研究、实践和深入思考。对于汉字编码字符集的未来发展,专家们也都提出了各自的见解和期许。最后王军老师和杨海峥老师做了总结性发言,会议在友好而又热烈的讨论氛围中落下了帷幕,为古籍数字化的未来发展指明了方向。

合影留念
本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。

本期研讨会视频回放已在B站更新(https://www.bilibili.com/video/BV1QB4y1a7LB)。“古籍智能”系列研讨会第七讲将于2022年9月中旬举行。系列研讨会的相关信息将会在古籍智能网站(http://gujiai.cn)和数字人文开放实验室公众号上同步更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。

会议信息

主持人:

杨海峥(北京大学中国语言文学系)

朱翠萍(古联(北京)数字传媒科技有限公司)

主讲人:

王立军(北京师范大学文学院)

王晓明(教育部语言文字应用研究所)

陆 勤(香港理工大学电子计算机系)

张建国(北京北大方正电子有限公司)

朱翠萍(古联(北京)数字传媒科技有限公司)

筹办人:王军、李斌、李林芳

技术服务:李斌、王瑞、芦靖雅、张雨桐

承办单位:

北京大学-字节跳动数字人文开放实验室

北京大学人工智能研究院

主办单位:

北京大学数字人文研究中心

中国古籍保护协会古籍智能开发与利用专委会

联合主办单位:

北京大学中国古文献研究中心

南京师范大学文学院

指导单位:高等院校古籍整理研究委员会

特别支持:字节跳动公益