54 智能时代的文脉赓续:人工智能技术与古籍整理
李 萍 济南大学图书馆
一、从“数字化”到“数据化”
古籍整理作为传承中华文明、守护文化根脉的基础性工作,其传统模式主要依赖于学者的人工校勘、标点和注释,耗时费力且易出错。随着信息技术的发展,古籍整理经历了从“数字化”到“数据化”的深刻变革。
早期的数字化工作主要表现为利用扫描仪、数码相机等设备,将古籍文献以图像格式(如JPG、TIFF)进行存储,建立“古籍数据库”。例如,中国国家图书馆的“中华古籍资源库”提供了大量古籍的数字化影像,实现了珍本、善本的在线阅览,极大地便利了学者的检索与查阅。然而,这种“图像化”的数字资源,其内容本身仍是“非结构化”的,计算机无法直接读取和理解其中的文字信息,检索效率低下,深度分析与知识挖掘更是无从谈起。
为解决这一问题,古籍整理进入了“数据化”阶段,其核心是将图像中的文字转换为可被计算机识别和处理的编码文本。一个标志性实例是北京大学与字节跳动合作开发的“识典古籍”平台。该平台利用AI技术,实现了对古籍的高精度自动校对与整理。其OCR系统通过对海量古籍图像数据进行训练,能够精准识别多种古籍字体和复杂版面,将识别准确率提升至96%以上,并辅以AI自动标点断句功能,大大提升了古籍整理的效率。另一个重要实例是“《永乐大典》高清影像数据库”项目。该项目不仅提供了高清数字化图像,更利用AI技术对《永乐大典》的复杂结构(如版式、插图、印章)进行智能识别与分析,并尝试对散落世界各地的残卷进行内容关联和“虚拟缀合”,为这部旷世巨著的系统性研究提供了全新的技术路径。
二、方式与路径
AI在古籍整理中的应用,已形成一套从基础处理到深度挖掘的完整技术路径。
1. 智能识别与转录:从图像到文本
首先对古籍进行版面分析,利用目标检测模型,自动分割出文本区域、插图、印章、版框等,区分主体文字与双行小注。其次进行文字识别,通过在海量古籍文字数据上进行训练,模型能学会不同字体的特征,甚至对异体字、避讳字具有一定的识别能力。后期结合自然语言处理模型,对识别出的文本进行智能校对,对异体字等易混淆字加以区分。
2. 自动标点与断句:赋予古籍现代可读性
为无标点的古文施加现代标点,是古籍整理中的一项繁难工作。AI通过序列标注模型,可以将此任务建模为一个分类问题。模型通过学习大量已标点古籍语料,学会在何处断句、使用何种标点(句号、逗号、专名号等)。
3. 信息抽取与知识图谱构建:从文本到知识
通过命名实体识别技术,AI可以自动从古籍文本中抽取出人名、地名、官职、书名、时间等实体。通过关系抽取和事件抽取技术,还可以将这些离散的实体关联起来,构建成结构化的“古籍知识图谱”。
4. 文本挖掘与辅助研究:发现新知
在知识图谱的基础上,AI可以进行更深层次的文本挖掘。例如,通过主题模型分析某一时期所有奏章的主题分布,洞察朝政焦点;通过情感分析考察文人对某一历史事件的集体态度;通过风格分析辅助判断佚文作者的归属。这些功能极大地拓展了古典文学、历史学、文献学的研究视野与方法。
三、局限与展望
尽管AI技术前景广阔,但我们仍需保持清醒的头脑,充分认识到其当前局限性与潜在风险。AI模型的决策过程往往是不透明的“黑箱”。在自动标点、异文校勘等涉及文意理解的任务中,AI可能给出一个“高概率”但不符合特定历史语境或学者个人解读的结果。古籍整理不仅是技术活,更是富含创造性与主观能动性的人文阐释过程。若过度依赖AI,可能导致整理成果趋于“标准化”而丧失学术个性与深度。AI模型的性能高度依赖于训练数据。如果训练数据集中于某些朝代、某些类型的典籍,那么模型在处理生僻典籍、边缘文献或少数民族古籍时,性能会急剧下降。这可能导致学术资源进一步向主流典籍倾斜,形成“数据霸权”,使得非主流文献的数字化整理更加边缘化。大规模古籍数据的获取与使用,还可能涉及复杂的版权问题。此外,利用AI生成仿古文本甚至“伪古籍”的能力,也给文献辨伪工作带来了新的挑战。
未来应探索模型的不确定性量化,让AI不仅能给出结果,还能报告其“置信度”,供学者参考决策。AI不能取代学者,而应构建高效的人机协同工作流。例如,开发智能辅助校对平台,由AI完成初筛和推荐,学者进行最终裁决和深度阐释。需推动计算机科学、文献学、历史学、语言学等领域学者的深度合作,共同定义问题、标注数据、设计算法。
人工智能技术为古籍整理这片古老的领域带来了降本增效的“工具性革命”,更引发了从“文献数字化”到“知识体系化”的“范式革命”。它使我们有可能以前所未有的速度和规模,唤醒沉睡在故纸堆中的文化记忆。然而,技术终究是手段,而非目的。在拥抱技术红利的同时,我们必须警惕其潜在风险,坚守人文研究的核心价值。未来,唯有建立以学者智慧为主导、以AI为强大助手的“人机共生”新生态,方能在智能时代真正实现“让古籍活起来”,让中华文明的智慧之光,普照当下,启迪未来。