中国体卫艺教育

54 智能时代的文脉赓续：人工智能技术与古籍整理李萍济南大学图书馆

54 智能时代的文脉赓续：人工智能技术与古籍整理

李萍济南大学图书馆

一、从“数字化”到“数据化”

古籍整理作为传承中华文明、守护文化根脉的基础性工作，其传统模式主要依赖于学者的人工校勘、标点和注释，耗时费力且易出错。随着信息技术的发展，古籍整理经历了从“数字化”到“数据化”的深刻变革。

早期的数字化工作主要表现为利用扫描仪、数码相机等设备，将古籍文献以图像格式（如JPG、TIFF）进行存储，建立“古籍数据库”。例如，中国国家图书馆的“中华古籍资源库”提供了大量古籍的数字化影像，实现了珍本、善本的在线阅览，极大地便利了学者的检索与查阅。然而，这种“图像化”的数字资源，其内容本身仍是“非结构化”的，计算机无法直接读取和理解其中的文字信息，检索效率低下，深度分析与知识挖掘更是无从谈起。

为解决这一问题，古籍整理进入了“数据化”阶段，其核心是将图像中的文字转换为可被计算机识别和处理的编码文本。一个标志性实例是北京大学与字节跳动合作开发的“识典古籍”平台。该平台利用AI技术，实现了对古籍的高精度自动校对与整理。其OCR系统通过对海量古籍图像数据进行训练，能够精准识别多种古籍字体和复杂版面，将识别准确率提升至96%以上，并辅以AI自动标点断句功能，大大提升了古籍整理的效率。另一个重要实例是“《永乐大典》高清影像数据库”项目。该项目不仅提供了高清数字化图像，更利用AI技术对《永乐大典》的复杂结构（如版式、插图、印章）进行智能识别与分析，并尝试对散落世界各地的残卷进行内容关联和“虚拟缀合”，为这部旷世巨著的系统性研究提供了全新的技术路径。

二、方式与路径

AI在古籍整理中的应用，已形成一套从基础处理到深度挖掘的完整技术路径。

1. 智能识别与转录：从图像到文本

首先对古籍进行版面分析，利用目标检测模型，自动分割出文本区域、插图、印章、版框等，区分主体文字与双行小注。其次进行文字识别，通过在海量古籍文字数据上进行训练，模型能学会不同字体的特征，甚至对异体字、避讳字具有一定的识别能力。后期结合自然语言处理模型，对识别出的文本进行智能校对，对异体字等易混淆字加以区分。

2. 自动标点与断句：赋予古籍现代可读性

为无标点的古文施加现代标点，是古籍整理中的一项繁难工作。AI通过序列标注模型，可以将此任务建模为一个分类问题。模型通过学习大量已标点古籍语料，学会在何处断句、使用何种标点（句号、逗号、专名号等）。

3. 信息抽取与知识图谱构建：从文本到知识

通过命名实体识别技术，AI可以自动从古籍文本中抽取出人名、地名、官职、书名、时间等实体。通过关系抽取和事件抽取技术，还可以将这些离散的实体关联起来，构建成结构化的“古籍知识图谱”。

4. 文本挖掘与辅助研究：发现新知

在知识图谱的基础上，AI可以进行更深层次的文本挖掘。例如，通过主题模型分析某一时期所有奏章的主题分布，洞察朝政焦点；通过情感分析考察文人对某一历史事件的集体态度；通过风格分析辅助判断佚文作者的归属。这些功能极大地拓展了古典文学、历史学、文献学的研究视野与方法。

三、局限与展望

尽管AI技术前景广阔，但我们仍需保持清醒的头脑，充分认识到其当前局限性与潜在风险。AI模型的决策过程往往是不透明的“黑箱”。在自动标点、异文校勘等涉及文意理解的任务中，AI可能给出一个“高概率”但不符合特定历史语境或学者个人解读的结果。古籍整理不仅是技术活，更是富含创造性与主观能动性的人文阐释过程。若过度依赖AI，可能导致整理成果趋于“标准化”而丧失学术个性与深度。AI模型的性能高度依赖于训练数据。如果训练数据集中于某些朝代、某些类型的典籍，那么模型在处理生僻典籍、边缘文献或少数民族古籍时，性能会急剧下降。这可能导致学术资源进一步向主流典籍倾斜，形成“数据霸权”，使得非主流文献的数字化整理更加边缘化。大规模古籍数据的获取与使用，还可能涉及复杂的版权问题。此外，利用AI生成仿古文本甚至“伪古籍”的能力，也给文献辨伪工作带来了新的挑战。

未来应探索模型的不确定性量化，让AI不仅能给出结果，还能报告其“置信度”，供学者参考决策。AI不能取代学者，而应构建高效的人机协同工作流。例如，开发智能辅助校对平台，由AI完成初筛和推荐，学者进行最终裁决和深度阐释。需推动计算机科学、文献学、历史学、语言学等领域学者的深度合作，共同定义问题、标注数据、设计算法。

人工智能技术为古籍整理这片古老的领域带来了降本增效的“工具性革命”，更引发了从“文献数字化”到“知识体系化”的“范式革命”。它使我们有可能以前所未有的速度和规模，唤醒沉睡在故纸堆中的文化记忆。然而，技术终究是手段，而非目的。在拥抱技术红利的同时，我们必须警惕其潜在风险，坚守人文研究的核心价值。未来，唯有建立以学者智慧为主导、以AI为强大助手的“人机共生”新生态，方能在智能时代真正实现“让古籍活起来”，让中华文明的智慧之光，普照当下，启迪未来。

上一篇：55 对口支援背景下中小学协同发展现状及问题探析王莉 /唐静 /玄珂菲山东省东平县新湖镇中心小学/山东省东平县第一中学/济南大学

下一篇：51 素质拓展训练融入初中体育教学的应用探究边春光山东省淄博市临淄中学

中国体卫艺教育

在线办公系统

在线期刊

最新录用

数字出版平台

友情链接

广告合作

网站访问量

54 智能时代的文脉赓续：人工智能技术与古籍整理李萍济南大学图书馆