荀子古籍大语言模型发布会在京成功举办

来源：中国社会科学网

时间：孔子二五七四年岁次癸卯十一月初六日庚戌

耶稣2023年12月18日

中国社会科学网讯（通讯员赵志枭）12月2日，国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组主办的荀子古籍大语言模型发布会暨古籍智能化研究与产业应用研讨会在北京举行。来自高校、出版界和互联网头部企业的专家学者参会。古籍大语言模型主研专家、南京农业大学信息管理学院教授王东波进行专题汇报。

发布荀子古籍大语言模型

荀子古籍大语言模型是由王东波担任首席专家的国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组联合古联公司历时数月研究推出的专门应用于古籍处理与研究的智能工具，是以提供古籍信息处理的大型基座模型、对话模型与智能代理为主要目标的开源的、公益的古籍大语言模型。王东波团队以“荀子古籍大语言模型构建及应用研究”为题，介绍了大语言模型古籍处理能力评测，古籍处理基座模型构建和对话模型构建三个方面的研究内容。

在汇报过程中，王东波首先阐述了如ChatGPT一类的大语言模型在AI产业中引发的革命，并揭示了古籍领域对大语言模型的需求以及国家层面的关注。他表示，尽管目前已有200多个通用模型在各领域得到应用，但古籍领域仍缺乏专业的大语言模型，并且当前的各种评测基准很难准确地衡量各种大语言模型的古文处理能力。随后，王东波简要介绍了为解决这些问题所进行的工作。为了缓解用户群体选择模型过程中的“信息过载”现象，团队设计了一个覆盖13项自然语言处理任务的ACHeval评测基准，该基准分为文本理解能力评估、文本生成能力评估和知识能力评估三个模块，包含文本分类、分词、命名实体识别、古现翻译等各种不同的处理任务，团队将世界各地善于理解中文的大语言模型都参与了较量。不仅包括代表性的千亿级闭源模型，还纳入了在各大通用表单上取得出色表现的优质开源模型。团队使用小样本提示技术规范模型的输出答案，并对最终结果进行后处理计算对应指标，以量化各种模型的表现。课题组根据评价结果，确定了最终用于领域化训练的开源基座大模型Qwen-7b。随后，王东波介绍了基座大模型和对话大模型的构建的方法，团队通过大量实验论证不同预训练数据的选择和配比，以及超参数的选取对大模型最终性能所产生的影响。结果表明，由于现代汉语和古代汉语之间存在较大的语法差异，单纯使用古籍文本增强模型会使得模型出现灾难性遗忘现象损失现代汉语能力，更倾向于生成古籍文本。为此，团队在分析古籍本身和对话任务特性的基础上，采集了大约5GB的古籍语料，并与现代汉语文本、指令数据，平行语料等其他类型的语料混合，形成了一个包含40亿个中文字符的混合数据集，分别用于学习古籍文本字符分布特征、防止灾难性遗忘、增强对指令响应以及将现代文习得的知识进一步外推，并以此数据集训练荀子基座模型。在训练过程中，王东波团队综合使用多种加速技术、内存优化技术和训练技巧提升模型的训练效率，最终成功在8卡A800计算集群上实现了17500token/秒的训练吞吐量，在保证基座模型性能的同时最大程度的利用了已有计算资源。为使模型遵循根据用户请求回答问题，团队基于以往研究的经验，设计一系列指令数据集，这些任务涵盖常见的古籍处理场景，包括词法分析、实体识别、关系抽取、文本分类与匹配、古现翻译、文本摘要、自动问答、诗歌生成、文本摘要等等。除此之外，为了恢复模型的现代汉语理解能力，团队还从互联网开源高质量指令微调数据集中筛选出符合条件的指令，按照一定比例混合后获得了综合指令数据集，训练了“荀子”系列对话模型。最后，王东波团队的技术人员对荀子对话大模型的各项古籍处理能力进行现场演示，通过这一环节，与会者亲身体验模型的实用性和直观效果，进一步证明了其在古籍处理领域的应用潜力。

随后，古联公司总经理洪涛分享了在古籍智能化领域的探索历程，介绍了古联公司的多方经验，对于利用古籍大模型进行优化OCR、自动标点、自动翻译、自动注释、自动生成主题词与摘要、自动构建古籍知识库等系统能力做了分析。除了在专业领域推动古籍整理、古籍数字化、古籍利用与传播，洪涛也分析了大模型在大众领域的应用前景，比如通过实现基于“中华经典古籍库”的语义检索和回答，让大众用户能够顺畅地利用古籍的内容。古籍大模型还可以用于AI写作、AI教学、数字文娱等。

荀子古籍大语言模型发布会暨古籍智能化研究与产业应用研讨会在北京举行。国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组/供图

全面推动古籍处理技术进步

来自高校、出版界和互联网头部企业的与会专家学者分别立足于各自领域，围绕大模型在古籍整理、研究和普及等方面展开了热烈的探讨，就大模型在古籍整理、传统文化传承、数字化转型和技术挑战等方面进行了深入探讨。与会专家一致认为，荀子一类大语言模型的应用与推广对于中华优秀传统文化的传播和传承有着重要的意义。构建高质量古文处理模型的关键在于数据质量，古联公司与南京农业大学的合作能够充分发挥各自的优势，更加全面的推动古籍处理技术的进步。

目前，作为开源的、公益的研究成果的荀子古籍大语言模型已在相关网站开源，用户可自行下载模型权重文件与代码文件进行模型部署。此次会议，是南京农业大学古籍大语言模型研发团队和古联公司合作探索古籍大语言模型的第一步。未来，古联公司将基于百亿级古籍大数据，着手研发下新一版商用古籍大模型，为古籍智能整理、大众传播的产业应用提供强大的技术支持，推动古籍事业的新发展。

（通讯员单位：南京农业大学信息管理学院）

责任编辑：近复

荀子古籍大语言模型发布会在京成功举办

微信公众号

微信公众号