科技情报研究

“信息处理” 栏目所有文章列表

(按年度、期号倒序)

一年内发表的文章
两年内
三年内
全部

Please wait a minute...

全选

|

Select

信息处理
基于领域大语言模型的古籍分词研究

朱丹浩赵志枭吴娜王希羽孙光耀王东波

科技情报研究. 2024, 6(2): 11.

PDF全文 (40) 可视化收藏

[目的/意义]文章以古籍自动分词为切入点，引入“荀子”系列大语言模型，对大语言模型在古籍文本分词任务上的表现进行了探讨。[方法/过程]文章基于《左传》分词语料，进行了数据清洗和整理，构建了指令数据集，在此基础上，从数据集中抽取了1 000条作为测试数据，并分别使用500、1 000、2 000、5 000条数据作为训练数据进行指令微调，并测试其性能。[结果/结论]实验结果表明，只需要少量的数据，大语言模型就可以有较为理想的表现，在微调数据量达到5 000条数据时，Xunzi-Qwen-7B模型表现出了最优性能，F1值达到84.54%。
Select

信息处理
领域大语言模型下的古籍词性标注应用研究

朱丹浩赵志枭胡蝶赵文华孙光耀王东波

科技情报研究. 2024, 6(2): 21.

PDF全文 (35) 可视化收藏

[目的/意义]大语言模型的发展为古籍文本挖掘带来了新的思路，将大语言模型与古籍数字化、智能化相结合是新时代古籍工作的必经之路。[方法/过程]文章使用《左传》词性标注语料，通过数据清洗和预处理，构建了一批高质量的词性标注指令数据，在此基础上，分别使用500、1 000、2 000、5 000条数据对大语言模型进行指令微调，并在另外1 000条数据上进行性能测试。[结果/结论]实验结果表明，“荀子”系列模型在古籍文本词性标注任务上性能优于通用领域模型，在微调数据量达到5 000时，Xunzi-Baichuan2-7B模型表现出了最优性能，F1值达到81.67%。

跳至
页
第1页
共1页
共2条记录

“信息处理” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容

模态框（Modal）标题

“信息处理” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容