“信息处理” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部

Please wait a minute...
  • 全选
    |
  • 信息处理
    朱丹浩 赵志枭 吴 娜 王希羽 孙光耀 王东波
    科技情报研究. 2024, 6(2): 11.
    [目的/意义]文章以古籍自动分词为切入点,引入“荀子”系列大语言模型,对大语言模型在古籍文本分词任务上的表现进行了探讨。[方法/过程]文章基于《左传》分词语料,进行了数据清洗和整理,构建了指令数据集,在此基础上,从数据集中抽取了1 000条作为测试数据,并分别使用500、1 000、2 000、5 000条数据作为训练数据进行指令微调,并测试其性能。[结果/结论]实验结果表明,只需要少量的数据,大语言模型就可以有较为理想的表现,在微调数据量达到5 000条数据时,Xunzi-Qwen-7B模型表现出了最优性能,F1值达到84.54%。
  • 信息处理
    朱丹浩 赵志枭 胡 蝶 赵文华 孙光耀 王东波
    科技情报研究. 2024, 6(2): 21.
    [目的/意义]大语言模型的发展为古籍文本挖掘带来了新的思路,将大语言模型与古籍数字化、智能化相结合是新时代古籍工作的必经之路。[方法/过程]文章使用《左传》词性标注语料,通过数据清洗和预处理,构建了一批高质量的词性标注指令数据,在此基础上,分别使用500、1 000、2 000、5 000条数据对大语言模型进行指令微调,并在另外1 000条数据上进行性能测试。[结果/结论]实验结果表明,“荀子”系列模型在古籍文本词性标注任务上性能优于通用领域模型,在微调数据量达到5 000时,Xunzi-Baichuan2-7B模型表现出了最优性能,F1值达到81.67%。