大型语言模型实战指南:应用实践与场景落地
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.3 金融大型语言模型

金融是社会经济中至关重要的组成部分,金融市场的健康运行对于经济的稳定和增长至关重要,而金融领域的创新和发展也推动了技术和就业的增长。虽然大型语言模型在金融领域有不错的表现,但在实际应用大型语言模型时还面临挑战,例如用户需求的复杂性、结果的精准可控性、数据的安全性等。为了让大型语言模型可以更好地覆盖金融咨询、金融分析、金融计算、金融问答等多个金融应用场景,会在金融领域数据上进行预训练或者微调,来进一步提高模型效果。我们通常称在金融领域进行过特殊训练的大型语言模型为金融大型语言模型。

金融大型语言模型可以处理大规模金融数据进行趋势分析;可以监测新闻和社交媒体上的情感和舆情,帮助投资者了解市场情绪和社会因素对市场的影响;也可以为普通投资者提供更多金融知识和投资建议。

目前,中文开源金融大型语言模型主要包括XuanYuan模型、Cornucopia模型、DISC-FinLLM模型等。

1.XuanYuan模型

XuanYuan模型[16]是由度小满提出的,模型底座采用LLaMA、Bloom模型等多个模型,构建约60GB的金融数据集(包括上市公司公告、金融资讯或新闻、金融试题等),对模型进行词表扩充以及增量预训练工作。XuanYuan系列模型目前共涉及2个模型,详细如表1-15所示。

表1-15 XuanYuan系列模型介绍

其中XuanYuan-70B模型在增量预训练过程中,中文数据与英文数据的比例为3:1,中文数据中的通用数据和金融领域数据的比例为9:1,在模型训练的前期主要以知识类数据为主,并且随着训练时间的增加,金融领域数据的比例也逐步提升,从一开始的1:9到最终阶段达到1:4左右。

2.Cornucopia模型

Cornucopia模型[17]是由中科院成都计算机应用研究所提出的,模型底座采用LLaMA模型,通过中文金融公开问答数据与爬取的金融问答数据利用GPT-3.5/4.0接口构建高质量的指令数据集进行模型的指令微调。Cornucopia系列模型目前共涉及2个模型,详细如表1-16所示。

表1-16 Cornucopia系列模型介绍

3.DISC-FinLLM模型

DISC-FinLLM模型[18]是由复旦大学提出的,模型底座采用Baichuan-13B-Chat模型,对现有开源数据采用Self-Instruct、Chain-of-Retrieval prompting等方法利用ChatGPT生成约25万条指令数据(包括金融咨询任务、金融分析任、金融计算任务和金融检索增强任务)进行模型指令微调。DISC-FinLLM模型主要采用LoRA方法进行模型训练。