> 文章列表 > 大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

返回论文和资料目录

论文地址
项目地址

1.导读

讲得通俗易懂,且格局拉满!基本覆盖了自ChatGPT以来的AI比较火的事件,还多次提到强人工智能AGI(人工通用智能)。对近几年的大型语言模型( Large Language Models)进行了详细介绍。非常建议感兴趣大模型和强人工智能的读者阅读!!!

2.摘要和引言

从图灵测试开始讲起,人类一直在探索用机器掌握语言智能的方法。

在过去20年,语言模型得到了广泛研究。从统计语言模型到了基于神经网络的语言模型(LSTM等)。

最近这些年,通过在大规模语料库(数据集)上对Transformer模型的预训练,提出了预训练语言模型(PLMs),在解决各种自然语言处理(NLP)任务方面显示出了很强的能力。

近一两年(从20年的GPT-3开始),发现当参数尺度超过一定水平时,这些扩展的语言模型不仅实现了显著的性能提高,而且还表现出一些小规模语言模型(如BERT)中不存在的特殊能力(如上下文学习)。为了区分不同参数尺度下的语言模型,研究界创造了术语大型语言模型(LLM),用于描述具有显著规模的PLM(例如,包含数百亿或数千亿个参数)的PLM。

近半年来,ChatGPT(基于LLM开发的强大的人工智能聊天机器人)的推出,引起了社会的广泛关注。

总的来说,语言模型LM经过了如下4个阶段:

  1. STM(统计语言模型):例如基于马尔科夫链预测下个词。
  2. NLM(神经语言模型/基于神经网络的语言模型):例如RNN、LSTM等。
  3. PLM(预训练语言模型):例如GPT-1,GPT-2,Bert等。与NLM的不同是,将语言模型做成了“一劳永逸”的形式,即一个模型可以做很多事,只要训练了一个模型后,不需要下游任务进行复杂的微调。其中GPT-2将模型做成了Zero-shot的形式大大加强了预训练语言模型的性能。
  4. LLM(大型语言模型):GPT-3,PALM、ChatGPT、LLaMA、GPT-4等。与PLM最直观的不同是模型大了,训练数据多了。

作者在这给出了LLM出现后的3个情况:

  1. LLM涌现出PLM中未出现的性能。LLM更大GPT-3是第一个将模型大小扩展到千亿参数的模型,其涌现出模型较小时未出现的智能。现在的ChatGPT也是。
  2. 已有都是人来选择使用的LM模型来解决具体的任务,现在是人告诉LLM要干嘛,然后LLM根据要求解决问题。
  3. 出现了工业界和学业界的划分。以前都基本是学业界引导AI发展,现在出现工业界引导的情况。因为LLM需要大量的资金基础,所以最早的突破来自OpenAI,而非高校。

作者提到了LLM与AGI的联系

OpenAI给出了关于实现AGI的计划。

最近一些研究《Sparks of Artificial General Intelligence: Early experiments with GPT-4》也认为GPT-4已经具备了一定的AGI能力。

作者给出了关于LLM相关文献的回顾,并在github上创建了一个项目

3.回顾

背景

已有的LLM仍然基于Transformer结构。

LLM涌现出的能力

  • 上下文理解
  • 跟随指令
  • 一步一步推理

LLM的关键技术

  • 规模:考虑固定模型规模和数据集规模,如何提升模型性能
  • 训练:如何降低训练成本
  • 能力引出:如何引导出模型已经具备的能力
  • 调优:减少有害的输出
  • 工具使用:例如使用计算器帮助LLM提升计算能力

LLM模型发展脉络
在这里插入图片描述

LLM模型汇总
在这里插入图片描述

其他方面LLM模型作者写的还没有这篇公众号清楚。

不过作者在github上给出了很多相关论文地址。

数据集
在这里插入图片描述

模型使用的数据集分布
在这里插入图片描述

数据处理流程
在这里插入图片描述
模型结构

在这里插入图片描述

优化设置
在这里插入图片描述

4.模型调优

构建指令数流程
在这里插入图片描述
指令数据集

在这里插入图片描述

RLHF算法(InstructGPT使用的方法)
大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

5.评估

大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

未完待续