【调研】生成式PLM模型(偏LLM)压缩
研究背景
常用的生成模型
下表总结了现在常用的生成模型的架构、参数量、尺寸和开源地址。其中参数量基本为亿万级别,以decoder的架构为主,模型尺寸在500MB以上。
模型名称 | 架构 | 尺寸 | 层数 | 参数量(Billion) | 开源地址 | 备注 |
---|---|---|---|---|---|---|
GPT-2 | decoder | 548 MB | 48 | 1.5B | https://huggingface.co/gpt2/tree/main | 相对较小的生成模型 |
GPT-Neo-2.7B | decoder | 10.7 GB | 32 | 2.7B | https://huggingface.co/EleutherAI/gpt-neo-2.7B/tree/main | |
pythia-160M | decoder | 375 MB | 12 | 160Million | https://huggingface.co/EleutherAI/pythia-160m/tree/main | 等价于GPT-Neo 125M, OPT-125M |
Pythia-12B | decoder | 23.85 GB | 36 | 12B | https://huggingface.co/EleutherAI/pythia-12b/tree/main | 256 40G A100 |
OPT-1.3B | decoder | 2.63 GB |