想学习大语言模型(LLM),应该从哪个开源模型开始?
恰巧最近写了个LLM的相关基础知识,分为上篇和下篇,共3w字左右,应该能够帮到你
上篇主要讲LLM的基座模型,包括了常见的3种transformer架构,encoder-only,encoder-decoder和decoder-only,包括了
- encoder-only:BERT
- encoder-decoder:T5, GLM-130B, UL2
- decoder-only:GPT系列, LLaMA, OPT, PaLM, LaMDA, Chinchilla, BLOOM
同时串讲介绍了若干技术
- Norm位置3种: Post-Norm,Pre-Norm和Sandwich-Norm
- Norm方法3种: LayerNorm, DeepNorm和RMSNorm
- 激活函数3种: GeLU, GeGLU和SwiGLU
- PE方法6种: Fixed Absolute, Learned Absolute, Fixed Relative, Learned Relative, RoPE, ALiBi
下篇主要讲编程辅助应用和ChatBot是怎么炼成的,包括
- 编程辅助应用:Codex和AlphaCode
- ChatBot:InstructGPT, Bard, Claud, MOSS, ChatGLM2, LLaMA系
上述两篇是《Transformer 101》系列的第二篇和第三篇,该系列计划从以下五个方面对transformer进行介绍
- 算法1: NLP中的transformer网络结构
- 算法2: CV中的transformer网络结构
- 算法3: 多模态下的transformer网络结构
- 训练: transformer的分布式训练
- 部署: transformer的tvm量化与推理
《Transformer 101系列文章》
指标篇
LLM篇
多模态篇
AIGC篇
如果想了解transformer在NLP/多模态/AIGC的算法知识,分布式训练的知识,以及如何在TVM上做PTQ量化和部署,可以关注我aaronxic哟~
编辑于 2023-07-31 07:59