想学习大语言模型(LLM),应该从哪个开源模型开始?

恰巧最近写了个LLM的相关基础知识,分为上篇和下篇,共3w字左右,应该能够帮到你

上篇主要讲LLM的基座模型,包括了常见的3种transformer架构,encoder-only,encoder-decoder和decoder-only,包括了

  • encoder-only:BERT
  • encoder-decoder:T5, GLM-130B, UL2
  • decoder-only:GPT系列, LLaMA, OPT, PaLM, LaMDA, Chinchilla, BLOOM

同时串讲介绍了若干技术

  • Norm位置3种: Post-Norm,Pre-Norm和Sandwich-Norm
  • Norm方法3种: LayerNorm, DeepNorm和RMSNorm
  • 激活函数3种: GeLU, GeGLU和SwiGLU
  • PE方法6种: Fixed Absolute, Learned Absolute, Fixed Relative, Learned Relative, RoPE, ALiBi
aaronxic:[Transformer 101系列] 初探LLM基座模型

下篇主要讲编程辅助应用和ChatBot是怎么炼成的,包括

  • 编程辅助应用:Codex和AlphaCode
  • ChatBot:InstructGPT, Bard, Claud, MOSS, ChatGLM2, LLaMA系
aaronxic:[Transformer 101系列] ChatBot是怎么炼成的?


上述两篇是《Transformer 101》系列的第二篇和第三篇,该系列计划从以下五个方面对transformer进行介绍

  • 算法1: NLP中的transformer网络结构
  • 算法2: CV中的transformer网络结构
  • 算法3: 多模态下的transformer网络结构
  • 训练: transformer的分布式训练
  • 部署: transformer的tvm量化与推理

《Transformer 101系列文章》

指标篇

LLM篇

多模态篇

AIGC篇

如果想了解transformer在NLP/多模态/AIGC的算法知识,分布式训练的知识,以及如何在TVM上做PTQ量化和部署,可以关注我aaronxic哟~

编辑于 2023-07-31 07:59

Published

Category

Zhihu

Tags