想学习大语言模型(LLM)，应该从哪个开源模型开始？

恰巧最近写了个LLM的相关基础知识，分为上篇和下篇，共3w字左右，应该能够帮到你

上篇主要讲LLM的基座模型，包括了常见的3种transformer架构，encoder-only，encoder-decoder和decoder-only，包括了

同时串讲介绍了若干技术

Norm位置3种: Post-Norm，Pre-Norm和Sandwich-Norm
Norm方法3种: LayerNorm, DeepNorm和RMSNorm
激活函数3种: GeLU, GeGLU和SwiGLU
PE方法6种: Fixed Absolute, Learned Absolute, Fixed Relative, Learned Relative, RoPE, ALiBi

aaronxic：[Transformer 101系列] 初探LLM基座模型

下篇主要讲编程辅助应用和ChatBot是怎么炼成的，包括

上述两篇是《Transformer 101》系列的第二篇和第三篇，该系列计划从以下五个方面对transformer进行介绍

《Transformer 101系列文章》

指标篇

[Transformer 101系列] Perplexity指标究竟是什么? 38 赞同 · 0 评论文章

LLM篇

[Transformer 101系列] 初探LLM基座模型 238 赞同 · 18 评论文章

多模态篇

[Transformer 101系列] 多模态的大一统之路 115 赞同 · 5 评论文章

AIGC篇

[Transformer 101系列] AIGC组成原理(上) 36 赞同 · 0 评论文章

如果想了解transformer在NLP/多模态/AIGC的算法知识，分布式训练的知识，以及如何在TVM上做PTQ量化和部署，可以关注我aaronxic哟~

编辑于 2023-07-31 07:59