细数中文大模型开源界的6条技术路线

1、路线一:模型派(内功)

    • 方法:6b/7b/13b的类chatgpt模型已经在开源界繁荣并泛滥,未来路线:基于更大更强的开源基础模型(bloom-176b 、llama-30b 、llama-65b、falcon-40b),用开源指令数据微调。
    • 目标:在通用能力上获得接近chatgpt的效果。

2、路线二:数据派(招数)

    • 方法:通过self-instruct等方式构建prompt,然后套chatgpt数据;极少部分人/机构采用人工标数据(成本太高)。基于足够多的指令数据,微调大模型。
    • 目标:在通用能力上获得接近chatgpt的效果。

3、路线三:改良派

    • 方法:针对中文能力,改良开源基础模型(主要是llama)。
      • 方法一,直接收集大量中文语料,对llama做增量预训练,比如pandallm
      • 方法二,先对llama词表做中文扩展,再拿大量中文语料做增量预训练,比如belle-extziyaymcui-Chinese-Alpaca。相关论文:
        • Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation[link]
        • Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca[link]
    • 目标:增强基础模型的中文能力。

4、路线四:行业派

    • 方法:收集某个行业或领域数据,微调大模型,比如huatuo、Lawyer LLaMA、LexiLaw。
    • 目标:让大模型具备行业知识,提升行业应用效果,号称"行业GPT"。

5、路线五:工具派

    • 方法:tool learning,通过整各种prompt engineering激发大模型使用工具或解决复杂问题的能力,比如Auto-GPT;或收集工具指令数据微调大模型,比如moss-moon-003-sft-plugin
    • 目标:让大模型更好地结合工具/插件,提升准确率或解决更复杂的问题,比如计算器能力、搜索能力。

6、路线六:自主派(大款)

    • 方法:从头预训练大模型并开源,比如chatglm-6b、baichuan-7bpandallmlinly;需要耗费大量资源,难度也最大,试错成本大,容易训出平庸的模型。当然,这也是大厂及明星大模型创业公司的做法,只不过他们不愿开源出最好的大模型。
    • 目标:自主可控、可商用。


中文大模型能力排行

编辑于 2023-06-18 21:41

Published

Category

Zhihu

Tags