02模型开发

以下大模型特指:大语言模型,LLM

1、大模型的介绍

  1. Transfomer

  2. 注意力机制

  3. self-attention

  4. word-embedding

  5. flash-attention

  6. encoder,decoder

2、大模型解决什么问题

  1. 自然语言对话

  2. 逻辑推理

3、常见的大模型

按国别分

  1. 国外

  • GPT系列

    • GPT3

    • GPT3.5

    • GPR4

  • llama系列

    • llama

    • llama2

  • Bloom

  1. 国内

    • 清华智谱-GLM

    • 百度-文心一言

    • 阿里-通义千问

    • 科大讯飞-星火认知

    • 百川

4、大模型训练

4.1 全量训练

4.2 微调

微调的目的:

  1. LoRA

  2. Adapter

  3. RLHF

5、大模型推理

要解决的核心问题:"存得下" "跑得快"

5.1 推理和训练的差异

5.2 推理优化的方法

软件方面

  1. 量化

  2. 剪枝

  3. 蒸馏

硬件方面

  1. 算子融合、图优化

6、应用生态

  1. langchain

  2. ai agent

7、大模型发展趋势

8、参考

论文

课程

仓库

Last updated

Was this helpful?