书生·浦语大模型全链路开源体系

书生·浦语LLM实践营-笔记1

Posted by Stanlei on March 31, 2024

0 课程背景

0.1 开源历程

image-20240331212622861

0.2 InternLM大模型家族

主要包括7B和20B两种参数大小的模型,分别包括InternLM2、InternLM2-Base、InternLM2-Chat三个不同场景下的版本。

image-20240331212939330

0.3 性能对比

image-20240331213151350

2 模型到应用

大模型的训练是一件非常耗费资源的事情,如何将模型落地是最终都需要面临的问题。浦语大模型的应用主要表现在以下几个方面:

  • 原生能力
    • AI助手
      • image-20240331213400788
    • 心理咨询
      • image-20240331213455444
    • 艺术创作:剧本撰写
      • image-20240331213527498
    • 数学计算
      • image-20240331213722055
  • 工具调用能力
    • 代码解释器
    • 文档阅读
    • 表格数据分析
  • 从模型到应用
    • image-20240331213851118

3 比较重要的开源内容

3.1 数据

获取来源:数据集-OpenDataLab

image-20240331214333116

3.2 微调框架

支持当前主流开源大模型:国内的如InternLM、QWen、Baichuan、ChatGLM,国外的如LLaMA。

image-20240331214539430

3.3 评测

提供了OpenCompass评测体系:OpenCompass

  • 大模型评测工具链
    • image-20240331214941334
  • 大模型榜单:
    • image-20240331215045171

3.4 应用

提供了轻量级智能体框架Latent和多模态智能工具箱AgentLego

  • image-20240331215247087
  • image-20240331215335148

4 模型细节

模型架构图

  • image-20240331223107956

4.1 预训练

数据集

  • 文本数据集
  • 代码数据集
    • 提高InternLM2的编程能力
    • image-20240331224057884
  • 长上下文数据集
    • 为了增强InternLM2的书籍摘要、长对话能力,以及能够处理涉及复杂推理步骤的任务

训练细节

  • Tokenization
  • 4k Context Training
  • Long Context Training:大约32k的上下文窗口
  • 特定能力训练:在特定能力的数据集上进行训练,以提高推理、数学问题解决和知识记忆能力

4.2 对齐

  • 监督微调(SFT)
    • image-20240331224630438
  • RLHF
    • 提出了Conditional OnLine RLHF(COOL RLHF)方法
    • image-20240331224804918
    • image-20240331224920927
  • Long-Context Finetuning
    • 为了增强InternetLM2的数据分析能力,使用GitHub上超过10000star的repo
    • 长上下文代码数据不仅提高了LLM的长上下文能力,而且提高了代码能力
    • image-20240331225041121
  • Tool-Augmented LLMs
    • 通用工具调用
    • 代码解释器

4.3 评估

主要包括下游任务评估和对齐评估的benchmark和结果,目前只列出评估任务,之后根据时间会尽可能补充benckmark和数据集。

下游任务

  • comprehensive examinations
  • language and knowledge
  • reasoning and mathematics
  • multiple programming language coding
  • long-context modeling
  • tool utilization.

对齐

  • English Subjective Evaluation
  • Chinese Subjective Evaluation
  • Instruct Following Evaluation
  • Ablation Study of Conditional Reward Model