Llama 3.1系列现有型号:
Llama 3.1 405B 是第一个公开可用的模型,在常识、可操纵性、数学、工具使用和多语言翻译等最先进的能力方面可与顶级 AI 模型相媲美。
8B 和 70B 模型的升级版本支持多种语言,上下文长度显著增加至 128K,工具使用先进,推理能力也更强。这使得 Meta 的最新模型能够支持高级用例,例如长篇文本摘要、多语言对话代理和编码助手。
Meta 还对其许可证进行了修改,允许开发人员使用 Llama 模型(包括 405B 模型)的输出来改进其他模型。
对于此版本,Meta 已评估了 150 多个基准数据集上的性能,这些数据集涵盖了多种语言。此外,Meta 还进行了广泛的人工评估,将 Llama 3.1 与现实场景中的竞争模型进行了比较。Meta 的实验评估表明,旗舰模型在一系列任务中与领先的基础模型具有竞争力,包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet。此外,Meta 的小型模型与具有相似数量参数的封闭和开放模型具有竞争力。
作为Llama家族迄今为止最大的模型,在超过 15 万亿个 token 上训练 Llama 3.1 405B 是一项重大挑战。为了能够以这种规模进行训练并在合理的时间内取得成果,显著优化了整个训练堆栈,并将模型训练推向超过 16,000 个 H100 GPU,使 405B 成为第一个以这种规模训练的 Llama 模型。
为了解决这个问题,Llama团队做出了设计选择,重点关注保持模型开发过程的可扩展性和简单性。
与之前的 Llama 版本相比,提高了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理流程、开发更严格的质量保证以及训练后数据的过滤方法。
正如语言模型的缩放定律所预期的那样,新旗舰模型比使用相同程序训练的小型模型表现更好。我们还使用 405B 参数模型来提高小型模型的训练后质量。
为了支持 405B 规模模型的大规模生产推理,团队将模型从 16 位 (BF16) 量化为 8 位 (FP8) 数字,有效降低了所需的计算要求并允许模型在单个服务器节点内运行。
借助 Llama 3.1 405B,提高模型对用户指令的响应能力、质量和详细指令遵循能力,同时确保高水平的安全性。Llama面临的最大挑战是支持更多功能、128K 上下文窗口和更大的模型大小。
在后期训练中,通过在预训练模型的基础上进行几轮对齐来生成最终的聊天模型。每轮都涉及监督微调 (SFT)、拒绝抽样 (RS) 和直接偏好优化 (DPO)。使用合成数据生成来生成绝大多数 SFT 示例,并进行多次迭代以生成涵盖所有功能的越来越高质量的合成数据。而且还投资了多种数据处理技术,以将这些合成数据过滤到最高质量。
还做了仔细平衡数据,以生成在所有功能上都具有高质量模型。例如,即使扩展到 128K 上下文,模型在短上下文基准上也能保持质量。同样,添加了安全缓解措施,模型仍能继续提供最有帮助的答案。
powered by kaifamiao