开发喵星球

苹果偷偷发布开源大模型——DCLM-7B

苹果偷偷发布开源大模型——DCLM-7B

苹果出人意料地发布了其 7B DCLM(语言模型数据合成)基础模型的权重,此举引起了人工智能社区的关注。此举标志着苹果在开源人工智能领域迈出了重要一步,展示了其致力于推进语言模型研发的承诺。DCLM-7B 模型旨在展示系统数据管理技术的有效性,很快成为研究人员和开发人员感兴趣的话题。

什么是 DCLM-7B,Apple 的开源 7B 模型

DCLM-Baseline-7B 是一个基于 DCLM-Baseline 数据集训练的 70 亿参数语言模型。该数据集是作为 DataComp for Language Models (DCLM) 基准的一部分精心策划的,强调了数据质量对模型性能的重要性。该模型拥有令人印象深刻的规格,已在 2.5 万亿个标记上进行训练,上下文长度为 2048 个标记。此外,Apple 还发布了一个具有扩展 8K 上下文长度的版本,进一步扩展了其功能。

Apple ML 团队的 Vaishaal Shankar 将这些描述为“性能最佳”的开源模型。值得注意的是,随着模型权重、训练代码和预训练数据集的发布,该项目真正实现了开源。

![image-20240723115117731](/Users/mac/Library/Application Support/typora-user-images/image-20240723115117731.png)

DCLM-7B 的主要特点

DCLM-7B 以 Apple ASCL 许可证(与 MIT 许可证类似)发布,表明 Apple 有意为开源 AI 社区做出贡献。此举允许研究人员和开发人员自由使用、修改和分发该模型,从而有可能加速自然语言处理和理解的进步。

性能比较:DCLM-7B 与 Mistral 7B

要了解 Apple 的 DCLM-7B 的功能,必须将其与同一参数范围内的其他知名型号进行比较。Mistral AI 开发的 Mistral 7B 因其尺寸相似且在开源社区中被广泛采用而成为极佳的比较基准。

而且,它的MMLU性能非常接近市场上领先的开放模型(开放权重但封闭数据),包括Llama3 8B(66.2%),谷歌的Gemma(64.3%)和微软的Phi-3(69.9%)。

![image-20240723115252340](/Users/mac/Library/Application Support/typora-user-images/image-20240723115252340.png)

基准测试比较

基准 DCLM-7B 米斯特拉尔 7B
莫尔登大学 57.1 62.6
ARC-c 50.8 63.7
希拉斯瓦格 78.5 83.1
诚实问答 45.4 44.9
GSM8K 31.8 35.4
人力评估 25.0 26.2

注:这些数字为近似值,基于现有数据。实际性能可能因具体评估条件而异。

绩效分析

常识和推理:Mistral 7B 在需要广泛知识和推理的任务中表现出轻微优势,这从其在MMLU(多任务语言理解)和ARC-c(AI2推理挑战)中的更高分数可以看出。

常识和情境理解:HellaSwag 基准测试了常识推理和情境理解,结果显示 Mistral 7B 表现更佳,表明其对情境细微差别的掌握更强。

真实性:DCLM-7B 在 TruthfulQA 基准上的表现略好一些,表明在提供准确和真实的回答方面略有优势。

数学推理:在 GSM8K(小学数学 8K)基准测试中,Mistral 7B 表现出一定领先优势,表明其在基本数学问题解决方面表现更佳。

代码生成:评估代码生成能力的 HumanEval 基准测试显示 Mistral 7B 略有优势,尽管差异很小。

虽然 Mistral 7B 在多个基准测试中似乎占有优势,但值得注意的是 DCLM-7B 仍保持领先,尤其是在真实性方面。性能差异虽然明显,但并不大,这表明 DCLM-7B 是同类产品中具有竞争力的型号。

DCLM-Baseline 数据集:模型训练中的游戏规则改变者

Apple 发布的 DCLM-7B 最吸引人的地方之一是附带的 DCLM-Baseline 数据集。该数据集构成了模型训练的基础,证明了 Apple 在提高语言模型性能方面对数据质量和管理的重视。

数据集特征

DCLM-Baseline 数据集代表了对 AI 社区的重大贡献。其规模和质量使其成为研究人员和开发人员训练或微调自己的语言模型的宝贵资源。该数据集在开源许可下可用,进一步强调了 Apple 致力于促进该领域的创新。

对模型性能的影响

DCLM-Baseline 数据集的精心策划对 DCLM-7B 模型的性能至关重要。通过专注于高质量、多样化的数据,Apple 旨在解决语言模型中的常见问题,例如偏见、不准确性和有限的领域知识。这种方法可能会在各种任务中带来更强大、更可靠的模型输出。

   
分类:玩技术 作者:荡荡, 浩浩 发表于:2024-07-23 11:58:16 阅读量:96
<<   >>


powered by kaifamiao