InternLM2.5采用更高效的模型结构,拥有更卓越的推理能力,能处理 1M 超长上下文、互联网搜索与信息整合等复杂任务。
InternLM2.5 目前开源了应用场景最广的轻量级 7B 版本,模型兼顾速度、效率与性能表现。模型全面增强了在复杂场景下的推理能力并支持 1M 超长上下文,能自主进行互联网搜索并从上百个网页中完成信息整合。
目前 InternLM 2.5 系列只发布了 7B 大小的模型,接下来将开源 1.8B 和 20B 的版本。7B 为轻量级的研究和应用提供了一个轻便但性能不俗的模型,20B 模型的综合性能更为强劲,可以有效支持更加复杂的实用场景。每个规格不同模型关系如下所示:
这里采用的对比模型分别是:qwen1.5-7B-Chat、ChatGLM-6b,基本都是同尺寸的模型
这里使用开源评测工具 OpenCompass 在几个重要的基准测试中对 InternLM2.5 进行了评测。部分评测结果如下表所示。
Benchmark | InternLM2.5-7B | Llama3-8B | Yi-1.5-9B |
---|---|---|---|
MMLU (5-shot) | 71.6 | 66.4 | 71.6 |
CMMLU (5-shot) | 79.1 | 51.0 | 74.1 |
BBH (3-shot) | 70.1 | 59.7 | 71.1 |
MATH (4-shot) | 34.0 | 16.4 | 31.9 |
GSM8K (4-shot) | 74.8 | 54.3 | 74.5 |
GPQA (0-shot) | 31.3 | 31.3 | 27.8 |
Benchmark | InternLM2.5-7B-Chat | Llama3-8B-Instruct | Gemma2-9B-IT | Yi-1.5-9B-Chat | GLM-4-9B-Chat | Qwen2-7B-Instruct |
---|---|---|---|---|---|---|
MMLU (5-shot) | 72.8 | 68.4 | 70.9 | 71.0 | 71.4 | 70.8 |
CMMLU (5-shot) | 78.0 | 53.3 | 60.3 | 74.5 | 74.5 | 80.9 |
BBH (3-shot CoT) | 71.6 | 54.4 | 68.2* | 69.6 | 69.6 | 65.0 |
MATH (0-shot CoT) | 60.1 | 27.9 | 46.9 | 51.1 | 51.1 | 48.6 |
GSM8K (0-shot CoT) | 86.0 | 72.9 | 88.9 | 80.1 | 85.3 | 82.9 |
GPQA (0-shot) | 38.4 | 26.1 | 33.8 | 37.9 | 36.9 | 38.4 |
这里介绍了InternLM2大型语言模型,它在主观和客观评测中表现出色。InternLM2基于超过2T的高质量预训练数据进行训练,涵盖了1.8B、7B和20B参数的模型规模,适用于多种场景。为了更好地支持长文本处理,InternLM2采用了GQA来降低推理成本,并额外训练在多达32000个上下文中。应该是同类型中文大模型的佼佼者。
powered by kaifamiao