title: "2026年5月大模型横向对比手册"
date: "2026-05-18"
source: "Artificial Analysis / LLM Stats / DataLearnerAI"
tags: ["LLM", "大模型对比", "benchmark", "AI排行榜"]
2026年5月大模型横向对比手册
数据来源:Artificial Analysis (AA Index v4.0) + LLM Stats + DataLearnerAI
更新日期:2026-05-18
一、综合智能排名(AA Intelligence Index v4.0)
聚合 10 项评测(编程/数学/推理/Agent/长文本/知识等),标准化后打分。
| 排名 | 模型 | 厂商 | AA Index | 推理型 | 开源 |
|---|---|---|---|---|---|
| 1 | GPT-5.5 (xhigh) | OpenAI | 60 | ✅ | ❌ |
| 2 | GPT-5.5 (high) | OpenAI | 59 | ✅ | ❌ |
| 3 | Claude Opus 4.7 (Max Effort) | Anthropic | 57 | ✅ | ❌ |
| 3 | Gemini 3.1 Pro Preview | 57 | ✅ | ❌ | |
| 5 | GPT-5.4 (xhigh) | OpenAI | 57 | ✅ | ❌ |
| 6 | Kimi K2.6 | Moonshot AI | 54 | ❌ | ✅ |
| 7 | GPT-5.5 Pro | OpenAI | — | ✅ | ❌ |
| 8 | GPT-5.4 | OpenAI | — | ❌ | ❌ |
| 9 | Gemini 3.1 Pro | — | ❌ | ❌ |
Kimi K2.6 是目前排名最高的开源模型,得分 54。
二、LMArena 人类偏好榜(真人盲测 Elo)
| 排名 | 模型 | Elo | 说明 |
|---|---|---|---|
| 1 | Opus 4.7 (thinking) | — | 当前最受用户青睐 |
| 2 | Claude Opus 4.6 (thinking) | — | |
| 3 | Claude Opus 4.6 | — | |
| 4 | GLM-5 | — | 国产最高,中文体验好 |
排名基于全球用户匿名 A/B 盲测投票,反映真实使用体感。
三、LLM Stats 综合评分(Top 10)
| 排名 | 模型 | 综合分 | 推理 | 编程 | Agent | 价格($/M) |
|---|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | 70.3 | 71.2 | 57.3 | 48.9 | — |
| 2 | GPT-5.5 | 64.2 | 62.9 | 53.1 | 44.1 | $7.78 |
| 3 | Claude Opus 4.7 | 61.3 | 62.6 | 51.6 | 42.4 | $7.22 |
| 4 | GPT-5.4 | 61.2 | 57.9 | 44.3 | 37.9 | $3.89 |
| 5 | GPT-5.2 Pro | 61.2 | 57.2 | — | 29.9 | — |
| 6 | Kimi K2.6 🏆开源 | 58.9 | 59.0 | 45.6 | 38.8 | $1.29 |
| 7 | Gemini 3.1 Pro | 57.9 | 59.0 | 44.1 | 33.9 | $3.89 |
| 8 | Claude Opus 4.6 | 57.6 | 59.9 | 45.6 | 38.4 | $7.22 |
| 9 | Seed 2.0 Pro (字节) | 56.8 | 54.5 | 33.3 | 29.3 | — |
| 10 | Gemini 3 Pro | 56.5 | 50.0 | 33.4 | 24.2 | — |
| 11 | GPT-5.2 | 56.2 | 54.0 | 35.7 | 26.5 | $3.11 |
| 12 | GPT-5.1 Thinking | 54.8 | 47.4 | 30.8 | — | $2.22 |
| 13 | Gemini 3 Flash | 54.5 | 49.4 | 31.5 | 25.6 | $0.78 |
| 19 | DeepSeek-V4-Pro-Max 🏆开源 | 51.9 | 57.7 | 45.0 | 36.9 | $1.93 |
| 20 | Qwen3.6 Plus (阿里) | 51.7 | 52.8 | 43.3 | 32.0 | $0.78 |
四、单项能力冠军
| 能力 | 冠军模型 | 得分 | 亚军 | 季军 |
|---|---|---|---|---|
| 综合推理 (HLE) | Claude Mythos Preview | 64.70% | GPT-5.4 Pro (58.70%) | Muse Spark (58.00%) |
| 抽象推理 (ARC-AGI-2) | GPT-5.5 | 85.0% | GPT-5.5 Pro (84.6%) | GPT-5.4 (83.3%) |
| 高阶数学 (FrontierMath) | GPT-5.5 Pro | 39.6% | GPT-5.5 Pro (39.6%) | GPT-5.4 (27.1%) |
| 编程 (SWE-bench Verified) | Claude Mythos Preview | 93.90% | Opus 4.7 (87.60%) | Opus 4.6 (80.84%) |
| Agent工具 (τ²-Bench) | Claude Opus 4.6 | 91.89% | — | — |
| 代码竞技场 (Code Arena) | Gemini 3.1 Pro | 2,118 | Opus 4.6 (2,029) | Opus 4.7 (1,915) |
| GPQA (科学推理) | Claude Mythos Preview | 94.6% | — | — |
| 速度 (输出 t/s) | Mercury 2 | 1,554 t/s | Gemini 3.1 Flash-Lite (338) | Qwen3.5 2B (326) |
| 最低延迟 (TTFT) | Qwen3.5 2B | 0.36s | Nemotron 3 Nano (0.44s) | Qwen3.5 4B (0.46s) |
| 上下文窗口 | Llama 4 Scout | 10M tokens | Grok 4.20 (2M) | Grok 4.1 Fast (2M) |
| 最低价格 | Qwen3.5 0.8B | $0.02/M | Gemma 3n E4B ($0.03) | — |
五、国产/中文模型表现
| 模型 | 厂商 | AA Index | SWE-bench | HLE | 开源 | 特点 |
|---|---|---|---|---|---|---|
| GLM-5 | 智谱AI | 50.4 | — | 52.30 | ✅免费商用 | 中文体验好 |
| GLM 5.1 | 智谱AI | — | — | 52.3 | ✅免费商用 | GLM升级版 |
| Kimi K2.5 | Moonshot AI | 50.2 | 76.80 | — | ✅免费商用 | 长文本专家 |
| Kimi K2.6 | Moonshot AI | 54 | 80.20 | 54.00 | ✅免费商用 | 开源最强! |
| DeepSeek-V4-Pro | DeepSeek | 48.2 | — | — | ✅免费商用 | 性价比高 |
| DeepSeek-V4-Pro-Max | DeepSeek | 25.1(ES) | — | — | ✅免费商用 | 推理能力强 |
| Qwen3.6 Plus | 阿里 | — | — | — | ❌ | 中等价位 |
| Seed 2.0 Pro | 字节跳动 | — | — | — | ❌ | 原创架构 |
注意:AA Index 对国内模型的覆盖可能不完整,部分模型有独立中文评测体系(C-Eval)。
六、性价比之王(按价格排序)
Top 便宜模型
| 模型 | 输入价($/M) | 输出价($/M) | 综合质量评级 |
|---|---|---|---|
| Qwen3.5 0.8B | $0.02 | $0.02 | ⭐ |
| Mercury 2 | — | — | 🏎️ 最快 |
| GPT-5 nano | $0.05 | — | ⭐⭐ |
| Gemini 3 Flash | $0.50 | $3.00 | ⭐⭐⭐⭐ |
| DeepSeek V3 | $0.27 | $1.10 | ⭐⭐⭐ |
Top 性价比模型(质量÷价格)
| 推荐排序 | 模型 | 价格($/M输入) | 综合能力 | 推荐场景 |
|---|---|---|---|---|
| 🥇 | Kimi K2.6 | $0.95 | 开源最强(54) | 低成本高质量 |
| 🥇 | Gemini 3 Flash | $0.78 | 54.5分 | 日常大量调用 |
| 🥈 | DeepSeek-V4-Pro-Max | $1.93 | 51.9分 | 推理任务 |
| 🥉 | GPT-5.1 | $2.22 | 54.2分 | 稳定通用 |
| Gemini 3.1 Pro | $2.00 | 57.9分 | 中等预算首选 | |
| GPT-5.4 | $2.50 | 61.2分 | 高性价比旗舰 | |
| 💰 | Claude Opus 4.7 | $15(输入) | 61.3分 | 不差钱要最好 |
七、API 价格速查(主流模型)
| 供应商 | 模型 | 输入($/M) | 输出($/M) | 缓存输入 | 上下文 |
|---|---|---|---|---|---|
| OpenAI | GPT-5.5 | $7.78/M | — | — | 1.1M |
| OpenAI | GPT-5.4 | $2.50 | $15.00 | — | 1.0M |
| OpenAI | GPT-5.1 | $1.50 | $8.00 | — | 400K |
| OpenAI | GPT-5 nano | $0.05 | — | — | — |
| Anthropic | Opus 4.7 | $15.00 | $75.00 | — | 200K |
| Anthropic | Sonnet 4.6 | $3.00 | $15.00 | — | 200K |
| Gemini 3.1 Pro | $2.00 | $10.00 | — | 1.0M | |
| Gemini 3 Flash | $0.50 | $3.00 | — | 1.0M | |
| DeepSeek | V4 Flash | $0.14 | $0.55 | — | 128K |
| DeepSeek | V3 | $0.27 | $1.10 | — | — |
| Moonshot | Kimi K2.6 | $0.95 | — | — | 262K |
| xAI | Grok 4 | $3.00 | $15.00 | — | 131K |
| 智谱 | GLM-5 | $0.50 | — | — | 128K |
| 阿里 | Qwen3.6 Plus | $0.78 | — | — | 1.0M |
八、选型建议
按场景选
| 场景 | 首选 | 平替 | 预算方案 |
|---|---|---|---|
| 🔧 编程/Agent | Claude Opus 4.7 | GPT-5.4 | Kimi K2.6 |
| 💬 通用对话 | Gemini 3.1 Pro | GPT-5.1 | DeepSeek V4 Flash |
| 🧮 数学/推理 | GPT-5.5 Pro | GPT-5.4 | DeepSeek-V4-Pro-Max |
| 🇨🇳 中文场景 | GLM-5 / Kimi K2.6 | Qwen3.6 Plus | DeepSeek V4 Flash |
| 📖 长文档分析 | Gemini 3.1 Pro(1M ctx) | Opus 4.7(1M ctx) | GPT-5.4(1M ctx) |
| ⚡ 高吞吐量 | Gemini 3 Flash | Mercury 2(最快) | DeepSeek V4 Flash |
| 💸 极致省钱 | DeepSeek V4 Flash | Gemini 3 Flash | GPT-5 nano |
按预算选
- 每月 < $10:DeepSeek V4 Flash 或 Gemini 3 Flash
- 每月 $10-50:Gemini 3.1 Pro 或 GPT-5.1
- 每月 $50-200:GPT-5.4 或 Claude Sonnet 4.6
- 不差钱:Claude Opus 4.7 + GPT-5.5
我的推荐
🥇 Gemini 3.1 Pro — 2026年5月最佳平衡点:57.9分 + $2/M输入 + 1M上下文 + 185 t/s
🥈 Kimi K2.6 — 开源模型新王:58.9分 + $0.95/M + 免费商用
🥉 DeepSeek V4 Flash — 极致性价比:0.14$/M 输入,小任务随便用
九、数据来源
| 平台 | URL | 说明 |
|---|---|---|
| Artificial Analysis | https://artificialanalysis.ai/models | 独立客观基准,AA Index v4.0 |
| LLM Stats | https://llm-stats.com/ | 300+模型实时对比 |
| DataLearnerAI | https://www.datalearner.com/leaderboards | 中文大模型排行榜 |
| LMArena | https://lmarena.ai/ | 人类偏好盲测 Elo |
| Onyx LLM Leaderboard | https://onyx.app/llm-leaderboard | 开源+闭源模型排行 |
| Vellum | https://www.vellum.ai/llm-leaderboard | 模型对比排行榜 |