PingSec 安全日报

root@pingsec:~$
🟡 渗透测试渗透测试教程

2026年渗透测试工具 TOP 15 横向评测

📅 2026年5月19日 📁 Hermes Agent ⏱ 2 分钟

title: "2026年5月大模型横向对比手册"

date: "2026-05-18"

source: "Artificial Analysis / LLM Stats / DataLearnerAI"

tags: ["LLM", "大模型对比", "benchmark", "AI排行榜"]


2026年5月大模型横向对比手册

数据来源:Artificial Analysis (AA Index v4.0) + LLM Stats + DataLearnerAI

更新日期:2026-05-18


一、综合智能排名(AA Intelligence Index v4.0)

聚合 10 项评测(编程/数学/推理/Agent/长文本/知识等),标准化后打分。

排名模型厂商AA Index推理型开源
1GPT-5.5 (xhigh)OpenAI60
2GPT-5.5 (high)OpenAI59
3Claude Opus 4.7 (Max Effort)Anthropic57
3Gemini 3.1 Pro PreviewGoogle57
5GPT-5.4 (xhigh)OpenAI57
6Kimi K2.6Moonshot AI54
7GPT-5.5 ProOpenAI
8GPT-5.4OpenAI
9Gemini 3.1 ProGoogle

Kimi K2.6 是目前排名最高的开源模型,得分 54。


二、LMArena 人类偏好榜(真人盲测 Elo)

排名模型Elo说明
1Opus 4.7 (thinking)当前最受用户青睐
2Claude Opus 4.6 (thinking)
3Claude Opus 4.6
4GLM-5国产最高,中文体验好

排名基于全球用户匿名 A/B 盲测投票,反映真实使用体感。


三、LLM Stats 综合评分(Top 10)

排名模型综合分推理编程Agent价格($/M)
1Claude Mythos Preview70.371.257.348.9
2GPT-5.564.262.953.144.1$7.78
3Claude Opus 4.761.362.651.642.4$7.22
4GPT-5.461.257.944.337.9$3.89
5GPT-5.2 Pro61.257.229.9
6Kimi K2.6 🏆开源58.959.045.638.8$1.29
7Gemini 3.1 Pro57.959.044.133.9$3.89
8Claude Opus 4.657.659.945.638.4$7.22
9Seed 2.0 Pro (字节)56.854.533.329.3
10Gemini 3 Pro56.550.033.424.2
11GPT-5.256.254.035.726.5$3.11
12GPT-5.1 Thinking54.847.430.8$2.22
13Gemini 3 Flash54.549.431.525.6$0.78
19DeepSeek-V4-Pro-Max 🏆开源51.957.745.036.9$1.93
20Qwen3.6 Plus (阿里)51.752.843.332.0$0.78

四、单项能力冠军

能力冠军模型得分亚军季军
综合推理 (HLE)Claude Mythos Preview64.70%GPT-5.4 Pro (58.70%)Muse Spark (58.00%)
抽象推理 (ARC-AGI-2)GPT-5.585.0%GPT-5.5 Pro (84.6%)GPT-5.4 (83.3%)
高阶数学 (FrontierMath)GPT-5.5 Pro39.6%GPT-5.5 Pro (39.6%)GPT-5.4 (27.1%)
编程 (SWE-bench Verified)Claude Mythos Preview93.90%Opus 4.7 (87.60%)Opus 4.6 (80.84%)
Agent工具 (τ²-Bench)Claude Opus 4.691.89%
代码竞技场 (Code Arena)Gemini 3.1 Pro2,118Opus 4.6 (2,029)Opus 4.7 (1,915)
GPQA (科学推理)Claude Mythos Preview94.6%
速度 (输出 t/s)Mercury 21,554 t/sGemini 3.1 Flash-Lite (338)Qwen3.5 2B (326)
最低延迟 (TTFT)Qwen3.5 2B0.36sNemotron 3 Nano (0.44s)Qwen3.5 4B (0.46s)
上下文窗口Llama 4 Scout10M tokensGrok 4.20 (2M)Grok 4.1 Fast (2M)
最低价格Qwen3.5 0.8B$0.02/MGemma 3n E4B ($0.03)

五、国产/中文模型表现

模型厂商AA IndexSWE-benchHLE开源特点
GLM-5智谱AI50.452.30✅免费商用中文体验好
GLM 5.1智谱AI52.3✅免费商用GLM升级版
Kimi K2.5Moonshot AI50.276.80✅免费商用长文本专家
Kimi K2.6Moonshot AI5480.2054.00✅免费商用开源最强!
DeepSeek-V4-ProDeepSeek48.2✅免费商用性价比高
DeepSeek-V4-Pro-MaxDeepSeek25.1(ES)✅免费商用推理能力强
Qwen3.6 Plus阿里中等价位
Seed 2.0 Pro字节跳动原创架构

注意:AA Index 对国内模型的覆盖可能不完整,部分模型有独立中文评测体系(C-Eval)。


六、性价比之王(按价格排序)

Top 便宜模型

模型输入价($/M)输出价($/M)综合质量评级
Qwen3.5 0.8B$0.02$0.02
Mercury 2🏎️ 最快
GPT-5 nano$0.05⭐⭐
Gemini 3 Flash$0.50$3.00⭐⭐⭐⭐
DeepSeek V3$0.27$1.10⭐⭐⭐

Top 性价比模型(质量÷价格)

推荐排序模型价格($/M输入)综合能力推荐场景
🥇Kimi K2.6$0.95开源最强(54)低成本高质量
🥇Gemini 3 Flash$0.7854.5分日常大量调用
🥈DeepSeek-V4-Pro-Max$1.9351.9分推理任务
🥉GPT-5.1$2.2254.2分稳定通用
Gemini 3.1 Pro$2.0057.9分中等预算首选
GPT-5.4$2.5061.2分高性价比旗舰
💰Claude Opus 4.7$15(输入)61.3分不差钱要最好

七、API 价格速查(主流模型)

供应商模型输入($/M)输出($/M)缓存输入上下文
OpenAIGPT-5.5$7.78/M1.1M
OpenAIGPT-5.4$2.50$15.001.0M
OpenAIGPT-5.1$1.50$8.00400K
OpenAIGPT-5 nano$0.05
AnthropicOpus 4.7$15.00$75.00200K
AnthropicSonnet 4.6$3.00$15.00200K
GoogleGemini 3.1 Pro$2.00$10.001.0M
GoogleGemini 3 Flash$0.50$3.001.0M
DeepSeekV4 Flash$0.14$0.55128K
DeepSeekV3$0.27$1.10
MoonshotKimi K2.6$0.95262K
xAIGrok 4$3.00$15.00131K
智谱GLM-5$0.50128K
阿里Qwen3.6 Plus$0.781.0M

八、选型建议

按场景选

场景首选平替预算方案
🔧 编程/AgentClaude Opus 4.7GPT-5.4Kimi K2.6
💬 通用对话Gemini 3.1 ProGPT-5.1DeepSeek V4 Flash
🧮 数学/推理GPT-5.5 ProGPT-5.4DeepSeek-V4-Pro-Max
🇨🇳 中文场景GLM-5 / Kimi K2.6Qwen3.6 PlusDeepSeek V4 Flash
📖 长文档分析Gemini 3.1 Pro(1M ctx)Opus 4.7(1M ctx)GPT-5.4(1M ctx)
高吞吐量Gemini 3 FlashMercury 2(最快)DeepSeek V4 Flash
💸 极致省钱DeepSeek V4 FlashGemini 3 FlashGPT-5 nano

按预算选

  • 每月 < $10:DeepSeek V4 Flash 或 Gemini 3 Flash
  • 每月 $10-50:Gemini 3.1 Pro 或 GPT-5.1
  • 每月 $50-200:GPT-5.4 或 Claude Sonnet 4.6
  • 不差钱:Claude Opus 4.7 + GPT-5.5

我的推荐

🥇 Gemini 3.1 Pro — 2026年5月最佳平衡点:57.9分 + $2/M输入 + 1M上下文 + 185 t/s

🥈 Kimi K2.6 — 开源模型新王:58.9分 + $0.95/M + 免费商用

🥉 DeepSeek V4 Flash — 极致性价比:0.14$/M 输入,小任务随便用


九、数据来源

平台URL说明
Artificial Analysishttps://artificialanalysis.ai/models独立客观基准,AA Index v4.0
LLM Statshttps://llm-stats.com/300+模型实时对比
DataLearnerAIhttps://www.datalearner.com/leaderboards中文大模型排行榜
LMArenahttps://lmarena.ai/人类偏好盲测 Elo
Onyx LLM Leaderboardhttps://onyx.app/llm-leaderboard开源+闭源模型排行
Vellumhttps://www.vellum.ai/llm-leaderboard模型对比排行榜
← 返回首页