2026年渗透测试工具 TOP 15 横向评测

title: "2026年5月大模型横向对比手册"

date: "2026-05-18"

source: "Artificial Analysis / LLM Stats / DataLearnerAI"

tags: ["LLM", "大模型对比", "benchmark", "AI排行榜"]

2026年5月大模型横向对比手册

数据来源：Artificial Analysis (AA Index v4.0) + LLM Stats + DataLearnerAI

更新日期：2026-05-18

聚合 10 项评测（编程/数学/推理/Agent/长文本/知识等），标准化后打分。

排名	模型	厂商	AA Index	推理型	开源
1	GPT-5.5 (xhigh)	OpenAI	60	✅	❌
2	GPT-5.5 (high)	OpenAI	59	✅	❌
3	Claude Opus 4.7 (Max Effort)	Anthropic	57	✅	❌
3	Gemini 3.1 Pro Preview	Google	57	✅	❌
5	GPT-5.4 (xhigh)	OpenAI	57	✅	❌
6	Kimi K2.6	Moonshot AI	54	❌	✅
7	GPT-5.5 Pro	OpenAI	—	✅	❌
8	GPT-5.4	OpenAI	—	❌	❌
9	Gemini 3.1 Pro	Google	—	❌	❌

Kimi K2.6 是目前排名最高的开源模型，得分 54。

排名基于全球用户匿名 A/B 盲测投票，反映真实使用体感。

排名	模型	综合分	推理	编程	Agent	价格($/M)
1	Claude Mythos Preview	70.3	71.2	57.3	48.9	—
2	GPT-5.5	64.2	62.9	53.1	44.1	$7.78
3	Claude Opus 4.7	61.3	62.6	51.6	42.4	$7.22
4	GPT-5.4	61.2	57.9	44.3	37.9	$3.89
5	GPT-5.2 Pro	61.2	57.2	—	29.9	—
6	Kimi K2.6 🏆开源	58.9	59.0	45.6	38.8	$1.29
7	Gemini 3.1 Pro	57.9	59.0	44.1	33.9	$3.89
8	Claude Opus 4.6	57.6	59.9	45.6	38.4	$7.22
9	Seed 2.0 Pro (字节)	56.8	54.5	33.3	29.3	—
10	Gemini 3 Pro	56.5	50.0	33.4	24.2	—
11	GPT-5.2	56.2	54.0	35.7	26.5	$3.11
12	GPT-5.1 Thinking	54.8	47.4	30.8	—	$2.22
13	Gemini 3 Flash	54.5	49.4	31.5	25.6	$0.78
19	DeepSeek-V4-Pro-Max 🏆开源	51.9	57.7	45.0	36.9	$1.93
20	Qwen3.6 Plus (阿里)	51.7	52.8	43.3	32.0	$0.78

模型	厂商	AA Index	SWE-bench	HLE	开源	特点
GLM-5	智谱AI	50.4	—	52.30	✅免费商用	中文体验好
GLM 5.1	智谱AI	—	—	52.3	✅免费商用	GLM升级版
Kimi K2.5	Moonshot AI	50.2	76.80	—	✅免费商用	长文本专家
Kimi K2.6	Moonshot AI	54	80.20	54.00	✅免费商用	开源最强！
DeepSeek-V4-Pro	DeepSeek	48.2	—	—	✅免费商用	性价比高
DeepSeek-V4-Pro-Max	DeepSeek	25.1(ES)	—	—	✅免费商用	推理能力强
Qwen3.6 Plus	阿里	—	—	—	❌	中等价位
Seed 2.0 Pro	字节跳动	—	—	—	❌	原创架构

注意：AA Index 对国内模型的覆盖可能不完整，部分模型有独立中文评测体系（C-Eval）。

模型	输入价($/M)	输出价($/M)	综合质量评级
Qwen3.5 0.8B	$0.02	$0.02	⭐
Mercury 2	—	—	🏎️ 最快
GPT-5 nano	$0.05	—	⭐⭐
Gemini 3 Flash	$0.50	$3.00	⭐⭐⭐⭐
DeepSeek V3	$0.27	$1.10	⭐⭐⭐

推荐排序	模型	价格($/M输入)	综合能力	推荐场景
🥇	Kimi K2.6	$0.95	开源最强(54)	低成本高质量
🥇	Gemini 3 Flash	$0.78	54.5分	日常大量调用
🥈	DeepSeek-V4-Pro-Max	$1.93	51.9分	推理任务
🥉	GPT-5.1	$2.22	54.2分	稳定通用
	Gemini 3.1 Pro	$2.00	57.9分	中等预算首选
	GPT-5.4	$2.50	61.2分	高性价比旗舰
💰	Claude Opus 4.7	$15(输入)	61.3分	不差钱要最好

供应商	模型	输入($/M)	输出($/M)	缓存输入	上下文
OpenAI	GPT-5.5	$7.78/M	—	—	1.1M
OpenAI	GPT-5.4	$2.50	$15.00	—	1.0M
OpenAI	GPT-5.1	$1.50	$8.00	—	400K
OpenAI	GPT-5 nano	$0.05	—	—	—
Anthropic	Opus 4.7	$15.00	$75.00	—	200K
Anthropic	Sonnet 4.6	$3.00	$15.00	—	200K
Google	Gemini 3.1 Pro	$2.00	$10.00	—	1.0M
Google	Gemini 3 Flash	$0.50	$3.00	—	1.0M
DeepSeek	V4 Flash	$0.14	$0.55	—	128K
DeepSeek	V3	$0.27	$1.10	—	—
Moonshot	Kimi K2.6	$0.95	—	—	262K
xAI	Grok 4	$3.00	$15.00	—	131K
智谱	GLM-5	$0.50	—	—	128K
阿里	Qwen3.6 Plus	$0.78	—	—	1.0M

🥇 Gemini 3.1 Pro — 2026年5月最佳平衡点：57.9分 + $2/M输入 + 1M上下文 + 185 t/s

🥈 Kimi K2.6 — 开源模型新王：58.9分 + $0.95/M + 免费商用

🥉 DeepSeek V4 Flash — 极致性价比：0.14$/M 输入，小任务随便用

平台	URL	说明
Artificial Analysis	https://artificialanalysis.ai/models	独立客观基准，AA Index v4.0
LLM Stats	https://llm-stats.com/	300+模型实时对比
DataLearnerAI	https://www.datalearner.com/leaderboards	中文大模型排行榜
LMArena	https://lmarena.ai/	人类偏好盲测 Elo
Onyx LLM Leaderboard	https://onyx.app/llm-leaderboard	开源+闭源模型排行
Vellum	https://www.vellum.ai/llm-leaderboard	模型对比排行榜