VOL. 2026ISSUE 04Mis à jour le 2026-04-29paibao.ai / leaderboards

Classement mensuel des LLM

Huit catégories. Vingt-quatre modèles leaders. Mis à jour mensuellement. Avec des citations adaptées à l'IA.

LlmLeaderboard.archiveHeading

LlmLeaderboard.archiveSubhead

2026-06

juin 2026

文本生成与综合推理 · Claude Fable 5
图像生成 · GPT Image 2
视频生成 · Seedance 2.0

9 LlmLeaderboard.archiveStatCategories · 31 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

2026-04

avril 2026

LlmLeaderboard.archiveCurrentBadge

Génération de Texte et Raisonnement · GPT-5.5
Texte vers Image · GPT Image-2
Texte vers Vidéo · Veo 3.1

8 LlmLeaderboard.archiveStatCategories · 24 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

Text Generation & Reasoning

Génération de Texte et Raisonnement

2026 entre dans l'ère des trois titans — pas de modèle dominant unique, le meilleur choix dépend de la tâche.

Previously: GPT-5.4

Leader actuel

GPT-5.5

OpenAI

4 月 23 日发布，首个全量重训基础模型。

Score

01Terminal-Bench 2.0: 82.7%
02OSWorld-Verified: 78.7%
03GDPval: 84.9%
04ARC-AGI-2: 85.0%
05100 万 token 上下文

Runners-up

№2

Claude Opus 4.7

Anthropic

4 月 16 日发布，长上下文与代码审查最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多步推理最稳定
代码逻辑审查最细致
100 万 token 上下文

№3

Gemini 3.1 Pro

Google

预览中，数学与算法竞赛最强。

LiveCodeBench Elo: 2887
100 万 token 上下文
价格最低（$2/$12）
视频理解领先
性价比最高

~85

Tags1M Token 上下文Agentic 工作流多模态理解

Text-to-Image

Texte vers Image

GPT Image-2 prend le trône avec 99,2 % de précision de rendu de texte, tandis que Nano Banana 2 garde un avantage en génération temps réel.

Previously: Nano Banana 2

Leader actuel

GPT Image-2

OpenAI

文本渲染准确率最高。

Score

99.2%

01文本渲染准确率 99.2%
02支持中文 / 阿拉伯语
03空间逻辑与解剖正确性
04角色一致性
05Thinking Mode 推理引擎

Runners-up

№2

Nano Banana 2

Google

极速 4K 生成，实时联网搜索。

Flash 架构极速生成
4K 图像 4-15 秒
实时联网搜索集成
速度最快
与 Gemini 生态深度集成

4-15s

№3

Flux Pro

Black Forest Labs

开源生态最强。

开源可商用
社区生态丰富
风格多样性
本地部署能力

Tags4K 生成多语言文本角色一致性实时生成

Text-to-Video

Texte vers Vidéo

Sora 2 est sorti de la course ; Google Veo 3.1 mène désormais en capacité globale, tandis que Seedance 2.0 et Kling 3.0 dominent dans des niches spécifiques.

Previously: Sora 2

Leader actuel

Veo 3.1

Google

原生音频 + 多镜头，综合实力最强。

01原生音频生成
02多镜头叙事
03物理模拟优秀
04与 YouTube 生态集成

Runners-up

№2

Seedance 2.0

ByteDance

多镜头故事板能力最强。

多镜头故事板
镜头语言专业
国产模型代表
抖音生态集成

№3

Kling 3.0 Omni

Kuaishou

电影级画质 + 对口型最强。

电影级画质
对口型最精准
快手生态集成
中文场景优化

Tags原生音频多镜头叙事电影级画质对口型

Code Generation

Génération de Code

GPT-5.5 reprend la tête en codage agent-terminal ; Claude Opus 4.7 garde le refactoring multi-fichiers et l'orchestration d'outils.

Previously: Claude Opus 4.6

Leader actuel

GPT-5.5

OpenAI

Terminal-Bench 2.0 第一，Agentic 编码最强。

Score

82.7%

01Terminal-Bench 2.0: 82.7%
02Expert-SWE: 73.1%
03自主编码判断力
04相同任务 token 更少

Runners-up

№2

Claude Opus 4.7

Anthropic

SWE-Bench Pro 第一，多文件重构最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多文件逻辑审查
代码漏洞捕获

64.3%

№3

Gemini 3.1 Pro

Google

LiveCodeBench 第一，算法竞赛最强。

LiveCodeBench Elo: 2887
1M 上下文全仓库分析
价格最低
算法竞赛最优

2887 Elo

TagsAgentic 编码多文件重构工具编排算法竞赛

Text-to-Speech

Synthèse Vocale

ElevenLabs reste la référence industrielle pour le réalisme vocal et le clonage ; Hume AI mène en voix émotionnelle.

Previously: ElevenLabs v2

Leader actuel

ElevenLabs v3

ElevenLabs

行业标杆级语音真实感。

Score

9.2/10

01真实感评分 9.2/10
0275ms 超低延迟
0329+ 语言支持
04Professional Clone 质量
05企业级 API

Runners-up

№2

Hume AI Octave

Hume AI

情感 AI 语音第一。

情感识别 9.3/10
情感回应能力
共情交互
情绪感知精准

9.3/10

№3

GPT-4o Voice

OpenAI

实时对话体验最佳。

低延迟实时对话
自然语音输出
多语言实时翻译
与 ChatGPT 深度集成

Tags超低延迟情感语音语音克隆多语言

AI Music Generation

Génération Musicale par IA

Suno v5.5 reste la plateforme la plus utilisée ; les outils se différencient sur la vitesse, la post-production et le déploiement entreprise.

Previously: Suno v5

Leader actuel

Suno v5.5

Suno

使用最广泛的 AI 音乐平台。

01最广泛用户基础
02Studio 多轨编辑
03MIDI 导出
04最快出成品歌曲

Runners-up

№2

Udio v1.5

Udio

后期编辑与分轨控制最强。

分轨下载
混音控制
调性调整
专业后期编辑

№3

Lyria 3 Pro

Google DeepMind

企业 / API 部署最佳。

Vertex AI 输出
结构化生成
版权清晰
企业级部署

Tags多轨编辑MIDI 导出分轨控制版权安全

Vision Understanding

Compréhension Visuelle

GPT-4o Vision garde la tête en usage général ; Gemini Vision domine en compréhension vidéo et analyse de documents longs.

Leader actuel

GPT-4o Vision

OpenAI

通用视觉理解最强。

01UI 界面解析
02图表理解
03实时视觉对话
04多模态融合

Runners-up

№2

Gemini Vision

Google

视频理解与长文档第一。

百万 token 长文档
视频理解领先
多帧分析
与搜索集成

№3

Qwen-VL

Alibaba

国产视觉模型第一。

中文场景优化
开源可商用
多模态推理
本地部署

Tags实时视觉长文档解析UI 解析多语言

Open Source

Les modèles open-source rattrapent rapidement les closed-source sur plusieurs benchmarks. Llama 4, DeepSeek V4 et Qwen3 forment le premier rang.

Previously: Llama 3

Leader actuel

Llama 4

DeepSeek V4

DeepSeek

推理与代码能力全面进化的开源旗舰。

数学与推理能力显著提升
代码生成业界最强
MoE 架构高效
API 价格极低

№3

Qwen3

Alibaba

中文开源模型第一。

中文理解最强
多模态支持
Agent 能力
全尺寸覆盖

Tags多模态可商用本地部署低成本

Editorial · 06 observations

Ce qui a changé ce mois-ci

What changed across the AI model landscape this month — distilled from the data above.

De la dominance unique à la compétition de spécialistes

En 2026 l'IA est passée d'un modèle unique généraliste à un paradigme 'choisir le modèle pour la tâche'. Chaque niche a son spécialiste ; le routage multi-modèle est désormais l'architecture standard en entreprise.

GPT-5.5 et Claude Opus 4.7 — la double frontière

Sortis respectivement les 16 et 23 avril 2026, les deux définissent désormais l'état de l'art. GPT-5.5 gagne en codage agentique et usage du terminal ; Claude gagne en revue de code et refactoring.

Le contexte de 1M devient le nouveau standard

De 128K à 1M tokens — Gemini 3.1 Pro, Claude Opus 4.7 et GPT-5.5 supportent désormais un contexte de 1M+, rendant l'analyse de dépôt complet possible.

L'open source rattrape vite

Llama 4, DeepSeek V4 et Qwen3 égalent désormais closed-source sur plusieurs benchmarks à 1/10 du prix ou moins.

Les modèles chinois domestiques percent mondialement

Seedance 2.0 (vidéo), Qwen3 (open source), Kling 3.0 (vidéo) et Qwen-VL (vision) sont tous entrés dans le top trois mondial dans leurs domaines respectifs.

Les prix API continuent de baisser

Les prix LLM API ont baissé d'environ 80 % en 2025-2026. Gemini 2.0 Flash à $0,10 / 1M tokens a considérablement abaissé la barrière aux applications IA.

Sources

[01]
Artificial Analysisbenchmark
2026-04-29
[02]
LMArena Leaderboardcommunity leaderboard
2026-04-29
[03]
Hugging Face Open LLM Leaderboardcommunity leaderboard
2026-04-29
[04]
OpenAI Changelogofficial changelog
2026-04-29
[05]
Anthropic Newsofficial changelog
2026-04-29
[06]
Google DeepMind Blogofficial changelog
2026-04-29