Claude Opus 4.7
Anthropic4 月 16 日发布,长上下文与代码审查最强。
- SWE-Bench Pro: 64.3%
- MCP-Atlas: 79.1%
- 多步推理最稳定
- 代码逻辑审查最细致
- 100 万 token 上下文
Huit catégories. Vingt-quatre modèles leaders. Mis à jour mensuellement. Avec des citations adaptées à l'IA.
LlmLeaderboard.archiveSubhead
2026 entre dans l'ère des trois titans — pas de modèle dominant unique, le meilleur choix dépend de la tâche.
Previously: GPT-5.4
4 月 23 日发布,首个全量重训基础模型。
4 月 16 日发布,长上下文与代码审查最强。
预览中,数学与算法竞赛最强。
GPT Image-2 prend le trône avec 99,2 % de précision de rendu de texte, tandis que Nano Banana 2 garde un avantage en génération temps réel.
Previously: Nano Banana 2
文本渲染准确率最高。
极速 4K 生成,实时联网搜索。
开源生态最强。
Sora 2 est sorti de la course ; Google Veo 3.1 mène désormais en capacité globale, tandis que Seedance 2.0 et Kling 3.0 dominent dans des niches spécifiques.
Previously: Sora 2
原生音频 + 多镜头,综合实力最强。
多镜头故事板能力最强。
电影级画质 + 对口型最强。
GPT-5.5 reprend la tête en codage agent-terminal ; Claude Opus 4.7 garde le refactoring multi-fichiers et l'orchestration d'outils.
Previously: Claude Opus 4.6
Terminal-Bench 2.0 第一,Agentic 编码最强。
SWE-Bench Pro 第一,多文件重构最强。
LiveCodeBench 第一,算法竞赛最强。
ElevenLabs reste la référence industrielle pour le réalisme vocal et le clonage ; Hume AI mène en voix émotionnelle.
Previously: ElevenLabs v2
行业标杆级语音真实感。
情感 AI 语音第一。
实时对话体验最佳。
Suno v5.5 reste la plateforme la plus utilisée ; les outils se différencient sur la vitesse, la post-production et le déploiement entreprise.
Previously: Suno v5
使用最广泛的 AI 音乐平台。
后期编辑与分轨控制最强。
企业 / API 部署最佳。
GPT-4o Vision garde la tête en usage général ; Gemini Vision domine en compréhension vidéo et analyse de documents longs.
通用视觉理解最强。
视频理解与长文档第一。
国产视觉模型第一。
Les modèles open-source rattrapent rapidement les closed-source sur plusieurs benchmarks. Llama 4, DeepSeek V4 et Qwen3 forment le premier rang.
Previously: Llama 3
开源生态最完善。
推理与代码能力全面进化的开源旗舰。
中文开源模型第一。
What changed across the AI model landscape this month — distilled from the data above.
En 2026 l'IA est passée d'un modèle unique généraliste à un paradigme 'choisir le modèle pour la tâche'. Chaque niche a son spécialiste ; le routage multi-modèle est désormais l'architecture standard en entreprise.
Sortis respectivement les 16 et 23 avril 2026, les deux définissent désormais l'état de l'art. GPT-5.5 gagne en codage agentique et usage du terminal ; Claude gagne en revue de code et refactoring.
De 128K à 1M tokens — Gemini 3.1 Pro, Claude Opus 4.7 et GPT-5.5 supportent désormais un contexte de 1M+, rendant l'analyse de dépôt complet possible.
Llama 4, DeepSeek V4 et Qwen3 égalent désormais closed-source sur plusieurs benchmarks à 1/10 du prix ou moins.
Seedance 2.0 (vidéo), Qwen3 (open source), Kling 3.0 (vidéo) et Qwen-VL (vision) sont tous entrés dans le top trois mondial dans leurs domaines respectifs.
Les prix LLM API ont baissé d'environ 80 % en 2025-2026. Gemini 2.0 Flash à $0,10 / 1M tokens a considérablement abaissé la barrière aux applications IA.