Claude Opus 4.7
Anthropic4 月 16 日发布,长上下文与代码审查最强。
- SWE-Bench Pro: 64.3%
- MCP-Atlas: 79.1%
- 多步推理最稳定
- 代码逻辑审查最细致
- 100 万 token 上下文
Oito categorias. Vinte e quatro modelos líderes. Atualizado mensalmente. Com citações amigáveis para IA.
LlmLeaderboard.archiveSubhead
2026 entra na era dos três titãs — sem modelo dominante único, a melhor escolha depende da tarefa em mãos.
Previously: GPT-5.4
4 月 23 日发布,首个全量重训基础模型。
4 月 16 日发布,长上下文与代码审查最强。
预览中,数学与算法竞赛最强。
GPT Image-2 toma o trono com 99,2% de precisão na renderização de texto, enquanto Nano Banana 2 mantém vantagem na geração em tempo real.
Previously: Nano Banana 2
文本渲染准确率最高。
极速 4K 生成,实时联网搜索。
开源生态最强。
Sora 2 saiu de cena; Google Veo 3.1 agora lidera em capacidade geral, enquanto Seedance 2.0 e Kling 3.0 lideram em nichos específicos.
Previously: Sora 2
原生音频 + 多镜头,综合实力最强。
多镜头故事板能力最强。
电影级画质 + 对口型最强。
GPT-5.5 retoma a liderança em codificação agente-terminal; Claude Opus 4.7 ainda domina refatoração multi-arquivo e orquestração de ferramentas.
Previously: Claude Opus 4.6
Terminal-Bench 2.0 第一,Agentic 编码最强。
SWE-Bench Pro 第一,多文件重构最强。
LiveCodeBench 第一,算法竞赛最强。
ElevenLabs continua sendo a referência da indústria em realismo de voz e clonagem; Hume AI lidera em voz emocional.
Previously: ElevenLabs v2
行业标杆级语音真实感。
情感 AI 语音第一。
实时对话体验最佳。
Suno v5.5 continua sendo a plataforma mais usada; ferramentas se diferenciam em velocidade, pós-produção e implantação empresarial.
Previously: Suno v5
使用最广泛的 AI 音乐平台。
后期编辑与分轨控制最强。
企业 / API 部署最佳。
GPT-4o Vision mantém a liderança em uso geral; Gemini Vision lidera em compreensão de vídeo e análise de documentos longos.
通用视觉理解最强。
视频理解与长文档第一。
国产视觉模型第一。
Modelos open-source estão alcançando os closed-source em vários benchmarks. Llama 4, DeepSeek V4 e Qwen3 formam o primeiro escalão.
Previously: Llama 3
开源生态最完善。
推理与代码能力全面进化的开源旗舰。
中文开源模型第一。
What changed across the AI model landscape this month — distilled from the data above.
Em 2026 a IA mudou de um modelo geral único para um paradigma 'escolha o modelo para a tarefa'. Cada nicho tem seu especialista; roteamento multi-modelo é agora a arquitetura padrão empresarial.
Lançados em 16 e 23 de abril de 2026 respectivamente, os dois agora definem o estado da arte. GPT-5.5 vence em codificação agente e uso de terminal; Claude vence em revisão de código e refatoração.
De 128K para 1M tokens — Gemini 3.1 Pro, Claude Opus 4.7 e GPT-5.5 agora suportam contexto de 1M+, tornando análise de repositório completo possível.
Llama 4, DeepSeek V4 e Qwen3 agora igualam closed-source em vários benchmarks por 1/10 do preço ou menos.
Seedance 2.0 (vídeo), Qwen3 (open source), Kling 3.0 (vídeo) e Qwen-VL (visão) entraram no top três global em seus respectivos domínios.
Preços de LLM API caíram aproximadamente 80% em 2025-2026. Gemini 2.0 Flash a $0,10 / 1M tokens reduziu drasticamente a barreira para aplicações de IA.