Claude Opus 4.7
Anthropic4 月 16 日发布,长上下文与代码审查最强。
- SWE-Bench Pro: 64.3%
- MCP-Atlas: 79.1%
- 多步推理最稳定
- 代码逻辑审查最细致
- 100 万 token 上下文
Ocho categorías. Veinticuatro modelos líderes. Actualizado mensualmente. Con citas amigables para IA.
LlmLeaderboard.archiveSubhead
2026 entra en la era de los tres titanes — sin un modelo dominante único, la mejor elección depende de la tarea.
Previously: GPT-5.4
4 月 23 日发布,首个全量重训基础模型。
4 月 16 日发布,长上下文与代码审查最强。
预览中,数学与算法竞赛最强。
GPT Image-2 toma el trono con 99,2% de precisión en renderizado de texto, mientras Nano Banana 2 mantiene ventaja en generación en tiempo real.
Previously: Nano Banana 2
文本渲染准确率最高。
极速 4K 生成,实时联网搜索。
开源生态最强。
Sora 2 ha salido de escena; Google Veo 3.1 ahora lidera en capacidad general, mientras Seedance 2.0 y Kling 3.0 lideran en nichos específicos.
Previously: Sora 2
原生音频 + 多镜头,综合实力最强。
多镜头故事板能力最强。
电影级画质 + 对口型最强。
GPT-5.5 recupera el liderazgo en codificación agente-terminal; Claude Opus 4.7 aún domina refactorización multi-archivo y orquestación de herramientas.
Previously: Claude Opus 4.6
Terminal-Bench 2.0 第一,Agentic 编码最强。
SWE-Bench Pro 第一,多文件重构最强。
LiveCodeBench 第一,算法竞赛最强。
ElevenLabs sigue siendo la referencia de la industria en realismo de voz y clonación; Hume AI lidera en voz emocional.
Previously: ElevenLabs v2
行业标杆级语音真实感。
情感 AI 语音第一。
实时对话体验最佳。
Suno v5.5 sigue siendo la plataforma más usada; las herramientas se diferencian en velocidad, post-producción y despliegue empresarial.
Previously: Suno v5
使用最广泛的 AI 音乐平台。
后期编辑与分轨控制最强。
企业 / API 部署最佳。
GPT-4o Vision mantiene el liderazgo de uso general; Gemini Vision lidera en comprensión de vídeo y análisis de documentos largos.
通用视觉理解最强。
视频理解与长文档第一。
国产视觉模型第一。
Los modelos open-source están alcanzando a los closed-source en varios benchmarks. Llama 4, DeepSeek V4 y Qwen3 forman la primera línea.
Previously: Llama 3
开源生态最完善。
推理与代码能力全面进化的开源旗舰。
中文开源模型第一。
What changed across the AI model landscape this month — distilled from the data above.
En 2026 la IA ha cambiado de un modelo único de propósito general al paradigma 'elige el modelo para la tarea'. Cada nicho tiene su especialista; el enrutamiento multi-modelo es ahora la arquitectura estándar empresarial.
Lanzados el 16 y 23 de abril de 2026 respectivamente, los dos definen ahora el estado del arte. GPT-5.5 gana en codificación agente y uso de terminal; Claude gana en revisión de código y refactorización.
De 128K a 1M tokens — Gemini 3.1 Pro, Claude Opus 4.7 y GPT-5.5 ahora soportan contexto de 1M+, haciendo posible el análisis de repositorio completo.
Llama 4, DeepSeek V4 y Qwen3 ahora igualan a closed-source en varios benchmarks por 1/10 del precio o menos.
Seedance 2.0 (vídeo), Qwen3 (open source), Kling 3.0 (vídeo) y Qwen-VL (visión) han entrado en el top tres global en sus respectivos dominios.
Los precios de LLM API han caído aproximadamente 80% en 2025-2026. Gemini 2.0 Flash a $0,10 / 1M tokens ha reducido drásticamente la barrera para aplicaciones de IA.