VOL. 2026ISSUE 04Actualizado el 2026-04-29paibao.ai / leaderboards

Leaderboard Mensual de LLMs

Ocho categorías. Veinticuatro modelos líderes. Actualizado mensualmente. Con citas amigables para IA.

LlmLeaderboard.archiveHeading

LlmLeaderboard.archiveSubhead

2026-06

junio de 2026

文本生成与综合推理 · Claude Fable 5
图像生成 · GPT Image 2
视频生成 · Seedance 2.0

9 LlmLeaderboard.archiveStatCategories · 31 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

2026-04

abril de 2026

LlmLeaderboard.archiveCurrentBadge

Generación de Texto y Razonamiento · GPT-5.5
Texto a Imagen · GPT Image-2
Texto a Vídeo · Veo 3.1

8 LlmLeaderboard.archiveStatCategories · 24 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

Text Generation & Reasoning

Generación de Texto y Razonamiento

2026 entra en la era de los tres titanes — sin un modelo dominante único, la mejor elección depende de la tarea.

Previously: GPT-5.4

Líder actual

GPT-5.5

OpenAI

4 月 23 日发布，首个全量重训基础模型。

Puntuación

01Terminal-Bench 2.0: 82.7%
02OSWorld-Verified: 78.7%
03GDPval: 84.9%
04ARC-AGI-2: 85.0%
05100 万 token 上下文

Runners-up

№2

Claude Opus 4.7

Anthropic

4 月 16 日发布，长上下文与代码审查最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多步推理最稳定
代码逻辑审查最细致
100 万 token 上下文

№3

Gemini 3.1 Pro

Google

预览中，数学与算法竞赛最强。

LiveCodeBench Elo: 2887
100 万 token 上下文
价格最低（$2/$12）
视频理解领先
性价比最高

~85

Tags1M Token 上下文Agentic 工作流多模态理解

Text-to-Image

Texto a Imagen

GPT Image-2 toma el trono con 99,2% de precisión en renderizado de texto, mientras Nano Banana 2 mantiene ventaja en generación en tiempo real.

Previously: Nano Banana 2

Líder actual

GPT Image-2

OpenAI

文本渲染准确率最高。

Puntuación

99.2%

01文本渲染准确率 99.2%
02支持中文 / 阿拉伯语
03空间逻辑与解剖正确性
04角色一致性
05Thinking Mode 推理引擎

Runners-up

№2

Nano Banana 2

Google

极速 4K 生成，实时联网搜索。

Flash 架构极速生成
4K 图像 4-15 秒
实时联网搜索集成
速度最快
与 Gemini 生态深度集成

4-15s

№3

Flux Pro

Black Forest Labs

开源生态最强。

开源可商用
社区生态丰富
风格多样性
本地部署能力

Tags4K 生成多语言文本角色一致性实时生成

Text-to-Video

Texto a Vídeo

Sora 2 ha salido de escena; Google Veo 3.1 ahora lidera en capacidad general, mientras Seedance 2.0 y Kling 3.0 lideran en nichos específicos.

Previously: Sora 2

Líder actual

Veo 3.1

Google

原生音频 + 多镜头，综合实力最强。

01原生音频生成
02多镜头叙事
03物理模拟优秀
04与 YouTube 生态集成

Runners-up

№2

Seedance 2.0

ByteDance

多镜头故事板能力最强。

多镜头故事板
镜头语言专业
国产模型代表
抖音生态集成

№3

Kling 3.0 Omni

Kuaishou

电影级画质 + 对口型最强。

电影级画质
对口型最精准
快手生态集成
中文场景优化

Tags原生音频多镜头叙事电影级画质对口型

Code Generation

Generación de Código

GPT-5.5 recupera el liderazgo en codificación agente-terminal; Claude Opus 4.7 aún domina refactorización multi-archivo y orquestación de herramientas.

Previously: Claude Opus 4.6

Líder actual

GPT-5.5

OpenAI

Terminal-Bench 2.0 第一，Agentic 编码最强。

Puntuación

82.7%

01Terminal-Bench 2.0: 82.7%
02Expert-SWE: 73.1%
03自主编码判断力
04相同任务 token 更少

Runners-up

№2

Claude Opus 4.7

Anthropic

SWE-Bench Pro 第一，多文件重构最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多文件逻辑审查
代码漏洞捕获

64.3%

№3

Gemini 3.1 Pro

Google

LiveCodeBench 第一，算法竞赛最强。

LiveCodeBench Elo: 2887
1M 上下文全仓库分析
价格最低
算法竞赛最优

2887 Elo

TagsAgentic 编码多文件重构工具编排算法竞赛

Text-to-Speech

Texto a Voz

ElevenLabs sigue siendo la referencia de la industria en realismo de voz y clonación; Hume AI lidera en voz emocional.

Previously: ElevenLabs v2

Líder actual

ElevenLabs v3

ElevenLabs

行业标杆级语音真实感。

Puntuación

9.2/10

01真实感评分 9.2/10
0275ms 超低延迟
0329+ 语言支持
04Professional Clone 质量
05企业级 API

Runners-up

№2

Hume AI Octave

Hume AI

情感 AI 语音第一。

情感识别 9.3/10
情感回应能力
共情交互
情绪感知精准

9.3/10

№3

GPT-4o Voice

OpenAI

实时对话体验最佳。

低延迟实时对话
自然语音输出
多语言实时翻译
与 ChatGPT 深度集成

Tags超低延迟情感语音语音克隆多语言

AI Music Generation

Generación de Música con IA

Suno v5.5 sigue siendo la plataforma más usada; las herramientas se diferencian en velocidad, post-producción y despliegue empresarial.

Previously: Suno v5

Líder actual

Suno v5.5

Suno

使用最广泛的 AI 音乐平台。

01最广泛用户基础
02Studio 多轨编辑
03MIDI 导出
04最快出成品歌曲

Runners-up

№2

Udio v1.5

Udio

后期编辑与分轨控制最强。

分轨下载
混音控制
调性调整
专业后期编辑

№3

Lyria 3 Pro

Google DeepMind

企业 / API 部署最佳。

Vertex AI 输出
结构化生成
版权清晰
企业级部署

Tags多轨编辑MIDI 导出分轨控制版权安全

Vision Understanding

Comprensión Visual

GPT-4o Vision mantiene el liderazgo de uso general; Gemini Vision lidera en comprensión de vídeo y análisis de documentos largos.

Líder actual

GPT-4o Vision

OpenAI

通用视觉理解最强。

01UI 界面解析
02图表理解
03实时视觉对话
04多模态融合

Runners-up

№2

Gemini Vision

Google

视频理解与长文档第一。

百万 token 长文档
视频理解领先
多帧分析
与搜索集成

№3

Qwen-VL

Alibaba

国产视觉模型第一。

中文场景优化
开源可商用
多模态推理
本地部署

Tags实时视觉长文档解析UI 解析多语言

Open Source

Código Abierto

Los modelos open-source están alcanzando a los closed-source en varios benchmarks. Llama 4, DeepSeek V4 y Qwen3 forman la primera línea.

Previously: Llama 3

Líder actual

Llama 4

DeepSeek V4

DeepSeek

推理与代码能力全面进化的开源旗舰。

数学与推理能力显著提升
代码生成业界最强
MoE 架构高效
API 价格极低

№3

Qwen3

Alibaba

中文开源模型第一。

中文理解最强
多模态支持
Agent 能力
全尺寸覆盖

Tags多模态可商用本地部署低成本

Editorial · 06 observations

Qué cambió este mes

What changed across the AI model landscape this month — distilled from the data above.

Del dominio único a la competición de especialistas

En 2026 la IA ha cambiado de un modelo único de propósito general al paradigma 'elige el modelo para la tarea'. Cada nicho tiene su especialista; el enrutamiento multi-modelo es ahora la arquitectura estándar empresarial.

GPT-5.5 y Claude Opus 4.7 — la frontera dual

Lanzados el 16 y 23 de abril de 2026 respectivamente, los dos definen ahora el estado del arte. GPT-5.5 gana en codificación agente y uso de terminal; Claude gana en revisión de código y refactorización.

El contexto de 1M se convierte en el nuevo estándar

De 128K a 1M tokens — Gemini 3.1 Pro, Claude Opus 4.7 y GPT-5.5 ahora soportan contexto de 1M+, haciendo posible el análisis de repositorio completo.

Open source alcanza rápidamente

Llama 4, DeepSeek V4 y Qwen3 ahora igualan a closed-source en varios benchmarks por 1/10 del precio o menos.

Los modelos chinos domésticos rompen globalmente

Seedance 2.0 (vídeo), Qwen3 (open source), Kling 3.0 (vídeo) y Qwen-VL (visión) han entrado en el top tres global en sus respectivos dominios.

Los precios de API siguen cayendo

Los precios de LLM API han caído aproximadamente 80% en 2025-2026. Gemini 2.0 Flash a $0,10 / 1M tokens ha reducido drásticamente la barrera para aplicaciones de IA.

Fuentes

[01]
Artificial Analysisbenchmark
2026-04-29
[02]
LMArena Leaderboardcommunity leaderboard
2026-04-29
[03]
Hugging Face Open LLM Leaderboardcommunity leaderboard
2026-04-29
[04]
OpenAI Changelogofficial changelog
2026-04-29
[05]
Anthropic Newsofficial changelog
2026-04-29
[06]
Google DeepMind Blogofficial changelog
2026-04-29