VOL. 2026ISSUE 04Diperbarui per 2026-04-29paibao.ai / leaderboards

Leaderboard Bulanan LLM

Delapan kategori. Dua puluh empat model unggulan. Diperbarui bulanan. Dengan kutipan ramah AI.

LlmLeaderboard.archiveHeading

LlmLeaderboard.archiveSubhead

2026-06

Juni 2026

文本生成与综合推理 · Claude Fable 5
图像生成 · GPT Image 2
视频生成 · Seedance 2.0

9 LlmLeaderboard.archiveStatCategories · 31 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

2026-04

April 2026

LlmLeaderboard.archiveCurrentBadge

Pembuatan Teks & Penalaran · GPT-5.5
Teks ke Gambar · GPT Image-2
Teks ke Video · Veo 3.1

8 LlmLeaderboard.archiveStatCategories · 24 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

Text Generation & Reasoning

Pembuatan Teks & Penalaran

2026 memasuki era tiga raksasa — tidak ada model dominan tunggal, pilihan terbaik bergantung pada tugas yang dihadapi.

Previously: GPT-5.4

Pemimpin saat ini

GPT-5.5

OpenAI

4 月 23 日发布，首个全量重训基础模型。

Skor

01Terminal-Bench 2.0: 82.7%
02OSWorld-Verified: 78.7%
03GDPval: 84.9%
04ARC-AGI-2: 85.0%
05100 万 token 上下文

Runners-up

№2

Claude Opus 4.7

Anthropic

4 月 16 日发布，长上下文与代码审查最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多步推理最稳定
代码逻辑审查最细致
100 万 token 上下文

№3

Gemini 3.1 Pro

Google

预览中，数学与算法竞赛最强。

LiveCodeBench Elo: 2887
100 万 token 上下文
价格最低（$2/$12）
视频理解领先
性价比最高

~85

Tags1M Token 上下文Agentic 工作流多模态理解

Text-to-Image

Teks ke Gambar

GPT Image-2 mengambil takhta dengan akurasi rendering teks 99,2%, sementara Nano Banana 2 mempertahankan keunggulan dalam pembuatan real-time.

Previously: Nano Banana 2

Pemimpin saat ini

GPT Image-2

OpenAI

文本渲染准确率最高。

Skor

99.2%

01文本渲染准确率 99.2%
02支持中文 / 阿拉伯语
03空间逻辑与解剖正确性
04角色一致性
05Thinking Mode 推理引擎

Runners-up

№2

Nano Banana 2

Google

极速 4K 生成，实时联网搜索。

Flash 架构极速生成
4K 图像 4-15 秒
实时联网搜索集成
速度最快
与 Gemini 生态深度集成

4-15s

№3

Flux Pro

Black Forest Labs

开源生态最强。

开源可商用
社区生态丰富
风格多样性
本地部署能力

Tags4K 生成多语言文本角色一致性实时生成

Text-to-Video

Teks ke Video

Sora 2 telah keluar; Google Veo 3.1 kini memimpin kemampuan keseluruhan, sementara Seedance 2.0 dan Kling 3.0 memimpin di niche tertentu.

Previously: Sora 2

Pemimpin saat ini

Veo 3.1

Google

原生音频 + 多镜头，综合实力最强。

01原生音频生成
02多镜头叙事
03物理模拟优秀
04与 YouTube 生态集成

Runners-up

№2

Seedance 2.0

ByteDance

多镜头故事板能力最强。

多镜头故事板
镜头语言专业
国产模型代表
抖音生态集成

№3

Kling 3.0 Omni

Kuaishou

电影级画质 + 对口型最强。

电影级画质
对口型最精准
快手生态集成
中文场景优化

Tags原生音频多镜头叙事电影级画质对口型

Code Generation

Pembuatan Kode

GPT-5.5 merebut kembali kepemimpinan dalam coding agen-terminal; Claude Opus 4.7 masih menguasai refactoring multi-file dan orkestrasi tool.

Previously: Claude Opus 4.6

Pemimpin saat ini

GPT-5.5

OpenAI

Terminal-Bench 2.0 第一，Agentic 编码最强。

Skor

82.7%

01Terminal-Bench 2.0: 82.7%
02Expert-SWE: 73.1%
03自主编码判断力
04相同任务 token 更少

Runners-up

№2

Claude Opus 4.7

Anthropic

SWE-Bench Pro 第一，多文件重构最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多文件逻辑审查
代码漏洞捕获

64.3%

№3

Gemini 3.1 Pro

Google

LiveCodeBench 第一，算法竞赛最强。

LiveCodeBench Elo: 2887
1M 上下文全仓库分析
价格最低
算法竞赛最优

2887 Elo

TagsAgentic 编码多文件重构工具编排算法竞赛

Text-to-Speech

Teks ke Suara

ElevenLabs tetap menjadi tolok ukur industri untuk realisme suara dan kloning; Hume AI memimpin dalam suara emosional.

Previously: ElevenLabs v2

Pemimpin saat ini

ElevenLabs v3

ElevenLabs

行业标杆级语音真实感。

Skor

9.2/10

01真实感评分 9.2/10
0275ms 超低延迟
0329+ 语言支持
04Professional Clone 质量
05企业级 API

Runners-up

№2

Hume AI Octave

Hume AI

情感 AI 语音第一。

情感识别 9.3/10
情感回应能力
共情交互
情绪感知精准

9.3/10

№3

GPT-4o Voice

OpenAI

实时对话体验最佳。

低延迟实时对话
自然语音输出
多语言实时翻译
与 ChatGPT 深度集成

Tags超低延迟情感语音语音克隆多语言

AI Music Generation

Pembuatan Musik AI

Suno v5.5 tetap menjadi platform yang paling banyak digunakan; tool-tool berbeda dalam kecepatan, pasca-produksi, dan deployment enterprise.

Previously: Suno v5

Pemimpin saat ini

Suno v5.5

Suno

使用最广泛的 AI 音乐平台。

01最广泛用户基础
02Studio 多轨编辑
03MIDI 导出
04最快出成品歌曲

Runners-up

№2

Udio v1.5

Udio

后期编辑与分轨控制最强。

分轨下载
混音控制
调性调整
专业后期编辑

№3

Lyria 3 Pro

Google DeepMind

企业 / API 部署最佳。

Vertex AI 输出
结构化生成
版权清晰
企业级部署

Tags多轨编辑MIDI 导出分轨控制版权安全

Vision Understanding

Pemahaman Visual

GPT-4o Vision mempertahankan kepemimpinan tujuan umum; Gemini Vision memimpin dalam pemahaman video dan parsing dokumen panjang.

Pemimpin saat ini

GPT-4o Vision

OpenAI

通用视觉理解最强。

01UI 界面解析
02图表理解
03实时视觉对话
04多模态融合

Runners-up

№2

Gemini Vision

Google

视频理解与长文档第一。

百万 token 长文档
视频理解领先
多帧分析
与搜索集成

№3

Qwen-VL

Alibaba

国产视觉模型第一。

中文场景优化
开源可商用
多模态推理
本地部署

Tags实时视觉长文档解析UI 解析多语言

Open Source

Sumber Terbuka

Model open-source mengejar cepat closed-source di beberapa benchmark. Llama 4, DeepSeek V4, dan Qwen3 membentuk tier pertama.

Previously: Llama 3

Pemimpin saat ini

Llama 4

DeepSeek V4

DeepSeek

推理与代码能力全面进化的开源旗舰。

数学与推理能力显著提升
代码生成业界最强
MoE 架构高效
API 价格极低

№3

Qwen3

Alibaba

中文开源模型第一。

中文理解最强
多模态支持
Agent 能力
全尺寸覆盖

Tags多模态可商用本地部署低成本

Editorial · 06 observations

Yang berubah bulan ini

What changed across the AI model landscape this month — distilled from the data above.

Dari dominasi tunggal ke kompetisi spesialis

Pada 2026 AI bergeser dari satu model tujuan umum ke paradigma 'pilih model untuk tugas'. Setiap niche memiliki spesialisnya; routing multi-model kini menjadi arsitektur standar enterprise.

GPT-5.5 dan Claude Opus 4.7 — frontier ganda

Diluncurkan pada 16 dan 23 April 2026 secara berurutan, keduanya kini menentukan ujung tombak. GPT-5.5 menang pada coding agentik dan penggunaan terminal; Claude menang pada review kode dan refactoring.

Konteks 1M menjadi standar baru

Dari 128K ke 1M token — Gemini 3.1 Pro, Claude Opus 4.7, dan GPT-5.5 kini mendukung konteks 1M+, memungkinkan analisis repositori penuh.

Open source mengejar cepat

Llama 4, DeepSeek V4, dan Qwen3 kini menyamai closed-source di beberapa benchmark dengan 1/10 harga atau kurang.

Model Tiongkok domestik menembus global

Seedance 2.0 (video), Qwen3 (open source), Kling 3.0 (video), dan Qwen-VL (vision) semuanya masuk top tiga global di domain masing-masing.

Harga API terus turun

Harga LLM API telah turun sekitar 80% pada 2025-2026. Gemini 2.0 Flash dengan $0,10 / 1M token secara dramatis menurunkan barrier untuk aplikasi AI.

Sumber

[01]
Artificial Analysisbenchmark
2026-04-29
[02]
LMArena Leaderboardcommunity leaderboard
2026-04-29
[03]
Hugging Face Open LLM Leaderboardcommunity leaderboard
2026-04-29
[04]
OpenAI Changelogofficial changelog
2026-04-29
[05]
Anthropic Newsofficial changelog
2026-04-29
[06]
Google DeepMind Blogofficial changelog
2026-04-29