VOL. 2026ISSUE 042026-04-29 tarihinde güncellendipaibao.ai / leaderboards

Aylık LLM Sıralaması

Sekiz kategori. Yirmi dört önde gelen model. Aylık güncellenir. AI dostu alıntılar dahildir.

LlmLeaderboard.archiveHeading

LlmLeaderboard.archiveSubhead

2026-06

Haziran 2026

文本生成与综合推理 · Claude Fable 5
图像生成 · GPT Image 2
视频生成 · Seedance 2.0

9 LlmLeaderboard.archiveStatCategories · 31 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

2026-04

Nisan 2026

LlmLeaderboard.archiveCurrentBadge

Metin Üretimi ve Akıl Yürütme · GPT-5.5
Metinden Görüntüye · GPT Image-2
Metinden Videoya · Veo 3.1

8 LlmLeaderboard.archiveStatCategories · 24 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

Text Generation & Reasoning

Metin Üretimi ve Akıl Yürütme

2026, üç dev modelin çağına giriyor — tek baskın model yok, en iyi seçim göreve bağlı.

Previously: GPT-5.4

Mevcut lider

GPT-5.5

OpenAI

4 月 23 日发布，首个全量重训基础模型。

Puan

01Terminal-Bench 2.0: 82.7%
02OSWorld-Verified: 78.7%
03GDPval: 84.9%
04ARC-AGI-2: 85.0%
05100 万 token 上下文

Runners-up

№2

Claude Opus 4.7

Anthropic

4 月 16 日发布，长上下文与代码审查最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多步推理最稳定
代码逻辑审查最细致
100 万 token 上下文

№3

Gemini 3.1 Pro

Google

预览中，数学与算法竞赛最强。

LiveCodeBench Elo: 2887
100 万 token 上下文
价格最低（$2/$12）
视频理解领先
性价比最高

~85

Tags1M Token 上下文Agentic 工作流多模态理解

Text-to-Image

Metinden Görüntüye

GPT Image-2, %99,2 metin renderleme doğruluğuyla tahta çıkıyor; Nano Banana 2 ise gerçek zamanlı üretimde öne çıkıyor.

Previously: Nano Banana 2

Mevcut lider

GPT Image-2

OpenAI

文本渲染准确率最高。

Puan

99.2%

01文本渲染准确率 99.2%
02支持中文 / 阿拉伯语
03空间逻辑与解剖正确性
04角色一致性
05Thinking Mode 推理引擎

Runners-up

№2

Nano Banana 2

Google

极速 4K 生成，实时联网搜索。

Flash 架构极速生成
4K 图像 4-15 秒
实时联网搜索集成
速度最快
与 Gemini 生态深度集成

4-15s

№3

Flux Pro

Black Forest Labs

开源生态最强。

开源可商用
社区生态丰富
风格多样性
本地部署能力

Tags4K 生成多语言文本角色一致性实时生成

Text-to-Video

Metinden Videoya

Sora 2 yarıştan çekildi; Google Veo 3.1 artık genel yetenekte liderlik ederken, Seedance 2.0 ve Kling 3.0 belirli nişlerde lider.

Previously: Sora 2

Mevcut lider

Veo 3.1

Google

原生音频 + 多镜头，综合实力最强。

01原生音频生成
02多镜头叙事
03物理模拟优秀
04与 YouTube 生态集成

Runners-up

№2

Seedance 2.0

ByteDance

多镜头故事板能力最强。

多镜头故事板
镜头语言专业
国产模型代表
抖音生态集成

№3

Kling 3.0 Omni

Kuaishou

电影级画质 + 对口型最强。

电影级画质
对口型最精准
快手生态集成
中文场景优化

Tags原生音频多镜头叙事电影级画质对口型

Code Generation

Kod Üretimi

GPT-5.5, terminal-ajan kodlamada liderliği geri alıyor; Claude Opus 4.7 hâlâ çok dosyalı refaktörleme ve araç orkestrasyonunda hâkim.

Previously: Claude Opus 4.6

Mevcut lider

GPT-5.5

OpenAI

Terminal-Bench 2.0 第一，Agentic 编码最强。

Puan

82.7%

01Terminal-Bench 2.0: 82.7%
02Expert-SWE: 73.1%
03自主编码判断力
04相同任务 token 更少

Runners-up

№2

Claude Opus 4.7

Anthropic

SWE-Bench Pro 第一，多文件重构最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多文件逻辑审查
代码漏洞捕获

64.3%

№3

Gemini 3.1 Pro

Google

LiveCodeBench 第一，算法竞赛最强。

LiveCodeBench Elo: 2887
1M 上下文全仓库分析
价格最低
算法竞赛最优

2887 Elo

TagsAgentic 编码多文件重构工具编排算法竞赛

Text-to-Speech

Metinden Konuşmaya

ElevenLabs, ses gerçekçiliği ve klonlamada endüstri referansı olmayı sürdürüyor; Hume AI duygusal seste lider.

Previously: ElevenLabs v2

Mevcut lider

ElevenLabs v3

ElevenLabs

行业标杆级语音真实感。

Puan

9.2/10

01真实感评分 9.2/10
0275ms 超低延迟
0329+ 语言支持
04Professional Clone 质量
05企业级 API

Runners-up

№2

Hume AI Octave

Hume AI

情感 AI 语音第一。

情感识别 9.3/10
情感回应能力
共情交互
情绪感知精准

9.3/10

№3

GPT-4o Voice

OpenAI

实时对话体验最佳。

低延迟实时对话
自然语音输出
多语言实时翻译
与 ChatGPT 深度集成

Tags超低延迟情感语音语音克隆多语言

AI Music Generation

AI Müzik Üretimi

Suno v5.5, en yaygın kullanılan platform olmayı sürdürüyor; araçlar hız, post-prodüksiyon ve kurumsal dağıtımda farklılaşıyor.

Previously: Suno v5

Mevcut lider

Suno v5.5

Suno

使用最广泛的 AI 音乐平台。

01最广泛用户基础
02Studio 多轨编辑
03MIDI 导出
04最快出成品歌曲

Runners-up

№2

Udio v1.5

Udio

后期编辑与分轨控制最强。

分轨下载
混音控制
调性调整
专业后期编辑

№3

Lyria 3 Pro

Google DeepMind

企业 / API 部署最佳。

Vertex AI 输出
结构化生成
版权清晰
企业级部署

Tags多轨编辑MIDI 导出分轨控制版权安全

Vision Understanding

Görsel Anlama

GPT-4o Vision genel amaçlı liderliğini sürdürüyor; Gemini Vision video anlama ve uzun belge ayrıştırmada lider.

Mevcut lider

GPT-4o Vision

OpenAI

通用视觉理解最强。

01UI 界面解析
02图表理解
03实时视觉对话
04多模态融合

Runners-up

№2

Gemini Vision

Google

视频理解与长文档第一。

百万 token 长文档
视频理解领先
多帧分析
与搜索集成

№3

Qwen-VL

Alibaba

国产视觉模型第一。

中文场景优化
开源可商用
多模态推理
本地部署

Tags实时视觉长文档解析UI 解析多语言

Open Source

Açık Kaynak

Açık kaynak modeller, kapalı kaynak modellere birkaç kıyaslamada hızla yetişiyor. Llama 4, DeepSeek V4 ve Qwen3 ilk kademeyi oluşturuyor.

Previously: Llama 3

Mevcut lider

Llama 4

DeepSeek V4

DeepSeek

推理与代码能力全面进化的开源旗舰。

数学与推理能力显著提升
代码生成业界最强
MoE 架构高效
API 价格极低

№3

Qwen3

Alibaba

中文开源模型第一。

中文理解最强
多模态支持
Agent 能力
全尺寸覆盖

Tags多模态可商用本地部署低成本

Editorial · 06 observations

Bu ay ne değişti

What changed across the AI model landscape this month — distilled from the data above.

Tek hâkimiyetten uzman rekabetine

2026'da AI, tek genel amaçlı modelden 'göreve göre model seç' paradigmasına geçti. Her niş kendi uzmanına sahip; çoklu-model yönlendirme artık kurumsal standart mimari.

GPT-5.5 ve Claude Opus 4.7 — ikili sınır

16 ve 23 Nisan 2026'da sırasıyla yayınlanan ikisi şimdi en üst düzeyi tanımlıyor. GPT-5.5 ajantik kodlama ve terminal kullanımında kazanıyor; Claude kod incelemesi ve refaktöringde kazanıyor.

1M bağlam yeni standart oluyor

128K'dan 1M token'a — Gemini 3.1 Pro, Claude Opus 4.7 ve GPT-5.5 artık 1M+ bağlam destekliyor, tüm-repo analizini mümkün kılıyor.

Açık kaynak hızla yetişiyor

Llama 4, DeepSeek V4 ve Qwen3 artık fiyatın 1/10'una veya daha azına birkaç kıyaslamada kapalı kaynakla eşleşiyor.

Yerli Çin modelleri küresel atılım yapıyor

Seedance 2.0 (video), Qwen3 (açık kaynak), Kling 3.0 (video) ve Qwen-VL (görsel) hepsi kendi alanlarında küresel ilk üçe girdi.

API fiyatları düşmeye devam ediyor

LLM API fiyatları 2025-2026'da yaklaşık %80 düştü. Gemini 2.0 Flash $0,10 / 1M token ile AI uygulamalarına engeli dramatik şekilde düşürdü.

Kaynaklar

[01]
Artificial Analysisbenchmark
2026-04-29
[02]
LMArena Leaderboardcommunity leaderboard
2026-04-29
[03]
Hugging Face Open LLM Leaderboardcommunity leaderboard
2026-04-29
[04]
OpenAI Changelogofficial changelog
2026-04-29
[05]
Anthropic Newsofficial changelog
2026-04-29
[06]
Google DeepMind Blogofficial changelog
2026-04-29