VOL. 2026ISSUE 04محدّث حتى 2026-04-29paibao.ai / leaderboards

لوحة المتصدرين الشهرية لنماذج LLM

ثماني فئات. أربعة وعشرون نموذجًا رائدًا. تحديث شهري. مع اقتباسات صديقة للذكاء الاصطناعي.

LlmLeaderboard.archiveHeading

LlmLeaderboard.archiveSubhead

2026-06

يونيو 2026

文本生成与综合推理 · Claude Fable 5
图像生成 · GPT Image 2
视频生成 · Seedance 2.0

9 LlmLeaderboard.archiveStatCategories · 31 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

2026-04

أبريل 2026

LlmLeaderboard.archiveCurrentBadge

توليد النص والاستدلال · GPT-5.5
تحويل النص إلى صورة · GPT Image-2
تحويل النص إلى فيديو · Veo 3.1

8 LlmLeaderboard.archiveStatCategories · 24 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

Text Generation & Reasoning

توليد النص والاستدلال

يدخل 2026 عصر الثلاثة الكبار — لا نموذج مهيمن واحد، الاختيار الأفضل يعتمد على المهمة المطروحة.

Previously: GPT-5.4

المتصدر الحالي

GPT-5.5

OpenAI

4 月 23 日发布，首个全量重训基础模型。

الدرجة

01Terminal-Bench 2.0: 82.7%
02OSWorld-Verified: 78.7%
03GDPval: 84.9%
04ARC-AGI-2: 85.0%
05100 万 token 上下文

Runners-up

№2

Claude Opus 4.7

Anthropic

4 月 16 日发布，长上下文与代码审查最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多步推理最稳定
代码逻辑审查最细致
100 万 token 上下文

№3

Gemini 3.1 Pro

Google

预览中，数学与算法竞赛最强。

LiveCodeBench Elo: 2887
100 万 token 上下文
价格最低（$2/$12）
视频理解领先
性价比最高

~85

Tags1M Token 上下文Agentic 工作流多模态理解

Text-to-Image

تحويل النص إلى صورة

يستحوذ GPT Image-2 على العرش بدقة عرض نص 99.2%، بينما يحتفظ Nano Banana 2 بميزة في التوليد الفوري.

Previously: Nano Banana 2

المتصدر الحالي

GPT Image-2

OpenAI

文本渲染准确率最高。

الدرجة

99.2%

01文本渲染准确率 99.2%
02支持中文 / 阿拉伯语
03空间逻辑与解剖正确性
04角色一致性
05Thinking Mode 推理引擎

Runners-up

№2

Nano Banana 2

Google

极速 4K 生成，实时联网搜索。

Flash 架构极速生成
4K 图像 4-15 秒
实时联网搜索集成
速度最快
与 Gemini 生态深度集成

4-15s

№3

Flux Pro

Black Forest Labs

开源生态最强。

开源可商用
社区生态丰富
风格多样性
本地部署能力

Tags4K 生成多语言文本角色一致性实时生成

Text-to-Video

تحويل النص إلى فيديو

خرج Sora 2 من المنافسة؛ يقود Google Veo 3.1 الآن في القدرة الإجمالية، بينما يقود Seedance 2.0 وKling 3.0 في تخصصات محددة.

Previously: Sora 2

المتصدر الحالي

Veo 3.1

Google

原生音频 + 多镜头，综合实力最强。

01原生音频生成
02多镜头叙事
03物理模拟优秀
04与 YouTube 生态集成

Runners-up

№2

Seedance 2.0

ByteDance

多镜头故事板能力最强。

多镜头故事板
镜头语言专业
国产模型代表
抖音生态集成

№3

Kling 3.0 Omni

Kuaishou

电影级画质 + 对口型最强。

电影级画质
对口型最精准
快手生态集成
中文场景优化

Tags原生音频多镜头叙事电影级画质对口型

Code Generation

توليد الكود

يستعيد GPT-5.5 الصدارة في برمجة الوكيل الطرفي؛ لا يزال Claude Opus 4.7 يمتلك إعادة البناء متعدد الملفات وتنسيق الأدوات.

Previously: Claude Opus 4.6

المتصدر الحالي

GPT-5.5

OpenAI

Terminal-Bench 2.0 第一，Agentic 编码最强。

الدرجة

82.7%

01Terminal-Bench 2.0: 82.7%
02Expert-SWE: 73.1%
03自主编码判断力
04相同任务 token 更少

Runners-up

№2

Claude Opus 4.7

Anthropic

SWE-Bench Pro 第一，多文件重构最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多文件逻辑审查
代码漏洞捕获

64.3%

№3

Gemini 3.1 Pro

Google

LiveCodeBench 第一，算法竞赛最强。

LiveCodeBench Elo: 2887
1M 上下文全仓库分析
价格最低
算法竞赛最优

2887 Elo

TagsAgentic 编码多文件重构工具编排算法竞赛

Text-to-Speech

تحويل النص إلى كلام

تظل ElevenLabs المعيار الصناعي لواقعية الصوت واستنساخه؛ تقود Hume AI في الصوت العاطفي.

Previously: ElevenLabs v2

المتصدر الحالي

ElevenLabs v3

ElevenLabs

行业标杆级语音真实感。

الدرجة

9.2/10

01真实感评分 9.2/10
0275ms 超低延迟
0329+ 语言支持
04Professional Clone 质量
05企业级 API

Runners-up

№2

Hume AI Octave

Hume AI

情感 AI 语音第一。

情感识别 9.3/10
情感回应能力
共情交互
情绪感知精准

9.3/10

№3

GPT-4o Voice

OpenAI

实时对话体验最佳。

低延迟实时对话
自然语音输出
多语言实时翻译
与 ChatGPT 深度集成

Tags超低延迟情感语音语音克隆多语言

AI Music Generation

توليد الموسيقى بالذكاء الاصطناعي

تظل Suno v5.5 المنصة الأكثر استخدامًا؛ تتميز الأدوات في السرعة، ما بعد الإنتاج، ونشر المؤسسات.

Previously: Suno v5

المتصدر الحالي

Suno v5.5

Suno

使用最广泛的 AI 音乐平台。

01最广泛用户基础
02Studio 多轨编辑
03MIDI 导出
04最快出成品歌曲

Runners-up

№2

Udio v1.5

Udio

后期编辑与分轨控制最强。

分轨下载
混音控制
调性调整
专业后期编辑

№3

Lyria 3 Pro

Google DeepMind

企业 / API 部署最佳。

Vertex AI 输出
结构化生成
版权清晰
企业级部署

Tags多轨编辑MIDI 导出分轨控制版权安全

Vision Understanding

فهم الرؤية

يحتفظ GPT-4o Vision بأقوى ريادة عامة الأغراض؛ يقود Gemini Vision في فهم الفيديو وتحليل المستندات الطويلة.

المتصدر الحالي

GPT-4o Vision

OpenAI

通用视觉理解最强。

01UI 界面解析
02图表理解
03实时视觉对话
04多模态融合

Runners-up

№2

Gemini Vision

Google

视频理解与长文档第一。

百万 token 长文档
视频理解领先
多帧分析
与搜索集成

№3

Qwen-VL

Alibaba

国产视觉模型第一。

中文场景优化
开源可商用
多模态推理
本地部署

Tags实时视觉长文档解析UI 解析多语言

Open Source

المصادر المفتوحة

تقترب النماذج مفتوحة المصدر بسرعة من النماذج المغلقة في عدة معايير. Llama 4، DeepSeek V4، وQwen3 يشكلون الفئة الأولى.

Previously: Llama 3

المتصدر الحالي

Llama 4

DeepSeek V4

DeepSeek

推理与代码能力全面进化的开源旗舰。

数学与推理能力显著提升
代码生成业界最强
MoE 架构高效
API 价格极低

№3

Qwen3

Alibaba

中文开源模型第一。

中文理解最强
多模态支持
Agent 能力
全尺寸覆盖

Tags多模态可商用本地部署低成本

Editorial · 06 observations

ما تغير هذا الشهر

What changed across the AI model landscape this month — distilled from the data above.

من الهيمنة الفردية إلى منافسة المتخصصين

في 2026 انتقل الذكاء الاصطناعي من نموذج واحد عام الأغراض إلى نموذج 'اختر النموذج للمهمة'. كل مكان متخصص له نموذج خبير؛ التوجيه متعدد النماذج هو الآن العمارة المعيارية للمؤسسات.

GPT-5.5 وClaude Opus 4.7 — الحدود المزدوجة

صدرا في 16 و23 أبريل 2026 على التوالي، الاثنان يحددان الآن أحدث ما توصل إليه. يفوز GPT-5.5 في البرمجة الوكيلية واستخدام الطرفية؛ يفوز Claude في مراجعة الكود وإعادة البناء.

أصبح سياق 1M المعيار الجديد

من 128K إلى 1M token — يدعم Gemini 3.1 Pro وClaude Opus 4.7 وGPT-5.5 الآن جميعها سياق 1M+، مما يجعل تحليل المستودع الكامل ممكنًا.

النماذج مفتوحة المصدر تلحق بسرعة

Llama 4 وDeepSeek V4 وQwen3 يطابقون الآن النماذج المغلقة في عدة معايير بـ 1/10 من السعر أو أقل.

النماذج الصينية المحلية تخترق عالميًا

Seedance 2.0 (فيديو) وQwen3 (مفتوح المصدر) وKling 3.0 (فيديو) وQwen-VL (رؤية) دخلوا جميعًا أعلى ثلاثة عالميًا في مجالاتهم.

أسعار API تستمر في الانخفاض

انخفضت أسعار LLM API بنحو 80% في 2025-2026. خفض Gemini 2.0 Flash بسعر $0.10/1M tokens حاجز تطبيقات الذكاء الاصطناعي بشكل كبير.

المصادر

[01]
Artificial Analysisbenchmark
2026-04-29
[02]
LMArena Leaderboardcommunity leaderboard
2026-04-29
[03]
Hugging Face Open LLM Leaderboardcommunity leaderboard
2026-04-29
[04]
OpenAI Changelogofficial changelog
2026-04-29
[05]
Anthropic Newsofficial changelog
2026-04-29
[06]
Google DeepMind Blogofficial changelog
2026-04-29