Claude Opus 4.7
Anthropic4 月 16 日发布,长上下文与代码审查最强。
- SWE-Bench Pro: 64.3%
- MCP-Atlas: 79.1%
- 多步推理最稳定
- 代码逻辑审查最细致
- 100 万 token 上下文
Delapan kategori. Dua puluh empat model unggulan. Diperbarui bulanan. Dengan kutipan ramah AI.
LlmLeaderboard.archiveSubhead
2026 memasuki era tiga raksasa — tidak ada model dominan tunggal, pilihan terbaik bergantung pada tugas yang dihadapi.
Previously: GPT-5.4
4 月 23 日发布,首个全量重训基础模型。
4 月 16 日发布,长上下文与代码审查最强。
预览中,数学与算法竞赛最强。
GPT Image-2 mengambil takhta dengan akurasi rendering teks 99,2%, sementara Nano Banana 2 mempertahankan keunggulan dalam pembuatan real-time.
Previously: Nano Banana 2
文本渲染准确率最高。
极速 4K 生成,实时联网搜索。
开源生态最强。
Sora 2 telah keluar; Google Veo 3.1 kini memimpin kemampuan keseluruhan, sementara Seedance 2.0 dan Kling 3.0 memimpin di niche tertentu.
Previously: Sora 2
原生音频 + 多镜头,综合实力最强。
多镜头故事板能力最强。
电影级画质 + 对口型最强。
GPT-5.5 merebut kembali kepemimpinan dalam coding agen-terminal; Claude Opus 4.7 masih menguasai refactoring multi-file dan orkestrasi tool.
Previously: Claude Opus 4.6
Terminal-Bench 2.0 第一,Agentic 编码最强。
SWE-Bench Pro 第一,多文件重构最强。
LiveCodeBench 第一,算法竞赛最强。
ElevenLabs tetap menjadi tolok ukur industri untuk realisme suara dan kloning; Hume AI memimpin dalam suara emosional.
Previously: ElevenLabs v2
行业标杆级语音真实感。
情感 AI 语音第一。
实时对话体验最佳。
Suno v5.5 tetap menjadi platform yang paling banyak digunakan; tool-tool berbeda dalam kecepatan, pasca-produksi, dan deployment enterprise.
Previously: Suno v5
使用最广泛的 AI 音乐平台。
后期编辑与分轨控制最强。
企业 / API 部署最佳。
GPT-4o Vision mempertahankan kepemimpinan tujuan umum; Gemini Vision memimpin dalam pemahaman video dan parsing dokumen panjang.
通用视觉理解最强。
视频理解与长文档第一。
国产视觉模型第一。
Model open-source mengejar cepat closed-source di beberapa benchmark. Llama 4, DeepSeek V4, dan Qwen3 membentuk tier pertama.
Previously: Llama 3
开源生态最完善。
推理与代码能力全面进化的开源旗舰。
中文开源模型第一。
What changed across the AI model landscape this month — distilled from the data above.
Pada 2026 AI bergeser dari satu model tujuan umum ke paradigma 'pilih model untuk tugas'. Setiap niche memiliki spesialisnya; routing multi-model kini menjadi arsitektur standar enterprise.
Diluncurkan pada 16 dan 23 April 2026 secara berurutan, keduanya kini menentukan ujung tombak. GPT-5.5 menang pada coding agentik dan penggunaan terminal; Claude menang pada review kode dan refactoring.
Dari 128K ke 1M token — Gemini 3.1 Pro, Claude Opus 4.7, dan GPT-5.5 kini mendukung konteks 1M+, memungkinkan analisis repositori penuh.
Llama 4, DeepSeek V4, dan Qwen3 kini menyamai closed-source di beberapa benchmark dengan 1/10 harga atau kurang.
Seedance 2.0 (video), Qwen3 (open source), Kling 3.0 (video), dan Qwen-VL (vision) semuanya masuk top tiga global di domain masing-masing.
Harga LLM API telah turun sekitar 80% pada 2025-2026. Gemini 2.0 Flash dengan $0,10 / 1M token secara dramatis menurunkan barrier untuk aplikasi AI.