Arena 快照、模型價格與來源證據正在整理
Benchmark intelligence
06/03/2026
Live panel
能力排名
高分模型與置信區間並排檢查。
1502
Claude Opus 4.6
1500
Claude Opus 4.7
1498
Claude Opus 4.6
1492
Claude Opus 4.7
1489
Muse Spark
1488
Gemini 3.1 Pro
1486
gemini 3 pro
Live panel
成本脈絡
每百萬 token 平均成本,越低越好。
0.1
Muse Spark
0.2
Gemini 3.5 Flash
3.1
Gemini 3.1 Pro
3.1
gemini 3 pro
10
gpt 5.5 high
10
gpt 5.4 high
45
Claude Opus 4.7
Live panel
覆蓋範圍
跨文字、程式、視覺、文件與生成類別。
10
Text
37
Code
0
Vision
0
Doc
0
Image
0
Video
能力與成本對照圖
將文本、代碼和視覺排行榜的歸一化基準分數與平均 Token 成本進行關聯對照分析。
首頁集合結合價值前沿、頂尖能力與 Kimi / DeepSeek / Xiaomi / Qwen 等供應商代表模型
正在載入分析圖表...
模型能力演進趨勢
主要模型家族的歷史平均 ELO 評估變更趨勢。
正在載入能力數據...