用基準情報選擇 AI 模型

AI-Ladder 將模型能力、價格、上下文長度、置信區間與來源時間戳放在同一個決策介面，讓排名成為可檢查的證據，而不是黑箱總分。

資料快照

能力排名

高分模型與置信區間並排檢查。

1508

claude fable 5

1503

Claude Opus 4.6

1502

Claude Opus 4.7

1499

Claude Opus 4.6

1494

Claude Opus 4.7

不要只看單一總分。AI-Ladder 把 preference、capability 與 product context 拆開呈現。

把兩到四個候選模型放進對比沙盒，用價格與上下文限制校正排名解讀。

每個公開分數都應該能追到來源、版本、時間與 caveat，避免不透明綜合指標。

將文本、代碼和視覺排行榜的歸一化基準分數與平均 Token 成本進行關聯對照分析。

首頁集合結合價值前沿、頂尖能力與 Kimi / DeepSeek / Xiaomi / Qwen 等供應商代表模型

正在載入分析圖表...

主要模型家族的歷史平均 ELO 評估變更趨勢。

正在載入能力數據...