AI 模型排行榜

基準評測排行榜

對 AI 模型進行排序、按價格區間篩選、審查置信水平並檢查基準評測的對話軌跡。

有哪些基準評測類別被納入排名？

AI-Ladder 將模型排名組織在文本、代碼、視覺、文檔、圖像生成和影片生成基準中，使開發者能對比細分能力切片，而非僅依賴一個混合總分。

使用篩選器縮小範圍（按供應商、價格和上下文窗口），然後打開數據溯源追溯或將選定的模型移入對比沙盒。應將排名視為決策的參考證據，而非最終答案：當模型評分接近時，置信區間、基準類別覆蓋率以及來源時間戳都至關重要。

SWE-bench Verified 仍可作為歷史與特定 scaffold 下的訊號，但 OpenAI 已將它視為對 frontier model 越來越受污染的指標，並建議使用 SWE-bench Pro 作為較乾淨的程式能力證據。
SWE-bench Pro 與 Bash Only 結果不能不加標籤混用：同一個基礎模型會因 scaffold、工具預算、上下文策略或 agent harness 不同而出現明顯分數差異。
自 2025-11-18 起，SWE-bench Verified 與 Multilingual 只接受具開放方法和論文或技術報告的學術團隊與研究機構提交，因此新的產品型 agent 結果可能會先出現在其他榜單。

AI 模型排行榜

對 AI 模型進行排序、按價格區間篩選、審查置信水平並檢查基準評測的對話軌跡。

AI-Ladder 將模型排名組織在文本、代碼、視覺、文檔、圖像生成和影片生成基準中，使開發者能對比細分能力切片，而非僅依賴一個混合總分。

SWE-bench Verified 仍可作為歷史與特定 scaffold 下的訊號，但 OpenAI 已將它視為對 frontier model 越來越受污染的指標，並建議使用 SWE-bench Pro 作為較乾淨的程式能力證據。
SWE-bench Pro 與 Bash Only 結果不能不加標籤混用：同一個基礎模型會因 scaffold、工具預算、上下文策略或 agent harness 不同而出現明顯分數差異。
自 2025-11-18 起，SWE-bench Verified 與 Multilingual 只接受具開放方法和論文或技術報告的學術團隊與研究機構提交，因此新的產品型 agent 結果可能會先出現在其他榜單。

排名	模型	ELO 評分	價格 ($/1M)	上下文	投票數
#1	claude-fable-5 Anthropic 商業專有	1508±9	未知	—	4,366
#2	Claude Opus 4.6 Thinking Anthropic 商業專有	1503±4	未知	—	51,769
#3	Claude Opus 4.7 Thinking Anthropic 商業專有	1502±4	未知	—	38,326
#4	Claude Opus 4.6 Anthropic 商業專有	1499±4	未知	—	55,027
#5	Claude Opus 4.7 Anthropic 商業專有	1494±4	未知	—	39,550
#6	Muse Spark Meta 商業專有	1487±6	未知	—	13,598
#7	Gemini 3.1 Pro Preview Google 商業專有	1486±4	未知	—	68,291
#8	gemini-3-pro Google 商業專有	1486±4	未知	—	41,298
#9	claude-opus-4-8-thinking Anthropic 商業專有	1484±6	未知	—	18,680
#10	gpt-5.5-high OpenAI 商業專有	1481±5	未知	—	33,718
#11	Claude Opus 4.8 Anthropic 商業專有	1479±6	未知	—	19,038
#12	gpt-5.4-high OpenAI 商業專有	1478±4	未知	—	46,702
#13	Gemini 3.5 Flash Google 商業專有	1476±7	未知	—	10,159
#14	gpt-5.2-chat-latest-20260210 OpenAI 商業專有	1476±4	未知	—	34,532
#15	grok-4.20-beta-0309-reasoning xAI 商業專有	1476±4	未知	—	48,117
#16	qwen3.7-max-preview Alibaba 商業專有	1475±10	未知	—	3,731
#17	GPT-5.5 OpenAI 商業專有	1475±5	未知	—	34,794
#18	grok-4.20-beta1 xAI 商業專有	1474±5	未知	—	26,945
#19	GLM-5.1 Z.AI 商業專有	1473±5	未知	—	19,620
#20	gemini-3-flash Google 商業專有	1473±4	未知	—	30,704

排名	模型	ELO 評分	價格 ($/1M)	上下文	投票數
#1	claude-fable-5 Anthropic 商業專有	1508±9	未知	—	4,366
#2	Claude Opus 4.6 Thinking Anthropic 商業專有	1503±4	未知	—	51,769
#3	Claude Opus 4.7 Thinking Anthropic 商業專有	1502±4	未知	—	38,326
#4	Claude Opus 4.6 Anthropic 商業專有	1499±4	未知	—	55,027
#5	Claude Opus 4.7 Anthropic 商業專有	1494±4	未知	—	39,550
#6	Muse Spark Meta 商業專有	1487±6	未知	—	13,598
#7	Gemini 3.1 Pro Preview Google 商業專有	1486±4	未知	—	68,291
#8	gemini-3-pro Google 商業專有	1486±4	未知	—	41,298
#9	claude-opus-4-8-thinking Anthropic 商業專有	1484±6	未知	—	18,680
#10	gpt-5.5-high OpenAI 商業專有	1481±5	未知	—	33,718
#11	Claude Opus 4.8 Anthropic 商業專有	1479±6	未知	—	19,038
#12	gpt-5.4-high OpenAI 商業專有	1478±4	未知	—	46,702
#13	Gemini 3.5 Flash Google 商業專有	1476±7	未知	—	10,159
#14	gpt-5.2-chat-latest-20260210 OpenAI 商業專有	1476±4	未知	—	34,532
#15	grok-4.20-beta-0309-reasoning xAI 商業專有	1476±4	未知	—	48,117
#16	qwen3.7-max-preview Alibaba 商業專有	1475±10	未知	—	3,731
#17	GPT-5.5 OpenAI 商業專有	1475±5	未知	—	34,794
#18	grok-4.20-beta1 xAI 商業專有	1474±5	未知	—	26,945
#19	GLM-5.1 Z.AI 商業專有	1473±5	未知	—	19,620
#20	gemini-3-flash Google 商業專有	1473±4	未知	—	30,704