LLM 评测基准与榜单汇总

LLM 相关评测基准与榜单汇总｜Leaderboard#

1. LiveBench#

保持更新：✅

主办：LiveBench/Abacus.AI 等

备注：动态题库、客观打分、避免“LLM裁判”，官方说明每月释出新题/更难题；有论文与数据手册可查。可参考其GitHub仓库（ https://github.com/LiveBench/LiveBench/blob/main/README.md ）及官方文档（ https://livebench.ai/livebench.pdf ）。

2. Artificial Analysis#

链接： https://artificialanalysis.ai/leaderboards/models

保持更新：✅

主办：Artificial Analysis

备注：综合聚合类榜单，包含 MMLU‑Pro、AAII 等多个基准数据，提供性能、价格、速度、上下文长度等多维度对比。详细信息可查看其官方榜单页面（ https://artificialanalysis.ai/leaderboards/models ）。

3. aider polyglot#

链接： https://aider.chat/docs/leaderboards/

保持更新：✅

主办：Aider

备注：专注于多语言代码编辑能力的基准，基于 Exercism 平台的 225 道难题构建，覆盖 C++、Go、Java、JavaScript、Python、Rust 六种编程语言，是旧版 Python 代码榜单的替代版本。官方详情可参考（ https://aider.chat/docs/leaderboards/ ）。

4. Chatbot Arena（LMSYS）#

链接： https://lmarena.ai/leaderboard

保持更新：✅

主办：LMSYS / UC Berkeley

备注：基于人类偏好投票的 Elo 排名体系，已累计覆盖 350 万+ 次投票；除主榜外，还设有 Hard、HARDAuto、Search 等子榜单。相关参考包括 LMArena 官网（ https://lmarena.ai/ ）、《华尔街日报》报道（ https://www.wsj.com/tech/ai/the-uc-berkeley-project-that-is-the-ai-industrys-obsession-bc68b3e3 ）及 LMSYS 技术博客（ https://lmsys.org/blog/2024-04-19-arena-hard/ ）。

5. 司南（OpenCompass）#

链接： https://github.com/open-compass/opencompass

保持更新：✅

主办：上海AI实验室 / OpenCompass

备注：面向开源模型与 API 模型的统一评测框架，配套有 Compass Academic 学术榜单（部署于 Hugging Face Space）。可通过 GitHub 仓库（ https://github.com/open-compass/opencompass ）查看源码，或在 Hugging Face（ https://huggingface.co/spaces/opencompass/Compass_Academic_Leaderboard ）查看学术榜单数据。

6. SuperCLUE#

链接： https://superclueai.com/

保持更新：✅

主办：CLUE 团队

备注：专注于中文通用能力的综合榜单与评测体系，长期维护更新，是中文大模型评测的重要参考之一。详细评测内容可访问官网（ https://superclueai.com/ ）。

7. AlpacaEval 2.0#

链接： https://tatsu-lab.github.io/alpaca_eval/

保持更新：✅

主办：Stanford Tatsu Lab

备注：自动化指令跟随偏好评测基准，包含 length‑controlled（长度控制）版本，可有效缓解评测中的“长度偏置”问题。官方榜单（ https://tatsu-lab.github.io/alpaca_eval/ ）及源码（ https://github.com/tatsu-lab/alpaca_eval ）可在对应平台查看。

8. SWE‑bench（总榜）#

链接： https://www.swebench.com/

保持更新：✅

主办：Princeton / SWE‑bench 团队

备注：聚焦真实开源项目 issue 修复能力的评测，包含 Verified（验证版）、Lite（精简版）、Multimodal（多模态版）等子榜单，并提供云端提交流程供模型测试。详细排名可参考官网（ https://www.swebench.com/ ）。

9. OpenRouter Rankings#

链接： https://openrouter.ai/rankings

保持更新：✅

主办：OpenRouter

备注：非纯能力榜单，核心统计 LLM 的使用量/市占率与品类热度，可帮助洞察当前市场中模型的“流行度”趋势。具体数据可查看 OpenRouter 排名页面（ https://openrouter.ai/rankings ）。

10. HAL（Holistic Agent Leaderboard）#

链接： https://hal.cs.princeton.edu/

保持更新：✅

主办：Princeton SAgE

备注：专注于 Agent（智能体）能力的总榜，采用多基准评测、成本感知机制及第三方独立评测，可直观查看模型在跨任务、跨数据集场景下的代理能力。官网（ https://hal.cs.princeton.edu/ ）提供完整榜单数据。

11. LLMDB（聚合）#

链接： https://llmdb.com/benchmarks

保持更新：✅

主办：LLMDB

备注：多基准数据汇总与可视化平台，包含 AIME、LiveCodeBench、BFCL、WMT24、FACTS 等多个专题评测页面，可一站式查看不同基准下的模型表现。详情可访问（ https://llmdb.com/benchmarks ）。

12. Vals AI Benchmarks#

链接： https://www.vals.ai/benchmarks

保持更新：✅

主办：Vals AI

备注：聚焦行业/场景化评测的基准，覆盖法律、财税、金融等垂直领域，同时提供公开评测报告，并收录 MGSM、AIME 等学术基准的解析内容。参考资料包括 Vals AI 官网（ https://www.vals.ai/home ）及《华盛顿邮报》相关报道（ https://www.washingtonpost.com/politics/2025/04/22/ai-tools-mostly-fumble-basic-financial-tasks-study-finds/ ）。

13. Search Arena#

链接： https://beta.lmarena.ai/leaderboard/search

保持更新：✅

主办：LMSYS

备注：专注于联网问答能力的榜单，核心考察模型的网页检索效率与引用内容的可溯源性，是评估模型实时信息获取能力的重要参考。可访问 beta 版页面（ https://beta.lmarena.ai/leaderboard/search ）查看排名。

14. Opper TaskBench#

链接： https://opper.ai/models

保持更新：✅

主办：Opper Technology AB

备注：以任务完成率为核心的实战型基准，评分范围 0.0–1.0，覆盖 Context（上下文理解）、SQL（数据库操作）、Agents（智能体协作）、Normalization（数据标准化）四类任务，同时收录 GPT-5-mini、GPT-5-nano 等小模型的评测数据。详情可参考（ https://opper.ai/models ）。

15. Roo Code#

链接： https://roocode.com/evals

保持更新：✅

主办：Roo Code

备注：代码能力评测基准，其使用的练习题与 aider polyglot 几乎一致，可作为代码类基准评测结果的交叉验证参考。具体评测内容可访问（ https://roocode.com/evals ）。

16. Yuapp#

链接： https://yupp.ai/leaderboard

保持更新：✅

备注：AI 模型评测排行榜网站，专注于代码能力评估，可作为代码类基准评测结果的交叉验证参考。。

17. llm-stats#

链接： https://llm-stats.com/

保持更新：✅

主办：llm-stats 团队

备注：综合性AI模型评测平台，覆盖LLM、图像生成、代码、语音等多模态评测，提供性能、价格、上下文窗口、速度等多维度对比。包含LLM排行榜、开源LLM排行榜、代码竞技场、图像竞技场等子榜单，同时追踪最新发布的AI模型。详情可访问官网（ https://llm-stats.com/ ）。

18. PinchBench（OpenClaw Agent Benchmark）#

链接： https://pinchbench.com

保持更新：✅

主办：Kilo Code 等

备注：专注于 OpenClaw 体系下的智能体（Agent）能力评测，以任务成功率为核心指标，同时提供速度、成本、价值等维度对比。所有任务与打分标准开源，采用自动检查 + LLM 评判的混合方式完成评分，适合对比不同模型在 OpenClaw 场景中的实战表现。官网声明该榜单“主要用于娱乐，不应用于关键决策”，使用时需结合其他更严肃的评测基准综合参考（数据示例可见官网页面的模型成功率排名表）。

19. LLM Benchmark Dashboard（llm2014）#

链接： https://llm2014.github.io/llm_benchmark/

保持更新：✅

主办：llm2014（个人长期跟踪项目）

备注：基于个人私有题目的大模型长期跟踪测评看板，支持按数据集/数据类别/模型模式筛选，提供测试成本、平均耗时等维度的可视化对比，适合作为日常“体感 + 性价比”变化的参考补充。