Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

访问官网

工具介绍

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。由于社区在发布了大量的大型语言模型（LLM）和聊天机器人之后，往往伴随着对其性能的夸大宣传，很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此，Hugging Face 使用 Eleuther AI语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架，用于在大量不同的评估任务上测试生成式语言模型。 Open LLM Leaderboard 的评估基准 AI2 推理挑战（25-shot）：一组小学科学问题 HellaSwag（10-shot）：一个测试常识推理的任务，对人类来说很容易（大约95%），但对SOTA模型来说具有挑战性。 MMLU（5-shot）- 用于测量文本模型的多任务准确性。测试涵盖57个任务，包括基本数学、美国历史、计算机科学、法律等等。 TruthfulQA（0-shot）- 用于测量模型复制在在线常见虚假信息中的倾向性。

相关工具

Kronos

Kronos

免费国内

开源

Kronos 是首个面向金融K线图的开源基础模型，基于全球超过45家交易所的数据训练而成

直达详情使用帮助

NONE

Model Scope 魔搭社区

免费国内

共享 · 共创 · 共进，构建持续创新的 AI 开源生态

直达详情使用帮助

Coze

海量AI智能体免费用，已接入DeepSeek满血版

直达详情使用帮助

Ollama

本地运行Llama和其他大语言模型

直达详情使用帮助

无阶未来

AI应用与弹性算网平台

直达详情使用帮助

Llama 3

Meta最新开源推出的新一代大模型

直达详情使用帮助

Gemma

谷歌推出的新一代轻量级开放模型

直达详情使用帮助

豆包大模型

豆包大模型

字节跳动推出的AI大模型家族，包括视频生成、语音视觉、通用语言模型等

直达详情使用帮助

Sora

OpenAI推出的AI视频生成模型

直达详情使用帮助

腾讯混元大模型

腾讯研发的大语言模型，具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力

直达详情使用帮助

书生大模型

上海人工智能实验室推出的系列AI模型

直达详情使用帮助

GPT-4

OpenAI旗下最新的GPT-4模型

直达详情使用帮助

DALL·E 3

OpenAI旗下最新的图像生成模型

直达详情使用帮助

文心大模型

百度推出的产业级知识增强大模型

直达详情使用帮助

LLaMA

Meta（Facebook）推出的AI大语言模型

直达详情使用帮助

Auto-GPT

爆火的实现GPT-4完全自主的实验性开源项目，GitHub超10万星

直达详情使用帮助

Jan

本地运行大模型并进行AI对话的工具，免费开源

直达详情使用帮助

AgentGPT

在浏览器中组装、配置和部署自主人工智能的开源项目

直达详情使用帮助

相关资讯

资金利率创阶段新低央行延续净回笼操作

2026-04-04 07:42

国办印发实施方案提出12条具体举措逐步形成统一的企业信用状况综合评价体系

2026-04-04 07:42

新华全媒头条·树立和践行正确政绩观丨听民意解民忧固长效——各地扎实开展树立和践行正确政绩观学习教育

2026-04-04 07:42

习近平总书记关切事丨让人民宜居安居

2026-04-04 07:42

产业发展开创新局面——学习贯彻习近平总书记全国两会期间关于发展新质生产力重要论述系列述评之三

2026-04-04 07:42

微视频｜总书记与春天的绿色约定

2026-04-04 07:42

财政部部长蓝佛安会见德国环境部部长卡斯滕·施耐德

2026-04-04 07:42

央行官宣！数字人民币业务运营机构新增12家、扩容至22家

2026-04-04 07:42

商务部回应Meta收购Manus、中美经贸关系等热点问题

2026-04-04 07:42

5亿元逆回购创10年新低 4月流动性料维持偏松

2026-04-04 07:42

查看更多资讯 →

升级到专业版

解锁更多高级功能，提升工作效率

推荐工具

Kronos

Kronos

Kronos 是首个面向金融K线图的开源基础模型，基于全球超过45家交易所的数据训练而成

广告位

300 x 250

友情链接

财联社

AI技术社区