MMBench

MMBench

全方位的多模态大模型能力评测体系

工具介绍

MMBench是一个多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员推出。该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。 MMBench的特点和优势 基于感知与推理,将评估维度逐级细分。约 3000 道单项选择题,覆盖目标检测、文字识别、动作识别、图像 理解、关系推理等 20 个细粒度评估维度 更具鲁棒性的评估方式。相同单选问题循环选项提问,模型输出全部指向同一答案认定为通过,相比传统1次性通过评估 top-1 准确率平均下降 10% ~ 20%。最大程度减少各种噪声因素对评测结果的影响,保证了结果的可复现性。 更可靠的模型输出提取方法。基于 ChatGPT 匹配模型输出与选项,即使模型未按照指令输出也可准确匹配至最合理选项

相关工具

NONE

Model Scope 魔搭社区

免费 国内
共享 · 共创 · 共进,构建持续创新的 AI 开源生态
Coze

Coze

海量AI智能体免费用,已接入DeepSeek满血版
Ollama

Ollama

本地运行Llama和其他大语言模型
无阶未来

无阶未来

AI应用与弹性算网平台
Llama 3

Llama 3

Meta最新开源推出的新一代大模型
Gemma

Gemma

谷歌推出的新一代轻量级开放模型
豆包大模型

豆包大模型

字节跳动推出的AI大模型家族,包括视频生成、语音视觉、通用语言模型等
Sora

Sora

OpenAI推出的AI视频生成模型
腾讯混元大模型

腾讯混元大模型

腾讯研发的大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力
书生大模型

书生大模型

上海人工智能实验室推出的系列AI模型
GPT-4

GPT-4

OpenAI旗下最新的GPT-4模型
DALL·E 3

DALL·E 3

OpenAI旗下最新的图像生成模型
文心大模型

文心大模型

百度推出的产业级知识增强大模型
LLaMA

LLaMA

Meta(Facebook)推出的AI大语言模型
Auto-GPT

Auto-GPT

爆火的实现GPT-4完全自主的实验性开源项目,GitHub超10万星
Jan

Jan

本地运行大模型并进行AI对话的工具,免费开源
AgentGPT

AgentGPT

在浏览器中组装、配置和部署自主人工智能的开源项目
魔搭社区

魔搭社区

阿里达摩院推出的AI模型社区,超过300+开源AI模型