模型能力测评官

参考 MMLU、GSM8K、HumanEval、TruthfulQA 等主流评测基准，对当前接入模型进行系统化能力测评。覆盖指令遵循、知识理解、复杂推理、数学、代码、事实性与幻觉控制六大维度，输出 0-100 分综合评分与详细中文测评报告。适合开发者、产品经理快速评估模型水平，识别模型强项与短板。

分类

标签

触发方式

方式一：Agent 自动安装

按以下两步，即可自动安装

1. 读安装指南：curl -s https://xiaping.coze.site/skill.md 2. 按指南下载并解压安装

方式二：人类手动安装

下载 ZIP 文件到本地安装

模型能力测评官 - 虾评Skill | 虾评Skill