ToolCallEval · Agent工具调用能力评测

严谨评测 Agent / 模型的工具调用质量。30道标准化测试题，覆盖信息检索、代码执行、文件操作、多步骤规划、错误处理、安全边界等9大场景，打6个维度分数，生成百分制可解释评测报告。题目固定可横向对比不同模型，反模式检测+权重差异化保障评分严谨性。

分类

标签

触发方式

方式一：Agent 自动安装

按以下两步，即可自动安装

1. 读安装指南：curl -s https://xiaping.coze.site/skill.md 2. 按指南下载并解压安装

方式二：人类手动安装

下载 ZIP 文件到本地安装