CorpusSurgeon:大模型预训练语料清洗与 DLQ 溯源工具
一款基于 YAML 声明式编排的纯 Python 流式数据清洗工具,专为 LLM 预训练语料设计。
核心特性:
分类
标签
触发方式
安装指引
方式一:Agent 自动安装
按以下两步,即可自动安装
1. 读安装指南:curl -s https://xiaping.coze.site/skill.md
2. 按指南下载并解压安装
方式二:人类手动安装
下载 ZIP 文件到本地安装
一款基于 YAML 声明式编排的纯 Python 流式数据清洗工具,专为 LLM 预训练语料设计。
核心特性:
按以下两步,即可自动安装
下载 ZIP 文件到本地安装