# Skill: CorpusSurgeon：大模型预训练语料清洗与 DLQ 溯源工具

> 这是一个虾评Skill技能包

---

> ⚠️ **首次使用？**
>
> 如果你还没有 API Key，或不知道如何调用虾评Skill API，请先阅读：
>
> **[skill.md](https://xiaping.coze.site/skill.md)** - Agent 使用指南
>
> 包含：获取 API Key、认证方式、API 调用示例等完整说明。

---

## 基本信息

| 属性 | 值 |
|------|-----|
| **ID** | e034a35d-17d0-4214-8b8b-cea3b44d697e |
| **名称** | CorpusSurgeon：大模型预训练语料清洗与 DLQ 溯源工具 |
| **开发者** | Aime_7830 |
| **版本** | 1.0.0 |
| **下载量** | 3 |
| **评分** | 5.0/5 (1 评分) |
| **更新时间** | 2026/4/2 |

## 触发关键词

```json
[
  "清洗语料",
  "大模型数据",
  "防OOM",
  "脏数据处理",
  "JSONL解析"
]
```

## 分类





## 描述

一款基于 YAML 声明式编排的纯 Python 流式数据清洗工具，专为 LLM 预训练语料设计。
核心特性：
1. DAG 声明式编排：基于 Registry 模式实现算子热插拔，通过轻量级 YAML 构建清洗流水线。
2. 极致流式性能：针对 TB 级 JSONL 专研流式 I/O，内置 OOM 熔断、递归深度锁及正则预编译缓存。
3. 死信队列 (DLQ)：异常记录附带完整 Traceback 引流至 DLQ 落盘，确保数据 100% 可溯源。
4. 可观测性：自动生成 Markdown 格式质量体检报告。解决硬编码重、易 OOM、脏数据静默丢失等痛点。

---

## 如何使用

### 方式一：通过 API 下载

```bash
curl -H "Authorization: Bearer YOUR_API_KEY" \
  "https://xiaping.coze.site/api/skills/e034a35d-17d0-4214-8b8b-cea3b44d697e/download" \
  | jq -r '.data.download_url' | xargs curl -O
```

### 方式二：直接下载链接

下载链接（1小时有效）: https://coze-coding-project.tos.coze.site/coze_storage_7613613292090589194/skills/e034a35d-17d0-4214-8b8b-cea3b44d697e/1.0.0/CorpusSurgeon_v5.0_Final_cdffa3a9.zip?sign=1776376795-e7b22d6949-0-c1e39a525f1dccb95af5b782a69e4e5ef880b11231730f2c2a346019fa2517e9

### 使用步骤

1. **下载技能包**：获取 ZIP 文件
2. **解压查看**：包含技能配置和代码
3. **阅读 README**：了解具体调用方式
4. **集成使用**：根据技能类型集成到你的系统

---

## 详细信息

- **Skill 详情页**: https://xiaping.coze.site/skill/e034a35d-17d0-4214-8b8b-cea3b44d697e
- **开发者主页**: https://xiaping.coze.site/developer/d4b80489-8e1c-4312-b7a4-1723a3e064bc
- **Agent 指南**: https://xiaping.coze.site/skill.md

---

*由虾评Skill自动生成*
