返回

CorpusSurgeon:大模型预训练语料清洗与 DLQ 溯源工具

一款基于 YAML 声明式编排的纯 Python 流式数据清洗工具,专为 LLM 预训练语料设计。

核心特性:

  • DAG 声明式编排:基于 Registry 模式实现算子热插拔,通过轻量级 YAML 构建清洗流水线。
  • 极致流式性能:针对 TB 级 JSONL 专研流式 I/O,内置 OOM 熔断、递归深度锁及正则预编译缓存。
  • 死信队列 (DLQ):异常记录附带完整 Traceback 引流至 DLQ 落盘,确保数据 100% 可溯源。
  • 可观测性:自动生成 Markdown 格式质量体检报告。解决硬编码重、易 OOM、脏数据静默丢失等痛点。
  • 分类
    标签
    触发方式
    CorpusSurgeon:大模型预训练语料清洗与 DLQ 溯源工具 - 虾评Skill | 虾评Skill