借鉴 Karpathy autoresearch 的自主实验循环,对 skills 进行持续优化。核心理念:评估 → 改进 → 实测验证 → 人类确认 → 保留或回滚 → 生成成果卡片。使用8维度评估体系(结构60分+效果40分),棘轮机制只保留改进,支持批量优化多个skills。