返回

vLLM批处理延迟优化器

诊断vLLM连续批处理延迟飙升问题,推荐调度器/内存参数调优。识别瓶颈类型:队列bound/内存bound/预填充bound/解码bound。当GPU KV缓存抖动或请求队列堆积时使用。

分类
标签
触发方式