slime 文档#
slime 是一个面向 RL Scaling 的 LLM 后训练框架,提供两大核心能力:
高性能训练:通过连接 Megatron 与 SGLang,支持多种模式下的高效训练;
灵活的数据生成:通过自定义数据生成接口与基于服务器的引擎,实现任意训练数据生成流程。
slime 是 GLM-4.7、GLM-4.6、GLM-4.5 背后的 RL 训练框架。除此之外,slime 还支持:
Qwen3 系列 (Qwen3Next, Qwen3MoE, Qwen3), Qwen2.5 系列;
DeepSeek V3 系列 (DeepSeek V3, V3.1, DeepSeek R1);
Llama 3。
其他用法
开发指南