slime 文档#

slime 是一个面向 RL Scaling 的 LLM 后训练框架,提供两大核心能力:

  • 高性能训练:通过连接 Megatron 与 SGLang,支持多种模式下的高效训练;

  • 灵活的数据生成:通过自定义数据生成接口与基于服务器的引擎,实现任意训练数据生成流程。

slime 的设计目标,是让这两大能力彼此强化,同时避免把系统变成一组割裂的 trainer、rollout service 和 agent framework。Megatron training、SGLang rollout、custom data generation、reward computation、verifier feedback 和 environment interaction 都流经同一条 training / rollout / Data Buffer 路径。

这让 slime 成为最经受实战验证的开源 RL post-training 框架之一:它足够轻量、清晰、易扩展,同时也经过了 SOTA 级模型发布背后的完整训练闭环验证。

为什么这个设计重要#

  • 经过 frontier model 训练验证:slime 是 GLM-5.1GLM-5GLM-4.7GLM-4.6GLM-4.5 背后的 RL 训练框架。

  • 从设计开始就是 native:slime 直接透传 Megatron 参数,并通过 --sglang- 前缀暴露当前安装版本 SGLang 支持的参数。新的上游训练和 serving 优化可以直接使用,不需要在 slime 里再加一层 wrapper。

  • 专注 SGLang rollout:slime 有意选择单一 rollout backend,避免为了同时兼容多个 inference engine 而被迫抽象成 lowest-common-denominator 的公共能力子集,从而可以直接发挥 SGLang-specific 的 serving、routing、caching、disaggregation 和 weight-sync 能力。

  • Agentic workflow 就是数据生成:tool use、sandbox interaction、verifier reward、environment feedback、multi-agent loop 和 long-horizon agentic workflow 都接入同一条 training / rollout / Data Buffer 路径,而不是 fork training kernel。

  • BF16 训练 + FP8 rollout:大规模 MoE recipe 使用 Megatron BF16 training state 搭配 SGLang FP8 rollout/inference;long-context rollout 还可以通过 --sglang-kv-cache-dtype fp8_e4m3 提升有效 KV cache 容量。

  • 作为 RL 基础设施来测试:CPU correctness tests 默认运行,GPU e2e tests 覆盖真实 Megatron + SGLang training/rollout 路径,包括 dense/MoE recipe、async rollout、SGLang config、checkpoint、precision 和 debug replay。详见 CI(持续集成)

生产验证#

除 GLM 系列之外,slime 还支持:

  • Qwen 系列 (Qwen3.6, Qwen3.5, Qwen3Next, Qwen3MoE, Qwen3, Qwen2.5);

  • DeepSeek V3 系列 (DeepSeek V3, V3.1, DeepSeek R1);

  • Llama 3。

按使用场景开始#