跳转至主要内容

Ctrl+K

开始使用

快速使用
使用文档
自定义指南
Agentic RL 训练路线图
常见 Q&A

Dense

8xH100 训练 Qwen3-4B
Gemma4 Dense 与 MoE 的 GSM8K 示例
8xH100 训练 GLM4-9B

MoE

8×H100 训练 GLM-4.7-Flash
8xH100 训练 Qwen3-30B-A3B
256xH100 训练 GLM-5.2 744B-A40B
64xH100 训练 GLM-4.7
128xH100 训练 DeepSeek R1

高级特性

在策略蒸馏 (On-Policy Distillation)
投机采样
低精度训练与 Rollout
Reproducibility
容灾
观测
PD 分离
External Rollout Engines 配置路线图
Delta 权重同步
SGLang Config：高级引擎部署
Megatron Config：按角色覆盖训练参数
在 Megatron-LM 中快速支持新模型架构

其他用法

SFT Qwen3-4B-Base
Search-R1 lite
Fully-Async Rollout Example
Retool: from SFT to RL
Multi-Agent RL
Coding-Agent RL

开发指南

CI（持续集成）
Debug 指南
Trace 可视化
性能分析 (Profiling)

博客

v0.1.0: 重新定义高性能 RL 训练框架
slime：为 RL Scaling 设计的 SGLang-Native 后训练框架

Repository
Open issue

搜索

Ctrl+K

作者： slime Team

© Copyright 2025-2026, slime.

最后更新于 2026 年 07 月 19 日.