Skip to main content
Back to top
Ctrl
+
K
开始使用
快速使用
使用文档
自定义指南
常见 Q&A
Dense
8xH100 训练 Qwen3-4B
8xH100 训练 GLM4-9B
MoE
8xH100 训练 Qwen3-30B-A3B
64xH100 训练 GLM-4.5
128xH100 训练 DeepSeek R1
高级特性
Reproducibility
投机采样
容灾
在 Megatron-LM 中快速支持新模型架构
PD 分离
其他用法
SFT Qwen3-4B-Base
Search-R1 lite
Fully Asynchronous Rollout Example
Retool: from SFT to RL
Multi-Agent RL
On-Policy Distillation Example
开发指南
Debug 指南
博客
v0.1.0: 重新定义高性能 RL 训练框架
slime:为 RL Scaling 设计的 SGLang-Native 后训练框架
Repository
Open issue
搜索
错误
Please activate JavaScript to enable the search functionality.
Ctrl
+
K