跳转至主要内容
Ctrl+K
slime - Home slime - Home

开始使用

  • 快速使用
  • 使用文档
  • 自定义指南
  • 常见 Q&A

Dense

  • 8xH100 训练 Qwen3-4B
  • 8xH100 训练 GLM4-9B

MoE

  • 8×H100 训练 GLM-4.7-Flash
  • 8xH100 训练 Qwen3-30B-A3B
  • 64xH100 训练 GLM-4.7
  • 128xH100 训练 DeepSeek R1

高级特性

  • 在策略蒸馏 (On-Policy Distillation)
  • 投机采样
  • 低精度训练
  • Reproducibility
  • 容灾
  • PD 分离
  • SGLang Config:高级引擎部署
  • 在 Megatron-LM 中快速支持新模型架构

其他用法

  • SFT Qwen3-4B-Base
  • Search-R1 lite
  • Fully Asynchronous Rollout Example
  • Retool: from SFT to RL
  • Multi-Agent RL

开发指南

  • CI(持续集成)
  • Debug 指南
  • Trace 可视化
  • 性能分析 (Profiling)

博客

  • v0.1.0: 重新定义高性能 RL 训练框架
  • slime:为 RL Scaling 设计的 SGLang-Native 后训练框架
  • Repository
  • Open issue

索引

作者: slime Team

© Copyright 2025-2026, slime.

最后更新于 2026 年 04 月 07 日.