共计 123 篇文章
2026
DeepSeek mHC:Manifold-Constrained Hyper-Connections
Sinkhorn-Knopp算法
Hyper-Connections
语言模型训练与推理:从概念到代码
SAPO:Soft Adaptive Policy Optimization
从GRPO到DAPO以及GSPO
2025
理解 PPO 和 GRPO
RLHF:从策略梯度到 PPO、GAE 和 DPO
Fedora43更新Linux6.18 kernel Nvidia显卡驱动编译失败
DeepSeek-OCR:Contexts Optical Compression