归档 - Suny的文章

共计 123 篇文章

2026

DeepSeek mHC：Manifold-Constrained Hyper-Connections

Sinkhorn-Knopp算法

Hyper-Connections

语言模型训练与推理：从概念到代码

SAPO：Soft Adaptive Policy Optimization

从GRPO到DAPO以及GSPO

2025

理解 PPO 和 GRPO

RLHF：从策略梯度到 PPO、GAE 和 DPO

Fedora43更新Linux6.18 kernel Nvidia显卡驱动编译失败

DeepSeek-OCR：Contexts Optical Compression