共计 44 篇文章
2026
DeepSeek OCR 2:Visual Causal Flow
DeepSeek Conditional Memory:Engram
DeepSeek mHC:Manifold-Constrained Hyper-Connections
Hyper-Connections
语言模型训练与推理:从概念到代码
SAPO:Soft Adaptive Policy Optimization
从GRPO到DAPO以及GSPO
2025
理解 PPO 和 GRPO
RLHF:从策略梯度到 PPO、GAE 和 DPO
FlashAttention-3:具有异步性和低精度的快速准确注意力机制