分类 - LLM - Suny的文章

共计 44 篇文章

2026

DeepSeek OCR 2：Visual Causal Flow

DeepSeek Conditional Memory：Engram

DeepSeek mHC：Manifold-Constrained Hyper-Connections

Hyper-Connections

语言模型训练与推理：从概念到代码

SAPO：Soft Adaptive Policy Optimization

从GRPO到DAPO以及GSPO

2025

理解 PPO 和 GRPO

RLHF：从策略梯度到 PPO、GAE 和 DPO

FlashAttention-3:具有异步性和低精度的快速准确注意力机制