共计 121 篇文章
2026
Hyper-Connections
语言模型训练与推理:从概念到代码
SAPO:Soft Adaptive Policy Optimization
从GRPO到DAPO以及GSPO
2025
理解 PPO 和 GRPO
RLHF:从策略梯度到 PPO、GAE 和 DPO
Fedora43更新Linux6.18 kernel Nvidia显卡驱动编译失败
DeepSeek-OCR:Contexts Optical Compression
FlashAttention-3:具有异步性和低精度的快速准确注意力机制
Claude Code(十):Claude Code Skills