共计 60 篇文章
2026
语言模型训练与推理:从概念到代码
2025
DeepSeek-OCR:Contexts Optical Compression
FlashAttention-3:具有异步性和低精度的快速准确注意力机制
Jet-Nemotron:高效语言模型与后神经网络架构搜索
AlphaEvolve:超级编码智能体
Mixture-of-Recursions:混合递归模型,通过学习动态递归深度,以实现对自适应Token级计算的有效适配
H-Net与动态分块技术
Muon An optimizer for hidden layers in neural networks
Log Linear Attention
DeepSeek V3