Suny的文章
  • 首页
  • 归档
  • 分类
  • 标签
  • it-tools
  • 关于
  • 文档
    安装主题 配置指南 图标用法
Sinkhorn-Knopp算法

Sinkhorn-Knopp算法

一、Sinkhorn-Knopp 算法解释一 Sinkhorn-Knopp (SK) 算法是一种用于将矩阵归一化为双重随机矩阵的迭代算法。该算法通过交替的行和列归一化操作,使矩阵的行和列之和分别满足给定的目标向量。其广泛应用于最优传输问题和矩阵标度问题。 算法步骤 输入:矩阵 M,目标行和向量 u,目标列和向量 v,迭代次数 K。 初始化:矩阵 P 为 M 的归一化版本。 迭代: 对行进行归一
2026-01-30
Sinkhorn-Knopp
#Sinkhorn-Knopp
Hyper-Connections

Hyper-Connections

一、简介 Transformer中残差连接主要就两种变体Pre-Norm 和 Post-Norm各自都有其局限性,这里苏剑林的博客有过分析。 Pre-Norm:在每个残差块之前做Norm,能够有效地减少梯度消失问题。Pre-Norm的问题在于后面的层的输出太像,以至于削弱了模型的学习能力。 Post-Norm:在残差块之后做norm,有助于减少表示崩溃问题,但也会重新引入梯度消失问题。 Hy
2026-01-23
LLM
#HC
语言模型训练与推理:从概念到代码

语言模型训练与推理:从概念到代码

一、简介 尽管大型语言模型(LLMs)已经取得了诸多成就,但驱动所有这些模型的核心概念却十分简单——我们只需要准确预测下一个token即可!尽管有些人(合理地)认为最近关于 LLMs 的研究已经超越了这一基本理念,但token预测仍然支撑着所有因果语言模型的预训练、微调(取决于具体变体)和推理过程,使其成为任何 LLMs 从业者必须理解的基本且重要的概念。 “令人惊讶的是,所有这些进展背后的仍然是
2026-01-16
LLM
#LLM
SAPO:Soft Adaptive Policy Optimization

SAPO:Soft Adaptive Policy Optimization

一、简介 基于组的强化学习用于 LLM 后训练通常依赖于重要性比率来重用轨迹跨策略更新,但在实践中这些比率在标记级别上是嘈杂的,方差在专家混合模型中尤其尖锐,其中路由异质性和长生成放大了每个标记的偏差。GRPO 的标准补救措施是硬标记裁剪:一旦标记的比率超出固定带,其贡献实际上被裁剪到零梯度,这稳定了极端步骤,但创造了一个脆弱的权衡,紧裁剪浪费样本并杀死学习信号,而松裁剪引入了离策略噪声并使优化不
2026-01-10
LLM > RL
#SAPO
从GRPO到DAPO以及GSPO

从GRPO到DAPO以及GSPO

一、简介 在大语言模型的强化学习阶段,PPO 曾是一主流方法。然而,其依赖值模型在处理长文本输出和复杂任务时暴露出局限性。GRPO 消除了对值模型的依赖,显著提升了可扩展性,但在效率和稳定性方面仍有优化空间。这促使了 DAPO 的出现,它对采样、裁剪和梯度计算等细节进行了改进。然而,在动态激活专家的 MoE 架构中,基于 GRPO 框架的 token 级优化仍难以稳定收敛。GSPO 在此基础上更进
2026-01-04
LLM > RL
#GRPO #DAPO #GSPO
理解 PPO 和 GRPO

理解 PPO 和 GRPO

一、简介 在强化学习(RL)中,仅仅知道“你得分多少”往往是不够的。单纯追求高分可能导致各种副作用,如过度探索、模型不稳定,甚至偏离合理策略的“走捷径”行为。为了应对这些挑战,RL 引入了多种机制,如评价者(价值函数)、裁剪操作、参考模型,以及较新的群体相对策略优化(GRPO)。 为了让这些概念更直观,让我们打个比方:把 RL 训练过程比作小学考试场景。我们(被训练的模型)就像努力取得高分的同学,
2025-12-30
LLM > RL
#PPO #GRPO
RLHF:从策略梯度到 PPO、GAE 和 DPO

RLHF:从策略梯度到 PPO、GAE 和 DPO

一、在线强化学习与离线强化学习 两类LLMs 中的主流 RLHF 方法: 在线方法(以 PPO 为例) 离线方法(以 DPO 为例) 但究竟是什么将在线策略(On-Policy)与离线策略(Off-Policy)区分开来呢?这里有一个简单的经验法则: 在线策略(On-Policy):在训练过程中,模型主动生成自己的数据样本。 离线策略(Off-Policy):训练依赖于预先收集的数据(或由其
2025-12-21
LLM > RL
#PPO #GAE #DPO
Fedora43更新Linux6.18 kernel Nvidia显卡驱动编译失败

Fedora43更新Linux6.18 kernel Nvidia显卡驱动编译失败

1. 系统信息 出问题的系统版本信息: OS:Fedora43 Kernel: 6.18.0-cachyos2.fc43.x86_64 Nvidia Driver: 580.105.08 2. 问题发现及处理 2.1 问题定位 更新Fedora43系统后,重启发现无法加载显卡驱动。经过观看启动时的失败信息以及查询后得知,相关日志路径为: 1/var/cache/akmods/nvidia/ 到
2025-12-17
Linux > Nvidia
#Tech #Linux Kernel #Nvidia
DeepSeek-OCR:Contexts Optical Compression

DeepSeek-OCR:Contexts Optical Compression

一、简介 DeepSeek-OCR探索了一个全新的研究方向:通过光学(视觉)方式压缩文本上下文。简单来说,就是将大量文字转换成图像,然后用少量的”视觉token”来表示,从而大幅减少模型需要处理的token数量。 1.1 研究动机 当前大语言模型(LLM)在处理长文本时面临严重的计算挑战,因为计算复杂度随序列长度呈平方级增长。研究团队提出了一个巧妙的想法:一张包含文档文字的图像可以用远少于等效数字
2025-12-10
OCR > DeepSeek
#LLM #DeepSeek #OCR
FlashAttention-3:具有异步性和低精度的快速准确注意力机制

FlashAttention-3:具有异步性和低精度的快速准确注意力机制

一、简介 FlashAttention 对注意力计算进行重新排序的算法,并利用 tiling 和重计算来显著加快计算速度,将内存使用量从序列长度的二次减少到线性。 Flash Attention 核心解决方案主要有两项: 融合算子 + Softmax Tiling:采用 Online Softmax 算法,实现了 Softmax 在 GPU 上的分块计算,节省了大量的 GMEM 读写; 重计算(
2025-12-02
LLM
#LLM #Attention #FlashAttention
Claude Code(十):Claude Code Skills

Claude Code(十):Claude Code Skills

一、Skills简介 Agent Skills 是扩展 Claude 功能的模块化能力。每个 Skill 包含指令、元数据和可选资源(脚本、模板),Claude 在相关时会自动使用这些资源。简单说,就是通过文件和文件夹的方式,让 Claude 变得更专业、更懂行。 Claude 的 Agent Skills 系统代表了一种复杂的基于提示词的元工具架构,通过专门的指令注入来扩展 LLM 的能力。与传
2025-11-26
Claude Code
#Claude Code
Claude Code(九):Claude Code配置工具ZCF

Claude Code(九):Claude Code配置工具ZCF

一、简介 ZCF(Zero-Config Code Flow)是一个面向专业开发者的 CLI 工具,目标是在几分钟内完成 Claude Code 与 Codex 的端到端环境初始化。通过 npx zcf 可以一站式完成配置目录创建、API/代理接入、MCP 服务接入、工作流导入、输出风格与记忆配置,以及常用工具安装。 1.1 为什么选择 ZCF 零配置体验:自动检测操作系统、语言偏好与安装状态,
2025-11-19
Claude Code > ZCF
#Claude Code #ZCF
Claude Code(八):基于 Figma MCP 直出 App

Claude Code(八):基于 Figma MCP 直出 App

要点 AI 的“眼睛”与“手”:深入理解 MCP (Model Context Protocol) 服务器的核心价值,看 Claude Code 如何通过连接 Figma MCP Server“看见”设计稿,并通过连接 Playwright MCP Server“验证”自己的开发成果。 两阶段开发范式:掌握从“视觉复刻”到“功能实现”的两步走开发流程。第一步,AI 专注于将设计稿转化为高质量的前
2025-11-10
Claude Code
#Claude Code
Claude Code(七):Jupyter 数据分析与 Streamlit 可视化

Claude Code(七):Jupyter 数据分析与 Streamlit 可视化

要点 Notebook 专属工具:了解 Claude Code 针对 Jupyter Notebook 的特有工具,如 read_notebook,使其能够理解和操作 .ipynb 文件的单元格结构。 AI 驱动的重构:学习如何通过一个详尽的 Prompt,指导 AI 进行“关注点分离”,将数据加载、业务指标计算等逻辑从 Notebook 中剥离,形成独立的 Python 模块。 交互式应用生成
2025-11-06
Claude Code
#Claude Code
Claude Code(六):集成 GitHub 与 Hooks 实现开发全流程自动化

Claude Code(六):集成 GitHub 与 Hooks 实现开发全流程自动化

要点 GitHub 集成:学习如何通过 /install-github-app 命令,将 Claude Code 作为一款 GitHub App 安装到仓库中,使其具备监听和响应仓库事件的能力。 自动化代码审查 (PR Review):了解集成后生成的 GitHub Actions 工作流,如何让 Claude 机器人自动为新的 Pull Request 提供代码分析、质量检查和安全建议。 远程
2025-11-03
Claude Code
#Claude Code
Claude Code(五):CC + Git Worktree

Claude Code(五):CC + Git Worktree

要点 自定义命令:学习在 .claude/commands/目录下创建自定义的 Markdown 命令,通过 $ARGUMENTS 变量接收参数,实现工作流自动化。 Git Worktree 的核心价值:理解 git worktree 如何允许我们在同一个仓库中同时检出多个工作目录,为并行开发提供物理隔离,从根本上避免文件覆盖问题。 并行开发工作流:掌握从创建 Worktree、在隔离环境中运行
2025-10-30
Claude Code
#Claude Code
Claude Code(四):测试驱动开发(TDD)与并行Agent

Claude Code(四):测试驱动开发(TDD)与并行Agent

要点 思维范式转变:从“让 AI 修复 Bug”到“让 AI 编写测试来定位并修复 Bug”,我们将实践真正的 测试驱动调试 (Test-Driven Debugging)。 高级指令工程:学习如何通过 think a lot 和 plan mode 等指令,引导 AI 进行更深层次的、结构化的思考与规划。 并行智能体:见证 Claude Code 最强大的功能之一——通过一条指令 派生出两个并
2025-10-24
Claude Code
#Claude Code
Claude Code(三):Prompt范式、深度思考、上下文工程与MCP

Claude Code(三):Prompt范式、深度思考、上下文工程与MCP

要点 计划先行,谋定后动:在着手新功能或复杂重构时,优先使用 “计划模式 (Plan Mode)”,让 AI 先思考、再执行,能显著提升代码质量与方向准确性。 精准上下文是效率的关键:无论是通过 @ 符号精确引用文件,还是利用截图进行多模态交流,为 AI 提供充足且准确的上下文,是获得高质量输出的根本。 “思考预算” 的妙用:通过 think, think harder 等指令,我们可以主动提升
2025-10-19
Claude Code
#Claude Code
Claude Code(二):深入代码库与 AI 记忆的构建

Claude Code(二):深入代码库与 AI 记忆的构建

一、与代码库的初次对话 面临的项目是一个能与 DeepLearning.AI 课程资料对话的 RAG 聊天机器人。在不了解任何代码细节的情况下,我们的首要任务是快速建立对项目整体的认知。 我们无需逐个文件阅读,而是直接向 Claude Code 提出一个高层次的问题,例如: 12"Give me an overview of the codebase."(给我一份代码库的概述。) Claude C
2025-10-15
Claude Code
#Claude Code
Claude Code(一):A Highly Agentic Coding Assistant

Claude Code(一):A Highly Agentic Coding Assistant

一、简介 Claude Code 是一款智能编码工具,它驻留在您的终端中,能够理解您的代码库,并通过执行常规任务、解释复杂代码和处理 Git 工作流来帮助您更快地编写代码——所有操作均可通过自然语言命令完成。您可以在终端、IDE 中使用它,也可以在 GitHub 通过 @claude来调用。 Claude Code不依赖于将代码库进行复杂的语义嵌入或构建可搜索的索引。相反,它通过一小组核心工具(如
2025-10-10
Claude Code
#Claude Code
Jet-Nemotron:高效语言模型与后神经网络架构搜索

Jet-Nemotron:高效语言模型与后神经网络架构搜索

一、简介 英伟达发布了一个全新的混合架构语言模型系列,Jet-Nemotron。Jet-Nemotron系列有Jet-Nemotron-2B和Jet-Nemotron-4B大小。英伟达表示Jet-Nemotron系列「小模型」性能超越了Qwen3、Qwen2.5、Gemma3和 Llama3.2等当前最先进的开源全注意力语言模型。 同时实现了显著的效率提升,在H100 GPU上生成吞吐量最高可提
2025-09-30
LLM > PostNAS > JetBlock
#LLM #PostNAS #JetBlock
AlphaEvolve:超级编码智能体

AlphaEvolve:超级编码智能体

一、简介 AlphaEvolve,它是一种进化编码 Agent ,可大幅提升最先进的 LLM 在高难度任务(如解决开放科学问题或优化计算基础设施的关键部分)上的能力。AlphaEvolve 负责协调 LLM 的自主流水线,其任务是通过直接修改代码来改进算法。AlphaEvolve 采用进化方法,不断接收来自一个或多个评估者的反馈,迭代改进算法,从而可能带来新的科学和实践发现。我们将这种方法应用于一
2025-09-21
LLM > Agent
#LLM #Agent
Matrix-Game 2.0:交互世界模型

Matrix-Game 2.0:交互世界模型

一、简介 世界模型(World Model)是AI领域的一个宏大目标,旨在创建能够模拟人们世界运行规律的计算模型。近年来,基于扩散模型的视频生成技术展示了其作为世界模型的巨大潜力,它们能够捕捉复杂的物理动态和交互行为。 最近DeepMind 发布的 Genie 3,Dynamics也推出了Mirage 2世界模型: Genie 3 Genie 3 是由 Google DeepMind 开发的先进
2025-09-12
World Models > Matrix-Game
#World Models #Matrix-Game
Mixture-of-Recursions:混合递归模型,通过学习动态递归深度,以实现对自适应Token级计算的有效适配

Mixture-of-Recursions:混合递归模型,通过学习动态递归深度,以实现对自适应Token级计算的有效适配

一、背景 Transformer 架构的问题: 对所有token进行统一计算(Uniform compute for all tokens):每个token,无论多么简单或复杂,都要经过整个堆栈层 - 导致简单token的计算浪费,而较难token的利用率不足。 参数数量过多(Excessive parameter count):Transformer 为每一层分配单独的权重,导致模型规模过大
2025-09-02
LLM > MoR
#LLM #MoR
DiC:重新思考扩散模型中的 3×3 卷积

DiC:重新思考扩散模型中的 3×3 卷积

一、背景 扩散模型现状: 主流架构从CNN-注意力混合(如U-Net)转向纯Transformer(如DiT、U-ViT),生成质量优异但推理速度慢(自注意力计算开销大)。 加速尝试(如高效注意力、SSM架构)效果有限,难以满足实时需求。 卷积的潜力: Conv3x3是硬件友好的极速操作(支持Winograd加速),但传统设计在扩散模型中性能不足(感受野有限,扩展性差)。 构建 3x3
2025-08-24
Diffusion Model > CNN
#Diffusion Model #DiC
123…5

搜索

川公网安备 川公网安备 51015602000856号 蜀ICP备2024061486号-1