Suny的文章

Openclaw

一、Openclaw（Clawdbot） Openclaw 是一款功能强大的个人 AI 助手框架，它通过一个中心化的“网关”（Gateway）服务，连接了各种聊天渠道（如 WhatsApp, Telegram）和大型语言模型，同时提供了网页仪表盘（Dashboard）和终端界面（TUI）等多种交互方式。这篇教程将详细介绍如何下载、安装并开始使用 Openclaw。 1.1 快速安装 Opencla

2026-03-10

Openclaw

#Openclaw

OpenCode

OpenCode

一、OpenCode 1.1 安装OpenCode OpenCode安装超级简单，一行命令搞定。打开终端，运行这个安装脚本： 1curl -fsSL https://opencode.ai/install | bash 如果有更新，会进行更新如图所示。 1.2 Commands 用!开头来使用shell命令 1!ls -la command 作用 /agent 切换build和

2026-03-04

OpenCode

#OpenCode

DeepSeek OCR 2：Visual Causal Flow

DeepSeek OCR 2：Visual Causal Flow

一、简介 DeepSeek-OCR 2 对上一代的优化主要是编码器上的改进，如下图：用 LLM 式架构替换了 DeepEncoder 中的 CLIP 模块。通过定制化注意力掩码，视觉 token 采用双向注意力机制，而可学习查询则采用因果注意力机制。因此，每个查询 token 既能关注所有视觉 token，也能关注之前的查询，从而实现对视觉信息的渐进式因果重排序，初步验证了LLM-style 架构

2026-02-26

LLM

#DeepSeek #OCR

DeepSeek Conditional Memory：Engram

DeepSeek Conditional Memory：Engram

一、简介 LLM Memory 在 Agent 领域常被视为一种对历史时序状态进行压缩的手段，能够有效减少上下文长度。而 DeepSeek 最新提出的 Conditional-Memory Engram 建模，并非旨在压缩长上下文，而是一种短距离时序特征学习方法。下图中, 相邻 3 个 token 被映射成一个记忆 embedding。 Engram 的目标实则是增强模型的长上下文处理能力。At

2026-02-11

LLM > Engram

#Engram

DeepSeek mHC：Manifold-Constrained Hyper-Connections

DeepSeek mHC：Manifold-Constrained Hyper-Connections

一、简介传统的Residual结构计算表达式为：其中和分别表示第层的维输入和输出，表示残差函数。尽管残差函数在过去十年中经历了包括卷积、注意力机制和前馈网络等各种操作的发展，但残差连接的范式仍然保持着其原始形式。残差连接的恒等映射特性在大规模训练过程中保持了稳定性和效率。通过递归地将残差连接扩展到多个层：其中和分别对应较深和较浅的层。恒等映射指的是组件本身，它强调了浅层信号直接映

2026-02-05

LLM > mHC

#mHC

Sinkhorn-Knopp算法

Sinkhorn-Knopp算法

一、Sinkhorn-Knopp 算法解释一 Sinkhorn-Knopp (SK) 算法是一种用于将矩阵归一化为双重随机矩阵的迭代算法。该算法通过交替的行和列归一化操作，使矩阵的行和列之和分别满足给定的目标向量。其广泛应用于最优传输问题和矩阵标度问题。算法步骤输入：矩阵，目标行和向量，目标列和向量，迭代次数。初始化：矩阵为的归一化版本。迭代：对行进行归一化，使每行的

2026-01-30

Sinkhorn-Knopp

#Sinkhorn-Knopp

Hyper-Connections

Hyper-Connections

一、简介 Transformer中残差连接主要就两种变体Pre-Norm 和 Post-Norm各自都有其局限性，这里苏剑林的博客有过分析。 Pre-Norm：在每个残差块之前做Norm，能够有效地减少梯度消失问题。Pre-Norm的问题在于后面的层的输出太像，以至于削弱了模型的学习能力。 Post-Norm：在残差块之后做norm，有助于减少表示崩溃问题，但也会重新引入梯度消失问题。 Hy

2026-01-23

LLM

#HC

语言模型训练与推理：从概念到代码

语言模型训练与推理：从概念到代码

一、简介尽管大型语言模型（LLMs）已经取得了诸多成就，但驱动所有这些模型的核心概念却十分简单——我们只需要准确预测下一个token即可！尽管有些人（合理地）认为最近关于 LLMs 的研究已经超越了这一基本理念，但token预测仍然支撑着所有因果语言模型的预训练、微调（取决于具体变体）和推理过程，使其成为任何 LLMs 从业者必须理解的基本且重要的概念。 “令人惊讶的是，所有这些进展背后的仍然是

2026-01-16

LLM

#LLM

SAPO：Soft Adaptive Policy Optimization

SAPO：Soft Adaptive Policy Optimization

一、简介基于组的强化学习用于 LLM 后训练通常依赖于重要性比率来重用轨迹跨策略更新，但在实践中这些比率在标记级别上是嘈杂的，方差在专家混合模型中尤其尖锐，其中路由异质性和长生成放大了每个标记的偏差。GRPO 的标准补救措施是硬标记裁剪：一旦标记的比率超出固定带，其贡献实际上被裁剪到零梯度，这稳定了极端步骤，但创造了一个脆弱的权衡，紧裁剪浪费样本并杀死学习信号，而松裁剪引入了离策略噪声并使优化不

2026-01-10

LLM > RL

#SAPO

从GRPO到DAPO以及GSPO

从GRPO到DAPO以及GSPO

一、简介在大语言模型的强化学习阶段，PPO 曾是一主流方法。然而，其依赖值模型在处理长文本输出和复杂任务时暴露出局限性。GRPO 消除了对值模型的依赖，显著提升了可扩展性，但在效率和稳定性方面仍有优化空间。这促使了 DAPO 的出现，它对采样、裁剪和梯度计算等细节进行了改进。然而，在动态激活专家的 MoE 架构中，基于 GRPO 框架的 token 级优化仍难以稳定收敛。GSPO 在此基础上更进

2026-01-04

LLM > RL

#GRPO #DAPO #GSPO

理解 PPO 和 GRPO

理解 PPO 和 GRPO

一、简介在强化学习（RL）中，仅仅知道“你得分多少”往往是不够的。单纯追求高分可能导致各种副作用，如过度探索、模型不稳定，甚至偏离合理策略的“走捷径”行为。为了应对这些挑战，RL 引入了多种机制，如评价者（价值函数）、裁剪操作、参考模型，以及较新的群体相对策略优化（GRPO）。为了让这些概念更直观，让我们打个比方：把 RL 训练过程比作小学考试场景。我们（被训练的模型）就像努力取得高分的同学，

2025-12-30

LLM > RL

#PPO #GRPO

RLHF：从策略梯度到 PPO、GAE 和 DPO

RLHF：从策略梯度到 PPO、GAE 和 DPO

一、在线强化学习与离线强化学习两类LLMs 中的主流 RLHF 方法：在线方法（以 PPO 为例）离线方法（以 DPO 为例）但究竟是什么将在线策略（On-Policy）与离线策略（Off-Policy）区分开来呢？这里有一个简单的经验法则：在线策略（On-Policy）：在训练过程中，模型主动生成自己的数据样本。离线策略（Off-Policy）：训练依赖于预先收集的数据（或由其

2025-12-21

LLM > RL

#PPO #GAE #DPO

Fedora43更新Linux6.18 kernel Nvidia显卡驱动编译失败

Fedora43更新Linux6.18 kernel Nvidia显卡驱动编译失败

1. 系统信息出问题的系统版本信息： OS:Fedora43 Kernel: 6.18.0-cachyos2.fc43.x86_64 Nvidia Driver: 580.105.08 2. 问题发现及处理 2.1 问题定位更新Fedora43系统后，重启发现无法加载显卡驱动。经过观看启动时的失败信息以及查询后得知，相关日志路径为： 1/var/cache/akmods/nvidia/ 到

2025-12-17

Linux > Nvidia

#Tech #Linux Kernel #Nvidia

DeepSeek-OCR：Contexts Optical Compression

DeepSeek-OCR：Contexts Optical Compression

一、简介 DeepSeek-OCR探索了一个全新的研究方向：通过光学(视觉)方式压缩文本上下文。简单来说，就是将大量文字转换成图像，然后用少量的”视觉token”来表示，从而大幅减少模型需要处理的token数量。 1.1 研究动机当前大语言模型(LLM)在处理长文本时面临严重的计算挑战，因为计算复杂度随序列长度呈平方级增长。研究团队提出了一个巧妙的想法：一张包含文档文字的图像可以用远少于等效数字

2025-12-10

OCR > DeepSeek

#LLM #DeepSeek #OCR

FlashAttention-3:具有异步性和低精度的快速准确注意力机制

FlashAttention-3:具有异步性和低精度的快速准确注意力机制

一、简介 FlashAttention 对注意力计算进行重新排序的算法，并利用 tiling 和重计算来显著加快计算速度，将内存使用量从序列长度的二次减少到线性。 Flash Attention 核心解决方案主要有两项：融合算子 + Softmax Tiling：采用 Online Softmax 算法，实现了 Softmax 在 GPU 上的分块计算，节省了大量的 GMEM 读写；重计算（

2025-12-02

LLM

#LLM #Attention #FlashAttention

Claude Code（十）:Claude Code Skills

Claude Code（十）:Claude Code Skills

一、Skills简介 Agent Skills 是扩展 Claude 功能的模块化能力。每个 Skill 包含指令、元数据和可选资源（脚本、模板），Claude 在相关时会自动使用这些资源。简单说，就是通过文件和文件夹的方式，让 Claude 变得更专业、更懂行。 Claude 的 Agent Skills 系统代表了一种复杂的基于提示词的元工具架构，通过专门的指令注入来扩展 LLM 的能力。与传

2025-11-26

Claude Code

#Claude Code

Claude Code（九）:Claude Code配置工具ZCF

Claude Code（九）:Claude Code配置工具ZCF

一、简介 ZCF（Zero-Config Code Flow）是一个面向专业开发者的 CLI 工具，目标是在几分钟内完成 Claude Code 与 Codex 的端到端环境初始化。通过 npx zcf 可以一站式完成配置目录创建、API/代理接入、MCP 服务接入、工作流导入、输出风格与记忆配置，以及常用工具安装。 1.1 为什么选择 ZCF 零配置体验：自动检测操作系统、语言偏好与安装状态，

2025-11-19

Claude Code > ZCF

#Claude Code #ZCF

Claude Code（八）:基于 Figma MCP 直出 App

Claude Code（八）:基于 Figma MCP 直出 App

要点 AI 的“眼睛”与“手”：深入理解 MCP (Model Context Protocol) 服务器的核心价值，看 Claude Code 如何通过连接 Figma MCP Server“看见”设计稿，并通过连接 Playwright MCP Server“验证”自己的开发成果。两阶段开发范式：掌握从“视觉复刻”到“功能实现”的两步走开发流程。第一步，AI 专注于将设计稿转化为高质量的前

2025-11-10

Claude Code

#Claude Code

Claude Code（七）:Jupyter 数据分析与 Streamlit 可视化

Claude Code（七）:Jupyter 数据分析与 Streamlit 可视化

要点 Notebook 专属工具：了解 Claude Code 针对 Jupyter Notebook 的特有工具，如 read_notebook，使其能够理解和操作 .ipynb 文件的单元格结构。 AI 驱动的重构：学习如何通过一个详尽的 Prompt，指导 AI 进行“关注点分离”，将数据加载、业务指标计算等逻辑从 Notebook 中剥离，形成独立的 Python 模块。交互式应用生成

2025-11-06

Claude Code

#Claude Code

Claude Code（六）:集成 GitHub 与 Hooks 实现开发全流程自动化

Claude Code（六）:集成 GitHub 与 Hooks 实现开发全流程自动化

要点 GitHub 集成：学习如何通过 /install-github-app 命令，将 Claude Code 作为一款 GitHub App 安装到仓库中，使其具备监听和响应仓库事件的能力。自动化代码审查 (PR Review)：了解集成后生成的 GitHub Actions 工作流，如何让 Claude 机器人自动为新的 Pull Request 提供代码分析、质量检查和安全建议。远程

2025-11-03

Claude Code

#Claude Code

Claude Code（五）:CC + Git Worktree

Claude Code（五）:CC + Git Worktree

要点自定义命令：学习在 .claude/commands/目录下创建自定义的 Markdown 命令，通过 $ARGUMENTS 变量接收参数，实现工作流自动化。 Git Worktree 的核心价值：理解 git worktree 如何允许我们在同一个仓库中同时检出多个工作目录，为并行开发提供物理隔离，从根本上避免文件覆盖问题。并行开发工作流：掌握从创建 Worktree、在隔离环境中运行

2025-10-30

Claude Code

#Claude Code

Claude Code（四）:测试驱动开发（TDD）与并行Agent

Claude Code（四）:测试驱动开发（TDD）与并行Agent

要点思维范式转变：从“让 AI 修复 Bug”到“让 AI 编写测试来定位并修复 Bug”，我们将实践真正的测试驱动调试 (Test-Driven Debugging)。高级指令工程：学习如何通过 think a lot 和 plan mode 等指令，引导 AI 进行更深层次的、结构化的思考与规划。并行智能体：见证 Claude Code 最强大的功能之一——通过一条指令派生出两个并

2025-10-24

Claude Code

#Claude Code

Claude Code（三）:Prompt范式、深度思考、上下文工程与MCP

Claude Code（三）:Prompt范式、深度思考、上下文工程与MCP

要点计划先行，谋定后动：在着手新功能或复杂重构时，优先使用 “计划模式 (Plan Mode)”，让 AI 先思考、再执行，能显著提升代码质量与方向准确性。精准上下文是效率的关键：无论是通过 @ 符号精确引用文件，还是利用截图进行多模态交流，为 AI 提供充足且准确的上下文，是获得高质量输出的根本。 “思考预算” 的妙用：通过 think, think harder 等指令，我们可以主动提升

2025-10-19

Claude Code

#Claude Code

Claude Code（二）:深入代码库与 AI 记忆的构建

Claude Code（二）:深入代码库与 AI 记忆的构建

一、与代码库的初次对话面临的项目是一个能与 DeepLearning.AI 课程资料对话的 RAG 聊天机器人。在不了解任何代码细节的情况下，我们的首要任务是快速建立对项目整体的认知。我们无需逐个文件阅读，而是直接向 Claude Code 提出一个高层次的问题，例如： 12"Give me an overview of the codebase."(给我一份代码库的概述。) Claude C

2025-10-15

Claude Code

#Claude Code

Claude Code（一）:A Highly Agentic Coding Assistant

Claude Code（一）:A Highly Agentic Coding Assistant

一、简介 Claude Code 是一款智能编码工具，它驻留在您的终端中，能够理解您的代码库，并通过执行常规任务、解释复杂代码和处理 Git 工作流来帮助您更快地编写代码——所有操作均可通过自然语言命令完成。您可以在终端、IDE 中使用它，也可以在 GitHub 通过 @claude来调用。 Claude Code不依赖于将代码库进行复杂的语义嵌入或构建可搜索的索引。相反，它通过一小组核心工具（如

2025-10-10

Claude Code

#Claude Code