Suny的文章

Meta世界模型 V-JEPA 2

一、简介 Meta开源发布V-JEPA 2世界模型：一个能像人类一样理解物理世界的AI模型。世界模型简单说，就是能够对真实物理世界做出反应的AI模型。它应该具备以下几种能力：理解：世界模型应该能够理解世界的观察，包括识别视频中物体、动作和运动等事物。预测：一个世界模型应该能够预测世界将如何演变，以及如果智能体采取行动，世界将如何变化。规划：基于预测能力，世界模型应能用于规划实现给定目标的行

2025-08-16

World Model

#World Model

H-Net与动态分块技术

一、简介当我们阅读文本时，大脑会毫不费力地将字母组合成单词，再将单词组合成有意义的短语。我们不会刻意去思考一个单词在哪里结束，另一个单词在哪里开始，一切自然而然地发生了。然而，事实证明，在人工智能中复制这种自然能力是自然语言处理领域最持久的挑战之一。几十年来，AI 系统一直依赖于一种名为tokenization的预处理步骤，将文本分解成易于管理的块。目前主流的方法是Byte-Pair Enco

2025-08-07

LLM > H-Net

#LLM #H-Net

Muon An optimizer for hidden layers in neural networks

一、引言在深度学习领域，优化算法对模型训练效率和性能起着关键作用。从经典的随机梯度下降 (SGD) 及其动量法，到自适应优化方法 Adam/AdamW 等，一系列优化器大大加速了神经网络的收敛。 Muon (Momentum Orthogonalized by Newton-Schulz)：一种新的神经网络优化器。Muon 因其出色的实用性能而备受关注：它曾创下 NanoGPT 的速度纪录。Mu

2025-07-25

LLM > Optimizer

#LLM #Optimizer

Log Linear Attention

一、简介《对数线性注意力》（Log-Linear Attention）尝试在传统注意力和线性注意力机制的复杂度和表达力间取得一个平衡，作者中的 Tri Dao 也是 Mamba 和 FlashAttention 的作者之一。 1.1 引言与动机现有方法的困境：标准Softmax注意力：虽然表达能力强，但其计算复杂度为 𝒪(T2)（T为序列长度），内存复杂度为 𝒪(T)，这使其在处理长

2025-07-16

LLM > Attention

#LLM #Attention

Boltzmann Machines

一、Boltzmann Machines发展历程 1.1 霍普菲尔德网络(Hopfield Network) 从一个简单的二进制神经元网络入手，介绍了「霍普菲尔德网络」的核心思想。每个神经元只有1或0两种状态，最重要的是，神经元之间通过对称加权连接。整个神经网络的全局状态，被称为一个「配置」（configuration），并有一个「优度」（goodness）。其「优度」是由所有活跃神经元之间权

2025-07-08

NN > Boltzmann Machines

#NN #Boltzmann Machines

Function Calling vs. MCP vs. A2A vs. AG-UI

一、Function Calling 传统的函数调用方式，通过预定义接口传递参数并获取返回值，适用于结构化、明确的输入输出场景。例如：调用数学计算函数 sum(a, b)，返回 a + b 的结果。应用场景计算服务：calculate_distance(lat1, lon1, lat2, lon2)。数据库查询：get_user_profile(user_id)。第三方API集成：调用支

2025-06-30

LLM > MCP

#MCP #A2A #AG-UI

A2A

谷歌在25年4月初发布了A2A协议，作为MCP协议的补充。Agent2Agent协议致力于促进独立agent间的通信，帮助不同生态系统的agent沟通和协作。一、核心概念 Agent Card：一个公共元数据文件（通常位于 /.well-known/agent.json），用于描述Agent的能力、技能、端点 URL 以及认证要求。客户端通过它来发现Agent。 Agent Card通常包括

2025-06-23

LLM > A2A

#A2A

MCP

2024年11月份，claude推出了模型上下文协议( MCP),作为一种潜在的解决方案，解决大模型和其他工具交互。作为大模型与其他工具交互的协议，MCP这几个月也在在开发人员和 AI 社区中获得了巨大的关注。一、MCP 原理提出背景：随着基座大模型变得更加智能，agent与外部工具、数据和 API 交互的能力变得越来越分散：开发人员需要为agent运行和集成的每个系统实现具有特殊业务逻辑

2025-06-16

LLM > MCP

#MCP

重排:多样性算法

2025-06-10

推荐算法 > ReRank

#推荐算法 #ReRank #MMR #DPP

特征交叉

一、Factorized Machine (FM) 1.1 线性模型有d个特征，记作x = [x1, ⋯, xd] 线性模型：模型有 d + 1 个参数: w = [w1, ⋯, wd]和b 预测是特征的加权和。（只有加，没有乘。） 1.2 二阶交叉特征线性模型+⼆阶交叉特征： d如果很大参数量uij就会很大，可以用以下方式减少参数数量 uij ≈ viTvj Fac

2025-06-04

推荐算法 > 特征交叉

#推荐算法 #特征交叉

行为序列

一、用户行为序列建模用户最近 n 次点击、点赞、收藏、转发等行为都是推荐系统中重要的特征，可以帮助召回和排序变得更精准。这节课介绍最简单的方法——对用户行为取简单的平均，作为特征输入召回、排序模型。用户的LastN行为序列可以反映出用户对什么样的物品感兴趣，召回的双塔模型、粗排的三塔模型、还有精排模型都可以用LastN特征。LastN特征很有效，把它用到召回和排序模型中，所有指标都会大涨。简

2025-05-28

推荐算法 > DIN > SIM

#推荐算法 #DIN #SIM

排序模型

排序的目标是根据业务目标来不断变化的，最早期，业务目标简单，需要聚焦的时候，往往会选取⼀个指标来重点优化，当做到中期的时候，就会发现单⼀指标对整体的提升已经非常有限了，或者说会出现很多问题，这个时候，往往就会引入多目标排序来解决这些问题。排序的依据排序模型预估点击率、点赞率、收藏率、转发率等多种分数。融合这些预估分数。（⽐如加权和。）根据融合的分数做排序、截断。一、多目标模型 1.1

2025-05-20

推荐算法 > Rank

#推荐算法 #Rank

DeepSeek V3

DeepSeek-V3 是一款性能卓越的混合专家（MoE）语言模型，整体参数规模达到 671B，其中每个 token 激活的参数量为 37B。基于提升性能和降低成本的双重目标，在架构设计方面，DeepSeek-V3 采用了MLA来确保推理效率，并使用 DeepSeekMoE来实现经济高效的训练。这两种架构在 DeepSeek-V2 中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练

2025-05-13

LLM

#LLM #DeepSeek

DeepSeek 3FS & Smallpond

一、3FS & Smallpond 概述 Fire-Flyer File System（3FS）是一个高性能分布式文件系统，旨在解决人工智能训练和推理工作负载的挑战。它利用现代固态硬盘（SSD）和远程直接内存访问（RDMA）网络，提供一个共享存储层，从而简化分布式应用程序的开发。 Smallpond 基于 3FS 和 DuckDB 构建，专注于 PB 级数据的快速处理。Smallpond

2025-05-06

LLM

#LLM #DeepSeek

DeepSeek DualPipe & EPLB

LLM的训练中，高效利用计算资源、降低通信开销以及维持负载均衡是亟待解决的关键问题。尤其在面对超大规模模型和海量数据时，传统训练方法往往难以应对。DeepSeek 团队在这一领域取得了突破性进展，其中 DualPipe 和 EPLB 作为两项核心技术，为优化大规模模型训练提供了创新解决方案。 DualPipe 是一种创新的双向流水线并行算法。它通过在流水线的两端同时注入微批次，实现了前向和反向传

2025-04-30

LLM

#LLM #DeepSeek

DeepSeek DeepGEMM

大多数AI技术的核心，背后其实都离不开一种计算——矩阵乘法（GEMM）。别把这个当做数学教科书的一种公式计算，实际上 GEMM 就像是深度学习的“心脏”，几乎每个AI模型训练、每次预测，都少不了它的身影。 DeepGEMM 是一个专为 NVIDIA Hopper 架构设计的高效 FP8 矩阵乘法库，支持普通和混合专家模型（MoE）分组矩阵乘法，通过简洁的实现和即时编译技术，实现了高性能和易用性。

2025-04-23

LLM

#LLM #DeepSeek

DeepSeek DeepEP

DeepEP 是一款专为混合专家（MoE）和专家并行（EP）设计的高性能通信库。它具有高效的全连接 GPU 内核（通常称为 MoE 分发和合并），能够实现出色的吞吐量和极低的延迟。此外，DeepEP 支持包括 FP8 在内的低精度计算，确保了深度学习工作负载的灵活性。 DeepEP的核心亮点全场景覆盖的通信内核：提供高吞吐量内核（支持NVLink/RDMA混合转发）和超低延迟内核（纯RDMA通

2025-04-07

LLM

#LLM #DeepSeek

DeepSeek Flash MLA

FlashMLA是一种在变长序列场景下的加速版MLA（Multi-Head Linear Attention），针对decoding阶段优化。目前deepseek已将其开源：FlashMLA。特点：存算优化：双warp group计算流设计与应用（存算重叠、数据双缓存）；分页缓存：KV page block管理提升显存利用率，更好适应变长序列； SM负载均衡：动态调整block数据，充分利

2025-03-31

LLM

#LLM #DeepSeek

曝光过滤

如果⽤户看过某个物品，则不再把该物品曝光给该⽤户。对于每个⽤户，记录已经曝光给他的物品。对于每个召回的物品，判断它是否已经给该⽤户曝光过，排除掉曾经曝光过的物品。⼀位⽤户看过n个物品，本次召回r个物品，如果暴⼒对⽐，需要O(nr)的时间。布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合

2025-03-17

推荐算法 > BloomFilter

#推荐算法 #BloomFilter

Native Sparse Attention——DeepSeek 提出硬件级的稀疏注意力机制

论文：[2502.11089] Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 一、简介 DeepSeek 团队最近（2025 年 2 月）提出的一种稀疏注意力机制，核心的创新在于：智能信息分层：将文本压缩为粗粒度语义块、动态筛选关键片段，并结合局部滑动窗口，既保留全局理解又减少

2025-03-01

LLM

#LLM #DeepSeek

神经网络(七)——优化算法

优化算法在神经网络训练中至关重要，它们决定了如何调整模型参数以最小化损失函数。以下是对神经网络中常用优化算法的详细总结，包括梯度下降及其变种。一、梯度下降（Gradient Descent）梯度下降是最基础的优化算法，通过沿着损失函数梯度的反方向更新参数，逐步减少损失。算法步骤初始化参数：随机初始化参数 θ。计算梯度：计算损失函数 J(θ) 对参数 θ 的梯度 ∇θJ(θ)。更新参数

2025-02-16

#DL #神经网络 #优化算法

2025-01-27

#DL #神经网络 #RNN

神经网络(五)——循环神经网络（Recurrent Neural Network，RNN）

循环神经网络（Recurrent Neural Network，RNN）是一类用于处理序列数据的神经网络，它在时间步上有循环连接，能够捕捉序列中的时间依赖关系。RNN广泛应用于自然语言处理（NLP）、时间序列预测、语音识别等领域。一、序列模型 1.1 自回归模型对于股票，用xt表示价格，即在时间步（time step）t ∈ ℤ+时，观察到的价格xt。t对于本文中的序列通常是离散的，并在整数或

2025-01-20

#DL #神经网络 #RNN

Meta世界模型 V-JEPA 2

H-Net与动态分块技术

Muon An optimizer for hidden layers in neural networks

Log Linear Attention

Boltzmann Machines

Function Calling vs. MCP vs. A2A vs. AG-UI

A2A

MCP

重排:多样性算法

特征交叉

行为序列

排序模型

DeepSeek V3

DeepSeek 3FS & Smallpond

DeepSeek DualPipe & EPLB

DeepSeek DeepGEMM

DeepSeek DeepEP

DeepSeek Flash MLA

推荐算法--双塔模型

曝光过滤

推荐算法--CF

Native Sparse Attention——DeepSeek 提出硬件级的稀疏注意力机制

神经网络(七)——优化算法

神经网络(六)——更多RNN

神经网络(五)——循环神经网络（Recurrent Neural Network，RNN）