Suny的文章

神经网络(四)——更多CNN

神经网络(四)——更多CNN

一、深度卷积神经网络（AlexNet） AlexNet和LeNet的架构非常相似，这里是一个稍微精简版本的AlexNet。从LeNet（左）到AlexNet（右） AlexNet和LeNet的设计理念非常相似，但也存在显著差异。 AlexNet比相对较小的LeNet5要深得多。AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。 AlexNet使用ReLU而不是si

2025-01-15

DL

#DL #神经网络 #CNN

神经网络(三)——卷积神经网络（Convolutional Neural Network）

神经网络(三)——卷积神经网络（Convolutional Neural Network）

卷积神经网络（Convolutional Neural Network, CNN）是一种专门用于处理具有网格状拓扑数据（如图像）的深度学习模型。CNN在计算机视觉领域表现卓越，广泛应用于图像分类、对象检测、图像分割等任务。输入层：接收原始图像数据，通常为三维数组（宽度、高度、通道数）。卷积层：对输入图像进行卷积操作，生成特征图。激活函数：对卷积结果应用激活函数，如ReLU。池化层：对特征

2025-01-10

DL

#DL #神经网络 #CNN

神经网络(一)——线性神经网络

神经网络(一)——线性神经网络

神经网络（Neural Network）是一种模仿人脑神经系统的计算模型，广泛应用于人工智能（AI）和机器学习领域。它的核心思想是通过多个简单的计算单元（神经元）之间的连接和权重调整，来处理和学习复杂的任务。一、线性神经网络尽管神经网络涵盖了更多更为丰富的模型，但是依然可以用描述神经网络的方式来描述线性模型，从而把线性模型看作一个神经网络。线性回归是一个单层神经网络。如图所示的神经网络中

2024-12-30

DL

#DL #神经网络

Generative Model

Generative Model

一、简介生成式模型是指无监督和半监督的机器学习算法，使计算机能够使用文本、音频和视频文件、图像甚至代码等现有内容来创建新的可能内容。生成式模型主要功能是理解并捕获给定数据集中的潜在模式或分布。一旦学习了这些模式，模型就可以生成与原始数据集具有相似特征的新数据。 1.1 判别式模型 vs. 生成式模型判别式模型学习策略函数Y=f(X)或者条件概率P(Y|X) 不能反映训练数据本身的特性学

2024-12-23

Generative Model

#LLM #Generative Model

多模态大型语言模型(MLLM)

多模态大型语言模型(MLLM)

一、简介模态的定义:模态（modal）是事情经历和发生的方式，我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等。 MLLMs 的定义:由LLM扩展而来的具有接收与推理多模态信息能力的模型。多种模型概念：单模态大模型跨模态模型多模态模型多模态语言大模型 1.1 单模态大模型单模态大模型是指模型输入和输出是同一种模态，

2024-12-17

LLM

#LLM #MLLM

DeepSpeed

DeepSpeed

DeepSpeed是一个深度学习优化软件套件，使分布式训练和推理变得简单、高效和有效。它可以做训练/推理具有数十亿或数万亿参数的密集或稀疏模型；实现出色的系统吞吐量并有效扩展到数千个GPU；在资源受限的GPU系统上进行训练/推理；实现前所未有的低延迟和高吞吐量的推理；以低成本实现极限压缩，实现无与伦比的推理延迟和模型尺寸减小。一、DeepSpeed简介 DeepSpeed四大创新支柱 D

2024-12-10

LLM

#LLM #DeepSpeed

Megatron-LM

Megatron-LM

一、通讯原语操作 NCCL 英伟达集合通信库，是一个专用于多个 GPU 乃至多个节点间通信的实现。它专为英伟达的计算卡和网络优化，能带来更低的延迟和更高的带宽。 Broadcast Broadcast代表广播行为，执行Broadcast时，数据从主节点0广播至其他各个指定的节点（0~3）广播操作：所有rank都从“root”rank接收数据 Scatter Scatter与Broadca

2024-12-03

LLM

#LLM #Megatron-LM

LLM(十一)——Mamba

LLM(十一)——Mamba

一、SSM(State Space Model) 1.1 State Space 下图中每个小框代表迷宫中的一个位置，并有某些隐式的信息，例如你距离出口有多远: 而上述迷宫可以简化建模为一个“状态空间表示state space representation”，每一个小框显示: 当前所在位置（当前状态Current State）下一步可以前往哪里(未来可能的状态Possible Future

2024-11-28

LLM

#LLM #Mamba

神经网络(二)——多层感知机（Multilayer Perceptron）

神经网络(二)——多层感知机（Multilayer Perceptron）

在现实世界中有很多数据无法通过线性变换来表示，可以通过在网络中加入一个或多个隐藏层来克服线性模型的限制，使其能处理更普遍的函数关系类型。最简单的方法是将许多全连接层堆叠在一起，每一层都输出到上面的层，直到生成最后的输出。可以把前L − 1层看作表示，把最后一层看作线性预测器。这种架构通常称为多层感知机（multilayer perceptron），通常缩写为MLP。一个单隐藏层的多层感知机，具有

2024-11-24

DL

#DL #神经网络 #MLP

LLM(十)——Infini Transformer

LLM(十)——Infini Transformer

Infini-attention不同于过去的Attention机制，每次在处理一个新的输入时都会重新计算整个序列的 Attention 权重，也就代表会将过去的 K, V 都丢弃。而 infini-attention 则是将 K, V 都保存在压缩记忆体里面，这样可以有两个优点：处理较长(甚至无限)的文本、上下文比较有帮助可以减少复杂度。因为不需要一直重复计算，可以提升效率、减少计算资源

2024-11-22

LLM

#LLM #Infini_Transformer

LLM(九)——Mixture-of-Depths Transformers

LLM(九)——Mixture-of-Depths Transformers

一、Mixture-of-Depths Transformers MoD(Mixture-of-Depths)采用的技术类似于混合专家(Mixture of Experts，MoE) transformer，其中动态token级路由决策是在整个网络深度上做出的。然而，与 MoE 的想法不同，MoD要么将计算应用于像标准transformer那样的token，要么通过残差连接(Residual Co

2024-11-15

LLM

#LLM #MoD

LLM(八)——MoE

LLM(八)——MoE

一、混合专家模型（Mixtral of Experts）在 Transformer 模型的背景下，MoE 主要由两个部分组成：稀疏 MoE 层代替了传统的密集前馈网络 (FFN) 层。MoE 层包含若干“专家”（如 8 个），每个专家都是一个独立的神经网络。实际上，这些专家通常是 FFN，但它们也可以是更复杂的网络，甚至可以是 MoE 本身，形成一个层级结构的 MoE。一个门控网络或路由

2024-11-07

LLM

#LLM #MoE

LLM(七)——参数高效微调（Parameter-efficient fine-tuning,PEFT）

LLM(七)——参数高效微调（Parameter-efficient fine-tuning,PEFT）

随着模型变得越来越大，在消费级硬件上对模型进行全部参数的微调变得不可行。此外，为每个下游任务独立存储和部署微调模型变得非常昂贵，因为微调模型与原始预训练模型的大小相同。参数高效微调(PEFT) 方法旨在解决这两个问题！PEFT 方法使您能够获得与全参数微调相当的性能，同时只有少量可训练参数。一、PEFT类型 Additive methods Additive methods的主要思想是通过添加

2024-11-02

LLM

#LLM #PEFT #Fine-tuning

LLM(六)——Position Encoding

LLM(六)——Position Encoding

RNN的结构包含了序列的时序信息，而Transformer却完全把时序信息给丢掉了，比如“狗咬我”，和“我咬狗”，两者的意思千差万别，故为了解决时序的问题，Transformer的作者用了一个绝妙的办法：位置编码(Positional Encoding) 一、绝对位置编码（Absolute Positional Encoding） 1.1 简介将每个位置编号，从而每个编号对应一个向量，最终通过结

2024-10-27

LLM

#LLM #Position Encoding

LLM(五)——Hardware Optimization Attention

LLM(五)——Hardware Optimization Attention

一、PagedAttention vLLM发现LLM 服务的性能受到内存瓶颈的影响。在自回归 decoder 中，所有输入到 LLM 的 token 会产生注意力 key 和 value 的张量，这些张量保存在 GPU 显存中以生成下一个 token。这些缓存 key 和 value 的张量通常被称为 KV cache，其具有以下特点：显存占用大：在 LLaMA-13B 中，缓存单个序列最多需

2024-10-20

LLM

#LLM #Attention #PagedAttention #FlashAttention

LLM(四)——Attention变种

LLM(四)——Attention变种

一、Multi-Query Attention（MQA）多查询注意力（MQA）是多头注意力（MHA）算法的改进版本，它可以在不牺牲模型精度的情况下提高计算效率。在标准 MHA 中，单独的线性变换应用于每个注意力头的查询 (Q)、键 (K) 和值 (V)。 MQA 与此不同，它在所有头中使用一组共享的键 (K) 和值 (V)，同时允许对每个查询 (Q) 进行单独的转换。 Multi-Query

2024-10-16

LLM

#LLM #Attention

LLM(三)——Self-Attention、Multi-Head Attention和Transformer

LLM(三)——Self-Attention、Multi-Head Attention和Transformer

Self Attention就是Q、K、V均为同一个输入向量映射而来的Encoder-Decoder Attention，它可以无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构，实现也较为简单并且可以并行计算。 Multi-Head Attention同时计算多个Attention，并最终得到合并结果，通过计算多次来捕获不同子空间上的相关信息。一、Self-Attention 首先，

2024-10-10

LLM

#LLM #DL #Attention #Transformer

LLM(二)——Attention机制

LLM(二)——Attention机制

Attention 机制很像人类看图片的逻辑，当我们看一张图片的时候，我们并没有看清图片的全部内容，而是将注意力集中在了图片的焦点上。我们的视觉系统就是一种 Attention机制，将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。 seq2seq 在seq2seq中，有一个Encoder和一个Decoder，Encoder和Decoder都是RNN。seq2seq的缺点在

2024-10-03

LLM

#LLM #DL #Attention

LLM(一)——LLM简介

LLM(一)——LLM简介

一、语言模型的发展历程语言模型的发展历程从最初的简单统计模型到如今的复杂神经网络模型，经历了多个重要阶段。 1. 统计语言模型（Statistical Language Model, SLM）统计语言模型使用马尔可夫假设（Markov Assumption）来建立语言序列的预测模型，通常是根据词序列中若干个连续的上下文单词来预测下一个词的出现概率，即根据一个固定长度的前缀来预测目标单词。具有

2024-09-27

LLM

#LLM

LangGraph(七)——Code Generation

LangGraph(七)——Code Generation

一、 LangGraph for Code Generation 1.1 动机代码生成和分析是大型语言模型（LLMs）最重要的应用之一，这一点从GitHub Copilot这样的产品的普遍性以和GPT-engineer这样的项目的受欢迎程度就可见一斑。最近AlphaCodium的研究工作表明，通过使用流程范式而不是简单的prompt:answer，可以改进代码生成，答案可以通过迭代没（1）测试答

2024-09-21

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(六)——Reflection Agents

LangGraph(六)——Reflection Agents

Reflection Agents Reflection是一种提升Agent和类似AI系统质量和成功率的prompt策略，它涉及prompt大型语言模型（LLM）回顾和评判其过去的行为，有时还会结合额外的外部信息，如工具观察结果。 System 2相比与System 1更系统化和并且具有反思性。当正确应用时，Reflection可以帮助大型语言模型（LLM）系统打破System 1的思维模式，更接

2024-09-13

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(五)——Plan-and-Execute Agents

LangGraph(五)——Plan-and-Execute Agents

一、Plan-and-Execute Agents Plan-and-execute 架构：这是一种将规划（plan）和执行（execute）分离的智能代理设计模式。 LangGraph提出了三种 Plan-and-Execute 风格的 Agent，并且相对于传统ReAct风格的Agnet做了很多改进。速度提升：无需在每个动作后咨询更大的代理，子任务可以独立执行，减少对大型语言模型（LLM）

2024-09-07

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(四)——Self-Reflective RAG

LangGraph(四)——Self-Reflective RAG

一、Self-Reflective RAG 1.1 动机由于大多数大型语言模型（LLMs）只是定期在大量公共数据语料库上进行训练，它们缺乏最新的信息和/或无法用于训练的私有数据。检索增强生成（Retrieval augmented generation，RAG）是大型语言模型应用开发中的一个核心范式，它通过将大型语言模型连接到外部数据源来解决这个问题（请参阅我们的视频系列和博客文章）。RAG的基

2024-09-01

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(三)—— Multi-Agent Workflows

LangGraph(三)—— Multi-Agent Workflows

一、什么是Multi-Agent Multi-Agent 指的是由语言模型驱动的多个独立参与者，这些参与者以特定的方式相互连接。其中每个Agent可以拥有自己的prompt, LLM, tools和其他自定义代码，以便能更好的与其他Agent协作。因此在 Multi-Agent Workflows中有两个主要问题: 多个独立的Agent分别是什么这些Agent如何连接在LangGraph

2024-08-25

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(二)——Human-in-the-loop

LangGraph(二)——Human-in-the-loop

一、Human-in-the-loop（人机交互）在复杂的LLM应用中，一定程度的人工监督/批准/编辑功能还是比较重要的，LangGraph中有两种 Human-in-the-loop方式，分别是Interrupt 和 Authorize。 1.1 Interrupt Interrupt是最简单的控制形式，LangGraph中用户可以在某个action执行之前后之后中断，并将状态进行保存（保存

2024-08-19

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph