Suny的文章

LLM(五)——Hardware Optimization Attention

一、PagedAttention vLLM发现LLM 服务的性能受到内存瓶颈的影响。在自回归 decoder 中，所有输入到 LLM 的 token 会产生注意力 key 和 value 的张量，这些张量保存在 GPU 显存中以生成下一个 token。这些缓存 key 和 value 的张量通常被称为 KV cache，其具有以下特点：显存占用大：在 LLaMA-13B 中，缓存单个序列最多需

2024-10-20

LLM

#LLM #Attention #PagedAttention #FlashAttention

LLM(四)——Attention变种

一、Multi-Query Attention（MQA）多查询注意力（MQA）是多头注意力（MHA）算法的改进版本，它可以在不牺牲模型精度的情况下提高计算效率。在标准 MHA 中，单独的线性变换应用于每个注意力头的查询 (Q)、键 (K) 和值 (V)。 MQA 与此不同，它在所有头中使用一组共享的键 (K) 和值 (V)，同时允许对每个查询 (Q) 进行单独的转换。 Multi-Query

2024-10-16

LLM

#LLM #Attention

LLM(三)——Self-Attention、Multi-Head Attention和Transformer

Self Attention就是Q、K、V均为同一个输入向量映射而来的Encoder-Decoder Attention，它可以无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构，实现也较为简单并且可以并行计算。 Multi-Head Attention同时计算多个Attention，并最终得到合并结果，通过计算多次来捕获不同子空间上的相关信息。一、Self-Attention 首先，

2024-10-10

LLM

#LLM #DL #Attention #Transformer

LLM(二)——Attention机制

Attention 机制很像人类看图片的逻辑，当我们看一张图片的时候，我们并没有看清图片的全部内容，而是将注意力集中在了图片的焦点上。我们的视觉系统就是一种 Attention机制，将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。 seq2seq 在seq2seq中，有一个Encoder和一个Decoder，Encoder和Decoder都是RNN。seq2seq的缺点在

2024-10-03

LLM

#LLM #DL #Attention

LLM(一)——LLM简介

一、语言模型的发展历程语言模型的发展历程从最初的简单统计模型到如今的复杂神经网络模型，经历了多个重要阶段。 1. 统计语言模型（Statistical Language Model, SLM）统计语言模型使用马尔可夫假设（Markov Assumption）来建立语言序列的预测模型，通常是根据词序列中若干个连续的上下文单词来预测下一个词的出现概率，即根据一个固定长度的前缀来预测目标单词。具有

2024-09-27

LLM

#LLM

LangGraph(七)——Code Generation

一、 LangGraph for Code Generation 1.1 动机代码生成和分析是大型语言模型（LLMs）最重要的应用之一，这一点从GitHub Copilot这样的产品的普遍性以和GPT-engineer这样的项目的受欢迎程度就可见一斑。最近AlphaCodium的研究工作表明，通过使用流程范式而不是简单的prompt:answer，可以改进代码生成，答案可以通过迭代没（1）测试答

2024-09-21

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(六)——Reflection Agents

Reflection Agents Reflection是一种提升Agent和类似AI系统质量和成功率的prompt策略，它涉及prompt大型语言模型（LLM）回顾和评判其过去的行为，有时还会结合额外的外部信息，如工具观察结果。 System 2相比与System 1更系统化和并且具有反思性。当正确应用时，Reflection可以帮助大型语言模型（LLM）系统打破System 1的思维模式，更接

2024-09-13

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(五)——Plan-and-Execute Agents

一、Plan-and-Execute Agents Plan-and-execute 架构：这是一种将规划（plan）和执行（execute）分离的智能代理设计模式。 LangGraph提出了三种 Plan-and-Execute 风格的 Agent，并且相对于传统ReAct风格的Agnet做了很多改进。速度提升：无需在每个动作后咨询更大的代理，子任务可以独立执行，减少对大型语言模型（LLM）

2024-09-07

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(四)——Self-Reflective RAG

一、Self-Reflective RAG 1.1 动机由于大多数大型语言模型（LLMs）只是定期在大量公共数据语料库上进行训练，它们缺乏最新的信息和/或无法用于训练的私有数据。检索增强生成（Retrieval augmented generation，RAG）是大型语言模型应用开发中的一个核心范式，它通过将大型语言模型连接到外部数据源来解决这个问题（请参阅我们的视频系列和博客文章）。RAG的基

2024-09-01

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(三)—— Multi-Agent Workflows

一、什么是Multi-Agent Multi-Agent 指的是由语言模型驱动的多个独立参与者，这些参与者以特定的方式相互连接。其中每个Agent可以拥有自己的prompt, LLM, tools和其他自定义代码，以便能更好的与其他Agent协作。因此在 Multi-Agent Workflows中有两个主要问题: 多个独立的Agent分别是什么这些Agent如何连接在LangGraph

2024-08-25

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(二)——Human-in-the-loop

一、Human-in-the-loop（人机交互）在复杂的LLM应用中，一定程度的人工监督/批准/编辑功能还是比较重要的，LangGraph中有两种 Human-in-the-loop方式，分别是Interrupt 和 Authorize。 1.1 Interrupt Interrupt是最简单的控制形式，LangGraph中用户可以在某个action执行之前后之后中断，并将状态进行保存（保存

2024-08-19

LangGraph

#LLM #LLM学习笔记 #Agent #LangGraph

LangGraph(一)——LangGraph简介

一、LangGraph LangGraph官方介绍：https://blog.langchain.dev/langgraph/ 1.1 简介 LangGraph 是构建在 LangChain 之上的，并且与 LangChain 生态系统完全互操作。它主要通过引入一种简单的方式创建循环图。这在创建Agent Runtimes通常非常有用。 1.2 动机通过LCEL(LangChain Expr

2024-08-13

LangGraph

#LLM #LLM学习笔记 #LangGraph

LangChain(七)——Callback

LangChain模块架构图 [1] 一、必不可缺的 Callback 回调系统 Callback 回调系统让我们可以连接到 LLM 应用的各个阶段，这对于日志记录、监控、流传输等非常有用。LangChain提供了一些Callback处理程序，在langchain/callbacks模块中找到。 1.1 最基本的Callback StdOutCallbackHandler是一个最基本的处理程序，

2024-08-06

LangChain

#LLM #LLM学习笔记 #LangChain

LangChain(六)——Agents

LangChain模块架构图 [1] 一、智能体架构：Agent 1.1 什么是智能体（Agent）将大语言模型作为一个推理引擎。给定一个任务，智能体自动生成完成任务所需的步骤，执行相应动作（例如选择并调用工具），直到任务完成。 Agent 继承了 Chain 的所有能力 Chain 的能力构成了 Agent 的 “推理链” 能力基础 Agent 的执行器（Executor）就是基于 L

2024-07-29

LangChain

#LLM #LLM学习笔记 #LangChain

LangChain(五)——Chanis

LangChain模块架构图 [1] 一、Chains 1.1 LLM链将大语言模型(LLM)和提示（Prompt）组合成链。这个大语言模型链非常简单，可以让我们以一种顺序的方式去通过运行提示并且结合到大语言模型中。 123456789101112from langchain_openai import ChatOpenAIfrom langchain.prompts import ChatP

2024-07-22

LangChain

#LLM #LLM学习笔记 #LangChain

LangChain(四)——Memory

LangChain模块架构图 [1] 一、记忆封装：Memory 简介 Memory模块可以帮助保存和管理历史聊天消息，以及构建关于特定实体的知识。这些组件可以跨多轮对话储存信息，并允许在对话期间跟踪特定信息和上下文。对话缓存储存 (ConversationBufferMemory) 对话缓存窗口储存 (ConversationBufferWindowMemory) 对话令牌缓存储存 (C

2024-07-15

LangChain

#LLM #LLM学习笔记 #LangChain

LangChain(三)——Data Connection

LangChain模块架构图 [1] 一、Retrieval简介 Document Loaders：从不同的源加载文档 Document Transformers：拆分文档，删除冗余文档等 Embedding Models：获取结构化文本并将其转化为向量数据 Vector Stores：存储和搜索向量数据 Retrievers：从Vector Stores和其他数据源查询数据 Indexing

2024-07-06

LangChain

#LLM #LLM学习笔记 #LangChain

LangChain(二)——Model I/O

LangChain模块架构图 [1] 一、Model I/O 简介 Model I/O三元组 PromptTemple：模板化、动态选择和管理模型输入 Language Models：通过通用接口调用LLM OutputParser：从LLM输出中提取信息数据流：Prompt->Model->Output Parser 二、模型API 2.1 OpenAI模型封装 12345

2024-06-28

LangChain

#LLM #LLM学习笔记 #LangChain

LangChain(一)——LangChain简介

一、LangChain简介 1.1 什么是LangChain LangChain 是用于构建大模型应用程序的开源框架，它由模块化的组件构成，可单独使用也可链式组合实现端到端应用。 LangChain核心组件 Model I/O 封装 Models：大语言模型封装，包含LLMs和Chat Models（一般基于 LLMs，但按对话结构重新封装） PromptTemple：提示词模板 Output

2024-06-21

LangChain

#LLM #LLM学习笔记 #LangChain