Suny的文章
  • 首页
  • 归档
  • 分类
  • 标签
  • it-tools
  • 关于
  • 文档
    安装主题 配置指南 图标用法
条件随机场

条件随机场

条件随机场(Conditional Random Field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。 1. 概率无向图模型 概率无向图模型(Prodbabilistic Undirected Graphical Model),又称为马尔科夫随机场(Markov Random Field),是一个可以由无向图模型表示的联
2023-12-13
math
#math #ML #CRF
隐马尔科夫模型

隐马尔科夫模型

隐马尔科夫模型(Hidden Markov Model, HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔科夫链随机生成观测序列的过程,属于生成模型。 1. HMM 的基本概念 1.1 HMM 的定义 HMM 是关于时序的概率模型,描述一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态的序列,称为状态序列(S
2023-11-20
math
#math #ML #HMM
贝叶斯分类器

贝叶斯分类器

1.贝叶斯公式 条件概率公式 设 A , B 是两个事件,且 P(B) > 0 ,则在事件 B 发生的条件下,事件 A 发生的条件概率(conditional probability)为: 全概率公式 如果事件 B1, B2, ⋯, Bn 满足 Bi ∩ Bj = ∅, i ≠ j     i, j = 1, 2, ⋯, n , 且 P(Bi) > 0, B1 ∪ B2 ∪ ⋯Bn
2023-11-03
math
#math #ML #Bayes
聚类

聚类

1.有监督学习与无监督学习 首先,看一下有监督学习(Supervised Learning)和无监督学(Unsupervised Learning)习的区别,给定一组数据(input,target)为 Z = (X, Y) 。 有监督学习: 最常见的是回归(regression)和分类(classification)。 Regression: Y 是实数向量。回归问题,就是拟合 (X, Y) 的
2023-10-11
math
#math #ML
SVM(支持向量机)

SVM(支持向量机)

1.预备知识 1.1 KKT 条件 无约束优化 对于变量 x ∈ ℝn 的函数 f(x) ,无约束优化问题如下: minxf(x) 直接找到使目标函数导数为 0 的点即可,即 f′(x) = 0 ,如果没有解析解可以使用梯度下降或牛顿法等通过迭代使 x 沿负梯度方向逐渐逼近最小值点。 等式约束 如下等式约束问题: 约束条件会将解的范围限定在一个可行区域,此时不一定能找到 f′(x) 为 0 的点
2023-09-17
math
#math #ML #SVM
EM算法

EM算法

1.基础知识 1.1.高斯混合模型 高斯混合模型是有如下形式的概率分布模型: 其中 πk > 0 为混合系数, , θ = (θ1, ⋯, θK)T , θk = (πk, μk, σk2) ,多元变量 θk = (πk, ∑k) , ∑k 为第 k 个高斯混合成分的参数。 假设观测数据 x1, x2, ⋯, xn ∈ R 由 K 个组分的高斯混合模型生成。 高斯混合分布的对数最大化似
2023-08-23
math
#math #ML #EM
最大熵模型

最大熵模型

1.熵 决策树中已经说明。 2.最大熵模型 2.1熵的定义 假设随机变量 X 的概率分布为 P(X) , X 取值为 x1, x2, ⋯, xn , p(xi) = P(X = xi) ,则由上节我们可知息熵的计算公式如下: 用 I(xi) = −log p(xi) 来表示事件 xi 的信息量,则 H(X) 即为随机变量 X 的平均信息量(期望)。熵满足下列不等式: 0 ≤ H(X) ≤ log
2023-08-08
math
#math #ML #MaxEnt
梯度提升树GBDT

梯度提升树GBDT

1.提升树 提升树模型实际采用加法模型(即基函数的线性组合)与前向分步算法,以决策树为基函数的提升方法称为提升树(Boosting Tree)。提升树模型可以表示为决策树的加法模型: 其中, T(x; Θm) 表示决策树; Θm 为决策树的参数; M 为树的个数。 1.1提升树算法 提升树算法采用前向分步算法。首先确定初始提升树 f0(x) = 0 ,第 m 步的模型是: fm(x) = fm
2023-07-17
math
#math #ML
AdaBoost

AdaBoost

1.算法流程 设训练数据集 T = {(x1, y1), (x2, y2), ⋯, (xN, yN)}, xi ∈ 𝒳 ⊆ Rn, xi ∈ 𝒴 = {−1, +1} (1)初始化时训练数据的权重 (2)对 m = 1, 2, ⋯, M ,使用具有权重分布的 Dm 进行训练,得到基本分类器 Gm(x) : 𝒳 → {−1, +1} 计算 Gm(x) 在训练数据集上的分类误差率: 将 用
2023-07-04
math
#math #ML
决策树

决策树

决策树学习,假设给定训练数据集: D = {(x1, y1), (x2, y2), ⋯, (xN, yN)} 其中 xi = (xi(1), xi(2), ⋯, xi(n))T 为输入实例, n 为特征个数,y ∈ {1, 2, ⋯, K}为类标记, N 为样本容量。学习目标是根据训练数据构建一个决策树模型,使它能够对实例正确分类。 1.熵 信息是个很抽象的概念,接下来我们从文件压缩问题来说明信息
2023-06-22
math
#math #ML
logistic回归

logistic回归

对于二分类问题,假设y ∈ {0, 1},而线性回归预测值 z = θTx 是一个实值,对于这个问题,我们引入sigmoid函数: ,sigmoid函数可以将 z 值转化为0到1之间的一个值,sigmoid函数特性 y′ = y(1 − y) 。即预测函数 可推导出 若将 y 看做 x 为正样本的概率,则 1 − y 即为 x 为负样本的概率, 称为几率(odds),反映 x 作为正样本的
2023-06-08
math
#math #ML
线性回归

线性回归

线性回归最简单的形式:D = {(xi, yi)}i = 1m, xi ∈ ℝ,线性回归试图学得合适的 w 和 b ,使得 f(xi) = wxi + b, f(xi) ≃ yi 即使得 f(xi) 与 yi 之间的差别尽量小,因此我们可以使其均方误差最小,即 令 分别对 w, b 求偏导 令偏导为零可得 求得 其中 . 对于多参数情形: f(xi) = wTxi + b, f(x
2023-05-20
math
#math #ML
1…345

搜索

川公网安备 川公网安备 51015602000856号 蜀ICP备2024061486号-1