xyfJASON

顺序统计量

求概率密度的微元法若随机变量 \(X\) 的 PDF \(f(x)\) 在 \(x\) 处连续，则： \[ f(x)=\lim_{h\to 0}\frac{P(x< X\leq x+h)}{h} \] 或写作： \[ P(x<X\leq x+h)=f(x)h+o(h) \] 若随机向量 \((X_1,\ldots,X_n)\) 的 PDF \(f(x_1,\ldots,x_n)\)

2024-10-13

数学

#statistics

Maximum Mean Discrepancy

\[ \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] MMD Maximum Mean Discrepancy (MMD)[1][2] 是一个衡量两个分布差异的指标。具体而言，设 \(p,q\) 是 \(\mathcal X\) 上的概率分布，给定从 \(p\) 采样出的独立同分布样本 \(X=\{x_1,\ldots,x_m

2024-07-08

机器学习

#machine learning

个人网站维护

网站结构 123456xyfjason.github.io # 引导页├── xyfjason.github.io/homepage # 学术主页├── xyfjason.github.io/notes # 笔记├── xyfjason.github.io/blog-main # 主博客├── xyfjason.github.io/bl

2024-06-25

技术栈

#blog

Flow Matching

连续归一化流基于流的生成模型启发自物理中的流体力学。想象 \(\mathbb R^d\) 空间中有一系列粒子，在 \(t=0\) 时服从分布 \(p_0\)，随时间流逝粒子在空间中流动，直至 \(t=1\) 时形成分布 \(p_1\). 于是这样的流动过程形成了从分布 \(p_0\) 到分布 \(p_1\) 的一个转换。如果我们能够为上述流体运动过程建立起模型，并控制 \(p_0\) 为某简单易

2024-06-22

生成模型 > Diffusion Models

#generative models

Langevin Dynamics

在 Score-Based Generative Models 一文中，我们用到了 Langevin dynamics 进行采样，但没有解释其原理。另外，在 Elucidated Diffusion Models 一文中，我们提到常用的扩散 SDE 和 PF ODE 其实可以推广为一个由 PF ODE 与 Langevin diffusion SDE 组合而成的广义 SDE. 由此可见，Lange

2024-06-21

机器学习

#machine learning #stochastic process #physics

神经网络的Lipschitz连续性

Lipschitz 连续性实值函数情形定义：设有函数 \(f:D\subset\mathbb R^n\to\mathbb R\)，若存在常数 \(K\) 使得： \[ \vert f(\mathbf x)-f(\mathbf y)\vert\leq K\Vert \mathbf x- \mathbf y\Vert,\quad\forall\ \mathbf x, \mathbf y\in D

2024-06-19

深度学习

#linear algebra #machine learning

Transformer中的位置编码

简介众所周知，Transformer 中的注意力机制并不区分各个 token 的顺序，可以认为是对 token 集合进行操作，因此在需要明确 token 顺序的场景下，我们必须人为地在 token 中注入位置信息，这就是位置编码 (positional encoding)。理想的位置编码应该具有如下性质：唯一性：每个位置都配备唯一的编码；相对性：两个位置编码之间存在只与相对位置有关（与绝对

2024-06-10

深度学习

#deep learning

DPM-Solver

DPM-Solver 从扩散 ODE 入手相比扩散 SDE，由于扩散 ODE 没有随机性，更适合采用大步长以加速采样，因此本文作者只考虑扩散 ODE： \[ \mathrm d\mathbf x_t=\left[f(t)\mathbf x_t-\frac{1}{2}g^2(t)\nabla_{\mathbf x}\log q(\mathbf x_t)\right]\mathrm dt \] 代入

2024-05-14

生成模型 > Diffusion Models

#generative models

扩散模型蒸馏方法

Introduction 尽管扩散模型在生成质量、似然估计和训练稳定性上表现出卓越的性能，但其最大的缺点就是采样耗时。为此，许多采样器被提出以加速采样过程，例如 DDIM, Analytic-DPM, PNDM, DPM-Solver 等等，它们着眼于更精确地求解扩散 ODE，例如采用高阶的求解器并充分利用扩散 ODE 的特殊结构。然而，受制于模型本身的误差，此类 training-free 的方

2024-05-06

生成模型 > Diffusion Models

#generative models

Consistency Models

Introduction 扩散模型虽然效果很好，但最大的缺点就是迭代式的生成效率太低。为了解决这个问题，宋飏等人在 Probability Flow ODE 的基础上建立了 consistency models，通过将 ODE 轨迹上的任何点（如 \(\mathbf x_t,\mathbf x_{t'},\mathbf x_T\)）都映射到 ODE 的端点 \(\mathbf x_0\)，

2024-05-05

生成模型 > Diffusion Models

#generative models

再生核希尔伯特空间

\[ \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] 引言在学习 SVM 时，我们了解到了解决线性不可分问题的一种常用技巧——核方法。核方法的基本思想是，对于数据空间中线性不可分的样本，将它们映射到更高维度（甚至无穷维）的特征空间后就可以变成线性可分的。进一步地，我们引入了核函数来实现高维特征空间中的内积运算，而不需要先将数

2024-04-30

机器学习

#machine learning

Moment Matching

Moment Matching 设 \(p(\mathbf z)\) 是一个给定的分布，我们希望用一个指数族分布 \(q(\mathbf z)\) 去近似 \(p(\mathbf z)\)： \[ q(\mathbf z)=h(\mathbf z)g(\boldsymbol\eta)\exp\left\{\boldsymbol\eta^T\mathbf u(\mathbf z)\right\} \

2024-04-26

机器学习

#machine learning

蒙特卡洛采样

基础蒙特卡洛设 \(X\) 为一随机变量，其 PDF 为 \(p(x)\)，又设 \(f\) 为关于 \(X\) 的函数，考虑如下期望： \[ \mathbb E[f]=\int_xf(x)p(x)\mathrm dx \] 当 \(p(x)\) 或 \(f(x)\) 比较复杂时，上述积分往往是无法计算的。蒙特卡洛方法的思想是用随机采样去近似期望： \[ \hat f=\frac{1}{L}\s

2024-03-21

机器学习

#machine learning

Normalizing Flows

封面图片来自链接。 Brief Introduction 生成模型的目标是构建参数化模型 \(p_\theta(x)\) 近似真实数据分布 \(p_\text{data}(x)\)，达成该目标的一种思路就是最大化训练样本的对数似然： \[ \max_\theta\;\mathbb E_{p_\text{data}(x)}[\log p_\theta(x)] \] 然而，直接计算对数似然是十分困

2024-03-07

生成模型 > Normalizing Flows

#generative models

变分推断

近似推断在许多机器学习问题中，一个核心任务是给定观测数据 \(x\)，估计隐变量 \(z\) 的后验分布 \(p(z\vert x)\)，或者估计某函数 \(f(z)\) 关于后验分布的期望 \(\mathbb E_{z\sim p(z\vert x)}[f(z)]\). 这样的估计过程就是所谓的推断 (inference)。例如，在 EM 算法中我们就需要估计完整数据的对数似然关于后验分布的期

2024-03-05

机器学习

#machine learning

子空间的距离

在机器学习研究中，我们有时会遇到以“一个集合的向量”而非“一个向量”为基本元素的问题，为此需要定义这些向量集合之间的距离。特别地，如果允许我们将每个向量集合视作一个线性子空间，那么问题就变成了如何度量两个线性子空间之间的距离。 Grassmann Manifold 用数学语言描述，设 \(a_1,\ldots,a_k\in\mathbb R^n\) 和 \(b_1,\ldots,b_k\in\ma

2024-03-02

机器学习

#linear algebra #machine learning

拉格朗日对偶

拉格朗日函数考虑如下带约束的优化问题： \[ \begin{align} \min&\quad f(\mathbf x)\\ \text{s.t.}&\quad g_i(\mathbf x)\leq 0,\quad i=1,\ldots,m\\ &\quad h_i(\mathbf x)=0,\quad i=1,\ldots,k \end{align} \] 我们可以将其

2024-02-27

数学

Elucidated Diffusion Models

Introduction 扩散模型的火热吸引了众多研究者，相关工作百花齐放，但这样繁荣的景象也就带来了一个问题——每篇论文都有一套自己的体系，缺乏一个统一的框架；并且扩散模型的各个组件相互耦合，不便于单独研究。终于，NVIDIA 的研究人员在论文[1]中详细阐述了扩散模型的设计空间。其实扩散模型无非由以下几部分构成： Formulation：扩散和去噪过程可以用 SDE/ODE 描述，方程的系数

2024-02-20

生成模型 > Diffusion Models

#computer vision #generative models

矩母函数与特征函数

矩母函数矩母函数的定义设 \(X\) 为一个随机变量，其矩母函数（Moment-Generating Function, MGF）定义为： \[ M_X(t)=\mathbb E[e^{tX}]=\begin{cases} \displaystyle\sum_xe^{tx}p_{\small X}(x)&\text{discrete}\\ \displaystyle\int_{-\in

2024-01-28

数学

#statistics

Support Vector Machine

支持向量机 (SVM) 是一种基于间隔最大化的线性分类器。当数据线性可分时，通过硬间隔最大化，可学习硬间隔支持向量机（线性可分支持向量机）；当数据近似线性可分时，通过软间隔最大化，可学习软间隔支持向量机（线性支持向量机）；当数据线性不可分时，利用核技巧以及软间隔最大化，可学习一般的非线性支持向量机。在本文中，记数据集为 \(D=\{(\mathbf x_1,y_1),\ldots,(\

2024-01-03

机器学习

#machine learning