顺序统计量 求概率密度的微元法 若随机变量 \(X\) 的 PDF \(f(x)\) 在 \(x\) 处连续,则: \[ f(x)=\lim_{h\to 0}\frac{P(x< X\leq x+h)}{h} \] 或写作: \[ P(x<X\leq x+h)=f(x)h+o(h) \] 若随机向量 \((X_1,\ldots,X_n)\) 的 PDF \(f(x_1,\ldots,x_n)\) 2024-10-13 数学 #statistics
Maximum Mean Discrepancy \[ \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] MMD Maximum Mean Discrepancy (MMD)[1][2] 是一个衡量两个分布差异的指标。具体而言,设 \(p,q\) 是 \(\mathcal X\) 上的概率分布,给定从 \(p\) 采样出的独立同分布样本 \(X=\{x_1,\ldots,x_m 2024-07-08 机器学习 #machine learning
个人网站维护 网站结构 123456xyfjason.github.io # 引导页├── xyfjason.github.io/homepage # 学术主页├── xyfjason.github.io/notes # 笔记├── xyfjason.github.io/blog-main # 主博客├── xyfjason.github.io/bl 2024-06-25 技术栈 #blog
Flow Matching 连续归一化流 基于流的生成模型启发自物理中的流体力学。想象 \(\mathbb R^d\) 空间中有一系列粒子,在 \(t=0\) 时服从分布 \(p_0\),随时间流逝粒子在空间中流动,直至 \(t=1\) 时形成分布 \(p_1\). 于是这样的流动过程形成了从分布 \(p_0\) 到分布 \(p_1\) 的一个转换。如果我们能够为上述流体运动过程建立起模型,并控制 \(p_0\) 为某简单易 2024-06-22 生成模型 > Diffusion Models #generative models
Langevin Dynamics 在 Score-Based Generative Models 一文中,我们用到了 Langevin dynamics 进行采样,但没有解释其原理。另外,在 Elucidated Diffusion Models 一文中,我们提到常用的扩散 SDE 和 PF ODE 其实可以推广为一个由 PF ODE 与 Langevin diffusion SDE 组合而成的广义 SDE. 由此可见,Lange 2024-06-21 机器学习 #machine learning #stochastic process #physics
神经网络的Lipschitz连续性 Lipschitz 连续性 实值函数情形 定义:设有函数 \(f:D\subset\mathbb R^n\to\mathbb R\),若存在常数 \(K\) 使得: \[ \vert f(\mathbf x)-f(\mathbf y)\vert\leq K\Vert \mathbf x- \mathbf y\Vert,\quad\forall\ \mathbf x, \mathbf y\in D 2024-06-19 深度学习 #linear algebra #machine learning
Transformer中的位置编码 简介 众所周知,Transformer 中的注意力机制并不区分各个 token 的顺序,可以认为是对 token 集合进行操作,因此在需要明确 token 顺序的场景下,我们必须人为地在 token 中注入位置信息,这就是位置编码 (positional encoding)。理想的位置编码应该具有如下性质: 唯一性:每个位置都配备唯一的编码; 相对性:两个位置编码之间存在只与相对位置有关(与绝对 2024-06-10 深度学习 #deep learning
DPM-Solver DPM-Solver 从扩散 ODE 入手 相比扩散 SDE,由于扩散 ODE 没有随机性,更适合采用大步长以加速采样,因此本文作者只考虑扩散 ODE: \[ \mathrm d\mathbf x_t=\left[f(t)\mathbf x_t-\frac{1}{2}g^2(t)\nabla_{\mathbf x}\log q(\mathbf x_t)\right]\mathrm dt \] 代入 2024-05-14 生成模型 > Diffusion Models #generative models
扩散模型蒸馏方法 Introduction 尽管扩散模型在生成质量、似然估计和训练稳定性上表现出卓越的性能,但其最大的缺点就是采样耗时。为此,许多采样器被提出以加速采样过程,例如 DDIM, Analytic-DPM, PNDM, DPM-Solver 等等,它们着眼于更精确地求解扩散 ODE,例如采用高阶的求解器并充分利用扩散 ODE 的特殊结构。然而,受制于模型本身的误差,此类 training-free 的方 2024-05-06 生成模型 > Diffusion Models #generative models
Consistency Models Introduction 扩散模型虽然效果很好,但最大的缺点就是迭代式的生成效率太低。为了解决这个问题,宋飏等人在 Probability Flow ODE 的基础上建立了 consistency models,通过将 ODE 轨迹上的任何点(如 \(\mathbf x_t,\mathbf x_{t'},\mathbf x_T\))都映射到 ODE 的端点 \(\mathbf x_0\), 2024-05-05 生成模型 > Diffusion Models #generative models
再生核希尔伯特空间 \[ \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] 引言 在学习 SVM 时,我们了解到了解决线性不可分问题的一种常用技巧——核方法。核方法的基本思想是,对于数据空间中线性不可分的样本,将它们映射到更高维度(甚至无穷维)的特征空间后就可以变成线性可分的。进一步地,我们引入了核函数来实现高维特征空间中的内积运算,而不需要先将数 2024-04-30 机器学习 #machine learning
Moment Matching Moment Matching 设 \(p(\mathbf z)\) 是一个给定的分布,我们希望用一个指数族分布 \(q(\mathbf z)\) 去近似 \(p(\mathbf z)\): \[ q(\mathbf z)=h(\mathbf z)g(\boldsymbol\eta)\exp\left\{\boldsymbol\eta^T\mathbf u(\mathbf z)\right\} \ 2024-04-26 机器学习 #machine learning
蒙特卡洛采样 基础蒙特卡洛 设 \(X\) 为一随机变量,其 PDF 为 \(p(x)\),又设 \(f\) 为关于 \(X\) 的函数,考虑如下期望: \[ \mathbb E[f]=\int_xf(x)p(x)\mathrm dx \] 当 \(p(x)\) 或 \(f(x)\) 比较复杂时,上述积分往往是无法计算的。蒙特卡洛方法的思想是用随机采样去近似期望: \[ \hat f=\frac{1}{L}\s 2024-03-21 机器学习 #machine learning
Normalizing Flows 封面图片来自链接。 Brief Introduction 生成模型的目标是构建参数化模型 \(p_\theta(x)\) 近似真实数据分布 \(p_\text{data}(x)\),达成该目标的一种思路就是最大化训练样本的对数似然: \[ \max_\theta\;\mathbb E_{p_\text{data}(x)}[\log p_\theta(x)] \] 然而,直接计算对数似然是十分困 2024-03-07 生成模型 > Normalizing Flows #generative models
变分推断 近似推断 在许多机器学习问题中,一个核心任务是给定观测数据 \(x\),估计隐变量 \(z\) 的后验分布 \(p(z\vert x)\),或者估计某函数 \(f(z)\) 关于后验分布的期望 \(\mathbb E_{z\sim p(z\vert x)}[f(z)]\). 这样的估计过程就是所谓的推断 (inference)。例如,在 EM 算法中我们就需要估计完整数据的对数似然关于后验分布的期 2024-03-05 机器学习 #machine learning
子空间的距离 在机器学习研究中,我们有时会遇到以“一个集合的向量”而非“一个向量”为基本元素的问题,为此需要定义这些向量集合之间的距离。特别地,如果允许我们将每个向量集合视作一个线性子空间,那么问题就变成了如何度量两个线性子空间之间的距离。 Grassmann Manifold 用数学语言描述,设 \(a_1,\ldots,a_k\in\mathbb R^n\) 和 \(b_1,\ldots,b_k\in\ma 2024-03-02 机器学习 #linear algebra #machine learning
拉格朗日对偶 拉格朗日函数 考虑如下带约束的优化问题: \[ \begin{align} \min&\quad f(\mathbf x)\\ \text{s.t.}&\quad g_i(\mathbf x)\leq 0,\quad i=1,\ldots,m\\ &\quad h_i(\mathbf x)=0,\quad i=1,\ldots,k \end{align} \] 我们可以将其 2024-02-27 数学
Elucidated Diffusion Models Introduction 扩散模型的火热吸引了众多研究者,相关工作百花齐放,但这样繁荣的景象也就带来了一个问题——每篇论文都有一套自己的体系,缺乏一个统一的框架;并且扩散模型的各个组件相互耦合,不便于单独研究。终于,NVIDIA 的研究人员在论文[1]中详细阐述了扩散模型的设计空间。其实扩散模型无非由以下几部分构成: Formulation:扩散和去噪过程可以用 SDE/ODE 描述,方程的系数 2024-02-20 生成模型 > Diffusion Models #computer vision #generative models
矩母函数与特征函数 矩母函数 矩母函数的定义 设 \(X\) 为一个随机变量,其矩母函数(Moment-Generating Function, MGF)定义为: \[ M_X(t)=\mathbb E[e^{tX}]=\begin{cases} \displaystyle\sum_xe^{tx}p_{\small X}(x)&\text{discrete}\\ \displaystyle\int_{-\in 2024-01-28 数学 #statistics
Support Vector Machine 支持向量机 (SVM) 是一种基于间隔最大化的线性分类器。 当数据线性可分时,通过硬间隔最大化,可学习硬间隔支持向量机(线性可分支持向量机); 当数据近似线性可分时,通过软间隔最大化,可学习软间隔支持向量机(线性支持向量机); 当数据线性不可分时,利用核技巧以及软间隔最大化,可学习一般的非线性支持向量机。 在本文中,记数据集为 \(D=\{(\mathbf x_1,y_1),\ldots,(\ 2024-01-03 机器学习 #machine learning