扩散模型应用·可控生成 封面来自 CivitAI. GLIGEN University of Wisconsin-Madison Columbia University Microsoft 2023.01.17 ControlNet Stanford ICCV 2023 best paper 2023.02.10 尽管文生图大模型的出现让人们能够用自然语言方便地创作,但是文本的控制粒度终究还是比较粗糙,我们希望引入更 2023-02-11 生成模型 > Diffusion Models (Applications) #computer vision #generative models
扩散模型应用·个性化生成 封面来自 CivitAI. 个性化生成(personalized generation),也称作主体驱动生成(subject-driven generation),指的是用户提供若干张(甚至只有一张)某主体(人或物)的照片,模型生成该主体其他图像。 Textual Inversion Tel Aviv University NVIDIA 2022.08.02 顾名思义,Textual Inve 2023-02-11 生成模型 > Diffusion Models (Applications) #computer vision #generative models
扩散模型应用·寻找语义空间 \[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. Diffusion Autoencoders CVPR 2022 2021.11.30 尽管扩散模型的生成效果非常好,但是它缺乏有语义的隐空间,给一些下游应用带来了麻烦。即便是 DDIM 的确定性采样过程,其隐空间,即 \(\x_T\) 所在空间也不理想,典型表现就是 DDIM 的插值结果并不是平滑变 2023-02-11 生成模型 > Diffusion Models (Applications) #computer vision #generative models
扩散模型逆向方差的选取 \[ \newcommand{\x}{\mathbf x} \newcommand{\calN}{\mathcal N} \newcommand{\E}{\mathbb E} \] DDPM: 人为选取方差 首先做一个简要回顾。DDPM 定义前向马尔可夫过程为: \[ \begin{align} &q(\x_{1:T}\vert\x_0)=q(\x_0)\prod_{t=1}^T q(\x 2023-01-14 生成模型 > Diffusion Models #generative models
扩散模型应用·基于文本的图像编辑 \[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. DiffusionCLIP CVPR 2022 2021.10.06 DiffusionCLIP[1] 旨在用文本编辑图像,之前人们常使用 GAN inversion + CLIP 来做这个任务,但是作者指出 GAN inversion 的能力有限,难以重建原图中在训练集里不常见的部分(比如文章开篇大 2023-01-05 生成模型 > Diffusion Models (Applications) #computer vision #generative models
扩散模型应用·文生图大模型 \[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. GLIDE OpenAI 2021.12.20 GLIDE[1] 是 OpenAI 在 2021 年底推出的文本引导图像生成的扩散模型。GLIDE 沿用了 ADM[2] 架构,但是更大,有 2.3 billion 参数。为了向其中注入文本条件,作者首先将输入文本通过 BPE tokenizer 编码成 2023-01-05 生成模型 > Diffusion Models (Applications) #computer vision #generative models
扩散模型应用·图生图与图像恢复 \[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. 图生图可以泛指基于输入图像生成新图像的过程,因此诸如 image restoration(超分、去噪、填充、上色等)、image-to-image translation、style transfer 等任务都可以归为其中。特别地,本文不包括基于文本的图像编辑方法,相关内容可在扩散模型应用·基于文本的 2023-01-05 生成模型 > Diffusion Models (Applications) #computer vision #generative models
扩散模型的条件引导生成 \[ \newcommand{\x}{\mathbf x} \newcommand{\calN}{\mathcal N} \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] Preface 我们在之前的文章中关注的都是无条件生成,生成结果不受我们控制,特别是以 DDPM 为代表的采样过程本身就带有随机性的模型,即使用同样的初始变量 2022-12-29 生成模型 > Diffusion Models #generative models
不止去噪!任意退化模式上的扩散模型 \[ \newcommand{\x}{\mathbf x} \newcommand{\E}{\mathbb E} \newcommand{\calN}{\mathcal N} \newcommand{\I}{\mathbf I} \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] Cold Diffusion 站在 machine 2022-12-17 生成模型 > Diffusion Models #generative models
DDIM与加速采样 \[ \newcommand{\x}{\mathbf x} \newcommand{\I}{\mathbf I} \newcommand{\calN}{\mathcal N} \newcommand{\E}{\mathbb E} \] DDPM Recap 前向过程 设有一列 noise schedule:\(\{\beta_t\}_{t=1}^T\),记 \(\alpha_t=1-\beta_t 2022-12-14 生成模型 > Diffusion Models #generative models
搭建个人深度学习工作站(环境篇) 前言 硬件配置 主板:华硕 TUF GAMING B560M-PLUS WIFI CPU:Intel i7-11700 @ 2.50GHz 8核16线程 内存:英睿达 美光32GB(16Gx2)套装 DDR4 3600MHz GPU:NVIDIA RTX 3080Ti 硬盘: Samsung SSD 980 1TB x 2 WDC WD20EZBX-00A 2TB 电源:长城 猎金部落 额 2022-12-11 深度学习 #pytorch #linux
搭建个人深度学习工作站(操作系统篇) 说明:由于是个人使用,我安装的是 Windows + Ubuntu Server 双系统。用 Ubuntu Server 训练,用 Windows 摸鱼。 硬件配置 主板:华硕 TUF GAMING B560M-PLUS WIFI CPU:Intel i7-11700 @ 2.50GHz 8核16线程 内存:英睿达 美光32GB(16Gx2)套装 2022-12-11 深度学习 #pytorch #linux
扩散模型的SDE与ODE描述 \[ \newcommand{\x}{\mathbf x} \newcommand{\z}{\mathbf z} \newcommand{\E}{\mathbb E} \newcommand{\f}{\mathbf f} \newcommand{\w}{\mathbf w} \newcommand{\calN}{\mathcal N} \newcommand{\pdata}{p_\text{dat 2022-12-04 生成模型 > Diffusion Models #generative models
保研回忆录 话说我本来都想把保研回忆录给咕咕咕了,但是学弟突然邀请我做个保研分享,遂借此机会把坑给填上。 1 个人情况 1.1 基本情况 本科学校:C9 计算机专业 专业排名:3/300+ (Top 1%) 荣誉奖项:一次国家奖学金 竞赛奖项:ICPC 区域赛银,CCPC 区域赛银,数学竞赛省一,数学建模国赛省一 科研经历:夏令营期间有两个课题正在进行之中,无 2022-11-30 随笔
Score-Based Generative Models \[ \newcommand{\E}{\mathbb E} \newcommand{\pdata}{p_\text{data}} \newcommand{\x}{\mathbf x} \newcommand{\v}{\mathbf v} \newcommand{\R}{\mathbb R} \newcommand{\T}{\mathsf T} \] Brief Introduction 在从VAE 2022-10-13 生成模型 > Diffusion Models #generative models
从VAE到DDPM \[ \newcommand{\E}{\mathbb E} \newcommand{\KL}{\mathrm{KL}} \newcommand{\calN}{\mathcal N} \newcommand{\x}{\mathbf x} \newcommand{\z}{\mathbf z} \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=} 2022-09-29 生成模型 > Diffusion Models #generative models
Variational Autoencoder 核心思想 VAE 是一种基于隐变量的生成模型,它将隐变量 \(z\in\mathbb R^d\)(一般采自正态分布)映射到 \(x\in\mathbb R^D\),并要求 \(x\) 的分布尽可能接近真实数据的分布。这个映射不是确定性的,因此可以写作概率分布的形式 \(p_\theta(x\vert z)\),其中 \(\theta\) 是模型参数。那么,模型能够生成的所有样本的分布为: \[ p 2022-09-17 生成模型 > VAEs #generative models
计算机视觉常用数据集 本文记录计算机视觉中常用的数据集,包括它们的官网、下载链接、目录结构、文件大小、加载方式等等。其中「本地目录结构」为我个人组织数据的方式,仅供参考。 AFHQ 官网 | Paper with Code | Dropbox 简要介绍:Animal FacesHQ (AFHQ) 是一个高质量动物面部图像的数据集,包含猫、狗和野生动物三个域。所有图像都已经过水平和垂直对齐,以确保将眼睛置于图像中心。低质 2022-09-14 计算机视觉 #computer vision
Score Function Estimator and Reparameterization Trick The Problem 一般而言,许多机器学习/深度学习的优化目标长这样: \[ \mathbb E_{z\sim \mathcal P}[f_\theta(z)]\tag{1}\label{1} \] 训练时用蒙特卡洛采样近似上述期望: \[ \mathbb E_{z\sim\mathcal P}[f_\theta(z)]\approx\frac{1}{N}\sum_{n=1}^N f_\the 2022-09-06 机器学习 #machine learning
Soft k-means 在 k-means 聚类中,每一个数据点隶属于一个类,这是一种 hard 的模式。与之相对的,soft clustering 不把一个数据点硬分给一类,而是给出它属于各个类的“置信度”,表示它属于各个类的程度。在有些场景下,我们也许更希望使用 soft 模式。本文试从两种角度推导 soft 版本的 k-means 算法。 角度 1:Hard k-means → Soft k-means 在之前的文 2022-09-04 机器学习 #machine learning