xyfJASON

扩散模型应用·个性化生成

封面来自 CivitAI. 个性化生成（personalized generation），也称作主体驱动生成（subject-driven generation），指的是用户提供若干张（甚至只有一张）某主体（人或物）的照片，模型生成该主体其他图像。 Textual Inversion Tel Aviv University NVIDIA 2022.08.02 顾名思义，Textual Inve

2023-02-11

生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型应用·寻找语义空间

\[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. Diffusion Autoencoders CVPR 2022 2021.11.30 尽管扩散模型的生成效果非常好，但是它缺乏有语义的隐空间，给一些下游应用带来了麻烦。即便是 DDIM 的确定性采样过程，其隐空间，即 \(\x_T\) 所在空间也不理想，典型表现就是 DDIM 的插值结果并不是平滑变

2023-02-11

生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型逆向方差的选取

\[ \newcommand{\x}{\mathbf x} \newcommand{\calN}{\mathcal N} \newcommand{\E}{\mathbb E} \] DDPM: 人为选取方差首先做一个简要回顾。DDPM 定义前向马尔可夫过程为： \[ \begin{align} &q(\x_{1:T}\vert\x_0)=q(\x_0)\prod_{t=1}^T q(\x

2023-01-14

生成模型 > Diffusion Models

#generative models

扩散模型应用·基于文本的图像编辑

\[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. DiffusionCLIP CVPR 2022 2021.10.06 DiffusionCLIP[1] 旨在用文本编辑图像，之前人们常使用 GAN inversion + CLIP 来做这个任务，但是作者指出 GAN inversion 的能力有限，难以重建原图中在训练集里不常见的部分（比如文章开篇大

2023-01-05

生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型应用·文生图大模型

\[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. GLIDE OpenAI 2021.12.20 GLIDE[1] 是 OpenAI 在 2021 年底推出的文本引导图像生成的扩散模型。GLIDE 沿用了 ADM[2] 架构，但是更大，有 2.3 billion 参数。为了向其中注入文本条件，作者首先将输入文本通过 BPE tokenizer 编码成

2023-01-05

生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型应用·图生图与图像恢复

\[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. 图生图可以泛指基于输入图像生成新图像的过程，因此诸如 image restoration（超分、去噪、填充、上色等）、image-to-image translation、style transfer 等任务都可以归为其中。特别地，本文不包括基于文本的图像编辑方法，相关内容可在扩散模型应用·基于文本的

2023-01-05

生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型的条件引导生成

\[ \newcommand{\x}{\mathbf x} \newcommand{\calN}{\mathcal N} \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] Preface 我们在之前的文章中关注的都是无条件生成，生成结果不受我们控制，特别是以 DDPM 为代表的采样过程本身就带有随机性的模型，即使用同样的初始变量

2022-12-29

生成模型 > Diffusion Models

#generative models

不止去噪！任意退化模式上的扩散模型

\[ \newcommand{\x}{\mathbf x} \newcommand{\E}{\mathbb E} \newcommand{\calN}{\mathcal N} \newcommand{\I}{\mathbf I} \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] Cold Diffusion 站在 machine

2022-12-17

生成模型 > Diffusion Models

#generative models

DDIM与加速采样

\[ \newcommand{\x}{\mathbf x} \newcommand{\I}{\mathbf I} \newcommand{\calN}{\mathcal N} \newcommand{\E}{\mathbb E} \] DDPM Recap 前向过程设有一列 noise schedule：\(\{\beta_t\}_{t=1}^T\)，记 \(\alpha_t=1-\beta_t

2022-12-14

生成模型 > Diffusion Models

#generative models

搭建个人深度学习工作站（环境篇）

前言硬件配置主板：华硕 TUF GAMING B560M-PLUS WIFI CPU：Intel i7-11700 @ 2.50GHz 8核16线程内存：英睿达美光32GB(16Gx2)套装 DDR4 3600MHz GPU：NVIDIA RTX 3080Ti 硬盘： Samsung SSD 980 1TB x 2 WDC WD20EZBX-00A 2TB 电源：长城猎金部落额

2022-12-11

深度学习

#pytorch #linux

搭建个人深度学习工作站（操作系统篇）

说明：由于是个人使用，我安装的是 Windows + Ubuntu Server 双系统。用 Ubuntu Server 训练，用 Windows 摸鱼。硬件配置主板：华硕 TUF GAMING B560M-PLUS WIFI CPU：Intel i7-11700 @ 2.50GHz 8核16线程内存：英睿达美光32GB(16Gx2)套装

2022-12-11

深度学习

#pytorch #linux

扩散模型的SDE与ODE描述

\[ \newcommand{\x}{\mathbf x} \newcommand{\z}{\mathbf z} \newcommand{\E}{\mathbb E} \newcommand{\f}{\mathbf f} \newcommand{\w}{\mathbf w} \newcommand{\calN}{\mathcal N} \newcommand{\pdata}{p_\text{dat

2022-12-04

生成模型 > Diffusion Models

#generative models

保研回忆录

话说我本来都想把保研回忆录给咕咕咕了，但是学弟突然邀请我做个保研分享，遂借此机会把坑给填上。 1 个人情况 1.1 基本情况本科学校：C9 计算机专业专业排名：3/300+ (Top 1%) 荣誉奖项：一次国家奖学金竞赛奖项：ICPC 区域赛银，CCPC 区域赛银，数学竞赛省一，数学建模国赛省一科研经历：夏令营期间有两个课题正在进行之中，无

2022-11-30

随笔

Score-Based Generative Models

\[ \newcommand{\E}{\mathbb E} \newcommand{\pdata}{p_\text{data}} \newcommand{\x}{\mathbf x} \newcommand{\v}{\mathbf v} \newcommand{\R}{\mathbb R} \newcommand{\T}{\mathsf T} \] Brief Introduction 在从VAE

2022-10-13

生成模型 > Diffusion Models

#generative models

从VAE到DDPM

\[ \newcommand{\E}{\mathbb E} \newcommand{\KL}{\mathrm{KL}} \newcommand{\calN}{\mathcal N} \newcommand{\x}{\mathbf x} \newcommand{\z}{\mathbf z} \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}

2022-09-29

生成模型 > Diffusion Models

#generative models

VAE梳理

虽然早在看 CS231n 时就学过 VAE 了，但当时学的可谓是不明不白、一塌糊涂，假装懂了的样子就把它放过去了。其实倒也无可厚非，毕竟那时候刚刚入门，如果硬攻的话不知要浪费多少时间。今天就让我们好好学它一遭！核心思想 VAE 的目标是学习一个生成器，将随机向量 \(z\in\mathbb R^d\)（一般采自正态分布）映射到 \(x\in\mathbb R^D\)，要求 \(x\) 的分布尽可

2022-09-17

生成模型 > VAEs

#generative models

计算机视觉常用数据集

本文记录计算机视觉中常用的数据集，包括它们的官网、下载链接、目录结构、文件大小、加载方式等等。其中「本地目录结构」为我个人组织数据的方式，仅供参考。 AFHQ 官网 | Paper with Code | Dropbox 简要介绍：Animal FacesHQ (AFHQ) 是一个高质量动物面部图像的数据集，包含猫、狗和野生动物三个域。所有图像都已经过水平和垂直对齐，以确保将眼睛置于图像中心。低质

2022-09-14

计算机视觉

#computer vision

soft k-means

在 k-means 聚类中，每一个数据点隶属于一个类，这是一种 hard 的模式。与之相对的，soft clustering 不把一个数据点硬分给一类，而是给出它属于各个类的“置信度”，表示它属于各个类的程度。在有些场景下，我们也许更希望使用 soft 模式。本文试从两种角度推导 soft 版本的 k-means 算法。角度 1：hard k-means → soft k-means 在之前的文

2022-09-04

机器学习

#machine learning

EM算法

EM 算法是极大似然法的推广，用于解决存在隐变量（hidden variables / latent factors）的参数估计问题。 1 EM 算法 1.1 问题描述极大似然法是最常用的参数估计方法之一。设观测变量为 \(x\)，模型参数为 \(\theta\)，则极大似然法通过最大化似然函数 \(P(x\vert\theta)\) 或对数似然 \(\log P(x\vert\theta)\)

2022-08-23

机器学习

#machine learning

PyTorch单机多卡从入门到入土（坑点记录）

在 Vision 里用上 Transformer 之后，单卡训练连两位数的 batchsize 都开不了，必须得学学单机多卡的使用了。 PyTorch 中，多卡训练有两种方案： DataParallel：只支持单机多卡，代码很方便，只需要添加一行，但是效率比较低，不推荐使用 DistributedDataParallel：支持多机多卡，效率高，但是要折腾一下代码基于性能考虑，一般我们会选择第

2022-08-18

深度学习

#deep learning #pytorch