[Stable Diffusion]ControlNet代码分析 ControlNet v1.0: GitHub: https://github.com/lllyasviel/ControlNet/ HuggingFace: https://huggingface.co/lllyasviel/ControlNet/ ControlNet v1.1: GitHub: https://github.com/lllyasviel/ControlNet-v1-1- 2023-12-01 技术博客 > AIGC #generative models #AIGC #stable diffusion
生成模型中的互信息 基础知识 在信息论中,随机变量 \(X\) 的(微分)熵定义为 \(-\log p(x)\) 的期望: \[ H(X)=-\int_xp(x)\log p(x)\mathrm dx=-\mathbb E_X[\log p(X)] \] 当涉及两个随机变量 \(X,Y\) 时,对它们的联合分布求熵也就得到了联合熵: \[ H(X,Y)=-\int_x\int_yp(x,y)\log p(x,y)\m 2023-09-15 技术博客 > 生成模型 #generative models #information theory
Sublime Text 配置 官网下载 Sublime Text 4 官网链接:https://www.sublimetext.com/ 安装 Package Control 简介:Package Control 是管理 Sublime Text 插件的插件,以后下载其他插件可以通过它来下载。 下载:cmd+shift+p 打开 command palette,输入 Install Package Control,回车。 使用 2023-09-09 技术博客 > 技术栈
扩散模型中的信噪比 由于扩散模型存在多种解释角度,并且有很多人在研究它,因此大家用的推导体系和书写符号或多或少有一些差异。在 Google 的这两篇论文中——Variational Diffusion Models[1]、Progressive Distillation for Fast Sampling of Diffusion Models[2],作者将信噪比显式地写入了扩散模型的公式之中,并由此引出了对可学习噪 2023-08-08 技术博客 > 生成模型 > Diffusion Models #generative models
[Stable Diffusion]训练你的LoRA(Linux) 简介 LoRA 是一种参数高效微调方法(PEFT),最早由 LoRA: Low-Rank Adaptation of Large Language Models 提出并应用于微调语言大模型之中,后来由 Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning 引入到对 Stable Diffusion 模型的微调之中。LoRA 2023-06-21 技术博客 > AIGC #generative models #AIGC #stable diffusion
[Stable Diffusion]模型概览 前置 代码库 官方 GitHub 仓库: 基于 Latent Diffusion 仓库搭建,常用于科研人员做基于 Stable Diffusion 的实验和开发。 Stable Diffusion v2.0 ~ v2.1: https://github.com/Stability-AI/StableDiffusion Stable Diffusion v1.1 ~ v1.5: https:// 2023-06-16 技术博客 > AIGC #generative models #AIGC #stable diffusion
[Stable Diffusion]webui部署(Linux) Github: https://github.com/AUTOMATIC1111/stable-diffusion-webui 部署环境 操作系统:Ubuntu Server 22.04(无图形界面) GPU:一张 NVIDIA RTX 3080Ti 显卡(12 GB 显存) 准备部署完成后通过其他电脑的浏览器访问服务器的 webui 服务。 全自动安装 官方给出的 Linux 安装指导非常简 2023-06-14 技术博客 > AIGC #generative models #AIGC #stable diffusion
StyleGAN 系列 StyleGAN 如果要说 StyleGAN 的最大的贡献,无疑是改变了传统的生成器架构,通过把隐变量分层引入到 backbone 网络,揭示了网络的各层能够控制生成图像的不同抽象程度的语义,从而在一定程度上实现了无监督特征解耦。另外,作者提出的 FFHQ 数据集也是一个很大的贡献,在之后的生成模型研究乃至 low-level vision 领域中都经常用到。 网络架构设计 在 StyleGAN 2023-06-08 技术博客 > 生成模型 > GANs #generative models
Midjourney 调研 官网 | 文档 特别说明:本文展示的所有图片都经过了大幅度的缩小和压缩处理,并非原图。 模型版本 使用 --version 或 --v 参数来指定版本。 v5.2:该版本有更好的颜色、对比度和结构,有略微更好的文本理解能力。对 --stylize 参数响应度更高。特别地,如果不想要 Midjourney 的默认审美风格,可以加参数 --style 2023-06-03 技术博客 > AIGC #generative models #AIGC
Vector-Quantization VQ-VAE VQ-VAE[1] 是 Google DeepMind 在 2017 年提出的一个类 VAE 生成模型,相比普通的 VAE,它有两点不同: 隐空间是离散的,通过 VQ (Vector Quantization) 操作实现; 先验分布是学习出来的。 为什么要用离散的隐空间呢?首先,离散的表征更符合一些模态的自然属性,比如语言、语音,而图像也能用语言描述;其次,离散表征更适合推理、规 2023-03-29 技术博客 > 生成模型 > VAEs #generative models
扩散模型应用·可控生成 封面来自 CivitAI. GLIGEN University of Wisconsin-Madison Columbia University Microsoft 2023.01.17 ControlNet Stanford ICCV 2023 best paper 2023.02.10 尽管文生图大模型的出现让人们能够用自然语言方便地创作,但是文本的控制粒度终究还是比较粗糙,我们希望引入更 2023-02-11 技术博客 > 生成模型 > Diffusion Models #computer vision #generative models
扩散模型应用·个性化生成 封面来自 CivitAI. 个性化生成(personalized generation),也称作主体驱动生成(subject-driven generation),指的是用户提供若干张(甚至只有一张)某物体的照片,模型生成该物体其他图像。 Textual Inversion Tel Aviv University NVIDIA 2022.08.02 顾名思义,Textual Inversion 2023-02-11 技术博客 > 生成模型 > Diffusion Models #computer vision #generative models
扩散模型应用·寻找语义空间 \[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. Diffusion Autoencoders CVPR 2022 2021.11.30 尽管扩散模型的生成效果非常好,但是它缺乏有语义的隐空间,给一些下游应用带来了麻烦。即便是 DDIM 的确定性采样过程,其隐空间,即 \(\x_T\) 所在空间也不理想,典型表现就是 DDIM 的插值结果并不是平滑变 2023-02-11 技术博客 > 生成模型 > Diffusion Models #computer vision #generative models
扩散模型应用·基于文本的图像编辑 \[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. DiffusionCLIP CVPR 2022 2021.10.06 DiffusionCLIP[1] 旨在用文本编辑图像,之前人们常使用 GAN inversion + CLIP 来做这个任务,但是作者指出 GAN inversion 的能力有限,难以重建原图中在训练集里不常见的部分(比如文章开篇大 2023-01-05 技术博客 > 生成模型 > Diffusion Models #computer vision #generative models
扩散模型应用·文生图大模型 \[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. GLIDE OpenAI 2021.12.20 GLIDE[1] 是 OpenAI 在 2021 年底推出的文本引导图像生成的扩散模型。GLIDE 沿用了 ADM[2] 架构,但是更大,有 2.3 billion 参数。为了向其中注入文本条件,作者首先将输入文本通过 BPE tokenizer 编码成 2023-01-05 技术博客 > 生成模型 > Diffusion Models #computer vision #generative models
扩散模型应用·图生图与图像恢复 \[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. 图生图可以泛指基于输入图像生成新图像的过程,因此诸如 image restoration(超分、去噪、填充、上色等)、image-to-image translation、style transfer 等任务都可以归为其中。特别地,本文不包括基于文本的图像编辑方法,相关内容可在扩散模型应用·基于文本的 2023-01-05 技术博客 > 生成模型 > Diffusion Models #computer vision #generative models
扩散模型条件引导生成 \[ \newcommand{\x}{\mathbf x} \newcommand{\calN}{\mathcal N} \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] Preface 我们在之前的文章中关注的都是无条件生成,生成结果不受我们控制,特别是以 DDPM 为代表的采样过程本身就带有随机性的模型,即使用同样的初始变量 2022-12-29 技术博客 > 生成模型 > Diffusion Models #generative models
不止去噪!任意退化模式上的扩散模型 \[ \newcommand{\x}{\mathbf x} \newcommand{\E}{\mathbb E} \newcommand{\calN}{\mathcal N} \newcommand{\I}{\mathbf I} \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] Cold Diffusion 站在 machine 2022-12-17 技术博客 > 生成模型 > Diffusion Models #generative models
DDIM:非马尔可夫过程与加速采样 \[ \newcommand{\x}{\mathbf x} \newcommand{\I}{\mathbf I} \newcommand{\calN}{\mathcal N} \newcommand{\E}{\mathbb E} \] DDPM 我们首先回顾一下 DDPM 的基础知识。 前向过程 设有一列 noise schedule:\(\{\beta_t\}_{t=1}^T\),记 \(\a 2022-12-14 技术博客 > 生成模型 > Diffusion Models #generative models
搭建个人深度学习工作站(环境篇) 前言 硬件配置 主板:华硕 TUF GAMING B560M-PLUS WIFI CPU:Intel i7-11700 @ 2.50GHz 8核16线程 内存:英睿达 美光32GB(16Gx2)套装 DDR4 3600MHz GPU:NVIDIA RTX 3080Ti 硬盘: Samsung SSD 980 1TB x 2 WDC WD20EZBX-00A 2TB 电源:长城 猎金部落 额 2022-12-11 技术博客 > 深度学习 #pytorch #linux