Fourier Transform 3 (2D DFT, Image) 二维傅里叶变换 二维连续傅里叶变换 设 \(f(x,y)\) 是一个二元函数,其中 \(x,y\) 为连续变量。类似于一维的傅里叶变换和逆变换,二维的傅里叶变换为: \[ F(u,v)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(x,y)e^{-j(ux+vy)}\mathrm dx\mathrm dy\label{2D-FT} \] 逆变换为: 2023-12-27 数学 #image processing #signal processing
Fourier Transform 2 (DTFT, DFT) 离散时间傅里叶变换 (DTFT) 傅里叶级数和傅里叶变换面向的都是连续函数 \(f(x)\),但在用计算机处理之前,我们必须将其离散化,因此涉及到了采样操作。 冲激串及其傅里叶变换 上一篇文章 Fourier Transform 1 提到,Dirac \(\delta\) 函数能帮助我们采样一个函数值。进一步地,如果要以 \(h\) 为间隔等距采样一系列函数值,就可以用如下冲激串函数: \[ s( 2023-12-27 数学 #image processing #signal processing
Fourier Transform 1 (FS, FT) \[ \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] 内积空间与正交基 在线性代数相关课程中我们学过,\(n\) 维线性空间中的 \(n\) 个线性无关向量构成了该空间的一组基,空间中的任一向量都可以唯一表示为这组基的线性组合。进一步地,如果在线性空间中定义内积运算,就得到了内积空间,内积为零的向量称作正交。 在更高阶的课程中 2023-12-27 数学 #image processing #signal processing
PyCharm ignored inspections PEP 8 coding style violation (Error codes): E402: module level import not at top of file E501: line too long (82 > 79 characters) E702: multiple statements on one line (semicolon) E731: do not ass 2023-12-26 技术栈 #python
Wavelet Transform 尺度函数 给定一个平方可积的实值函数 \(\varphi(x)\),考虑如下函数集合 \(\{\varphi_{j,k}(x)\}\): \[ \varphi_{j,k}(x)=2^{j/2}\varphi(2^jx-k) \] 其中 \(k\in\mathbb Z\) 表示平移量,决定函数的位置;\(j\in\mathbb Z\) 指示沿 \(x\) 轴的伸缩量,决定函数的宽度;另外,系数 \( 2023-12-12 数学 #image processing #signal processing
[Stable Diffusion]ControlNet代码分析 ControlNet 1.0: GitHub: https://github.com/lllyasviel/ControlNet/ HuggingFace: https://huggingface.co/lllyasviel/ControlNet/ ControlNet 1.1: GitHub: https://github.com/lllyasviel/ControlNet-v1-1-ni 2023-12-01 AIGC #generative models #AIGC #stable diffusion
[Stable Diffusion]SD代码分析(v1~v2) Stable Diffusion v2.0 ~ v2.1: https://github.com/Stability-AI/StableDiffusion Stable Diffusion v1.1 ~ v1.5: https://github.com/runwayml/stable-diffusion Stable Diffusion v1.1 ~ v1.4: https://github.co 2023-12-01 AIGC #generative models #AIGC #stable diffusion
生成模型中的互信息 基础知识 在信息论中,随机变量 \(X\) 的(微分)熵定义为 \(-\log p(x)\) 的期望: \[ H(X)=-\int_xp(x)\log p(x)\mathrm dx=-\mathbb E_X[\log p(X)] \] 当涉及两个随机变量 \(X,Y\) 时,对它们的联合分布求熵也就得到了联合熵: \[ H(X,Y)=-\int_x\int_yp(x,y)\log p(x,y)\m 2023-09-15 生成模型 > GANs #generative models #information theory
Sublime Text 配置 官网下载 Sublime Text 4 官网链接:https://www.sublimetext.com/ 安装 Package Control 简介:Package Control 是管理 Sublime Text 插件的插件,以后下载其他插件可以通过它来下载。 下载:cmd+shift+p 打开 command palette,输入 Install Package Control,回车。 使用 2023-09-09 技术栈
变分扩散模型 由于扩散模型存在多种解释角度,并且有很多人在研究它,因此大家用的推导体系和书写符号或多或少有一些差异。在 Google 的这两篇论文中——Variational Diffusion Models[1]、Progressive Distillation for Fast Sampling of Diffusion Models[2],作者将信噪比显式地写入了扩散模型的公式之中,并由此引出了对可学习噪 2023-08-08 生成模型 > Diffusion Models #generative models
Diffusion+VAE 近期有几篇工作不约而同地都尝试了结合 Diffusion Models 与 VAE,尽管它们的动机并不相同。本文首先以一个结合 Diffusion 与 AE 的工作为引入,然后推导 Diffusion + VAE 的基本框架,再在这个基本框架下分别介绍相关的工作。 Diffusion + AE 在与 VAE 结合之前,论文[1]提出了 Diffusion Autoencoders,结合了 Diff 2023-07-29 生成模型 > Diffusion Models #generative models
[Stable Diffusion]训练你的LoRA(Linux) 简介 LoRA 是一种参数高效微调方法(PEFT),最早由 LoRA: Low-Rank Adaptation of Large Language Models 提出并应用于微调语言大模型之中,后来由 Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning 引入到对 Stable Diffusion 模型的微调之中。LoRA 2023-06-21 AIGC #generative models #AIGC #stable diffusion
[Stable Diffusion]模型概览(v1~v2) 前置 代码库 官方 GitHub 仓库: 基于 Latent Diffusion 仓库搭建,常用于科研人员做基于 Stable Diffusion 的实验和开发。 Stable Diffusion v2.0 ~ v2.1: https://github.com/Stability-AI/StableDiffusion Stable Diffusion v1.1 ~ v1.5: https:// 2023-06-16 AIGC #generative models #AIGC #stable diffusion
[Stable Diffusion]webui部署(Linux) Github: https://github.com/AUTOMATIC1111/stable-diffusion-webui 更新日志 webui 项目更新频繁,不能保证本文内容仍然适用于后续版本。 2024.01.22:更新至 webui v1.7.0 版本 (commit hash 为 cf2772f) 2023.06.14:文章首次发布,基于 v1.3.2 版本 (commit ha 2023-06-14 AIGC #generative models #AIGC #stable diffusion
StyleGAN 系列 StyleGAN 如果要说 StyleGAN 的最大的贡献,无疑是改变了传统的生成器架构,通过把隐变量分层引入到 backbone 网络,揭示了网络的各层能够控制生成图像的不同抽象程度的语义,从而在一定程度上实现了无监督特征解耦。另外,作者提出的 FFHQ 数据集也是一个很大的贡献,在之后的生成模型研究乃至 low-level vision 领域中都经常用到。 网络架构设计 在 StyleGAN 2023-06-08 生成模型 > GANs #generative models
Midjourney 调研 官网 | 文档 特别说明:本文展示的所有图片都经过了大幅度的缩小和压缩处理,并非原图。 模型版本 使用 --version 或 --v 参数来指定版本。 v5.2:该版本有更好的颜色、对比度和结构,有略微更好的文本理解能力。对 --stylize 参数响应度更高。特别地,如果不想要 Midjourney 的默认审美风格,可以加参数 --style 2023-06-03 AIGC #generative models #AIGC
Calculus of Variations 泛函的概念 众所周知,函数是数到数的映射——输入为数值 \(x\),输出为数值 \(y(x)\). 将函数的概念进行扩展,定义泛函 (functional) 为函数到数的映射——输入为函数 \(y(x)\),输出为数值 \(F[y]\). 直观地讲,泛函就是“函数的函数”。 Example 1:给定平面上的两点 \((x_1,y_1),(x_2,y_2)\),穿过它们的路径有无数条。对其中某条路径 2023-04-25 机器学习 #machine learning
Vector-Quantization VQ-VAE VQ-VAE[1] 是 Google DeepMind 在 2017 年提出的一个类 VAE 生成模型,相比普通的 VAE,它有两点不同: 隐空间是离散的,通过 VQ (Vector Quantization) 操作实现; 先验分布是学习出来的。 为什么要用离散的隐空间呢?首先,离散的表征更符合一些模态的自然属性,比如语言、语音,而图像也能用语言描述;其次,离散表征更适合推理、规 2023-03-29 计算机视觉 #generative models
扩散模型应用·可控生成 封面来自 CivitAI. GLIGEN University of Wisconsin-Madison Columbia University Microsoft 2023.01.17 ControlNet Stanford ICCV 2023 best paper 2023.02.10 尽管文生图大模型的出现让人们能够用自然语言方便地创作,但是文本的控制粒度终究还是比较粗糙,我们希望引入更 2023-02-11 生成模型 > Diffusion Models (Applications) #computer vision #generative models
扩散模型应用·个性化生成 封面来自 CivitAI. 个性化生成(personalized generation),也称作主体驱动生成(subject-driven generation),指的是用户提供若干张(甚至只有一张)某主体(人或物)的照片,模型生成该主体其他图像。 Textual Inversion Tel Aviv University NVIDIA 2022.08.02 顾名思义,Textual Inve 2023-02-11 生成模型 > Diffusion Models (Applications) #computer vision #generative models