author:张一极
daTE:2024年08月01日14:31:1
随机采样过程不可微的原因在于它涉及随机性和不确定性,而梯度计算依赖于确定的、连续的函数。
具体来说,有以下几个原因:
xxxxxxxxxx
1. 非确定性:随机采样从一个概率分布中抽取样本,这意味着每次采样的结果是不确定的。因此,对于相同的输入,采样过程每次可能会产生不同的输出。梯度计算需要函数是确定的,即相同输入必须产生相同输出。
2. 离散性:对于一些分布(例如离散分布),采样过程可能会产生离散的输出值。离散值之间不存在连续的变化,因此无法计算梯度。例如,从一个离散分布中采样得到的结果是一个离散的随机变量,不能通过微小的变化连续地调整。
3. 不可预测性:即使是从连续分布中采样,由于每次采样结果的随机性,我们无法预测输出如何随着输入的微小变化而变化。因此,我们无法确定输出变化的方向和幅度,从而无法计算梯度。
为了应对这个问题,重参数技巧将采样过程中的随机性从不可微的随机变量中分离出来,并将其转化为从固定分布(通常是标准正态分布)中采样,然后通过一个可微的变换得到最终的样本。
例如,在从高斯分布
通过这种方法,采样过程变得可微,因为变换函数 $ \mu + \sigma \cdot \epsilon $$ 是可微的。这样我们就可以通过反向传播来计算梯度,从而优化模型参数。
重参数技巧(Reparameterization Trick)在很多机器学习模型中确实扮演了重要角色,尤其是在变分自编码器(Variational Autoencoder,VAE)和扩散模型(Diffusion Model)中。这个技巧的核心思想是将不可微的随机采样过程转换为一个可微的过程,从而使得我们能够通过梯度下降法来训练模型。
具体来说,以从高斯分布 (
在扩散模型中,我们需要通过重参数技巧来处理大量的噪声采样过程。假设我们有一个扩散模型,其目标是通过若干步骤将数据逐步从噪声恢复到原始数据。每一步的更新过程都需要从高斯分布中采样噪声,因此需要重参数技巧来确保每一步都是可微的,从而可以使用反向传播来优化模型参数。
通过这种方式,我们可以确保模型的训练过程是可微的,从而能够通过梯度下降法来优化目标函数。
有了这个先验信息,我们可以把
即:
由于独立高斯分布可加性,即