fGAN--任意散度GAN

fGAN的基本想法就是希望用不同的散度来取代JS散度

使得任何divergence都可以应用到GAN的框架中

f-divergence ： $D_{f} (P | | Q) = \int_{x} q (x) f (\frac{p (x)}{q (x)}) d x$

$f$ 函数需满足当 $x = 1$ 时 $f (x) = 0$ 且 $f$ 是 $c o n v e x$

这个式子可以衡量分布P和Q的差异

若P分布和Q分布相同，则 $D_{f} (P | | Q) = \int_{x} f (1) d x = 0$

当P分布与Q分布不同时， $D_{f} (P | | Q) = \int_{x} q (x) f (\frac{p (x)}{q (x)}) d x \geq f (\in_{x} q (x) \frac{p (x)}{q (x)}) = f (1) = 0$

(这里的积分大于等于是因为 $f$ 是 $c o n v e x$ )

当 $f (x) = x l o g x$ 时

$D_{f} (P | | Q) = \int_{x} \frac{p (x)}{q (x)} l o g (\frac{p (x)}{q (x)}) = \int_{x} p (x) l o g (\frac{p (x)}{q (x)}) = D_{K L} (P | | Q)$

当 $f (x) = - l o g x$ 时

$D_{f} (P | | Q) = D_{K L} (Q | | P)$ ，即 $R e v e r s e K L$

共轭函数(Fenchel Conjugate)：

每个convex function $f$ ，都有一个conjugate function $f^{*}$

$f^{*} (t) = m a x_{x \in d o m (f)} x t - f (x)$

即 $f (t_{1})$ 是 $x t_{1} - f (x)$ 对 $x$ 的任意取值取得的最大值

我们将x取不同值的 $x t - f (x)$ 直线画出来

取每一段位置的upperbound就是f的Fenchel Conjugate

比如 $x l o g x$ 的Fenchel Conjugate就是 $f^{*} (t) = e x p (t - 1)$

$f^{*} (t) = m a x_{x \in d o m (f)} x t - f (x)$

$g (x) = x t - x l o g x$

现在给定t要使得 $g (x)$ 最大

prove:

$t - l o g x - 1 = 0$

$x = \exp (t - 1)$

$f^{*} (t) = \exp (t - 1) \cdot t - \exp (t - 1) \cdot (t - 1) = \exp (t - 1)$

得证

因为 $f$ 和 $f^{*}$ 是共轭函数

所以 $f^{*} (t) = m a x_{x \in d o m (f)} x t - f (x)$

可以转化为 $f (x) = m a x x t - f^{*} (t)$

$t \in d o m (f^{*})$

$D_{f} (P | | Q) = \int_{x} q (x) f (\frac{p (x)}{q (x)}) d x$

$= \int_{x} q (x) (m a x \frac{p (x)}{q (x)} t - f^{*} (t)) d x$

$D_{f} (P | | Q) \geq \int_{x} q (x) (\frac{p (x)}{q (x)} D (x) - f^{*} (D (x))) d x$

$= \int_{x} p (x) D (x) d x - \int_{x} q (x) f^{*} (D (x)) d x$

所以说我们只要找一个 $D (x)$ 输出为 $t$

只要其能逼近 $t$ ，那么这个式子就能逼近 $x - d i v e r g e n c e$

$D_{f} (P | | Q)$

$\approx m a x_{D} \int_{x} p (x) D (x) d x - \int_{x} q (x) f^{*} (D (x)) d x$

$= m a x_{D} E_{x \sim P} [D (x)] - E_{x \sim Q} [f^{*} (D (x))]$

$G^{*} = a r g m i n_{G} D_{f} (P_{d a t a} | | P_{G})$

$= a r g m i n_{G} m a x_{D} E_{x \sim P_{d a t a}} [D (x)] - E_{x \sim P_{G}} [f^{*} (D (x)]$

那么只要得到f的共轭函数，我们就能构造出一个对应的GAN

在GAN的训练中通常会碰到以下两个问题：

Mode Collapse：训练到最后可能生成结果中同一张人脸会反复出现

Mode Dropping：Generator switches mode during training(比如第t次迭代全是黄皮肤，t+1次全是白皮肤，t+2次全是黑皮肤)

不同的divergence测试说明了这两个问题和JS-divergence无关

微信扫一扫：分享

🍊欢迎光临本站