文章链接:https://www.spaces.ac.cn/archives/6760
苏剑林老师很细致的解读了论文,文中涉及到的一些知识点,在下文进行了更细致的解释:
什么是AE什么是VAE:
AE是一类能够把图片压缩成较短的向量的神经网络模型。包含一个编码器和一个解码器。在训练时,输入图像会被编码成一个较短的向量,再被解码回另一幅长得差不多的图像。网络的学习目标是让重建出来的图像和原图像尽可能相似。
AE的编码器编码出来的向量空间是不规整的。也就是说,解码器只认识经编码器编出来的向量,而不认识其他的向量。如果你把自己随机生成出来的向量输入给解码器,解码器是生成不出有意义的图片的。AE不能够随机生成图片,所以它不能很好地完成图像生成任务,只能起到把图像压缩的作用。
AE离图像生成只差一步了。只要AE的编码空间比较规整,符合某个简单的数学分布(比如最常见的标准正态分布),那我们就可以从这个分布里随机采样向量,再让解码器根据这个向量来完成随机图片生成了。
VAE就是这样一种改进版的AE。它用一些巧妙的方法约束了编码向量,使得满足标准正态分布。这样,解码器不仅认识编码器编出的向量,还认识其他来自标准正态分布的向量。训练完成后,我们就可以扔掉编码器,用来自标准正态分布的随机向量和解码器来实现随机图像生成了。