重生之AI教父 - 第190章从变分自编码到扩散模型

“你们有没有看过变分自编码器(VAE)的那篇论文？”

孟繁岐和阿里克斯，伊利亚三人一边做着餐前准备，一边闲聊道。

就在孟繁岐去年提出生成对抗模型GAN之后，同年年底有一个类似的生成式模型被提出，那就是变分自编码器。

VAE和孟繁岐提出的GAN都是深度生成式模型，两者均被视为无监督式学习领域最具研究价值的方法。

“当然看过，它的思路跟你的GAN挺像的，都是从隐藏变量去生成目标数据。”

变分自编码器的反响和热度比孟繁岐的GAN低了一些，一是因为先入为主，孟繁岐的GAN珠玉在前。

另一方面也是因为GAN两个网络对抗的思路和结构太过新奇，非常独特有创意，而且即便是领域外的人也容易理解。

相比之下，变分自编码器则显得更加朴实无华一点。

“其实原理都差不多，你们都假设隐藏变量服从某种概率分布，目的就是为了训练一个模型，可以将原本的概率分部映射到训练集的概率分布，是一种对这种分布的变换。”

伊利亚简单总结道。

伊利亚正是年轻力壮的时候，有天赋又努力。

完全是论文机器，看得多写得多，对领域内的新东西门儿清。

阿里克斯则已经稍微有点划水的兆头了，看论文不求甚解，主要读一个大概的意思和想法。

“呦，年轻人们真有活力啊，都这么努力好学？饭前这点时间也要头脑风暴一下？”

辛顿手里端着一杯果汁，溜达过来，发现自己的两个学生竟然在这个庆功宴上还忙着讨论学术，很是欣慰地调侃道。

“我们在谈论生成式模型的问题，孟似乎有一些新想法。”

“什么内容，说来听听。”

“VAE和GAN都是希望生成的数据分布和目标分布十分接近，这种接近听上去很棒，可实际上难以量化。”

孟繁岐解释道：“两个输出，比如图像，他们的分布到底是不是相等或者接近，缺乏足够好的量化标准与价值判断。”

“GAN其实就是大力出奇迹的意思了，我也不管到底怎么评判，干脆整个就把这种隐含的衡量方式给学过来，这就导致对计算量和数据的要求非常大，并且也不是那么容易控制。”

“而变分自编码器的方式其实优雅不少，很值得我借鉴。”

辛顿听完微微扬眉，学界不少年轻天才甚至老学究，都对自己的技术盲目自信和吹捧。

甚至不乏那种相互之间斗嘴皮子，争夺某某技术首发头衔的情况。

像孟繁岐这样，没几个月就开始反思自己技术不足之处的，还挺少见的。

毕竟目前学界对GAN的评价是相对更高的，后续跟进的研究也更多。

“我们首先理解一下生成模型的本质，其实就像是一百个样本里采样十个，我们称呼这十个为x，用这个十个样本学到它的分布p(x)。使用这个分布，就能够得到未被采样的数据。”

辛顿也加入了进来，他直接从最基础的部分开始分析。

“现在的问题就是，这个分布太难了，没法直接学到。因此我们退而求其次，使用一个满足特定分布的隐变量Z来生成这些样本x。计算p(x)=SUmz(p(x|Z)p(Z))，其中p(x|Z)为后验分布，p(Z)是先验分布。”

“VAE的核心就是假设了p(Z)和每一个p(xi|Z)均为正态分布。他的学习是xi和Z的关系，而不是你的GAN里面，x与x'的关系。”

辛顿的分析非常老辣，直指最关键的地方。

“这一点确实比GAN简单了很多。”

孟繁岐不得不承认这一点，已经知道是正态分布的情况下，这种学习就是小学二年级知识内容了，学均值和方差就可以。

Z是我们自己假设的，xi是采样已知的，这种学习方式很容易就能学到这些已知的样本。

VAE通过专属与某个样本的Zi建立了x与x'之间原本很难学习对比的问题，属于相当聪明的做法。

不过这也导致VAE有时候生成的图像比较糊，不如GAN清晰。

前面说的这些部分属于是AE，自编码器，而V指得则是在自编码器基础上添加的正态分布的随机采样，也就是高斯噪声。

这种噪声的添加，使得希望获得的生成器对噪声和干扰比较鲁棒，生成器训练不好的时候，噪声会低一些，生成器逐渐效果很好的时候，噪声又会增加。

本质上和GAN非常类似。

而孟繁岐想要提出的扩散模型，则是VAE的一种升级版本，同样的，也是GAN的一种升级版本。

它集合了两家之长，取其精华去其糟粕。

“变分自编码器有一个核心的问题，就是这个变分后验p(x|Z)表达能力和计算代价鱼和熊掌不可兼得。变分方法如果简单，表达能力就不丰富；而复杂的变分计算，计算损耗又太大了。”

“我觉得，最大的问题还是在这个变分后验。在VAE中，我们先定义了生成器G，使得x=G(Z)，然后再学一个变分后验p(x|Z)来适配这个生成器。有没有可能把这个过程反一下，先定义一个变分后验p再学一个生成器G呢？”

“反过来？”

辛顿师徒听了之后，都楞了半晌。

“反过来的话，你是想用简单的变分后验将数据样本映射到标准高斯分布，然后学一个生成器，模仿这个映射？”

“emmm...这种方式的确搜索空间可以大不少，效率可能会很高。听起来还不错，但我不确定它是否好用。”

这种新的方式，里面涉及到的原理和数学推理论证，稍一估算就不少，说不定纯推理论证就能发出好几篇论文来。

“我想借助马尔科夫链的平稳性，让概率分布趋于某种平稳分布，逐渐逼近。”

孟繁岐解释道。

辛顿分析道：“这个逐渐逼近的过程，其实还是加噪声呗，还是随机在采样。一步步前向，一步步加入噪声。”

“对，噪声就像是在马尔科夫链演化的过程当中，逐渐溶解扩散，在这个体系中逐渐地分布均匀，我叫它扩散模型。”

噪声加入模型中，先是在局部比较浓郁，而后随着逐渐一步步迭代的过程均匀扩散开来。

就像是一滴滴墨水滴入清水当中，然后缓缓搅拌均匀，这便是扩散模型名字的由来。

假设清水是我们需要的东西，前向就是清水加墨的过程，而反向则是从墨水生成清水的过程，模型学到了如何过滤噪声。

通过大量的前向学习之后，扩散模型就有了从噪声图凭空优化直至一张优美图片的能力，也就可以去完成各种制图工作了。

“听起来很有潜力，不过为什么高斯分布的马尔科夫链，会对生成器模仿某一个映射有帮助呢？这个问题还需要后面我们仔细讨论一下。”

辛顿只是想了一会，就觉得这个方法应该会好用，但是却一时间想不明白原理和为什么。

今天毕竟还是孟繁岐文章登陆自然封面的庆祝聚会，几人虽然好奇，但也不至于当场就开始研究。

并且，扩散模型距离后来大家使用的出图技术稳定扩散模型还差了好几个组件呢，轮子还缺了几个，因而孟繁岐也不着急此事。

“其实现在最缺的还是数据，各个领域都比较缺，不过谷歌这边已经开始用验证码数据标注了，一些比较常见的方向应该很快会有进展。”

伊利亚笑着说道。

自从进入人工智能时代，各种网页上的验证码就变得离奇了许多。

最开始还只是识别字母，做做加减法之类的。

现在招式就多起来了，给图片分类的；九宫格十二宫格，让你选择有路牌有车的；甚至还有让你仔细勾选某种物体轮廓的，简直离谱！

而自2012年起，谷歌就已经开始把偷偷把谷歌街景中最难以识别的门牌和路牌加入进了验证码，请用户帮忙标注。

看似在区分机器人，实际上在做义务劳动！

第190章 从变分自编码到扩散模型

第190章从变分自编码到扩散模型