ai2018必要什么体系(ai2020必要什么体系)「aicc2018系统要求」

2018年,一副由AI天生的艺术品《埃德蒙·贝拉米肖像》以约莫300万人名币的高价乐成拍卖,只管质疑声不绝,从当时起,AI艺术天生已经开始走进大众的视野中。在已往一年里,出现了大量的文本天生图像模子,尤其是随着StableDiffusion以及Midjourney的出现,带起了一股AI艺术创作高潮,乃至很多艺术家也开始实行用AI来辅助艺术创作。在本文中,将会体系梳理近几年出现的文本天生图像算法,资助各人深入相识其背后的原理。

©本图由本文作者利用Midjourney创作天生

目录

基于VQ-VAE

AE

VAE

VQ-VAE

DALL-E

基于GAN

VQGAN

VQGAN-CLIP

DALL-EMini

Parti

NUWA-Infinity

基于DiffusionModel

DiffusionModel

GLIDE

DALL-E2

Imagen

StableDiffusion

模子试玩

总结

基于VQ-VAE

在相识VQ-VAE的原理之前,必要先明白AE(AutoEncoder)以及VAE(VariationalAutoencoders),这些模子都属于自监督学习方法,接下来,本文将对其举行扼要的先容。

AE

自编码器由编码器以及解码器构成(如下图所示)[1],其起首对图像举行压缩,之后,在对压缩后的表征举行重修。在实际应用中,自编码器每每会被用于降维,去噪,非常检测大概神经风格迁徙中。

由于自编码器的目标是重修输入,因此,其丧失函数为:,此中,是输入,是对的重修,只必要简单的端对端练习,即可得到一个自编码器。

VAE

与AE差别的是,VAE不再去学习一个连续的表征,而是直接学习一个分布,然后通过这个分布采样得到中心表征去重修原图[2]。

VAE假设中心表征是一个正态分布,因此,编码器部分必要将原图映射为正态分布,通过重参数本领,得到采样后的中心表征,此中ϵ采样于标准团体分布。紧接着,解码器通过中心表征z举行解码操纵,得到原图的重修。VAE的丧失函数界说为:

此中,

在VAE的丧失函数中,第一项的目标是让模子可以或许重修输入,而第二项的目标是让解码器输出的分布只管靠近标准团体分布,如许的长处是,迫使靠近于标准团体分布,如许在天生的时间,就可以直接从正态分布中采样,然后通过解码器部分举行图像天生了。

VQ-VAE

VAE具有一个最大的题目就是利用了固定的先验(正态分布),其次是利用了连续的中心表征,如许会导致图片天生的多样性并不是很好以及可控性差。为了办理这个题目,VQ-VAE(VectorQuantizedVariationalAutoencoder)选择利用离散的中心表征,同时,通常会利用一个自回归模子来学习先验(比方PixelCNN大概Transformer)。在VQ-VAE中,此中间表征就充足稳固和多样化,从而可以很好的影响Decoder部分的输出,资助天生丰富多样的图片。因此,厥后很多的文本天生图像模子都基于VQ-VAE[3]。

VQ-VAE的算法流程为:

起首设置K个向量作为可查询的Codebook。

输入图片通过编码器CNN来得到N个中心表征,然后通过最相近算法,在Codebook中查询与这个N个中心表征最相似的向量。

将Codebook中查询的相似向量放到对应的位置上,得到。

解码器通过得到的中心表征重修图片。

VQ-VAE最核心的部分就是Codebook查询操纵,通过利用具有高度同等性的Codebook来代替紊乱的中心表征,可以有效的进步图像天生的可控性和丰富度。VQ-VAE的丧失函数界说为:

此中,sg为梯度停息操纵,也就是sg所处的模块不会举行梯度更新。

丧失函数的第一项重要是针对编码器息争码器,在这个过程中,由于中心codebook查询操纵是离散的,因此,这里直接将的梯度,复制给,从而形成梯度反向传播。第二项被称为VQloss,其目标是练习codebook模块e,由于这里是固定的,因此会迫使codebook模块e朝靠近。第三项被称为commitmentloss,这里只有的梯度在变革,其目标是反过来让去靠近codebook模块,从而使得encoder模块的输出可以或许更加稳固。

在VAE中,由于中心表征服从标准正态分布,因此在天生的时间,只必要在标准正态分布中随机采样即可。而在VQ-VAE中,随机选择N个codebook不能包管天生预期的图像,因此,必要有一个模子来学习天生特定中心表征,如许才华天生有效的图像(也称为学习先验)。

因此,在原始的VQ-VAE论文中,作者通过利用PixelCNN来学习先验,起首,利用练习好的VQ-VAE来得到练习数据的中心离散编码,来作为自回归模子PixelCNN的语料库举行练习。之后,在天生的时间,直接利用PixelCNN来生一个中心离散表征,然后通过匹配Codebook,利用Decoder举行图片天生。

DALL-E

DALL-E由OpenAI开辟,其第一代版本利用的是VQ-VAE,是当前非常盛行的文本天生图像模子之一。如今,DALL-E第一代并没有开放,因此,想要试玩可以直接去玩网友复现的DALL-E-Mini版本。

DALL-E第一代最大的特色是对语义的明白非常出色,以及可以天生各种非通例但是又符合语义信息的图像[4,5]。

DALL-E模子中的天生模块利用的是VQ-VAE,差别的是,其先验的学习,利用的是文本到中心离散表征的映射,具体步调如下:

练习一个dVAE(文章内里称为dVAE,实际上是一个VQ-VAE,这里不再赘述),此中,Codebook的数量为8192

练习一个自回归模子,这里文章中利用的是Transformer,通过输入文本,来猜测中心表征

在天生过程中,直接输入文本,通过Transformer猜测中心表征,然后dVAE的Decoder模块通过中心表征来天生终极图像。在DALL-E的文章中,作者还提出了很多技能上的细节,比方,在末了挑选图片的时间,可以利用CLIP模子来选择与文本相似度最高的模子,以及分布式练习,肴杂精度练习等,具体细节可以查察原论文。

基于GAN

天生对抗网络(GAN,GenerativeAdversarialNetworks)由两个重要的模块构成:天生器和鉴别器。天生器负责天生一张图片,而鉴别器则负责判定这张图片质量,也就是判定是真实样本还是天生的卖弄样本,通过渐渐的迭代,左右互博,终极天生器可以天生越来越逼真的图像,而鉴别器则可以更加精准的判定图片的真假。GAN的最大上风是其不依靠于先验假设,而是通过迭代的方式渐渐学到数据的分布[6]。

最原始的GAN的界说为:

此中,

当我们固定的时间,最大化的寄义是,数据假如泉源于真实数据,我们必要要靠近于1,而当数据泉源于天生器的时间,我们必要它靠近于0,也就是说,鉴别器必要将真实数据判定为1而将天生数据判定为0,这个时间,可以对鉴别器举行优化。而当我们固定鉴别器的时间,最小化,则必要天生器天生的数据靠近于真实数据。

简单来说,一个GAN的练习流程如下:

初始化一个天生器和一个鉴别器.

固定天生器的参数,只更新鉴别器的参数。具体过程为:选择一部分真实样本,以及从天生器得到一些天生的样本,送入到鉴别器中,鉴别器必要判定哪些样本为真实的,哪些样本为天生的,通过与真实结果的偏差来优化鉴别器

固定鉴别器的参数,只更新天生器的参数。具体过程为:利用天生器天生一部分样本,将天生的样本喂入到鉴别器中,鉴别器会对举行判定,优化天生器的参数,使得鉴别器将其判定为更加方向于真实样本。

上文中先容的GAN模子仅仅是最原始的GAN,在厥后的发展中,GAN已经渐渐被用到各个范畴,也产生了非常多的变种,接下来将会先容一个非常着名的基于GAN的文本天生图像模子VQGAN-CLIP。

VQGAN

上文中已经先容了GAN的根本原理,而VQGAN(VectorQuantizedGenerativeAdversarialNetworks)则是一种GAN的变种(如下图所示)[7],其受到VQ-VAE的开导,利用了codebook来学习离散表征。

具体来说,会预先界说个向量作为离散的特性查询表,当一张图片被送入到CNNEncoder中后,会得到个图像的中心表征,之后会在Codebook中去查询与其最相似的表征向量,得到个表征,其过程用公式可以形貌为:

紧接着,CNNDecoder会根据得到的表征去重修图像。

上述步调跟VQ-VAE非常像,而VQGAN与之差别的是,上述步调仅仅对应于GAN中的天生器,因此,这里还必要一个鉴别器,来对天生的图像举行判定,而与传统GAN差别的是,这里的鉴别器不是对每张图片举行判定,而是对每一个图片的Patch举行判定。

对于VQGAN中天生器的练习,其丧失函数与VQ-VAE非常相似,其公式为:

VQGAN的练习丧失函数界说为:

连合上述天生器的练习的丧失函数,其完备公式可以表现为:

实际上,和GAN的丧失函数还是非常同等的,差别的是,这里的对于天生器部分的优化,必要利用与VQ-VAE一样的方法去举行。

在练习好VQGAN之后,在天生的时间,可以直接初始化一个去天生,然而,为了可以或许得到稳固的,必要利用一个模子对先验举行学习,这里利用了Transformer模子来学习中离散表征的序列,可以简单的将其建模为自回归模子,如许,我们只必要给定一个初始的随机向量,就可以通过Transfomer模子天生完备的,从而可以通过CNNDecoder模块天生终极的图像。

VQGAN-CLIP

VQGAN-CLIP也是一个非常盛行的文本天生图像模子,一些开放的文本天生图像平台利用的就是VQGAN-CLIP[8]。

VQGAN-CLIP通过文本形貌信息来对VQGAN模子举行引导,使其终极天生与文本形貌非常相似的图片,其具体过程如下图所示:

具体来说,在最开始,必要初始化一张图片,其像素为随机天生,这个时间,模子是从0开始迭代,也可以初始化一张绘制好的原始图片,这个时间,模子的迭代相称于对这张图片举行重绘。通过VQGAN的Encoder模块,可以得到中心表征离散Z-vector,这个上文中VQGAN中的是一样的。

通过CLIP模子,来对比天生的图像特性与指定文本的相似度,来调治中心表征向量Z-vector,从而使得VQGAN模块天生与文本形貌同等的图片,从上图中看出,除了VQGAN和CLIP模块,尚有RandomCrops以及AugmentedImages,这个操纵是为了增长图片的稳固性,而且实行证明,加了这两个操纵之后,更利于优化。

基于VQGAN-CLIP天生的模子如下图所示,通过设置复杂的形貌,可以天生质量非常高的图片。

DALL-EMini

DALL-EMini是网友对DALL-E的复现版本[8],差别的是,DALL-EMini并没有利用原始的VQ-VAE,而是利用了VQGAN,DALL-E-Mini模子要远远小于原始DALL-E模子,利用的练习样本也相对较少[9]。

DALL-E-Mini起首利用BART模子(一种Sequence-to-Sequence模子)来学习文本到图像的映射,将文本转换为离散图像表征。

在图像天生步调中,可以直接将文本输入到BART中,然后得到图片离散表征,紧接着利用VQ-GANDecoder模块,将离散图像表征解码为完备图像,之后在利用CLIP对图像举行筛选,得到终极的天生结果。

Parti

在Imagen刚出来后没多久(Imagen的先容可以看扩散模子部分),Google又继承提出了新的文本天生图像模子Parti,其全称为「PathwaysAutoregressiveText-to-Image」,直观来看,就是利用了Google最新提出的Pathway语言模子[10]。

与Imagen差别的是,Parti又回归了原始文本天生图像的做法,不是直接利用文本表征作为条件扩散模子范式去天生图像,而是利用Pathway语言模子,学习文本表征到图像表征的映射,也就是像DALL-E2一样,学习一个先验模子,同时,Parti利用的是基于VQGAN的方法,而不是扩散模子。

具体来说,Parti起首练习一个ViT-VQGAN模子,之后利用Pathway语言模子学习文本到图像token的映射,由于Pathway语言模子强大的序列猜测本领,其输出的图像表征非常出色,在猜测过程中,只需将文本映射为图片表征,然后利用ViT-VQGAN解码器模块举行解码即可。

Parti最大的特色就是20B的大模子,其参数量支持模子可以或许举行复杂语义明白,下图是差别参数量模子对于文本形貌:「一张身穿橙色连帽衫和蓝色太阳镜的袋鼠肖像照片站在悉尼歌剧院前的草地上,胸前举着写着“欢迎朋侪”标语的牌子!」的天生结果,可以看出20B的大模子可以或许非常精准的明白Prompt的语义信息。

NUWA-Infinity

NUWA-Infinity是微软亚洲亚洲研究院NUWA团队基于之前工作,研发出的无穷视觉天生模子,其特点是,可以对已有的画举行续画,尤其是对于风景画结果非常惊艳,同时,该模子还支持文本天生图像,动画天生等任务,不外由于其重要创新点在于图片续画,因此在这里只对这一功能举行具体先容[11]。

为了实现这一功能,作者提出了全局自回归嵌套局部自回归的天生机制,此中,全局自回归建模视觉块之间的依靠(patch-level),而局部自回归建模视觉token之间的依靠(token-level)。其公式表达为:

也就是一个全局自回归模子中(n个patch),嵌入了一个局部自回归模子(m个token)。

在NUWA-Infinity中,作者还提出了两个机制,NearbyContextPool(NCP)和ArbitraryDirectionController(ADC)。此中,ADC负责将图片分割成patch并决定patch的方向,如下图所示,左图为练习的时间的次序界说,右图是推理的时间的次序界说。

由于当图片尺寸变大之后,patch的数量会高出自回归模子所能吸取的最大长度,因此必要有一个增长新patch和移除旧patch的机制,如许就包管了自回归模子不停在必要天生的patch附近举行序列学习。

在模子的练习过程中,起首将图片分成patch,然后,随机选择一种patch天生次序,这对应于全局自回归操纵。而对于每一个patch,起首选择其相近的patch,参加位置编码以及文本信息,一起送入到自回归模子中,得到猜测的中心离散表征,同时,对于之前的patch,利用练习好的VQ-GAN天生中心离散表征,而模子的目标则是让与充足靠近。直观来说,模子本质上是在练习一个模子,其通过与当前patch的相近的patch的中心离散表征,和文本表征,来猜测当前patch的中心离散表征。

在推理过程中,对于图片续画任务,只必要将图片输入进模子,选择K个patch作为条件,对NCP举行初始化,然后就可以通过已有的选择的patch连合文本信息,来对下个patch举行猜测,末了利用VQGANDecoder来将猜测的patch的中心离散表征解码成图片即可,通过不绝的迭代,终极实现对图片的续画功能。

基于DiffusionModel

差别于VQ-VAE,VQ-GAN,扩散模子是当今文本天生图像范畴的核心方法,当前最着名也最受欢迎的文本天生图像模子StableDiffusion,Disco-Diffusion,Mid-Journey,DALL-E2等等,均基于扩散模子。在这部分,会对扩散模子的原理以及基于扩散模子的算法举行具体的先容。

DiffusionModel

回想上文提到的VQ-VAE以及VQ-GAN,都是先通过编码器将图像映射到中心潜变量,然后解码器在通过中心潜变量举行还原。实际上,扩散模子做的事变本质上是一样的,差别的是,扩散模子完全利用了全新的思绪来实现这个目标[12,13.14]。

在扩散模子中,重要有两个过程构成,前向扩散过程,反向去噪过程,前向扩散过程重要是将一张图片变成随机噪音,而逆向去噪过程则是将一张随机噪音的图片还原为一张完备的图片。

为了资助明白,这里选择最经典的扩散模子举行先容,关于扩散模子的具体推导,可以参考[13,14]。

「前向扩散过程」

前向扩散过程的本质就是在原始图像上,随机添加噪音,通过T步迭代,终极将原始图片的分布变成标准高斯分布具体来说,给定初始数据分布,增长噪声的过程可以界说为如下公式:

此中:,在这个过程中,随着t的不绝增大,终极数据分布x变成了一个各向独立的高斯分布。

值得留意的是,这里正向扩散的过程,由于参数是预先界说好的,前向过程没有任何必要学习的参数,因此每一时候的结果都可以直接盘算出来,这里起首界说,,则:

因此得到前向扩散过程的分布表达式为:

「逆向扩散过程」

逆向过程就是还原的过程,也就是从高斯噪声中规复原始分布的过程,实际上,只要学习分布即可,可以通过一个可学习的神经网络来对其举行拟合,其界说如下:

此中,由于无法直接估计,因此一样平常会利用神经网络模子来举行逼近,必要留意的是,在原始论文中,方差是无需练习的,被预选设置好了:,而这里

由于隐马尔可夫的性子,是条件独立的,因此,而这里,后一项则可以直接利用一个表达式来表达出来,从而使得的们可以举行背面的优化盘算,这里将表达式写成:

通过推导可以得到:(具体可以看[13,14])

扩散模子本质上也是在学习数据分布,因此其对数似然可以表现为:

终极,其loss可以表现为[13,14]:

颠末化简,可以得到末了loss表达情势,从公式形态来看,其目标就是在猜测每一步的噪音:

「练习流程」

直观上明白,扩散模子着实是通过一个神经网络,来猜测每一步扩散模子中所添加的噪音,其算法流程如下:

在完成练习之后,只必要通过重参数化本领,举行采样操纵即可,具体流程如上边右图所示,通过不绝的「减去」模子猜测的噪音,可以渐渐的天生一张完备的图片。

「Classifier-FreeGuidanceDiffusion」

基于传统的扩散模子,后续又有一些改进操纵,这些改进操纵使得扩散模子被广泛的应用于文本天生图像任务中。此中,最常用的改进版本为Classifier-FreeGuidanceDiffusion[15]。

上述扩散模子通过来对噪音举行估计,而引导扩散模子,则必要将引导条件,参加到模子输入中,因此到的,而Classifier-FreeGuidanceDiffusion则结和了条件和无条件噪声估计模子,其界说为:

如许做的长处是练习过程非常稳固,且摆脱了分类器的限定(实际上等价于学习了一个隐含的分类器),缺点是,本钱比力高,相称于每次要天生两个输出,只管云云,背面的大部份着名文本天生图像模子,都是基于这个方法举行的。

GLIDE

GLIDE利用了文本作为条件,来实现文本引导的扩散模子,在文本引导上面,文中重要利用了两种战略,Classifier-FreeDiffusionGuidence以及CLIP来作为条件监督,同时利用了更大的模子,在数据量上,和DALL-E相似[16]。

GLIDE的核心就是Classifier-FreeDiffusionGuidence,其利用文本形貌作为引导,来练习一个扩散模子,其界说为:

此中,y是一段文本形貌。

由于GLIDE方法提出较早,相对于现有很多方法,GLIDE模子的结果并不是很好,下面是GLIDE天生的图像示例。

GLIDE还支持通过选取地区+文本Prompt来对图像举行编辑操纵,可以看出结果也不错。利用过程中,只必要将掩藏地区举行mask,以及剩下的图片一起送入到网络中,即可产生补全之后的图片。

别的,GLIDE的语义明白本领并不是很强,在一些少见的文本形貌下,很难产生合乎逻辑的图像,而DALL-E2在这方面的本领上,要远超GLIDE

DALL-E2

DALL-E2是OpenAI最新AI天生图像模子,其最大的特色是模子具有惊人的明白力和创造力,其参数约莫3.5B,相对于上一代版本,DALL-E2可以天生4倍分倍率的图片,且非常贴合语义信息。作者利用了人工评测方法,让志愿者看1000张图,71.7%的人以为其更加匹配文本形貌,88.8%以为画的图相对于上一代版本更加悦目[17,18]。

DALL-E2由三个模块构成:

CLIP模子,对齐图片文本表征

先验模子,吸取文本信息,将其转换成CLIP图像表征

扩散模子,担当图像表征,来天生完备图像

DALL-E2的练习过程为:

练习一个CLIP模子,使其可以或许对齐文本和图片特性。

练习一个先验模子,由自回归模子大概一个扩散先验模子(实行证明,扩散先验模子表现更好),其功能是将文本表征映射为图片表征。

练习一个扩散解码模子,其目标是根据图片表征,还原原始图片。

在练习完成之后,推理过程就比力直接了,起首利用CLIP文本编码器,得到文本编码,之后利用先验模子将文本编码映射为图片编码,末了利用扩散解码器用图片编码天生完备图片。留意这里扩散解码模子利用的是颠末修改的GLIDE扩散模子,其天生的图像尺寸为64x64,然后利用两个上采样扩散模子将其上采样至256x256,以及1024x1024.

ai2018需要什么系统(ai2020需要什么系统) ai2018必要
什么体系
(ai2020必要
什么体系
)「ai cc2018系统要求」 行业资讯

DALL-E2原论文中也提到了其很多不敷,比方轻易将物体和属性肴杂,无法正确的将文本放置到图像中,然而,这些都无法制止各人对文本天生图像的热情,DALL-E2也被广泛应用到各种艺术创作过程中。

Imagen

在DALL-E2提出没多久,Google就提出了一个新的文本天生图像模子Imagen[19],论文中提到,其天生的图片相对于DALL-E2真实感和语言明白本领都更加强大(利用一种新的评测方法DrawBench)。

Imagen的图像天生流程和DALL-E2非常像,起首将文本举行编码表征,之后利用扩散模子将表征映射成为完备图像,同时会通过两个扩散模子来进一步进步分辨率。与DALL-E2差别的是,Imagen利用了T5-XXL模子直接编码文本信息,然后利用条件扩散模子,直接用文本编码天生图像。因此,在Imagen中,无需学习先验模子。

由于直接利用T5-XXL模子,其语义知知趣对于CLIP要丰富很多(图文匹配数据集数量要远远少于纯文本数据集数量),因此Imagen相对于DALL-E2在语义保真度上做的更好。同时,作者也发现,增大语言模子,可以有效的进步样本的语义保真度。

StableDiffusion

StableDiffusion是由Stability.ai于近期开放的文本天生图像模子,由于其交互简单,天生速率快,极大的低落了利用门槛,而且同时还保持了令人惊奇的天生结果,从而掀起了一股AI创作高潮[20]。

©本文作者用StableDiffusion天生的图片

StableDiffusion是基于之前LatentDiffusion模子举行改进的,上文中提到的扩散模子的特点是反向去噪过程速率较慢,其扩散过程是在像素空间举行,当图片分辨率变大时,速率会变得非常慢。而LatentDiffusion模子则思量在较低维度的潜伏空间中,举行扩散过程,如许就极大的减轻了练习以及推理本钱。

StableDiffusion由三个部分构成:

1.VAE

其作用是将图像转换为低维表现情势,从而使得扩散过程是在这个低维表征中举行的,扩散完成之后,在通过VAE解码器,将其解码成图片。

2.U-Net网络

U-Net是扩散模子的主干网络,其作用是对噪音举行猜测,从而实现反向去噪过程

3.文本编码器CLIP

重要负责将文本转换为U-Net可以明白的表征情势,从而引导U-Net举行扩散。

StableDiffusion的具体推理过程如下图所示[19],起首利用CLIP将文本转换为表征情势,然后引导扩散模子U-Net在低维表征(64x64)上举行扩散过程,之后将扩散之后的低维表征送入到VAE中的解码器部分,从而实现图像天生。

模子试玩

相识了文本天生图像背后的算法原理,也可以试玩一下开源模子,这里罗列了一些当前比力盛行且易于利用的模子链接,此中,结果最好且交互最便捷的则是StableDiffusion和MidJourney。

VQGAN-CLIP

https://nightcafe.studio/

DALL-E-Mini

https://huggingface.co/spaces/dalle-mini/dalle-mini

DALL-E2

https://github.com/openai/dall-e(必要等Waitlist)

StableDiffusion

https://beta.dreamstudio.ai/dream

Disco-Diffusion

https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb

MidJourney

https://www.midjourney.com/home/

NUWA

ai2018需要什么系统(ai2020需要什么系统) ai2018必要
什么体系
(ai2020必要
什么体系
)「ai cc2018系统要求」 行业资讯

https://nuwa-infinity.microsoft.com/#/(暂未开放,可以保持关注)

总结

现有的文本天生图像模子重要基于三类底子算法:VQ-GAN,VQ-VAE以及扩散模子,由于扩散模子可以或许天生丰富多样且质量高的图形,已经成为文本天生图像范畴的核心方法。如今看来,扩散模子由于每次天生必要迭代,因此速率较慢,这是限定扩散模子广泛利用的一个重要题目之一。但是随着一些新的技能出现,比方StableDiffusion利用LatentDiffusion,扩散模子的天生时间已经被渐渐收缩,信托在将来,扩散模子会给AI艺术天生范畴带来一场新的厘革。

参考文献

[1]AnIntroductiontoAutoencoders

[3]NeuralDiscreteRepresentationLearning

[4]https://openai.com/blog/dall-e/

[5]Zero-ShotText-to-ImageGeneration

[6]Generativeadversarialnets

[7]TamingTransformersforHigh-ResolutionImageSynthesis

[8]VQGAN-CLIP:OpenDomainImageGenerationandEditingwithNaturalLanguageGuidance

[9]https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-mini--Vmlldzo4NjIxODA

[10]ScalingAutoregressiveModelsforContent-RichText-to-ImageGeneration

[11]NUWA-Infinity:AutoregressiveoverAutoregressiveGenerationforInfiniteVisualSynthesis

[12]DenoisingDiffusionProbabilisticModels

[13]https://lilianweng.github.io/posts/2021-07-11-diffusion-models/#nice

[14]https://huggingface.co/blog/annotated-diffusion

[15]Classifier-FreeDiffusionGuidance

[16]GLIDE:TowardsPhotorealisticImageGenerationandEditingwithText-GuidedDiffusionModels

[17]HierarchicalText-ConditionalImageGenerationwithCLIPLatents

[18]https://openai.com/dall-e-2/

[19]PhotorealisticText-to-ImageDiffusionModelswithDeepLanguageUnderstanding

[20]https://github.com/sd-webui/stable-diffusion-webui

[21]https://huggingface.co/blog/stable_diffusion

作者:胡鹏博

排版:朱思嘉

审校:十三维

更多阅读

从Deepmind火烈鸟看多模态研究发展趋势

基于大规模语言模子的进化盘算:一种新范式

对Lecun新论文解读:大模子之外的数字心识探索

在社群中积极参加讨论、为知识建立做出贡献的社群成员将不定期地得到「社群专属福利」

MindverseResearch

心识研究院

心识浩渺连广宇

心识宇宙研究院,致力于在即将到来的元宇宙数字期间,研究和创造真正等价于人类意识程度的数字生命,如今已经综合多种研究进路和方法规划出一条通向AGI和人工意识的蹊径。在后续内容运营上,我们也会先容和创造更多有关人工智能、意识科学、元宇宙方面最新的研究结果和原创内容。

欢迎有志者关注和参加我们的研究!

客户评论

我要评论