google lmagen | AI潮汐

lmagen 是一个AI 系统，可从输入文本创建逼真的图像
Imagen
前所未有的照片级写实感x深层次的语言理解
谷歌研究，大脑团队
我们提出了Imagen，一种文本到图像的扩散模型，具有前所未有的照片级真实感和深层次的语言理释。imagen 建立在大型转换器语言模型在理解文本方面的强大功能之上，并依赖干扩散模型在高保直图像牛成中的优势，我们的土要发现是，在纯文本语料库上预训练的通用大型语言模型(例女T5)在馆码文本以行图像合成方面非常有效:在magen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像 – 文本对齐。magen 在 COCO 数据集获得了 727 的新的最新 FD 分数，而无需对 COCO 进行培训，人类评估者发现 magen 样本在图像文本对齐方面与 COC 数据本身相当，为了更深入地评文本到图像模型，我们引入了DrawBench，这是一个全面且具有挑战性的文本到图像模型基准。使用DrawBench，我们将Imagen与最近的方法(包括VQ-GAN+CLIP，潜在扩散模型和DALL-E 2) 进行了比较，发现人类评分者在并排比较中更喜欢magen而不是其他模型，无论是在样本质量和图像- 文本对齐方面