您当前的位置: 首页 > 热点

谷歌新AI火了:世界最长单词都能画!

时间:2022-07-01 08:49   来源:快科技   作者:余梓阳

朋友,你知道这个英语单词是什么吗。

肺显微镜下矽肺球菌病。

这个世界公认最长的mdashmdash由45个字母组成的单词,意思是由火山硅石颗粒在肺部沉积引起的疾病,。

但如果你说,现在不是让你拼这个词,而是helliphellip画出来。

谷歌最新的AImdashmdashParti,它可以轻松地握住这个东西。

但这只是Parti的一点点尝试的能力。据谷歌称,这是目前最先进的转文字图像艾.

比如对它说:将悉尼歌剧院与巴黎铁塔结合起来,,输出结果是这样的:

而且在算法数量上,和谷歌自己的Imagen是不一样的Parti可以说是AI画铺开新高度

就连谷歌AI负责人杰夫·迪恩也发了好几条推特,玩得很开心:

可扩展至200亿参数:更真实Rdquo

其实Parti的能力不止于此。

得益于模型可以扩展到200亿个参数,一方面,它生成的图像更加细致逼真。

无论是短短的几个字,还是50多字的小段落,都能清晰的展现出来。

比如小提琴的背面,小提琴的背面。

或者根据梵高的《星空》描述的夜景Ps,这一段有67个字

结果Parti不在话下,我一个包把各种风格的图都给你画出来了~

这也是Parti的第二大能力不仅细节很到位,风格也可以多变

而且喜欢浣熊穿着正装,戴着礼帽,拄着拐杖,拎着垃圾袋这种奇特的描写,也能让整朵花的作品不陷入细节。

在风格上,有梵高风格,埃及法老风格,像素风格,中国传统绘画风格,抽象风格helliphellip

有时它甚至会说双关语。

在具体的测试结果上,FID在MS—COCO,本地化叙事和Parti上取得了最先进的结果。

尤其是在MS—COCO中,零样本的FID得分仅为7.23,微调FID得分为3.22,超过了之前的Imagen和DALL—E 2。

所有组件都是变压器。

Parti主要把文本生成的图像看作是从序列到序列的建模这有点类似于机器翻译,将文本标记作为编码器的输入,目标输出由文本变为图像

在结构上,它的所有组件只有三个部分:编码器,解码器和图像标记器,所有这些都是基于标准的变压器。

首先,利用基于Transformer的图像标记ViT—VQGAN将图像编码成离散的标记序列。

然后通过《变形金刚》的编解码结构,将参数扩展到200亿。

以往对文字生成图像的研究可以分为两种思路,除了最早的甘。

一种是基于自回归模型首先将文本特征映射到图像特征,然后利用类似Transformer的序列架构学习语言输入和图像输出的关系

这种方法的一个关键部分是图像标记,它将每个图像转换成一系列离散的单元比如DALL—E和CogView都采用了这种思路

另一条是这段时间频繁进步的路线mdashmdash基于扩散的文本到图像模型,如DALL—E 2和Imagen。

他们不使用图像标记,而是使用扩散模型直接生成图像可以看出,这些模型产生的图像质量更高,MS—COCO中零样本的FID评分更好

Parti模型的成功证明了自回归模型可以用来改善文本生成图像的效果。

同时,Parti还引入并发布了新的基准mdashmdashPartiPrompts,用于衡量模型在12个类别和11个挑战中的能力。

但是Parti还是有一定的局限性,研究人员也展示了一些bug:

比如关于负面描述没有表白~

没有香蕉的盘子和旁边没有橙汁的玻璃杯。

会犯一些常识性的错误,比如比例不合理比如这张图,机器人比赛车高好几倍

一个穿着赛车服,戴着黑色遮阳板的闪亮机器人骄傲地站在一辆F1赛车前太阳落在城市的风景上漫画书插图

谷歌滚自己

这个研究来自Google Research,团队大部分是中国人。

研究的核心人员有,徐,罗等,他们目前都在谷歌从事AI相关的研究

左:许,,右:汤良

但有趣的是,同样是说点什么让AI画同样来自Google的Imagen,真的和Parti有千丝万缕的联系。

Parti的GitHub项目文档中有提及:

感谢Imagen团队,他们在Imagen发布之前与我们分享了最新的完整结果。

他们在CF—guidance中的重要发现对最终的Parti模型特别有帮助。

还有一点

当你说出你所说的话时,它是生成文本图像这不仅仅是研究人员的宠儿。

网友在玩在这条路上,它也乐在其中。

前阵子让Imagen画了一个宋朝穿老虎VR,直接演变成了一场AI画战。

图:Imagen画的DALLmiddote,中途等听到消息参与进来。

达尔middot,E—painting甚至将Wordle和DALL—E 2放在一起:

helliphellip

不过,回到这个Parti,好玩是好玩,但还是有网友提出直达灵魂的问题:

什么时候能商业化如果你关上门太无聊了

Parti论文地址:

GitHub项目地址:

参考链接:

推荐内容