热点：

谷歌Fluid颠覆共识：两大因素被发现，AI文生图领域自回归模型超越扩散模型

2024-10-23 14:54:43 [ 中关村在线原创 ] 作者：海是天的倒影

谷歌Fluid颠覆共识：两大因素被发现，AI文生图领域自回归模型超越扩散模型

10月23日，据最新报道，谷歌DeepMind团队与麻省理工学院（MIT）合作推出了全新的人工智能模型“Fluid”。该模型在拥有105亿参数时，在文生图领域取得了令人瞩目的成果。

目前，在文生图领域内，自回归模型（Autoregressive Models）普遍被认为不如扩散模型（Diffusion Models）。接下来将对这两种模型进行简要介绍：

自回归模型是通过预测序列中的下一个元素来依赖于前面的元素。在文本生成领域中，像基于Decoder-only的GPT系列（如GPT-3、GPT-4）就是典型的自回归模型。它们逐词预测下一个词，从而生成连贯的文本段落。

然而，随着规模的扩大，自回归模型面临着性能和可扩展性的问题。因此，谷歌DeepMind和MIT团队通过对连续令牌和随机生成顺序两个关键因素进行了深入研究，并发现这两个因素显著提高了自回归模型的性能和可扩展性。

具体而言，他们为每个图像区域分配了来自有限词汇的代码，这样会导致信息丢失。而使用连续令牌可以更精确地存储图像信息并减少信息丢失。这使得模型能够更好地重建图像，提高视觉质量。

此外，大多数自回归模型以固定顺序生成图像。然而，“Fluid”模型采用随机生成顺序的方式，在每一步预测任意位置的多个像素时表现更为出色。当其规模扩大到105亿参数时，“Fluid”在重要基准测试中超越了Stable Diffusion 3扩散模型和谷歌此前的Parti自回归模型。

值得注意的是，“Fluid”显示出了与拥有200亿参数的Parti相比显著的改进：拥有3.69亿参数的小型“Fluid”模型在MS-COCO上达到了7.23 FID分数。这一结果表明，“Fluid”的性能并不受其参数数量限制。

这项研究成果对于人工智能领域的研究者来说具有重要意义，并且有望推动未来文生图技术的发展。

本文属于原创文章，如若转载，请注明来源：谷歌Fluid颠覆共识：两大因素被发现，AI文生图领域自回归模型超越扩散模型https://dcdv.zol.com.cn/910/9109536.html

猜你喜欢
最新
精选
相关

手机版阅读即时更新

点击加载更多内容

中关村在线首页数码影音首页

数码摄像机品牌大全热门数码摄像机上升最快的数码摄像机

数码摄像机报价

热门搜索

苹果发布会 AWE Chinajoy IFA mwc CES Asia CES

热词：镜头卡西欧佳能

24小时热文
本周热评

推荐经销商

投诉欺诈商家: 010-83417888-9185

北京
上海
广州

数码摄像机
新品上市

1索尼 FX3￥32000

参考报价： ¥29570
去购买>
2索尼 ILME-FX30￥12938

参考报价： ¥12519
去购买>
3索尼 PXW-Z280￥38800

参考报价： ¥36480
去购买>
4索尼 FDR-AX45A￥7599

参考报价： ¥7599
去购买>
5佳能 PowerShot V10￥2999

参考报价： ¥2588
去购买>
6松下 AJ-UPX360MC￥38000

参考报价： ¥21180
去购买>
7索尼 FDR-AX700￥11998

参考报价： ¥11698
去购买>
8索尼 PXW-Z200￥35500

参考报价： ¥31999
去购买>
9索尼 PXW-Z150￥21999

参考报价： ¥18599
去购买>
10索尼 HDR-CX405￥1849

参考报价： ¥1800
去购买>

推荐问答

提问

论坛精选
最热回答

摄影
手机
硬件
笔电
平板

0

下载ZOL APP
秒看最新热品

内容纠错