热点:

    谷歌Fluid颠覆共识:两大因素被发现,AI文生图领域自回归模型超越扩散模型

      [  中关村在线 原创  ]   作者:海是天的倒影

    谷歌Fluid颠覆共识:两大因素被发现,AI文生图领域自回归模型超越扩散模型

    10月23日,据最新报道,谷歌DeepMind团队与麻省理工学院(MIT)合作推出了全新的人工智能模型“Fluid”。该模型在拥有105亿参数时,在文生图领域取得了令人瞩目的成果。

    目前,在文生图领域内,自回归模型(Autoregressive Models)普遍被认为不如扩散模型(Diffusion Models)。接下来将对这两种模型进行简要介绍:

    自回归模型是通过预测序列中的下一个元素来依赖于前面的元素。在文本生成领域中,像基于Decoder-only的GPT系列(如GPT-3、GPT-4)就是典型的自回归模型。它们逐词预测下一个词,从而生成连贯的文本段落。

    然而,随着规模的扩大,自回归模型面临着性能和可扩展性的问题。因此,谷歌DeepMind和MIT团队通过对连续令牌和随机生成顺序两个关键因素进行了深入研究,并发现这两个因素显著提高了自回归模型的性能和可扩展性。

    具体而言,他们为每个图像区域分配了来自有限词汇的代码,这样会导致信息丢失。而使用连续令牌可以更精确地存储图像信息并减少信息丢失。这使得模型能够更好地重建图像,提高视觉质量。

    此外,大多数自回归模型以固定顺序生成图像。然而,“Fluid”模型采用随机生成顺序的方式,在每一步预测任意位置的多个像素时表现更为出色。当其规模扩大到105亿参数时,“Fluid”在重要基准测试中超越了Stable Diffusion 3扩散模型和谷歌此前的Parti自回归模型。

    值得注意的是,“Fluid”显示出了与拥有200亿参数的Parti相比显著的改进:拥有3.69亿参数的小型“Fluid”模型在MS-COCO上达到了7.23 FID分数。这一结果表明,“Fluid”的性能并不受其参数数量限制。

    这项研究成果对于人工智能领域的研究者来说具有重要意义,并且有望推动未来文生图技术的发展。

    本文属于原创文章,如若转载,请注明来源:谷歌Fluid颠覆共识:两大因素被发现,AI文生图领域自回归模型超越扩散模型https://dcdv.zol.com.cn/910/9109536.html

    dcdv.zol.com.cn true https://dcdv.zol.com.cn/910/9109536.html report 1366 10月23日,据最新报道,谷歌DeepMind团队与麻省理工学院(MIT)合作推出了全新的人工智能模型“Fluid”。该模型在拥有105亿参数时,在文生图领域取得了令人瞩目的成果。目前,在文生图领域内,自回归模型(Autoregressive Models)普遍被认为不如扩散模型(Diffusion Mo...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    • 数码摄像机
    • 新品上市
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错