热点:

    智谱AI 级联扩散文生图模型开源:性能远超SDXL

      [  中关村在线 原创  ]   作者:一便士的月亮

    智谱AI 级联扩散文生图模型开源:性能远超SDXL

    智谱技术团队今天宣布开源了他们的文生图模型CogView3和CogView3-Plus-3B,并且这些模型已经通过“智谱清言”App上线了。CogView3是一个基于级联扩散的text2img模型,包含了三个阶段:第一阶段是利用标准扩散过程生成低分辨率图像,第二阶段是利用中继扩散过程进行超分辨率生成,第三阶段将生成结果再次基于中继扩散迭代,以得到高分辨率的图像。

    在人工评估方面,CogView3比目前最先进的开源文本到图像扩散模型SDXL高出77.0%,并且只需要SDXL大约1/10的推理时间。而CogView3-Plus则是在CogView3(ECCV 24)的基础上引入了最新的DiT框架,以实现整体性能进一步提升。它采用Zero-SNR扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的MMDiT结构相比,它在保持模型基本能力的同时有效降低训练和推理成本。CogView-3Plus使用潜在维度为16的VAE。

    以下是两个模型的开源地址:

    - CogView3仓库地址:https://github.com/THUDM/CogView3

    - CogView3-Plus-3B仓库地址:https://huggingface.co/THUDM/CogView3-Plus-3B

    本文属于原创文章,如若转载,请注明来源:智谱AI 级联扩散文生图模型开源:性能远超SDXLhttps://dcdv.zol.com.cn/907/9079868.html

    dcdv.zol.com.cn true https://dcdv.zol.com.cn/907/9079868.html report 847 智谱技术团队今天宣布开源了他们的文生图模型CogView3和CogView3-Plus-3B,并且这些模型已经通过“智谱清言”App上线了。CogView3是一个基于级联扩散的text2img模型,包含了三个阶段:第一阶段是利用标准扩散过程生成低分辨率图像,第二阶段是利用中继扩散过程进行超分辨...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    • 数码摄像机
    • 新品上市
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错