论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

news/2024/4/24 14:36:59/文章来源:https://blog.csdn.net/huzimu_/article/details/136489492

SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

论文链接
代码链接

介绍

  • 背景:Stable Diffusion在合成高分辨率图片方面表现出色,但是仍然需要提高
  • 本文提出了SD XL,使用了更大的UNet网络,以及增加了一个Refinement Model,以进一步提高图片质量。

提高SD的措施

  • 用户偏好调查比较
    Comparing user preferences between SDXL and Stable Diffusion 1.5 & 2.1
    可以看到,在不增加Refiner模型的情况下,SD XL的效果已经比SD 1.5和2.1好很多了。
  • SD XL的模型结构
    Visualization of the two-stage pipeline
    可以看到,SD XL由一个SD base模型和一个Refiner模型组成,二者共用一个提示词输入,前者的输出同时也是后者的输入。Refiner模型其实是一个图片编辑模型。
  1. Architecture & Scale

    Comparison of SDXL and older Stable Diffusion models

    • transformer block方面,忽略高层级的块,而使用低层级的2和10特征块(不懂)
    • 使用两个Text Encoder并将它们的输出特征拼接到一起
    • 额外使用了Pooled text emb作为条件输入(不懂)
  2. Micro-Conditioning

    • Conditioning the Model on Image Size:过去的方法要么选择忽略小于特定尺寸的图片,要么选择放缩图片,前者忽略了大量的图片,后者可能造成图片模糊。SD XL中,将图片尺寸也当做条件输入,这样在推理阶段,用户就可以指定生成图片的尺寸,如图5所示。
      The effects of varying the size-conditioning

    • Conditioning the Model on Cropping Parameters

      由于SD 1和2系列使用了图片裁剪的方式进行数据增强,导致了生成的图片中有些物体只展现了一部分,如图4所示。SD XL通过将左上方 的裁剪坐标当做条件输入,让模型学到了裁剪坐标的信息。在推理的过程中,将裁剪坐标条件输入设置为(0,0)即可输出物体在图片中间的图片。
      Comparison of the output of SDXL with previous versions of Stable Diffusion
      Varying the crop conditioning as discussed in Sec. 2.2.

  3. Multi-Aspect Training
    常见情况下SD模型的输出是一个方形的图片,但是在实际应用中,图片的尺寸比例会有不同的要求。为了适应这一需求,SD XL将训练图片按照长宽比划分为不同的数据桶。在训练过程中,每个batch中的图片都来自同一个桶,每个训练步数中的数据在不同桶中之间交替选择。此外,桶的中数据的尺寸也被作为条件输入。

  4. Improved Autoencoder
    SD XL重新训练了一个更大的autoencoder,可以提高生成图片的局部高频细节。从表3中可以看到,使用提升后的autoencoder后,SD XL的重构性能在多个方面都比SD 1和2有所提高。
    Autoencoder reconstruction performance onthe COCO2017

  5. Putting Everything Together
    最终的SD XL是使用前面的所有策略共同训练得到的。
    Refinement Stage:使用上述方法训练的模型有些时候仍然会生成低质量的图片,因此为了提高生成高分辨率的图片的能力,SD XL使用图片编辑技术,添加了一个Refiner模型,这个模型是可选的。

未来的工作

作者认为未来还值得研究方向如下:

  • 单阶段:SD XL是一个两阶段的模型,时间和空间开销更大。研究一个同样效果或更好效果的单阶段模型很有必要。
  • 文本合成:SD XL中采用了更多和更大的text encoder,也取得了更好的效果。使用byte-level tokenizers [52, 27]或者只是使用更大规模的文本编码器是提高SD XL文本处理能力的可能途径。
  • 结构:作者们尝试过一些Transformer-based的模型,比如UViT [16] and DiT [33],但是没有发现好的效果。然而,作者们仍然认为,Transformer为主的模型是一个方向。(新的Stable Diffusion 3正是采用了DiT [33]的技术,说明作者们坚持的优化方向是正确的)
  • 蒸馏:使用模型蒸馏技术,减小模型的体积,减少空间和时间开销。事实上,SD系列一直有蒸馏版本的模型,比如SD XL Turbo。
  • SD XL是在离散时间模式下训练的,需要偏移噪声预测以生成美观的图片。EDM-framework是一个很有潜力的工作,其支持连续时间,可以提高采样灵活性而不需要噪音校对。(不是很懂)

其它

  • 重要的相关工作
    • 图片编辑模型:SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_996390.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EasyX的学习2

消息处理——漂亮的按钮(鼠标) 用到的函数 1.消息结构体变量类型:使用ExMessage ExMessage msg{ 0 }; 定义一个变量名为msg的ExMessage结构体变量并初始化为0 2.获取消息函数:peekmessage函数 //获取消息 peekmessage(&msg, EX_MOUSE); 两个参…

vue3学习(续篇)

vue3学习(续篇) 默认有vue3基础并有一定python编程经验。 chrome浏览器安装vue.js devtools拓展。 文章目录 vue3学习(续篇)1. element-ui使用2. axios 网络请求1. 简介2. 操作 3. flask-cors解决跨域问题1. 简介2. 操作 4. 前端路由 vue-router1. 简单使用2. 配置路径别名和…

Vue2+ElementUI下拉、Select组件的封装

Vue2ElementUI下拉、Select组件的封装:引言 在 Vue2 项目中,ElementUI 的 el-select 组件是常用的下拉选择框组件。它提供了丰富的功能和样式,可以满足各种需求。但是,在实际开发中,我们经常会遇到一些重复性的需求&a…

RocketMQ架构详解

文章目录 概述RocketMQ架构Broker 高可用集群刷盘策略 概述 RocketMQ一个纯java、分布式、队列模型的开源消息中间件,前身是MetaQ,是阿里研发的一个队列模型的消息中间件,后开源给apache基金会成为了apache的顶级开源项目,具有高…

[Redis]——数据一致性,先操作数据库,还是先更新缓存?

目录 一、操作缓存和数据库时有三个问题需要考虑: 1.删除缓存还是更新缓存? 2.如何保证缓存与数据库的操作同时成功或失效 3.先操作缓存还是先操作数据库(多线程并发问题) 二、 缓存更新的最佳策略 一、操作缓存和数据库时有…

3D资产管理

3D 资产管理是指组织、跟踪、优化和分发 3D 模型和资产以用于游戏、电影、AR/VR 体验等各种应用的过程。 3D资产管理也称为3D内容管理。 随着游戏、电影、建筑、工程等行业中 3D 内容的增长,实施有效的资产管理工作流程对于提高生产力、减少错误、简化工作流程以及使…

2024 年适用于 Windows 和 Mac 的最佳数据恢复软件

您刚刚与朋友参加了一次难忘的告别聚会回来。您已经拍摄了数百个美好瞬间,并将它们保存在您的设备中,并渴望与您所爱的人分享。 但随后,您突然不小心从电脑中删除了整个相机文件夹。现在这是我们许多人面临的最严重的问题,因为我…

python+django高校澡堂洗浴浴室预约签到管理系统8d8c

本系统在设计过程中,高校洗浴管理系统的出现就有很大的需求。该系统可以很好地解决这些麻烦和问题。 很好地发挥了该开发方式的优势,让实现代码有了良好的可读性,而且使代码的更新和维护更加的方便,操作简单,对以后的维…

openEuler学习——部署MGR集群

本文介绍如何利用GreatSQL 8.0.25构建一个三节点的MGR集群。 1.安装准备 IP端口角色192.168.20.1103306mgr1192.168.20.1113306mgr2192.168.20.1123306mgr3 配置hosts解析 [rootMGR1 ~]# cat >> /etc/hosts << EOF > 192.168.20.110 MGR1 > 192.168.20.1…

GPT-4技术解析:与Claude3、Gemini、Sora的技术差异与优势对比

【最新增加Claude3、Gemini、Sora、GPTs讲解及AI领域中的集中大模型的最新技术】 2023年随着OpenAI开发者大会的召开&#xff0c;最重磅更新当属GPTs&#xff0c;多模态API&#xff0c;未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义&#xff0c;不亚…

华为OD机试 - 疫情扩散时间计算 - 矩阵(Java 2024 C卷 200分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2024C卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;A卷B卷C卷&am…

获得店铺的所有商品API接口

使用淘宝淘口令接口的步骤通常包括&#xff1a; 注册成为淘宝开放平台的开发者&#xff1a;在淘宝开放平台网站上注册账号并完成认证。 创建应用以获取API密钥&#xff1a;在您的开发者控制台中创建一个应用&#xff0c;并获取用于API调用的密钥&#xff0c;如Client ID和Clie…

鸿蒙4.0-DevEco Studio界面工程

DevEco Studio界面工程 DevEco Studio 下载与第一个工程新建的第一个工程界面回到Project工程结构来看 DevEco Studio 下载与第一个工程 DevEco Studio 下载地址&#xff1a;点击跳转 https://developer.harmonyos.com/cn/develop/deveco-studio#download 学习课堂以及文档地址…

AGM AG32 MCU系列(含AGRV2K)的内部PLL使用入门(一)

AG32 MCU(或AGRV2K)的整个器件只有一个 PLL 倍频模块&#xff08;mcu 和 cpld 共用&#xff09; 。倍频分频操作是封装在系统内部的&#xff08;用户无须也不能控制这个时钟树&#xff09; 。 实现原理&#xff1a; A. 系统会根据所有用到的频率项&#xff08;mcu 和 cpld 要用…

unity学习(45)——选择角色菜单——客户端处理服务器的数据

1.已知客户端ReceiveCallBack中已经收到来自服务器返回的数据包。 2.问题是客户端MessageManager中的Update并没有拆解该数据包 &#xff0c;因该是因为脚本没有挂载。 挂在SelectMenu场景中的Camera上即可。 挂载后成功达到目地 其中Update中的List是一个起到全局效果的static…

K8s存储

目录 1.emptyDir存储卷 2.hostPath存储卷 3.nfs共享存储卷 4.PVC 和 PV NFS使用PV和PVC 1.配置nfs存储 2.定义PV 3.定义PVC 4.测试访问 5.搭建 StorageClass nfs-client-provisioner &#xff0c;实现 NFS 的动态 PV 创建 1、在stor01节点上安装nfs&#xff0c;并配…

【unity实战】3D水系统,游泳,潜水,钓鱼功能实现

文章目录 素材将项目升级为URP画一个水潭地形材质升级为URP创建水调节水第一人称人物移动控制游泳水面停留添加水下后处理水下呼吸钓鱼参考完结 素材 https://assetstore.unity.com/packages/vfx/shaders/urp-stylized-water-shader-proto-series-187485 将项目升级为URP 这…

HarmonyOS NEXT应用开发案例——滑动页面信息隐藏与组件位移效果

介绍 在很多应用中&#xff0c;向上滑动"我的"页面&#xff0c;页面顶部会有如下变化效果&#xff1a;一部分信息逐渐隐藏&#xff0c;另一部分信息逐渐显示&#xff0c;同时一些组件会进行缩放或者位置移动。向下滑动时则相反。 效果图预览 使用说明 向上滑动页面…

【nodejs】“__dirname is not defined”错误修复

▒ 目录 ▒ &#x1f6eb; 问题描述环境 1️⃣ 原理CommonJS vs ESM错误原因 2️⃣ 禁用 ESM 模式并改用 CommonJS方案一&#xff1a;项目方案二&#xff1a;单文件 3️⃣ 在 ESM 模式下自实现__dirname&#x1f4d6; 参考资料 &#x1f6eb; 问题 描述 从网上找了一份代码&am…

Vmware Workstation 不可恢复错误:0xc0000005 has occured

上周打开虚拟机的时候报错&#xff1a;Vmware Workstation 不可恢复错误&#xff1a;0xc0000005 has occured&#xff0c;查看网上资料说是vmware版本太低&#xff0c;需要手动更新本地版本。 由于本地网络不是很好&#xff0c;没能正常更新&#xff0c;无意中出现问题前更改了…