首页 ag旗舰厅 >新闻资讯 校园风采 AG旗舰厅官方
ICCV 2025 |降低扩散模型中的时空冗余,上海jiaotong University Eedit达到了图像编辑的速度,而无需图像编辑培训
2025-07-08

本文的联合首先作者是从2025年人工智能学院,上海北海大学和2024年香港科学技术大学的2025年毕业的学生。目前,她正在对上海北大大学的史诗实验室进行可怕的国际研究,并在助理教授张·林芬(Zhang Linfeng)的指导下进行。他的研究方向是高效和AIGC的模型。本文主要确定了张林芬教授团队的最新论文:edit⚡:重新思考良好图像编辑的空间和时间冗余。这是图像编辑的第一个概述,用于与许多引导解决方案兼容流程模型的快速匹配。该框架的速度显着提高,在原始工作流中可以加速2.4倍。输入引导条件很灵活,支持各种编辑活动,包括参考图像指南,拖放区域指南和直接单词指南;该框架采用了一种算法,无需训练而无需进行培训,而无需进行微调和蒸馏。本文是为ICCV 2025的。纸链接:https://arxiv.org/pdf/2503.10270生成时期的纸步骤。其中,黑森林实验室开发的通量系列模型主要代表。就性能和质量生成而言,这超过了SD系列模型的先前级别,因此在模型扩散领域达到了SOTA水平。但是,图像编辑的扩散模型的性能模型中仍然有许多疾病点,包括所需时间的大量步骤,大型的旋转过程,但对最终编辑结果质量的影响有限。更重要的是,非编辑区域的计算带来的不必要的开销导致了计算资源的巨大浪费。另外,在不同类型的编辑中和引导程序,目前尚无用于应用和加速的流模型的解决方案。关于图像编辑活动中大量时空引起的计算间接费用问题,当前的学术研究仍处于早期阶段,相关的研究内容仍然是蓝色的海洋。面对当前的研究状况,上海北港大学的史诗实验室团队提出了一个很棒的缓存,可以加速编辑编辑,而无需培训。它的基本思想是,在基于扩散模型编辑串联图像的过程中,使用多重输出功能在冗余时旋转过程中的步骤被压缩;位置标记奖励用于控制频率,未编辑的多重缓存功能的位置标记的更新,同时,尽可能多地更新与编辑区域一致的尽可能多的标签,以实现良好计算的目的。 Eedit有许多重要的亮点:1。需要良好的加速度。 EEDIT基于开放资源通量-DEVA模型,不需要训练或提拔,并且与不受限制的版本相比,它达到了2.4倍的识别速度,并且可以比其他编辑方法的其他类型的方法更快地达到10倍的加速度。 2。在图像编辑领域中,探索了浪费开销计算的问题,并试图首次解决问题。区域标记的频率计算由旋转多路复用特征和放置标记奖励的过程控制,从而降低了编辑任务中模型计算值的时空冗余性。 3。带有多种类型的输入的启动。编辑框架适用于编辑任务的不同类型的启动,包括图像参考指南,图像编辑图像以及由拖放区域指南指导的图像编辑活动。接下来,让我们一起研究学习的细节。研究动机1在猫虎编辑的情况下,架空模型计算的空间和时间冗余是压倒性的。本文发现了基于扩散模型的图像编辑活动中的空间和时间冗余。非编辑区域的空间冗余比编辑区域更高。在像素级别的可视化图像的多样性中,编辑区域中突出显示的区域(动物面,一部分纹理)的存在表明其中存在重大变化,其余的黑色区域代表了没有变化的不变区域。本文的集合根据空间字母重新组织隐藏的图层,并使用热图描述了它们。在隐藏层的热量表的均匀性中,还发现了恒定的空间冗余:编辑区域在开始时和页面后具有较低的均匀性,而非编辑区域则具有较高的相似性。这旋转过程的时间比否定过程更高。本文的作者使用多路复用来控制通过在完整的步骤中跳过旋转扩散过程中的一定时间步长而带来的模型的计算。在完整的旋转过程中,编辑时间的减少和泄漏的结果迅速崩溃。相反,在完整的分配过程中,编辑减少和否定时间步骤的结果通常与完整的计算一致。前提是,每个时间步骤的扩散模型的完整计算都需要数据传递整个模型,请减少时代的冗余措施以加速编辑的延迟。简介过程2基于框架编辑模型的扩散模型的缓存加速度方案基于MM-DIT的爆炸图像编辑图像的框架已经采用了一种有效的方法,没有培训。编辑的FRAMEWORK将原始图像和编辑信号作为输入。具体而言,在旋转和否认的两个过程中,要按时进行固定的步骤,而对于在周期内进行的步骤,用于缓存更新。在循环过程中,本文还使用了跳过步骤的方法,该步骤直接将模型的输出特征多倍地跳过计算。对于“缓存更新”部分,使用 - 设置空间局部缓存算法进行了精心设计,并且特定设计如下:图3用于减少空间减少。对于图像编辑过程中存在的空间冗余,本文的集合巧妙地设计了一种空间冗余。在更新令牌功能的功能功能功能之前,编辑图像图像的面具被用作空间知识。空间位置缓存(SLOC)是一种用于MM-DIT的插件缓存算法。该算法可以缓存variou的加速度S MLP组件,跨注意和自我控制。 SLOC将在开始阶段执行完整的计算,并在周期时固定步骤,以减少漂移的误差。在旋转过程中,部分计算自我控制令牌和多层馈电神经网络,并将其更新为高速缓存。 SLOC的核心是通过细粒度控制映射控制(标记映射)更改与不同空间区域相对应的特征令牌的计算频率。特别是:1。启动时,随机种子将被用来随机启动整个标记图。目前,所有特征令牌的标记都会受到随机均匀的高斯分布分布的约束。 2。将编辑区域的特征乘以系数作为区域标记的奖励,而相邻的区域通过与L1的距离的系数相处增加,以根据编辑的区域分布更改标记的数字标记标记。 3。选择特征令牌根据索引订阅,对应于标记分类后r%的初始值,并将其发送到模型层以进行更新缓存时的计算。 4。对于未说的特征令牌,将提供标记图的图,从而平衡不同区域之间的计算频率。对于选定的特征代币,补偿的增加将再次卷入。五月集还采用了缓存索引预处理(提示)方法。特别是,下标索引还使用了矢量指数的自由度和缓存更新算法的特定内容,并将缓存更新的逻辑从在线计算中更改为提供预处理算法的提供,因此,简短地使用图像编辑质量的损失,因此可以将ACCERED ACCELEREVES IS ACCELERALESARERALERALERALERALERALERALION CARTIO进行比较。实验结果本文的经验在通量dev的开放资源上占据了重量,并在四个数据集中进行了详细的技能和数量实验,包括pie-bench,drag-dr,drag-sr和TF-icon的基准,以测试编辑一代的性能和质量。图4在各种指标中,SLOC体积分析与现有的SD系列模型和通量系列的比较包括PSNR,LPIP,SSIM和剪辑,以及在世代领域常用的剪辑,以及理解该模型效率的拖放和了解时间的指标。如下图所示,与其他类型的方法 - 编辑相比,EEDIT采用的SLOC+ISS方案通常最适合在相同的扩散模型(Flux 12B)(Flux 12B)下进行的指标,并且识别开销和识别时间的计算也显着改善。值得注意的是,与重量较小的SD系列相比,本文中的过程也具有推理的竞​​争力。图5。编辑CAPA的比较不同类型的引导条件和其他方法中的能力。不仅如此,卓越实验还表明,在许多引导模式下,该方法具有更强的编辑精度和背景区域的强度一致性。在某些立即单词指南的情况下,其他程序在整体布局或不均匀背景而不是plong风格上存在重大变化的问题。在指南的拖动和奉献精神的情况下,本文中的过程反映了更好地遵守用户阻力意图的意图;在参考图像指南综合的工作中,本文中的过程显示出对相同的绘画样式以及原始项目身份身份的维护水平的显着好处。 6。与其他加速方法相比,比较性能。空间局部缓存是否应用于编辑任务的出色缓存算法?本文的五月仪式得出的结论是,它通过将其与O进行比较来确认THE CACHE加速算法。与缓存算法相比,也可以应用于MM-DIT的FORAS,TOCA和DUCA,本文中建议的SLOC算法不仅会降低加速度和延迟,而且还可以在前景保留(FG Care)中获得最佳结果。即使在某些指标中,效果也比其他高速缓存算法高出50%以上。如果您想引用本文,请遵循以下格式:@misc {ya2025EditerDinkingsPatial,title = {eedit:re re -re-思想的空间和时间冗余,以进行出色的图像编辑},以-set = {Zexuan yan and yue and yue and yue and yue and yue and yue and chan and quifeng zou and qifeng zou和qiifeng zou和linfeng}

Copyright © 2024-2026 吃瓜集锦:明星的大事件 版权所有

网站地图

鄂ICP备36659856号

友情链接: