开云(中国)KAIYUN·官方网站不错自合乎地遴荐不同的条目-kaiyun下载
极度 ControlNet++开云(中国)KAIYUN·官方网站,让文生图更可控的新框架来了!
腾讯优图、南洋理工、浙大等盘问机构纠合推出DynamicControl,胜利将多模态大言语模子(MLLM)的推理能力集成到文本生成图像(T2I ) )任务中。
而况还提议了一种新颖、高效的多终局适配器,不错自合乎地遴荐不同的条目,从而竣事动态多终局对皆。
执行终局泄露,DynamicControl 大大增强了可控性,且不会葬送图像质地或图像文本对皆。
话未几说,底下来看具体本体。
DynamicControl:动态条目遴荐新架构
基于 ControlNet 类模子,之前的干事探索了各种终局信号,举例布局遏抑、分割图和深度图,以决定生成的图像中的空间胪列、物体时局和景深。
此外,该畛域还见证了使用快速工程和交叉正式遏抑来进一步完善图像生成的篡改。
不外现存款式均存在各自的局限性。
比如,磋议到一个对象的多种条目,一条清澈(举例 UniControl、UniControlNet)在舒适过程中当场遴荐一次激活一种条目,如图 1 ( a ) 所示。
这种处理不同视觉条目的能力相配低效,将大大增多舒适的计较干事和期间资本。
另一类方法(举例 AnyControl、ControlNet++)使用固定数目(时时为 2 或 4)的条目,并接收 MoE 缱绻或多终局编码器来贬责条目数目变化的问题,如图 1 ( b ) 所示。
但是,这种固定数目决策并莫得从根蒂上贬责多条目问题,也莫得磋议多条目是否与生成终局相冲破。
固然这些方法扩张了受控图像生成的可行性和应用,但在不同条目下增强可控性的显但是全面的方法仍然是一个正在进行的盘问和诱惑畛域。这突显了在 T2I 扩散模子中集成和优化终局机制以竣事更可靠和更详备的图像合成方面需要束缚翻新。
给定来自清除主题的多个条目,对于沟通的文本辅导,不同的条目在激情、纹理、布局,合感性等方面产生不同的终局。
此外,从与源图像的同样度 SSIM 得分来看,不同的条目难以准确生成与输入源图像一致的图像。这也标明不同条目对生成更好图像的孝顺不同,有些条目甚而会产生负面影响。
因此,在先前的方法中,仅遴荐一个或固定数目的条目而不磋议它们在生成更接近源图像的图像方面的垂死性以及每个条目之间的里面计划是次优的。
为了贬责这个问题,盘问提议了DynamicControl,这是一个复旧多种终局信号动态组合的新框架,它不错自合乎地遴荐不同数目和类型的条目,如图 1(c)所示。
具体咋作念到的
算法的合座历程如下图所示。
给定多种条目,盘问领先引入双轮回终局器来产生简直的排行分数,算作与 MLLM 结合舒适条目评估器的监督信号。
然后,这些排行的条目与来自预舒适条目评估器的遴荐分数由多终局适配器动态编码,以竣事可控的图像生成。
Double-Cycle Controlle
鉴于盘问将多条目可控性认识化为输入条目之间的动态遴荐,因此使用判别奖励模子来料到这种遴荐是可行的。
通过量化生成模子的输出,盘问粗略依靠这些定量评估来集体增强各种条目终局的优化,以促进更可控的生成过程。
具体来说,给定多个条目和文本辅导,盘问领先哄骗预舒适的条目生成模子为每个条目生成图像。
然后通过不同的预舒适判别模子索求相应的反向条目。
基于这些生成的图像和反向条目,盘问缱绻了一个双轮回终局器,对输入的多个终局条目进行启动垂死性评估。该双轮回终局器由两个一致性分数构成,即条目一致性和图像一致性。
(1)条目一致性。对于每个输入条目和生成图像的相应输出条目,盘问优化了条目轮回一致性赔本以取得更好的可控性,其公式为:
这里盘问对扰动图像奉行单步采样,其中 D 是判别奖励模子,用于优化 G 的可控性。L 默示抽象度量函数,可凭证特定的视觉条目合乎各种具体时局。
这种天真性使其粗略凭证不同视觉分析任务的特有要求进行定制,从而增强模子在不同场景中的适用性和有用性。
(2)反向图像一致性。除了条目一致性以外,盘问还接收反向图像一致性赔本来保证原始图像与生成的图像同样。
盘问通过最小化生成的图像和源图像之间的像素和语义互异来竣事这极少。给定源图像和生成的图像的 CLIP 镶嵌,赔本界说为:
这种赔本确保模子在应用条目和文本指示时粗略赤诚地回转条目并复返到源图像,通过最小化源图像和生成的图像之间的互异来强制奉行模子。
Condition Evaluator
固然双轮回终局器不错对各种终局条目进行综合评分,但仍然濒临两个挑战:
(i)使用事前舒适的生成模子进行图像合成都会给终局带来较高的不笃定性,这意味着对所接收的基础生成模子的依赖性很高。
(ii)源图像在测试过程中不行用,尤其是在用户指定的任务中。为了贬责这个问题,盘问在麇集架构中引入了多模态大言语模子(MLLM)。
如图 3 所示,给定条目 c1、c2、…、cN 和指示 τ,盘问的主要主张是哄骗双周期终局器的得分排序来优化条目的最好排序。
盘问用 N 个新记号"、…、",扩张了 LLaVA 的原始 LLM 词汇表以默示生成信息,并将这些记号附加到指示 τ 的末尾。
然后,将条目 c1、c2、…、cN 和再行组织的指示 τ ’输入到大言语模子 ( VLLM ) LLaV A ( · ; ω ) 中以取得对记号的反馈,这些记号被处理以索求相应的覆盖景象 hi ∈ H,从 VLLM 对输入的默示中拿获更深层的语义信息。
但是,这些覆盖景象主要存在于 LLM 的文本向量空间中,在与扩散模子(尤其是基于 CLIP 文本镶嵌舒适的模子)交互时会出现兼容性问题。这种互异可能会禁锢模子之间的有用集成。
磋议到这极少,盘问迁徙了 Q-Former,以将覆盖景象细化为与扩散模子兼容的镶嵌 fc。
篡改过程默示为:
轮回优化过程不错表述为:
随后,每个条目的 LLM 预计终局由双轮回终局器的相应排序分数进行监督,从而优化最终的排序排行。该过程默示为:
多终局适配器动态编码
为了合乎多种动态终局条目的同期应用,作家们翻新性地缱绻了一个多终局适配器。该适配器具于自合乎地解释复杂的终局信号,从而粗略从文本辅导和动态空间条目中索求全面的多终局镶嵌。
在取得经过考究预舒适的条目评估器后,不错哄骗其庞杂的明白能力对悉数输入条目进行评分。
从评分条目池中,只须那些达到或朝上预界说阈值的条目才会被选中参与后续的 T2I 模子优化。
这种遴荐性方法确保只须最关联和最高质地的条目能力参与舒适过程,从而有可能普及 T2I 模子的有用性和成果。
对于阈值确立,它不是手动预界说的,也不是在舒适集内的所罕有据对中保抓一致的。相背,它被成立为一个可学习的参数,允许模子自合乎地笃定和调养各种数据集的阈值。
因此,这种自合乎机制导致动态和各种化的终局条目在数目和类型上都莫得冲破。
这些条目在舒适过程中的使用取决于每个数据集的具体特征。这种方法确保舒适粗略凭证各种数据输入的特有需乞降隐否认别进行量身定制。
执行终局
抽象而言,来自各种条目终局的执行终局标明,DynamicControl 大大增强了可控性,而不会葬送图像质地或图像文本对皆。
其中,不同条目终局和数据集下的可控性比拟如下。
不同条目终局和数据集下的 FID(↓)/ CLIP 分数(↑)比拟如下。
可视化终局也出来了。
转头
在论文中,盘问从定量和定性的角度诠释了现存的专注于可控生成的盘问仍然未能充分哄骗多种终局条目的后劲,导致生成的图像与输入条目不一致。
为了贬责这个问题,盘问引入了 DynamicControl ,它使用高效的条目评估器对条目进行排序,明确优化了多个输入条目和生成的图像之间的一致性,从而将 MLLM 的推理能力集成到 T2I 生成任务中。
此外,盘问还提议了一种新颖而高效的多终局适配器,不错自合乎地遴荐不同的条目,从而竣事动态多终局对皆。
来自各种条目终局的执行终局标明,DynamicControl 大大增强了可控性,而不会葬送图像质地或图像文本对皆。
这为可控视觉生成提供了新的视角。
论文:
https://arxiv.org/abs/2412.03255
名堂主页:
https://hithqd.github.io/projects/Dynamiccontrol/
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本体
附上论文 / 名堂主页联接,以及计划款式哦
咱们会(尽量)实时复兴你
点这里� � 关切我,难忘标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿施展日日再见 ~