
vivo BlueImage Lab 团队 投稿 楚雄gj35钢绞线参数
量子位 | 公众号 QbitAI
扩散模子又被玩出新步地了。
直以来,提扩散模子生成质地的要道技巧,是在理阶段加入引(guidance)。
要么依赖文本条目(如 CFG)——需要门的闇练计策,莫得文本条目就不行用;
要么靠显式加噪膺惩模子理——然而果有限。
目下,种全新的念念路来了:
不需要文本条目,不加噪声,不改模子,只在里面交换 token。
来自上海交大和 vivo 的掂量者冷漠了种十分约略但相等有的法:自交换引(Self-Swap Guidance,SSG)。该职责已被 CVPR 2026 会议接管为 Oral。
句话追思:
通过在空间和通说念维度上交换 token 特征,把模子"搞差",再用这个"变差"的旅途去指我方的生成。
听起来约略,但却十分奏。
现存法有什么问题?
现时主流的引法是CFG (Classifier-Free Guidance):约略来说,便是用"有条目输出"和"条目的输出"作念差,得到从"没那么符语义"到"加符语义"的瞻望的个向,引模子朝这个由差到好的向走,从而引出符语义的生成,但它有些主要的局限:
须依赖文本(prompt)的存在(没文本引不了)楚雄gj35钢绞线参数
需要门的闇练历程(随即丢掉文本条目输入)
Guidance Scale 时容易过富饶、细节崩坏、各种下落……
近也有东说念主尝试"条目引"(condition-free guidance),也便是不需要依赖文本也大约进行引,比如:
SAG(往输入加噪声)
PAG/SEG(往 attention 加噪声)
TSG(往 timestep 向量加噪声)
但这些法有个共同的问题:扰动添加的粒度比较粗——要么可能不够强,要么太过甚。效果便是小扰动没什么引果,大扰动凯旋让图变的没法看。
如下图,现存的条目引法在低引统统下生成质地欠佳,在引统统下出现图像失真、过富饶、噪声等气候。比拟之下,自交换引(SSG)的生成质地对引统统加鲁棒清晰。
SSG 的中枢想法:不加噪声,只作念"结构"
SSG 的念念想相等约略:与其加噪声,不如凯旋对部分特征进行"重排"。具体作念法是,对于模子里面的 token 特征进行两个维度上的随即交换:空间维度自交换(spatial self-swap)和通说念维度自交换(channel self-swap)。
在实践中,掂量者发现随即采纳 token 或者 channel 对进行交换就能起到比较深刻的引作用,而两两交换"不一样"的些 token 或 channel 对,引果好,图片质地佳。其原因在于可以完了加充分的膺惩,而不需要全局加噪。
具体作念法是,使用两个前向理分支。其中个不作念任何转换,文风不动地让预闇练模子输出噪声瞻望(ϵ ori)。另个分支会在模子的特定层实践自交换扰动,先在空间维度进行些不一样 token 的交换,再在通说念维度进行些不一样通说念的交换,后得到经过扰动的噪声瞻望(ϵ pert)。
在理的每个时辰步上,用两个分支的噪声瞻望作念差,用这个向对原始噪声瞻望进行个修正,修正的强度由引统统 /omega 摒弃,这引历程与 CFG 很一样:
这种引在每个时辰步齐会作念次楚雄gj35钢绞线参数,指整个理步齐走完,就得回了经过引生成的质地的样本,便是这样约略。
实验效果
掂量者在条目、有条目生图的征战下,钢绞线使用 COCO2014、COCO2017、ImageNet 等多种真确图像数据集考据 SSG 的引果。在这些实验中,SSG 在多个成见上过了现存的 SAG、SEG、PAG 等条目引法。
△SD1.5 模子文本条目生图在 ImageNet 上的定量实验效果
△SDXL 模子有文本条目生图在 COCO 2017 上的定量实验效果
具体而言,采用的定量成见包括 FID(量度散播互异)、CLIP Score(文本慑服进度)、Inception Score(质地与各种),以及肉眼质田成见(AES、PickScore、ImageReward)。对条目生成也使用了 Precision 和 Recall 量度质地与各种。SSG 在这些成见上均取得了异的效果。
通过对比实质生图果,可以发现 SSG 可以清晰地生成较质地、加当然的图片,在有文本条目的生成征战下,与文本的致好。随即交换的能还是过多个现存法,而"不一样"交换计策可以得回的生成质地。
△Token 交换计策的消融实验
掂量者对于不同的交换计策进行了对比,其中随即交换就还是能完了极度可以的引果,致使比此前的法齐要好。交换不一样的 token 特征在两项东说念主类偏好分数上,举座上完了佳的成见权衡。通说念交换果举座于空间交换,二者结使用可以完了图像质地和好意思学感知分数的佳权衡。
△空间与通说念交换计策的消融实验
通过对空间、通说念两种交换时刻进行消融实验,可以考据两种法齐能有地引生成,通说念交换的果举座上于空间交换,而两种交换同期使用可以完了好的总体果。因此可以说两种交换在定进度上互补——对其引模式的可视化也展现出深刻的区别。如下图,通过可视化可以发现两种交换的引模式互异深刻。
些其他讨论
SSG 与同期职责 TPG 齐在特征的空间维度上引入了扰动设想—— SSG 采纳部分 token 进行空间上的位置交换,而 TPG 凯旋对整个 token 进行随即重胪列。在成见上来说,SSG 的不一样 token 交换案略于 TPG 的 token 随即重胪列,而蓄意支出也大于后者。
此外,SSG 次揭示了特征通说念维度上的扰动对于引扩散模子的显耀果,而况发现通说念维度扰动的引果显耀于空间维度,这气候为后续设想的引机制提供了新的念念路。
至于该掂量的局限,先是穷乏系统的表面支撑,以及其法能对于扰动添加的具体层位置较为明锐。这些亦然扩散模子引系列职责多量存在的问题。因此,如何从表面层面临其有进行解说,并设想鲁棒的扰动机制,仍是值得入探索的向。
另外,在模子内的多个层分袂蓄意 token 一样度会引入定进度的蓄意支出,对 SSG 蓄意率的化也将是具有实质兴致的后续课题。
对于 vivo BlueImage Lab
蓝图影像革命实验室,主要正经出动影像算法革命,包括图像 / 管理、图像 / 交互、图像 / 增强、多模态融会大模子等面的时刻前沿探索。
竭力于不停培育 vivo 出动影像的算法智商,使用户大约拍摄出加明晰、好意思不雅的像片和。同期积探索增强本质、具身智能等新兴时刻域的运用,用功为用户提供加丰富和方便的影像体验。
键三连「点赞」「转发」「注重心」
迎接在批驳区留住你的想法!
— 完 —
【学术投稿】请在职责日发送邮件至:ai@qbitai.com,标题注明【投稿】,并告诉咱们:你是谁,从哪来,投稿内容附上项目 / 主页流畅,以及连络式。
� � 咱们会 ( 尽量 ) 实时恢复你 : )
� � 点亮星标 � �
科技前沿表现逐日见手机号码:15222026333相关词条:不锈钢保温施工 塑料管材生产线 钢绞线厂家 玻璃棉板 泡沫板橡塑板专用胶
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
15222026333