汉中万能胶生产厂家 需构造偏好对:TGO用标量反馈对齐视觉生成模型
发布日期:2026-05-19 04:06 点击次数:148

生成模型的偏好对齐汉中万能胶生产厂家,可能正在进入个新的阶段。
过去几年,大模型 post-training 主流的法是让模型从"成对偏好"中学习。但论是 RLHF 还是 DPO,都存在同个问题:反馈须成对出现。
但在真实场景中,反馈大多都是单个样本的标量分数。
为此,新加坡国立大学团队提出了个为直接的解法:Threshold-Guided Optimization ( TGO ) ,种不依赖成对偏好数据、直接利用立样本标量评分进行对齐的新范式。
简单来说,就是从分数分布中估计个阈值,于阈值的样本被看作 pseudo-positive,低于阈值的样本被看作 pseudo-negative;训练时,模型提前者相对 reference model 的概率,降低后者的概率。
同时,样本分数离阈值越远,说明监督越确定,训练权重也越大。
目前该研究已被ICML 2026接收,它让生成模型对齐不再只依赖"哪个好",而是开始直接利用"这个有多好"。
DPO 的优雅,来自 pairwise data
DPO之所以能成为偏好优化里的代表法,个关键原因是它把原本复杂的 KL-regularized RL objective,改写成了个可以直接训练的分类目标。
在这个目标里,模型不需要显式训练 reward model,也不需要像 PPO 那样做在线 rollout,只要有离线的偏好对,就能完成 policy fitting。
它背后的数学结构也很清楚:
在 KL 正则化的对齐目标下,优策略可以写成个 closed-form solution。但这个解里有个 partition function,也就是归化项,需要对所有可能输出求和,通常不可计。
DPO 能绕开这个问题,是因为在同个 prompt 下比较 preferred output 和 rejected output 时,这个 partition function 会在 reward difference 里自然抵消。
也就是说,DPO 的简洁,很大程度上来自成对偏好数据本身。两个输出比较,难的项就消失了,问题也就变成了个相对概率的分类问题。
但这个优势也反过来限制了它的适用范围。
旦监督信号不再是 pair,而是单个样本的 scalar score,原来靠"两两相减"抵消 partition function 的办法就不再直接成立。
于是实践中常见的做法,是把标量分数转成偏好对。例如在个 batch 内排序,把分样本当作 winner,低分样本当作 loser;或者对同 prompt 下多个候选结果两两比较,再构造 chosen/rejected pair。
这种做法当然可以用,但它也会带来信息损失。
个 9.5 分样本和个 7.5 分样本,在 pairwise 训练里可能都只是 winner;个 4.9 分样本和个 4.8 分样本,也可能被硬拆成组 winner 和 loser。
当前后两个样本差距很小、评分噪声又比较大时,这种人为构造出来的偏好对未可靠,甚至可能放大错误监督。
对于视觉生成来说,这个问题突出。
图像和的质量很少是简单的二元判断。图像可能审美不错但文本对齐般,也可能构图准确但风格不够好;还要考虑运动是否自然、主体是否稳定、时间是否连贯。
很多时候,个连续分数比个 winner/loser 标签接近真实反馈。
三条路线,都在放松 pairwise 约束
至于研究团队新提出的 TGO,也并非孤立出现。近域内好几篇工作其实都在回应同个问题:偏好优化能不能不再强依赖成对偏好?
PMPO
先是 Google DeepMind 近发布的《Preference Optimization as Probabilistic Inference》文。
它的出发点是,模型并不定需要看到严格配对的 preferred/dis-preferred samples,才能学习偏好。
只要有 preferred examples 或 dis-preferred examples,甚至只有其中种反馈,也可以进行优化。
法上,它基于 EM-style policy improvement,把目标写成三个部分:提 preferred samples 的 likelihood,降低 dis-preferred samples 的 likelihood,同时让新策略保持接近 reference policy。
这条路线的,是反馈结构灵活。传统 DPO 需要个 prompt 下的 chosen 和 rejected 配成对,而PMPO允许正负样本不成对出现,也允许数据分布不平衡。
这对很多现实任务是有意义的,因为真实数据里经常只有"这个结果不错"或者"这个结果不行",而不是完整的两两比较。
QRPO
论文《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》则解决的是另个向的问题:
如果我们手里有的不是正负标签,而是 pointwise absolute reward,能不能直接做 policy fitting?
这背后仍然绕不开partition function。
QRPO的做法是把原始 reward 转成 quantile reward。这样,在 reference policy 下,quantile reward 的分布会变成 uniform distribution,partition function 也就有了解析形式。
于是模型可以用个简单的 pointwise regression objective汉中万能胶生产厂家,直接拟 KL-regularized objective 的优策略,而不需要依赖成对比较来抵消归化项。
TGO
而本文《Threshold-Guided Optimization for Visual Generative Models》回答的亦是同个问题,只不过和 PMPO、QRPO 处理的是相同问题的不同切面。
PMPO 关心 unpaired positive/negative feedback,QRPO 关心 pointwise absolute reward 的可解析 policy fitting,而 TGO 则面向视觉生成模型,选择了个轻量的 threshold 案。
三者的共同点,是都在把偏好优化从"须有 pair "这个前提里松开。
TGO 的核心:用阈值近似 baseline
具体来说,TGO 的法看似简单,但并非单纯拍个阈值出来做二分类。它背后的来自KL-regularized alignment objective。
这就引出个问题:对于个给定样本,优策略到底应该提它的概率,还是降低它的概率?
在理论上,这取决于它的 reward 是否过某个 instance-specific oracle baseline。如果 reward 于这个 baseline,那么模型应该提该样本相对 reference model 的概率;如果 reward 低于 baseline,就应该降低它的概率。
但这个 oracle baseline 和 partition function 有关,通常不可计。
DPO 的做法是用成对比较让它抵消掉;QRPO 的做法是通过 quantile transformation 让 partition function 变得可解析;TGO 则选择用个driven global threshold来近似它。
TGO 先从 scored dataset 的分数分布中估计个阈值。
常见的选择是 percentile threshold,比如中位数。之后,所有分数于阈值的样本被视为 pseudo-positive,低于阈值的样本被视为 pseudo-negative。
训练时,模型学习调整自己相对于 reference model 的 log-likelihood ratio:对 pseudo-positive 样本提,对 pseudo-negative 样本降低。
进步,TGO 还引入了confidence weighting。分数离阈值越远,说明这个样本被判为正例或负例的置信度越,它对训练的贡献也应该越大。分数接近阈值的样本则模糊,训练时权重低。
这样来,TGO 并没有丢掉标量分数的幅度信息,PVC管道管件粘结胶而是把分数大小转化成了监督强度。
所以,TGO 的规则可以概括为两层:阈值决定新向,距离决定新力度。
这也是它和普通二值化的区别。普通二值化只保留正负标签,而 TGO 的 confidence weighting 继续利用了分数离阈值的程度。
对于视觉生成这种评分噪声较大、质量分布连续的任务,这点很重要。
需要注意的是,TGO 并不消除对反馈质量的依赖。标量分数仍然需要与目标偏好足够相关;如果分器有偏或噪声较大,阈值产生的 pseudo-label 也会继承这些偏差。
因此,TGO 解决的是如何直接地利用 scalar feedback,而不是替代反馈建模本身。
奥力斯 万能胶生产厂家 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
为什么视觉生成尤其适 scalar feedback
语言模型里,成对偏好很自然。人类比较两个回答哪个好,很多时候确实比直接分稳定。但在视觉生成里,情况并不样。
张图好不好,往往不是个简单的"胜过另张图"就能说明。它可能在审美上很好,但 prompt alignment 稍弱;也可能语义准确,但构图普通;还有些偏好主观,比如风格、调、人物姿态、背景复杂度。
这些因素叠在起,适被表达成个连续分数,或者多个维度的评分。
生成是如此。不仅要看单帧质量,还要看运动理、时间致、主体稳定、镜头变化以及文本对齐。
把这些信号强行压成个 pairwise preference,往往会损失很多细节。
真实产品里的反馈也接近 scalar 或 implicit feedback。用户可能点赞、收藏、点击、停留、分,或者对生成结果做二次编辑。
这些信号并不成对,却是模型改进非常重要的数据来源。如果对齐法只能处理 winner/loser,就很难充分利用这类反馈。
TGO 针对的正是这个缺口。它不要求每个 prompt 下都有多个候选结果,也不要求人为构造偏好对。只要每个样本有个分数,就可以进入训练。
这让视觉生成模型的对齐,接近真实反馈的收集式。
从图像到:TGO 在多种视觉生成范式上验证
论文的实验覆盖了两类视觉生成范式:类是diffusion-based models,另类是masked generative models。
前者包括 Stable Diffusion v1.5、FLUX、Wan 1.3B 等常见模型,后者则包括 Meissonic 这样的 masked generative transformer。
这说明TGO 并不是只适配某种模型结构。对于 diffusion model,它可以结 MSE-style objective;对于 MaskGIT 风格的离散生成模型,它也可以基于 token likelihood 做训练。
换句话说,TGO 像是种通用的 scalar-feedback alignment framework,而不是某个特定架构上的技巧。
在图像生成实验中,TGO 在 Pick-a-Pic、PartiPrompts 和 HPSv2 等测试集上进行评估,并使用 HPSv2.1、PickScore、ImageReward、CLIPScore、LAION Aesthetic Score 等多个 reward model 作为评价指标。
结果显示,相比 SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO 等法,TGO 在多个设置下都能取得的 reward-model scores。
视觉生成对齐里,个常见担忧是 reward hacking:模型可能只是把某个 reward model 刷了,但生成质量并没有真正。
TGO 在多个 reward model 上都有提升,说明它并不是单纯拟某个分器,而是在广泛的视觉偏好维度上带来了改进。
在生成上,TGO-LoRA 也被用于 Wan 1.3B+VideoReward 的实验设置。结果显示,它不仅提升了整体 VideoReward score,也了多个组件指标。
这说明 threshold-guided scalar feedback 不只是图像生成里的个局部法,也有潜力扩展到生成。
不是替代 DPO,而是补上另种反馈接口
但TGO 并不是要否定 DPO。
成对偏好仍然很重要,在很多任务里也仍然是稳定、直观的反馈形式。尤其是当人类很难给出对分数,但能比较两个结果好坏时,pairwise preference 仍然有很强的实用价值。
但问题在于,pairwise preference 不应该是唯接口。
生成模型正在进入多真实应用场景,而真实场景里的反馈并不会总是以 chosen/rejected pair 的形式出现。
语言模型会有 reward model score、verifiable reward、数学验证结果、代码通过率;图像模型会有审美分数、图文对齐分数、人类评分;模型会有运动质量、时间致和文本对齐;多模态系统还会有点击、收藏、停留、编辑等用户行为信号。
这些反馈大多是 pointwise 的。它们不告诉模型"这个比另个好",而是告诉模型"这个结果本身有多好"。如果对齐法只能处理比较数据,就会错过大量自然存在的监督信号。
PMPO、QRPO 和 TGO 的共同意义,正在于把偏好优化从 pairwise supervision 扩展到般的 feedback optimization。
PMPO 说明,未配对的正负反馈可以被纳入概率断式的 policy improvement;QRPO 说明,对励也可以通过 quantile reward 进入可解析的 policy fitting;TGO 则说明,在视觉生成里,个经验阈值加置信度权重,就足以把 scalar score 转成有的对齐信号。
那么为什么这件事如今值得被认真对待呢?
因为生成模型越往产品里走,反馈形态就越复杂。
早期的对齐研究可以假设有干净的偏好对,但真实用户不会总是配系统做 A/B comparison。
多时候,系统拿到的是个分数、次点击、次收藏、次停留,或者次修改。这些信号看起来散,却可能构成下阶段 post-training 的主要数据来源。
对于视觉生成尤其如此。图像和的质量,本来就不是非黑即白的判断,而是审美、语义、结构、运动、风格和个体偏好的综结果。直接从 scalar feedback 中学习,可能比先构造成对偏好自然,也容易扩展。
TGO 的价值就在这里。它没有把问题复杂化,而是用个很克制的式,把标量反馈接进了 KL-regularized alignment objective。
理论上,它用经验阈值近似不可计的 oracle baseline;工程上,它只需要 scored samples 就能训练;实践上,它能同时覆盖 diffusion 和 masked generative paradigms,并在图像和任务上带来稳定提升。
这可能是生成模型对齐接下来很重要的步:模型不能只会从"谁赢了"中学习,也要能从"这个结果有多好"中学习。
总的来说,过去,偏好优化的主流接口是 pairwise comparison。这个接口足够清晰,也催生了 DPO/GRPO 这样简单有的法。
但随着生成模型进入复杂的应用场景,反馈本身正在变得加多样。评分、通过率、励模型输出、用户行为日志、编辑操作,这些 pointwise signals 会越来越常见。
TGO 给出的答案很直接:不定要把它们都折叠成 winner 和 loser。对于视觉生成模型,只要找到个理的阈值,就可以把标量分数转成新向;再用分数离阈值的距离,衡量这个监督信号有多可信。
这并不是个复杂的系统,也不是个重型 RL pipeline。它像是把真实反馈里本来就存在的信息,以直接的式交给模型。
如果说 DPO 让偏好优化摆脱了复杂 RL,那么 TGO、QRPO 和 PMPO 这类工作,正在让偏好优化进步摆脱对成对比较的强依赖。
生成模型对齐的下步,可能不只是继续问"哪个好"。而是要让模型真正学会理解:这个结果到底有多好。
参考文献:
[ 1 ] Preference Optimization as Probabilistic Inference, https://arxiv.org/abs/2410.04166
[ 2 ] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, https://arxiv.org/abs/2507.08068
[ 3 ] Threshold-Guided Optimization for Visual Generative Models, https://arxiv.org/abs/2605.04653
键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �
感兴趣的小伙伴欢迎关注 � � 了解详情
� � 点亮星标 � �
科技前沿进展每日见
相关词条:铁皮保温施工 隔热条设备 锚索 离心玻璃棉 万能胶生产厂家1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
安康万能胶厂家 Win7业版有什么
白山PVC管道管件粘接胶 迪亚洛情绪上头未换人离场吃T惹争议
石河子万能胶厂 湘电股份:应收账款回款情况总体向好
淄博保温护角专用胶 接过衣钵?雷迪克:帕特·莱利树立了现代N
白山PVC管道管件粘接胶 众赢财富通:上汽大众新能源提速 新
三明防火门胶 金徽酒2025年营收29.18亿元 净利下滑8
