RewardFlow：透過多重獎勵優化提升擴散模型影像生成與編輯的語義精準度

RewardFlow 是一款無需反向傳遞的框架，利用多重獎勵 Langevin 動態優化預訓練模型，並結合動態權重策略，顯著提升了影像編輯的語義一致性與視覺品質。

Problem

現有擴散模型與流匹配模型在推理階段難以平衡多樣化的語義需求。傳統編輯方法常依賴繁瑣的圖像反推（Inversion）過程，這不僅耗時，且容易導致影像細節或語義精準度在生成過程中流失。

提出 RewardFlow 框架，透過多重獎勵 Langevin 動態直接在推理時引導預訓練模型。該方法整合了語義對齊、感知忠實度與人類偏好等獎勵函數，並首創可微分的視覺問答（VQA）獎勵。同時，設計了「提示詞感知自適應策略」，根據輸入指令動態調節各階段的獎勵權重與步長。

實驗證明 RewardFlow 在多個影像編輯與組合生成基準測試中，表現優於現有技術。其在編輯忠實度與組合語義對齊度上均達到當前最佳水準（SOTA），能精確執行複雜的指令並保持高度的視覺一致性。

本研究展示了無需重新訓練或精調模型，即可實現高效精準的影像控制。其統一多重異質目標的架構，為未來開發更具指令遵循能力與多模態推理能力的生成式 AI 奠定了重要基礎。