Problem
現有擴散模型與流匹配模型在推理階段難以平衡多樣化的語義需求。傳統編輯方法常依賴繁瑣的圖像反推(Inversion)過程,這不僅耗時,且容易導致影像細節或語義精準度在生成過程中流失。
Method
提出 RewardFlow 框架,透過多重獎勵 Langevin 動態直接在推理時引導預訓練模型。該方法整合了語義對齊、感知忠實度與人類偏好等獎勵函數,並首創可微分的視覺問答(VQA)獎勵。同時,設計了「提示詞感知自適應策略」,根據輸入指令動態調節各階段的獎勵權重與步長。
Results
實驗證明 RewardFlow 在多個影像編輯與組合生成基準測試中,表現優於現有技術。其在編輯忠實度與組合語義對齊度上均達到當前最佳水準(SOTA),能精確執行複雜的指令並保持高度的視覺一致性。
Significance
本研究展示了無需重新訓練或精調模型,即可實現高效精準的影像控制。其統一多重異質目標的架構,為未來開發更具指令遵循能力與多模態推理能力的生成式 AI 奠定了重要基礎。