一份給 GPT Image 2 與擴散式圖生圖工作流使用的實務排障指南:診斷構圖漂移、光線不一致、臉部與手部錯誤、遮罩外溢、紋理模糊和邊緣瑕疵。

圖生圖編輯通常會以可預期的方式失敗。主體被裁掉。手長出多餘的手指。新加入的物件看起來像貼上去的。遮罩編輯卻改動整張臉。每跑一輪,輸出就更暗。最直覺但錯誤的反應,是重跑同一段 prompt,加上「realistic」或「high quality」,或把 steps 拉高。那不是排障,只是花更多算力碰運氣。
實務規則很簡單:先修結構,再修光線,最後修細節。構圖錯誤是幾何問題。光線錯誤是合成問題。細節錯誤通常是局部修補問題。把這三者都當成提示詞文字問題,只會得到不穩定的結果。
這份指南是為 GPT Image 2 使用者撰寫,但同樣適用於 Stable Diffusion、Diffusers、ComfyUI、WebUI 和其他擴散式圖生圖流程。主要差異在控制面。GPT Image 2 提供較高層級的控制,例如 prompt、輸入圖片、mask、size、quality、輸出格式、壓縮和背景。傳統擴散工作流通常會暴露 strength 或 denoise、CFG 或 guidance scale、steps、sampler、scheduler、seed、ControlNet、IP-Adapter,以及更嚴格的 inpaint mask 行為。
這個差異很重要。當你能清楚描述編輯目標,並提供正確輸入圖片時,GPT Image 2 往往很強。但如果你需要像 Photoshop 那樣的硬遮罩,完全保留每一個未遮罩像素,它就不一定是最佳工具。嚴格的局部修補通常更適合 diffusion inpaint。用能解決實際缺陷的最小工具。
診斷順序:結構、光線、細節

在改任何參數之前,先把失敗分類。
如果主體被裁切、地平線不對、姿勢變了、左右兩個人的身分互換,或桌面出現不可能的透視,這是構圖問題。不要先增加 steps 或銳化圖片。先檢查長寬比、畫布、遮罩範圍和結構參考。
如果物件在正確位置,但看起來像貼上去的;主體在暖色房間裡卻偏藍;陰影方向錯誤;或換上的衣服和原圖光線打架,這是光線問題。先鎖住幾何,再修主光方向、接觸陰影、曝光和色溫。
如果圖片結構正確,光線也大致成立,再修細節:臉部相似度、手、頭髮、布料、產品邊緣、logo、光暈和紋理。細節工作通常應該是局部的。為了修三根手指而重算整張圖,是很差的取捨。
這個順序可以避免最常見的失敗循環:在已經不是同一個人的臉上修皮膚、在錯誤透視的物件上銳化,或對其實應該先重構構圖的主體反覆補光。
GPT Image 2 vs 擴散 I2I:你實際能控制什麼
對 GPT Image 2 來說,主要控制項是:
| Control | Practical use | Common mistake |
|---|---|---|
| Prompt | 定義編輯目標和保留規則 | 只需要局部修正,卻要求大範圍重新設計 |
| Input image | 提供身分、版面、風格和上下文 | 參考圖太弱,卻期待精確幾何 |
| Mask | 引導模型應該編輯的位置 | 把它當成硬性的像素邊界 |
| Size / aspect ratio | 設定構圖容器 | 用正方形畫布處理全身直式主體 |
| Quality | 平衡細節、成本和延遲 | 每次除錯都使用最終品質 |
| Multiple references | 協助身分、物件替換和風格 | 期待風格參考同時鎖住姿勢或透視 |
對擴散式圖生圖來說,可用控制更細:
| Parameter | What it changes | Useful starting point |
|---|---|---|
strength / denoise | 輸入圖片被重寫的程度 | 局部修補:0.15-0.35;光線:0.30-0.50;結構變更:0.50-0.75 |
CFG / guidance_scale | 模型遵循 prompt 的強度 | 寫實編輯:4-6;一般預設:6-8 |
steps | 去噪品質與執行時間 | 快速測試:20-30;平衡:30-50;困難細節:50-80 |
seed | A/B 測試的可重現性 | 診斷期間固定 |
sampler / scheduler | 去噪路徑和失敗模式 | 先選一組固定,再比較其他參數 |
| ControlNet scale | 結構引導強度 | 柔和:0.4-0.6;強:0.6-0.8 |
| IP-Adapter scale | 參考圖片影響強度 | 風格:0.4-0.6;身分或外觀:0.6-0.8 |
三條規則能讓參數調校保持理性。
第一,steps 不能可靠修復結構。它可能改善紋理與邊緣,但無法穩定修正錯誤姿勢、歪斜地平線或主體關係互換。
第二,CFG 不是「品質」。引導太低會忽略 prompt;太高可能讓圖片過度飽和、脆硬或不自然。只有當模型明確忽略某個指令時,才提高它。
第三,不要一次測十個變數。診斷時固定 seed、size、sampler 和輸入。一次只改一個主要變數:遮罩範圍、denoise、控制圖、參考圖片或 prompt 約束。
常見失敗庫與第一修法
把這張問題表當成快速分診表。
| Symptom | Likely cause | Priority | First fix |
|---|---|---|---|
| 遮罩編輯改到臉、背景或整張圖 | mask 被模型當成建議而非硬邊界;prompt 要求太多 | P0 | 裁切更小區域、縮窄編輯目標,並寫清楚 preserve list。若像素必須不動,改用 diffusion inpaint。 |
| 主體被裁切、頭不見、四肢出框 | 長寬比錯、畫布太緊、缺少「完整主體」指令 | P0 | 先改 size 或 outpaint。要求 full body、complete subject、natural margins。 |
| 草圖轉寫實後透視跑掉 | 只有語意 prompt,缺少結構控制;denoise 太高 | P0 | 使用 depth、canny 或 lineart 引導。降低 denoise。把結構修補與材質渲染分開。 |
| 兩個人角色互換或共用身體部位 | 主體間 prompt 泄漏;沒有區域分離 | P0 | 分開描述主體,使用 masks、regional prompting 或 pose control。 |
| 插入物件像貼紙 | 沒有接觸陰影、比例錯、mask 沒包含接觸區 | P0 | 修物件底部與陰影區,不只修物件本身。指定接觸陰影方向與柔軟度。 |
| 多輪後輸出越來越暗 | loopback 或重複低 denoise 編輯累積曝光漂移 | P1 | 停止循環。另做一次曝光與白平衡 pass。 |
| 換衣後光線方向錯 | 服裝參考圖光線不同;prompt 沒鎖住場景光 | P1 | 保留相機和背景。讓衣服匹配原始光向、陰影和色溫。 |
| 臉不再像本人 | 臉被放進大範圍全圖渲染 | P0 | 用臉部局部修補搭配身分參考,保留表情、臉型、年齡、髮型與比例。 |
| 手指數量錯或關節斷裂 | 接觸關係複雜、姿勢約束弱或 prompt 衝突 | P0 | 只遮罩手與接觸點。使用手部姿勢參考或 openpose。左右手分開修。 |
| 放大後紋理變糊 | 把放大與重繪混在一次高 denoise pass 裡 | P1 | 先放大,再用低 denoise 局部修補。 |
| 白邊、halo 或 fringing | mask 太緊;透明背景預期不匹配 | P1 | 使用覆蓋邊界內外兩側的 edge-ring mask。GPT Image 2 可先輸出不透明圖,再到下游去背。 |
P0 表示不修就不能交付。P1 表示缺陷明顯且影響品質。P2 缺陷夠小,可以留到最後拋光處理。
構圖疑難排解
構圖問題最不該被忽略。如果幾何錯了,後續修補都建立在壞底上。
主體被裁切時,先從畫布下手。直式全身圖需要直式框。需要標籤空間的產品 hero 圖,可能需要橫向空間。如果原始主體已經被切掉,先 outpaint 或擴展畫布,再要求更漂亮的渲染。在 GPT Image 2 中,prompt 保持直接:「move the camera back 10 to 20 percent, complete the missing head and arms, preserve the same face, outfit, background, camera height, and light direction.」
透視問題要加入結構。在擴散工作流中,室內、建築、家具和空間關係使用 depth。產品、logo、硬邊、圖表和草圖轉渲染使用 canny 或 lineart。人物使用 pose 或 keypoints。不要用 openpose 來保留產品輪廓,也不要期待 canny 理解手肘方向。
雙人場景要在 prompt 中分開兩個主體。「左邊的人」和「右邊的人」應該各自有身分、服裝、姿勢和動作描述。如果工具支援 masks、regional prompting 或 segmentation,就使用它。很多多主體失敗不是「手畫壞」,而是區域歸屬壞掉。
光線疑難排解
光線失敗通常是合成失敗。編輯物件在語意上正確,但不屬於這個場景。
要指定四件事:主光方向、陰影行為、色溫和曝光。「Make it realistic」太弱。「Match the existing warm left-side window light, add a soft contact shadow under the shoes, keep the background exposure unchanged, and preserve neutral skin tones」才有用。
當物件看起來像貼上去,不要先重繪整個物件。修接觸區:腳踩地板、產品底座放在桌上、狗爪踩草地、杯緣接觸檯面、海報邊緣貼牆。mask 應包含物件邊界與接收陰影的表面。prompt 應提到 contact shadow、occlusion shadow、必要時的 reflection,以及匹配的陰影柔軟度。
如果反覆編輯讓圖片太黃、太暗或對比太強,停止內容編輯。做一次獨立的色彩 pass。要求統一白平衡與曝光,同時保留構圖、身分、材質和紋理。除非能接受漂移,否則不要在同一輪裡同時「replace the jacket」和「fix the entire color grade」。
細節疑難排解
細節應在結構與光線穩定後再修。
臉部需要小遮罩與身分約束。遮罩整張臉並帶一點周邊上下文:髮際線、下巴、耳朵和相鄰皮膚。不要只遮一隻眼睛,除非你想要不對稱。要求模型保留精確相似度、臉型、年齡、表情、髮型、膚色和相機角度。要求自然皮膚紋理,不要塑膠感磨皮。
手也需要上下文。遮罩手掌、手指、手腕、物件接觸區和一點背景。保留手勢意圖與物件位置。如果兩隻手都壞了,分開修。對複雜的手物互動來說,一張姿勢或手部參考,比更長的 negative prompt 更有價值。
邊緣需要 edge-ring mask。如果產品有光暈,mask 必須覆蓋產品邊緣內外兩側。只覆蓋物件內部的 mask 修不好過渡。對 GPT Image 2 工作流來說,常見更乾淨的做法是先在不透明背景上生成或編輯,再到下游移除背景。
紋理需要兩步。先放大或使用超解析。再只對弱紋理區域用低 denoise 或窄範圍 edit prompt 重繪。如果把高 denoise 重繪和放大混在一起,通常得到的是更大的模糊,而不是更好的細節。
可複製 Prompt 範本
把這些當成結構化 prompt 使用。GPT Image 2 可貼上整個範本並填入括號。擴散流程中,必要時把「不要」條款移到 negative prompt。
1. 修正裁切與缺失身體部位
任務:重新構圖輸入圖片,讓主體完整可見,同時保留原始身分、服裝、材質、背景風格、相機高度和一天中的時間。
保留:臉部、髮型、身體比例、服裝顏色、背景版面、光線方向。
變更:讓相機後退約 10% 到 20%,補完整缺失的頭部、手臂、手、腿和腳,並在主體周圍留下自然邊距。
構圖:保留原始透視與主體方向。不要鏡像圖片,也不要改變左右關係。
不要:新增人物、改變背景、改變表情、改變色溫或改變曝光。
擴散起點:denoise 0.30-0.50。如果房間或建築不穩,加入 depth guidance。
2. 修正透視與比例
任務:修正輸入圖片中的透視和比例錯誤。
保留:主體身分、場景內容、材質、光線和主要相機角度。
變更:讓垂直線保持垂直,穩定地平線,對齊地板/桌面/建築的消失線,修正被拉長或壓縮的形狀。
構圖:保留既有主體關係。不要重新設計場景。
不要:新增元素、改變光線方向,或改變人物/產品身分。
擴散起點:室內或建築用 depth 0.7-0.9;產品與線稿用 canny/lineart 0.5-0.8;denoise 0.20-0.40。
3. 鎖定兩個主體與左右關係
任務:修正雙主體姿勢與左右關係。
左側主體:保持為 [Character A],保留髮型、臉型、膚色、服裝和面向。
右側主體:保持為 [Character B],保留髮型、臉型、膚色、服裝和面向。
姿勢:左側主體執行 [Action A],右側主體執行 [Action B]。不要交換位置。不要讓兩者共用手或手勢。
構圖:保留相機角度與場景不變。
不要:產生額外手臂、額外手指、錯誤左右手、混合身分或混合膚色。
可用時,使用 pose control、segmentation 或 regional prompting。
4. 匹配光線方向
任務:只修正光線一致性。
保留:主體身分、背景、相機位置、構圖、動作和材質。
變更:讓主光來自 [左上 / 右上 / 側面 / 背後]。讓高光、中間調、陰影和投影都與該光線方向一致。
陰影:建立自然的接觸陰影和環境陰影,柔軟度需匹配場景。
不要:改變姿勢、背景、色溫或白平衡。
擴散起點:denoise 0.25-0.45。只修陰影時,mask 只覆蓋陰影與接觸區。
5. 移除貼紙感的物件放置
任務:讓 [person/object/animal] 自然屬於場景,而不是看起來像貼上去。
保留:主體外觀和每個未遮罩區域。
變更:在接觸點周圍加入真實接觸陰影、細微遮擋陰影,以及必要的反射或反彈光。
空間關係:讓陰影方向和陰影密度匹配既有地板、牆面、桌面或地面材質。
不要:改變主體形狀、背景版面或主體顏色。
如果有多個接觸點,分成幾個小 pass 修補。
6. 統一曝光與色溫
任務:統一曝光和色溫,讓圖片看起來像同一台相機在同一瞬間拍下。
保留:構圖、主體身分、背景、材質和紋理。
變更:恢復自然白平衡,避免高光爆掉,讓陰影可讀,並讓膚色自然。整體色溫應為 [暖色日落 / 中性日光 / 冷調陰天]。
不要:改變場景內容、加入濾鏡感,或套用重度電影調色。
把這當成獨立 pass。不要和大幅結構編輯混在一起。
7. 修復臉部細節
任務:只修復臉部細節。
保留:精確相似度、臉型、年齡、表情、髮型、膚色和相機角度。
變更:修正眼睛對稱、瞳孔方向、睫毛、鼻孔、嘴唇邊緣、牙齒、耳朵和自然皮膚紋理。
品質:寫實攝影細節,不過度磨皮,不要卡通風格。
不要:改變表情、改變臉部比例、影響頭髮或影響背景。
遮罩完整臉部並帶一點周邊上下文。如果臉太小,先放大。
8. 修復手部
任務:只修復手部結構。
保留:手勢意圖、左右手關係、與物件的接觸位置、主體身分和背景。
變更:讓每隻手都有自然數量的手指、正確的關節彎曲、合理的手掌方向,以及自然的指尖接觸。
細節:恢復指節、指甲、掌紋和陰影,但不要誇張。
不要:新增手、交換左右手,或移動手持物件。
如果左右手都壞了,分開修。
9. 清理紋理與邊緣瑕疵
任務:清理邊緣瑕疵並恢復寫實紋理。
保留:主體形狀、標籤文字、顏色和整體構圖。
變更:移除白邊、halo、fringing、鋸齒邊和模糊邊緣。恢復清楚的 [hair/fabric/leather/product surface] 紋理和自然微對比。
背景:保持自然邊緣過渡,不要產生新的光暈。
不要:重新設計主體、改變文字或改變背景顏色。
使用 edge-ring mask。產品去背圖可先在不透明背景上編輯,再到下游移除背景。
策略:Inpaint、Control,還是 Rerender?
小缺陷預設使用局部 inpaint。它漂移最低,通常最能保護身分和背景。臉、手、邊緣、接觸陰影和小紋理問題都適合它。
先裁切再 inpaint 對極小瑕疵更好。裁出問題區域,用更高的表觀解析度修補,再放回完整圖片。眼睛、手指、產品邊緣和標籤都適用。
全圖 masked edit 適合語意變更,例如換裝、插入物件或大範圍風格調整。它不能保證未遮罩像素完全不變,尤其在 GPT Image 2 中。只有能接受一定漂移時才使用。
結構壞掉時使用全圖 rerender。如果原始版面就是錯的,重新渲染可能比硬補一堆局部 patch 更乾淨。但要接受身分、光線和細節可能還需要後續修補。
控制圖解決結構問題。Canny 和 lineart 保留邊緣。Depth 保留空間和透視。Pose 保留人體關節關係。Segmentation 和 regional prompting 減少主體混合。IP-Adapter 和參考圖片可保留身分、產品外觀或風格,但不能取代結構控制。
直白地說:local inpaint 修缺陷;rerender 重新設計圖片。需要哪一個,就用哪一個。
快速疑難排解清單
- 主體被裁或四肢出框:先改長寬比或擴展畫布。
- 透視錯誤:提高 steps 前,先用 depth、canny 或 lineart。
- 兩個人混在一起:用區域、mask 或 prompt 結構分開主體。
- Mask 外溢到目標區外:裁小一點、縮窄 prompt;若硬性像素保留很重要,改用 diffusion inpaint。
- 圖片反覆編輯後變暗:停止 loopback,做一次曝光 pass。
- 物件像貼上去:修接觸陰影和表面互動。
- 色溫漂移:做一次白平衡 pass,指定 neutral daylight 或 warm sunset 等明確目標。
- 臉部相似度漂移:用臉部局部修補,搭配身分參考和嚴格保留指令。
- 手壞掉:小遮罩、手部參考或姿勢,一次修一隻手。
- 紋理變糊:先放大,再低 denoise 局部修補。
- 邊緣光暈出現:使用 edge-ring mask,而不是物件內部 mask。
- 除錯像在碰運氣:固定 seed、size、sampler 和 input;一次只改一個變數。
部落格或團隊審稿的建議前後對照版面
最清楚的呈現方式是三欄比較:
Input | Mask or Control Map | Output
如果是細節修補,新增第二列放 200% 特寫。給團隊審稿時,在底部加一小段參數頁腳:model、size、quality、denoise、CFG、steps、sampler、scheduler、seed、control scale 和 reference scale。這能讓診斷可重現,而不是依賴記憶。
最後重點
大多數圖生圖失敗並不神秘。構圖錯誤需要畫布與結構控制。光線錯誤需要合成語言:光線方向、接觸陰影、曝光和色溫。細節錯誤需要小遮罩、參考和保守修補。
使用 GPT Image 2 時,勝出的做法通常是清楚的編輯目標、窄範圍、有效參考和明確保留規則。使用擴散工作流時,再加入可重現的參數測試與結構控制。兩者都一樣:先修底,再拋光表面。




