父親節 & 夏季特惠
00:00:00.00
立即搶購
GPT Image 2 AIGPT Image 2 AI
最佳實務

GPT Image 2 圖生圖疑難排解:修正構圖、光線與細節

G

GPT Image 2 Team

2026年5月10日

4 分钟阅读
GPT Image 2 圖生圖疑難排解:修正構圖、光線與細節

一份給 GPT Image 2 與擴散式圖生圖工作流使用的實務排障指南:診斷構圖漂移、光線不一致、臉部與手部錯誤、遮罩外溢、紋理模糊和邊緣瑕疵。

Image-to-image troubleshooting comparison with input mask and corrected output

圖生圖編輯通常會以可預期的方式失敗。主體被裁掉。手長出多餘的手指。新加入的物件看起來像貼上去的。遮罩編輯卻改動整張臉。每跑一輪,輸出就更暗。最直覺但錯誤的反應,是重跑同一段 prompt,加上「realistic」或「high quality」,或把 steps 拉高。那不是排障,只是花更多算力碰運氣。

實務規則很簡單:先修結構,再修光線,最後修細節。構圖錯誤是幾何問題。光線錯誤是合成問題。細節錯誤通常是局部修補問題。把這三者都當成提示詞文字問題,只會得到不穩定的結果。

這份指南是為 GPT Image 2 使用者撰寫,但同樣適用於 Stable Diffusion、Diffusers、ComfyUI、WebUI 和其他擴散式圖生圖流程。主要差異在控制面。GPT Image 2 提供較高層級的控制,例如 prompt、輸入圖片、mask、size、quality、輸出格式、壓縮和背景。傳統擴散工作流通常會暴露 strength 或 denoise、CFG 或 guidance scale、steps、sampler、scheduler、seed、ControlNet、IP-Adapter,以及更嚴格的 inpaint mask 行為。

這個差異很重要。當你能清楚描述編輯目標,並提供正確輸入圖片時,GPT Image 2 往往很強。但如果你需要像 Photoshop 那樣的硬遮罩,完全保留每一個未遮罩像素,它就不一定是最佳工具。嚴格的局部修補通常更適合 diffusion inpaint。用能解決實際缺陷的最小工具。

診斷順序:結構、光線、細節

Troubleshooting matrix for image-to-image composition lighting and detail failures

在改任何參數之前,先把失敗分類。

如果主體被裁切、地平線不對、姿勢變了、左右兩個人的身分互換,或桌面出現不可能的透視,這是構圖問題。不要先增加 steps 或銳化圖片。先檢查長寬比、畫布、遮罩範圍和結構參考。

如果物件在正確位置,但看起來像貼上去的;主體在暖色房間裡卻偏藍;陰影方向錯誤;或換上的衣服和原圖光線打架,這是光線問題。先鎖住幾何,再修主光方向、接觸陰影、曝光和色溫。

如果圖片結構正確,光線也大致成立,再修細節:臉部相似度、手、頭髮、布料、產品邊緣、logo、光暈和紋理。細節工作通常應該是局部的。為了修三根手指而重算整張圖,是很差的取捨。

這個順序可以避免最常見的失敗循環:在已經不是同一個人的臉上修皮膚、在錯誤透視的物件上銳化,或對其實應該先重構構圖的主體反覆補光。

GPT Image 2 vs 擴散 I2I:你實際能控制什麼

對 GPT Image 2 來說,主要控制項是:

ControlPractical useCommon mistake
Prompt定義編輯目標和保留規則只需要局部修正,卻要求大範圍重新設計
Input image提供身分、版面、風格和上下文參考圖太弱,卻期待精確幾何
Mask引導模型應該編輯的位置把它當成硬性的像素邊界
Size / aspect ratio設定構圖容器用正方形畫布處理全身直式主體
Quality平衡細節、成本和延遲每次除錯都使用最終品質
Multiple references協助身分、物件替換和風格期待風格參考同時鎖住姿勢或透視

對擴散式圖生圖來說,可用控制更細:

ParameterWhat it changesUseful starting point
strength / denoise輸入圖片被重寫的程度局部修補:0.15-0.35;光線:0.30-0.50;結構變更:0.50-0.75
CFG / guidance_scale模型遵循 prompt 的強度寫實編輯:4-6;一般預設:6-8
steps去噪品質與執行時間快速測試:20-30;平衡:30-50;困難細節:50-80
seedA/B 測試的可重現性診斷期間固定
sampler / scheduler去噪路徑和失敗模式先選一組固定,再比較其他參數
ControlNet scale結構引導強度柔和:0.4-0.6;強:0.6-0.8
IP-Adapter scale參考圖片影響強度風格:0.4-0.6;身分或外觀:0.6-0.8

三條規則能讓參數調校保持理性。

第一,steps 不能可靠修復結構。它可能改善紋理與邊緣,但無法穩定修正錯誤姿勢、歪斜地平線或主體關係互換。

第二,CFG 不是「品質」。引導太低會忽略 prompt;太高可能讓圖片過度飽和、脆硬或不自然。只有當模型明確忽略某個指令時,才提高它。

第三,不要一次測十個變數。診斷時固定 seed、size、sampler 和輸入。一次只改一個主要變數:遮罩範圍、denoise、控制圖、參考圖片或 prompt 約束。

常見失敗庫與第一修法

把這張問題表當成快速分診表。

SymptomLikely causePriorityFirst fix
遮罩編輯改到臉、背景或整張圖mask 被模型當成建議而非硬邊界;prompt 要求太多P0裁切更小區域、縮窄編輯目標,並寫清楚 preserve list。若像素必須不動,改用 diffusion inpaint。
主體被裁切、頭不見、四肢出框長寬比錯、畫布太緊、缺少「完整主體」指令P0先改 size 或 outpaint。要求 full body、complete subject、natural margins。
草圖轉寫實後透視跑掉只有語意 prompt,缺少結構控制;denoise 太高P0使用 depth、canny 或 lineart 引導。降低 denoise。把結構修補與材質渲染分開。
兩個人角色互換或共用身體部位主體間 prompt 泄漏;沒有區域分離P0分開描述主體,使用 masks、regional prompting 或 pose control。
插入物件像貼紙沒有接觸陰影、比例錯、mask 沒包含接觸區P0修物件底部與陰影區,不只修物件本身。指定接觸陰影方向與柔軟度。
多輪後輸出越來越暗loopback 或重複低 denoise 編輯累積曝光漂移P1停止循環。另做一次曝光與白平衡 pass。
換衣後光線方向錯服裝參考圖光線不同;prompt 沒鎖住場景光P1保留相機和背景。讓衣服匹配原始光向、陰影和色溫。
臉不再像本人臉被放進大範圍全圖渲染P0用臉部局部修補搭配身分參考,保留表情、臉型、年齡、髮型與比例。
手指數量錯或關節斷裂接觸關係複雜、姿勢約束弱或 prompt 衝突P0只遮罩手與接觸點。使用手部姿勢參考或 openpose。左右手分開修。
放大後紋理變糊把放大與重繪混在一次高 denoise pass 裡P1先放大,再用低 denoise 局部修補。
白邊、halo 或 fringingmask 太緊;透明背景預期不匹配P1使用覆蓋邊界內外兩側的 edge-ring mask。GPT Image 2 可先輸出不透明圖,再到下游去背。

P0 表示不修就不能交付。P1 表示缺陷明顯且影響品質。P2 缺陷夠小,可以留到最後拋光處理。

構圖疑難排解

構圖問題最不該被忽略。如果幾何錯了,後續修補都建立在壞底上。

主體被裁切時,先從畫布下手。直式全身圖需要直式框。需要標籤空間的產品 hero 圖,可能需要橫向空間。如果原始主體已經被切掉,先 outpaint 或擴展畫布,再要求更漂亮的渲染。在 GPT Image 2 中,prompt 保持直接:「move the camera back 10 to 20 percent, complete the missing head and arms, preserve the same face, outfit, background, camera height, and light direction.」

透視問題要加入結構。在擴散工作流中,室內、建築、家具和空間關係使用 depth。產品、logo、硬邊、圖表和草圖轉渲染使用 canny 或 lineart。人物使用 pose 或 keypoints。不要用 openpose 來保留產品輪廓,也不要期待 canny 理解手肘方向。

雙人場景要在 prompt 中分開兩個主體。「左邊的人」和「右邊的人」應該各自有身分、服裝、姿勢和動作描述。如果工具支援 masks、regional prompting 或 segmentation,就使用它。很多多主體失敗不是「手畫壞」,而是區域歸屬壞掉。

光線疑難排解

光線失敗通常是合成失敗。編輯物件在語意上正確,但不屬於這個場景。

要指定四件事:主光方向、陰影行為、色溫和曝光。「Make it realistic」太弱。「Match the existing warm left-side window light, add a soft contact shadow under the shoes, keep the background exposure unchanged, and preserve neutral skin tones」才有用。

當物件看起來像貼上去,不要先重繪整個物件。修接觸區:腳踩地板、產品底座放在桌上、狗爪踩草地、杯緣接觸檯面、海報邊緣貼牆。mask 應包含物件邊界與接收陰影的表面。prompt 應提到 contact shadow、occlusion shadow、必要時的 reflection,以及匹配的陰影柔軟度。

如果反覆編輯讓圖片太黃、太暗或對比太強,停止內容編輯。做一次獨立的色彩 pass。要求統一白平衡與曝光,同時保留構圖、身分、材質和紋理。除非能接受漂移,否則不要在同一輪裡同時「replace the jacket」和「fix the entire color grade」。

細節疑難排解

細節應在結構與光線穩定後再修。

臉部需要小遮罩與身分約束。遮罩整張臉並帶一點周邊上下文:髮際線、下巴、耳朵和相鄰皮膚。不要只遮一隻眼睛,除非你想要不對稱。要求模型保留精確相似度、臉型、年齡、表情、髮型、膚色和相機角度。要求自然皮膚紋理,不要塑膠感磨皮。

手也需要上下文。遮罩手掌、手指、手腕、物件接觸區和一點背景。保留手勢意圖與物件位置。如果兩隻手都壞了,分開修。對複雜的手物互動來說,一張姿勢或手部參考,比更長的 negative prompt 更有價值。

邊緣需要 edge-ring mask。如果產品有光暈,mask 必須覆蓋產品邊緣內外兩側。只覆蓋物件內部的 mask 修不好過渡。對 GPT Image 2 工作流來說,常見更乾淨的做法是先在不透明背景上生成或編輯,再到下游移除背景。

紋理需要兩步。先放大或使用超解析。再只對弱紋理區域用低 denoise 或窄範圍 edit prompt 重繪。如果把高 denoise 重繪和放大混在一起,通常得到的是更大的模糊,而不是更好的細節。

可複製 Prompt 範本

把這些當成結構化 prompt 使用。GPT Image 2 可貼上整個範本並填入括號。擴散流程中,必要時把「不要」條款移到 negative prompt。

1. 修正裁切與缺失身體部位

任務:重新構圖輸入圖片,讓主體完整可見,同時保留原始身分、服裝、材質、背景風格、相機高度和一天中的時間。
保留:臉部、髮型、身體比例、服裝顏色、背景版面、光線方向。
變更:讓相機後退約 10% 到 20%,補完整缺失的頭部、手臂、手、腿和腳,並在主體周圍留下自然邊距。
構圖:保留原始透視與主體方向。不要鏡像圖片,也不要改變左右關係。
不要:新增人物、改變背景、改變表情、改變色溫或改變曝光。

擴散起點:denoise 0.30-0.50。如果房間或建築不穩,加入 depth guidance。

2. 修正透視與比例

任務:修正輸入圖片中的透視和比例錯誤。
保留:主體身分、場景內容、材質、光線和主要相機角度。
變更:讓垂直線保持垂直,穩定地平線,對齊地板/桌面/建築的消失線,修正被拉長或壓縮的形狀。
構圖:保留既有主體關係。不要重新設計場景。
不要:新增元素、改變光線方向,或改變人物/產品身分。

擴散起點:室內或建築用 depth 0.7-0.9;產品與線稿用 canny/lineart 0.5-0.8denoise 0.20-0.40

3. 鎖定兩個主體與左右關係

任務:修正雙主體姿勢與左右關係。
左側主體:保持為 [Character A],保留髮型、臉型、膚色、服裝和面向。
右側主體:保持為 [Character B],保留髮型、臉型、膚色、服裝和面向。
姿勢:左側主體執行 [Action A],右側主體執行 [Action B]。不要交換位置。不要讓兩者共用手或手勢。
構圖:保留相機角度與場景不變。
不要:產生額外手臂、額外手指、錯誤左右手、混合身分或混合膚色。

可用時,使用 pose control、segmentation 或 regional prompting。

4. 匹配光線方向

任務:只修正光線一致性。
保留:主體身分、背景、相機位置、構圖、動作和材質。
變更:讓主光來自 [左上 / 右上 / 側面 / 背後]。讓高光、中間調、陰影和投影都與該光線方向一致。
陰影:建立自然的接觸陰影和環境陰影,柔軟度需匹配場景。
不要:改變姿勢、背景、色溫或白平衡。

擴散起點:denoise 0.25-0.45。只修陰影時,mask 只覆蓋陰影與接觸區。

5. 移除貼紙感的物件放置

任務:讓 [person/object/animal] 自然屬於場景,而不是看起來像貼上去。
保留:主體外觀和每個未遮罩區域。
變更:在接觸點周圍加入真實接觸陰影、細微遮擋陰影,以及必要的反射或反彈光。
空間關係:讓陰影方向和陰影密度匹配既有地板、牆面、桌面或地面材質。
不要:改變主體形狀、背景版面或主體顏色。

如果有多個接觸點,分成幾個小 pass 修補。

6. 統一曝光與色溫

任務:統一曝光和色溫,讓圖片看起來像同一台相機在同一瞬間拍下。
保留:構圖、主體身分、背景、材質和紋理。
變更:恢復自然白平衡,避免高光爆掉,讓陰影可讀,並讓膚色自然。整體色溫應為 [暖色日落 / 中性日光 / 冷調陰天]。
不要:改變場景內容、加入濾鏡感,或套用重度電影調色。

把這當成獨立 pass。不要和大幅結構編輯混在一起。

7. 修復臉部細節

任務:只修復臉部細節。
保留:精確相似度、臉型、年齡、表情、髮型、膚色和相機角度。
變更:修正眼睛對稱、瞳孔方向、睫毛、鼻孔、嘴唇邊緣、牙齒、耳朵和自然皮膚紋理。
品質:寫實攝影細節,不過度磨皮,不要卡通風格。
不要:改變表情、改變臉部比例、影響頭髮或影響背景。

遮罩完整臉部並帶一點周邊上下文。如果臉太小,先放大。

8. 修復手部

任務:只修復手部結構。
保留:手勢意圖、左右手關係、與物件的接觸位置、主體身分和背景。
變更:讓每隻手都有自然數量的手指、正確的關節彎曲、合理的手掌方向,以及自然的指尖接觸。
細節:恢復指節、指甲、掌紋和陰影,但不要誇張。
不要:新增手、交換左右手,或移動手持物件。

如果左右手都壞了,分開修。

9. 清理紋理與邊緣瑕疵

任務:清理邊緣瑕疵並恢復寫實紋理。
保留:主體形狀、標籤文字、顏色和整體構圖。
變更:移除白邊、halo、fringing、鋸齒邊和模糊邊緣。恢復清楚的 [hair/fabric/leather/product surface] 紋理和自然微對比。
背景:保持自然邊緣過渡,不要產生新的光暈。
不要:重新設計主體、改變文字或改變背景顏色。

使用 edge-ring mask。產品去背圖可先在不透明背景上編輯,再到下游移除背景。

策略:Inpaint、Control,還是 Rerender?

小缺陷預設使用局部 inpaint。它漂移最低,通常最能保護身分和背景。臉、手、邊緣、接觸陰影和小紋理問題都適合它。

先裁切再 inpaint 對極小瑕疵更好。裁出問題區域,用更高的表觀解析度修補,再放回完整圖片。眼睛、手指、產品邊緣和標籤都適用。

全圖 masked edit 適合語意變更,例如換裝、插入物件或大範圍風格調整。它不能保證未遮罩像素完全不變,尤其在 GPT Image 2 中。只有能接受一定漂移時才使用。

結構壞掉時使用全圖 rerender。如果原始版面就是錯的,重新渲染可能比硬補一堆局部 patch 更乾淨。但要接受身分、光線和細節可能還需要後續修補。

控制圖解決結構問題。Canny 和 lineart 保留邊緣。Depth 保留空間和透視。Pose 保留人體關節關係。Segmentation 和 regional prompting 減少主體混合。IP-Adapter 和參考圖片可保留身分、產品外觀或風格,但不能取代結構控制。

直白地說:local inpaint 修缺陷;rerender 重新設計圖片。需要哪一個,就用哪一個。

快速疑難排解清單

  • 主體被裁或四肢出框:先改長寬比或擴展畫布。
  • 透視錯誤:提高 steps 前,先用 depth、canny 或 lineart。
  • 兩個人混在一起:用區域、mask 或 prompt 結構分開主體。
  • Mask 外溢到目標區外:裁小一點、縮窄 prompt;若硬性像素保留很重要,改用 diffusion inpaint。
  • 圖片反覆編輯後變暗:停止 loopback,做一次曝光 pass。
  • 物件像貼上去:修接觸陰影和表面互動。
  • 色溫漂移:做一次白平衡 pass,指定 neutral daylight 或 warm sunset 等明確目標。
  • 臉部相似度漂移:用臉部局部修補,搭配身分參考和嚴格保留指令。
  • 手壞掉:小遮罩、手部參考或姿勢,一次修一隻手。
  • 紋理變糊:先放大,再低 denoise 局部修補。
  • 邊緣光暈出現:使用 edge-ring mask,而不是物件內部 mask。
  • 除錯像在碰運氣:固定 seed、size、sampler 和 input;一次只改一個變數。

部落格或團隊審稿的建議前後對照版面

最清楚的呈現方式是三欄比較:

Input | Mask or Control Map | Output

如果是細節修補,新增第二列放 200% 特寫。給團隊審稿時,在底部加一小段參數頁腳:model、size、quality、denoise、CFG、steps、sampler、scheduler、seed、control scale 和 reference scale。這能讓診斷可重現,而不是依賴記憶。

最後重點

大多數圖生圖失敗並不神秘。構圖錯誤需要畫布與結構控制。光線錯誤需要合成語言:光線方向、接觸陰影、曝光和色溫。細節錯誤需要小遮罩、參考和保守修補。

使用 GPT Image 2 時,勝出的做法通常是清楚的編輯目標、窄範圍、有效參考和明確保留規則。使用擴散工作流時,再加入可重現的參數測試與結構控制。兩者都一樣:先修底,再拋光表面。

Try GPT Image 2 for Free Now →

相關文章