GPT Image 2 图生图故障排除:修复构图、光照与细节
GPT Image 2 Team
2026年5月10日

一份面向 GPT Image 2 与扩散类图生图工作流的实用排障指南:诊断构图漂移、光照不一致、脸手错误、遮罩越界、纹理模糊和边缘伪影。

图生图编辑的失败通常很有规律。主体被裁掉,手指出错,新加的物体像贴纸,遮罩编辑把整张脸也改了,多轮修图后画面越来越暗。最常见的错误反应,是继续重跑同一个 prompt,加上“更真实”“高清”“高质量”,或者把 steps 拉高。这不是排障,只是在用更多算力碰运气。
更可靠的顺序很简单:先修结构,再修光照,最后修细节。构图错误是几何问题。光照错误是合成问题。细节错误通常是局部修补问题。把这三类问题都当成“提示词不够好”,结果只会越来越不稳定。
这篇指南面向 GPT Image 2 用户,但同样适用于 Stable Diffusion、Diffusers、ComfyUI、WebUI 和其他扩散类图生图流程。区别在于控制面不同。GPT Image 2 更偏高层控制,例如 prompt、输入图、mask、size、quality、输出格式、压缩和背景。传统扩散流程通常会暴露 strength 或 denoise、CFG 或 guidance scale、steps、sampler、scheduler、seed、ControlNet、IP-Adapter,以及更严格的 inpaint mask 语义。
这点很重要。GPT Image 2 适合用清晰语言描述编辑目标,并配合正确参考图完成语义编辑。它不是在所有场景下都能像 Photoshop 选区一样硬性保护未遮罩像素。如果任务要求像素级保留未选区,diffusion inpaint 往往更稳。工具越少越好,但必须选对。
诊断顺序:结构、光线、细节

改参数之前,先分类。
如果主体被裁切、地平线歪、姿态变了、左右两个人身份混了、桌面透视塌了,这是构图问题。不要先加 steps,也不要先锐化。先检查画幅、画布、遮罩范围和结构参考。
如果物体位置正确但像贴上去,人物在暖色房间里偏蓝,阴影方向错,换装后的衣服光向和原图打架,这是光照问题。先锁住几何关系,再修主光方向、接触阴影、曝光和色温。
如果结构基本正确,光照也大致合理,才进入细节修复:脸、手、头发、布料、产品边缘、logo、白边、光晕和纹理。细节修复通常应该局部处理。为了修三个手指而全图重绘,是很差的交换。
这个顺序能避免最常见的失败循环:在错误身份的脸上修皮肤,在错误透视的产品上锐化纹理,或者在本该先重构构图的图上反复调光。
GPT Image 2 和扩散 I2I:你到底能控制什么
在 GPT Image 2 里,主要控制杆是这些:
| 控制项 | 实际用途 | 常见错误 |
|---|---|---|
| Prompt | 定义编辑目标和保留规则 | 只想局部修补,却写成大范围重新设计 |
| 输入图 | 提供身份、布局、风格和上下文 | 参考图很弱,却期待精确几何控制 |
| Mask | 引导模型编辑区域 | 把它当成硬性像素边界 |
| Size / aspect ratio | 决定构图容器 | 用正方形画幅生成全身竖图 |
| Quality | 平衡细节、成本和时延 | 调试阶段每次都用最终质量 |
| 多参考图 | 帮助保持身份、物体外观和风格 | 期待风格参考同时锁住姿态和透视 |
在扩散类图生图里,可调项更细:
| 参数 | 作用 | 推荐起点 |
|---|---|---|
strength / denoise | 输入图被改动多少 | 局部修补:0.15-0.35;光照统一:0.30-0.50;结构改造:0.50-0.75 |
CFG / guidance_scale | 模型多大程度服从 prompt | 写实编辑:4-6;通用默认:6-8 |
steps | 去噪质量和耗时 | 快速测试:20-30;平衡:30-50;困难细修:50-80 |
seed | A/B 对比的可复现性 | 诊断阶段固定 |
sampler / scheduler | 去噪轨迹和失败模式 | 先固定一组,再比较其他参数 |
| ControlNet scale | 结构条件的强度 | 软约束:0.4-0.6;强约束:0.6-0.8 |
| IP-Adapter scale | 参考图影响强度 | 风格:0.4-0.6;身份或外观:0.6-0.8 |
有三条规则很关键。
第一,steps 不是结构修复旋钮。它可能改善纹理和边缘,但不能稳定修正错误姿态、歪地平线或左右主体混乱。
第二,CFG 不是“质量”。过低会不听 prompt,过高会让画面过饱和、发硬、不自然。只有模型明确忽略某条约束时,才考虑上调。
第三,不要一次测试十个变量。诊断阶段先锁 seed、size、sampler 和输入图。一次只改一个大变量:遮罩范围、denoise、控制图、参考图或 prompt 约束。
常见问题库与优先修法
下面这张表可以当快速分诊表。
| 症状 | 可能原因 | 优先级 | 首选修法 |
|---|---|---|---|
| 遮罩编辑改了脸、背景甚至整图 | 把 mask 当硬边界;prompt 要求太大 | P0 | 裁更小区域,缩小编辑目标,写清 preserve list。必须像素级保留时改用 diffusion inpaint。 |
| 主体被裁,头顶或四肢出框 | 画幅错误,画布太紧,没有写“完整主体” | P0 | 先换 size 或外扩画布。要求 full body、complete subject、natural margins。 |
| 草图转写实后透视漂移 | 只有语义 prompt,没有结构控制;denoise 太高 | P0 | 用 depth、canny 或 lineart。降低 denoise。把结构修正和材质写实分两步。 |
| 双人身份互换或肢体串位 | 主体描述互相泄漏,没有区域隔离 | P0 | 分别描述左右主体,使用 mask、regional prompting 或 pose control。 |
| 插入物体像贴纸 | 没有接触阴影,比例不对,mask 没覆盖接触区 | P0 | 修物体底部和阴影区域,不只修物体本体。写清接触阴影方向和软硬。 |
| 多轮编辑后画面变暗 | loopback 或低 denoise 反复编辑累积曝光漂移 | P1 | 停止循环。单独做曝光和白平衡修复。 |
| 换装后衣服光向不对 | 服装参考图光线不同;prompt 没锁定场景光 | P1 | 保留相机和背景,让衣物匹配原图光向、阴影和色温。 |
| 脸不像本人 | 把脸放进了大范围全图重绘 | P0 | 脸部单独修,提供身份参考,锁定表情、脸型、年龄、发型和比例。 |
| 手指数量错或关节断裂 | 手和物体接触复杂,姿态约束弱,prompt 冲突 | P0 | 只罩手和接触点,用手势参考或 openpose,左右手分开修。 |
| 放大后纹理更糊 | 把放大和重绘混在一次高 denoise 里 | P1 | 先放大或超分,再低 denoise 局部修补。 |
| 白边、halo、fringing | mask 太紧;透明背景预期不匹配 | P1 | 使用覆盖边界内外两侧的边缘环形 mask。GPT Image 2 可先输出不透明图,再下游抠图。 |
P0 表示不修就不能交付。P1 表示肉眼明显,会影响质量。P2 是最后抛光阶段可以处理的小问题。
构图排障
构图问题最不能拖。几何关系错了,后面的修复都建立在坏底子上。
主体被裁切时,先看画布。全身人物需要竖向画幅。产品主图如果要放标签和留白,可能需要横向空间。如果原图已经裁掉头顶或手臂,先外扩画布,再要求更好渲染。在 GPT Image 2 中,prompt 要直接:“镜头后退 10% 到 20%,补全缺失的头部和手臂,保留同一张脸、服装、背景、相机高度和光源方向。”
透视问题要加结构信号。扩散流程中,室内、建筑、家具和空间关系优先用 depth。产品、logo、硬边、图表和草图转写实优先用 canny 或 lineart。人体优先用 pose 或 keypoints。不要用 openpose 去保产品轮廓,也不要指望 canny 理解手肘方向。
双人场景要把主体分开写。左侧人物和右侧人物应该各自有身份、服装、姿态和动作描述。如果工具支持 mask、regional prompting 或 segmentation,就用。很多多人图问题不是“手不好”,而是区域归属没有说清。
光照排障
光照失败本质上是合成失败。新元素语义上对了,但不属于这个场景。
需要写清四件事:主光方向、阴影行为、色温和曝光。“更真实”很弱。“匹配现有左侧暖色窗光,在鞋底下方添加柔和接触阴影,背景曝光不变,肤色保持自然”才有用。
物体像贴纸时,不要先重绘整个物体。先修接触区:脚接触地面、产品底座接触桌面、狗爪接触草地、杯子接触台面、海报边缘接触墙面。mask 要覆盖物体边界和接收阴影的表面。prompt 要写 contact shadow、occlusion shadow、必要反射和阴影软硬。
如果多轮编辑后画面发黄、发暗或对比过强,先停止内容编辑。单独做一次颜色 pass。要求统一白平衡和曝光,同时保留构图、身份、材质和纹理。不要把“换夹克”和“修整张图调色”绑在同一轮里,除非你能接受漂移。
细节排障
细节应该在结构和光线稳定之后再修。
脸部需要小 mask 和身份约束。遮罩要覆盖整张脸,并带一点上下文:发际线、下巴、耳朵和相邻皮肤。不要只罩一只眼睛,否则容易不对称。明确要求保留精确长相、脸型、年龄感、表情、发型、肤色和相机角度。要求自然皮肤纹理,不要过度磨皮。
手部也需要上下文。mask 要覆盖手掌、手指、手腕、物体接触区域和少量背景。保留手势意图和物体位置。如果两只手都坏,分开修。复杂的手与物体交互里,姿态参考或手部参考通常比更长的 negative prompt 有用。
边缘问题要用边缘环形 mask。如果产品有白边或光晕,mask 必须覆盖产品边界内外两侧。只罩物体内部,通常修不好过渡。GPT Image 2 流程里,很多商品图可以先在不透明背景上编辑,再进入下游抠图。
纹理问题要分两步。先放大或超分。然后只在弱纹理区域做低 denoise 或窄范围编辑。把高 denoise 重绘和放大混在一起,往往得到的是更大的模糊,而不是更好的细节。
可复制 Prompt 模板
这些模板可以直接改括号使用。GPT Image 2 中可以整体粘贴。扩散流程中,可以把“不要”部分拆到 negative prompt。
1. 修复裁切和缺失肢体
任务:在保持原图身份、服装、材质、背景风格、相机高度和场景时间不变的前提下,重新组织画面,让主体完整入镜。
保留:人脸、发型、体型比例、服装颜色、背景布局、光源方向。
修改:镜头后退约 10% 到 20%,补足缺失的头顶、手臂、手、腿和脚,给主体四周留下自然边距。
构图:保持原本透视和主体朝向,不镜像,不改变左右关系。
不要:新增人物、改变背景、改变表情、改变色温或曝光。
扩散起点:denoise 0.30-0.50。室内或建筑不稳时叠加 depth。
2. 修正透视和比例
任务:修正输入图中的透视和比例错误。
保留:主体身份、场景内容、材质、光线和主要相机角度。
修改:让垂直线保持垂直,让地平线稳定,让地板/桌面/建筑消失线一致,修正拉长、压扁和变形。
构图:保持现有主体关系,不重新设计场景。
不要:新增元素、改变光源方向、改变人物或产品身份。
扩散起点:室内或建筑用 depth 0.7-0.9;产品和线稿用 canny/lineart 0.5-0.8;denoise 0.20-0.40。
3. 锁定双主体和左右关系
任务:修正双主体姿态和左右关系。
左侧主体:保持为 [角色A],保留发型、脸型、肤色、服装和朝向。
右侧主体:保持为 [角色B],保留发型、脸型、肤色、服装和朝向。
姿态:左侧主体执行 [动作A],右侧主体执行 [动作B]。不要交换位置,不要共享手势或手臂。
构图:保持相机角度和场景不变。
不要:生成额外手臂、额外手指、错误左右手、身份混合或肤色混合。
能用 pose control、segmentation 或 regional prompting 时,优先使用。
4. 匹配光源方向
任务:仅修正光照一致性。
保留:主体身份、背景、相机位置、构图、动作和材质。
修改:让主光从 [左上/右上/侧面/背后] 照射,使高光、中间调、阴影和投影方向与该主光一致。
阴影:生成自然接触阴影和环境阴影,阴影软硬与场景匹配。
不要:改变姿态、背景、色温或白平衡。
扩散起点:denoise 0.25-0.45。只修阴影时,mask 只覆盖阴影和接触区。
5. 去除贴纸感
任务:让 [人物/物体/动物] 自然融入场景,而不是像贴上去。
保留:主体外观和所有未遮罩区域。
修改:在接触点周围添加真实接触阴影、轻微遮挡阴影,以及必要的反射或反照。
空间关系:阴影方向和阴影密度匹配现有地面、墙面、桌面或材质。
不要:改变主体形状、背景布局或主体颜色。
接触点很多时,分几次小范围修,不要一次罩太大。
6. 统一曝光和色温
任务:统一曝光与色温,让整张图看起来像同一台相机在同一时刻拍摄。
保留:构图、主体身份、背景、材质和纹理。
修改:恢复自然白平衡,高光不过曝,阴影不死黑,肤色自然。整体色温为 [暖色日落/中性日光/冷色阴天]。
不要:改变场景内容、增加滤镜感或使用重电影调色。
把它作为单独一轮,不要和大结构修改绑在一起。
7. 修复脸部细节
任务:仅修复面部细节。
保留:精确长相、脸型、年龄感、表情、发型、肤色和相机角度。
修改:修复眼睛对称、瞳孔方向、睫毛、鼻翼、嘴唇边缘、牙齿、耳朵和自然皮肤纹理。
质量:真实摄影细节,不过度磨皮,不变成卡通风格。
不要:改变表情、改变脸型比例、影响头发或背景。
罩住整张脸并稍微外扩。如果脸太小,先放大再修。
8. 修复手部
任务:仅修复手部结构。
保留:手势意图、左右手关系、手与物体的接触位置、主体身份和背景。
修改:每只手有自然数量的手指,关节弯曲正确,手掌朝向合理,指尖接触自然。
细节:恢复指节、指甲、掌纹和阴影,但不要夸张。
不要:新增手、交换左右手或移动手中物体。
两只手都坏时,左右手分开修。
9. 清理纹理和边缘伪影
任务:清理边缘伪影并恢复真实纹理。
保留:主体形状、标签文字、颜色和整体构图。
修改:去除白边、halo、fringing、锯齿和糊边,恢复 [头发/织物/皮革/产品表面] 的清晰纹理和自然微对比。
背景:边缘过渡自然,不出现新的光晕。
不要:重新设计主体、改变文字或改变背景颜色。
使用边缘环形 mask。商品抠图可先在不透明背景上编辑,再下游去背景。
策略选择:局部修补、结构控制,还是全图重绘?
局部 inpaint 是小问题的默认选择。它漂移最小,通常最能保护身份和背景。脸、手、边缘、接触阴影和小纹理失败都优先用它。
裁剪后局部 inpaint 对极小瑕疵更稳。先把问题区域裁出来,在更高的相对分辨率下修复,再放回整图。眼睛、手指、产品边缘和标签文字都适合这种方法。
全图 masked edit 适合语义改动,例如换衣服、插入物体或较大风格变化。但它不保证未遮罩像素完全不变,尤其是在 GPT Image 2 中。只有能接受一定漂移时才用。
全图重绘用于结构已经坏掉的图。如果原始布局不成立,重绘可能比无数局部补丁更干净。但要接受后续还需要修身份、光线和细节。
控制图解决结构问题。Canny 和 lineart 保边缘。Depth 保空间和透视。Pose 保人体关节关系。Segmentation 和 regional prompting 减少主体混合。IP-Adapter 和参考图更适合保身份、产品外观或风格,但不能替代结构控制。
一句话区分:局部 inpaint 是修 bug,全图重绘是重做设计。不要拿一个去做另一个的工作。
快速故障排除清单
- 主体裁切或四肢出框:先改画幅或外扩画布。
- 透视错误:先用 depth、canny 或 lineart,不要先加 steps。
- 双人混在一起:用区域、mask 或 prompt 结构拆开主体。
- mask 越界:裁更小,缩小目标;必须硬保像素时换 diffusion inpaint。
- 图越修越暗:停止 loopback,单独做曝光修复。
- 物体像贴纸:修接触阴影和表面交互。
- 色温漂移:单独做白平衡 pass,写清中性日光、暖色日落或冷色阴天。
- 脸不像本人:脸部单独修,给身份参考,严格写保留项。
- 手部崩坏:小 mask,手势或姿态参考,一次修一只手。
- 纹理变糊:先放大,再低 denoise 局部修。
- 边缘白边:用边缘环形 mask,不要只罩物体内部。
- 调参像碰运气:锁 seed、size、sampler 和输入图,一次只改一个变量。
博客或团队复盘的前后对比排版
最清楚的展示方式是三联图:
输入图 | Mask 或控制图 | 输出图
如果是细节修复,再加一行 200% 局部放大。如果给团队复盘,在底部加一条参数页脚:模型、size、quality、denoise、CFG、steps、sampler、scheduler、seed、control scale 和 reference scale。这样排障可以复现,而不是靠记忆。
最后结论
大多数图生图失败并不神秘。构图错误需要画布和结构控制。光照错误需要合成语言:光源方向、接触阴影、曝光和色温。细节错误需要小 mask、参考图和保守修补。
使用 GPT Image 2 时,最有效的做法通常是清晰目标、窄范围编辑、正确参考图和明确保留规则。使用扩散流程时,再加上可复现的参数测试和结构控制。两类工具都遵守同一条原则:先修底层问题,再做表面抛光。

