GPT Image 2と拡散系image-to-imageワークフロー向けの実務的なトラブルシューティングガイド。構図のずれ、ライティング不一致、顔や手の破綻、マスクのはみ出し、ぼけた質感、エッジのアーティファクトを診断します。

Image-to-image troubleshooting comparison with input mask and corrected output

画像から画像への編集は、だいたい決まった形で失敗します。被写体が切れる。手の指が増える。追加した物体が貼り付けたように見える。マスクしたはずの編集が顔全体を変えてしまう。処理を重ねるたびに出力が暗くなる。そこで同じ prompt をもう一度回し、「realistic」や「high quality」を足したり、steps を増やしたりしたくなります。しかし、それはトラブルシューティングではありません。計算量を増やして運に賭けているだけです。

実務上の順序は単純です。まず構造、次に光、最後に細部を直します。構図の失敗は幾何の問題です。ライティングの失敗は合成の問題です。細部の失敗はたいてい局所修復の問題です。この三つをすべて「プロンプトの言い方」の問題として扱うと、結果は不安定になります。

このガイドは GPT Image 2 ユーザー向けですが、Stable Diffusion、Diffusers、ComfyUI、WebUI など、拡散ベースの image-to-image パイプラインにも同じ考え方を使えます。違うのは操作面です。GPT Image 2 では prompt、入力画像、mask、size、quality、出力形式、圧縮、背景といった高レベルの制御が中心です。従来の拡散ワークフローでは、strength または denoise、CFG または guidance scale、steps、sampler、scheduler、seed、ControlNet、IP-Adapter、より厳密な inpaint mask 挙動などを細かく扱います。

この違いは重要です。GPT Image 2 は、編集内容を明確に書き、適切な入力画像を渡したときに強いツールです。ただし、未マスクのピクセルを一切変えない Photoshop 的な硬いマスクが必要な作業には、常に最適とは限りません。厳密な局所修復なら diffusion inpaint のほうが安定することが多いです。実際の欠陥を直せる、いちばん小さい道具を選びます。

診断順序：構造、光、細部

Troubleshooting matrix for image-to-image composition lighting and detail failures

パラメータを変える前に、まず失敗の種類を分類します。

被写体が切れている、水平線がずれている、ポーズが変わった、左右の人物のアイデンティティが入れ替わった、テーブルの遠近法が破綻しているなら、構図の問題です。steps を増やしたり画像をシャープにしたりするところから始めてはいけません。先にアスペクト比、キャンバス、マスク範囲、構造参照を確認します。

物体の位置は合っているのに貼り付けたように見える、暖色の室内で被写体だけ青い、影の方向が逆、差し替えた服が元画像の光と合わないなら、ライティングの問題です。幾何を固定してから、主光の方向、接地影、露出、色温度を直します。

構造が正しく、光もおおむね成立しているなら、そこで初めて細部を直します。顔の似ていなさ、手、髪、布、商品のエッジ、ロゴ、ハロー、質感です。細部修復は基本的に局所で行います。三本の指を直すために全画像を再生成するのは、割に合いません。

この順序を守ると、よくある悪循環を避けられます。別人になった顔の肌だけを直す、遠近法が間違った物体をシャープにする、本来は再構図すべき被写体に照明だけを当て直す、といった失敗です。

GPT Image 2と拡散I2I：実際に制御できるもの

GPT Image 2で主に使うレバーは次の通りです。

Control	Practical use	Common mistake
Prompt	編集目標と保持ルールを定義する	局所修正だけでよいのに、大きな再設計を求める
Input image	アイデンティティ、レイアウト、スタイル、文脈を与える	弱い参照画像で正確な幾何を期待する
Mask	モデルが編集すべき範囲を示す	硬いピクセル境界として扱う
Size / aspect ratio	構図の入れ物を決める	縦長の全身被写体に正方形キャンバスを使う
Quality	細部、コスト、レイテンシを調整する	デバッグのたびに最終品質で回す
Multiple references	アイデンティティ、物体置換、スタイルに役立つ	スタイル参照にポーズや遠近法まで固定させようとする

拡散系image-to-imageでは、より細かいレバーがあります。

Parameter	What it changes	Useful starting point
`strength` / `denoise`	入力画像をどれだけ書き換えるか	局所修復：`0.15-0.35`；ライティング：`0.30-0.50`；構造変更：`0.50-0.75`
`CFG` / `guidance_scale`	prompt に従う強さ	写実編集：`4-6`；一般的な初期値：`6-8`
`steps`	denoise 品質と実行時間	高速テスト：`20-30`；バランス：`30-50`；難しい細部修復：`50-80`
`seed`	A/Bテストの再現性	診断中は固定する
`sampler` / `scheduler`	denoise の軌道と失敗傾向	まず一つ選んで固定し、その後で比較する
ControlNet scale	構造ガイドの強さ	弱め：`0.4-0.6`；強め：`0.6-0.8`
IP-Adapter scale	参照画像の影響度	スタイル：`0.4-0.6`；アイデンティティや外観：`0.6-0.8`

パラメータ調整をまともに保つルールは三つあります。

第一に、steps は構造修復のつまみではありません。質感やエッジは改善するかもしれませんが、間違ったポーズ、悪い水平線、入れ替わった被写体関係を一貫して直すものではありません。

第二に、CFG は「品質」ではありません。低すぎると prompt を無視します。高すぎると、画像が過飽和で硬く、不自然になります。モデルが特定の指示を明らかに無視しているときだけ上げます。

第三に、一度に十個の変数を試さないことです。診断中は seed、size、sampler、入力を固定します。変えるのは一つの主要変数だけです。マスク範囲、denoise、制御マップ、参照画像、または prompt 制約です。

よくある失敗と最初の修正

この表を素早いトリアージに使ってください。

Symptom	Likely cause	Priority	First fix
マスク編集が顔、背景、画像全体まで変える	mask が硬い境界ではなく提案として扱われている；prompt が広すぎる	P0	より小さくクロップし、編集目標を狭め、厳密な preserve list を書く。ピクセルを絶対に残す必要があるなら diffusion inpaint を使う。
被写体が切れる、頭が欠ける、手足がフレーム外に出る	アスペクト比が違う、キャンバスが狭い、「complete subject」指示がない	P0	先に size を変えるか outpaint する。full body、complete subject、natural margins を指定する。
スケッチから写実化した出力で遠近法が崩れる	構造制御なしの意味的 prompt；denoise が高すぎる	P0	depth、canny、lineart ガイドを使う。denoise を下げる。構造修正と素材レンダリングを分ける。
二人の役割が入れ替わる、体の一部を共有する	被写体間で prompt が漏れている；領域分離がない	P0	被写体ごとに説明し、masks、regional prompting、pose control を使う。
挿入した物体がステッカーのように見える	接地影がない、スケールが違う、mask が接触面を含んでいない	P0	物体だけでなく、底面と影の範囲を直す。接地影の方向と柔らかさを指定する。
繰り返すたびに出力が暗くなる	loopback や低 denoise の反復で露出ずれが蓄積している	P1	ループを止める。露出とホワイトバランスを別 pass で直す。
服の差し替えで光の向きが違う	服の参照画像の照明が違う；prompt がシーン光を固定していない	P1	カメラと背景を保持する。服を元画像の光向き、影、色温度に合わせる。
顔が本人に見えなくなる	顔が広い全画像レンダーに含まれている	P0	顔だけを修復し、アイデンティティ参照を使い、表情、顔型、年齢、髪、比率を保持する。
指の数や関節が壊れる	複雑な接触、弱いポーズ制約、または矛盾した prompt	P0	手と接触点だけをマスクする。手のポーズ参照や openpose を使う。左右の手は別々に直す。
アップスケール後に質感がぼける	アップスケールと再描画を一つの高 denoise pass に混ぜている	P1	先にアップスケールし、その後で低 denoise の局所修復を行う。
白い縁、halo、fringing が出る	mask が狭すぎる；透明背景の期待と合っていない	P1	境界の内外を覆う edge-ring mask を使う。GPT Image 2 では、まず不透明で出力し、後段で切り抜く。

P0 は、直さない限り納品できない問題です。P1 は目に見えて品質を落とす問題です。P2 は最終仕上げで扱える小さな問題です。

構図のトラブルシューティング

構図の問題は無視すると最も高くつきます。幾何が間違っていると、その後の修正は悪い土台の上に積まれます。

被写体が切れている場合は、キャンバスから始めます。全身の縦写真には縦フレームが必要です。ラベル用の余白が必要な商品ヒーローには、横方向のスペースが必要なこともあります。元の被写体がすでに切れているなら、より良いレンダーを求める前に outpaint するかキャンバスを広げます。GPT Image 2 では、prompt を直接書きます。"move the camera back 10 to 20 percent, complete the missing head and arms, preserve the same face, outfit, background, camera height, and light direction."

遠近法の問題には構造を足します。拡散ワークフローでは、室内、建築、家具、空間関係には depth を使います。商品、ロゴ、硬いエッジ、図解、スケッチからのレンダーには canny や lineart を使います。人物には pose や keypoints を使います。商品のシルエット保持に openpose を使ってはいけません。canny に肘の向きを理解させようとしても無理です。

二人のシーンでは、prompt 内で被写体を分けます。「左の人物」と「右の人物」には、それぞれ別のアイデンティティ、服装、ポーズ、動作説明が必要です。ツールが masks、regional prompting、segmentation を持っているなら使います。多人数画像の失敗の多くは「手が悪い」のではなく、領域の所有関係が悪いのです。

ライティングのトラブルシューティング

ライティングの失敗は、たいてい合成の失敗です。編集された物体は意味的には正しいのに、シーンに属していません。

指定すべきものは四つです。主光の方向、影の挙動、色温度、露出です。"Make it realistic" は弱い指示です。"Match the existing warm left-side window light, add a soft contact shadow under the shoes, keep the background exposure unchanged, and preserve neutral skin tones" は有効です。

物体が貼り付けたように見えるとき、まず物体全体を塗り直さないでください。接触部を直します。床に接する足、テーブル上の商品ベース、芝生の上の犬の足、カウンター上のカップの縁、壁に接するポスターの縁です。mask には物体境界と影を受ける面を含めます。prompt には contact shadow、occlusion shadow、必要なら reflection、そしてシーンに合う影の柔らかさを書きます。

繰り返し編集で画像が黄色すぎる、暗すぎる、コントラストが強すぎる場合は、内容編集を止めます。別の色補正 pass を一回行います。構図、アイデンティティ、素材、質感を保ちながら、ホワイトバランスと露出を統一するよう指定します。「replace the jacket」と「fix the entire color grade」を同じ pass に混ぜないでください。ドリフトを受け入れる覚悟がある場合だけです。

細部のトラブルシューティング

細部は、構造と光が安定してから修復します。

顔には小さなマスクとアイデンティティ制約が必要です。顔全体に加えて、髪の生え際、あご、耳、隣接する肌を少し含めます。片目だけをマスクすると非対称になりやすいので避けます。正確な似姿、顔型、年齢、表情、髪型、肌色、カメラ角度を保持するよう伝えます。自然な肌の質感を求め、プラスチックのような平滑化は避けます。

手にも文脈が必要です。手のひら、指、手首、物体との接触部、少しの背景をマスクします。ジェスチャーの意図と物体位置を保ちます。両手が壊れているなら、別々に修復します。複雑な手と物体の相互作用では、長い negative prompt より、ポーズ参照や手の参照のほうが価値があります。

エッジには edge-ring mask が必要です。商品にハローがあるなら、mask は商品の境界の内側と外側の両方を覆う必要があります。物体内部だけの mask では、遷移部は直りません。GPT Image 2 ワークフローでは、まず不透明背景で生成または編集し、その後で背景を削除するほうがきれいなことが多いです。

質感には二段階の手順が必要です。まずアップスケールまたは超解像を使います。その後、弱い質感部分だけを低 denoise または狭い編集 prompt で再描画します。高 denoise の再描画とアップスケールを混ぜると、良い細部ではなく、大きなぼけを得ることがよくあります。

コピーして使えるPromptテンプレート

構造化 prompt として使ってください。GPT Image 2 ではテンプレート全体を貼り、括弧を埋めます。拡散ワークフローでは、必要に応じて「Do not」節を negative prompt に移します。

1. 切れと欠けた体の部位を直す

Task: 入力画像を再構図し、被写体が完全に見えるようにする。同時に、元のアイデンティティ、服装、素材、背景スタイル、カメラ高、時間帯を保持する。
Preserve: 顔、髪型、体の比率、服の色、背景レイアウト、光の方向。
Change: カメラを約10%から20%後ろに下げ、欠けた頭、腕、手、脚、足を補完し、被写体の周囲に自然な余白を残す。
Composition: 元の遠近法と被写体の向きを保つ。画像を反転せず、左右関係を変えない。
Do not: 人を追加しない、背景を変えない、表情を変えない、色温度や露出を変えない。

拡散の開始点：denoise 0.30-0.50。部屋や建築が不安定なら depth guidance を追加します。

2. 遠近法と比率を直す

Task: 入力画像の遠近法と比率の誤りを修正する。
Preserve: 被写体のアイデンティティ、シーン内容、素材、ライティング、主要なカメラ角度。
Change: 垂直線を垂直にし、水平線を安定させ、床/テーブル/建物の消失線をそろえ、伸びたり縮んだりした形を修正する。
Composition: 既存の被写体関係を保つ。シーンを再設計しない。
Do not: 新しい要素を追加しない、光の方向を変えない、人物や商品のアイデンティティを変えない。

拡散の開始点：室内や建築は depth 0.7-0.9、商品や図面は canny/lineart 0.5-0.8、denoise 0.20-0.40。

3. 二人の被写体と左右関係を固定する

Task: 二人の被写体のポーズと左右関係を修正する。
Left subject: [Character A] のままにし、髪型、顔型、肌色、服装、向きを保持する。
Right subject: [Character B] のままにし、髪型、顔型、肌色、服装、向きを保持する。
Pose: 左の被写体は [Action A] を行い、右の被写体は [Action B] を行う。位置を入れ替えない。手やジェスチャーを共有させない。
Composition: カメラ角度とシーンを変えない。
Do not: 余分な腕、余分な指、左右の手の誤り、アイデンティティ混合、肌色混合を作らない。

利用できる場合は pose control、segmentation、regional prompting を使います。

4. 光の方向を合わせる

Task: ライティングの一貫性だけを修正する。
Preserve: 被写体のアイデンティティ、背景、カメラ位置、構図、動作、素材。
Change: 主光が [左上 / 右上 / 横 / 背後] から来るようにする。その光の方向に合わせて、ハイライト、中間調、影、投影をそろえる。
Shadows: シーンに合う柔らかさで、自然な接地影と環境影を作る。
Do not: ポーズ、背景、色温度、ホワイトバランスを変えない。

拡散の開始点：denoise 0.25-0.45。影だけを直すなら、mask は影と接触部だけにします。

5. 貼り付けたような物体配置を直す

Task: [person/object/animal] が貼り付けたように見えず、シーンに自然に属して見えるようにする。
Preserve: 被写体の外観と、すべての未マスク領域。
Change: 接触点の周囲にリアルな接地影、さりげない遮蔽影、必要な反射またはバウンスライトを加える。
Spatial relationship: 既存の床、壁、テーブル、地面の素材に合わせて、影の方向と密度をそろえる。
Do not: 被写体の形、背景レイアウト、被写体の色を変えない。

接触点が複数ある場合は、小さな別 pass に分けて修復します。

6. 露出と色温度を統一する

Task: 画像が一台のカメラで同じ瞬間に撮られたように見えるよう、露出と色温度を統一する。
Preserve: 構図、被写体のアイデンティティ、背景、素材、質感。
Change: 自然なホワイトバランスを回復し、白飛びを防ぎ、影を読みやすくし、肌色を自然にする。全体の色温度は [warm sunset / neutral daylight / cool overcast] にする。
Do not: シーン内容を変えない、フィルター感を足さない、強い映画風カラーグレーディングを適用しない。

これは独立した pass として行います。大きな構造編集と混ぜないでください。

7. 顔の細部を修復する

Task: 顔の細部だけを修復する。
Preserve: 正確な似姿、顔型、年齢、表情、髪型、肌色、カメラ角度。
Change: 目の対称性、瞳孔の向き、まつげ、鼻孔、唇の縁、歯、耳、自然な肌の質感を直す。
Quality: 写実的な写真の細部。過度な平滑化なし。カートゥーン調にしない。
Do not: 表情を変えない、顔の比率を変えない、髪や背景に影響させない。

顔全体を少し周辺文脈込みでマスクします。顔が小さい場合は先にアップスケールします。

8. 手を修復する

Task: 手の構造だけを修復する。
Preserve: ジェスチャーの意図、左右の手の関係、物体との接触位置、被写体のアイデンティティ、背景。
Change: 各手の指の本数を自然にし、関節の曲がりを正しくし、手のひらの向きを合理的にし、指先の接触を自然にする。
Detail: 指関節、爪、手のひらのしわ、影を誇張なしで復元する。
Do not: 手を追加しない、左右の手を入れ替えない、持っている物体を動かさない。

両手が壊れている場合は、左右を別々に修復します。

9. 質感とエッジのアーティファクトを清理する

Task: エッジのアーティファクトを消し、リアルな質感を復元する。
Preserve: 被写体の形、ラベル文字、色、全体構図。
Change: 白い縁、halo、fringing、ギザギザ、ぼけたエッジを取り除く。[hair/fabric/leather/product surface] の明瞭な質感と自然な微細コントラストを復元する。
Background: 新しい光り縁を作らず、自然なエッジ遷移を保つ。
Do not: 被写体を再設計しない、文字を変えない、背景色を変えない。

edge-ring mask を使います。商品切り抜きでは、まず不透明背景で編集し、その後で背景を削除します。

戦略：Inpaint、Control、Rerenderのどれを使うか

小さな欠陥には、局所 inpaint が基本です。ドリフトが最も少なく、アイデンティティと背景を守りやすい方法です。顔、手、エッジ、接地影、小さな質感の失敗に使います。

小さすぎる欠陥には、crop-first inpaint がさらに有効です。問題部分をクロップし、見かけ上の解像度を高くして修復してから、全体画像へ戻します。目、指、商品エッジ、ラベルに向いています。

全画像 masked edit は、服の差し替え、物体挿入、大きなスタイル変更などの意味的変更に向いています。ただし、特に GPT Image 2 では、未マスクのピクセルが完全に不変である保証はありません。多少のドリフトを許容できる場合に使います。

全体 rerender は構造が壊れている場合に使います。元のレイアウトが間違っているなら、多数の局所パッチと戦うより、再生成のほうがきれいな場合があります。ただし、その後でアイデンティティ、光、細部の修復が必要になるかもしれません。

制御画像は構造問題を解決します。Canny と lineart はエッジを保ちます。Depth は空間と遠近法を保ちます。Pose は人体関節の関係を保ちます。Segmentation と regional prompting は被写体混合を減らします。IP-Adapter と参照画像はアイデンティティ、商品外観、スタイルを保ちますが、構造制御の代わりにはなりません。

率直に言えば、local inpaint は欠陥を直し、rerender は画像を設計し直します。必要なほうを使い分けます。

クイックトラブルシューティングチェックリスト

被写体が切れる、手足がフレーム外に出る：まずアスペクト比を変えるかキャンバスを広げる。
遠近法が間違う：steps を上げる前に depth、canny、lineart を使う。
二人が混ざる：領域、mask、prompt 構造で被写体を分ける。
Mask が意図した範囲の外へ漏れる：より小さくクロップし、prompt を狭める。硬いピクセル保持が必要なら diffusion inpaint に切り替える。
画像が繰り返し暗くなる：loopback を止め、露出 pass を一回行う。
物体が貼り付けたように見える：接地影と表面との相互作用を修復する。
色温度がずれる：neutral daylight や warm sunset など具体的な目標で、ホワイトバランス pass を一回行う。
顔の似姿がずれる：顔だけを修復し、アイデンティティ参照と厳密な保持指示を使う。
手が壊れる：小さな mask、手参照またはポーズ、一度に片手。
質感がぼける：先にアップスケールし、その後で低 denoise の局所修復。
エッジのハローが出る：物体内部マスクではなく edge-ring mask を使う。
デバッグがランダムに感じる：seed、size、sampler、input を固定し、一度に一変数だけ変える。

ブログやチームレビューに適したBefore/Afterレイアウト

最も見やすい見せ方は、三パネル比較です。

Input | Mask or Control Map | Output

細部修復では、二段目に 200% のクローズアップを追加します。チームレビューでは、小さなパラメータフッターを付けます。model、size、quality、denoise、CFG、steps、sampler、scheduler、seed、control scale、reference scale です。これにより、診断が記憶頼みではなく再現可能になります。

最終 takeaway

画像から画像への失敗の多くは不可解ではありません。構図の失敗にはキャンバスと構造制御が必要です。ライティングの失敗には、光の方向、接地影、露出、色温度といった合成の言葉が必要です。細部の失敗には、小さなマスク、参照、控えめな修復が必要です。

GPT Image 2 でうまくいく手は、たいてい明確な編集目標、狭い範囲、有用な参照、明示的な保持ルールです。拡散ワークフローでは、再現可能なパラメータテストと構造制御を加えます。どちらの場合も、表面を磨く前に土台を直します。

Try GPT Image 2 for Free Now →

GPT Image 2 画像から画像へのトラブルシューティング：構図、ライティング、細部を直す