GPT Image 2와 diffusion 기반 이미지 투 이미지 워크플로를 위한 실전 문제 해결 가이드입니다. 구도 드리프트, 조명 불일치, 얼굴과 손 오류, 마스크 번짐, 흐린 질감, 가장자리 아티팩트를 진단합니다.

Image-to-image troubleshooting comparison with input mask and corrected output

이미지 투 이미지 편집은 보통 예측 가능한 방식으로 실패합니다. 피사체가 잘립니다. 손가락이 더 생깁니다. 새로 넣은 물체가 스티커처럼 붙어 보입니다. 마스크 편집이 얼굴 전체를 바꿉니다. 반복할수록 출력이 어두워집니다. 이때 같은 prompt 를 다시 돌리고, "realistic"이나 "high quality"를 추가하거나, steps 를 올리고 싶어집니다. 하지만 그것은 문제 해결이 아니라 더 많은 연산으로 운에 거는 일입니다.

실무 규칙은 단순합니다. 먼저 구조를 고치고, 다음으로 조명, 마지막으로 디테일을 고칩니다. 구도 오류는 기하 문제입니다. 조명 오류는 합성 문제입니다. 디테일 오류는 대부분 국소 보정 문제입니다. 이 세 가지를 모두 prompt 문구 문제로 취급하면 결과가 불안정해집니다.

이 가이드는 GPT Image 2 사용자를 위해 썼지만, Stable Diffusion, Diffusers, ComfyUI, WebUI 및 기타 diffusion 기반 이미지 투 이미지 파이프라인에도 적용됩니다. 차이는 제어면입니다. GPT Image 2는 prompt, 입력 이미지, mask, size, quality, 출력 형식, 압축, 배경 같은 상위 수준 제어를 제공합니다. 전통적인 diffusion 워크플로는 strength 또는 denoise, CFG 또는 guidance scale, steps, sampler, scheduler, seed, ControlNet, IP-Adapter, 더 엄격한 inpaint mask 동작을 더 직접적으로 노출합니다.

이 차이는 중요합니다. GPT Image 2는 편집 목표를 명확히 설명하고 올바른 입력 이미지를 제공할 때 강합니다. 하지만 마스크 밖의 모든 픽셀을 Photoshop처럼 단단하게 보존해야 하는 작업에는 최선의 도구가 아닐 수 있습니다. 엄격한 국소 보정에는 diffusion inpaint 가 보통 더 낫습니다. 실제 결함을 해결하는 가장 작은 도구를 쓰세요.

진단 순서: 구조, 빛, 디테일

Troubleshooting matrix for image-to-image composition lighting and detail failures

어떤 파라미터를 바꾸기 전에 실패 유형을 먼저 분류합니다.

피사체가 잘렸거나, 수평선이 틀어졌거나, 포즈가 바뀌었거나, 왼쪽과 오른쪽 인물의 정체성이 뒤바뀌었거나, 테이블의 원근이 말이 안 되면 구도 문제입니다. steps 를 늘리거나 이미지를 선명하게 하는 것부터 시작하지 마세요. 먼저 화면비, 캔버스, 마스크 범위, 구조 참조를 확인합니다.

물체가 올바른 위치에 있지만 붙여 넣은 것처럼 보이거나, 따뜻한 방 안의 피사체만 푸르게 보이거나, 그림자 방향이 틀렸거나, 바뀐 옷이 원본 조명과 충돌한다면 조명 문제입니다. 기하를 고정한 뒤 주광 방향, 접촉 그림자, 노출, 색온도를 고칩니다.

이미지 구조가 맞고 조명도 대체로 작동한다면 그다음 디테일을 보정합니다. 얼굴 닮음, 손, 머리카락, 직물, 제품 가장자리, 로고, halo, 질감입니다. 디테일 작업은 보통 국소적으로 해야 합니다. 손가락 세 개를 고치려고 전체 이미지를 다시 렌더링하는 것은 나쁜 선택입니다.

이 순서는 가장 흔한 실패 루프를 막아 줍니다. 이미 다른 사람이 된 얼굴의 피부를 고치거나, 원근이 틀린 물체를 선명하게 하거나, 먼저 재구도해야 할 피사체에 조명만 다시 맞추는 일을 피하게 됩니다.

GPT Image 2와 diffusion I2I: 실제로 제어할 수 있는 것

GPT Image 2에서 주요 조절 항목은 다음과 같습니다.

Control	Practical use	Common mistake
Prompt	편집 목표와 보존 규칙을 정의	국소 수정만 필요할 때 넓은 재디자인을 요청
Input image	정체성, 레이아웃, 스타일, 맥락 제공	약한 참조 이미지로 정확한 기하를 기대
Mask	모델이 편집할 위치를 안내	단단한 픽셀 경계로 취급
Size / aspect ratio	구도 컨테이너 설정	전신 세로 피사체에 정사각 캔버스 사용
Quality	디테일, 비용, 지연 시간의 균형	디버깅마다 최종 품질 사용
Multiple references	정체성, 물체 교체, 스타일 유지에 도움	스타일 참조가 포즈나 원근까지 강제한다고 기대

Diffusion 이미지 투 이미지에서는 더 세밀한 조절 항목을 씁니다.

Parameter	What it changes	Useful starting point
`strength` / `denoise`	입력 이미지가 얼마나 다시 쓰이는지	국소 보정: `0.15-0.35`; 조명: `0.30-0.50`; 구조 변경: `0.50-0.75`
`CFG` / `guidance_scale`	모델이 prompt 를 따르는 강도	사실적 편집: `4-6`; 일반 기본값: `6-8`
`steps`	denoise 품질과 실행 시간	빠른 테스트: `20-30`; 균형: `30-50`; 어려운 디테일 작업: `50-80`
`seed`	A/B 테스트 재현성	진단 중 고정
`sampler` / `scheduler`	denoise 경로와 실패 양상	하나를 선택해 고정한 뒤 다른 파라미터 비교
ControlNet scale	구조 가이드 강도	약함: `0.4-0.6`; 강함: `0.6-0.8`
IP-Adapter scale	참조 이미지 영향 강도	스타일: `0.4-0.6`; 정체성 또는 외형: `0.6-0.8`

파라미터 튜닝을 정상적으로 유지하는 규칙은 세 가지입니다.

첫째, steps 는 구조를 안정적으로 고치는 장치가 아닙니다. 질감과 가장자리를 개선할 수는 있지만 잘못된 포즈, 나쁜 수평선, 뒤바뀐 피사체 관계를 일관되게 고치지는 못합니다.

둘째, CFG 는 "품질"이 아닙니다. guidance 가 너무 낮으면 prompt 를 무시합니다. 너무 높으면 이미지가 과포화되고 딱딱해지며 덜 자연스러울 수 있습니다. 모델이 특정 지시를 명확히 무시할 때만 올리세요.

셋째, 한 번에 열 가지 변수를 테스트하지 마세요. 진단 중에는 seed, size, sampler, 입력을 잠급니다. 마스크 범위, denoise, 컨트롤 맵, 참조 이미지, prompt 제약 중 하나의 큰 변수만 바꿉니다.

흔한 실패 유형과 첫 번째 수정

이 표를 빠른 분류표로 사용하세요.

Symptom	Likely cause	Priority	First fix
마스크 편집이 얼굴, 배경, 전체 이미지를 바꿈	mask 가 단단한 경계가 아니라 제안처럼 취급됨; prompt 가 너무 많은 것을 요구	P0	더 작은 영역으로 crop 하고, 편집 목표를 좁히며, 엄격한 preserve list 를 작성합니다. 픽셀이 반드시 그대로 남아야 하면 diffusion inpaint 를 사용합니다.
피사체가 잘림, 머리가 사라짐, 팔다리가 프레임 밖으로 나감	잘못된 화면비, 좁은 캔버스, "complete subject" 지시 누락	P0	먼저 size 를 바꾸거나 outpaint 합니다. full body, complete subject, natural margins 를 요청합니다.
스케치를 사실적으로 바꾸는 과정에서 원근이 무너짐	구조 제어 없는 의미 중심 prompt; denoise 과다	P0	depth, canny, lineart 가이드를 사용합니다. denoise 를 낮춥니다. 구조 보정과 소재 렌더링을 분리합니다.
두 사람이 역할을 바꾸거나 신체 일부를 공유함	피사체 간 prompt 누수; 영역 분리 없음	P0	피사체 설명을 분리하고, masks, regional prompting, pose control 을 사용합니다.
삽입한 물체가 스티커처럼 보임	접촉 그림자 없음, 스케일 오류, mask 가 접촉 영역을 제외	P0	물체만이 아니라 물체 바닥과 그림자 영역을 고칩니다. 접촉 그림자 방향과 부드러움을 지정합니다.
반복할수록 출력이 어두워짐	loopback 또는 반복적인 낮은 denoise 편집이 노출 드리프트를 누적	P1	반복을 멈춥니다. 별도 노출 및 화이트밸런스 pass 를 수행합니다.
의상 교체 후 빛 방향이 틀림	의상 참조의 조명이 다름; prompt 가 장면 조명을 고정하지 않음	P1	카메라와 배경을 보존합니다. 의상을 원본 빛 방향, 그림자, 색온도에 맞춥니다.
얼굴이 더 이상 본인처럼 보이지 않음	얼굴이 넓은 전체 이미지 렌더에 포함됨	P0	얼굴만 보정하고 정체성 참조를 사용합니다. 표정, 얼굴형, 나이, 머리, 비율을 보존합니다.
손가락 수나 관절이 잘못됨	복잡한 접촉, 약한 포즈 제약, 충돌하는 prompt	P0	손과 접촉점만 마스크합니다. 손 포즈 참조 또는 openpose 를 사용합니다. 왼손과 오른손을 따로 보정합니다.
업스케일 후 질감이 흐려짐	업스케일과 재도색을 한 번의 높은 denoise pass 에 섞음	P1	먼저 업스케일한 뒤 낮은 denoise 로 국소 보정합니다.
흰 가장자리, halo, fringing	mask 가 너무 타이트함; 투명 배경 기대와 불일치	P1	경계 양쪽을 덮는 edge-ring mask 를 사용합니다. GPT Image 2에서는 먼저 불투명 출력 후 후단에서 잘라냅니다.

P0은 고치지 않으면 납품할 수 없는 문제입니다. P1은 눈에 띄고 품질을 해치는 문제입니다. P2는 마지막 폴리싱 단계에서 처리할 수 있는 작은 결함입니다.

구도 문제 해결

구도 문제는 무시하면 가장 비쌉니다. 기하가 틀리면 뒤의 모든 수정은 나쁜 바탕 위에 쌓입니다.

피사체가 잘렸다면 캔버스부터 봅니다. 전신 세로 이미지는 세로 프레임이 필요합니다. 라벨 공간이 필요한 제품 hero 이미지는 가로 공간이 필요할 수 있습니다. 원본 피사체가 이미 잘려 있다면 더 좋은 렌더를 요청하기 전에 outpaint 하거나 캔버스를 확장합니다. GPT Image 2에서는 prompt 를 직접적으로 씁니다. "move the camera back 10 to 20 percent, complete the missing head and arms, preserve the same face, outfit, background, camera height, and light direction."

원근 문제에는 구조를 더합니다. Diffusion 워크플로에서는 실내, 건축, 가구, 공간 관계에 depth 를 사용합니다. 제품, 로고, 단단한 에지, 다이어그램, 스케치-렌더 작업에는 canny 또는 lineart 를 사용합니다. 사람에게는 pose 또는 keypoints 를 사용합니다. 제품 실루엣을 보존하려고 openpose 를 쓰지 마세요. canny 가 팔꿈치 방향을 이해한다고 기대하지 마세요.

두 사람이 있는 장면에서는 prompt 에서 피사체를 분리합니다. "왼쪽 사람"과 "오른쪽 사람"은 각각 정체성, 의상, 포즈, 행동 설명을 가져야 합니다. 도구가 masks, regional prompting, segmentation 을 지원한다면 사용하세요. 다중 피사체 실패의 많은 경우는 "손이 나쁜" 문제가 아니라 영역 소유권이 나쁜 문제입니다.

조명 문제 해결

조명 실패는 보통 합성 실패입니다. 편집된 물체가 의미적으로는 맞지만 장면에 속하지 않습니다.

지정해야 할 네 가지는 주광 방향, 그림자 동작, 색온도, 노출입니다. "Make it realistic"은 약합니다. "Match the existing warm left-side window light, add a soft contact shadow under the shoes, keep the background exposure unchanged, and preserve neutral skin tones"처럼 쓰는 것이 유용합니다.

물체가 붙여 넣은 것처럼 보일 때는 전체 물체를 먼저 다시 칠하지 마세요. 접촉 영역을 고칩니다. 바닥 위의 발, 테이블 위 제품 바닥, 풀 위의 개 발, 카운터 위 컵 가장자리, 벽 위 포스터 가장자리입니다. mask 는 물체 경계와 그림자를 받는 표면을 포함해야 합니다. prompt 에는 contact shadow, occlusion shadow, 필요하다면 reflection, 그리고 그림자 부드러움의 일치를 적어야 합니다.

반복 편집으로 이미지가 너무 노랗거나 어둡거나 대비가 강해지면 콘텐츠 편집을 멈춥니다. 별도의 색상 pass 를 한 번 수행합니다. 구도, 정체성, 소재, 질감을 보존하면서 화이트밸런스와 노출을 통일하라고 요청합니다. 드리프트를 감수할 준비가 없다면 "replace the jacket"과 "fix the entire color grade"를 같은 pass 에 섞지 마세요.

디테일 문제 해결

디테일은 구조와 조명이 안정된 뒤에 고쳐야 합니다.

얼굴에는 작은 mask 와 정체성 제약이 필요합니다. 얼굴 전체와 약간의 주변 맥락을 포함합니다. 헤어라인, 턱, 귀, 인접 피부입니다. 한쪽 눈만 마스크하지 마세요. 비대칭을 원하지 않는다면 피해야 합니다. 모델에 정확한 닮음, 얼굴형, 나이, 표정, 헤어스타일, 피부톤, 카메라 각도를 보존하라고 지시합니다. 플라스틱처럼 매끈하게 만들지 말고 자연스러운 피부 질감을 요청합니다.

손에도 맥락이 필요합니다. 손바닥, 손가락, 손목, 물체 접촉 영역, 약간의 배경을 마스크합니다. 제스처 의도와 물체 위치를 보존합니다. 양손이 모두 망가졌다면 따로 보정합니다. 복잡한 손-물체 상호작용에서는 긴 negative prompt 보다 포즈나 손 참조가 더 가치 있습니다.

가장자리에는 edge-ring mask 가 필요합니다. 제품에 halo 가 있다면 mask 는 제품 가장자리의 안쪽과 바깥쪽을 모두 덮어야 합니다. 물체 내부만 덮는 mask 로는 전환부가 고쳐지지 않습니다. GPT Image 2 워크플로에서는 먼저 불투명 배경에서 생성하거나 편집한 뒤, 후단에서 배경을 제거하는 편이 더 깔끔한 경우가 많습니다.

질감에는 2단계 워크플로가 필요합니다. 먼저 업스케일 또는 super-resolution 을 사용합니다. 그런 다음 약한 질감 영역만 낮은 denoise 또는 좁은 edit prompt 로 다시 칠합니다. 높은 denoise 재도색과 업스케일을 섞으면 더 나은 디테일이 아니라 더 큰 흐림을 얻는 경우가 많습니다.

복사해서 쓰는 Prompt 템플릿

구조화된 prompt 로 사용하세요. GPT Image 2에서는 전체 템플릿을 붙여 넣고 괄호를 채웁니다. Diffusion 에서는 필요할 때 "do not" 절을 negative prompt 로 옮깁니다.

1. 잘림과 사라진 신체 부위 고치기

Task: 원본 정체성, 의상, 소재, 배경 스타일, 카메라 높이, 시간대를 보존하면서 입력 이미지를 재구성해 피사체가 완전히 보이게 한다.
Preserve: 얼굴, 헤어스타일, 신체 비율, 의상 색상, 배경 레이아웃, 빛 방향.
Change: 카메라를 약 10%에서 20% 뒤로 물리고, 사라진 머리, 팔, 손, 다리, 발을 완성하며, 피사체 주변에 자연스러운 여백을 둔다.
Composition: 원래 원근과 피사체 방향을 유지한다. 이미지를 좌우 반전하거나 좌우 관계를 바꾸지 않는다.
Do not: 사람을 추가하지 말고, 배경을 바꾸지 말고, 표정을 바꾸지 말고, 색온도나 노출을 바꾸지 않는다.

Diffusion 시작점: denoise 0.30-0.50. 방이나 건축 구조가 불안정하면 depth guidance 를 추가합니다.

2. 원근과 비율 바로잡기

Task: 입력 이미지의 원근과 비율 오류를 수정한다.
Preserve: 피사체 정체성, 장면 내용, 소재, 조명, 주요 카메라 각도.
Change: 수직선을 수직으로 만들고, 수평선을 안정시키며, 바닥/테이블/건물의 소실선을 정렬하고, 늘어나거나 눌린 형태를 바로잡는다.
Composition: 기존 피사체 관계를 유지한다. 장면을 재디자인하지 않는다.
Do not: 새 요소를 추가하지 말고, 빛 방향을 바꾸지 말고, 인물 또는 제품 정체성을 바꾸지 않는다.

Diffusion 시작점: 실내 또는 건축은 depth 0.7-0.9; 제품과 드로잉은 canny/lineart 0.5-0.8; denoise 0.20-0.40.

3. 두 피사체와 좌우 관계 고정하기

Task: 두 피사체의 포즈와 좌우 관계를 고친다.
Left subject: [Character A]로 유지하고, 헤어스타일, 얼굴형, 피부톤, 의상, 바라보는 방향을 보존한다.
Right subject: [Character B]로 유지하고, 헤어스타일, 얼굴형, 피부톤, 의상, 바라보는 방향을 보존한다.
Pose: 왼쪽 피사체는 [Action A]를 수행하고, 오른쪽 피사체는 [Action B]를 수행한다. 위치를 바꾸지 않는다. 손이나 제스처를 공유하지 않는다.
Composition: 카메라 각도와 장면을 그대로 유지한다.
Do not: 추가 팔, 추가 손가락, 잘못된 왼손/오른손, 혼합된 정체성, 혼합된 피부톤을 만들지 않는다.

가능하면 pose control, segmentation, regional prompting 을 사용합니다.

4. 빛 방향 맞추기

Task: 조명 일관성만 수정한다.
Preserve: 피사체 정체성, 배경, 카메라 위치, 구도, 행동, 소재.
Change: 주광이 [왼쪽 위 / 오른쪽 위 / 측면 / 뒤쪽]에서 오게 한다. 하이라이트, 중간톤, 그림자, 드리운 그림자를 그 빛 방향에 맞춘다.
Shadows: 장면과 어울리는 부드러움으로 자연스러운 접촉 그림자와 주변 그림자를 만든다.
Do not: 포즈, 배경, 색온도, 화이트밸런스를 바꾸지 않는다.

Diffusion 시작점: denoise 0.25-0.45. 그림자만 고칠 때는 mask 를 그림자와 접촉 영역에만 둡니다.

5. 스티커처럼 보이는 물체 배치 제거

Task: [person/object/animal]가 붙여 넣은 것처럼 보이지 않고 장면에 자연스럽게 속하게 만든다.
Preserve: 피사체 외형과 모든 마스크 밖 영역.
Change: 접촉점 주변에 현실적인 접촉 그림자, 미세한 가림 그림자, 필요한 반사 또는 반사광을 추가한다.
Spatial relationship: 기존 바닥, 벽, 테이블, 지면 소재에 맞게 그림자 방향과 그림자 밀도를 맞춘다.
Do not: 피사체 형태, 배경 레이아웃, 피사체 색상을 바꾸지 않는다.

접촉점이 여러 개라면 작은 별도 pass 로 나누어 고칩니다.

6. 노출과 색온도 통일하기

Task: 이미지가 한 대의 카메라로 같은 순간에 촬영된 것처럼 보이도록 노출과 색온도를 통일한다.
Preserve: 구도, 피사체 정체성, 배경, 소재, 질감.
Change: 자연스러운 화이트밸런스를 복원하고, 하이라이트가 날아가지 않게 하며, 그림자를 읽을 수 있게 하고, 피부톤을 자연스럽게 만든다. 전체 색온도는 [warm sunset / neutral daylight / cool overcast]로 한다.
Do not: 장면 내용을 바꾸지 말고, 필터 느낌을 추가하지 말고, 강한 영화식 컬러 그레이딩을 적용하지 않는다.

이 작업은 독립 pass 로 수행합니다. 큰 구조 편집과 합치지 마세요.

7. 얼굴 디테일 보정

Task: 얼굴 디테일만 보정한다.
Preserve: 정확한 닮음, 얼굴형, 나이, 표정, 헤어스타일, 피부톤, 카메라 각도.
Change: 눈 대칭, 동공 방향, 속눈썹, 콧구멍, 입술 가장자리, 치아, 귀, 자연스러운 피부 질감을 고친다.
Quality: 사실적인 사진 디테일, 과한 매끈화 없음, 만화 스타일 없음.
Do not: 표정을 바꾸지 말고, 얼굴 비율을 바꾸지 말고, 머리카락이나 배경에 영향을 주지 않는다.

얼굴 전체와 약간의 주변 맥락을 마스크합니다. 얼굴이 작으면 먼저 업스케일합니다.

8. 손 보정

Task: 손 구조만 보정한다.
Preserve: 제스처 의도, 왼손/오른손 관계, 물체와의 접촉 위치, 피사체 정체성, 배경.
Change: 각 손이 자연스러운 수의 손가락을 갖게 하고, 관절 굽힘을 올바르게 하며, 손바닥 방향을 합리적으로 만들고, 손끝 접촉을 자연스럽게 한다.
Detail: 손마디, 손톱, 손바닥 주름, 그림자를 과장 없이 복원한다.
Do not: 손을 추가하지 말고, 왼손과 오른손을 바꾸지 말고, 들고 있는 물체를 움직이지 않는다.

양손이 모두 망가졌다면 왼손과 오른손을 따로 보정합니다.

9. 질감과 가장자리 아티팩트 정리

Task: 가장자리 아티팩트를 정리하고 사실적인 질감을 복원한다.
Preserve: 피사체 형태, 라벨 텍스트, 색상, 전체 구도.
Change: 흰 가장자리, halo, fringing, 들쭉날쭉한 경계, 흐린 가장자리를 제거한다. [hair/fabric/leather/product surface]의 선명한 질감과 자연스러운 미세 대비를 복원한다.
Background: 새 glow 없이 가장자리 전환을 자연스럽게 유지한다.
Do not: 피사체를 재디자인하지 말고, 텍스트를 바꾸지 말고, 배경색을 바꾸지 않는다.

edge-ring mask 를 사용합니다. 제품 컷아웃은 먼저 불투명 배경에서 편집한 뒤 후단에서 배경을 제거합니다.

전략: Inpaint, Control, Rerender 중 무엇을 쓸까?

작은 결함에는 국소 inpaint 가 기본입니다. 드리프트가 가장 적고 정체성과 배경을 가장 잘 보호합니다. 얼굴, 손, 가장자리, 접촉 그림자, 작은 질감 실패에 사용하세요.

아주 작은 결함에는 crop-first inpaint 가 더 좋습니다. 문제 영역을 잘라 더 높은 체감 해상도에서 보정한 뒤 전체 이미지에 다시 넣습니다. 눈, 손가락, 제품 가장자리, 라벨에 유용합니다.

전체 이미지 masked edit 는 의상 교체, 물체 삽입, 넓은 스타일 변경 같은 의미적 변경에 유용합니다. 특히 GPT Image 2에서는 마스크 밖 픽셀이 그대로 유지된다는 보장이 아닙니다. 어느 정도 드리프트를 허용할 수 있을 때 사용하세요.

전체 rerender 는 구조가 망가졌을 때 씁니다. 원래 레이아웃이 틀렸다면 많은 국소 패치와 싸우는 것보다 다시 렌더링하는 편이 깔끔할 수 있습니다. 다만 이후 정체성, 빛, 디테일 보정이 필요할 수 있음을 받아들여야 합니다.

컨트롤 이미지는 구조 문제를 해결합니다. Canny 와 lineart 는 가장자리를 보존합니다. Depth 는 공간과 원근을 보존합니다. Pose 는 사람 관절 관계를 보존합니다. Segmentation 과 regional prompting 은 피사체 혼합을 줄입니다. IP-Adapter 와 참조 이미지는 정체성, 제품 외형, 스타일을 보존하지만 구조 제어를 대체하지 않습니다.

간단히 말하면 local inpaint 는 결함을 고치고, rerender 는 이미지를 다시 디자인합니다. 필요한 작업에 맞는 것을 쓰세요.

빠른 문제 해결 체크리스트

피사체가 잘리거나 팔다리가 프레임 밖으로 나감: 먼저 화면비를 바꾸거나 캔버스를 확장합니다.
원근이 틀림: steps 를 올리기 전에 depth, canny, lineart 를 사용합니다.
두 사람이 섞임: 영역, mask, prompt 구조로 피사체를 나눕니다.
Mask 가 의도한 영역 밖으로 번짐: 더 작게 crop 하고 prompt 를 좁힙니다. 단단한 픽셀 보존이 중요하면 diffusion inpaint 로 전환합니다.
반복 편집 후 이미지가 어두워짐: loopback 을 멈추고 노출 pass 를 한 번 수행합니다.
물체가 붙여 넣은 것처럼 보임: 접촉 그림자와 표면 상호작용을 보정합니다.
색온도가 드리프트됨: neutral daylight 또는 warm sunset 같은 구체적 목표로 화이트밸런스 pass 를 한 번 수행합니다.
얼굴 닮음이 드리프트됨: 얼굴만 보정하고 정체성 참조와 엄격한 보존 지시를 사용합니다.
손이 망가짐: 작은 mask, 손 참조 또는 포즈, 한 번에 한 손.
질감이 흐려짐: 먼저 업스케일하고 낮은 denoise 로 국소 보정합니다.
가장자리 halo 가 나타남: 물체 내부 mask 가 아니라 edge-ring mask 를 사용합니다.
디버깅이 무작위처럼 느껴짐: seed, size, sampler, input 을 잠그고 한 번에 한 변수만 바꿉니다.

블로그나 팀 리뷰용 Before/After 레이아웃

가장 깔끔한 표현은 3패널 비교입니다.

Input | Mask or Control Map | Output

디테일 보정이라면 두 번째 행에 200% 확대 클로즈업을 추가합니다. 팀 리뷰용이라면 하단에 작은 파라미터 푸터를 붙입니다. model, size, quality, denoise, CFG, steps, sampler, scheduler, seed, control scale, reference scale 입니다. 이렇게 하면 진단이 기억에 의존하지 않고 반복 가능합니다.

최종 정리

대부분의 이미지 투 이미지 실패는 신비롭지 않습니다. 구도 오류에는 캔버스와 구조 제어가 필요합니다. 조명 오류에는 빛 방향, 접촉 그림자, 노출, 색온도 같은 합성 언어가 필요합니다. 디테일 오류에는 작은 mask, 참조, 보수적인 보정이 필요합니다.

GPT Image 2에서는 명확한 편집 목표, 좁은 범위, 유용한 참조, 명시적인 보존 규칙이 보통 가장 좋은 선택입니다. Diffusion 워크플로에서는 재현 가능한 파라미터 테스트와 구조 제어를 더합니다. 두 경우 모두 표면을 다듬기 전에 바탕을 먼저 고치세요.

Try GPT Image 2 for Free Now →

GPT Image 2 이미지 투 이미지 문제 해결: 구도, 조명, 디테일 고치기