Um guia prático de troubleshooting image-to-image para GPT Image 2 e fluxos de difusão: diagnostique deriva de composição, iluminação inconsistente, erros de rosto e mãos, vazamento de máscara, textura borrada e artefatos nas bordas.

Image-to-image troubleshooting comparison with input mask and corrected output

A edição image-to-image costuma falhar de formas previsíveis. O sujeito fica cortado. Uma mão ganha dedos extras. O objeto novo parece colado. Uma edição com máscara muda o rosto inteiro. A saída fica mais escura a cada passada. A reação tentadora é rodar o mesmo prompt de novo, adicionar palavras como "realista" ou "alta qualidade", ou aumentar os steps. Isso não é solução de problemas. É apostar mais computação.

A regra prática é simples: corrija primeiro a estrutura, depois a luz e por último os detalhes. Erros de composição são problemas de geometria. Erros de iluminação são problemas de composição visual. Erros de detalhe geralmente são problemas de reparo local. Tratar os três como problemas de texto do prompt leva a resultados instáveis.

Este guia foi escrito para usuários do GPT Image 2, mas o método também vale para Stable Diffusion, Diffusers, ComfyUI, WebUI e outros pipelines image-to-image baseados em difusão. A diferença principal é a superfície de controle. O GPT Image 2 expõe controles de alto nível como prompt, imagem de entrada, mask, size, quality, formato de saída, compressão e background. Workflows tradicionais de difusão costumam expor strength ou denoise, CFG ou guidance scale, steps, sampler, scheduler, seed, ControlNet, IP-Adapter e comportamento mais rígido de inpaint mask.

Essa diferença importa. O GPT Image 2 costuma ser forte quando você descreve uma edição com clareza e fornece as imagens de entrada certas. Ele não é a melhor ferramenta quando você precisa de uma máscara dura, no estilo Photoshop, que preserve cada pixel não mascarado. Diffusion inpaint costuma ser melhor para reparos locais estritos. Use a menor ferramenta que resolve o defeito real.

A ordem de diagnóstico: estrutura, luz, detalhe

Troubleshooting matrix for image-to-image composition lighting and detail failures

Antes de mudar qualquer parâmetro, classifique a falha.

Se o sujeito está cortado, o horizonte está errado, a pose mudou, as pessoas da esquerda e da direita trocaram identidade, ou uma mesa tem perspectiva impossível, você tem um problema de composição. Não comece aumentando steps ou aplicando nitidez. Verifique primeiro a proporção, o canvas, o escopo da máscara e as referências estruturais.

Se o objeto está no lugar certo mas parece colado, se o sujeito está azul demais em uma sala quente, se a sombra vai na direção errada, ou se a roupa editada briga com a luz original, você tem um problema de iluminação. Trave a geometria e então corrija direção da luz principal, sombras de contato, exposição e temperatura de cor.

Se a imagem está estruturalmente correta e a iluminação funciona em geral, repare os detalhes: semelhança do rosto, mãos, cabelo, tecido, bordas de produto, logos, halos e textura. Trabalho de detalhe deve ser local na maioria das vezes. Renderizar a imagem inteira para corrigir três dedos é uma troca ruim.

Essa ordem evita a espiral de falhas mais comum: retocar pele em um rosto que já é a pessoa errada, dar nitidez a um objeto com perspectiva errada, ou refazer a luz de um sujeito que deveria ter sido recomposto primeiro.

GPT Image 2 vs difusão I2I: o que você realmente controla

No GPT Image 2, suas principais alavancas são:

Controle	Uso prático	Erro comum
Prompt	Define o objetivo da edição e as regras de preservação	Pedir um redesign amplo quando só precisa de um ajuste local
Imagem de entrada	Fornece identidade, layout, estilo e contexto	Dar uma referência fraca e esperar geometria exata
Mask	Guia onde o modelo deve editar	Tratar como limite rígido de pixels
Size / aspect ratio	Define o contêiner da composição	Usar canvas quadrado para um sujeito vertical de corpo inteiro
Quality	Equilibra detalhe, custo e latência	Usar qualidade final em toda tentativa de debug
Múltiplas referências	Ajudam com identidade, substituição de objeto e estilo	Esperar que uma referência de estilo também imponha pose ou perspectiva

Em image-to-image por difusão, as alavancas úteis são mais granulares:

Parâmetro	O que muda	Ponto de partida útil
`strength` / `denoise`	Quanto a imagem de entrada é reescrita	Reparo local: `0.15-0.35`; luz: `0.30-0.50`; mudança estrutural: `0.50-0.75`
`CFG` / `guidance_scale`	O quanto o modelo segue o prompt	Edições realistas: `4-6`; padrão geral: `6-8`
`steps`	Qualidade do denoising e tempo de execução	Testes rápidos: `20-30`; equilibrado: `30-50`; detalhe difícil: `50-80`
`seed`	Reprodutibilidade para testes A/B	Fixe durante o diagnóstico
`sampler` / `scheduler`	Trajetória de denoising e modo de falha	Escolha um e mantenha estável antes de comparar parâmetros
ControlNet scale	Força da orientação estrutural	Suave: `0.4-0.6`; forte: `0.6-0.8`
IP-Adapter scale	Força da influência da imagem de referência	Estilo: `0.4-0.6`; identidade ou aparência: `0.6-0.8`

Três regras mantêm o ajuste de parâmetros sensato.

Primeiro, steps não corrige estrutura de forma confiável. Pode melhorar textura e bordas, mas não vai reparar consistentemente uma pose errada, horizonte ruim ou relação trocada entre sujeitos.

Segundo, CFG não é "qualidade". Pouca guidance ignora o prompt. Guidance demais pode deixar imagens saturadas, rígidas ou menos naturais. Aumente apenas quando o modelo claramente ignora uma instrução específica.

Terceiro, não teste dez variáveis ao mesmo tempo. Durante o diagnóstico, trave seed, size, sampler e input. Mude uma variável importante: escopo da máscara, denoise, control map, imagem de referência ou restrição do prompt.

Biblioteca de falhas comuns e primeiros ajustes

Use esta tabela como triagem rápida.

Sintoma	Causa provável	Prioridade	Primeiro ajuste
Edição mascarada muda rosto, fundo ou imagem inteira	A máscara está sendo tratada como sugestão, não como limite rígido; o prompt pede demais	P0	Recorte uma região menor, reduza o objetivo da edição e escreva uma lista estrita de preservação. Se pixels precisam ficar intactos, use diffusion inpaint.
Sujeito cortado, cabeça faltando, membros fora do quadro	Proporção errada, canvas apertado, falta instrução "complete subject"	P0	Mude primeiro size ou faça outpaint. Peça full body, complete subject, natural margins.
Sketch-to-real perde perspectiva	Prompt semântico sem controle estrutural; denoise alto demais	P0	Use depth, canny ou lineart. Reduza denoise. Separe reparo de estrutura e render de materiais.
Duas pessoas trocam papéis ou compartilham partes do corpo	Vazamento de prompt entre sujeitos; sem separação regional	P0	Use descrições separadas, máscaras, regional prompting ou pose control.
Objeto inserido parece adesivo	Sem sombra de contato, escala errada, máscara exclui zona de contato	P0	Repare a base do objeto e a área de sombra, não só o objeto. Especifique direção e suavidade da sombra de contato.
Saída fica mais escura após passadas repetidas	Loopback ou edições repetidas com baixo denoise acumulam deriva de exposição	P1	Pare o loop. Faça uma passada separada de exposição e balanço de branco.
Troca de roupa com direção de luz errada	A referência da peça tem luz diferente; prompt não trava a luz da cena	P1	Preserve câmera e fundo. Faça a roupa combinar com direção de luz, sombras e temperatura de cor originais.
Rosto não parece mais a pessoa	O rosto foi incluído em um render amplo de imagem inteira	P0	Use reparo só de rosto com referência de identidade e preserve expressão, formato do rosto, idade, cabelo e proporções.
Mãos com número errado de dedos ou juntas quebradas	Contato complexo, restrição de pose fraca ou prompt conflitante	P0	Mascare só a mão e o ponto de contato. Use referência de pose da mão ou openpose. Repare mão esquerda e direita separadamente.
Textura fica borrada depois de upscale	Upscaling e repainting misturados em uma passada de alto denoise	P1	Faça upscale primeiro, depois reparo local com baixo denoise.
Borda branca, halo ou fringing	Máscara apertada demais; expectativa de fundo transparente não combina	P1	Use uma máscara em anel de borda que cubra os dois lados do limite. No GPT Image 2, gere primeiro opaco e recorte depois.

P0 significa que a imagem não pode ser entregue antes da correção. P1 significa que o defeito é visível e prejudica a qualidade. Defeitos P2 são pequenos o suficiente para o polimento final.

Solução de problemas de composição

Problemas de composição são os mais caros de ignorar. Se a geometria está errada, os ajustes seguintes se apoiam em uma base ruim.

Para sujeitos cortados, comece pelo canvas. Uma imagem vertical de corpo inteiro precisa de moldura vertical. Um hero de produto com espaço para rótulos pode precisar de espaço horizontal. Se o sujeito original já está cortado, faça outpaint ou expanda o canvas antes de pedir um render mais bonito. No GPT Image 2, mantenha o prompt direto: "move the camera back 10 to 20 percent, complete the missing head and arms, preserve the same face, outfit, background, camera height, and light direction."

Para problemas de perspectiva, adicione estrutura. Em workflows de difusão, use depth para interiores, arquitetura, móveis e relações espaciais. Use canny ou lineart para produtos, logos, bordas rígidas, diagramas e sketch-to-render. Use pose ou keypoints para humanos. Não use openpose para preservar a silhueta de um produto. Não use canny esperando que ele entenda a direção do cotovelo.

Para cenas com duas pessoas, separe os sujeitos no prompt. "The person on the left" e "the person on the right" devem ter descrições separadas de identidade, roupa, pose e ação. Se sua ferramenta suporta máscaras, regional prompting ou segmentation, use. Muitas falhas multi-sujeito não são "mãos ruins"; são má propriedade de regiões.

Solução de problemas de iluminação

Falhas de iluminação geralmente são falhas de composição visual. O objeto editado pode estar semanticamente correto, mas não pertence à cena.

As quatro coisas a especificar são direção da luz principal, comportamento das sombras, temperatura de cor e exposição. "Make it realistic" é fraco. "Match the existing warm left-side window light, add a soft contact shadow under the shoes, keep the background exposure unchanged, and preserve neutral skin tones" é útil.

Quando um objeto parece colado, não repinte o objeto inteiro primeiro. Repare a zona de contato: pés no piso, base do produto na mesa, patas do cachorro na grama, borda da xícara no balcão, borda do pôster na parede. A máscara deve incluir o limite do objeto e a superfície que recebe a sombra. O prompt deve mencionar contact shadow, occlusion shadow, reflection se relevante, e suavidade de sombra coerente.

Se edições repetidas deixam a imagem amarela demais, escura demais ou contrastada demais, pare de editar conteúdo. Rode uma passada de cor separada. Peça balanço de branco e exposição unificados preservando composição, identidade, material e textura. Evite combinar "replace the jacket" e "fix the entire color grade" na mesma passada, a menos que você aceite deriva.

Solução de problemas de detalhe

Detalhes devem ser reparados depois que estrutura e luz estiverem estáveis.

Rostos precisam de máscaras pequenas e restrições de identidade. Mascare o rosto inteiro com um pouco de contexto: linha do cabelo, queixo, orelhas e pele ao redor. Não mascare só um olho, a menos que queira assimetria. Diga ao modelo para preservar semelhança exata, formato do rosto, idade, expressão, penteado, tom de pele e ângulo de câmera. Peça textura natural de pele, não suavização plástica.

Mãos também precisam de contexto. Mascare palma, dedos, pulso, área de contato com o objeto e um pouco de fundo. Preserve a intenção do gesto e a posição do objeto. Se as duas mãos estão erradas, repare separadamente. Para interações complexas mão-objeto, uma referência de pose ou mão vale mais do que um negative prompt mais longo.

Bordas precisam de uma máscara em anel de borda. Se um produto tem halo, a máscara deve cobrir o limite por dentro e por fora da borda do produto. Uma máscara que cobre só o interior do objeto não corrige a transição. Em workflows GPT Image 2, muitas vezes é mais limpo gerar ou editar primeiro em fundo opaco e depois remover o fundo.

Textura pede um fluxo em duas etapas. Primeiro upscale ou super-resolution. Depois repinte só a área de textura fraca com baixo denoise ou prompt estreito. Se você combina repainting de alto denoise com upscaling, muitas vezes obtém mais borrão, não mais detalhe.

Modelos de prompt para copiar e colar

Use como prompts estruturados. Para GPT Image 2, cole o modelo inteiro e preencha os colchetes. Para difusão, mova cláusulas "do not" para o negative prompt quando útil.

1. Corrigir corte e partes do corpo faltando

Task: Recompose the input image so the subject is fully visible while preserving the original identity, clothing, material, background style, camera height, and time of day.
Preserve: face, hairstyle, body proportions, clothing colors, background layout, light direction.
Change: move the camera back by about 10 to 20 percent, complete the missing head, arms, hands, legs, and feet, and leave natural margins around the subject.
Composition: keep the original perspective and subject direction. Do not mirror the image or change left-right relationships.
Do not: add people, change the background, change the expression, change color temperature, or change exposure.

Início em difusão: denoise 0.30-0.50. Adicione guia depth se a sala ou arquitetura estiver instável.

2. Corrigir perspectiva e proporções

Task: Correct perspective and proportion errors in the input image.
Preserve: subject identity, scene content, materials, lighting, and the main camera angle.
Change: make vertical lines vertical, stabilize the horizon, align floor/table/building vanishing lines, and correct stretched or compressed shapes.
Composition: keep the existing subject relationships. Do not redesign the scene.
Do not: add new elements, change light direction, or change the person or product identity.

Início em difusão: depth 0.7-0.9 para interiores ou arquitetura; canny/lineart 0.5-0.8 para produtos e desenhos; denoise 0.20-0.40.

3. Travar dois sujeitos e a relação esquerda-direita

Task: Fix the two-subject pose and left-right relationship.
Left subject: keep as [Character A], preserving hairstyle, face shape, skin tone, clothing, and facing direction.
Right subject: keep as [Character B], preserving hairstyle, face shape, skin tone, clothing, and facing direction.
Pose: left subject performs [Action A], right subject performs [Action B]. Do not swap positions. Do not share hands or gestures between them.
Composition: keep the camera angle and scene unchanged.
Do not: create extra arms, extra fingers, wrong left/right hands, mixed identity, or mixed skin tone.

Use pose control, segmentation ou regional prompting quando disponível.

4. Combinar a direção da luz

Task: Fix lighting consistency only.
Preserve: subject identity, background, camera position, composition, action, and materials.
Change: make the main light come from [upper left / upper right / side / back]. Align highlights, midtones, shadows, and cast shadows with that light direction.
Shadows: create natural contact shadows and ambient shadows with softness matching the scene.
Do not: change the pose, background, color temperature, or white balance.

Início em difusão: denoise 0.25-0.45. Para ajustes só de sombra, mascare apenas sombra e área de contato.

5. Remover aparência de objeto colado

Task: Make [person/object/animal] belong naturally in the scene instead of looking pasted on.
Preserve: the subject appearance and every unmasked region.
Change: add realistic contact shadow, subtle occlusion shadow, and necessary reflection or bounce light around the contact point.
Spatial relationship: match shadow direction and shadow density to the existing floor, wall, table, or ground material.
Do not: change subject shape, background layout, or subject color.

Se houver vários pontos de contato, repare em pequenas passadas separadas.

6. Unificar exposição e temperatura de cor

Task: unify exposure and color temperature so the image looks captured by one camera at one moment.
Preserve: composition, subject identity, background, material, and texture.
Change: restore natural white balance, prevent blown highlights, keep shadows readable, and make skin tones natural. Overall color temperature should be [warm sunset / neutral daylight / cool overcast].
Do not: change scene content, add a filter look, or apply heavy cinematic grading.

Faça isso como uma passada própria. Não combine com uma grande edição estrutural.

7. Reparar detalhes do rosto

Task: repair facial details only.
Preserve: exact likeness, face shape, age, expression, hairstyle, skin tone, and camera angle.
Change: fix eye symmetry, pupil direction, eyelashes, nostrils, lip edges, teeth, ears, and natural skin texture.
Quality: realistic photographic detail, no over-smoothing, no cartoon style.
Do not: change expression, change facial proportions, affect hair, or affect the background.

Mascare o rosto inteiro com um pouco de contexto. Faça upscale primeiro se o rosto for minúsculo.

8. Reparar mãos

Task: repair hand structure only.
Preserve: gesture intention, left-right hand relationship, contact position with objects, subject identity, and background.
Change: make each hand have a natural number of fingers, correct joint bends, reasonable palm direction, and natural fingertip contact.
Detail: restore knuckles, nails, palm creases, and shadows without exaggeration.
Do not: add hands, swap left and right hands, or move the held object.

Repare mão esquerda e direita separadamente se ambas estiverem quebradas.

9. Limpar textura e artefatos de borda

Task: clean edge artifacts and restore realistic texture.
Preserve: subject shape, label text, color, and overall composition.
Change: remove white edges, halos, fringing, jagged borders, and blurry edges. Restore clear [hair/fabric/leather/product surface] texture and natural micro-contrast.
Background: keep the edge transition natural with no new glow.
Do not: redesign the subject, change text, or change background color.

Use uma máscara em anel de borda. Para recortes de produto, edite primeiro em opaco e depois remova o fundo downstream.

Estratégia: inpaint, controle ou rerender?

Local inpaint é o padrão para defeitos pequenos. Tem a menor deriva e geralmente protege melhor identidade e fundo. Use para rostos, mãos, bordas, sombras de contato e pequenas falhas de textura.

Crop-first inpaint é ainda melhor para defeitos minúsculos. Recorte a área problemática, repare em resolução aparente maior e recoloque na imagem completa. Isso ajuda em olhos, dedos, bordas de produto e rótulos.

Full-image masked edit é útil para mudanças semânticas como trocar roupa, inserir objeto ou mudanças amplas de estilo. Não garante que pixels não mascarados fiquem intocados, especialmente no GPT Image 2. Use quando alguma deriva for aceitável.

Full rerender é para estrutura quebrada. Se o layout original está errado, renderizar de novo pode ser mais limpo do que brigar com muitos patches locais. Aceite que identidade, luz e detalhes podem precisar de reparos posteriores.

Imagens de controle resolvem problemas estruturais. Canny e lineart preservam bordas. Depth preserva espaço e perspectiva. Pose preserva relações de articulações humanas. Segmentation e regional prompting reduzem mistura de sujeitos. IP-Adapter e imagens de referência preservam identidade, aparência de produto ou estilo, mas não substituem controles estruturais.

A distinção direta é esta: local inpaint corrige defeitos; rerendering redesenha a imagem. Não use um quando precisa do outro.

Checklist rápida de solução de problemas

Sujeito cortado ou membros fora do quadro: mude primeiro a proporção ou expanda o canvas.
Perspectiva errada: use depth, canny ou lineart antes de aumentar steps.
Duas pessoas misturadas: separe os sujeitos por região, máscara ou estrutura do prompt.
Máscara vaza para fora da área pretendida: recorte menor e estreite o prompt; mude para diffusion inpaint se preservação rígida de pixels importar.
Imagem fica mais escura após edições repetidas: pare loopback e rode uma passada de exposição.
Objeto parece colado: repare sombra de contato e interação com a superfície.
Temperatura de cor deriva: faça uma passada de balanço de branco com alvo específico, como neutral daylight ou warm sunset.
Semelhança do rosto deriva: use reparo só de rosto com referência de identidade e instruções rígidas de preservação.
Mãos quebram: máscara pequena, referência de mão ou pose, uma mão por vez.
Textura fica borrada: upscale primeiro, depois reparo local com baixo denoise.
Halo de borda aparece: use uma máscara em anel de borda, não uma máscara só do interior do objeto.
Debug parece aleatório: trave seed, size, sampler e input; mude apenas uma variável.

Layout antes/depois recomendado para seu blog ou revisão de equipe

A apresentação mais limpa é uma comparação em três painéis:

Input | Mask or Control Map | Output

Para correções de detalhe, adicione uma segunda linha com close-ups de 200 por cento. Para revisão de equipe, adicione um pequeno rodapé de parâmetros: model, size, quality, denoise, CFG, steps, sampler, scheduler, seed, control scale e reference scale. Isso torna o diagnóstico reproduzível em vez de depender da memória.

Conclusão final

A maioria das falhas image-to-image não é misteriosa. Erros de composição precisam de canvas e controle estrutural. Erros de iluminação precisam de linguagem de composição visual: direção de luz, sombra de contato, exposição e temperatura de cor. Erros de detalhe precisam de máscaras pequenas, referências e reparo conservador.

Com GPT Image 2, o melhor caminho geralmente é um objetivo claro de edição, escopo estreito, boas referências e regras explícitas de preservação. Com workflows de difusão, adicione testes de parâmetros reproduzíveis e controles estruturais. Em ambos os casos, corrija a base antes de polir a superfície.

Try GPT Image 2 for Free Now →

Solução de problemas image-to-image no GPT Image 2: corrija composição, luz e detalhes