Um guia prático de troubleshooting image-to-image para GPT Image 2 e fluxos de difusão: diagnostique deriva de composição, iluminação inconsistente, erros de rosto e mãos, vazamento de máscara, textura borrada e artefatos nas bordas.

A edição image-to-image costuma falhar de formas previsíveis. O sujeito fica cortado. Uma mão ganha dedos extras. O objeto novo parece colado. Uma edição com máscara muda o rosto inteiro. A saída fica mais escura a cada passada. A reação tentadora é rodar o mesmo prompt de novo, adicionar palavras como "realista" ou "alta qualidade", ou aumentar os steps. Isso não é solução de problemas. É apostar mais computação.
A regra prática é simples: corrija primeiro a estrutura, depois a luz e por último os detalhes. Erros de composição são problemas de geometria. Erros de iluminação são problemas de composição visual. Erros de detalhe geralmente são problemas de reparo local. Tratar os três como problemas de texto do prompt leva a resultados instáveis.
Este guia foi escrito para usuários do GPT Image 2, mas o método também vale para Stable Diffusion, Diffusers, ComfyUI, WebUI e outros pipelines image-to-image baseados em difusão. A diferença principal é a superfície de controle. O GPT Image 2 expõe controles de alto nível como prompt, imagem de entrada, mask, size, quality, formato de saída, compressão e background. Workflows tradicionais de difusão costumam expor strength ou denoise, CFG ou guidance scale, steps, sampler, scheduler, seed, ControlNet, IP-Adapter e comportamento mais rígido de inpaint mask.
Essa diferença importa. O GPT Image 2 costuma ser forte quando você descreve uma edição com clareza e fornece as imagens de entrada certas. Ele não é a melhor ferramenta quando você precisa de uma máscara dura, no estilo Photoshop, que preserve cada pixel não mascarado. Diffusion inpaint costuma ser melhor para reparos locais estritos. Use a menor ferramenta que resolve o defeito real.
A ordem de diagnóstico: estrutura, luz, detalhe

Antes de mudar qualquer parâmetro, classifique a falha.
Se o sujeito está cortado, o horizonte está errado, a pose mudou, as pessoas da esquerda e da direita trocaram identidade, ou uma mesa tem perspectiva impossível, você tem um problema de composição. Não comece aumentando steps ou aplicando nitidez. Verifique primeiro a proporção, o canvas, o escopo da máscara e as referências estruturais.
Se o objeto está no lugar certo mas parece colado, se o sujeito está azul demais em uma sala quente, se a sombra vai na direção errada, ou se a roupa editada briga com a luz original, você tem um problema de iluminação. Trave a geometria e então corrija direção da luz principal, sombras de contato, exposição e temperatura de cor.
Se a imagem está estruturalmente correta e a iluminação funciona em geral, repare os detalhes: semelhança do rosto, mãos, cabelo, tecido, bordas de produto, logos, halos e textura. Trabalho de detalhe deve ser local na maioria das vezes. Renderizar a imagem inteira para corrigir três dedos é uma troca ruim.
Essa ordem evita a espiral de falhas mais comum: retocar pele em um rosto que já é a pessoa errada, dar nitidez a um objeto com perspectiva errada, ou refazer a luz de um sujeito que deveria ter sido recomposto primeiro.
GPT Image 2 vs difusão I2I: o que você realmente controla
No GPT Image 2, suas principais alavancas são:
| Controle | Uso prático | Erro comum |
|---|---|---|
| Prompt | Define o objetivo da edição e as regras de preservação | Pedir um redesign amplo quando só precisa de um ajuste local |
| Imagem de entrada | Fornece identidade, layout, estilo e contexto | Dar uma referência fraca e esperar geometria exata |
| Mask | Guia onde o modelo deve editar | Tratar como limite rígido de pixels |
| Size / aspect ratio | Define o contêiner da composição | Usar canvas quadrado para um sujeito vertical de corpo inteiro |
| Quality | Equilibra detalhe, custo e latência | Usar qualidade final em toda tentativa de debug |
| Múltiplas referências | Ajudam com identidade, substituição de objeto e estilo | Esperar que uma referência de estilo também imponha pose ou perspectiva |
Em image-to-image por difusão, as alavancas úteis são mais granulares:
| Parâmetro | O que muda | Ponto de partida útil |
|---|---|---|
strength / denoise | Quanto a imagem de entrada é reescrita | Reparo local: 0.15-0.35; luz: 0.30-0.50; mudança estrutural: 0.50-0.75 |
CFG / guidance_scale | O quanto o modelo segue o prompt | Edições realistas: 4-6; padrão geral: 6-8 |
steps | Qualidade do denoising e tempo de execução | Testes rápidos: 20-30; equilibrado: 30-50; detalhe difícil: 50-80 |
seed | Reprodutibilidade para testes A/B | Fixe durante o diagnóstico |
sampler / scheduler | Trajetória de denoising e modo de falha | Escolha um e mantenha estável antes de comparar parâmetros |
| ControlNet scale | Força da orientação estrutural | Suave: 0.4-0.6; forte: 0.6-0.8 |
| IP-Adapter scale | Força da influência da imagem de referência | Estilo: 0.4-0.6; identidade ou aparência: 0.6-0.8 |
Três regras mantêm o ajuste de parâmetros sensato.
Primeiro, steps não corrige estrutura de forma confiável. Pode melhorar textura e bordas, mas não vai reparar consistentemente uma pose errada, horizonte ruim ou relação trocada entre sujeitos.
Segundo, CFG não é "qualidade". Pouca guidance ignora o prompt. Guidance demais pode deixar imagens saturadas, rígidas ou menos naturais. Aumente apenas quando o modelo claramente ignora uma instrução específica.
Terceiro, não teste dez variáveis ao mesmo tempo. Durante o diagnóstico, trave seed, size, sampler e input. Mude uma variável importante: escopo da máscara, denoise, control map, imagem de referência ou restrição do prompt.
Biblioteca de falhas comuns e primeiros ajustes
Use esta tabela como triagem rápida.
| Sintoma | Causa provável | Prioridade | Primeiro ajuste |
|---|---|---|---|
| Edição mascarada muda rosto, fundo ou imagem inteira | A máscara está sendo tratada como sugestão, não como limite rígido; o prompt pede demais | P0 | Recorte uma região menor, reduza o objetivo da edição e escreva uma lista estrita de preservação. Se pixels precisam ficar intactos, use diffusion inpaint. |
| Sujeito cortado, cabeça faltando, membros fora do quadro | Proporção errada, canvas apertado, falta instrução "complete subject" | P0 | Mude primeiro size ou faça outpaint. Peça full body, complete subject, natural margins. |
| Sketch-to-real perde perspectiva | Prompt semântico sem controle estrutural; denoise alto demais | P0 | Use depth, canny ou lineart. Reduza denoise. Separe reparo de estrutura e render de materiais. |
| Duas pessoas trocam papéis ou compartilham partes do corpo | Vazamento de prompt entre sujeitos; sem separação regional | P0 | Use descrições separadas, máscaras, regional prompting ou pose control. |
| Objeto inserido parece adesivo | Sem sombra de contato, escala errada, máscara exclui zona de contato | P0 | Repare a base do objeto e a área de sombra, não só o objeto. Especifique direção e suavidade da sombra de contato. |
| Saída fica mais escura após passadas repetidas | Loopback ou edições repetidas com baixo denoise acumulam deriva de exposição | P1 | Pare o loop. Faça uma passada separada de exposição e balanço de branco. |
| Troca de roupa com direção de luz errada | A referência da peça tem luz diferente; prompt não trava a luz da cena | P1 | Preserve câmera e fundo. Faça a roupa combinar com direção de luz, sombras e temperatura de cor originais. |
| Rosto não parece mais a pessoa | O rosto foi incluído em um render amplo de imagem inteira | P0 | Use reparo só de rosto com referência de identidade e preserve expressão, formato do rosto, idade, cabelo e proporções. |
| Mãos com número errado de dedos ou juntas quebradas | Contato complexo, restrição de pose fraca ou prompt conflitante | P0 | Mascare só a mão e o ponto de contato. Use referência de pose da mão ou openpose. Repare mão esquerda e direita separadamente. |
| Textura fica borrada depois de upscale | Upscaling e repainting misturados em uma passada de alto denoise | P1 | Faça upscale primeiro, depois reparo local com baixo denoise. |
| Borda branca, halo ou fringing | Máscara apertada demais; expectativa de fundo transparente não combina | P1 | Use uma máscara em anel de borda que cubra os dois lados do limite. No GPT Image 2, gere primeiro opaco e recorte depois. |
P0 significa que a imagem não pode ser entregue antes da correção. P1 significa que o defeito é visível e prejudica a qualidade. Defeitos P2 são pequenos o suficiente para o polimento final.
Solução de problemas de composição
Problemas de composição são os mais caros de ignorar. Se a geometria está errada, os ajustes seguintes se apoiam em uma base ruim.
Para sujeitos cortados, comece pelo canvas. Uma imagem vertical de corpo inteiro precisa de moldura vertical. Um hero de produto com espaço para rótulos pode precisar de espaço horizontal. Se o sujeito original já está cortado, faça outpaint ou expanda o canvas antes de pedir um render mais bonito. No GPT Image 2, mantenha o prompt direto: "move the camera back 10 to 20 percent, complete the missing head and arms, preserve the same face, outfit, background, camera height, and light direction."
Para problemas de perspectiva, adicione estrutura. Em workflows de difusão, use depth para interiores, arquitetura, móveis e relações espaciais. Use canny ou lineart para produtos, logos, bordas rígidas, diagramas e sketch-to-render. Use pose ou keypoints para humanos. Não use openpose para preservar a silhueta de um produto. Não use canny esperando que ele entenda a direção do cotovelo.
Para cenas com duas pessoas, separe os sujeitos no prompt. "The person on the left" e "the person on the right" devem ter descrições separadas de identidade, roupa, pose e ação. Se sua ferramenta suporta máscaras, regional prompting ou segmentation, use. Muitas falhas multi-sujeito não são "mãos ruins"; são má propriedade de regiões.
Solução de problemas de iluminação
Falhas de iluminação geralmente são falhas de composição visual. O objeto editado pode estar semanticamente correto, mas não pertence à cena.
As quatro coisas a especificar são direção da luz principal, comportamento das sombras, temperatura de cor e exposição. "Make it realistic" é fraco. "Match the existing warm left-side window light, add a soft contact shadow under the shoes, keep the background exposure unchanged, and preserve neutral skin tones" é útil.
Quando um objeto parece colado, não repinte o objeto inteiro primeiro. Repare a zona de contato: pés no piso, base do produto na mesa, patas do cachorro na grama, borda da xícara no balcão, borda do pôster na parede. A máscara deve incluir o limite do objeto e a superfície que recebe a sombra. O prompt deve mencionar contact shadow, occlusion shadow, reflection se relevante, e suavidade de sombra coerente.
Se edições repetidas deixam a imagem amarela demais, escura demais ou contrastada demais, pare de editar conteúdo. Rode uma passada de cor separada. Peça balanço de branco e exposição unificados preservando composição, identidade, material e textura. Evite combinar "replace the jacket" e "fix the entire color grade" na mesma passada, a menos que você aceite deriva.
Solução de problemas de detalhe
Detalhes devem ser reparados depois que estrutura e luz estiverem estáveis.
Rostos precisam de máscaras pequenas e restrições de identidade. Mascare o rosto inteiro com um pouco de contexto: linha do cabelo, queixo, orelhas e pele ao redor. Não mascare só um olho, a menos que queira assimetria. Diga ao modelo para preservar semelhança exata, formato do rosto, idade, expressão, penteado, tom de pele e ângulo de câmera. Peça textura natural de pele, não suavização plástica.
Mãos também precisam de contexto. Mascare palma, dedos, pulso, área de contato com o objeto e um pouco de fundo. Preserve a intenção do gesto e a posição do objeto. Se as duas mãos estão erradas, repare separadamente. Para interações complexas mão-objeto, uma referência de pose ou mão vale mais do que um negative prompt mais longo.
Bordas precisam de uma máscara em anel de borda. Se um produto tem halo, a máscara deve cobrir o limite por dentro e por fora da borda do produto. Uma máscara que cobre só o interior do objeto não corrige a transição. Em workflows GPT Image 2, muitas vezes é mais limpo gerar ou editar primeiro em fundo opaco e depois remover o fundo.
Textura pede um fluxo em duas etapas. Primeiro upscale ou super-resolution. Depois repinte só a área de textura fraca com baixo denoise ou prompt estreito. Se você combina repainting de alto denoise com upscaling, muitas vezes obtém mais borrão, não mais detalhe.
Modelos de prompt para copiar e colar
Use como prompts estruturados. Para GPT Image 2, cole o modelo inteiro e preencha os colchetes. Para difusão, mova cláusulas "do not" para o negative prompt quando útil.
1. Corrigir corte e partes do corpo faltando
Task: Recompose the input image so the subject is fully visible while preserving the original identity, clothing, material, background style, camera height, and time of day.
Preserve: face, hairstyle, body proportions, clothing colors, background layout, light direction.
Change: move the camera back by about 10 to 20 percent, complete the missing head, arms, hands, legs, and feet, and leave natural margins around the subject.
Composition: keep the original perspective and subject direction. Do not mirror the image or change left-right relationships.
Do not: add people, change the background, change the expression, change color temperature, or change exposure.
Início em difusão: denoise 0.30-0.50. Adicione guia depth se a sala ou arquitetura estiver instável.
2. Corrigir perspectiva e proporções
Task: Correct perspective and proportion errors in the input image.
Preserve: subject identity, scene content, materials, lighting, and the main camera angle.
Change: make vertical lines vertical, stabilize the horizon, align floor/table/building vanishing lines, and correct stretched or compressed shapes.
Composition: keep the existing subject relationships. Do not redesign the scene.
Do not: add new elements, change light direction, or change the person or product identity.
Início em difusão: depth 0.7-0.9 para interiores ou arquitetura; canny/lineart 0.5-0.8 para produtos e desenhos; denoise 0.20-0.40.
3. Travar dois sujeitos e a relação esquerda-direita
Task: Fix the two-subject pose and left-right relationship.
Left subject: keep as [Character A], preserving hairstyle, face shape, skin tone, clothing, and facing direction.
Right subject: keep as [Character B], preserving hairstyle, face shape, skin tone, clothing, and facing direction.
Pose: left subject performs [Action A], right subject performs [Action B]. Do not swap positions. Do not share hands or gestures between them.
Composition: keep the camera angle and scene unchanged.
Do not: create extra arms, extra fingers, wrong left/right hands, mixed identity, or mixed skin tone.
Use pose control, segmentation ou regional prompting quando disponível.
4. Combinar a direção da luz
Task: Fix lighting consistency only.
Preserve: subject identity, background, camera position, composition, action, and materials.
Change: make the main light come from [upper left / upper right / side / back]. Align highlights, midtones, shadows, and cast shadows with that light direction.
Shadows: create natural contact shadows and ambient shadows with softness matching the scene.
Do not: change the pose, background, color temperature, or white balance.
Início em difusão: denoise 0.25-0.45. Para ajustes só de sombra, mascare apenas sombra e área de contato.
5. Remover aparência de objeto colado
Task: Make [person/object/animal] belong naturally in the scene instead of looking pasted on.
Preserve: the subject appearance and every unmasked region.
Change: add realistic contact shadow, subtle occlusion shadow, and necessary reflection or bounce light around the contact point.
Spatial relationship: match shadow direction and shadow density to the existing floor, wall, table, or ground material.
Do not: change subject shape, background layout, or subject color.
Se houver vários pontos de contato, repare em pequenas passadas separadas.
6. Unificar exposição e temperatura de cor
Task: unify exposure and color temperature so the image looks captured by one camera at one moment.
Preserve: composition, subject identity, background, material, and texture.
Change: restore natural white balance, prevent blown highlights, keep shadows readable, and make skin tones natural. Overall color temperature should be [warm sunset / neutral daylight / cool overcast].
Do not: change scene content, add a filter look, or apply heavy cinematic grading.
Faça isso como uma passada própria. Não combine com uma grande edição estrutural.
7. Reparar detalhes do rosto
Task: repair facial details only.
Preserve: exact likeness, face shape, age, expression, hairstyle, skin tone, and camera angle.
Change: fix eye symmetry, pupil direction, eyelashes, nostrils, lip edges, teeth, ears, and natural skin texture.
Quality: realistic photographic detail, no over-smoothing, no cartoon style.
Do not: change expression, change facial proportions, affect hair, or affect the background.
Mascare o rosto inteiro com um pouco de contexto. Faça upscale primeiro se o rosto for minúsculo.
8. Reparar mãos
Task: repair hand structure only.
Preserve: gesture intention, left-right hand relationship, contact position with objects, subject identity, and background.
Change: make each hand have a natural number of fingers, correct joint bends, reasonable palm direction, and natural fingertip contact.
Detail: restore knuckles, nails, palm creases, and shadows without exaggeration.
Do not: add hands, swap left and right hands, or move the held object.
Repare mão esquerda e direita separadamente se ambas estiverem quebradas.
9. Limpar textura e artefatos de borda
Task: clean edge artifacts and restore realistic texture.
Preserve: subject shape, label text, color, and overall composition.
Change: remove white edges, halos, fringing, jagged borders, and blurry edges. Restore clear [hair/fabric/leather/product surface] texture and natural micro-contrast.
Background: keep the edge transition natural with no new glow.
Do not: redesign the subject, change text, or change background color.
Use uma máscara em anel de borda. Para recortes de produto, edite primeiro em opaco e depois remova o fundo downstream.
Estratégia: inpaint, controle ou rerender?
Local inpaint é o padrão para defeitos pequenos. Tem a menor deriva e geralmente protege melhor identidade e fundo. Use para rostos, mãos, bordas, sombras de contato e pequenas falhas de textura.
Crop-first inpaint é ainda melhor para defeitos minúsculos. Recorte a área problemática, repare em resolução aparente maior e recoloque na imagem completa. Isso ajuda em olhos, dedos, bordas de produto e rótulos.
Full-image masked edit é útil para mudanças semânticas como trocar roupa, inserir objeto ou mudanças amplas de estilo. Não garante que pixels não mascarados fiquem intocados, especialmente no GPT Image 2. Use quando alguma deriva for aceitável.
Full rerender é para estrutura quebrada. Se o layout original está errado, renderizar de novo pode ser mais limpo do que brigar com muitos patches locais. Aceite que identidade, luz e detalhes podem precisar de reparos posteriores.
Imagens de controle resolvem problemas estruturais. Canny e lineart preservam bordas. Depth preserva espaço e perspectiva. Pose preserva relações de articulações humanas. Segmentation e regional prompting reduzem mistura de sujeitos. IP-Adapter e imagens de referência preservam identidade, aparência de produto ou estilo, mas não substituem controles estruturais.
A distinção direta é esta: local inpaint corrige defeitos; rerendering redesenha a imagem. Não use um quando precisa do outro.
Checklist rápida de solução de problemas
- Sujeito cortado ou membros fora do quadro: mude primeiro a proporção ou expanda o canvas.
- Perspectiva errada: use depth, canny ou lineart antes de aumentar steps.
- Duas pessoas misturadas: separe os sujeitos por região, máscara ou estrutura do prompt.
- Máscara vaza para fora da área pretendida: recorte menor e estreite o prompt; mude para diffusion inpaint se preservação rígida de pixels importar.
- Imagem fica mais escura após edições repetidas: pare loopback e rode uma passada de exposição.
- Objeto parece colado: repare sombra de contato e interação com a superfície.
- Temperatura de cor deriva: faça uma passada de balanço de branco com alvo específico, como neutral daylight ou warm sunset.
- Semelhança do rosto deriva: use reparo só de rosto com referência de identidade e instruções rígidas de preservação.
- Mãos quebram: máscara pequena, referência de mão ou pose, uma mão por vez.
- Textura fica borrada: upscale primeiro, depois reparo local com baixo denoise.
- Halo de borda aparece: use uma máscara em anel de borda, não uma máscara só do interior do objeto.
- Debug parece aleatório: trave seed, size, sampler e input; mude apenas uma variável.
Layout antes/depois recomendado para seu blog ou revisão de equipe
A apresentação mais limpa é uma comparação em três painéis:
Input | Mask or Control Map | Output
Para correções de detalhe, adicione uma segunda linha com close-ups de 200 por cento. Para revisão de equipe, adicione um pequeno rodapé de parâmetros: model, size, quality, denoise, CFG, steps, sampler, scheduler, seed, control scale e reference scale. Isso torna o diagnóstico reproduzível em vez de depender da memória.
Conclusão final
A maioria das falhas image-to-image não é misteriosa. Erros de composição precisam de canvas e controle estrutural. Erros de iluminação precisam de linguagem de composição visual: direção de luz, sombra de contato, exposição e temperatura de cor. Erros de detalhe precisam de máscaras pequenas, referências e reparo conservador.
Com GPT Image 2, o melhor caminho geralmente é um objetivo claro de edição, escopo estreito, boas referências e regras explícitas de preservação. Com workflows de difusão, adicione testes de parâmetros reproduzíveis e controles estruturais. Em ambos os casos, corrija a base antes de polir a superfície.




