Guía práctica de solución de problemas image-to-image para GPT Image 2 y flujos de difusión: diagnostica deriva de composición, iluminación incoherente, errores de rostro y manos, desbordes de máscara, texturas borrosas y artefactos de borde.

La edición image-to-image suele fallar de formas previsibles. El sujeto queda recortado. Una mano gana dedos extra. El objeto nuevo parece pegado encima. Una edición con máscara cambia toda la cara. La salida se oscurece después de cada pasada. La reacción tentadora es ejecutar otra vez el mismo prompt, añadir palabras como "realista" o "alta calidad", o subir los steps. Eso no es depurar. Es apostar más cómputo.
La regla práctica es simple: arregla primero la estructura, luego la luz y al final los detalles. Los errores de composición son problemas de geometría. Los errores de iluminación son problemas de composición visual. Los errores de detalle suelen ser problemas de reparación local. Tratar los tres como problemas de redacción del prompt produce resultados inestables.
Esta guía está escrita para usuarios de GPT Image 2, pero el marco también sirve para Stable Diffusion, Diffusers, ComfyUI, WebUI y otros pipelines image-to-image basados en difusión. La diferencia principal está en la superficie de control. GPT Image 2 expone controles de alto nivel como prompt, imagen de entrada, mask, size, quality, formato de salida, compresión y background. Los flujos de difusión tradicionales suelen exponer strength o denoise, CFG o guidance scale, steps, sampler, scheduler, seed, ControlNet, IP-Adapter y un comportamiento más estricto de inpaint mask.
Esa diferencia importa. GPT Image 2 suele funcionar bien cuando describes claramente la edición y das las imágenes de entrada correctas. No es la mejor herramienta cuando necesitas una máscara dura tipo Photoshop que preserve cada píxel no enmascarado. Diffusion inpaint suele ser mejor para reparaciones locales estrictas. Usa la herramienta más pequeña que resuelva el defecto real.
El orden de diagnóstico: estructura, luz, detalle

Antes de cambiar cualquier parámetro, clasifica el fallo.
Si el sujeto está recortado, el horizonte está mal, la pose cambió, las personas izquierda y derecha intercambiaron identidad, o una mesa tiene perspectiva imposible, tienes un problema de composición. No empieces subiendo steps ni enfocando la imagen. Revisa primero la relación de aspecto, el lienzo, el alcance de la máscara y las referencias estructurales.
Si el objeto está en el lugar correcto pero parece pegado, si el sujeto está demasiado azul en una habitación cálida, si la sombra va en la dirección equivocada, o si la ropa editada pelea con la iluminación original, tienes un problema de iluminación. Bloquea la geometría y luego repara dirección de luz principal, sombras de contacto, exposición y temperatura de color.
Si la imagen está estructuralmente correcta y la iluminación funciona en general, entonces repara detalles: parecido facial, manos, pelo, tela, bordes de producto, logos, halos y textura. El trabajo de detalle casi siempre debe ser local. Rehacer toda la imagen para corregir tres dedos es un mal intercambio.
Este orden evita la espiral de fallos más común: retocar piel en una cara que ya no es la persona correcta, enfocar un objeto con perspectiva incorrecta, o reiluminar un sujeto que primero debía recomponerse.
GPT Image 2 vs difusión I2I: qué puedes controlar realmente
En GPT Image 2, tus palancas principales son:
| Control | Uso práctico | Error común |
|---|---|---|
| Prompt | Define el objetivo de edición y las reglas de preservación | Pedir un rediseño amplio cuando solo necesitas una corrección local |
| Imagen de entrada | Aporta identidad, layout, estilo y contexto | Dar una referencia débil y esperar geometría exacta |
| Mask | Guía dónde debe editar el modelo | Tratarla como un límite duro de píxeles |
| Size / aspect ratio | Define el contenedor de composición | Usar un lienzo cuadrado para un sujeto vertical de cuerpo completo |
| Quality | Equilibra detalle, costo y latencia | Usar calidad final en cada intento de depuración |
| Referencias múltiples | Ayudan con identidad, reemplazo de objetos y estilo | Esperar que una referencia de estilo también imponga pose o perspectiva |
En image-to-image por difusión, las palancas útiles son más granulares:
| Parámetro | Qué cambia | Punto de partida útil |
|---|---|---|
strength / denoise | Cuánto se reescribe la imagen de entrada | Reparación local: 0.15-0.35; iluminación: 0.30-0.50; cambio estructural: 0.50-0.75 |
CFG / guidance_scale | Qué tanto el modelo sigue el prompt | Ediciones realistas: 4-6; valor general: 6-8 |
steps | Calidad de denoising y tiempo de ejecución | Pruebas rápidas: 20-30; equilibrado: 30-50; detalle difícil: 50-80 |
seed | Reproducibilidad para pruebas A/B | Fíjalo durante el diagnóstico |
sampler / scheduler | Trayectoria de denoising y modo de fallo | Elige uno y mantenlo estable antes de comparar parámetros |
| ControlNet scale | Fuerza de la guía estructural | Suave: 0.4-0.6; fuerte: 0.6-0.8 |
| IP-Adapter scale | Fuerza de influencia de la imagen de referencia | Estilo: 0.4-0.6; identidad o apariencia: 0.6-0.8 |
Tres reglas mantienen sano el ajuste de parámetros.
Primero, los steps no arreglan la estructura de forma fiable. Pueden mejorar texturas y bordes, pero no corrigen de manera consistente una pose equivocada, un horizonte malo o una relación intercambiada entre sujetos.
Segundo, CFG no es "calidad". Muy poca guía ignora el prompt. Demasiada guía puede producir imágenes sobresaturadas, rígidas o menos naturales. Súbelo solo cuando el modelo ignore claramente una instrucción específica.
Tercero, no pruebes diez variables a la vez. Durante el diagnóstico, bloquea seed, size, sampler e imagen de entrada. Cambia una sola variable importante: alcance de máscara, denoise, mapa de control, imagen de referencia o restricción del prompt.
Biblioteca de fallos comunes y primeras correcciones
Usa esta tabla como triage rápido.
| Síntoma | Causa probable | Prioridad | Primera corrección |
|---|---|---|---|
| Una edición con máscara cambia la cara, el fondo o toda la imagen | La máscara se trata como sugerencia, no como límite duro; el prompt pide demasiado | P0 | Recorta una región más pequeña, reduce el objetivo de edición y escribe una lista estricta de preservación. Si los píxeles deben quedar intactos, usa diffusion inpaint. |
| Sujeto recortado, falta cabeza, extremidades fuera de cuadro | Relación de aspecto incorrecta, lienzo estrecho, falta instrucción de "complete subject" | P0 | Cambia primero size o usa outpaint. Pide full body, complete subject, natural margins. |
| Sketch-to-real pierde perspectiva | Prompt semántico sin control estructural; denoise demasiado alto | P0 | Usa depth, canny o lineart. Baja denoise. Separa reparación de estructura y render de materiales. |
| Dos personas intercambian roles o comparten partes del cuerpo | Fuga de prompt entre sujetos; sin separación regional | P0 | Usa descripciones separadas, máscaras, regional prompting o pose control. |
| Objeto insertado parece una calcomanía | Sin sombra de contacto, escala incorrecta, la máscara excluye la zona de contacto | P0 | Repara la base del objeto y la zona de sombra, no solo el objeto. Especifica dirección y suavidad de la sombra de contacto. |
| La salida se oscurece tras pasadas repetidas | Loopback o ediciones repetidas con bajo denoise acumulan deriva de exposición | P1 | Detén el bucle. Haz una pasada separada de exposición y balance de blancos. |
| Reemplazo de ropa con dirección de luz incorrecta | La referencia de la prenda tiene otra luz; el prompt no bloquea la luz de la escena | P1 | Preserva cámara y fondo. Ajusta la ropa a la dirección de luz, sombras y temperatura de color originales. |
| La cara ya no se parece a la persona | La cara quedó dentro de un render amplio de imagen completa | P0 | Haz reparación solo de rostro con referencia de identidad y preserva expresión, forma facial, edad, pelo y proporciones. |
| Manos con número incorrecto de dedos o articulaciones rotas | Contacto complejo, restricción de pose débil o prompt conflictivo | P0 | Enmascara solo la mano y el punto de contacto. Usa referencia de pose de mano u openpose. Repara mano izquierda y derecha por separado. |
| La textura queda borrosa tras upscale | Upscaling y repainting se mezclaron en una pasada de alto denoise | P1 | Haz upscale primero y luego reparación local con bajo denoise. |
| Borde blanco, halo o fringing | Máscara demasiado ajustada; expectativa incompatible de fondo transparente | P1 | Usa una máscara de anillo de borde que cubra ambos lados del límite. En GPT Image 2, genera primero una salida opaca y recorta después. |
P0 significa que la imagen no se puede entregar hasta corregirlo. P1 significa que el defecto es visible y daña la calidad. Los defectos P2 son suficientemente pequeños para el pulido final.
Solución de problemas de composición
Los problemas de composición son los más caros de ignorar. Si la geometría está mal, las correcciones posteriores se construyen sobre una mala base.
Para sujetos recortados, empieza por el lienzo. Una imagen vertical de cuerpo completo necesita un marco vertical. Un hero de producto con espacio para etiquetas puede necesitar espacio horizontal. Si el sujeto original ya está cortado, usa outpaint o expande el lienzo antes de pedir un render más bonito. En GPT Image 2, mantén el prompt directo: "move the camera back 10 to 20 percent, complete the missing head and arms, preserve the same face, outfit, background, camera height, and light direction."
Para problemas de perspectiva, añade estructura. En flujos de difusión, usa depth para interiores, arquitectura, muebles y relaciones espaciales. Usa canny o lineart para productos, logos, bordes duros, diagramas y trabajos sketch-to-render. Usa pose o keypoints para humanos. No uses openpose para preservar la silueta de un producto. No uses canny esperando que entienda la dirección del codo.
Para escenas de dos personas, separa los sujetos en el prompt. "The person on the left" y "the person on the right" deben tener descripciones separadas de identidad, ropa, pose y acción. Si tu herramienta soporta máscaras, regional prompting o segmentation, úsalo. Muchos fallos con múltiples sujetos no son "manos malas"; son mala propiedad de regiones.
Solución de problemas de iluminación
Los fallos de iluminación suelen ser fallos de composición visual. El objeto editado puede ser semánticamente correcto, pero no pertenece a la escena.
Hay cuatro cosas que especificar: dirección de la luz principal, comportamiento de sombras, temperatura de color y exposición. "Make it realistic" es débil. "Match the existing warm left-side window light, add a soft contact shadow under the shoes, keep the background exposure unchanged, and preserve neutral skin tones" sí es útil.
Cuando un objeto parece pegado, no repintes todo el objeto primero. Repara la zona de contacto: pies sobre piso, base de producto sobre mesa, patas de perro sobre pasto, borde de taza sobre encimera, borde de póster sobre pared. La máscara debe incluir el límite del objeto y la superficie que recibe la sombra. El prompt debe mencionar contact shadow, occlusion shadow, reflection si aplica, y suavidad de sombra coherente.
Si las ediciones repetidas vuelven la imagen demasiado amarilla, oscura o contrastada, deja de editar contenido. Ejecuta una pasada de color separada. Pide balance de blancos y exposición unificados preservando composición, identidad, material y textura. Evita combinar "replace the jacket" y "fix the entire color grade" en la misma pasada salvo que aceptes deriva.
Solución de problemas de detalle
Los detalles deben repararse después de estabilizar estructura e iluminación.
Los rostros necesitan máscaras pequeñas y restricciones de identidad. Enmascara todo el rostro con algo de contexto: línea del pelo, barbilla, orejas y piel cercana. No enmascares solo un ojo salvo que quieras asimetría. Indica al modelo que preserve parecido exacto, forma facial, edad, expresión, peinado, tono de piel y ángulo de cámara. Pide textura de piel natural, no suavizado plástico.
Las manos también necesitan contexto. Enmascara palma, dedos, muñeca, zona de contacto con el objeto y algo de fondo. Preserva la intención del gesto y la posición del objeto. Si ambas manos están mal, repáralas por separado. En interacciones complejas mano-objeto, una referencia de pose o mano vale más que un negative prompt más largo.
Los bordes necesitan una máscara de anillo de borde. Si un producto tiene halo, la máscara debe cubrir el límite por dentro y por fuera del borde del producto. Una máscara que solo cubre el interior del objeto no arreglará la transición. En workflows de GPT Image 2 suele ser más limpio generar o editar primero sobre fondo opaco y luego quitar el fondo en un paso posterior.
La textura necesita un flujo de dos pasos. Primero upscale o super-resolution. Luego repinta solo la zona de textura débil con bajo denoise o un prompt de edición estrecho. Si combinas repainting de alto denoise con upscale, a menudo obtienes más desenfoque, no más detalle.
Plantillas de prompt para copiar y pegar
Úsalas como prompts estructurados. Para GPT Image 2, pega toda la plantilla y rellena los corchetes. Para difusión, mueve las cláusulas "do not" al negative prompt cuando sea útil.
1. Arreglar recorte y partes del cuerpo faltantes
Task: Recompose the input image so the subject is fully visible while preserving the original identity, clothing, material, background style, camera height, and time of day.
Preserve: face, hairstyle, body proportions, clothing colors, background layout, light direction.
Change: move the camera back by about 10 to 20 percent, complete the missing head, arms, hands, legs, and feet, and leave natural margins around the subject.
Composition: keep the original perspective and subject direction. Do not mirror the image or change left-right relationships.
Do not: add people, change the background, change the expression, change color temperature, or change exposure.
Inicio en difusión: denoise 0.30-0.50. Añade guía depth si la habitación o arquitectura es inestable.
2. Corregir perspectiva y proporciones
Task: Correct perspective and proportion errors in the input image.
Preserve: subject identity, scene content, materials, lighting, and the main camera angle.
Change: make vertical lines vertical, stabilize the horizon, align floor/table/building vanishing lines, and correct stretched or compressed shapes.
Composition: keep the existing subject relationships. Do not redesign the scene.
Do not: add new elements, change light direction, or change the person or product identity.
Inicio en difusión: depth 0.7-0.9 para interiores o arquitectura; canny/lineart 0.5-0.8 para productos y dibujos; denoise 0.20-0.40.
3. Bloquear dos sujetos y su relación izquierda-derecha
Task: Fix the two-subject pose and left-right relationship.
Left subject: keep as [Character A], preserving hairstyle, face shape, skin tone, clothing, and facing direction.
Right subject: keep as [Character B], preserving hairstyle, face shape, skin tone, clothing, and facing direction.
Pose: left subject performs [Action A], right subject performs [Action B]. Do not swap positions. Do not share hands or gestures between them.
Composition: keep the camera angle and scene unchanged.
Do not: create extra arms, extra fingers, wrong left/right hands, mixed identity, or mixed skin tone.
Usa pose control, segmentation o regional prompting cuando esté disponible.
4. Igualar la dirección de la luz
Task: Fix lighting consistency only.
Preserve: subject identity, background, camera position, composition, action, and materials.
Change: make the main light come from [upper left / upper right / side / back]. Align highlights, midtones, shadows, and cast shadows with that light direction.
Shadows: create natural contact shadows and ambient shadows with softness matching the scene.
Do not: change the pose, background, color temperature, or white balance.
Inicio en difusión: denoise 0.25-0.45. Para correcciones solo de sombra, enmascara solo la sombra y la zona de contacto.
5. Quitar el aspecto de objeto pegado
Task: Make [person/object/animal] belong naturally in the scene instead of looking pasted on.
Preserve: the subject appearance and every unmasked region.
Change: add realistic contact shadow, subtle occlusion shadow, and necessary reflection or bounce light around the contact point.
Spatial relationship: match shadow direction and shadow density to the existing floor, wall, table, or ground material.
Do not: change subject shape, background layout, or subject color.
Si hay varios puntos de contacto, repáralos en pequeñas pasadas separadas.
6. Unificar exposición y temperatura de color
Task: unify exposure and color temperature so the image looks captured by one camera at one moment.
Preserve: composition, subject identity, background, material, and texture.
Change: restore natural white balance, prevent blown highlights, keep shadows readable, and make skin tones natural. Overall color temperature should be [warm sunset / neutral daylight / cool overcast].
Do not: change scene content, add a filter look, or apply heavy cinematic grading.
Hazlo como una pasada propia. No lo combines con una gran edición estructural.
7. Reparar detalles faciales
Task: repair facial details only.
Preserve: exact likeness, face shape, age, expression, hairstyle, skin tone, and camera angle.
Change: fix eye symmetry, pupil direction, eyelashes, nostrils, lip edges, teeth, ears, and natural skin texture.
Quality: realistic photographic detail, no over-smoothing, no cartoon style.
Do not: change expression, change facial proportions, affect hair, or affect the background.
Enmascara todo el rostro con un poco de contexto alrededor. Haz upscale primero si la cara es diminuta.
8. Reparar manos
Task: repair hand structure only.
Preserve: gesture intention, left-right hand relationship, contact position with objects, subject identity, and background.
Change: make each hand have a natural number of fingers, correct joint bends, reasonable palm direction, and natural fingertip contact.
Detail: restore knuckles, nails, palm creases, and shadows without exaggeration.
Do not: add hands, swap left and right hands, or move the held object.
Repara mano izquierda y derecha por separado si ambas están rotas.
9. Limpiar textura y artefactos de borde
Task: clean edge artifacts and restore realistic texture.
Preserve: subject shape, label text, color, and overall composition.
Change: remove white edges, halos, fringing, jagged borders, and blurry edges. Restore clear [hair/fabric/leather/product surface] texture and natural micro-contrast.
Background: keep the edge transition natural with no new glow.
Do not: redesign the subject, change text, or change background color.
Usa una máscara de anillo de borde. Para recortes de producto, edita primero sobre opaco y luego elimina el fondo downstream.
Estrategia: inpaint, control o rerender
El inpaint local es la opción por defecto para defectos pequeños. Tiene la menor deriva y suele proteger mejor identidad y fondo. Úsalo para rostros, manos, bordes, sombras de contacto y pequeños fallos de textura.
El crop-first inpaint es aún mejor para defectos diminutos. Recorta el área problemática, repárala con mayor resolución aparente y vuelve a colocarla en la imagen completa. Sirve para ojos, dedos, bordes de producto y etiquetas.
La edición enmascarada de imagen completa sirve para cambios semánticos como reemplazar ropa, insertar objetos o cambios amplios de estilo. No garantiza que los píxeles no enmascarados queden intactos, especialmente en GPT Image 2. Úsala cuando cierta deriva sea aceptable.
El rerender completo es para estructura rota. Si el layout original está mal, rehacer puede ser más limpio que pelear con muchos parches locales. Acepta que identidad, luz y detalle pueden necesitar reparaciones posteriores.
Las imágenes de control resuelven problemas estructurales. Canny y lineart preservan bordes. Depth preserva espacio y perspectiva. Pose preserva relaciones de articulaciones humanas. Segmentation y regional prompting reducen mezcla de sujetos. IP-Adapter y las imágenes de referencia preservan identidad, apariencia de producto o estilo, pero no sustituyen los controles estructurales.
La distinción directa es esta: local inpaint corrige defectos; rerender rediseña la imagen. No uses uno cuando necesitas el otro.
Checklist rápida de solución de problemas
- Sujeto recortado o extremidades fuera de cuadro: cambia primero la relación de aspecto o expande el lienzo.
- Perspectiva incorrecta: usa depth, canny o lineart antes de subir steps.
- Dos personas mezcladas: separa los sujetos por región, máscara o estructura del prompt.
- La máscara se desborda del área prevista: recorta más pequeño y estrecha el prompt; cambia a diffusion inpaint si importa preservar píxeles estrictamente.
- La imagen se oscurece tras ediciones repetidas: detén loopback y ejecuta una pasada de exposición.
- El objeto parece pegado: repara sombra de contacto e interacción con la superficie.
- La temperatura de color deriva: haz una pasada de balance de blancos con un objetivo específico como neutral daylight o warm sunset.
- El parecido facial deriva: usa reparación solo de rostro con referencia de identidad e instrucciones estrictas de preservación.
- Las manos se rompen: máscara pequeña, referencia de mano o pose, una mano a la vez.
- La textura se emborrona: upscale primero y luego reparación local con bajo denoise.
- Aparece halo en el borde: usa una máscara de anillo de borde, no una máscara del interior del objeto.
- La depuración parece aleatoria: bloquea seed, size, sampler e input; cambia solo una variable.
Diseño antes/después recomendado para tu blog o revisión de equipo
La presentación más clara es una comparación de tres paneles:
Input | Mask or Control Map | Output
Para arreglos de detalle, añade una segunda fila con acercamientos al 200 %. Para revisión de equipo, añade un pie pequeño de parámetros: model, size, quality, denoise, CFG, steps, sampler, scheduler, seed, control scale y reference scale. Esto hace el diagnóstico reproducible en vez de depender de la memoria.
Conclusión final
La mayoría de los fallos image-to-image no son misteriosos. Los errores de composición necesitan lienzo y control estructural. Los errores de iluminación necesitan lenguaje de composición visual: dirección de luz, sombra de contacto, exposición y temperatura de color. Los errores de detalle necesitan máscaras pequeñas, referencias y reparación conservadora.
Con GPT Image 2, la jugada ganadora suele ser un objetivo claro, alcance estrecho, referencias útiles y reglas explícitas de preservación. Con flujos de difusión, añade pruebas reproducibles de parámetros y controles estructurales. En ambos casos, arregla la base antes de pulir la superficie.




