Una guida pratica al troubleshooting image-to-image per GPT Image 2 e workflow di diffusione: diagnosticare deriva della composizione, luce incoerente, errori di volto e mani, fuoriuscite della maschera, texture sfocate e artefatti sui bordi.

L'editing image-to-image fallisce spesso in modi prevedibili. Il soggetto viene tagliato. Una mano genera dita in più. Il nuovo oggetto sembra incollato. Una modifica mascherata cambia tutto il volto. L'output diventa più scuro a ogni passaggio. La reazione istintiva è rilanciare lo stesso prompt, aggiungere parole come "realistico" o "alta qualità", oppure aumentare gli steps. Non è troubleshooting. È scommettere più calcolo.
La regola pratica è semplice: prima struttura, poi luce, infine dettagli. Gli errori di composizione sono problemi di geometria. Gli errori di illuminazione sono problemi di compositing. Gli errori di dettaglio sono di solito problemi di riparazione locale. Trattare tutte e tre le categorie come problemi di prompt porta a risultati instabili.
Questa guida è pensata per utenti GPT Image 2, ma il metodo vale anche per Stable Diffusion, Diffusers, ComfyUI, WebUI e altri pipeline image-to-image basati su diffusione. La differenza principale è la superficie di controllo. GPT Image 2 espone controlli di alto livello come prompt, immagine di input, mask, size, quality, formato di output, compressione e background. I workflow di diffusione tradizionali espongono spesso strength o denoise, CFG o guidance scale, steps, sampler, scheduler, seed, ControlNet, IP-Adapter e un comportamento più rigido dell'inpaint mask.
La differenza conta. GPT Image 2 è spesso forte quando descrivi chiaramente una modifica e fornisci le immagini giuste. Non è lo strumento migliore quando serve una maschera dura in stile Photoshop che preservi ogni pixel non mascherato. Diffusion inpaint è di solito più adatto per riparazioni locali rigorose. Usa lo strumento più piccolo che risolve il difetto reale.
L'ordine diagnostico: struttura, luce, dettaglio

Prima di cambiare parametri, classifica il fallimento.
Se il soggetto è tagliato, l'orizzonte è sbagliato, la posa è cambiata, le persone a sinistra e destra si sono scambiate identità, o un tavolo ha una prospettiva impossibile, hai un problema di composizione. Non iniziare aumentando steps o nitidezza. Controlla prima aspect ratio, canvas, ambito della maschera e riferimenti strutturali.
Se l'oggetto è nel posto giusto ma sembra incollato, il soggetto è troppo blu in una stanza calda, l'ombra va nella direzione sbagliata, o l'abito modificato contrasta con la luce originale, hai un problema di illuminazione. Blocca la geometria, poi correggi direzione della luce principale, ombre di contatto, esposizione e temperatura colore.
Se l'immagine è strutturalmente corretta e la luce funziona abbastanza, passa ai dettagli: somiglianza del volto, mani, capelli, tessuto, bordi del prodotto, loghi, aloni e texture. Il lavoro sui dettagli dovrebbe essere locale. Rifare tutta l'immagine per sistemare tre dita è un pessimo scambio.
Questo ordine evita la spirale più comune: ritoccare la pelle su un volto che è già la persona sbagliata, aumentare la nitidezza di un oggetto con prospettiva errata, o rilavorare la luce di un soggetto che andava prima ricomposto.
GPT Image 2 vs diffusione I2I: cosa puoi controllare davvero
Per GPT Image 2, le leve principali sono:
| Controllo | Uso pratico | Errore comune |
|---|---|---|
| Prompt | Definisce obiettivo di modifica e regole di preservazione | Chiedere un redesign ampio quando serve solo un fix locale |
| Immagine di input | Fornisce identità, layout, stile e contesto | Dare un riferimento debole aspettandosi geometria esatta |
| Mask | Guida dove il modello deve modificare | Trattarla come un confine pixel rigido |
| Size / aspect ratio | Imposta il contenitore della composizione | Usare un canvas quadrato per un soggetto verticale a figura intera |
| Quality | Bilancia dettaglio, costo e latenza | Usare qualità finale per ogni tentativo di debug |
| Riferimenti multipli | Aiutano con identità, sostituzione oggetto e stile | Aspettarsi che un riferimento di stile imponga anche posa o prospettiva |
Per image-to-image con diffusione, le leve utili sono più granulari:
| Parametro | Cosa cambia | Punto di partenza utile |
|---|---|---|
strength / denoise | Quanto viene riscritta l'immagine di input | Riparazione locale: 0.15-0.35; luce: 0.30-0.50; cambio struttura: 0.50-0.75 |
CFG / guidance_scale | Quanto il modello segue il prompt | Edit realistici: 4-6; default generale: 6-8 |
steps | Qualità del denoising e runtime | Test rapidi: 20-30; bilanciato: 30-50; dettagli difficili: 50-80 |
seed | Riproducibilità per test A/B | Fissalo durante la diagnosi |
sampler / scheduler | Traiettoria di denoising e modalità di errore | Scegline uno e tienilo stabile prima di confrontare parametri |
| ControlNet scale | Forza della guida strutturale | Morbida: 0.4-0.6; forte: 0.6-0.8 |
| IP-Adapter scale | Forza dell'influenza dell'immagine di riferimento | Stile: 0.4-0.6; identità o aspetto: 0.6-0.8 |
Tre regole mantengono sano il tuning.
Primo, steps non corregge in modo affidabile la struttura. Può migliorare texture e bordi, ma non risolve stabilmente una posa sbagliata, un orizzonte errato o relazioni invertite tra soggetti.
Secondo, CFG non è "qualità". Troppa poca guidance ignora il prompt. Troppa guidance può rendere le immagini sovrasature, rigide o meno naturali. Alzala solo quando il modello ignora chiaramente un'istruzione specifica.
Terzo, non testare dieci variabili insieme. Durante la diagnosi blocca seed, size, sampler e input. Cambia una sola variabile importante: ambito della maschera, denoise, control map, immagine di riferimento o vincolo di prompt.
Libreria dei fallimenti comuni e primi fix
Usa questa tabella per un triage rapido.
| Sintomo | Causa probabile | Priorità | Primo fix |
|---|---|---|---|
| Una modifica mascherata cambia volto, sfondo o intera immagine | La maschera è trattata come suggerimento, non come confine rigido; il prompt chiede troppo | P0 | Ritaglia una regione più piccola, restringi l'obiettivo e scrivi una lista rigorosa di preservazione. Se i pixel devono restare intatti, usa diffusion inpaint. |
| Soggetto tagliato, testa mancante, arti fuori quadro | Aspect ratio errato, canvas stretto, manca istruzione "complete subject" | P0 | Cambia prima size o fai outpaint. Chiedi full body, complete subject, natural margins. |
| Sketch-to-real perde prospettiva | Prompt semantico senza controllo strutturale; denoise troppo alto | P0 | Usa depth, canny o lineart. Abbassa denoise. Separa riparazione struttura e rendering materiali. |
| Due persone si scambiano ruoli o condividono parti del corpo | Prompt leakage tra soggetti; nessuna separazione regionale | P0 | Usa descrizioni separate, mask, regional prompting o pose control. |
| Oggetto inserito sembra uno sticker | Manca ombra di contatto, scala errata, mask esclude la zona di contatto | P0 | Ripara base dell'oggetto e area d'ombra, non solo l'oggetto. Specifica direzione e morbidezza dell'ombra di contatto. |
| Output più scuro dopo passaggi ripetuti | Loopback o edit ripetuti a basso denoise accumulano deriva di esposizione | P1 | Ferma il loop. Fai un pass separato per esposizione e bilanciamento del bianco. |
| Cambio abito con direzione luce errata | Il riferimento del capo ha luce diversa; il prompt non blocca la luce della scena | P1 | Preserva camera e sfondo. Adatta il capo a direzione luce, ombre e temperatura colore originali. |
| Il volto non somiglia più alla persona | Il volto era incluso in un render full-image ampio | P0 | Usa riparazione solo volto con riferimento identità e preserva espressione, forma del viso, età, capelli e proporzioni. |
| Mani con numero dita errato o articolazioni rotte | Contatto complesso, vincolo posa debole o prompt in conflitto | P0 | Maschera solo mano e punto di contatto. Usa riferimento posa mano o openpose. Ripara mano sinistra e destra separatamente. |
| Texture sfocata dopo upscale | Upscaling e repainting mescolati in un pass ad alto denoise | P1 | Prima upscale, poi riparazione locale a basso denoise. |
| Bordo bianco, halo o fringing | Mask troppo stretta; aspettativa di background trasparente non compatibile | P1 | Usa una edge-ring mask che copra entrambi i lati del confine. Con GPT Image 2, genera prima opaco e ritaglia a valle. |
P0 significa che l'immagine non può essere consegnata finché non è corretta. P1 significa che il difetto è visibile e danneggia la qualità. I difetti P2 sono abbastanza piccoli da gestire nel polish finale.
Troubleshooting della composizione
I problemi di composizione sono i più costosi da ignorare. Se la geometria è sbagliata, le correzioni successive costruiscono su una base cattiva.
Per soggetti tagliati, parti dal canvas. Un'immagine verticale a figura intera richiede un frame verticale. Un product hero con spazio per label può richiedere spazio orizzontale. Se il soggetto originale è già tagliato, fai outpaint o amplia il canvas prima di chiedere un rendering migliore. In GPT Image 2, tieni il prompt diretto: "move the camera back 10 to 20 percent, complete the missing head and arms, preserve the same face, outfit, background, camera height, and light direction."
Per problemi di prospettiva, aggiungi struttura. Nei workflow di diffusione usa depth per interni, architettura, mobili e relazioni spaziali. Usa canny o lineart per prodotti, loghi, bordi duri, diagrammi e sketch-to-render. Usa pose o keypoints per gli umani. Non usare openpose per preservare la silhouette di un prodotto. Non usare canny aspettandoti che capisca la direzione del gomito.
Per scene con due persone, separa i soggetti nel prompt. "The person on the left" e "the person on the right" devono avere descrizioni separate di identità, abbigliamento, posa e azione. Se lo strumento supporta mask, regional prompting o segmentation, usali. Molti fallimenti multi-soggetto non sono "mani brutte"; sono cattiva proprietà delle regioni.
Troubleshooting della luce
I fallimenti di illuminazione sono di solito fallimenti di compositing. L'oggetto modificato può essere semanticamente corretto, ma non appartiene alla scena.
Le quattro cose da specificare sono direzione della luce principale, comportamento delle ombre, temperatura colore ed esposizione. "Make it realistic" è debole. "Match the existing warm left-side window light, add a soft contact shadow under the shoes, keep the background exposure unchanged, and preserve neutral skin tones" è utile.
Quando un oggetto sembra incollato, non ridipingere prima tutto l'oggetto. Ripara la zona di contatto: piedi sul pavimento, base del prodotto sul tavolo, zampe del cane sull'erba, bordo della tazza sul piano, bordo del poster sul muro. La maschera deve includere il confine dell'oggetto e la superficie che riceve l'ombra. Il prompt deve menzionare contact shadow, occlusion shadow, reflection se rilevante, e morbidezza dell'ombra coerente.
Se edit ripetuti rendono l'immagine troppo gialla, scura o contrastata, smetti di editare il contenuto. Esegui un pass colore separato. Chiedi bilanciamento del bianco ed esposizione unificati preservando composizione, identità, materiale e texture. Evita di combinare "replace the jacket" e "fix the entire color grade" nello stesso pass, a meno che tu accetti deriva.
Troubleshooting dei dettagli
I dettagli vanno riparati dopo che struttura e luce sono stabili.
I volti richiedono piccole maschere e vincoli di identità. Maschera tutto il volto con un po' di contesto: attaccatura dei capelli, mento, orecchie e pelle adiacente. Non mascherare un solo occhio se non vuoi asimmetria. Chiedi al modello di preservare somiglianza esatta, forma del viso, età, espressione, acconciatura, tono pelle e angolo camera. Chiedi texture naturale della pelle, non smoothing plastico.
Anche le mani hanno bisogno di contesto. Maschera palmo, dita, polso, area di contatto con l'oggetto e un po' di sfondo. Preserva intenzione del gesto e posizione dell'oggetto. Se entrambe le mani sono sbagliate, riparale separatamente. Per interazioni mano-oggetto complesse, un riferimento posa o mano vale più di un negative prompt più lungo.
I bordi richiedono una edge-ring mask. Se un prodotto ha haloing, la mask deve coprire il confine dentro e fuori dal bordo del prodotto. Una mask che copre solo l'interno dell'oggetto non correggerà la transizione. Nei workflow GPT Image 2 è spesso più pulito generare o modificare prima su sfondo opaco, poi rimuovere il background a valle.
La texture richiede un workflow in due passaggi. Prima upscale o super-resolution. Poi ridipingi solo l'area di texture debole con basso denoise o un prompt stretto. Se combini repainting ad alto denoise con upscaling, spesso ottieni più sfocatura, non più dettaglio.
Template prompt da copiare e incollare
Usali come prompt strutturati. Per GPT Image 2, incolla l'intero template e compila le parentesi. Per diffusione, sposta le clausole "do not" nel negative prompt quando utile.
1. Correggere taglio e parti del corpo mancanti
Task: Recompose the input image so the subject is fully visible while preserving the original identity, clothing, material, background style, camera height, and time of day.
Preserve: face, hairstyle, body proportions, clothing colors, background layout, light direction.
Change: move the camera back by about 10 to 20 percent, complete the missing head, arms, hands, legs, and feet, and leave natural margins around the subject.
Composition: keep the original perspective and subject direction. Do not mirror the image or change left-right relationships.
Do not: add people, change the background, change the expression, change color temperature, or change exposure.
Partenza diffusione: denoise 0.30-0.50. Aggiungi guida depth se stanza o architettura sono instabili.
2. Correggere prospettiva e proporzioni
Task: Correct perspective and proportion errors in the input image.
Preserve: subject identity, scene content, materials, lighting, and the main camera angle.
Change: make vertical lines vertical, stabilize the horizon, align floor/table/building vanishing lines, and correct stretched or compressed shapes.
Composition: keep the existing subject relationships. Do not redesign the scene.
Do not: add new elements, change light direction, or change the person or product identity.
Partenza diffusione: depth 0.7-0.9 per interni o architettura; canny/lineart 0.5-0.8 per prodotti e disegni; denoise 0.20-0.40.
3. Bloccare due soggetti e la relazione sinistra-destra
Task: Fix the two-subject pose and left-right relationship.
Left subject: keep as [Character A], preserving hairstyle, face shape, skin tone, clothing, and facing direction.
Right subject: keep as [Character B], preserving hairstyle, face shape, skin tone, clothing, and facing direction.
Pose: left subject performs [Action A], right subject performs [Action B]. Do not swap positions. Do not share hands or gestures between them.
Composition: keep the camera angle and scene unchanged.
Do not: create extra arms, extra fingers, wrong left/right hands, mixed identity, or mixed skin tone.
Usa pose control, segmentation o regional prompting quando disponibili.
4. Allineare la direzione della luce
Task: Fix lighting consistency only.
Preserve: subject identity, background, camera position, composition, action, and materials.
Change: make the main light come from [upper left / upper right / side / back]. Align highlights, midtones, shadows, and cast shadows with that light direction.
Shadows: create natural contact shadows and ambient shadows with softness matching the scene.
Do not: change the pose, background, color temperature, or white balance.
Partenza diffusione: denoise 0.25-0.45. Per fix solo ombre, maschera solo ombra e area di contatto.
5. Eliminare l'effetto oggetto incollato
Task: Make [person/object/animal] belong naturally in the scene instead of looking pasted on.
Preserve: the subject appearance and every unmasked region.
Change: add realistic contact shadow, subtle occlusion shadow, and necessary reflection or bounce light around the contact point.
Spatial relationship: match shadow direction and shadow density to the existing floor, wall, table, or ground material.
Do not: change subject shape, background layout, or subject color.
Se ci sono più punti di contatto, riparali in piccoli pass separati.
6. Uniformare esposizione e temperatura colore
Task: unify exposure and color temperature so the image looks captured by one camera at one moment.
Preserve: composition, subject identity, background, material, and texture.
Change: restore natural white balance, prevent blown highlights, keep shadows readable, and make skin tones natural. Overall color temperature should be [warm sunset / neutral daylight / cool overcast].
Do not: change scene content, add a filter look, or apply heavy cinematic grading.
Fallo come pass separato. Non combinarlo con una grande modifica strutturale.
7. Riparare dettagli del volto
Task: repair facial details only.
Preserve: exact likeness, face shape, age, expression, hairstyle, skin tone, and camera angle.
Change: fix eye symmetry, pupil direction, eyelashes, nostrils, lip edges, teeth, ears, and natural skin texture.
Quality: realistic photographic detail, no over-smoothing, no cartoon style.
Do not: change expression, change facial proportions, affect hair, or affect the background.
Maschera tutto il volto con un po' di contesto. Fai upscale prima se il volto è minuscolo.
8. Riparare le mani
Task: repair hand structure only.
Preserve: gesture intention, left-right hand relationship, contact position with objects, subject identity, and background.
Change: make each hand have a natural number of fingers, correct joint bends, reasonable palm direction, and natural fingertip contact.
Detail: restore knuckles, nails, palm creases, and shadows without exaggeration.
Do not: add hands, swap left and right hands, or move the held object.
Ripara mano sinistra e destra separatamente se entrambe sono rotte.
9. Pulire texture e artefatti sui bordi
Task: clean edge artifacts and restore realistic texture.
Preserve: subject shape, label text, color, and overall composition.
Change: remove white edges, halos, fringing, jagged borders, and blurry edges. Restore clear [hair/fabric/leather/product surface] texture and natural micro-contrast.
Background: keep the edge transition natural with no new glow.
Do not: redesign the subject, change text, or change background color.
Usa una edge-ring mask. Per scontorni prodotto, modifica prima su opaco, poi rimuovi lo sfondo a valle.
Strategia: inpaint, controllo o rerender?
L'inpaint locale è il default per piccoli difetti. Ha la deriva più bassa e di solito protegge meglio identità e sfondo. Usalo per volti, mani, bordi, ombre di contatto e piccoli problemi di texture.
Il crop-first inpaint è ancora migliore per difetti minuscoli. Ritaglia l'area problematica, riparala a risoluzione apparente più alta, poi reinseriscila nell'immagine completa. È utile per occhi, dita, bordi prodotto e label.
Il full-image masked edit è utile per cambiamenti semantici come sostituzione outfit, inserimento oggetto o cambi stile ampi. Non garantisce che i pixel non mascherati restino intatti, soprattutto in GPT Image 2. Usalo quando una certa deriva è accettabile.
Il full rerender serve per strutture rotte. Se il layout originale è sbagliato, rifare può essere più pulito che combattere molti patch locali. Accetta che identità, luce e dettagli possano richiedere riparazioni successive.
Le immagini di controllo risolvono problemi strutturali. Canny e lineart preservano i bordi. Depth preserva spazio e prospettiva. Pose preserva relazioni delle articolazioni umane. Segmentation e regional prompting riducono la mescolanza dei soggetti. IP-Adapter e immagini di riferimento preservano identità, aspetto prodotto o stile, ma non sostituiscono i controlli strutturali.
La distinzione secca è questa: local inpaint corregge difetti; rerendering ridisegna l'immagine. Non usare uno quando serve l'altro.
Checklist rapida di troubleshooting
- Soggetto tagliato o arti fuori quadro: cambia prima aspect ratio o amplia il canvas.
- Prospettiva errata: usa depth, canny o lineart prima di aumentare steps.
- Due persone mescolate: separa i soggetti per regione, mask o struttura del prompt.
- La mask esce dall'area prevista: ritaglia più piccolo e restringi il prompt; passa a diffusion inpaint se conta la preservazione rigida dei pixel.
- L'immagine diventa più scura dopo edit ripetuti: ferma loopback e fai un pass esposizione.
- L'oggetto sembra incollato: ripara ombra di contatto e interazione con la superficie.
- La temperatura colore deriva: fai un pass di bilanciamento del bianco con target specifico come neutral daylight o warm sunset.
- La somiglianza del volto deriva: usa riparazione solo volto con riferimento identità e istruzioni rigorose di preservazione.
- Le mani si rompono: mask piccola, riferimento mano o posa, una mano alla volta.
- La texture si sfoca: upscale prima, poi riparazione locale a basso denoise.
- Appare un alone sul bordo: usa una edge-ring mask, non una mask interna all'oggetto.
- Il debug sembra casuale: blocca seed, size, sampler e input; cambia una sola variabile.
Layout prima/dopo consigliato per blog o review di team
La presentazione più chiara è un confronto a tre pannelli:
Input | Mask or Control Map | Output
Per fix di dettaglio, aggiungi una seconda riga con close-up al 200 percento. Per review di team, aggiungi un piccolo footer parametri: model, size, quality, denoise, CFG, steps, sampler, scheduler, seed, control scale e reference scale. Così la diagnosi è ripetibile invece che basata sulla memoria.
Conclusione
La maggior parte dei fallimenti image-to-image non è misteriosa. Gli errori di composizione richiedono canvas e controllo strutturale. Gli errori di luce richiedono linguaggio di compositing: direzione luce, ombra di contatto, esposizione e temperatura colore. Gli errori di dettaglio richiedono piccole mask, riferimenti e riparazione conservativa.
Con GPT Image 2, la mossa vincente è di solito un obiettivo chiaro, ambito ristretto, riferimenti utili e regole esplicite di preservazione. Con workflow di diffusione, aggiungi test parametrici riproducibili e controlli strutturali. In entrambi i casi, correggi la base prima di lucidare la superficie.




