Un guide pratique de dépannage image-to-image pour GPT Image 2 et les workflows de diffusion : diagnostiquer les dérives de composition, les incohérences de lumière, les erreurs de visage et de mains, les débordements de masque, les textures floues et les artefacts de bord.

Les éditions image-to-image échouent souvent de façon prévisible. Le sujet est coupé. Une main gagne des doigts. Le nouvel objet semble collé. Une modification masquée change tout le visage. L'image devient plus sombre à chaque passage. La réaction tentante consiste à relancer le même prompt, à ajouter des mots comme "réaliste" ou "haute qualité", ou à augmenter les steps. Ce n'est pas du dépannage. C'est jouer plus de calcul au hasard.
La règle pratique est simple : corriger d'abord la structure, puis la lumière, puis les détails. Les erreurs de composition sont des problèmes de géométrie. Les erreurs d'éclairage sont des problèmes de compositing. Les erreurs de détail sont généralement des problèmes de réparation locale. Traiter les trois comme de simples problèmes de formulation du prompt donne des résultats instables.
Ce guide s'adresse aux utilisateurs de GPT Image 2, mais le cadre s'applique aussi à Stable Diffusion, Diffusers, ComfyUI, WebUI et aux autres pipelines image-to-image basés sur la diffusion. La différence principale est la surface de contrôle. GPT Image 2 expose des contrôles de haut niveau comme le prompt, l'image d'entrée, le mask, la size, la quality, le format de sortie, la compression et le background. Les workflows de diffusion classiques exposent souvent strength ou denoise, CFG ou guidance scale, steps, sampler, scheduler, seed, ControlNet, IP-Adapter et un comportement d'inpaint mask plus strict.
Cette différence compte. GPT Image 2 est souvent solide quand vous décrivez clairement une modification et fournissez les bonnes images d'entrée. Ce n'est pas le meilleur outil quand vous avez besoin d'un masque dur façon Photoshop qui conserve chaque pixel non masqué. L'inpainting par diffusion est généralement meilleur pour une réparation locale stricte. Utilisez l'outil le plus petit qui résout le défaut réel.
L'ordre de diagnostic : structure, lumière, détail

Avant de changer un paramètre, classez l'échec.
Si le sujet est coupé, l'horizon est faux, la pose a changé, les personnes de gauche et de droite ont échangé leur identité, ou une table a une perspective impossible, vous avez un problème de composition. Ne commencez pas par augmenter les steps ou accentuer l'image. Vérifiez d'abord le ratio d'aspect, le canevas, l'étendue du masque et les références structurelles.
Si l'objet est au bon endroit mais semble collé, si le sujet est trop bleu dans une pièce chaude, si l'ombre part dans la mauvaise direction, ou si le vêtement édité contredit la lumière d'origine, vous avez un problème d'éclairage. Verrouillez la géométrie, puis réparez la direction de la lumière principale, les ombres de contact, l'exposition et la température de couleur.
Si l'image est correcte sur le plan structurel et que la lumière fonctionne à peu près, réparez alors les détails : ressemblance du visage, mains, cheveux, tissu, bords de produit, logos, halos et texture. Le travail de détail doit généralement rester local. Relancer un rendu complet pour corriger trois doigts est un mauvais compromis.
Cet ordre évite la spirale d'échec la plus courante : retoucher la peau sur un visage qui n'est déjà plus la bonne personne, accentuer un objet dans une mauvaise perspective, ou relighter un sujet qui aurait d'abord dû être recomposé.
GPT Image 2 vs diffusion I2I : ce que vous contrôlez vraiment
Pour GPT Image 2, vos principaux leviers sont :
| Contrôle | Usage pratique | Erreur fréquente |
|---|---|---|
| Prompt | Définit l'objectif de modification et les règles de préservation | Demander une refonte large alors qu'une correction locale suffit |
| Image d'entrée | Fournit identité, mise en page, style et contexte | Donner une référence faible et attendre une géométrie exacte |
| Mask | Guide la zone à éditer | Le traiter comme une limite de pixel dure |
| Size / aspect ratio | Définit le conteneur de composition | Utiliser un canevas carré pour un sujet vertical en pied |
| Quality | Équilibre détail, coût et latence | Utiliser la qualité finale pour chaque essai de débogage |
| Références multiples | Aide pour l'identité, le remplacement d'objet et le style | Attendre d'une référence de style qu'elle impose aussi la pose ou la perspective |
Pour l'image-to-image par diffusion, les leviers utiles sont plus granulaires :
| Paramètre | Ce qu'il change | Point de départ utile |
|---|---|---|
strength / denoise | À quel point l'image d'entrée est réécrite | Réparation locale : 0.15-0.35 ; lumière : 0.30-0.50 ; changement de structure : 0.50-0.75 |
CFG / guidance_scale | À quel point le modèle suit le prompt | Éditions réalistes : 4-6 ; défaut général : 6-8 |
steps | Qualité du débruitage et durée | Tests rapides : 20-30 ; équilibré : 30-50 ; détail difficile : 50-80 |
seed | Reproductibilité des tests A/B | Le fixer pendant le diagnostic |
sampler / scheduler | Trajectoire de débruitage et mode d'échec | En choisir un et le garder stable avant de comparer les paramètres |
| ControlNet scale | Force du guidage structurel | Doux : 0.4-0.6 ; fort : 0.6-0.8 |
| IP-Adapter scale | Force de l'influence de l'image de référence | Style : 0.4-0.6 ; identité ou apparence : 0.6-0.8 |
Trois règles gardent le réglage des paramètres sain.
D'abord, les steps ne corrigent pas fiablement la structure. Ils peuvent améliorer les textures et les bords, mais ils ne répareront pas de façon constante une mauvaise pose, un horizon faux ou une relation inversée entre sujets.
Ensuite, CFG n'est pas la "qualité". Trop peu de guidage ignore le prompt. Trop de guidage peut rendre les images sursaturées, cassantes ou moins naturelles. Ne l'augmentez que si le modèle ignore clairement une instruction précise.
Enfin, ne testez pas dix variables à la fois. Pendant le diagnostic, verrouillez seed, size, sampler et entrée. Changez une seule variable majeure : étendue du masque, denoise, carte de contrôle, image de référence ou contrainte de prompt.
Bibliothèque des échecs courants et premières corrections
Utilisez cette bibliothèque comme table de triage rapide.
| Symptôme | Cause probable | Priorité | Première correction |
|---|---|---|---|
| Une édition masquée change le visage, l'arrière-plan ou toute l'image | Le masque est traité comme une suggestion, pas comme une limite dure ; le prompt demande trop | P0 | Recadrez une zone plus petite, réduisez l'objectif d'édition et écrivez une liste stricte d'éléments à préserver. Si des pixels doivent rester intacts, utilisez diffusion inpaint. |
| Le sujet est coupé, tête manquante, membres hors cadre | Mauvais ratio d'aspect, canevas trop serré, instruction "sujet complet" absente | P0 | Changez d'abord la size ou outpaint. Demandez full body, complete subject, natural margins. |
| Le rendu sketch-to-real perd la perspective | Prompt sémantique sans contrôle structurel ; denoise trop élevé | P0 | Utilisez depth, canny ou lineart. Baissez denoise. Séparez la réparation de structure du rendu des matériaux. |
| Deux personnes échangent leurs rôles ou partagent des membres | Fuite du prompt entre sujets ; pas de séparation régionale | P0 | Utilisez des descriptions séparées, des masques, regional prompting ou pose control. |
| L'objet inséré ressemble à un autocollant | Pas d'ombre de contact, mauvaise échelle, masque excluant la zone de contact | P0 | Réparez la base de l'objet et la zone d'ombre, pas seulement l'objet. Précisez la direction et la douceur de l'ombre de contact. |
| L'image devient plus sombre après des passages répétés | Loopback ou éditions répétées à faible denoise accumulent une dérive d'exposition | P1 | Arrêtez la boucle. Faites un passage séparé d'exposition et de balance des blancs. |
| Le remplacement de vêtement a une mauvaise direction de lumière | La référence du vêtement a une autre lumière ; le prompt ne verrouille pas la lumière de scène | P1 | Préservez caméra et arrière-plan. Faites correspondre le vêtement à la direction de lumière, aux ombres et à la température de couleur d'origine. |
| Le visage ne ressemble plus à la personne | Le visage a été inclus dans un rendu large de toute l'image | P0 | Utilisez une réparation du visage seule avec référence d'identité et préservez expression, forme du visage, âge, cheveux et proportions. |
| Les mains ont un mauvais nombre de doigts ou des articulations cassées | Contact complexe, contrainte de pose faible ou prompt contradictoire | P0 | Masquez seulement la main et le point de contact. Utilisez une référence de pose de main ou openpose. Réparez main gauche et main droite séparément. |
| La texture devient floue après upscale | Upscale et repainting ont été mélangés dans un passage à fort denoise | P1 | Upscale d'abord, puis réparation locale à faible denoise. |
| Bord blanc, halo ou frange | Masque trop serré ; attente de fond transparent incompatible | P1 | Utilisez un masque en anneau de bord qui couvre les deux côtés de la limite. Pour GPT Image 2, sortez d'abord une image opaque puis détourez en aval. |
P0 signifie que l'image ne peut pas être livrée avant correction. P1 signifie que le défaut est visible et nuit à la qualité. Les défauts P2 sont assez petits pour le passage final de polissage.
Dépannage de la composition
Les problèmes de composition sont les plus coûteux à ignorer. Si la géométrie est fausse, les corrections suivantes reposent sur une mauvaise base.
Pour les sujets coupés, commencez par le canevas. Une image verticale en pied nécessite un cadre vertical. Un hero produit avec de la place pour des libellés peut nécessiter de l'espace horizontal. Si le sujet d'origine est déjà coupé, outpaint ou agrandissez le canevas avant de demander un meilleur rendu. Dans GPT Image 2, gardez le prompt direct : "move the camera back 10 to 20 percent, complete the missing head and arms, preserve the same face, outfit, background, camera height, and light direction."
Pour les problèmes de perspective, ajoutez de la structure. Dans les workflows de diffusion, utilisez depth pour les intérieurs, l'architecture, les meubles et les relations spatiales. Utilisez canny ou lineart pour les produits, logos, bords durs, diagrammes et travaux sketch-to-render. Utilisez pose ou keypoints pour les humains. N'utilisez pas openpose pour préserver la silhouette d'un produit. N'utilisez pas canny en espérant qu'il comprenne la direction d'un coude.
Pour les scènes à deux personnes, séparez les sujets dans le prompt. "The person on the left" et "the person on the right" doivent avoir chacun leur identité, vêtement, pose et action. Si votre outil prend en charge les masques, regional prompting ou segmentation, utilisez-les. Beaucoup d'échecs multi-sujets ne sont pas de "mauvaises mains" ; ce sont de mauvais propriétaires de région.
Dépannage de la lumière
Les échecs d'éclairage sont généralement des échecs de compositing. L'objet édité peut être sémantiquement correct, mais il n'appartient pas à la scène.
Les quatre choses à préciser sont la direction de la lumière principale, le comportement des ombres, la température de couleur et l'exposition. "Make it realistic" est faible. "Match the existing warm left-side window light, add a soft contact shadow under the shoes, keep the background exposure unchanged, and preserve neutral skin tones" est utile.
Quand un objet semble collé, ne repeignez pas d'abord tout l'objet. Réparez la zone de contact : pieds sur le sol, base de produit sur la table, pattes de chien dans l'herbe, bord de tasse sur le plan de travail, bord d'affiche sur le mur. Le masque doit inclure la limite de l'objet et la surface qui reçoit l'ombre. Le prompt doit mentionner contact shadow, occlusion shadow, reflection si pertinent, et une douceur d'ombre cohérente.
Si des éditions répétées rendent l'image trop jaune, trop sombre ou trop contrastée, arrêtez d'éditer le contenu. Lancez un passage de couleur séparé. Demandez une balance des blancs et une exposition unifiées tout en préservant composition, identité, matériau et texture. Évitez de combiner "replace the jacket" et "fix the entire color grade" dans le même passage, sauf si vous acceptez la dérive.
Dépannage des détails
Les détails doivent être réparés après stabilisation de la structure et de la lumière.
Les visages ont besoin de petits masques et de contraintes d'identité. Masquez tout le visage avec un peu de contexte : ligne des cheveux, menton, oreilles et peau adjacente. Ne masquez pas un seul oeil sauf si vous voulez de l'asymétrie. Dites au modèle de préserver la ressemblance exacte, la forme du visage, l'âge, l'expression, la coiffure, le teint et l'angle de caméra. Demandez une texture de peau naturelle, pas un lissage plastique.
Les mains ont aussi besoin de contexte. Masquez la paume, les doigts, le poignet, la zone de contact avec l'objet et un peu d'arrière-plan. Préservez l'intention du geste et la position de l'objet. Si les deux mains sont mauvaises, réparez-les séparément. Pour les interactions complexes main-objet, une référence de pose ou de main vaut plus qu'un prompt négatif plus long.
Les bords nécessitent un masque en anneau de bord. Si un produit a un halo, le masque doit couvrir la limite à l'intérieur et à l'extérieur du bord du produit. Un masque qui ne couvre que l'intérieur de l'objet ne corrigera pas la transition. Pour les workflows GPT Image 2, il est souvent plus propre de générer ou d'éditer sur un fond opaque d'abord, puis de supprimer le fond en aval.
La texture demande un workflow en deux étapes. D'abord upscale ou super-résolution. Ensuite, repeignez seulement la zone de texture faible à faible denoise ou avec un prompt d'édition étroit. Si vous combinez repainting à fort denoise et upscale, vous obtenez souvent plus de flou, pas plus de détail.
Modèles de prompt à copier-coller
Utilisez-les comme prompts structurés. Pour GPT Image 2, collez tout le modèle et remplissez les crochets. Pour la diffusion, déplacez les clauses "do not" dans le negative prompt quand c'est utile.
1. Corriger le recadrage et les parties du corps manquantes
Task: Recompose the input image so the subject is fully visible while preserving the original identity, clothing, material, background style, camera height, and time of day.
Preserve: face, hairstyle, body proportions, clothing colors, background layout, light direction.
Change: move the camera back by about 10 to 20 percent, complete the missing head, arms, hands, legs, and feet, and leave natural margins around the subject.
Composition: keep the original perspective and subject direction. Do not mirror the image or change left-right relationships.
Do not: add people, change the background, change the expression, change color temperature, or change exposure.
Départ diffusion : denoise 0.30-0.50. Ajoutez un guidage depth si la pièce ou l'architecture est instable.
2. Corriger perspective et proportions
Task: Correct perspective and proportion errors in the input image.
Preserve: subject identity, scene content, materials, lighting, and the main camera angle.
Change: make vertical lines vertical, stabilize the horizon, align floor/table/building vanishing lines, and correct stretched or compressed shapes.
Composition: keep the existing subject relationships. Do not redesign the scene.
Do not: add new elements, change light direction, or change the person or product identity.
Départ diffusion : depth 0.7-0.9 pour intérieurs ou architecture ; canny/lineart 0.5-0.8 pour produits et dessins ; denoise 0.20-0.40.
3. Verrouiller deux sujets et leur relation gauche-droite
Task: Fix the two-subject pose and left-right relationship.
Left subject: keep as [Character A], preserving hairstyle, face shape, skin tone, clothing, and facing direction.
Right subject: keep as [Character B], preserving hairstyle, face shape, skin tone, clothing, and facing direction.
Pose: left subject performs [Action A], right subject performs [Action B]. Do not swap positions. Do not share hands or gestures between them.
Composition: keep the camera angle and scene unchanged.
Do not: create extra arms, extra fingers, wrong left/right hands, mixed identity, or mixed skin tone.
Utilisez pose control, segmentation ou regional prompting quand disponible.
4. Faire correspondre la direction de lumière
Task: Fix lighting consistency only.
Preserve: subject identity, background, camera position, composition, action, and materials.
Change: make the main light come from [upper left / upper right / side / back]. Align highlights, midtones, shadows, and cast shadows with that light direction.
Shadows: create natural contact shadows and ambient shadows with softness matching the scene.
Do not: change the pose, background, color temperature, or white balance.
Départ diffusion : denoise 0.25-0.45. Pour des corrections d'ombre seulement, masquez uniquement l'ombre et la zone de contact.
5. Supprimer l'effet objet collé
Task: Make [person/object/animal] belong naturally in the scene instead of looking pasted on.
Preserve: the subject appearance and every unmasked region.
Change: add realistic contact shadow, subtle occlusion shadow, and necessary reflection or bounce light around the contact point.
Spatial relationship: match shadow direction and shadow density to the existing floor, wall, table, or ground material.
Do not: change subject shape, background layout, or subject color.
S'il y a plusieurs points de contact, réparez-les par petits passages séparés.
6. Unifier exposition et température de couleur
Task: unify exposure and color temperature so the image looks captured by one camera at one moment.
Preserve: composition, subject identity, background, material, and texture.
Change: restore natural white balance, prevent blown highlights, keep shadows readable, and make skin tones natural. Overall color temperature should be [warm sunset / neutral daylight / cool overcast].
Do not: change scene content, add a filter look, or apply heavy cinematic grading.
Faites-en un passage séparé. Ne le combinez pas avec une grande modification structurelle.
7. Réparer les détails du visage
Task: repair facial details only.
Preserve: exact likeness, face shape, age, expression, hairstyle, skin tone, and camera angle.
Change: fix eye symmetry, pupil direction, eyelashes, nostrils, lip edges, teeth, ears, and natural skin texture.
Quality: realistic photographic detail, no over-smoothing, no cartoon style.
Do not: change expression, change facial proportions, affect hair, or affect the background.
Masquez tout le visage avec un peu de contexte autour. Upscale d'abord si le visage est minuscule.
8. Réparer les mains
Task: repair hand structure only.
Preserve: gesture intention, left-right hand relationship, contact position with objects, subject identity, and background.
Change: make each hand have a natural number of fingers, correct joint bends, reasonable palm direction, and natural fingertip contact.
Detail: restore knuckles, nails, palm creases, and shadows without exaggeration.
Do not: add hands, swap left and right hands, or move the held object.
Réparez la main gauche et la main droite séparément si les deux sont cassées.
9. Nettoyer texture et artefacts de bord
Task: clean edge artifacts and restore realistic texture.
Preserve: subject shape, label text, color, and overall composition.
Change: remove white edges, halos, fringing, jagged borders, and blurry edges. Restore clear [hair/fabric/leather/product surface] texture and natural micro-contrast.
Background: keep the edge transition natural with no new glow.
Do not: redesign the subject, change text, or change background color.
Utilisez un masque en anneau de bord. Pour les détourages produit, éditez d'abord sur fond opaque, puis supprimez le fond en aval.
Stratégie : inpaint, contrôler ou rerender ?
L'inpaint local est le choix par défaut pour les petits défauts. Il a la plus faible dérive et protège généralement mieux l'identité et l'arrière-plan. Utilisez-le pour les visages, mains, bords, ombres de contact et petites erreurs de texture.
Le crop-first inpaint est encore meilleur pour les très petits défauts. Recadrez la zone problématique, réparez-la à une résolution apparente plus élevée, puis replacez-la dans l'image complète. C'est utile pour les yeux, les doigts, les bords de produit et les libellés.
L'édition masquée de toute l'image est utile pour les changements sémantiques comme remplacer une tenue, insérer un objet ou modifier largement le style. Elle ne garantit pas que les pixels non masqués restent intacts, surtout dans GPT Image 2. Utilisez-la quand une certaine dérive est acceptable.
Le rerender complet est destiné aux structures cassées. Si la mise en page d'origine est fausse, rerender peut être plus propre que de lutter avec de nombreux patchs locaux. Acceptez que l'identité, la lumière et les détails puissent nécessiter des réparations ensuite.
Les images de contrôle résolvent les problèmes structurels. Canny et lineart préservent les bords. Depth préserve l'espace et la perspective. Pose préserve les relations entre articulations humaines. Segmentation et regional prompting réduisent les mélanges de sujets. IP-Adapter et les images de référence préservent l'identité, l'apparence produit ou le style, mais ne remplacent pas les contrôles structurels.
La distinction brutale est celle-ci : l'inpaint local corrige des défauts ; le rerender redessine l'image. N'utilisez pas l'un quand vous avez besoin de l'autre.
Checklist rapide de dépannage
- Sujet coupé ou membres hors cadre : changez d'abord le ratio d'aspect ou agrandissez le canevas.
- Perspective fausse : utilisez depth, canny ou lineart avant d'augmenter les steps.
- Deux personnes mélangées : séparez les sujets par région, masque ou structure de prompt.
- Le masque déborde de la zone prévue : recadrez plus petit et réduisez le prompt ; passez à diffusion inpaint si la préservation dure des pixels compte.
- L'image s'assombrit après des éditions répétées : arrêtez loopback et lancez un passage d'exposition.
- L'objet semble collé : réparez l'ombre de contact et l'interaction avec la surface.
- La température de couleur dérive : faites un passage de balance des blancs avec une cible précise comme neutral daylight ou warm sunset.
- La ressemblance du visage dérive : utilisez une réparation du visage seule avec référence d'identité et consignes strictes de préservation.
- Les mains cassent : petit masque, référence de main ou pose, une main à la fois.
- La texture devient floue : upscale d'abord, puis réparation locale à faible denoise.
- Un halo de bord apparaît : utilisez un masque en anneau de bord, pas un masque intérieur d'objet.
- Le débogage semble aléatoire : verrouillez seed, size, sampler et input ; ne changez qu'une variable.
Mise en page avant/après recommandée pour votre blog ou revue d'équipe
La présentation la plus claire est une comparaison en trois panneaux :
Input | Mask or Control Map | Output
Pour les corrections de détail, ajoutez une deuxième ligne avec des gros plans à 200 %. Pour une revue d'équipe, ajoutez un petit pied de paramètres : model, size, quality, denoise, CFG, steps, sampler, scheduler, seed, control scale et reference scale. Le diagnostic devient reproductible au lieu de dépendre de la mémoire.
Conclusion
La plupart des échecs image-to-image ne sont pas mystérieux. Les erreurs de composition demandent du canevas et du contrôle structurel. Les erreurs de lumière demandent un langage de compositing : direction de lumière, ombre de contact, exposition et température de couleur. Les erreurs de détail demandent de petits masques, des références et une réparation prudente.
Avec GPT Image 2, le meilleur choix est généralement un objectif d'édition clair, une portée étroite, des références utiles et des règles de préservation explicites. Avec les workflows de diffusion, ajoutez des tests de paramètres reproductibles et des contrôles structurels. Dans les deux cas, corrigez la base avant de polir la surface.




