Ingénierie des Prompts GPT Image 2 : Le Guide Avancé Complet, des Bases à la Génération Stable
AI Review Lab
24 avril 2026

Même modèle, même produit, mais des structures de prompt différentes peuvent faire passer le taux de réussite de 30 % à 80 %. Une analyse complète des techniques de prompt pour GPT Image 2, des cadres de base aux modèles paramétrés.
Le même modèle, le même produit, mais une formulation de prompt différente peut faire passer le taux de réussite de 30 % à 80 %. Ce n'est pas de la métaphysique, c'est une méthodologie.

Toutes les images de produits dans cet article sont générées à l'aide de GPT Image 2.
Pourquoi parler spécifiquement des prompts
Le plafond de capacités de GPT Image 2 est très élevé : il peut générer des photographies de produits réalistes, des textures de matériaux fines et un rendu de texte précis. Cependant, il existe un fossé d'ingénierie des prompts entre "ce que le modèle peut faire" et "ce que vous pouvez l'amener à faire de manière stable".
Beaucoup de gens en font l'expérience : générer occasionnellement une image époustouflante, mais la plupart du temps, les résultats sont soit "un peu à côté", soit "complètement hors sujet". Le problème ne vient pas du modèle, mais de la "façon de communiquer" entre vous et le modèle.
Cet article vise à résoudre ce problème. Je vais commencer par les structures de prompt les plus élémentaires et plonger progressivement dans les flux d'édition, la composition multi-images, le diagnostic des échecs et les systèmes de modèles paramétrés. Le but ultime est de vous aider à construire un flux de travail de prompts stable, réutilisable et traitable par lots.
Niveau 1 : Structure du prompt de génération de texte pur
C'est l'utilisation la plus basique : vous n'avez pas de vraies photos de produits et vous vous fiez entièrement aux descriptions textuelles pour laisser l'IA générer des images. Cela convient aux arts conceptuels, aux visuels de prévente ou à la phase où vous devez vendre l'histoire avant d'avoir le produit physique.
Cadre central : Structure en quatre parties
Après des tests approfondis, j'ai découvert que l'organisation des prompts dans l'ordre suivant donne les résultats les plus stables :
[Scène/Arrière-plan] → [Sujet du produit] → [Détails clés] → [Contraintes]
Pourquoi cet ordre fonctionne-t-il ? Parce que GPT Image 2 attribue le poids le plus élevé au début du prompt. Si vous mettez la "Scène" en premier, le modèle établira d'abord le contexte visuel global ; mettre le "Sujet du produit" en second permet au modèle de représenter le produit dans le bon contexte ; les "Détails" complètent la précision ; et les "Contraintes" définissent les limites.
À l'inverse, si vous commencez par des détails (par ex., "bouteille en verre dépoli de 30 ml, bouchon compte-gouttes en argent"), le modèle pourrait commencer à rendre des détails avant d'avoir établi le bon contexte visuel, ce qui entraîne une déviation du style global.
Exemple pratique : Image principale sur fond blanc d'un sérum de beauté
Objectif :
Image principale Shopify PDP
Sujet :
Une bouteille de sérum compte-gouttes en verre de 30 ml, corps en verre transparent dépoli, liquide blanc laiteux, bouchon compte-gouttes en métal argenté, ton minimaliste de marque de soins de la peau haut de gamme.
Arrière-plan :
Fond blanc pur sans couture.
Composition :
De face, légèrement tourné de 10 degrés vers la gauche, sujet centré, occupant 90 % du cadre, ombre de contact naturelle et légère.
Éclairage :
Éclairage de studio diffus et doux, reflets spéculaires contrôlés, bords en verre clairs, liquide visible et réaliste.
Détails :
Épaisseur de verre réaliste, étiquette plate, viscosité naturelle du liquide, reflet métallique propre.
Contraintes :
Pas de pétales, pas de feuilles, pas d'accessoires supplémentaires, pas de logos fictifs, pas de texte supplémentaire, pas de filigranes.
Sortie :
1024x1024, quality=medium

Quelques points clés de cet exemple méritent d'être soulignés :
"Légèrement tourné de 10 degrés vers la gauche" est meilleur que "De face". Un angle complètement de face semble facilement rigide, tandis qu'une légère rotation ajoute une sensation tridimensionnelle.
Le terme "reflets spéculaires contrôlés" est crucial. Si vous ne l'incluez pas, l'IA pourrait ajouter des reflets exagérés à la bouteille en verre, la faisant ressembler à une affiche publicitaire plutôt qu'à une image de produit.
La clause de contrainte énumère six "Pas de". Ce ne sont pas des bêtises, chacun a été ajouté après que j'aie appris de mes erreurs. "Pas de pétales" est dû au fait que l'IA aime particulièrement ajouter des décorations de pétales à côté des produits de soins de la peau ; "pas de logos fictifs" est dû au fait qu'elle prendra la liberté d'inventer un identifiant de marque pour vous.
Niveau 2 : Flux d'édition — Modification basée sur de vraies photos
Lorsque vous avez de vraies photos de produits, le flux d'édition est beaucoup plus stable que le flux de génération pure. C'est l'utilisation la plus recommandée dans les scénarios de commerce électronique.
Logique de base du flux d'édition
Le flux d'édition ne consiste pas à "demander à l'IA de dessiner une nouvelle image", mais à "demander à l'IA d'apporter des modifications spécifiques à une image que vous possédez déjà". Cela semble simple, mais beaucoup de gens écrivent des prompts d'édition de la mauvaise manière.
Exemple incorrect :
Rendre cette image de produit plus premium, changer l'arrière-plan pour une scène de salle de bain.
Le problème avec ce prompt est que "plus premium" est trop vague, et l'IA ne sait pas exactement ce que vous voulez changer. Elle pourrait modifier des choses que vous ne voulez pas changer (comme la forme de la bouteille) tout en ne changeant pas ce que vous voulez changer (comme l'éclairage).
Exemple correct :
Modifier uniquement l'arrière-plan et l'éclairage ambiant. Remplacer l'arrière-plan par un comptoir de salle de bain en marbre blanc, avec une lumière naturelle de la fenêtre venant de la gauche. Garder la géométrie, la couleur, la disposition de l'étiquette, l'échelle, le matériau et les détails de l'identité de la marque du produit complètement inchangés.
La différence clé est : lister explicitement "ce qu'il faut changer" et "ce qu'il ne faut pas changer".
Modèle de prompt pour le flux d'édition
Entrée :
Image 1 = [Image de face du produit réel]
Tâche :
Placer le produit de l'Image 1 dans [Description spécifique de la scène].
Changer uniquement l'arrière-plan, l'éclairage ambiant, les accessoires et le contexte de l'objectif.
Garder la géométrie, la couleur, la disposition de l'étiquette, l'échelle, le matériau et les détails de l'identité de la marque du produit inchangés.
Composition :
[Gros plan demi-corps / Gros plan bureau / Composition verticale / Composition horizontale]
Le sujet reste le centre visuel du cadre, en laissant un espace négatif [gauche/droite].
Éclairage :
Faire correspondre la lumière naturelle de la scène, en s'assurant que les ombres de contact, les reflets et les relations d'échelle sont réalistes.
Contraintes :
Ne pas modifier le produit lui-même, ne pas ajouter de nouveau texte, de logos ou de filigranes, ne pas modifier le contenu de l'emballage.

Le principe d'"Itération à variable unique" du flux d'édition
Une méthode de réglage officielle explicitement recommandée par OpenAI est : Ne changer qu'une seule variable à la fois ; ne pas réécrire le paragraphe entier.
Par exemple, si vous n'êtes pas satisfait de l'image de scène générée, ne supprimez pas tout le prompt pour recommencer. Modifiez plutôt une seule dimension :
- "Rendre l'éclairage plus doux, mais ne pas modifier la composition et la scène."
- "Remplacer l'arrière-plan d'une salle de bain par une chambre, en gardant tout le reste inchangé."
- "Changer la composition horizontale pour une composition verticale, en gardant la position du produit et l'éclairage inchangés."
L'avantage de cette itération à variable unique est que vous savez exactement quel changement a provoqué la différence d'effet, plutôt que de mener une expérience de "variable de contrôle" à chaque fois.
Niveau 3 : Composition multi-images — Utilisation avancée
GPT Image 2 prend en charge la saisie simultanée de plusieurs images de référence et génère un résultat combiné selon la relation que vous spécifiez. C'est l'utilisation la plus puissante mais aussi la plus sujette aux erreurs dans les scénarios de commerce électronique.
Scénarios typiques pour la composition multi-images
Scénario 1 : Produit réel + Posture du modèle de main
Entrée :
Image 1 = Image du produit réel
Image 2 = Image de référence de la posture de maintien du modèle de main
Tâche :
Afficher le produit de l'Image 1 dans la main selon la méthode de maintien de l'Image 2.
Le produit lui-même doit conserver sa couleur, sa géométrie et la position de son étiquette réalistes.
Faire correspondre la perspective, l'échelle, les ombres et la température de couleur pour que le résultat ressemble à une seule véritable séance photo.
Contraintes :
Introduire uniquement les accessoires nécessaires ; ne pas ajouter d'accessoires trompeurs ; ne pas ajouter de nouveau texte, de logos ou de filigranes.
Scénario 2 : Produit réel + Référence de scène + Référence de style
Entrée :
Image 1 = Image du produit réel
Image 2 = Image de référence de la scène cible
Image 3 = Image de référence de l'éclairage/atmosphère
Tâche :
Placer le produit de l'Image 1 dans la scène de l'Image 2, rendu selon le style d'éclairage de l'Image 3.
Garder tous les détails du produit lui-même inchangés.
Faire correspondre les relations de perspective, d'échelle et de tons entre les trois images.
Les erreurs les plus courantes dans la composition multi-images
Relations de référence peu claires. Si vous ne dites pas explicitement "L'Image 1 est le produit, l'Image 2 est la scène", le modèle devinera de lui-même. La probabilité qu'il devine correctement n'est pas élevée.
Un écart de style trop important entre les images d'entrée. Si votre image de produit est une photo de studio sur fond blanc, et que l'image de référence de la scène est une photo de style de vie décontractée prise avec un téléphone, l'éclairage et la température de couleur ne correspondront pas du tout, ce qui donnera une composition très discordante. Essayez de garder les conditions d'éclairage des images d'entrée proches.
En demander trop. Trois images d'entrée, c'est déjà beaucoup. Plus il y a d'entrées, plus le modèle doit équilibrer d'informations, et plus la probabilité d'erreurs est élevée. Si vous pouvez le résoudre avec deux images, n'en utilisez pas trois.
Niveau 4 : Diagnostic des échecs — Comment résoudre les problèmes lorsqu'ils surviennent
La partie la plus précieuse de l'ingénierie des prompts n'est pas "comment écrire un bon prompt", mais "comment localiser et résoudre rapidement les problèmes lorsqu'ils surviennent".
Voici les modèles d'échec courants que j'ai accumulés dans la pratique et leurs correctifs correspondants.
Modèle d'échec 1 : Distorsion de la forme du produit
Symptôme : La forme de la bouteille change, la forme de la chaussure est tordue, ou le boîtier des écouteurs est déformé.
Cause : Lors de la génération de texte pur, le modèle présente des écarts dans la compréhension des détails géométriques.
Correctif : Passer au flux d'édition, en utilisant une vraie photo de produit comme ancrage. Ajouter "preserve exact geometry" ou "garder la forme géométrique du produit complètement inchangée" au prompt.
Modèle d'échec 2 : Déviation des couleurs
Symptom : Un bouchon argenté devient doré, ou un liquide blanc laiteux devient bleu pâle.
Cause : La description textuelle de la couleur n'est pas assez précise, ou le modèle comprend mal les mots de couleur.
Correctif : Fournir une image de référence du produit réel. Si vous devez utiliser des descriptions textuelles, utilisez des références de couleurs spécifiques plutôt que des adjectifs vagues : écrire "métal argenté" est meilleur que "couleur métallique", et écrire "Pantone 7541 C gris clair" est meilleur que "gris clair".
Modèle d'échec 3 : Invasion d'éléments redondants
Symptôme : Des pétales, des feuilles, des gouttes d'eau, des logos de marque ou du texte supplémentaire apparaissent inexplicablement.
Cause : Le modèle "associe" des éléments communs en fonction de la catégorie. Ajouter des pétales à côté des produits de soins de la peau ou des gouttes d'eau à côté des boissons : c'est le "bon sens" que le modèle a appris de ses données d'entraînement.
Correctif : Les exclure explicitement dans la clause de contraintes. "Pas de pétales, pas de feuilles, pas de gouttes d'eau, pas de logos fictifs, pas de texte supplémentaire." Plus ces contraintes sont spécifiques, mieux c'est.
Modèle d'échec 4 : Inadéquation de l'éclairage
Symptôme : La direction de l'éclairage sur le produit est incohérente avec la direction de l'éclairage de l'arrière-plan, ce qui lui donne un aspect retouché.
Cause : Le flux d'édition n'a pas explicitement énoncé d'exigence de correspondance d'éclairage.
Correctif : Ajouter "match the lighting direction and color temperature of the scene" ou "faire correspondre la direction de l'éclairage et la température de couleur de la scène" au prompt.
Modèle d'échec 5 : Déformation du modèle de main
Symptôme : Le nombre de doigts est incorrect, le poignet est tordu, ou la posture de maintien n'est pas naturelle.
Cause : La génération de mains humaines par l'IA est toujours une difficulté reconnue.
Correctif : Écrire explicitement le nombre, la position et la posture des mains. "Une main d'adulte, prise naturelle, ongles courts et propres, pas de bagues, couper au poignet". Ne laissez pas le modèle décider lui-même des détails de la main.
Niveau 5 : Différences de catégories — Focus du prompt pour différents produits
Bien qu'il s'agisse dans les deux cas d'"images de produits", la façon dont les prompts sont écrits pour différentes catégories varie considérablement. Voici une répartition des principales différences de prompt par catégorie.
Vêtements : Focus sur "l'état porté"
La plus grande crainte pour les vêtements est que l'IA génère les vêtements en les faisant paraître "suspendus à un cintre" plutôt que "portés par une personne". Les prompts doivent être explicites sur :
- Le type de corps et la posture du modèle.
- Le drapé et la direction des plis des vêtements.
- La texture du tissu (douceur du coton, éclat de la soie, rigidité du jean).
- "Ne pas modifier la coupe et l'ajustement des vêtements."
Chaussures : Focus sur la "précision structurelle"
La principale difficulté avec les chaussures est la forme de la forme de la chaussure et le motif de la semelle. Les prompts doivent être explicites sur :
- L'orientation (Amazon exige de faire face à la gauche).
- L'angle (45 degrés est la norme).
- La clarté du motif de la semelle.
- "Garder la forme de la chaussure, la forme de la chaussure, le matériau supérieur et la répartition des blocs de couleur inchangés."
Bijoux : Focus sur le "contrôle de l'éclairage"
Le succès ou l'échec des images de bijoux réside dans l'éclairage. Les prompts doivent être explicites sur :
- "Reflets spéculaires contrôlés" — pour éviter la surexposition.
- "Macro réaliste" — pour garantir les détails des facettes.
- "Métal non déformé" — pour éviter que l'argent ne devienne blanc ou que l'or ne devienne jaune.
- "Pas de mannequins, pas de bustes" — une règle stricte pour la catégorie des bijoux d'Amazon.
Électronique : Focus sur les "interfaces précises"
L'électronique a la tolérance aux erreurs la plus faible. Les prompts doivent être explicites sur :
- Les types et emplacements des interfaces (USB-C, Lightning, 3,5 mm).
- La disposition des boutons et les marquages.
- Les couleurs et positions des voyants lumineux.
- "Interdire l'ajout de composants qui ne se trouvent pas sur le produit réel."
Articles ménagers : Focus sur la "perception de l'échelle"
Les produits ménagers doivent transmettre la taille à travers des scènes. Les prompts doivent être explicites sur :
- Les relations proportionnelles avec des objets de référence (un stylo à côté d'une tasse, un oreiller sur un lit).
- L'authenticité de la scène d'utilisation (comptoir de cuisine, étagère de salle de bain, table basse de salon).
- La description tactile des matériaux (rugosité du grain du bois, douceur de la céramique, douceur du tissu).
Beauté : Focus sur les "matériaux réalistes"
Les produits de beauté ont le langage matériel le plus riche. Les prompts doivent être explicites sur :
- Le matériau du corps de la bouteille (verre dépoli, plastique brillant, métal).
- La texture du contenu (viscosité de la lotion, transparence du sérum, épaisseur de la crème).
- Les détails de l'emballage (structure de la pompe, forme du compte-gouttes, matériau du bouchon).
- "Pas de décorations florales supplémentaires" — l'IA aime particulièrement ajouter des fleurs aux produits de soins de la peau.
Niveau 6 : Construire votre bibliothèque de modèles paramétrés
Le but ultime de l'ingénierie des prompts n'est pas "d'écrire à partir de zéro à chaque fois", mais de construire une bibliothèque de modèles paramétrés afin que quiconque dans l'équipe puisse générer rapidement des images.
Conception de modèles basée sur des champs
Décomposez le prompt dans les champs suivants, en remplissant chacun de manière indépendante :
category : [Catégorie]
shot_type : [Image principale sur fond blanc / Image de style de vie / Plan détaillé]
background : [Blanc pur / Description spécifique de la scène]
angle : [De face / 45 degrés / Plongée / Macro]
lighting : [Lumière diffuse de studio / Lumière naturelle de fenêtre / Contre-jour / Reflets contrôlés]
props : [Aucun / Description spécifique de l'accessoire]
constraints : [Pas de XX, Pas de YY, ...]
output_spec : [Taille, Niveau de qualité, Format]
La bonne façon de réutiliser les modèles
Ne copiez pas et ne collez pas tout le paragraphe du prompt. Fixez plutôt le squelette du modèle (scène, composition, éclairage, contraintes) et ne remplacez que la partie de description du produit.
Par exemple, si vous avez un modèle mature "d'image principale sur fond blanc" :
[Description du produit], fond blanc pur sans couture, de face légèrement tourné de 10 degrés vers la gauche, sujet centré occupant 90 % du cadre,
éclairage de studio diffus et doux, reflets spéculaires contrôlés, ombre de contact naturelle,
pas d'accessoires supplémentaires, pas de filigranes, pas de logos fictifs, pas de texte supplémentaire,
1024x1024, quality=medium
Lors du changement de SKU, il vous suffit de remplacer le champ [Description du produit]. Gardez le reste inchangé. Cela garantit la cohérence visuelle de la marque tout en améliorant l'efficacité de la production.
Gestion des versions et traçabilité
Attribuez un identifiant unique à chaque modèle de prompt et enregistrez les informations suivantes :
- ID du modèle et numéro de version.
- Version de l'instantané du modèle utilisée.
- Paramètres de génération (niveau de qualité, taille).
- ID des images de référence d'entrée.
- Évaluation des résultats de sortie.
Ainsi, lorsque vous devez reproduire le style d'une certaine image, dépanner pourquoi une version a été rejetée par une plateforme, ou effectuer des tests de régression après une mise à niveau du modèle, tout est documenté.
Une liste de contrôle des mots "Efficaces" vs "Inefficaces"
Enfin, voici un guide de référence rapide pour vous aider à éviter ces mots de prompt "apparemment utiles mais en fait inutiles".
Les mots qui fonctionnent vraiment
| Objectif | Formulation recommandée |
|---|---|
| Texture réaliste | professional product photography, realistic textures, true-to-life materials |
| Contrôle de la composition | centered product, front-facing, 45-degree angle, macro close-up, top-down |
| Description de l'éclairage | soft diffused studio lighting, clean specular highlights, natural window light |
| Stabilité de l'édition | change only X, keep geometry/layout/color unchanged |
| Contrôle du modèle de main | one adult hand, natural grip, short clean nails, crop at wrist |
Les mots qui semblent utiles mais qui sont peu performants
| Formulation | Pourquoi c'est mauvais |
|---|---|
| 8K ultra realistic masterpiece | Remplissage de mots-clés vagues ; le modèle ne sait pas quel effet spécifique vous souhaitez. |
| Canon EOS R5 + 100mm macro | Les paramètres de l'appareil photo sont "interprétés de manière vague" et ont peu d'impact sur le résultat. |
| HDR, cinematic, award-winning | Trop large ; fait facilement pencher le style vers une affiche publicitaire plutôt que vers une image de produit. |
| best quality, highly detailed | Manque de direction spécifique ; équivaut à ne pas l'écrire. |
| Écrire directement "dans le style de [photographe vivant]" | Le modèle refusera, et cela comporte des risques juridiques. |
De "Générer des images" à "Générer des images de manière stable"
L'ingénierie des prompts n'est pas un travail ponctuel, mais un processus d'itération continue.
Mon conseil est : commencez par générer un lot d'images avec les prompts les plus simples pour découvrir à quoi ressemble "la performance par défaut du modèle dans cette catégorie". Ensuite, ajoutez progressivement des contraintes et des détails, en observant les changements apportés par chaque modification. N'écrivez pas un long prompt complexe dès le début, cela vous empêchera seulement de déterminer quelle partie a fonctionné.
Faites-le fonctionner d'abord, puis optimisez. C'est une solution universelle pour tous les problèmes d'ingénierie, et l'ingénierie des prompts ne fait pas exception.
Vous voulez essayer vous-même les différences entre divers prompts ? Allez sur gpt-image2ai.net et exécutez quelques séries de comparaisons en utilisant le même produit avec des prompts différents. Vous en apprendrez plus qu'en lisant dix articles.
![[fr] A Step-by-Step Guide to Production Workflows with GPT Image 2](https://gpt-image-2.live/blog-assets/f7f88ae7fe45ba37/hero-replicate.webp)
