Offre de lancement 2026
Annuel : jusqu'à 50% de réduction
00:00:00.00
Profiter de l'offre
GPT Image 2 AIGPT Image 2 AI
Bonnes pratiques

Comment évaluer la qualité des images GPT Image 2 : checklist pratique pour les équipes

G

GPT Image 2 Team

10 mai 2026

15 min read
Comment évaluer la qualité des images GPT Image 2 : checklist pratique pour les équipes

Un cadre opérationnel pour évaluer GPT Image 2 avec critères bloquants, contrôles sémantiques, métriques d’image, revue humaine, tests de robustesse et reporting prêt pour la CI.

Tableau de bord d'évaluation pour les contrôles GPT Image 2 de sortie quality

Évaluer le résultat GPT Image 2 quality n'est pas la même chose que demander si une image est impressionnante. Une belle image peut toujours fail faire l'affaire si le texte requis est mal orthographié, si une étiquette product est modifiée, si un bouton d'interface utilisateur est manquant, si un logo dérive ou si une modification modifie des parties de l'image qui étaient censées rester intactes.

Pour les équipes, la meilleure question est : GPT Image 2 peut-il réaliser ce workflow de manière suffisamment fiable pour être expédié ?

Cette question nécessite un système d’évaluation structuré. L’approche la plus utile est une model à trois couches :

  1. Portes rigides pour les exigences non négociables telles que le texte exact, la sécurité, les objets requis et la localité de modification.
  2. Notation au niveau dimensionnel pour l'alignement sémantique, le visuel quality, la précision spatiale, la cohérence de la marque et la préservation.
  3. Préférence humaine ou A/B review pour les décisions pour lesquelles les métriques automatisées ne suffisent pas.

Ne réduisez pas l’image quality à une note moyenne. Un seul score cache le mode d’échec qui compte réellement. Une affiche marketing avec une note visuelle de 4,6/5 mais un mauvais caractère dans le titre n'est pas « presque bonne » ; c'est un actif de production défaillant.

Cette liste de contrôle est conçue pour les acheteurs, les créateurs, les équipes product, les équipes de conception, les équipes d'assurance qualité et les équipes d'ingénierie qui ont besoin de comparer les résultats GPT Image 2 sur des flux de travail réels. Il préserve les seuils pratiques et la structure d'évaluation utilisés dans les tests d'image model sérieux, tout en évitant le piège courant d'une confiance excessive dans les métriques héritées telles que FID ou Inception Score.

Commencez par le flux de travail, pas par le modèle

Matrice de qualité pour GPT Image 2 les contrôles de texte, d'objet, d'espace, de localité et de sécurité

Avant de choisir des métriques, définissez le scénario. Une image product, une maquette d'interface utilisateur mobile, une affiche, une feuille de personnage et un schéma pédagogique medical ne font pas fail la même chose.

Si votre ensemble de données n'est pas encore spécifié, divisez d'abord l'évaluation en tranches scenario. Décidez ensuite quels contrôles sont importants pour chaque tranche.

DomaineCas d'utilisation courants de GPT Image 2Premiers quality contrôlesRemarques
ProduitPrises de vue product sur fond blanc, emballages, publicités, modifications des éléments de marqueTexte exact, étiquettes complètes, bords nets, modifications locales qui ne débordent pasIdéal pour les tests d'édition appariés et les critères bloquants
UXMaquettes d'interface utilisateur, écrans de flux, diagrammes d'architecture d'information, images de copie de boutonsComposants requis, hiérarchie de mise en page, texte exact du bouton, convivialitéLes portails de texte devraient passer avant les scores de beauté
CréatifVisuels clés de la publicité, bandes dessinées, storyboards, affiches, feuilles de personnagesCohérence du style, continuité narrative, texte lisible, cohérence de la marque ou des personnagesLa préférence humaine est très précieuse
MédicalIllustrations pédagogiques, visuels synthétiques de style médical, diagrammes de style casConfidentialité, risque de quasi-duplication, factualité, attributs cliniquement pertinentsLes cas d’utilisation et les normes réglementaires doivent être calibrés séparément
IndustrielEtiquettes équipements, illustrations de maintenance, fiches techniques, visuels conceptsExactitude du texte et des signes, relations spatiales, plausibilité des matériaux et des structuresLes tolérances de l'industrie doivent être définies avant le lancement

Si l'équipe dispose de ressources limitées, commencez par quatre tranches :

  • Affiches contenant beaucoup de texte
  • Maquettes d'interface utilisateur
  • Modifications d'images locales
  • Composition complexe prompts

Ces quatre catégories exposent de nombreux échecs importants en production : texte mal orthographié, éléments manquants, raisonnement spatial faible, surédition et suivi prompt superficiel.

Séparer les tests de génération des tests d'édition

L'évaluation GPT Image 2 doit être divisée en deux volets.

Les tests de génération commencent à partir d'un prompt et n'ont pas d'image de référence exacte. La question centrale est de savoir si l'image suit les prompt : objets, attributs, relations, nombre, style, texte et contraintes de sécurité.

Les tests d'édition partent d'une image d'entrée, parfois avec un masque ou une région cible. La question centrale est de savoir si le changement demandé s’est produit alors que tout le reste est resté stable. Modifier quality ne se résume pas simplement à « l'image finale est-elle belle ? » Il s'agit également de "le model a-t-il préservé l'identité, la mise en page, la forme du logo, les détails product et les régions intactes ?"

Pour les deux pistes, version à chaque exécution. Selon la documentation officielle OpenAI pour la génération d'images workflows, les équipes doivent prêter attention aux champs de configuration model tels que la sortie size, quality, le format et la compression, le cas échéant. Ne comparez pas les exécutions à moins que ces paramètres, règles de prétraitement et versions prompt ne soient verrouillés.

Au minimum, stockez :

ChampPourquoi c'est important
Versions model et modelEmpêche les modifications model masquées de ressembler à des modifications prompt
Version promptRend l’analyse de régression possible
size et qualityLa sortie quality peut varier selon la résolution et les paramètres quality
format de sortie et compressionLa compression JPEG/WebP peut modifier OCR, les métriques et les artefacts visuels
hachage de l'image d'entréeNécessaire pour la reproductibilité des modifications
hachage de l'ensemble de référenceObligatoire pour les tests appariés
Politique seedNécessaire lors de la comparaison de plusieurs candidats par prompt
juger la version promptLes juges automatisés font partie du système de mesure
version du livre de codes humainLes règles de l'annotateur doivent être stables
CI travail et git commitRend la décision vérifiable

Le cadre de qualité à trois niveaux

Couche 1 : Portes rigides

Les portes rigides sont des contrôles réussite/échec. Ils doivent être utilisés pour des exigences non négociables.

Portes rigides courantes :

  • Le texte requis est exactement correct.
  • Les objets requis sont présents.
  • Les objets interdits ou les contenus dangereux sont absents.
  • L'image ne viole pas les règles de marque ou de confidentialité.
  • Dans une tâche d'édition, les zones intactes restent inchangées.
  • Une étiquette product, un logo, un visage ou une région sensible à l'identité est préservé.
  • La sortie répond aux contraintes de format, d’arrière-plan et de recadrage requises.

Les ressources contenant beaucoup de texte méritent un traitement spécial. Si prompt requiert l'expression « Place Order » et que l'image indique « Place Odrer », la sortie échoue. Ne faites pas la moyenne avec la qualité visuelle.

Couche 2 : scores dimensionnels

Après les critères bloquants, notez la sortie dans toutes les dimensions. Une échelle de 0 à 5 ou de 1 à 5 fonctionne si chaque point est clairement défini.

Dimensions recommandées :

DimensionsQue demanderCible par défaut
Alignement sémantiqueL'image exprime-t-elle l'intention principale de prompt ?Au moins 4/5 de moyenne
Présence d'objetTous les objets clés sont-ils visibles ?Rappel d'objet clé au moins 0,95
Précision des attributsLes couleurs, les matériaux, les quantités et les étiquettes sont-ils liés aux bons objets ?Au moins 0,90
Précision des relations spatialesEst-ce que gauche/droite, dessus/dessous, devant/derrière et occlusion sont corrects ?Au moins 0,90
Rendu du texteLe texte requis est-il lisible et exact ?100 % pour le texte requis
Modifier la localitéEst-ce que seule la région demandée a changé ?Au moins 4/5 de moyenne
Préservation de l’identité ou de la marqueLes visages, les logos, les caractères et l'identité product sont-ils restés stables ?Au moins 4/5 de moyenne
Visuel qualityL'image est-elle exempte d'artefacts et est-elle utilisable en production ?Au moins 4/5 de moyenne

Le point important est que quality est décomposé. Un model peut être fort en termes de finition visuelle mais faible en termes de relations spatiales. Un autre peut bien conserver les images d’entrée mais avoir des difficultés avec la typographie exacte. L’évaluation devrait rendre ces différences visibles.

Couche 3 : Préférence humaine et tests A/B

La préférence humaine review est toujours nécessaire. Les mesures automatisées sont utiles, mais elles négligent de nombreuses préoccupations de production : le goût, l'équilibre de la mise en page, l'adéquation à la marque, le rendu crédible des matériaux et le sentiment de finition d'une conception.

Pour les tests A/B, randomisez le placement gauche/droite, masquez l'identité model et autorisez les égalités. Indiquez le taux win avec des intervalles de confiance plutôt que de simplement dire "Le modèle B se sentait mieux".

Utilisez les tests A/B pour :

  • Choisir entre les paramètres GPT Image 2.
  • Comparaison de GPT Image 2 avec un workflow existant.
  • Examen de creative quality après le passage des critères bloquants.
  • Décider si une révision prompt a amélioré le résultat.

Sélection métrique pratique

N'utilisez pas toutes les métriques d'image simplement parce qu'elles existent. Choisissez des métriques en fonction du mode de défaillance.

MétriqueDirectionMeilleure utilisationPrincipal point fortPrincipale faiblesseSeuil pratique
FIDPlus bas c'est mieuxRégression au niveau de la distributionHistoriquement courant pour les distributions d'images généréesMauvaise efficacité de l'échantillon ; sensible au prétraitement ; faible pour les tâches modernes spécifiques aux invitesN'utilisez pas de seuil de rejet absolu ; comparer uniquement avec le même ensemble de référence et le même prétraitement
Inception ScorePlus haut c'est mieuxVérifications de génération sans référence héritéesSimpleNe se compare pas à la distribution réelle des données ; peut induire en erreur un classement précisNe pas utiliser comme porte de déverrouillage
LPIPSPlus bas c'est mieuxModifications et reconstruction appariéesPlus proche de la différence de perception que de l’erreur de pixelNécessite une référence jumelée ; non comparable entre des tâches non liées<= 0,20 acceptable, <= 0,10 fort
CLIPScorePlus haut c'est mieuxAlignement de l'image d'inviteFacile, aucun reference image requisPeut se comporter comme un sac de mots et passer à côté de relations complexesUtiliser des seuils relatifs, par exemple pas pire que 97 % de la valeur de référence
PSNRPlus haut c'est mieuxModifier la fidélité et la reconstructionPas cher et facile à interpréterMauvaise sensibilité perceptuelle>= 30 dB acceptable, >= 35 dB fort
SSIMPlus haut c'est mieuxPréservation structurelleMieux que PSNR pour la structureMoins utile pour les changements de style et les textures fines>= 0,90 acceptable, >= 0,95 fort
DISTSPlus bas c'est mieuxSupplément perceptuelPlus robuste aux compromis de texture et de structureMoins courant dans les piles de production que SSIM ou LPIPSUtiliser comme régression relative, pas comme porte absolue

FID et Inception Score ne doivent pas être la principale porte de sortie pour les workflows GPT Image 2. Ils peuvent aider à surveiller la dérive au niveau de la distribution au fil du temps, mais ils ne permettent pas de savoir si un prompt spécifique a été suivi, si le libellé d'un bouton est correct ou si une modification a modifié la mauvaise partie d'une image product.

Pour les contrôles sémantiques, utilisez une évaluation par questions-réponses ou par décomposition lorsque cela est possible :

  • Vérifications de style TIFA pour la cohérence des objets, des attributs, du nombre et des faits.
  • Vérifications de style VQAScore pour la cohérence des images d'invite grâce à une réponse visuelle aux questions.
  • Vérifications de style GenEval pour la présence, le nombre, la couleur et la position des objets.
  • Vérifications de style VISOR pour les relations spatiales.
  • Vérifications de style I-HallA pour détecter les hallucinations factuelles dans le contenu de l'image.

Ces approches sont précieuses car elles permettent de briser les échecs. Au lieu d'un score de similarité, vous obtenez des réponses telles que « l'objet est présent, la couleur est fausse et la relation spatiale a échoué ».

Liste de contrôle sémantique, sécurité et robustesse

Utilisez ce tableau comme valeur par défaut pratique.

VérifierSignalisation automatiséeQuestion humaine reviewSeuil par défaut
Alignement des légendesCLIPScore ou juge de style VQAScoreL'image exprime-t-elle l'intention principale de prompt ?Pas inférieur à 97 % de la valeur de référence
Présence d'un objet cléTIFA ou vérifications de style GenEvalTous les objets requis sont-ils présents ?Rappel >= 0,95
Liaison d'attributVérifications de type TIFA, GenEval ou T2I-CompBenchLa couleur, le matériau, le nombre et le texte sont-ils liés au bon objet ?Précision >= 0,90
Relations spatialesVISOR ou VQA promptsEst-ce que gauche/droite, dessus/dessous, avant/arrière et occlusion sont corrects ?Précision >= 0,90
Rendu du texteOCR plus correspondance exacte ou juge reviewLe texte requis est-il exact ?100 % pour le texte requis
Modifier la localitéDiff jumelé plus juge humainLes régions intactes sont-elles restées inchangées ?Moyenne >= 4/5
Identité et marqueVérification de similarité et culture locale reviewLe visage, le logo, le type et l'identité product sont-ils restés stables ?Moyenne >= 4/5

La sécurité et les préjugés doivent être évalués séparément de la beauté de l’image.

RisqueComment testerType de résultat
Contenu préjudiciableExécutez prompt et filtrez les résultats ; équipe rouge à haut risque promptsRéussite/échec
Confidentialité ou sortie quasi-dupliquéeUtilisez des intégrations, des hachages perceptuels ou une recherche du voisin le plus proche par rapport aux ressources internesRéussite/révision
Hallucination factuelleUtilisez des contrôles de type VQA pour les allégations factuelles0-1 ou 0-100
Biais de groupeUtilisez des prompts contrefactuels qui changent uniquement le sexe, l'âge, l'origine ethnique ou la profession.Score de différence
Utilisation abusive de la marque ou personnelleAppliquez un review plus strict aux personnes réelles, aux marques, aux pièces d'identité et aux images de style médical.Réussite/échec

Une image de haute qualité n’est pas automatiquement une image à faible risque. La méthode pratique d'équipe consiste en des tests contrefactuels : gardez le prompt constant et modifiez uniquement l'attribut du groupe, puis vérifiez si la profession, la posture, les vêtements, l'âge ou le teint changent systématiquement.

Matrice de test de robustesse

Ne testez pas un seul paramètre de sortie. GPT Image 2 quality peut changer lorsque la résolution, la compression, quality ou le contexte d'édition changent.

Utilisez une petite matrice :

VariableValeurs suggérées
Résolution1024x1024, 1536x1024, 2048x2048, 3840x2160 là où pris en charge
Qualitélow, medium, high là où ils sont pris en charge
CompressionPNG, JPEG/WebP 95, 85, 70
Pipeline à grande échelleOriginal, sous-échantillonné, sous-échantillonné puis suréchantillonné
Occlusion et recadrage10 %, 25 %, 40 % d'occlusion aléatoire ; cultures de bordure ; cultures locales
GrainesAu moins 3 candidats par prompt
Modifier les entréesDifférents niveaux d'image d'entrée quality et zones de recadrage

Ce n'est pas de la bureaucratie. Cela empêche une équipe de passer un model dans une condition parfaite et de découvrir ensuite un échec dans le pipeline d'actifs réels.

Protocole d'évaluation humaine

Le review humain devient décisionnel uniquement lorsque le protocole est stable.

Utilisez cette valeur par défaut :

  • Au moins 100 prompts par scenario.
  • Au moins 3 graines par prompt.
  • Au moins 3 annotateurs par image.
  • Utilisez 5 annotateurs pour les catégories à haut risque telles que medical, les workflows sensibles à la confidentialité, aux aspects juridiques, sensibles à l'identité ou critiques pour la marque.
  • Séparez les questions difficiles de la notation Likert.
  • Utilisez des tests aveugles A/B lorsque vous comparez les versions.
  • Autoriser tie et les options incertaines.

Évitez les échelles de notation paresseuses telles que « 1 = mauvais, 5 = bon ». Définissez chaque point.

Exemple d'échelle d'alignement :

ScoreDéfinition
1Ne correspond absolument pas au prompt
2Ne correspond que légèrement au prompt
3Correspond partiellement, avec des omissions ou des erreurs importantes
4Correspond presque entièrement, avec des problèmes mineurs
5Correspond parfaitement au prompt

Exemple d'échelle visuelle quality :

ScoreDéfinition
1Visiblement cassé ou inutilisable
2Visiblement défectueux
3Acceptable pour une utilisation en projet
4Bon et probablement utilisable
5Production proche d'un professionnel quality

Le guide d'annotation doit également définir :

  • Quelles prompt parties sont des contraintes strictes.
  • Si un objet requis manquant est un échec.
  • Si un mauvais caractère de texte est un échec.
  • Comment juger les relations spatiales, la quantité et la liaison des couleurs.
  • Indique si les ajouts creative sont autorisés.
  • Ce qui compte comme une modification non demandée.
  • La différence entre l’exactitude approximative et exacte.
  • Quand les annotateurs peuvent choisir tie ou ne pas être sûrs.

Sans ces règles, l’évaluation n’est pas seulement bruyante. Ce n’est pas reproductible.

Taille de l'échantillon et rapports statistiques

De petites évaluations peuvent être utiles pour le débogage, mais elles ne doivent pas guider les décisions de lancement.

Règles pratiques :

  • Avec moins de 100 prompts, les comparaisons model peuvent facilement s'inverser.
  • Pour un taux binaire pass avec un intervalle de confiance de 95 % autour de plus ou moins 5 %, l'échantillon conservateur size est d'environ 384 échantillons.
  • Si le taux pass attendu est d'environ 85 %, environ 196 échantillons peuvent atteindre une plage d'erreur similaire.
  • Pour un test de préférence A/B où l'avantage attendu est d'environ 60/40, prévoyez environ 200 comparaisons appariées valides.
  • Une préférence 65/35 plus forte nécessite moins d'échantillons, mais nécessite néanmoins une couverture suffisante dans tous les scénarios.

Déclarez plus que la moyenne :

ObjectifMétrique principaleTest suggéréRapport
Porte de déverrouillageTarif SMS ou sécurité passIntervalle binomial exact ou test à deux proportionsTaux de réussite, 95 % CI, différence absolue
Préférence A/BTaux de victoire, en ignorant les égalitésTest binomial exactTaux de victoire, 95 % CI, valeur p
Score Likert associéAlignement, quality, localitéWilcoxon signed-rankDifférence médiane, valeur p, effet size
Groupes Likert indépendantsComparaison scénario ou modèle-familleMann-Whitney UDifférence de distribution, valeur p
Accord d'annotateurKrippendorff's alpha pour les étiquettes ordinalesEstimation de fiabilitéValeur alpha

Utilisez alpha = 0,05, recto verso, sauf si votre équipe a une raison écrite de faire autrement. Si vous signalez plusieurs statistiques principales, appliquez une correction de comparaison multiple. Pour l'accord de l'annotateur, Krippendorff's alpha >= 0,80 est un objectif fiable ; 0,667 à 0,80 doit être traité comme provisoire.

Automatisation et reproductibilité

Le système d'évaluation doit être versionné comme le code product. Un bon pipeline ressemble à ceci :

  1. Définissez des tranches scenario et des niveaux de risque.
  2. Créez prompts, saisissez des images, des masques et des échantillons de référence.
  3. Générez des lots selon les paramètres size, quality, format, compression et seed.
  4. Exécutez des portes strictes pour le texte, la présence d'objets, la sécurité et la modification de la localité.
  5. Exécutez des métriques automatiques telles que LPIPS, SSIM, CLIPScore, des vérifications de style TIFA, des vérifications de style VQAScore, des vérifications de style GenEval et des vérifications de style VISOR.
  6. Envoyez les sorties limites et échantillonnées à un examen humain.
  7. Exécutez des tests statistiques et des vérifications d’accord des annotateurs.
  8. Publiez un tableau de bord affichant les échecs par scenario, type d'échec et configuration.
  9. Stockez les cas d’échec et utilisez-les pour améliorer les prompts, les masques ou les règles workflow.

Catégories d'outils utiles :

Catégorie d'outilsExemples d'outilsObjectif
Métriques d'imageTorchMetrics, PIQFID, EST, LPIPS, CLIPScore, PSNR, SSIM, DISTS, NIQE
Évaluation sémantiqueTIFA, VQAScore, GenEval, ensembles de tests de style VISORVérifications d'objet, d'attribut, de décompte, spatiales et de fidélité aux invites
Gestion des versionsDVC, git, stockage des artefactsVersion prompts, images, références, métriques et résultats
CIGitHub Actions ou équivalentExécutez des tests de régression et bloquez les versions
Tableau de bordTableau de bord BI ou rapport interneAfficher les tarifs pass, la répartition des scores, les coûts, la latence et les cas d'échec

Le tableau de bord ne doit pas afficher uniquement une moyenne globale. Au minimum, ventilez les résultats par :

  • Scénario
  • Type de panne
  • Taille
  • Paramètre de qualité
  • Compression
  • Famille rapide
  • Niveau de risque
  • Version du modèle

Suivez également les mesures des opérations. Si des paramètres de haute qualité doublent la latence ou le coût tout en n’améliorant que légèrement les préférences humaines, il s’agit d’une décision product et pas seulement d’un résultat de recherche.

Exemple de schéma d'évaluation

Un simple schéma CSV ou JSON permet à l'évaluation de rester auditable.

ChampTapezSignification
run_idstringID de l'exécution d'évaluation
prompt_idstringIdentifiant prompt unique
scenariostringproduct, ux, creative, medical ou industrial
risk_tierstringlow, medium ou high
prompt_textstringOriginal prompt
modelstringNom du modèle
model_versionstringVersion du modèle
sizestringRésultat size
qualitystringParamètre de qualité
output_formatstringpng, jpeg ou webp
output_compressionintValeur de compression
seedintID de stratégie seed ou seed du candidat
reference_idstringRéférence pour les tests appariés
gate_instructionint0 ou 1
gate_text_exactint0 ou 1
gate_safetyint0 ou 1
object_presencefloat0 à 1
attribute_accuracyfloat0 à 1
spatial_accuracyfloat0 à 1
locality_scorefloat0 à 5
visual_qualityfloat0 à 5
human_pref_winstringwin, loss ou tie
annotator_idstringID de l'évaluateur humain
rationalestringCourte raison
latency_msintLatence de génération
cost_estimatefloatCoût estimé
overall_verdictstringpass, review ou fail

Liste de contrôle finale de l'équipe

Avant de traiter GPT Image 2 comme étant prêt pour la production pour un workflow, confirmez que vous avez effectué les opérations suivantes :

  1. Définition de l'objectif de publication : sélection model, régression ou porte de lancement.
  2. Définition de tranches scenario et de niveaux de risque.
  3. Contraintes strictes écrites pour les objets requis, le texte requis, le contenu interdit et les régions sans modification.
  4. Construit un ensemble prompt avec des exemples normaux, des exemples de défis et des exemples de sécurité ou de préjugés.
  5. Généré au moins 3 candidats par invite.
  6. Testé au moins deux paramètres size et deux paramètres quality lorsqu'ils sont pris en charge.
  7. Exécutez les portes de texte, d'objet, de sécurité et de localité d'édition avant d'examiner la qualité moyenne.
  8. Alignement sémantique mesuré, présence d'objet, liaison d'attributs, relations spatiales et quality visuel séparément.
  9. Utilisé review humain pour creative l'ajustement, l'ajustement de la marque et les cas limites.
  10. Intervalles de confiance rapportés, tailles d'effet, signification statistique et accord des annotateurs.
  11. prompts versionné, images, paramètres, métriques, juge prompts, manuels de codes humains et scripts.
  12. Création d'un tableau de bord qui montre pourquoi les résultats ont échoué, et pas seulement qu'ils ont échoué.

La version courte : évaluez GPT Image 2 avec des portes workflow, une décomposition sémantique, review humaine, une discipline statistique et une régression versionnée. Ne laissez pas un score moyen impeccable cacher un échec de production.


Try GPT Image 2 for Free Now →

Articles liés