Ich werde immer wieder mit derselben Frage konfrontiert: „Warum sind meine mit GPT Image 2 generierten Bilder nie so gut, wie ich es mir wünsche?"
Ich werde immer wieder mit derselben Frage konfrontiert: „Warum sind meine mit GPT Image 2 generierten Bilder nie so gut, wie ich es mir wünsche?"
Die kurze Antwort lautet – dein Prompt ist nicht gut genug.
Die ausführlichere Antwort: Die Bildgenerierungsfähigkeiten von GPT Image 2 haben sich massiv verbessert, doch die Prompt-Qualität der meisten Nutzer ist nicht Schritt gehalten. Das Problem liegt nicht beim Modell, sondern in der Art und Weise, wie du mit dem Modell kommunizierst.
Dieser Artikel liefert eine wiederverwendbare Prompt-Strukturformel, mit der du Motiv, Stil, Beleuchtung, Komposition und Ausgabeparameter zuverlässiger steuern kannst. Wir behandeln Vorlagen für 10 häufige Szenarien, die du direkt anpassen und verwenden kannst.
Warum GPT Image 2 Prompt Engineering benötigt
GPT Image 2 arbeitet am besten mit klaren, natürlichsprachlichen Beschreibungen des gewünschten Bildes. Entscheidend ist dabei: Die tatsächliche Ausgabequalität des Modells hängt stark von der Qualität deines Prompts ab.
Ein und dieselbe Anforderung kann mit unterschiedlichen Prompts zu völlig verschiedenen Ergebnissen führen.
Schlechter Prompt:
"一只猫"
Guter Prompt:
"一只橘色虎斑猫坐在窗台上,阳光从左侧45度角照射,背景是模糊的城市夜景,浅景深效果,温暖色调,专业宠物摄影风格"
Der Unterschied liegt meist nicht nur im Detailreichtum, sondern darin, ob das Motiv korrekt dargestellt wird, die Komposition brauchbar ist und der Stil den Erwartungen entspricht.
GPT Image 2 eignet sich besonders gut für strukturierte Prompts. Das Modell geht über die reine Stichworterkennung hinaus und interpretiert Szenenlogik sowie fehlende Details aus dem Kontext. Je klarer dein Prompt ist, desto leichter fällt es dem Modell, ein Bild zu erzeugen, das deiner Vorstellung entspricht.
Prompt-Strukturformel
Ein stabiler Bild-Prompt lässt sich in der Regel in 5 Elemente zerlegen:
主体(Subject)+ 风格(Style)+ 光线(Lighting)+ 构图(Composition)+ 参数(Parameters)
Detaillierte Erklärung der einzelnen Dimensionen:
1. Motiv (Subject)
Das Motiv ist das zentrale Objekt des Bildes. Die Beschreibung sollte konkret und präzise sein.
Negativbeispiel:
- „Eine Person" → zu vage
- „Eine Frau" → besser, aber noch nicht ausreichend
Positivbeispiel:
- „Eine asiatische Frau um die 30, mit langem schwarzem Haar, weißem Hemd, sitzend an einem Schreibtisch mit Laptop"
- „Ein Golden Retriever mit offenem Maul und herausgestreckter Zunge, der einem Frisbee nachjagt"
Wichtige Tipps:
- Alter, Geschlecht, Ethnie, Kleidung, Bewegung und andere Details angeben
- Konkrete Substantive statt vage Oberbegriffe verwenden
- Emotionen und Körperhaltung beschreiben
2. Stil (Style)
Der Stil definiert die künstlerische Darstellungsform des Bildes.
Häufige Stiloptionen:
- Fotorealistisch:
photorealistic,professional photography,8K resolution - Illustration:
digital illustration,watercolor painting,oil painting - 3D-Rendering:
3D render,Unreal Engine 5,octane render - Flächiges Design:
flat design,minimalist,vector art - Anime:
anime style,manga,Studio Ghibli style
Beispiele:
"产品摄影风格,白色背景,柔和的工作室灯光"
"赛博朋克风格,霓虹灯光,雨夜街道"
"水彩插画风格,柔和的色彩渐变,手绘质感"
3. Beleuchtung (Lighting)
Die Beleuchtung bestimmt die Atmosphäre und Textur des Bildes.
Beleuchtungsarten:
- Natürliches Licht:
natural lighting,golden hour,overcast soft light - Studiobeleuchtung:
studio lighting,soft box,rim light - Dramatisches Licht:
dramatic lighting,chiaroscuro,backlit - Umgebungslicht:
ambient lighting,neon glow,candlelight
Beispiele:
"黄金时段的自然光,温暖的橙色调"
"工作室环形灯,均匀的面部照明"
"逆光剪影效果,强烈的明暗对比"
4. Komposition (Composition)
Die Komposition steuert die Positionierung und Beziehung der Bildelemente.
Kompositionstechniken:
- Blickwinkel:
bird's eye view,low angle shot,close-up,wide shot - Kompositionsregeln:
rule of thirds,centered composition,symmetrical - Schärfentiefe:
shallow depth of field,bokeh background,deep focus - Objektiv:
35mm lens,macro lens,fisheye lens
Beispiele:
"特写镜头,浅景深,背景虚化"
"俯视角度,对称构图"
"广角镜头,前景、中景、背景层次分明"
5. Parameter (Parameters)
Parameter sind technische Einstellungen beim API-Aufruf.
Häufig verwendete Parameter:
size: Bildgröße (z. B. 1024x1024, 1536x1024)quality: Qualitätsstufe (standard, hd)style: Stilvorgabe (vivid, natural)n: Anzahl der generierten Bilder
Beispiel:
{
"size": "1536x1024",
"quality": "hd",
"style": "natural",
"n": 1
}
10 Prompt-Vorlagen für häufige Szenarien
Nachfolgend findest du 10 Prompt-Vorlagen für typische Einsatzszenarien, die du direkt verwenden kannst:
1. Produktfoto auf weißem Hintergrund
Einsatzbereich: E-Commerce-Produktdarstellung, Katalogfotos
Vorlage:
"[产品名称],[产品细节描述],纯白色背景,产品摄影风格,柔和的工作室灯光,无阴影,高分辨率,商业产品摄影"
Beispiel:
"无线蓝牙耳机,黑色磨砂质感,充电盒打开状态,纯白色背景,产品摄影风格,柔和的工作室灯光,无阴影,8K分辨率,商业产品摄影"
2. Szenenbezogenes Marketingbild
Einsatzbereich: Social-Media-Werbung, Markenwerbung
Vorlage:
"[产品/主题] 在 [使用场景] 中,[人物/环境描述],[氛围描述],[光线描述],[风格描述]"
Beispiel:
"智能手表在户外跑步场景中,年轻男性佩戴,城市公园背景,清晨阳光,充满活力的氛围,专业运动摄影风格"
3. Porträtfoto
Einsatzbereich: Profilbilder, Personenporträts, soziale Medien
Vorlage:
"[人物描述],[表情/情绪],[服装描述],[背景描述],[光线描述],[构图描述],专业人像摄影"
Beispiel:
"30岁左右的亚洲女性,自信的微笑,穿着深蓝色西装,简约的办公室背景,柔和的侧光,半身特写,专业商务人像摄影"
4. Illustration / Cartoon
Einsatzbereich: Kinderbücher, Blog-Illustrationen, Maskottchen
Vorlage:
"[角色/场景描述],[艺术风格],[色彩方案],[氛围描述]"
Beispiel:
"一只可爱的卡通小熊在森林里野餐,迪士尼动画风格,明亮的色彩,温馨愉快的氛围"
5. UI/UX-Designmockup
Einsatzbereich: Produktprototypen, Designpräsentationen
Vorlage:
"[界面类型] 界面设计,[功能描述],[设计风格],[配色方案],[设备展示]"
Beispiel:
"移动端电商应用界面设计,商品详情页,现代简约风格,蓝白配色,iPhone 15 Pro 展示,高保真原型"
6. Social-Media-Coverbild
Einsatzbereich: YouTube-Miniaturansichten, Instagram-Beiträge, Twitter-Kopfbild
Vorlage:
"[主题描述],[视觉元素],[文字位置预留],[风格描述],[尺寸比例]"
Beispiel:
"科技产品发布会封面,未来感十足的蓝色渐变背景,中央留白用于标题文字,现代科技风格,16:9横版比例"
7. Markenlogo
Einsatzbereich: Unternehmenslogo, Markenidentität
Vorlage:
"[品牌名称/概念] Logo 设计,[图形元素描述],[字体风格],[配色方案],[设计风格],矢量图,白色背景"
Beispiel:
"NovaTech Logo 设计,抽象的火箭图形,现代无衬线字体,深蓝色和银色配色,极简主义风格,矢量图,白色背景"
8. Food-Fotografie
Einsatzbereich: Restaurantmenüs, Food-Blogs, Lebensmittelverpackungen
Vorlage:
"[食物名称],[摆盘描述],[餐具/环境描述],[光线描述],[风格描述],专业美食摄影"
Beispiel:
"意大利面配番茄酱和罗勒叶,白色陶瓷盘盛放,木质餐桌背景,自然窗光,暖色调,专业美食摄影,浅景深"
9. Architektur / Inneneinrichtung
Einsatzbereich: Immobilienpräsentationen, Designvorschläge, Konzeptvisualisierung
Vorlage:
"[建筑/空间类型],[风格描述],[材料/色彩描述],[光线描述],[视角描述],建筑摄影"
Beispiel:
"现代简约风格客厅,白色墙壁和原木家具,大面积落地窗,自然光线充足,广角镜头视角,建筑室内摄影"
10. Concept Art
Einsatzbereich: Spiele-Grafiken, Filmkonzeptbilder, kreative Projekte
Vorlage:
"[场景/角色描述],[世界观/风格描述],[氛围描述],[技术规格],概念艺术"
Beispiel:
"未来城市天际线,霓虹灯和飞行汽车,赛博朋克世界观,雨夜氛围,8K分辨率,电影级概念艺术,Matte Painting风格"
Wie API-Parameter die Ergebnisse beeinflussen
Neben dem Prompt-Inhalt beeinflussen auch die API-Parameter das Generierungsergebnis direkt.
Size (Größe)
Häufige Größen und Einsatzbereiche:
1024x1024: Quadratisch, geeignet für Social-Media-Beiträge und Profilbilder1536x1024: Querformat, geeignet für Blog-Illustrationen und Präsentationen1024x1536: Hochformat, geeignet für Smartphone-Hintergründe und Poster1792x1024: Breitbild, geeignet für YouTube-Miniaturansichten und Bannerwerbung
Empfehlung: Wähle die Größe entsprechend dem Verwendungszweck, um Inhaltsverluste durch nachträgliches Zuschneiden zu vermeiden.
Quality (Qualität)
Optionen im Vergleich:
standard: Schnelle Generierung, geringere Kosten, geeignet für Prototyping und schnelle Iterationenhd: Mehr Details, schärfere Kanten, geeignet für Endauslieferung und Druck
Abwägung: HD-Qualität benötigt mehr Generierungszeit und verursacht höhere Kosten. Es empfiehlt sich, in der Iterationsphase standard zu verwenden und für die Endversion auf hd umzuschalten.
Style (Stil)
Optionen im Vergleich:
vivid: Gesättigtere Farben, stärkerer Kontrast, geeignet für Marketingmaterialien und soziale Mediennatural: Realistischere Farbwiedergabe, geeignet für Produktfotografie und dokumentarischen Stil
Empfehlung: Entscheide auf Basis der Markenidentität und des Einsatzbereichs.
N (Anzahl)
Strategie:
n=1: Einzelerzeugung, geeignet bei eindeutigen Anforderungenn=2-4: Batch-Generierung, geeignet wenn das beste Ergebnis aus mehreren ausgewählt werden soll
Kostentipp: Je höher der Wert von n, desto höher die Kosten. Es empfiehlt sich, den Prompt zunächst mit n=1 zu testen und erst bei Zufriedenheit in größerer Stückzahl zu generieren.
Iterativer Optimierungsprozess
Selten liefert ein Prompt beim ersten Versuch perfekte Ergebnisse. Hier ist eine 5-Schritte-Methode zur iterativen Optimierung:
Schritt 1: Erstversion erzeugen
Erzeuge mit einem Basis-Prompt die erste Version des Bildes und bewerte, ob die grundlegende Richtung stimmt.
Schritt 2: Problemdiagnose
Häufige Problemkategorien:
- Falsche Farben: Fehlende oder vage Farbbeschreibungen
- Kompositionsabweichungen: Fehlende Angaben zu Blickwinkel, Schärfentiefe oder Elementpositionierung
- Stilabweichung: Stilschlüsselwörter zu unpräzise
- Fehlende Details: Motivbeschreibung nicht ausführlich genug
Schritt 3: Prioritätsanpassung
Prioritätenfolge bei Prompt-Änderungen:
- Motivbeschreibung (höchste Priorität): Sicherstellen, dass das Kernobjekt korrekt ist
- Stildefinition (hohe Priorität): Künstlerische Ausrichtung festlegen
- Beleuchtungsanpassung (mittlere Priorität): Atmosphäre optimieren
- Kompositionsoptimierung (mittlere Priorität): Visuelle Führung verbessern
- Parameterfeinabstimmung (niedrige Priorität): Technische Details optimieren
Schritt 4: Inkrementelle Änderungen
Ändere bei jedem Durchlauf nur eine einzige Variable und beobachte die Wirkung. Vermeide es, mehrere Elemente gleichzeitig zu ändern – sonst lässt sich nicht feststellen, welche Änderung das Ergebnis beeinflusst hat.
Schritt 5: Freigabe bei Zufriedenheit
Das Bild gilt als optimiert, wenn folgende Bedingungen erfüllt sind:
- Das Motiv ist klar und korrekt dargestellt
- Der Stil entspricht den Erwartungen
- Detailreichtum vorhanden, keine offensichtlichen Fehler
- Direkt einsatzbereit im Zielszenario
Häufige Fehler und wie man sie vermeidet
Fehler 1: Übermäßige Beschreibung
Problem: Der Prompt ist zu lang, zu detailliert und enthält zu viele irrelevante Informationen.
Negativbeispiel:
"一只非常可爱的、毛茸茸的、橘色的、虎斑纹的、家猫,它有一双大大的、圆圆的、绿色的眼睛,正在窗台上..."
Lösung: Fokussiere dich auf die Schlüsselmerkmale und entferne redundante Adjektive.
Fehler 2: Ausschlüsse nicht angeben
Problem: Unerwünschte Elemente werden nicht explizit ausgeschlossen.
Lösung: Formuliere klar, was nicht im Bild enthalten sein soll:
"不要包含文字,不要模糊,不要变形"
Fehler 3: Unpassende Parametereinstellungen
Problem: Bildgröße passt nicht zum Verwendungszweck, Qualitätsstufe ist unangemessen.
Lösung: Parameter an den Endverwendungszweck anpassen – zuerst mit Standardeinstellungen testen und bei Zufriedenheit auf höhere Qualität umschalten.
Fehler 4: Konsistenz ohne Referenzbild erwarten
Problem: Mehrere Bilder sollen im gleichen Stil gehalten werden, aber jeder Prompt ist unterschiedlich formuliert.
Lösung: Referenzbilder in Kombination mit Textbeschreibungen verwenden oder eine Stilvorlage erstellen.
Fortgeschrittene Techniken
1. Prompt-Optimierung im Mehr-Runden-Dialog
GPT Image 2 unterstützt mehrstufige Dialoge. So funktioniert es:
- Erzeuge eine Erstversion des Bildes
- Gib auf Basis des Ergebnisses Änderungswünsche ein
- Das Modell behält den Kontext bei und nimmt inkrementelle Änderungen vor
Beispiel:
第一轮:"生成一张现代风格的办公桌"
第二轮:"把桌子颜色改成深胡桃木色"
第三轮:"在桌上添加一台笔记本电脑和一杯咖啡"
2. Kombination aus Referenzbild und Textbeschreibung
Lade ein Referenzbild hoch und kombiniere es mit einer Textbeschreibung, um die Ausgabe präziser zu steuern.
Beispiel:
图片:[上传一张产品照片]
文字:"保持产品外观,将背景改为海滩场景,添加夕阳效果"
3. Stiltransfer per Prompt
Wende einen bestimmten Stil auf anderen Inhalt an.
Beispiel:
"用梵高的《星空》风格绘制上海外滩夜景"
"用日本浮世绘风格绘制现代城市天际线"
Häufig gestellte Fragen
Q1: Worin unterscheiden sich die Prompts von GPT Image 2 und DALL-E 3?
GPT Image 2 legt bei Prompts mehr Wert auf Strukturierung und Detailbeschreibungen. DALL-E 3 versteht kurze Prompts besser, während GPT Image 2 aus detaillierten Prompts mehr Informationen extrahieren kann. Es empfiehlt sich, die 5-Elemente-Formel aus diesem Artikel zu verwenden.
Q2: Wie erzeuge ich mit GPT Image 2 eine Bilderserie im einheitlichen Stil?
Erstelle eine Stilvorlage mit festgelegten Stil-, Beleuchtungs- und Kompositionsbeschreibungen. Verwende diese Beschreibungen bei jeder Generierung wieder und passe nur das Motiv an. Alternativ kannst du die Referenzbild-Funktion nutzen.
Q3: Wie lang sollte ein Prompt sein?
Es gibt keine feste Längenvorgabe. Entscheidend sind Qualität statt Quantität. Ein präziser 50-Wort-Prompt erzielt oft bessere Ergebnisse als ein 200-Wort-Prompt voller Fülltext. Ein Umfang von 100–200 Wörtern ist empfehlenswert.
Q4: Wie gehe ich mit Textrendering-Problemen im Generierungsergebnis um?
Die Textdarstellung bei GPT Image 2 hat sich deutlich verbessert, kann aber dennoch Fehler aufweisen. Empfehlungen:
- Einfache, gängige Wörter verwenden
- Lange Sätze vermeiden
- Text als nachträglich hinzuzufügendes Element behandeln, nicht als Kernbestandteil der Generierung
Q5: Wie unterscheidet sich die Prompt-Strategie bei niedrigem und hohem Budget?
Die Strategie an sich bleibt gleich, der Unterschied liegt in der Ressourcenverteilung:
- Bei knappem Budget empfiehlt es sich, die Richtung zunächst mit kleiner Größe und niedrigeren Kosten zu validieren
- Bei großem Budget können mehrere Kandidatenbilder auf einmal erzeugt werden – trotzdem sollten Kosten und Trefferquote dokumentiert werden
- Vor der finalen Auslieferung auf Zielgröße und Zielqualität umschalten und bestätigen
Fazit
Prompt Engineering bei GPT Image 2 ist keine Zauberei, sondern eine Fähigkeit, die sich systematisch erlernen und optimieren lässt.
Merke dir die 5-Elemente-Formel: Motiv + Stil + Beleuchtung + Komposition + Parameter.
Beginne mit den 10 Szenariovorlagen aus diesem Artikel und passe sie an deine spezifischen Anforderungen an.
Iterative Optimierung ist der Schlüssel – selten gelingt ein perfekter Prompt beim ersten Versuch.
Teste die Vorlagen aus diesem Artikel in deinem realen Arbeitsablauf. Ändere jeweils nur eine Variable und dokumentiere Prompt, Parameter und Ergebnis. So erfährst du schnell, welche Beschreibungen für dein Szenario funktionieren und welche nur Rauschen erzeugen.




