Ich werde immer wieder mit derselben Frage konfrontiert: „Warum sind meine mit GPT Image 2 generierten Bilder nie so gut, wie ich es mir wünsche?"

Die kurze Antwort lautet – dein Prompt ist nicht gut genug.

Die ausführlichere Antwort: Die Bildgenerierungsfähigkeiten von GPT Image 2 haben sich massiv verbessert, doch die Prompt-Qualität der meisten Nutzer ist nicht Schritt gehalten. Das Problem liegt nicht beim Modell, sondern in der Art und Weise, wie du mit dem Modell kommunizierst.

Dieser Artikel liefert eine wiederverwendbare Prompt-Strukturformel, mit der du Motiv, Stil, Beleuchtung, Komposition und Ausgabeparameter zuverlässiger steuern kannst. Wir behandeln Vorlagen für 10 häufige Szenarien, die du direkt anpassen und verwenden kannst.

Warum GPT Image 2 Prompt Engineering benötigt

GPT Image 2 arbeitet am besten mit klaren, natürlichsprachlichen Beschreibungen des gewünschten Bildes. Entscheidend ist dabei: Die tatsächliche Ausgabequalität des Modells hängt stark von der Qualität deines Prompts ab.

Ein und dieselbe Anforderung kann mit unterschiedlichen Prompts zu völlig verschiedenen Ergebnissen führen.

Schlechter Prompt:

"一只猫"

Guter Prompt:

"一只橘色虎斑猫坐在窗台上，阳光从左侧45度角照射，背景是模糊的城市夜景，浅景深效果，温暖色调，专业宠物摄影风格"

Der Unterschied liegt meist nicht nur im Detailreichtum, sondern darin, ob das Motiv korrekt dargestellt wird, die Komposition brauchbar ist und der Stil den Erwartungen entspricht.

GPT Image 2 eignet sich besonders gut für strukturierte Prompts. Das Modell geht über die reine Stichworterkennung hinaus und interpretiert Szenenlogik sowie fehlende Details aus dem Kontext. Je klarer dein Prompt ist, desto leichter fällt es dem Modell, ein Bild zu erzeugen, das deiner Vorstellung entspricht.

Prompt-Strukturformel

Ein stabiler Bild-Prompt lässt sich in der Regel in 5 Elemente zerlegen:

主体（Subject）+ 风格（Style）+ 光线（Lighting）+ 构图（Composition）+ 参数（Parameters）

Detaillierte Erklärung der einzelnen Dimensionen:

1. Motiv (Subject)

Das Motiv ist das zentrale Objekt des Bildes. Die Beschreibung sollte konkret und präzise sein.

Negativbeispiel:

„Eine Person" → zu vage
„Eine Frau" → besser, aber noch nicht ausreichend

Positivbeispiel:

„Eine asiatische Frau um die 30, mit langem schwarzem Haar, weißem Hemd, sitzend an einem Schreibtisch mit Laptop"
„Ein Golden Retriever mit offenem Maul und herausgestreckter Zunge, der einem Frisbee nachjagt"

Wichtige Tipps:

Alter, Geschlecht, Ethnie, Kleidung, Bewegung und andere Details angeben
Konkrete Substantive statt vage Oberbegriffe verwenden
Emotionen und Körperhaltung beschreiben

2. Stil (Style)

Der Stil definiert die künstlerische Darstellungsform des Bildes.

Häufige Stiloptionen:

Fotorealistisch: photorealistic, professional photography, 8K resolution
Illustration: digital illustration, watercolor painting, oil painting
3D-Rendering: 3D render, Unreal Engine 5, octane render
Flächiges Design: flat design, minimalist, vector art
Anime: anime style, manga, Studio Ghibli style

Beispiele:

"产品摄影风格，白色背景，柔和的工作室灯光"
"赛博朋克风格，霓虹灯光，雨夜街道"
"水彩插画风格，柔和的色彩渐变，手绘质感"

3. Beleuchtung (Lighting)

Die Beleuchtung bestimmt die Atmosphäre und Textur des Bildes.

Beleuchtungsarten:

Natürliches Licht: natural lighting, golden hour, overcast soft light
Studiobeleuchtung: studio lighting, soft box, rim light
Dramatisches Licht: dramatic lighting, chiaroscuro, backlit
Umgebungslicht: ambient lighting, neon glow, candlelight

Beispiele:

"黄金时段的自然光，温暖的橙色调"
"工作室环形灯，均匀的面部照明"
"逆光剪影效果，强烈的明暗对比"

4. Komposition (Composition)

Die Komposition steuert die Positionierung und Beziehung der Bildelemente.

Kompositionstechniken:

Blickwinkel: bird's eye view, low angle shot, close-up, wide shot
Kompositionsregeln: rule of thirds, centered composition, symmetrical
Schärfentiefe: shallow depth of field, bokeh background, deep focus
Objektiv: 35mm lens, macro lens, fisheye lens

Beispiele:

"特写镜头，浅景深，背景虚化"
"俯视角度，对称构图"
"广角镜头，前景、中景、背景层次分明"

5. Parameter (Parameters)

Parameter sind technische Einstellungen beim API-Aufruf.

Häufig verwendete Parameter:

size: Bildgröße (z. B. 1024x1024, 1536x1024)
quality: Qualitätsstufe (standard, hd)
style: Stilvorgabe (vivid, natural)
n: Anzahl der generierten Bilder

Beispiel:

{
    "size": "1536x1024",
    "quality": "hd",
    "style": "natural",
    "n": 1
}

10 Prompt-Vorlagen für häufige Szenarien

Nachfolgend findest du 10 Prompt-Vorlagen für typische Einsatzszenarien, die du direkt verwenden kannst:

1. Produktfoto auf weißem Hintergrund

Einsatzbereich: E-Commerce-Produktdarstellung, Katalogfotos

Vorlage:

"[产品名称]，[产品细节描述]，纯白色背景，产品摄影风格，柔和的工作室灯光，无阴影，高分辨率，商业产品摄影"

Beispiel:

"无线蓝牙耳机，黑色磨砂质感，充电盒打开状态，纯白色背景，产品摄影风格，柔和的工作室灯光，无阴影，8K分辨率，商业产品摄影"

2. Szenenbezogenes Marketingbild

Einsatzbereich: Social-Media-Werbung, Markenwerbung

Vorlage:

"[产品/主题] 在 [使用场景] 中，[人物/环境描述]，[氛围描述]，[光线描述]，[风格描述]"

Beispiel:

"智能手表在户外跑步场景中，年轻男性佩戴，城市公园背景，清晨阳光，充满活力的氛围，专业运动摄影风格"

3. Porträtfoto

Einsatzbereich: Profilbilder, Personenporträts, soziale Medien

Vorlage:

"[人物描述]，[表情/情绪]，[服装描述]，[背景描述]，[光线描述]，[构图描述]，专业人像摄影"

Beispiel:

"30岁左右的亚洲女性，自信的微笑，穿着深蓝色西装，简约的办公室背景，柔和的侧光，半身特写，专业商务人像摄影"

4. Illustration / Cartoon

Einsatzbereich: Kinderbücher, Blog-Illustrationen, Maskottchen

Vorlage:

"[角色/场景描述]，[艺术风格]，[色彩方案]，[氛围描述]"

Beispiel:

"一只可爱的卡通小熊在森林里野餐，迪士尼动画风格，明亮的色彩，温馨愉快的氛围"

5. UI/UX-Designmockup

Einsatzbereich: Produktprototypen, Designpräsentationen

Vorlage:

"[界面类型] 界面设计，[功能描述]，[设计风格]，[配色方案]，[设备展示]"

Beispiel:

"移动端电商应用界面设计，商品详情页，现代简约风格，蓝白配色，iPhone 15 Pro 展示，高保真原型"

Einsatzbereich: YouTube-Miniaturansichten, Instagram-Beiträge, Twitter-Kopfbild

Vorlage:

"[主题描述]，[视觉元素]，[文字位置预留]，[风格描述]，[尺寸比例]"

Beispiel:

"科技产品发布会封面，未来感十足的蓝色渐变背景，中央留白用于标题文字，现代科技风格，16:9横版比例"

7. Markenlogo

Einsatzbereich: Unternehmenslogo, Markenidentität

Vorlage:

"[品牌名称/概念] Logo 设计，[图形元素描述]，[字体风格]，[配色方案]，[设计风格]，矢量图，白色背景"

Beispiel:

"NovaTech Logo 设计，抽象的火箭图形，现代无衬线字体，深蓝色和银色配色，极简主义风格，矢量图，白色背景"

8. Food-Fotografie

Einsatzbereich: Restaurantmenüs, Food-Blogs, Lebensmittelverpackungen

Vorlage:

"[食物名称]，[摆盘描述]，[餐具/环境描述]，[光线描述]，[风格描述]，专业美食摄影"

Beispiel:

"意大利面配番茄酱和罗勒叶，白色陶瓷盘盛放，木质餐桌背景，自然窗光，暖色调，专业美食摄影，浅景深"

9. Architektur / Inneneinrichtung

Einsatzbereich: Immobilienpräsentationen, Designvorschläge, Konzeptvisualisierung

Vorlage:

"[建筑/空间类型]，[风格描述]，[材料/色彩描述]，[光线描述]，[视角描述]，建筑摄影"

Beispiel:

"现代简约风格客厅，白色墙壁和原木家具，大面积落地窗，自然光线充足，广角镜头视角，建筑室内摄影"

10. Concept Art

Einsatzbereich: Spiele-Grafiken, Filmkonzeptbilder, kreative Projekte

Vorlage:

"[场景/角色描述]，[世界观/风格描述]，[氛围描述]，[技术规格]，概念艺术"

Beispiel:

"未来城市天际线，霓虹灯和飞行汽车，赛博朋克世界观，雨夜氛围，8K分辨率，电影级概念艺术，Matte Painting风格"

Wie API-Parameter die Ergebnisse beeinflussen

Neben dem Prompt-Inhalt beeinflussen auch die API-Parameter das Generierungsergebnis direkt.

Size (Größe)

Häufige Größen und Einsatzbereiche:

1024x1024: Quadratisch, geeignet für Social-Media-Beiträge und Profilbilder
1536x1024: Querformat, geeignet für Blog-Illustrationen und Präsentationen
1024x1536: Hochformat, geeignet für Smartphone-Hintergründe und Poster
1792x1024: Breitbild, geeignet für YouTube-Miniaturansichten und Bannerwerbung

Empfehlung: Wähle die Größe entsprechend dem Verwendungszweck, um Inhaltsverluste durch nachträgliches Zuschneiden zu vermeiden.

Quality (Qualität)

Optionen im Vergleich:

standard: Schnelle Generierung, geringere Kosten, geeignet für Prototyping und schnelle Iterationen
hd: Mehr Details, schärfere Kanten, geeignet für Endauslieferung und Druck

Abwägung: HD-Qualität benötigt mehr Generierungszeit und verursacht höhere Kosten. Es empfiehlt sich, in der Iterationsphase standard zu verwenden und für die Endversion auf hd umzuschalten.

Style (Stil)

Optionen im Vergleich:

vivid: Gesättigtere Farben, stärkerer Kontrast, geeignet für Marketingmaterialien und soziale Medien
natural: Realistischere Farbwiedergabe, geeignet für Produktfotografie und dokumentarischen Stil

Empfehlung: Entscheide auf Basis der Markenidentität und des Einsatzbereichs.

N (Anzahl)

Strategie:

n=1: Einzelerzeugung, geeignet bei eindeutigen Anforderungen
n=2-4: Batch-Generierung, geeignet wenn das beste Ergebnis aus mehreren ausgewählt werden soll

Kostentipp: Je höher der Wert von n, desto höher die Kosten. Es empfiehlt sich, den Prompt zunächst mit n=1 zu testen und erst bei Zufriedenheit in größerer Stückzahl zu generieren.

Iterativer Optimierungsprozess

Selten liefert ein Prompt beim ersten Versuch perfekte Ergebnisse. Hier ist eine 5-Schritte-Methode zur iterativen Optimierung:

Schritt 1: Erstversion erzeugen

Erzeuge mit einem Basis-Prompt die erste Version des Bildes und bewerte, ob die grundlegende Richtung stimmt.

Schritt 2: Problemdiagnose

Häufige Problemkategorien:

Falsche Farben: Fehlende oder vage Farbbeschreibungen
Kompositionsabweichungen: Fehlende Angaben zu Blickwinkel, Schärfentiefe oder Elementpositionierung
Stilabweichung: Stilschlüsselwörter zu unpräzise
Fehlende Details: Motivbeschreibung nicht ausführlich genug

Schritt 3: Prioritätsanpassung

Prioritätenfolge bei Prompt-Änderungen:

Motivbeschreibung (höchste Priorität): Sicherstellen, dass das Kernobjekt korrekt ist
Stildefinition (hohe Priorität): Künstlerische Ausrichtung festlegen
Beleuchtungsanpassung (mittlere Priorität): Atmosphäre optimieren
Kompositionsoptimierung (mittlere Priorität): Visuelle Führung verbessern
Parameterfeinabstimmung (niedrige Priorität): Technische Details optimieren

Schritt 4: Inkrementelle Änderungen

Ändere bei jedem Durchlauf nur eine einzige Variable und beobachte die Wirkung. Vermeide es, mehrere Elemente gleichzeitig zu ändern – sonst lässt sich nicht feststellen, welche Änderung das Ergebnis beeinflusst hat.

Schritt 5: Freigabe bei Zufriedenheit

Das Bild gilt als optimiert, wenn folgende Bedingungen erfüllt sind:

Das Motiv ist klar und korrekt dargestellt
Der Stil entspricht den Erwartungen
Detailreichtum vorhanden, keine offensichtlichen Fehler
Direkt einsatzbereit im Zielszenario

Häufige Fehler und wie man sie vermeidet

Fehler 1: Übermäßige Beschreibung

Problem: Der Prompt ist zu lang, zu detailliert und enthält zu viele irrelevante Informationen.

Negativbeispiel:

"一只非常可爱的、毛茸茸的、橘色的、虎斑纹的、家猫，它有一双大大的、圆圆的、绿色的眼睛，正在窗台上..."

Lösung: Fokussiere dich auf die Schlüsselmerkmale und entferne redundante Adjektive.

Fehler 2: Ausschlüsse nicht angeben

Problem: Unerwünschte Elemente werden nicht explizit ausgeschlossen.

Lösung: Formuliere klar, was nicht im Bild enthalten sein soll:

"不要包含文字，不要模糊，不要变形"

Fehler 3: Unpassende Parametereinstellungen

Problem: Bildgröße passt nicht zum Verwendungszweck, Qualitätsstufe ist unangemessen.

Lösung: Parameter an den Endverwendungszweck anpassen – zuerst mit Standardeinstellungen testen und bei Zufriedenheit auf höhere Qualität umschalten.

Fehler 4: Konsistenz ohne Referenzbild erwarten

Problem: Mehrere Bilder sollen im gleichen Stil gehalten werden, aber jeder Prompt ist unterschiedlich formuliert.

Lösung: Referenzbilder in Kombination mit Textbeschreibungen verwenden oder eine Stilvorlage erstellen.

Fortgeschrittene Techniken

1. Prompt-Optimierung im Mehr-Runden-Dialog

GPT Image 2 unterstützt mehrstufige Dialoge. So funktioniert es:

Erzeuge eine Erstversion des Bildes
Gib auf Basis des Ergebnisses Änderungswünsche ein
Das Modell behält den Kontext bei und nimmt inkrementelle Änderungen vor

Beispiel:

第一轮："生成一张现代风格的办公桌"
第二轮："把桌子颜色改成深胡桃木色"
第三轮："在桌上添加一台笔记本电脑和一杯咖啡"

2. Kombination aus Referenzbild und Textbeschreibung

Lade ein Referenzbild hoch und kombiniere es mit einer Textbeschreibung, um die Ausgabe präziser zu steuern.

Beispiel:

图片：[上传一张产品照片]
文字："保持产品外观，将背景改为海滩场景，添加夕阳效果"

3. Stiltransfer per Prompt

Wende einen bestimmten Stil auf anderen Inhalt an.

Beispiel:

"用梵高的《星空》风格绘制上海外滩夜景"
"用日本浮世绘风格绘制现代城市天际线"

Häufig gestellte Fragen

Q1: Worin unterscheiden sich die Prompts von GPT Image 2 und DALL-E 3?

GPT Image 2 legt bei Prompts mehr Wert auf Strukturierung und Detailbeschreibungen. DALL-E 3 versteht kurze Prompts besser, während GPT Image 2 aus detaillierten Prompts mehr Informationen extrahieren kann. Es empfiehlt sich, die 5-Elemente-Formel aus diesem Artikel zu verwenden.

Q2: Wie erzeuge ich mit GPT Image 2 eine Bilderserie im einheitlichen Stil?

Erstelle eine Stilvorlage mit festgelegten Stil-, Beleuchtungs- und Kompositionsbeschreibungen. Verwende diese Beschreibungen bei jeder Generierung wieder und passe nur das Motiv an. Alternativ kannst du die Referenzbild-Funktion nutzen.

Q3: Wie lang sollte ein Prompt sein?

Es gibt keine feste Längenvorgabe. Entscheidend sind Qualität statt Quantität. Ein präziser 50-Wort-Prompt erzielt oft bessere Ergebnisse als ein 200-Wort-Prompt voller Fülltext. Ein Umfang von 100–200 Wörtern ist empfehlenswert.

Q4: Wie gehe ich mit Textrendering-Problemen im Generierungsergebnis um?

Die Textdarstellung bei GPT Image 2 hat sich deutlich verbessert, kann aber dennoch Fehler aufweisen. Empfehlungen:

Einfache, gängige Wörter verwenden
Lange Sätze vermeiden
Text als nachträglich hinzuzufügendes Element behandeln, nicht als Kernbestandteil der Generierung

Q5: Wie unterscheidet sich die Prompt-Strategie bei niedrigem und hohem Budget?

Die Strategie an sich bleibt gleich, der Unterschied liegt in der Ressourcenverteilung:

Bei knappem Budget empfiehlt es sich, die Richtung zunächst mit kleiner Größe und niedrigeren Kosten zu validieren
Bei großem Budget können mehrere Kandidatenbilder auf einmal erzeugt werden – trotzdem sollten Kosten und Trefferquote dokumentiert werden
Vor der finalen Auslieferung auf Zielgröße und Zielqualität umschalten und bestätigen

Fazit

Prompt Engineering bei GPT Image 2 ist keine Zauberei, sondern eine Fähigkeit, die sich systematisch erlernen und optimieren lässt.

Merke dir die 5-Elemente-Formel: Motiv + Stil + Beleuchtung + Komposition + Parameter.

Beginne mit den 10 Szenariovorlagen aus diesem Artikel und passe sie an deine spezifischen Anforderungen an.

Iterative Optimierung ist der Schlüssel – selten gelingt ein perfekter Prompt beim ersten Versuch.

Teste die Vorlagen aus diesem Artikel in deinem realen Arbeitsablauf. Ändere jeweils nur eine Variable und dokumentiere Prompt, Parameter und Ergebnis. So erfährst du schnell, welche Beschreibungen für dein Szenario funktionieren und welche nur Rauschen erzeugen.

Try GPT Image 2 for Free Now →

Warum GPT Image 2 Prompt Engineering benötigt

Prompt-Strukturformel

1. Motiv (Subject)

2. Stil (Style)

3. Beleuchtung (Lighting)

4. Komposition (Composition)

5. Parameter (Parameters)

10 Prompt-Vorlagen für häufige Szenarien

1. Produktfoto auf weißem Hintergrund

2. Szenenbezogenes Marketingbild

3. Porträtfoto

4. Illustration / Cartoon

5. UI/UX-Designmockup

6. Social-Media-Coverbild

7. Markenlogo

8. Food-Fotografie

9. Architektur / Inneneinrichtung

10. Concept Art

Wie API-Parameter die Ergebnisse beeinflussen

Size (Größe)

Quality (Qualität)

Style (Stil)

N (Anzahl)

Iterativer Optimierungsprozess

Schritt 1: Erstversion erzeugen

Schritt 2: Problemdiagnose

Schritt 3: Prioritätsanpassung

Schritt 4: Inkrementelle Änderungen

Schritt 5: Freigabe bei Zufriedenheit

Häufige Fehler und wie man sie vermeidet

Fehler 1: Übermäßige Beschreibung

Fehler 2: Ausschlüsse nicht angeben

Fehler 3: Unpassende Parametereinstellungen

Fehler 4: Konsistenz ohne Referenzbild erwarten

Fortgeschrittene Techniken

1. Prompt-Optimierung im Mehr-Runden-Dialog

2. Kombination aus Referenzbild und Textbeschreibung

3. Stiltransfer per Prompt

Häufig gestellte Fragen

Q1: Worin unterscheiden sich die Prompts von GPT Image 2 und DALL-E 3?

Q2: Wie erzeuge ich mit GPT Image 2 eine Bilderserie im einheitlichen Stil?

Q3: Wie lang sollte ein Prompt sein?

Q4: Wie gehe ich mit Textrendering-Problemen im Generierungsergebnis um?

Q5: Wie unterscheidet sich die Prompt-Strategie bei niedrigem und hohem Budget?

Fazit

Ähnliche Artikel

GPT Image 2 vs. FLUX 2 vs. Imagen 4: Welche Bild-API sollten Entwickler 2026 wählen?

Was ist GPT Image 2? Fähigkeiten, APIs und Anwendungsfälle

Wie GPT Image 2 Marketing-Workflows im Jahr 2026 transformiert