我不斷收到同一個問題:「為什麼我用 GPT Image 2 生成的圖片總是不夠好?」
我不斷收到同一個問題:「為什麼我用 GPT Image 2 生成的圖片總是不夠好?」
簡短的回答是——你的 Prompt 寫得不夠好。
更長的回答是——GPT Image 2 的圖像生成能力已經大幅提升,但大多數使用者的 Prompt 品質沒有跟上。這不是模型的問題,而是你與模型溝通方式的問題。
本文提供一套可複用的 Prompt 結構公式,幫助你更穩定地控制主體、風格、光線、構圖和輸出參數。我們會覆蓋 10 個常見場景的範本,你可以直接改寫使用。
為什麼 GPT Image 2 需要 Prompt 工程
GPT Image 2 更適合用清晰的自然語言描述圖像目標。但這裡有一個關鍵點:模型的實際輸出品質,很大程度取決於你的 Prompt 品質。
同一個需求,用不同 Prompt 生成的結果會有很大差異。
差的 Prompt:
"一隻貓"
好的 Prompt:
"一隻橘色虎斑貓坐在窗臺上,陽光從左側45度角照射,背景是模糊的城市夜景,淺景深效果,暖色調,專業寵物攝影風格"
差距通常不只是畫面細節多少,而是主體是否準確、構圖是否可用、風格是否符合預期。
GPT Image 2 更適合用結構化 Prompt 來表達意圖。它不只是匹配關鍵詞,還會根據上下文理解場景邏輯和缺失細節。這意味著你的 Prompt 越清晰,模型越容易生成接近目標的畫面。
Prompt 結構公式
一個穩定的圖像 Prompt,通常可以拆成 5 個元素:
主體(Subject)+ 風格(Style)+ 光線(Lighting)+ 構圖(Composition)+ 參數(Parameters)
每個維度的詳細說明:
1. 主體(Subject)
主體是圖像的核心物件。描述要具體、精確。
反例:
- 「一個人」 → 太模糊
- 「一個女人」 → 稍好,但不夠
正例:
- 「一位30歲左右的亞洲女性,黑色長髮,穿著白色襯衫,坐在辦公桌前使用筆記型電腦」
- 「一隻黃金獵犬,嘴巴張開,舌頭伸出,正在追逐飛盤」
關鍵技巧:
- 包含年齡、性別、種族、服裝、動作等細節
- 使用具體的名詞而不是泛稱
- 描述情緒和姿態
2. 風格(Style)
風格定義圖像的藝術表現形式。
常見風格選項:
- 寫實攝影:
photorealistic,professional photography,8K resolution - 插畫:
digital illustration,watercolor painting,oil painting - 3D 渲染:
3D render,Unreal Engine 5,octane render - 扁平設計:
flat design,minimalist,vector art - 動漫:
anime style,manga,Studio Ghibli style
範例:
"產品攝影風格,白色背景,柔和的工作室燈光"
"賽博龐克風格,霓虹燈光,雨夜街道"
"水彩插畫風格,柔和的色彩漸層,手繪質感"
3. 光線(Lighting)
光線決定圖像的氛圍和質感。
光線類型:
- 自然光:
natural lighting,golden hour,overcast soft light - 工作室光:
studio lighting,soft box,rim light - 戲劇性光:
dramatic lighting,chiaroscuro,backlit - 環境光:
ambient lighting,neon glow,candlelight
範例:
"黃金時段的自然光,溫暖的橙色調"
"工作室環形燈,均勻的面部照明"
"逆光剪影效果,強烈的明暗對比"
4. 構圖(Composition)
構圖控制元素在畫面中的位置和關係。
構圖技巧:
- 視角:
bird's eye view,low angle shot,close-up,wide shot - 構圖規則:
rule of thirds,centered composition,symmetrical - 景深:
shallow depth of field,bokeh background,deep focus - 鏡頭:
35mm lens,macro lens,fisheye lens
範例:
"特寫鏡頭,淺景深,背景虛化"
"俯視角度,對稱構圖"
"廣角鏡頭,前景、中景、背景層次分明"
5. 參數(Parameters)
參數是 API 呼叫時的技術設定。
常用參數:
size:圖像尺寸(如 1024x1024, 1536x1024)quality:品質等級(standard, hd)style:風格偏好(vivid, natural)n:生成數量
範例:
{
"size": "1536x1024",
"quality": "hd",
"style": "natural",
"n": 1
}
10 個場景化 Prompt 範本
以下是 10 個常見場景的 Prompt 範本,你可以直接使用:
1. 產品白底圖
適用場景:電商產品展示、目錄圖片
範本:
"[產品名稱],[產品細節描述],純白色背景,產品攝影風格,柔和的工作室燈光,無陰影,高解析度,商業產品攝影"
範例:
"無線藍牙耳機,黑色霧面質感,充電盒打開狀態,純白色背景,產品攝影風格,柔和的工作室燈光,無陰影,8K解析度,商業產品攝影"
2. 場景行銷圖
適用場景:社群媒體廣告、品牌宣傳
範本:
"[產品/主題] 在 [使用場景] 中,[人物/環境描述],[氛圍描述],[光線描述],[風格描述]"
範例:
"智慧手錶在戶外跑步場景中,年輕男性佩戴,城市公園背景,清晨陽光,充滿活力的氛圍,專業運動攝影風格"
3. 人像/肖像
適用場景:頭像、人物介紹、社群媒體
範本:
"[人物描述],[表情/情緒],[服裝描述],[背景描述],[光線描述],[構圖描述],專業人像攝影"
範例:
"30歲左右的亞洲女性,自信的微笑,穿著深藍色西裝,簡約的辦公室背景,柔和的側光,半身特寫,專業商務人像攝影"
4. 插畫/卡通
適用場景:兒童書籍、部落格配圖、品牌吉祥物
範本:
"[角色/場景描述],[藝術風格],[色彩方案],[氛圍描述]"
範例:
"一隻可愛的卡通小熊在森林裡野餐,迪士尼動畫風格,明亮的色彩,溫馨愉快的氛圍"
5. UI/UX 設計稿
適用場景:產品原型、設計展示
範本:
"[介面類型] 介面設計,[功能描述],[設計風格],[配色方案],[裝置展示]"
範例:
"行動端電商應用介面設計,商品詳情頁,現代簡約風格,藍白配色,iPhone 15 Pro 展示,高保真原型"
6. 社群媒體封面
適用場景:YouTube 縮圖、Instagram 貼文、Twitter 頭圖
範本:
"[主題描述],[視覺元素],[文字位置預留],[風格描述],[尺寸比例]"
範例:
"科技產品發表會封面,未來感十足的藍色漸層背景,中央留白用於標題文字,現代科技風格,16:9橫版比例"
7. 品牌 Logo
適用場景:公司標誌、品牌識別
範本:
"[品牌名稱/概念] Logo 設計,[圖形元素描述],[字體風格],[配色方案],[設計風格],向量圖,白色背景"
範例:
"NovaTech Logo 設計,抽象的火箭圖形,現代無襯線字體,深藍色和銀色配色,極簡主義風格,向量圖,白色背景"
8. 食物攝影
適用場景:餐廳菜單、美食部落格、食品包裝
範本:
"[食物名稱],[擺盤描述],[餐具/環境描述],[光線描述],[風格描述],專業美食攝影"
範例:
"義大利麵配番茄醬和羅勒葉,白色陶瓷盤盛放,木質餐桌背景,自然窗光,暖色調,專業美食攝影,淺景深"
9. 建築/室內設計
適用場景:房地產展示、設計提案、概念視覺化
範本:
"[建築/空間類型],[風格描述],[材料/色彩描述],[光線描述],[視角描述],建築攝影"
範例:
"現代簡約風格客廳,白色牆壁和原木家具,大面積落地窗,自然光線充足,廣角鏡頭視角,建築室內攝影"
10. 概念藝術
適用場景:遊戲原畫、電影概念圖、創意專案
範本:
"[場景/角色描述],[世界觀/風格描述],[氛圍描述],[技術規格],概念藝術"
範例:
"未來城市天際線,霓虹燈和飛行汽車,賽博龐克世界觀,雨夜氛圍,8K解析度,電影級概念藝術,Matte Painting風格"
API 參數怎麼影響結果
除了 Prompt 內容,API 參數也直接影響生成結果。
Size(尺寸)
常用尺寸及適用場景:
1024x1024:正方形,適合社群媒體貼文、頭像1536x1024:橫版,適合部落格配圖、簡報1024x1536:豎版,適合手機桌布、海報1792x1024:寬螢幕,適合 YouTube 縮圖、橫幅廣告
建議:根據最終用途選擇尺寸,避免後期裁切損失內容。
Quality(品質)
選項對比:
standard:生成速度快,成本低,適合原型設計、快速迭代hd:更高細節,更銳利的邊緣,適合最終交付、印刷用途
權衡:HD 品質生成時間更長,成本更高。建議在迭代階段使用 standard,最終版本使用 hd。
Style(風格)
選項對比:
vivid:更飽和的色彩,更強的對比度,適合行銷素材、社群媒體natural:更真實的色彩還原,適合產品攝影、紀實風格
建議:根據品牌調性和使用場景選擇。
N(數量)
策略:
n=1:單次生成,適合確定性需求n=2-4:批次生成,適合需要選擇最佳結果的場景
成本提示:n 值越大,成本越高。建議先用 n=1 測試 Prompt,滿意後再批次生成。
迭代優化流程
很少有 Prompt 能一次生成完美結果。以下是 5 步迭代優化法:
第 1 步:初版生成
用基礎 Prompt 生成第一版圖像,評估整體方向是否正確。
第 2 步:問題診斷
常見的問題類型:
- 顏色不對:缺少色彩描述,或描述模糊
- 構圖偏差:缺少視角、景深、元素位置描述
- 風格不符:風格關鍵詞不夠具體
- 細節缺失:主體描述不夠詳細
第 3 步:優先順序調整
修改 Prompt 的優先順序策略:
- 主體描述(最高優先順序):確保核心物件正確
- 風格定義(高優先順序):確定藝術方向
- 光線調整(中優先順序):優化氛圍
- 構圖優化(中優先順序):改善視覺引導
- 參數微調(低優先順序):技術細節優化
第 4 步:增量修改
每次只修改一個變數,觀察效果。避免同時修改多個元素,否則無法確定哪個修改產生了效果。
第 5 步:滿意確認
當圖像滿足以下條件時,可以認為優化完成:
- 主體清晰、準確
- 風格符合預期
- 細節豐富、無明顯錯誤
- 可直接用於目標場景
常見錯誤與避免方法
錯誤 1:過度描述
問題:Prompt 過長、過細,包含太多無關資訊。
反例:
"一隻非常可愛的、毛茸茸的、橘色的、虎斑紋的、家貓,牠有一雙大大的、圓圓的、綠色的眼睛,正在窗臺上..."
解決方案:聚焦關鍵特徵,刪除冗餘形容詞。
錯誤 2:忽略排除項
問題:沒有明確排除不想要的元素。
解決方案:用清晰的排除描述說明不想要什麼:
"不要包含文字,不要模糊,不要變形"
錯誤 3:參數設定不當
問題:尺寸與用途不匹配,品質設定不合理。
解決方案:根據最終用途選擇參數,先用標準設定測試,滿意後切換到高品質。
錯誤 4:期望一致性但未提供參考圖
問題:希望多張圖片保持一致風格,但每次都用不同 Prompt。
解決方案:使用參考圖 + 文字描述組合,或建立風格範本。
進階技巧
1. 多輪對話式 Prompt 優化
GPT Image 2 支援多輪對話。你可以:
- 生成初版圖像
- 根據結果提出修改建議
- 模型會保留上下文,進行增量修改
範例:
第一輪:"生成一張現代風格的辦公桌"
第二輪:"把桌子顏色改成深胡桃木色"
第三輪:"在桌上添加一臺筆記型電腦和一杯咖啡"
2. 使用參考圖 + 文字描述組合
上傳參考圖並結合文字描述,可以更精確地控制輸出。
範例:
圖片:[上傳一張產品照片]
文字:"保持產品外觀,將背景改為海灘場景,添加夕陽效果"
3. 風格遷移 Prompt 寫法
將一種風格應用到另一種內容上。
範例:
"用梵谷的《星空》風格繪製上海外灘夜景"
"用日本浮世繪風格繪製現代城市天際線"
常見問題
Q1: GPT Image 2 的 Prompt 和 DALL-E 3 有什麼區別?
GPT Image 2 的 Prompt 更注重結構化和細節描述。DALL-E 3 對簡短 Prompt 的理解更好,而 GPT Image 2 能從詳細 Prompt 中提取更多資訊。建議使用本文的 5 元素公式。
Q2: 如何讓 GPT Image 2 生成一致風格的系列圖?
建立風格範本檔案,包含固定的風格、光線、構圖描述。每次生成時複用這些描述,只修改主體內容。或者使用參考圖功能。
Q3: Prompt 應該寫多長?
沒有固定長度要求。關鍵是品質而非數量。一個 50 字的精準 Prompt 往往比 200 字的冗長 Prompt 效果更好。建議控制在 100-200 字之間。
Q4: 如何處理生成結果中的文字渲染問題?
GPT Image 2 的文字渲染已大幅改善,但仍可能出錯。建議:
- 使用簡單、常見的單字
- 避免長句子
- 將文字作為後期添加的元素,而非生成的核心
Q5: 低額度和高額度場景的 Prompt 策略有什麼不同?
策略本身相同,區別在資源分配:
- 低額度場景更適合先用小尺寸、低成本設定驗證方向
- 高額度場景可以一次生成更多候選圖,但也要記錄成本和命中率
- 最終交付前,再切換到目標尺寸和目標品質做確認
結尾
GPT Image 2 的 Prompt 工程不是玄學,而是可以系統學習和優化的技能。
記住 5 元素公式:主體 + 風格 + 光線 + 構圖 + 參數。
從本文的 10 個場景範本開始,根據你的具體需求調整。
迭代優化是關鍵——很少有一次完美的 Prompt。
把本文的範本放進你的真實工作流程裡測試。一次只改一個變數,記錄 Prompt、參數和結果。這樣你很快就能知道:哪些描述對你的場景有效,哪些只是噪音。




