同一個模型，同樣的商品，提示詞寫法不同，通過率可以從 30% 跳到 80%。從基礎框架、編輯流到參數化模板，全面解析 GPT Image 2 的提示詞技巧。

同一個模型，同樣的商品，提示詞寫法不同，通過率可以從 30% 跳到 80%。這不是玄學，是方法。

文中所有產品圖使用 GPT Image 2 生成。

為什麼要單獨講提示詞

GPT Image 2 的能力上限很高——它能生成寫實的產品攝影、精細的材質紋理、準確的文字渲染。但從「模型能做」到「你能穩定地讓它做」，中間隔著一個提示詞工程的鴻溝。

很多人的體驗是：偶爾出一張驚豔的圖，但大多數時候生成的結果要麼「差一點」，要麼「完全跑偏」。問題不在模型，在於你和模型之間的「溝通方式」。

這篇文章要解決的就是這個問題。我會從最基礎的提示詞結構講起，逐步深入到編輯流、多圖合成、失敗診斷和參數化模板系統，最終目標是讓你建立一套穩定的、可複用的、可批處理的提示詞工作流。

第一層：純文字生成的提示詞結構

這是最基礎的用法——你沒有真實產品照片，完全靠文字描述讓 AI 生成圖片。適合概念圖、預售視覺、無實物但要先賣故事的階段。

核心框架：四段式結構

經過大量測試，我發現按以下順序組織提示詞，效果最穩定：

[場景/背景] → [商品主體] → [關鍵細節] → [約束條件]

為什麼這個順序有效？因為 GPT Image 2 對提示詞開頭的權重最高。你把「場景」放在最前面，模型就會先確定整體的視覺語境；把「商品主體」放在第二位，模型在正確的語境裡描繪商品；「細節」補充精度；「約束」劃定邊界。

反過來，如果你一上來就寫細節（比如「30ml磨砂玻璃瓶，銀色滴管蓋」），模型可能還沒建立正確的視覺語境就開始渲染細節，導致整體風格跑偏。

實戰示例：美妝精華白底主圖

用途：
Shopify PDP 主圖

主體：
一瓶 30ml 玻璃滴管精華，磨砂透明玻璃瓶身，乳白色液體，銀色金屬滴管蓋，極簡高端護膚品牌調性

背景：
純白無縫背景

構圖：
正面偏左 10 度，主體居中，占畫面 90%，輕微自然接觸陰影

光線：
柔和漫射棚拍，受控高光，玻璃邊緣清晰，液體真實可見

細節：
真實玻璃厚度，標籤平整，液體粘度自然，金屬反射乾淨

約束：
不要花瓣，不要葉子，不要額外道具，不要虛構 logo，不要額外文字，不要水印

輸出：
1024x1024，quality=medium

這個示例的幾個關鍵點值得注意：

「正面偏左 10 度」比「正面」好。 完全正面的角度容易顯得呆板，輕微的偏轉能增加立體感。

「受控高光」這個詞很關鍵。 如果你不寫，AI 可能給玻璃瓶加上誇張的反光，看起來像廣告海報而不是產品圖。

約束條款寫了六個「不要」。 這些不是廢話——每一個都是我踩過坑之後加的。「不要花瓣」是因為 AI 特別喜歡在護膚品旁邊加花瓣裝飾；「不要虛構 logo」是因為它會自作主張給你編一個品牌標識。

第二層：編輯流——基於真實照片做修改

當你有真實產品照片的時候，編輯流比純生成流穩定得多。這是電商場景下最推薦的用法。

編輯流的核心邏輯

編輯流不是「讓 AI 畫一幅新圖」，而是「讓 AI 在你已有的圖上做指定的修改」。這聽起來簡單，但很多人寫編輯提示詞的方式是錯的。

錯誤示範：

把這張產品圖變高級一點，背景換成浴室場景。

這種提示詞的問題是「變高級」太模糊，AI 不知道你具體要改什麼。它可能改了你不想改的東西（比如瓶型），同時沒改你想改的東西（比如光線）。

正確示範：

只改變背景和環境光線。將背景替換為白色大理石浴室檯面，自然窗光從左側照入。保持商品的幾何形狀、顏色、標籤佈局、比例、材質和品牌識別細節完全不變。

關鍵區別在於：明確列出「只改什麼」和「不能改什麼」。

編輯流提示詞模板

輸入：
Image 1 = [真實產品正面圖]

任務：
將 Image 1 中的商品放入 [具體場景描述] 中。
只改變背景、環境光線、道具和鏡頭語境。
保持商品的幾何形狀、顏色、標籤佈局、比例、材質和品牌識別細節不變。

構圖：
[半身近景 / 桌面近景 / 豎構圖 / 橫構圖]
主體仍是畫面視覺中心，留出 [左側/右側] 負空間

光線：
匹配場景自然光，確保接觸陰影、反射和尺度關係真實

約束：
不要改商品本體，不要新增文字、logo、水印，不要改變包裝內容

編輯流的「單變量迭代」原則

OpenAI 官方明確推薦的一個調優方法是：每次只改一個變量，不要整段重寫。

比如你對生成的場景圖不滿意，不要把整條提示詞推翻重來。而是只改其中一個維度：

「把光線改得更柔和，但不改構圖和場景」
「把背景從浴室換成臥室，其他保持不變」
「把橫構圖改成豎構圖，商品位置和光線不變」

這種單變量迭代的好處是：你能精確知道是哪個改動帶來了效果變化，而不是每次都在做「控制變量法」的對照實驗。

第三層：多圖合成——高級用法

GPT Image 2 支持同時輸入多張參考圖，並按你指定的關係組合輸出。這是電商場景下最強大但也最容易出錯的用法。

多圖合成的典型場景

場景一：真實產品 + 手模姿態

輸入：
Image 1 = 商品真實產品圖
Image 2 = 手模持握姿態參考圖

任務：
把 Image 1 的商品按照 Image 2 的持握方式展示在手中。
商品本體必須保持真實顏色、幾何和標籤位置。
匹配透視、尺度、陰影和色溫，讓結果像同一次真實拍攝。

約束：
只引入必要道具；不添加誤導性的配件；不新增文字、logo、水印。

場景二：真實產品 + 場景參考 + 風格參考

輸入：
Image 1 = 商品真實產品圖
Image 2 = 目標場景參考圖
Image 3 = 光線/氛圍參考圖

任務：
將 Image 1 的商品放入 Image 2 的場景中，按照 Image 3 的光線風格渲染。
保持商品本體的所有細節不變。
匹配三張圖之間的透視、尺度和色調關係。

多圖合成最容易犯的錯

參考關係寫不清。 如果你不明確說「Image 1 是產品，Image 2 是場景」，模型就會自己猜。它猜對的概率不高。

輸入圖之間的風格差距太大。 如果你的產品圖是棚拍白底，場景參考圖是手機隨拍的生活照，光線和色溫完全對不上，合成結果會很違和。儘量讓輸入圖的光線條件接近。

想要的太多。 三張輸入圖已經不少了。輸入越多，模型需要兼顧的信息越多，出錯的概率也越高。能用兩張解決的，就不要用三張。

第四層：失敗診斷——出了問題怎麼修

提示詞工程最有價值的部份不是「怎麼寫出好提示詞」，而是「出了問題怎麼快速定位和修復」。

以下是我在實踐中積累的常見失敗模式和對應的修復方法。

失敗模式一：商品形狀走形

症狀： 瓶型變了、鞋楦歪了、耳機殼變形了。

原因： 純文字生成時，模型對幾何細節的理解有偏差。

修復： 切換到編輯流，用真實產品照做錨點。在提示詞中加入 "preserve exact geometry" 或「保持商品幾何形狀完全不變」。

失敗模式二：顏色偏差

症狀： 瓶蓋從銀色變成了金色，液面從乳白色變成了淡藍色。

原因： 文字描述的顏色不夠精確，或者模型對顏色詞的理解有偏差。

修復： 提供真實產品參考圖。如果必須用文字描述，用具體的顏色參考而不是模糊的形容詞——寫「銀色金屬」比寫「金屬色」好，寫「Pantone 7541 C 淺灰」比寫「淺灰色」更好。

失敗模式三：多餘元素入侵

症狀： 莫名出現了花瓣、葉子、水滴、品牌 logo、額外文字。

原因： 模型根據品類「聯想」到了常見元素。護膚品旁邊加花瓣、飲料旁邊加水滴——這是模型從訓練數據中學到的「常識」。

修復： 在約束條款中明確排除。「不要花瓣、不要葉子、不要水滴、不要虛構 logo、不要額外文字」。這些約束越具體越好。

失敗模式四：光線不匹配

症狀： 商品的光線方向和背景的光線方向不一致，看起來像 P 上去的。

原因： 編輯流中沒有明確光線匹配要求。

修復： 在提示詞中加入 "match the lighting direction and color temperature of the scene" 或「匹配場景的光線方向和色溫」。

失敗模式五：手模畸形

症狀： 手指數量不對、手腕扭曲、持握姿勢不自然。

原因： AI 生成人手仍然是公認的難點。

修復： 明確寫出手的數量、位置和姿態。「one adult hand, natural grip, short clean nails, no rings, crop at wrist」。不要讓模型自己決定手的細節。

第五層：品類差異——不同商品的提示詞側重點

同樣是「產品圖」，不同品類的提示詞寫法差異很大。這裡按品類梳理關鍵的提示詞差異點。

服裝類：重點寫「穿著狀態」

服裝類最怕的是 AI 把衣服生成成「懸掛在衣架上」的樣子，而不是「穿在人身上」的狀態。提示詞要明確：

模特的體型和姿態
服裝的垂墜感和褶皺走向
面料的質感（棉的柔軟、絲綢的光澤、牛仔的硬挺）
「不要改變服裝的剪裁和版型」

鞋靴類：重點寫「結構準確」

鞋類的核心難點是鞋楦形狀和鞋底紋路。提示詞要明確：

朝向（Amazon 要求朝左）
角度（45 度是標準）
鞋底花紋的清晰度
「保持鞋型、鞋楦、鞋面材質和顏色塊分佈不變」

珠寶類：重點寫「光線控制」

珠寶圖的成敗在於光線。提示詞要明確：

「受控高光」——防止過曝
「真實微距」——保證切面細節
「金屬不失真」——防止銀變白、金變黃
「不要人臺、不要胸像」——Amazon 珠寶類的硬性規定

電子產品：重點寫「接口精確」

電子產品的容錯率最低。提示詞要明確：

接口類型和位置（USB-C、Lightning、3.5mm）
按鍵佈局和標識
指示燈的顏色和位置
「禁止新增任何不在真實產品上的元件」

家居類：重點寫「尺度感知」

家居產品需要通過場景來傳達尺寸。提示詞要明確：

和參照物的比例關係（杯子旁邊放一隻筆、枕頭放在床上）
使用場景的真實性（廚房檯面、浴室架、客廳茶几）
材質的觸感描述（木紋的粗糙、陶瓷的光滑、織物的柔軟）

美妝類：重點寫「材質真實」

美妝產品的材質語言最豐富。提示詞要明確：

瓶身材質（磨砂玻璃、光面塑料、金屬）
內容物質感（乳液的粘稠、精華的透明、膏體的厚實）
包裝細節（泵頭結構、滴管形狀、瓶蓋材質）
「不要額外花草裝飾」——AI 特別喜歡給護膚品加花

第六層：建立你的參數化模板庫

提示詞工程的終極目標不是「每次都從零寫」，而是建立一套可參數化的模板庫，讓團隊裡的任何人都能快速出圖。

模板的字段化設計

把提示詞拆成以下字段，每個字段獨立填寫：

category: [品類]
shot_type: [白底主圖 / 生活方式圖 / 細節圖]
background: [純白 / 具體場景描述]
angle: [正面 / 45度 / 俯拍 / 微距]
lighting: [棚拍漫射光 / 自然窗光 / 逆光 / 受控高光]
props: [無 / 具體道具描述]
constraints: [不要XX, 不要YY, ...]
output_spec: [尺寸, 質量檔位, 格式]

模板複用的正確方式

不是把整段提示詞複製粘貼。而是固定模板的骨架（場景、構圖、光線、約束），只替換商品描述部份。

比如你有一個成熟的「白底主圖」模板：

[商品描述]，純白無縫背景，正面偏左10度，主體居中占畫面90%，
柔和漫射棚拍光，受控高光，自然接觸陰影，
不要額外道具，不要水印，不要虛構logo，不要額外文字，
1024x1024，quality=medium

換 SKU 的時候，只需要替換 [商品描述] 這一個字段。其他部份保持不變。這樣既保證了品牌視覺的一致性，又提高了生產效率。

版本管理和回溯

給每個提示詞模板分配一個唯一 ID，記錄以下信息：

模板 ID 和版本號
使用的模型快照版本
生成參數（質量檔位、尺寸）
輸入參考圖的 ID
輸出結果的評分

這樣當你需要復現某張圖的風格、排查為什麼某個版本被平臺拒絕、或者在模型升級後做回歸測試時，都有據可查。

關於「有效詞」和「無效詞」的清單

最後給你一張速查表，幫你避開那些「看起來有用但其實沒用」的提示詞。

真正管用的詞

目標	推薦寫法
寫實質感	professional product photography, realistic textures, true-to-life materials
構圖控制	centered product, front-facing, 45-degree angle, macro close-up, top-down
光線描述	soft diffused studio lighting, clean specular highlights, natural window light
編輯穩定性	change only X, keep geometry/layout/color unchanged
手模控制	one adult hand, natural grip, short clean nails, crop at wrist

看起來有用但實際效果差的詞

寫法	為什麼不好
8K ultra realistic masterpiece	空泛堆詞，模型不知道你要什麼具體效果
Canon EOS R5 + 100mm macro	相機參數被「鬆解釋」，對輸出影響很小
HDR, cinematic, award-winning	太泛，容易讓風格偏廣告海報而不是產品圖
best quality, highly detailed	沒有具體方向，等於沒寫
直接寫「仿某在世攝影師風格」	模型會拒絕，且有法律風險

從「能出圖」到「穩定出圖」

提示詞工程不是一次性的工作，而是一個持續迭代的過程。

我的建議是：先用最簡單的提示詞出一批圖，找到「模型在這個品類上的默認表現」是什麼樣的。然後逐步加入約束和細節，觀察每個改動帶來的變化。不要一上來就寫一大段複雜的提示詞——那只會讓你無法判斷是哪個部份起了作用。

先跑起來，再優化。 這是所有工程問題的通用解法，提示詞工程也不例外。

想親手試試不同提示詞的效果差異？到 gpt-image2ai.net 上用同一個商品、不同的提示詞跑幾組對比，你會比看十篇文章學到的都多。

Try GPT Image 2 for Free Now →

GPT Image 2 提示詞工程：從入門到穩定出圖的完整進階手冊