同一个模型，同样的商品，提示词写法不同，通过率可以从 30% 跳到 80%。从基础框架、编辑流到参数化模板，全面解析 GPT Image 2 的提示词技巧。

同一个模型，同样的商品，提示词写法不同，通过率可以从 30% 跳到 80%。这不是玄学，是方法。

文中所有产品图使用 GPT Image 2 生成。

为什么要单独讲提示词

GPT Image 2 的能力上限很高——它能生成写实的产品摄影、精细的材质纹理、准确的文字渲染。但从"模型能做"到"你能稳定地让它做"，中间隔着一个提示词工程的鸿沟。

很多人的体验是：偶尔出一张惊艳的图，但大多数时候生成的结果要么"差一点"，要么"完全跑偏"。问题不在模型，在于你和模型之间的"沟通方式"。

这篇文章要解决的就是这个问题。我会从最基础的提示词结构讲起，逐步深入到编辑流、多图合成、失败诊断和参数化模板系统，最终目标是让你建立一套稳定的、可复用的、可批处理的提示词工作流。

第一层：纯文字生成的提示词结构

这是最基础的用法——你没有真实产品照片，完全靠文字描述让 AI 生成图片。适合概念图、预售视觉、无实物但要先卖故事的阶段。

核心框架：四段式结构

经过大量测试，我发现按以下顺序组织提示词，效果最稳定：

[场景/背景] → [商品主体] → [关键细节] → [约束条件]

为什么这个顺序有效？因为 GPT Image 2 对提示词开头的权重最高。你把"场景"放在最前面，模型就会先确定整体的视觉语境；把"商品主体"放在第二位，模型在正确的语境里描绘商品；"细节"补充精度；"约束"划定边界。

反过来，如果你一上来就写细节（比如"30ml磨砂玻璃瓶，银色滴管盖"），模型可能还没建立正确的视觉语境就开始渲染细节，导致整体风格跑偏。

实战示例：美妆精华白底主图

用途：
Shopify PDP 主图

主体：
一瓶 30ml 玻璃滴管精华，磨砂透明玻璃瓶身，乳白色液体，银色金属滴管盖，极简高端护肤品牌调性

背景：
纯白无缝背景

构图：
正面偏左 10 度，主体居中，占画面 90%，轻微自然接触阴影

光线：
柔和漫射棚拍，受控高光，玻璃边缘清晰，液体真实可见

细节：
真实玻璃厚度，标签平整，液体粘度自然，金属反射干净

约束：
不要花瓣，不要叶子，不要额外道具，不要虚构 logo，不要额外文字，不要水印

输出：
1024x1024，quality=medium

这个示例的几个关键点值得注意：

"正面偏左 10 度"比"正面"好。 完全正面的角度容易显得呆板，轻微的偏转能增加立体感。

"受控高光"这个词很关键。 如果你不写，AI 可能给玻璃瓶加上夸张的反光，看起来像广告海报而不是产品图。

约束条款写了六个"不要"。 这些不是废话——每一个都是我踩过坑之后加的。"不要花瓣"是因为 AI 特别喜欢在护肤品旁边加花瓣装饰；"不要虚构 logo"是因为它会自作主张给你编一个品牌标识。

第二层：编辑流——基于真实照片做修改

当你有真实产品照片的时候，编辑流比纯生成流稳定得多。这是电商场景下最推荐的用法。

编辑流的核心逻辑

编辑流不是"让 AI 画一幅新图"，而是"让 AI 在你已有的图上做指定的修改"。这听起来简单，但很多人写编辑提示词的方式是错的。

错误示范：

把这张产品图变高级一点，背景换成浴室场景。

这种提示词的问题是"变高级"太模糊，AI 不知道你具体要改什么。它可能改了你不想改的东西（比如瓶型），同时没改你想改的东西（比如光线）。

正确示范：

只改变背景和环境光线。将背景替换为白色大理石浴室台面，自然窗光从左侧照入。保持商品的几何形状、颜色、标签布局、比例、材质和品牌识别细节完全不变。

关键区别在于：明确列出"只改什么"和"不能改什么"。

编辑流提示词模板

输入：
Image 1 = [真实产品正面图]

任务：
将 Image 1 中的商品放入 [具体场景描述] 中。
只改变背景、环境光线、道具和镜头语境。
保持商品的几何形状、颜色、标签布局、比例、材质和品牌识别细节不变。

构图：
[半身近景 / 桌面近景 / 竖构图 / 横构图]
主体仍是画面视觉中心，留出 [左侧/右侧] 负空间

光线：
匹配场景自然光，确保接触阴影、反射和尺度关系真实

约束：
不要改商品本体，不要新增文字、logo、水印，不要改变包装内容

编辑流的"单变量迭代"原则

OpenAI 官方明确推荐的一个调优方法是：每次只改一个变量，不要整段重写。

比如你对生成的场景图不满意，不要把整条提示词推翻重来。而是只改其中一个维度：

"把光线改得更柔和，但不改构图和场景"
"把背景从浴室换成卧室，其他保持不变"
"把横构图改成竖构图，商品位置和光线不变"

这种单变量迭代的好处是：你能精确知道是哪个改动带来了效果变化，而不是每次都在做"控制变量法"的对照实验。

第三层：多图合成——高级用法

GPT Image 2 支持同时输入多张参考图，并按你指定的关系组合输出。这是电商场景下最强大但也最容易出错的用法。

多图合成的典型场景

场景一：真实产品 + 手模姿态

输入：
Image 1 = 商品真实产品图
Image 2 = 手模持握姿态参考图

任务：
把 Image 1 的商品按照 Image 2 的持握方式展示在手中。
商品本体必须保持真实颜色、几何和标签位置。
匹配透视、尺度、阴影和色温，让结果像同一次真实拍摄。

约束：
只引入必要道具；不添加误导性的配件；不新增文字、logo、水印。

场景二：真实产品 + 场景参考 + 风格参考

输入：
Image 1 = 商品真实产品图
Image 2 = 目标场景参考图
Image 3 = 光线/氛围参考图

任务：
将 Image 1 的商品放入 Image 2 的场景中，按照 Image 3 的光线风格渲染。
保持商品本体的所有细节不变。
匹配三张图之间的透视、尺度和色调关系。

多图合成最容易犯的错

参考关系写不清。 如果你不明确说"Image 1 是产品，Image 2 是场景"，模型就会自己猜。它猜对的概率不高。

输入图之间的风格差距太大。 如果你的产品图是棚拍白底，场景参考图是手机随拍的生活照，光线和色温完全对不上，合成结果会很违和。尽量让输入图的光线条件接近。

想要的太多。 三张输入图已经不少了。输入越多，模型需要兼顾的信息越多，出错的概率也越高。能用两张解决的，就不要用三张。

第四层：失败诊断——出了问题怎么修

提示词工程最有价值的部分不是"怎么写出好提示词"，而是"出了问题怎么快速定位和修复"。

以下是我在实践中积累的常见失败模式和对应的修复方法。

失败模式一：商品形状走形

症状： 瓶型变了、鞋楦歪了、耳机壳变形了。

原因： 纯文字生成时，模型对几何细节的理解有偏差。

修复： 切换到编辑流，用真实产品照做锚点。在提示词中加入 "preserve exact geometry" 或 "保持商品几何形状完全不变"。

失败模式二：颜色偏差

症状： 瓶盖从银色变成了金色，液面从乳白色变成了淡蓝色。

原因： 文字描述的颜色不够精确，或者模型对颜色词的理解有偏差。

修复： 提供真实产品参考图。如果必须用文字描述，用具体的颜色参考而不是模糊的形容词——写"银色金属"比写"金属色"好，写"Pantone 7541 C 浅灰"比写"浅灰色"更好。

失败模式三：多余元素入侵

症状： 莫名出现了花瓣、叶子、水滴、品牌 logo、额外文字。

原因： 模型根据品类"联想"到了常见元素。护肤品旁边加花瓣、饮料旁边加水滴——这是模型从训练数据中学到的"常识"。

修复： 在约束条款中明确排除。"不要花瓣、不要叶子、不要水滴、不要虚构 logo、不要额外文字"。这些约束越具体越好。

失败模式四：光线不匹配

症状： 商品的光线方向和背景的光线方向不一致，看起来像 P 上去的。

原因： 编辑流中没有明确光线匹配要求。

修复： 在提示词中加入 "match the lighting direction and color temperature of the scene" 或 "匹配场景的光线方向和色温"。

失败模式五：手模畸形

症状： 手指数量不对、手腕扭曲、持握姿势不自然。

原因： AI 生成人手仍然是公认的难点。

修复： 明确写出手的数量、位置和姿态。"one adult hand, natural grip, short clean nails, no rings, crop at wrist"。不要让模型自己决定手的细节。

第五层：品类差异——不同商品的提示词侧重点

同样是"产品图"，不同品类的提示词写法差异很大。这里按品类梳理关键的提示词差异点。

服装类：重点写"穿着状态"

服装类最怕的是 AI 把衣服生成成"悬挂在衣架上"的样子，而不是"穿在人身上"的状态。提示词要明确：

模特的体型和姿态
服装的垂坠感和褶皱走向
面料的质感（棉的柔软、丝绸的光泽、牛仔的硬挺）
"不要改变服装的剪裁和版型"

鞋靴类：重点写"结构准确"

鞋类的核心难点是鞋楦形状和鞋底纹路。提示词要明确：

朝向（Amazon 要求朝左）
角度（45 度是标准）
鞋底花纹的清晰度
"保持鞋型、鞋楦、鞋面材质和颜色块分布不变"

珠宝类：重点写"光线控制"

珠宝图的成败在于光线。提示词要明确：

"受控高光"——防止过曝
"真实微距"——保证切面细节
"金属不失真"——防止银变白、金变黄
"不要人台、不要胸像"——Amazon 珠宝类的硬性规定

电子产品：重点写"接口精确"

电子产品的容错率最低。提示词要明确：

接口类型和位置（USB-C、Lightning、3.5mm）
按键布局和标识
指示灯的颜色和位置
"禁止新增任何不在真实产品上的元件"

家居类：重点写"尺度感知"

家居产品需要通过场景来传达尺寸。提示词要明确：

和参照物的比例关系（杯子旁边放一只笔、枕头放在床上）
使用场景的真实性（厨房台面、浴室架、客厅茶几）
材质的触感描述（木纹的粗糙、陶瓷的光滑、织物的柔软）

美妆类：重点写"材质真实"

美妆产品的材质语言最丰富。提示词要明确：

瓶身材质（磨砂玻璃、光面塑料、金属）
内容物质感（乳液的粘稠、精华的透明、膏体的厚实）
包装细节（泵头结构、滴管形状、瓶盖材质）
"不要额外花草装饰"——AI 特别喜欢给护肤品加花

第六层：建立你的参数化模板库

提示词工程的终极目标不是"每次都从零写"，而是建立一套可参数化的模板库，让团队里的任何人都能快速出图。

模板的字段化设计

把提示词拆成以下字段，每个字段独立填写：

category: [品类]
shot_type: [白底主图 / 生活方式图 / 细节图]
background: [纯白 / 具体场景描述]
angle: [正面 / 45度 / 俯拍 / 微距]
lighting: [棚拍漫射光 / 自然窗光 / 逆光 / 受控高光]
props: [无 / 具体道具描述]
constraints: [不要XX, 不要YY, ...]
output_spec: [尺寸, 质量档位, 格式]

模板复用的正确方式

不是把整段提示词复制粘贴。而是固定模板的骨架（场景、构图、光线、约束），只替换商品描述部分。

比如你有一个成熟的"白底主图"模板：

[商品描述]，纯白无缝背景，正面偏左10度，主体居中占画面90%，
柔和漫射棚拍光，受控高光，自然接触阴影，
不要额外道具，不要水印，不要虚构logo，不要额外文字，
1024x1024，quality=medium

换 SKU 的时候，只需要替换 [商品描述] 这一个字段。其他部分保持不变。这样既保证了品牌视觉的一致性，又提高了生产效率。

版本管理和回溯

给每个提示词模板分配一个唯一 ID，记录以下信息：

模板 ID 和版本号
使用的模型快照版本
生成参数（质量档位、尺寸）
输入参考图的 ID
输出结果的评分

这样当你需要复现某张图的风格、排查为什么某个版本被平台拒绝、或者在模型升级后做回归测试时，都有据可查。

关于"有效词"和"无效词"的清单

最后给你一张速查表，帮你避开那些"看起来有用但其实没用"的提示词。

真正管用的词

目标	推荐写法
写实质感	professional product photography, realistic textures, true-to-life materials
构图控制	centered product, front-facing, 45-degree angle, macro close-up, top-down
光线描述	soft diffused studio lighting, clean specular highlights, natural window light
编辑稳定性	change only X, keep geometry/layout/color unchanged
手模控制	one adult hand, natural grip, short clean nails, crop at wrist

看起来有用但实际效果差的词

写法	为什么不好
8K ultra realistic masterpiece	空泛堆词，模型不知道你要什么具体效果
Canon EOS R5 + 100mm macro	相机参数被"松解释"，对输出影响很小
HDR, cinematic, award-winning	太泛，容易让风格偏广告海报而不是产品图
best quality, highly detailed	没有具体方向，等于没写
直接写"仿某在世摄影师风格"	模型会拒绝，且有法律风险

从"能出图"到"稳定出图"

提示词工程不是一次性的工作，而是一个持续迭代的过程。

我的建议是：先用最简单的提示词出一批图，找到"模型在这个品类上的默认表现"是什么样的。然后逐步加入约束和细节，观察每个改动带来的变化。不要一上来就写一大段复杂的提示词——那只会让你无法判断是哪个部分起了作用。

先跑起来，再优化。 这是所有工程问题的通用解法，提示词工程也不例外。

想亲手试试不同提示词的效果差异？到 gpt-image2ai.net 上用同一个商品、不同的提示词跑几组对比，你会比看十篇文章学到的都多。

Try GPT Image 2 for Free Now →

GPT Image 2 提示词工程：从入门到稳定出图的完整进阶手册