No dejo de recibir la misma pregunta: "¿Por qué las imágenes que genero con GPT Image 2 nunca son lo suficientemente buenas?"

La respuesta corta es: tu prompt no está bien escrito.

La respuesta larga es: las capacidades de generación de imágenes de GPT Image 2 han mejorado enormemente, pero la calidad de los prompts de la mayoría de los usuarios no se ha actualizado en consecuencia. Este no es un problema del modelo, sino de la forma en que te comunicas con él.

Este artículo proporciona una fórmula de estructura de prompts reutilizable para ayudarte a controlar de forma más consistente el sujeto, el estilo, la iluminación, la composición y los parámetros de salida. Cubriremos plantillas para 10 escenarios comunes que puedes adaptar y usar directamente.

¿Por qué GPT Image 2 necesita ingeniería de prompts

GPT Image 2 funciona mejor con descripciones claras en lenguaje natural del objetivo de la imagen. Pero aquí hay un punto clave: la calidad real de la salida del modelo depende en gran medida de la calidad de tu prompt.

Para un mismo requisito, los resultados generados con diferentes prompts pueden variar enormemente.

Prompt deficiente:

"一只猫"

Prompt adecuado:

"一只橘色虎斑猫坐在窗台上，阳光从左侧45度角照射，背景是模糊的城市夜景，浅景深效果，温暖色调，专业宠物摄影风格"

La diferencia suele radicar no solo en la cantidad de detalles de la imagen, sino en si el sujeto es preciso, si la composición es utilizable y si el estilo cumple las expectativas.

GPT Image 2 funciona mejor con prompts estructurados para expresar la intención. No solo coincide con palabras clave, sino que también comprende la lógica de la escena y los detalles faltantes según el contexto. Esto significa que cuanto más claro sea tu prompt, más fácil le resultará al modelo generar una imagen cercana al objetivo.

Fórmula de estructura de prompt

Un prompt de imagen consistente suele descomponerse en 5 elementos:

主体（Subject）+ 风格（Style）+ 光线（Lighting）+ 构图（Composition）+ 参数（Parameters）

Descripción detallada de cada dimensión:

1. Sujeto (Subject)

El sujeto es el objeto central de la imagen. La descripción debe ser concreta y precisa.

Ejemplo negativo:

"Una persona" → demasiado vago
"Una mujer" → algo mejor, pero no suficiente

Ejemplo positivo:

"Una mujer asiática de unos 30 años, con el cabello largo y negro, vestida con camisa blanca, sentada en un escritorio usando un portátil"
"Un golden retriever con la boca abierta y la lengua fuera, persiguiendo un frisbee"

Consejos clave:

Incluye detalles como edad, género, etnia, ropa y acciones
Usa sustantivos específicos en lugar de términos genéricos
Describe emociones y posturas

2. Estilo (Style)

El estilo define la forma de expresión artística de la imagen.

Opciones de estilo comunes:

Fotografía realista: photorealistic, professional photography, 8K resolution
Ilustración: digital illustration, watercolor painting, oil painting
Renderizado 3D: 3D render, Unreal Engine 5, octane render
Diseño plano: flat design, minimalist, vector art
Anime: anime style, manga, Studio Ghibli style

Ejemplos:

"产品摄影风格，白色背景，柔和的工作室灯光"
"赛博朋克风格，霓虹灯光，雨夜街道"
"水彩插画风格，柔和的色彩渐变，手绘质感"

3. Iluminación (Lighting)

La iluminación determina el ambiente y la textura de la imagen.

Tipos de iluminación:

Luz natural: natural lighting, golden hour, overcast soft light
Luz de estudio: studio lighting, soft box, rim light
Luz dramática: dramatic lighting, chiaroscuro, backlit
Luz ambiental: ambient lighting, neon glow, candlelight

Ejemplos:

"黄金时段的自然光，温暖的橙色调"
"工作室环形灯，均匀的面部照明"
"逆光剪影效果，强烈的明暗对比"

4. Composición (Composition)

La composición controla la posición y la relación de los elementos en la escena.

Técnicas de composición:

Ángulo de visión: bird's eye view, low angle shot, close-up, wide shot
Reglas de composición: rule of thirds, centered composition, symmetrical
Profundidad de campo: shallow depth of field, bokeh background, deep focus
Lente: 35mm lens, macro lens, fisheye lens

Ejemplos:

"特写镜头，浅景深，背景虚化"
"俯视角度，对称构图"
"广角镜头，前景、中景、背景层次分明"

5. Parámetros (Parameters)

Los parámetros son ajustes técnicos durante la llamada a la API.

Parámetros habituales:

size: tamaño de la imagen (p. ej., 1024x1024, 1536x1024)
quality: nivel de calidad (standard, hd)
style: preferencia de estilo (vivid, natural)
n: cantidad de imágenes generadas

Ejemplo:

{
    "size": "1536x1024",
    "quality": "hd",
    "style": "natural",
    "n": 1
}

10 plantillas de prompts por escenario

A continuación se presentan 10 plantillas de prompts para escenarios comunes que puedes usar directamente:

1. Producto sobre fondo blanco

Escenario aplicable: exhibición de productos de comercio electrónico, imágenes de catálogo

Plantilla:

"[产品名称]，[产品细节描述]，纯白色背景，产品摄影风格，柔和的工作室灯光，无阴影，高分辨率，商业产品摄影"

Ejemplo:

"无线蓝牙耳机，黑色磨砂质感，充电盒打开状态，纯白色背景，产品摄影风格，柔和的工作室灯光，无阴影，8K分辨率，商业产品摄影"

2. Imagen de marketing de escena

Escenario aplicable: anuncios en redes sociales, promoción de marca

Plantilla:

"[产品/主题] 在 [使用场景] 中，[人物/环境描述]，[氛围描述]，[光线描述]，[风格描述]"

Ejemplo:

"智能手表在户外跑步场景中，年轻男性佩戴，城市公园背景，清晨阳光，充满活力的氛围，专业运动摄影风格"

3. Retrato / Fotografía de personas

Escenario aplicable: avatares, presentaciones de personas, redes sociales

Plantilla:

"[人物描述]，[表情/情绪]，[服装描述]，[背景描述]，[光线描述]，[构图描述]，专业人像摄影"

Ejemplo:

"30岁左右的亚洲女性，自信的微笑，穿着深蓝色西装，简约的办公室背景，柔和的侧光，半身特写，专业商务人像摄影"

4. Ilustración / Caricatura

Escenario aplicable: libros infantiles, imágenes para blogs, mascotas de marca

Plantilla:

"[角色/场景描述]，[艺术风格]，[色彩方案]，[氛围描述]"

Ejemplo:

"一只可爱的卡通小熊在森林里野餐，迪士尼动画风格，明亮的色彩，温馨愉快的氛围"

5. Diseño UI/UX

Escenario aplicable: prototipos de producto, presentaciones de diseño

Plantilla:

"[界面类型] 界面设计，[功能描述]，[设计风格]，[配色方案]，[设备展示]"

Ejemplo:

"移动端电商应用界面设计，商品详情页，现代简约风格，蓝白配色，iPhone 15 Pro 展示，高保真原型"

6. Portada para redes sociales

Escenario aplicable: miniaturas de YouTube, publicaciones de Instagram, imágenes de encabezado de Twitter

Plantilla:

"[主题描述]，[视觉元素]，[文字位置预留]，[风格描述]，[尺寸比例]"

Ejemplo:

"科技产品发布会封面，未来感十足的蓝色渐变背景，中央留白用于标题文字，现代科技风格，16:9横版比例"

7. Logo de marca

Escenario aplicable: logotipo de empresa, identidad de marca

Plantilla:

"[品牌名称/概念] Logo 设计，[图形元素描述]，[字体风格]，[配色方案]，[设计风格]，矢量图，白色背景"

Ejemplo:

"NovaTech Logo 设计，抽象的火箭图形，现代无衬线字体，深蓝色和银色配色，极简主义风格，矢量图，白色背景"

8. Fotografía gastronómica

Escenario aplicable: menús de restaurantes, blogs de gastronomía, envases de alimentos

Plantilla:

"[食物名称]，[摆盘描述]，[餐具/环境描述]，[光线描述]，[风格描述]，专业美食摄影"

Ejemplo:

"意大利面配番茄酱和罗勒叶，白色陶瓷盘盛放，木质餐桌背景，自然窗光，暖色调，专业美食摄影，浅景深"

9. Arquitectura / Diseño de interiores

Escenario aplicable: presentaciones inmobiliarias, propuestas de diseño, visualización conceptual

Plantilla:

"[建筑/空间类型]，[风格描述]，[材料/色彩描述]，[光线描述]，[视角描述]，建筑摄影"

Ejemplo:

"现代简约风格客厅，白色墙壁和原木家具，大面积落地窗，自然光线充足，广角镜头视角，建筑室内摄影"

10. Arte conceptual

Escenario aplicable: arte original para videojuegos, arte conceptual para cine, proyectos creativos

Plantilla:

"[场景/角色描述]，[世界观/风格描述]，[氛围描述]，[技术规格]，概念艺术"

Ejemplo:

"未来城市天际线，霓虹灯和飞行汽车，赛博朋克世界观，雨夜氛围，8K分辨率，电影级概念艺术，Matte Painting风格"

Cómo los parámetros de la API afectan los resultados

Además del contenido del prompt, los parámetros de la API también influyen directamente en los resultados generados.

Size (tamaño)

Tamaños habituales y escenarios aplicables:

1024x1024: cuadrado, adecuado para publicaciones en redes sociales, avatares
1536x1024: apaisado, adecuado para imágenes de blog, presentaciones
1024x1536: vertical, adecuado para fondos de pantalla móvil, carteles
1792x1024: panorámico, adecuado para miniaturas de YouTube, banners publicitarios

Recomendación: elige el tamaño según el uso final para evitar pérdida de contenido por recortes posteriores.

Quality (calidad)

Comparación de opciones:

standard: velocidad de generación rápida, bajo coste, adecuado para diseño de prototipos e iteración rápida
hd: mayor detalle, bordes más nítidos, adecuado para entrega final e impresión

Consideración: la calidad HD tarda más en generarse y cuesta más. Se recomienda usar standard durante la fase de iteración y hd para la versión final.

Style (estilo)

Comparación de opciones:

vivid: colores más saturados, mayor contraste, adecuado para materiales de marketing y redes sociales
natural: reproducción de color más realista, adecuado para fotografía de productos y estilo documental

Recomendación: elige según el tono de la marca y el escenario de uso.

N (cantidad)

Estrategia:

n=1: generación única, adecuado para necesidades concretas
n=2-4: generación por lotes, adecuado para escenarios en los que se necesita seleccionar el mejor resultado

Nota sobre costes: cuanto mayor sea el valor de n, mayor será el coste. Se recomienda probar primero el prompt con n=1 y, una vez satisfecho, generar por lotes.

Proceso de optimización iterativa

Pocos prompts generan un resultado perfecto a la primera. A continuación se presenta un método de optimización iterativa en 5 pasos:

Paso 1: Generación de la primera versión

Genera la primera versión de la imagen con un prompt básico y evalúa si la dirección general es correcta.

Paso 2: Diagnóstico de problemas

Tipos de problemas comunes:

Color incorrecto: falta descripción del color o la descripción es vaga
Desviación de composición: faltan descripciones del ángulo de visión, profundidad de campo o posición de los elementos
Estilo inadecuado: las palabras clave de estilo no son lo suficientemente específicas
Falta de detalles: la descripción del sujeto no es suficientemente detallada

Paso 3: Ajuste de prioridades

Estrategia de prioridades para modificar el prompt:

Descripción del sujeto (prioridad máxima): asegurar que el objeto central sea correcto
Definición del estilo (prioridad alta): determinar la dirección artística
Ajuste de iluminación (prioridad media): optimizar el ambiente
Optimización de la composición (prioridad media): mejorar la guía visual
Ajuste fino de parámetros (prioridad baja): optimización de detalles técnicos

Paso 4: Modificación incremental

Modifica solo una variable cada vez y observa el efecto. Evita modificar varios elementos simultáneamente, ya que no podrás determinar qué cambio produjo el resultado.

Paso 5: Confirmación de satisfacción

Cuando la imagen cumpla las siguientes condiciones, se puede considerar que la optimización está completa:

El sujeto es claro y preciso
El estilo cumple las expectativas
Los detalles son ricos y no hay errores evidentes
Se puede usar directamente en el escenario objetivo

Errores comunes y cómo evitarlos

Error 1: Descripción excesiva

Problema: el prompt es demasiado largo, demasiado detallado y contiene demasiada información irrelevante.

Ejemplo negativo:

"一只非常可爱的、毛茸茸的、橘色的、虎斑纹的、家猫，它有一双大大的、圆圆的、绿色的眼睛，正在窗台上..."

Solución: céntrate en las características clave y elimina los adjetivos redundantes.

Error 2: Ignorar exclusiones

Problema: no se excluyen explícitamente los elementos no deseados.

Solución: utiliza descripciones claras de exclusión para indicar lo que no deseas:

"不要包含文字，不要模糊，不要变形"

Error 3: Configuración inadecuada de parámetros

Problema: el tamaño no se corresponde con el uso previsto; la configuración de calidad no es razonable.

Solución: elige los parámetros según el uso final, prueba primero con ajustes estándar y cambia a alta calidad una vez satisfecho.

Error 4: Esperar coherencia sin proporcionar imagen de referencia

Problema: se desea que múltiples imágenes mantengan un estilo coherente, pero el prompt es diferente cada vez.

Solución: usa la combinación de imagen de referencia + descripción textual, o establece una plantilla de estilo.

Técnicas avanzadas

1. Optimización de prompts mediante diálogo de múltiples turnos

GPT Image 2 admite conversaciones de múltiples turnos. Puedes:

Generar una imagen inicial
Proponer modificaciones basadas en el resultado
El modelo conservará el contexto y realizará modificaciones incrementales

Ejemplo:

第一轮："生成一张现代风格的办公桌"
第二轮："把桌子颜色改成深胡桃木色"
第三轮："在桌上添加一台笔记本电脑和一杯咖啡"

2. Uso de la combinación imagen de referencia + descripción textual

Sube una imagen de referencia y combínala con una descripción textual para controlar la salida con mayor precisión.

Ejemplo:

图片：[上传一张产品照片]
文字："保持产品外观，将背景改为海滩场景，添加夕阳效果"

3. Redacción de prompts de transferencia de estilo

Aplica un estilo a un contenido diferente.

Ejemplo:

"用梵高的《星空》风格绘制上海外滩夜景"
"用日本浮世绘风格绘制现代城市天际线"

Preguntas frecuentes

P1: ¿Cuál es la diferencia entre el prompt de GPT Image 2 y el de DALL-E 3?

El prompt de GPT Image 2 pone más énfasis en la estructura y la descripción detallada. DALL-E 3 comprende mejor los prompts breves, mientras que GPT Image 2 puede extraer más información de los prompts detallados. Se recomienda usar la fórmula de 5 elementos de este artículo.

P2: ¿Cómo hacer que GPT Image 2 genere una serie de imágenes con estilo coherente?

Establece un archivo de plantilla de estilo que contenga descripciones fijas de estilo, iluminación y composición. Reutiliza estas descripciones cada vez que generes imágenes, modificando solo el contenido del sujeto. Alternativamente, usa la función de imagen de referencia.

P3: ¿Cuánto debe extenderse un prompt?

No hay un requisito de longitud fija. Lo importante es la calidad, no la cantidad. Un prompt preciso de 50 palabras suele dar mejores resultados que un prompt extenso de 200 palabras. Se recomienda mantenerlo entre 100 y 200 palabras.

P4: ¿Cómo manejar los problemas de renderizado de texto en los resultados generados?

El renderizado de texto de GPT Image 2 ha mejorado significativamente, pero aún puede cometer errores. Recomendaciones:

Usa palabras simples y comunes
Evita oraciones largas
Trata el texto como un elemento añadido en postproducción, no como el núcleo de la generación

P5: ¿Cuál es la diferencia de estrategia de prompts entre escenarios de presupuesto bajo y alto?

La estrategia en sí es la misma; la diferencia está en la asignación de recursos:

Los escenarios de presupuesto bajo son más adecuados para validar la dirección primero con tamaños pequeños y ajustes de bajo coste
Los escenarios de presupuesto alto pueden generar más imágenes candidatas a la vez, pero también deben registrar el coste y la tasa de aciertos
Antes de la entrega final, cambia al tamaño objetivo y la calidad objetivo para la confirmación

Conclusión

La ingeniería de prompts de GPT Image 2 no es una ciencia oculta, sino una habilidad que se puede aprender y optimizar de forma sistemática.

Recuerda la fórmula de 5 elementos: sujeto + estilo + iluminación + composición + parámetros.

Comienza con las 10 plantillas de escenarios de este artículo y ajústalas según tus necesidades específicas.

La optimización iterativa es la clave: rara vez un prompt sale perfecto a la primera.

Pon a prueba las plantillas de este artículo en tu flujo de trabajo real. Modifica solo una variable cada vez y registra el prompt, los parámetros y los resultados. Así sabrás rápidamente qué descripciones son eficaces para tu escenario y cuáles son solo ruido.

Try GPT Image 2 for Free Now →

¿Por qué GPT Image 2 necesita ingeniería de prompts

Fórmula de estructura de prompt

1. Sujeto (Subject)

2. Estilo (Style)

3. Iluminación (Lighting)

4. Composición (Composition)

5. Parámetros (Parameters)

10 plantillas de prompts por escenario

1. Producto sobre fondo blanco

2. Imagen de marketing de escena

3. Retrato / Fotografía de personas

4. Ilustración / Caricatura

5. Diseño UI/UX

6. Portada para redes sociales

7. Logo de marca

8. Fotografía gastronómica

9. Arquitectura / Diseño de interiores

10. Arte conceptual

Cómo los parámetros de la API afectan los resultados

Size (tamaño)

Quality (calidad)

Style (estilo)

N (cantidad)

Proceso de optimización iterativa

Paso 1: Generación de la primera versión

Paso 2: Diagnóstico de problemas

Paso 3: Ajuste de prioridades

Paso 4: Modificación incremental

Paso 5: Confirmación de satisfacción

Errores comunes y cómo evitarlos

Error 1: Descripción excesiva

Error 2: Ignorar exclusiones

Error 3: Configuración inadecuada de parámetros

Error 4: Esperar coherencia sin proporcionar imagen de referencia

Técnicas avanzadas

1. Optimización de prompts mediante diálogo de múltiples turnos

2. Uso de la combinación imagen de referencia + descripción textual

3. Redacción de prompts de transferencia de estilo

Preguntas frecuentes

P1: ¿Cuál es la diferencia entre el prompt de GPT Image 2 y el de DALL-E 3?

P2: ¿Cómo hacer que GPT Image 2 genere una serie de imágenes con estilo coherente?

P3: ¿Cuánto debe extenderse un prompt?

P4: ¿Cómo manejar los problemas de renderizado de texto en los resultados generados?

P5: ¿Cuál es la diferencia de estrategia de prompts entre escenarios de presupuesto bajo y alto?

Conclusión

Artículos relacionados

GPT Image 2 vs FLUX 2 vs Imagen 4: ¿Qué API de imágenes debería elegir un desarrollador en 2026?

¿Qué es GPT Image 2? Capacidades, API y Casos de Uso

Cómo GPT Image 2 está transformando los flujos de trabajo de marketing en 2026