Rekayasa Prompt GPT Image 2: Panduan Lanjutan Lengkap dari Dasar hingga Pembuatan Stabil
AI Review Lab
24 अप्रैल 2026

Model dan produk yang sama, tetapi struktur prompt yang berbeda dapat meningkatkan tingkat keberhasilan dari 30% menjadi 80%. Panduan komprehensif tentang kerangka kerja prompt, alur pengeditan, dan parameterisasi untuk GPT Image 2.
Model yang sama, produk yang sama, tetapi ungkapan prompt yang berbeda dapat meningkatkan tingkat keberhasilan dari 30% menjadi 80%. Ini bukan metafisika; ini adalah metodologi.

Semua gambar produk dalam artikel ini dibuat menggunakan GPT Image 2.
Mengapa Membicarakan Prompt Secara Terpisah
Batas kemampuan GPT Image 2 sangat tinggi—ia dapat menghasilkan fotografi produk yang realistis, tekstur material yang halus, dan rendering teks yang akurat. Namun, ada celah rekayasa prompt antara "apa yang bisa dilakukan model" dan "apa yang bisa Anda buat agar model melakukannya secara stabil."
Banyak orang mengalami hal ini: sesekali menghasilkan gambar yang menakjubkan, tetapi sebagian besar waktu hasilnya "sedikit meleset" atau "benar-benar keluar jalur." Masalahnya bukan pada modelnya, tetapi pada "cara komunikasi" antara Anda dan model.
Artikel ini bertujuan untuk memecahkan masalah tersebut. Saya akan mulai dari struktur prompt yang paling dasar dan secara bertahap mempelajari alur pengeditan, komposisi multi-gambar, diagnosis kegagalan, dan sistem templat berparameter. Tujuan utamanya adalah membantu Anda membangun alur kerja prompt yang stabil, dapat digunakan kembali, dan dapat diproses secara batch.
Tingkat 1: Struktur Prompt Pembuatan Teks Murni
Ini adalah penggunaan yang paling dasar—Anda tidak memiliki foto produk asli dan sepenuhnya mengandalkan deskripsi teks untuk membiarkan AI menghasilkan gambar. Ini cocok untuk seni konsep, visual pra-penjualan, atau fase di mana Anda perlu menjual cerita sebelum memiliki produk fisik.
Kerangka Kerja Inti: Struktur Empat Bagian
Setelah pengujian ekstensif, saya menemukan bahwa mengatur prompt dalam urutan berikut menghasilkan hasil yang paling stabil:
[Adegan/Latar Belakang] → [Subjek Produk] → [Detail Utama] → [Kendala]
Mengapa urutan ini berhasil? Karena GPT Image 2 memberikan bobot tertinggi pada awal prompt. Jika Anda meletakkan "Adegan" di awal, model pertama-tama akan menetapkan konteks visual secara keseluruhan; meletakkan "Subjek Produk" di urutan kedua memungkinkan model untuk menggambarkan produk dalam konteks yang benar; "Detail" melengkapi presisi; dan "Kendala" menentukan batasan.
Sebaliknya, jika Anda memulai dengan detail (misalnya, "botol kaca buram 30ml, tutup penetes perak"), model mungkin mulai merender detail sebelum menetapkan konteks visual yang benar, yang menyebabkan penyimpangan gaya secara keseluruhan.
Contoh Praktis: Gambar Utama Latar Belakang Putih Serum Kecantikan
Tujuan:
Gambar Utama PDP Shopify
Subjek:
Botol serum penetes kaca 30ml, bodi kaca transparan buram, cairan putih susu, tutup penetes logam perak, nada merek perawatan kulit kelas atas minimalis.
Latar Belakang:
Latar belakang putih bersih tanpa batas.
Komposisi:
Menghadap ke depan, sedikit diputar 10 derajat ke kiri, subjek di tengah, menempati 90% bingkai, bayangan kontak alami yang terang.
Pencahayaan:
Pencahayaan studio difus yang lembut, sorotan spekular terkontrol, tepi kaca yang bening, cairan yang tampak realistis.
Detail:
Ketebalan kaca realistis, label datar, viskositas cairan alami, pantulan logam bersih.
Kendala:
Tidak ada kelopak bunga, tidak ada daun, tidak ada properti tambahan, tidak ada logo fiktif, tidak ada teks tambahan, tidak ada tanda air.
Keluaran:
1024x1024, quality=medium

Beberapa poin penting dalam contoh ini patut diperhatikan:
"Sedikit diputar 10 derajat ke kiri" lebih baik daripada "Menghadap ke depan." Sudut yang benar-benar menghadap ke depan dengan mudah terlihat kaku, sementara sedikit putaran menambah nuansa tiga dimensi.
Istilah "sorotan spekular terkontrol" sangat penting. Jika Anda tidak menyertakannya, AI mungkin menambahkan pantulan berlebihan ke botol kaca, membuatnya terlihat seperti poster iklan daripada gambar produk.
Klausul kendala mencantumkan enam "Tidak ada". Ini bukan omong kosong—masing-masing ditambahkan setelah saya belajar dari kesalahan. "Tidak ada kelopak bunga" adalah karena AI sangat suka menambahkan hiasan kelopak bunga di samping produk perawatan kulit; "tidak ada logo fiktif" adalah karena AI akan mengambil kebebasan untuk menemukan pengidentifikasi merek untuk Anda.
Tingkat 2: Alur Pengeditan—Memodifikasi Berdasarkan Foto Asli
Saat Anda memiliki foto produk asli, alur pengeditan jauh lebih stabil daripada alur pembuatan murni. Ini adalah penggunaan yang paling disarankan dalam skenario e-commerce.
Logika Inti dari Alur Pengeditan
Alur pengeditan bukan "meminta AI untuk menggambar gambar baru," tetapi "meminta AI untuk membuat modifikasi tertentu pada gambar yang sudah Anda miliki." Ini kedengarannya sederhana, tetapi banyak orang menulis prompt pengeditan dengan cara yang salah.
Contoh salah:
Buat gambar produk ini terlihat lebih premium, ubah latar belakang menjadi adegan kamar mandi.
Masalah dengan prompt ini adalah "lebih premium" terlalu kabur, dan AI tidak tahu persis apa yang ingin Anda ubah. Ia mungkin mengubah hal-hal yang tidak ingin Anda ubah (seperti bentuk botol) sambil gagal mengubah apa yang Anda ingin diubah (seperti pencahayaan).
Contoh benar:
Ubah hanya latar belakang dan pencahayaan lingkungan. Ganti latar belakang dengan meja kamar mandi marmer putih, dengan cahaya jendela alami yang masuk dari kiri. Pertahankan geometri, warna, tata letak label, skala, material, dan detail identitas merek produk agar sama sekali tidak berubah.
Perbedaan utamanya adalah: mencantumkan secara eksplisit "apa yang harus diubah" dan "apa yang tidak boleh diubah".
Templat Prompt Alur Pengeditan
Masukan:
Image 1 = [Gambar produk asli menghadap ke depan]
Tugas:
Tempatkan produk di Image 1 ke dalam [Deskripsi adegan tertentu].
Ubah hanya latar belakang, pencahayaan lingkungan, properti, dan konteks lensa.
Pertahankan geometri, warna, tata letak label, skala, material, dan detail identitas merek produk agar tidak berubah.
Komposisi:
[Close-up setengah badan / Close-up desktop / Komposisi vertikal / Komposisi horizontal]
Subjek tetap menjadi pusat visual bingkai, menyisakan ruang negatif [kiri/kanan].
Pencahayaan:
Sesuaikan dengan cahaya alami pemandangan, pastikan bayangan kontak, pantulan, dan hubungan skala realistis.
Kendala:
Jangan ubah produk itu sendiri, jangan tambahkan teks, logo, atau tanda air baru, jangan ubah isi kemasan.

Prinsip "Iterasi Variabel Tunggal" dari Alur Pengeditan
Metode penyesuaian resmi yang secara eksplisit direkomendasikan oleh OpenAI adalah: Ubah hanya satu variabel pada satu waktu; jangan menulis ulang seluruh paragraf.
Misalnya, jika Anda tidak puas dengan gambar adegan yang dihasilkan, jangan membuang seluruh prompt dan memulai dari awal. Sebaliknya, ubah hanya satu dimensi:
- "Jadikan pencahayaan lebih lembut, tetapi jangan ubah komposisi dan adegan."
- "Ubah latar belakang dari kamar mandi ke kamar tidur, pertahankan hal lainnya agar tidak berubah."
- "Ubah komposisi horizontal menjadi komposisi vertikal, pertahankan posisi produk dan pencahayaan agar tidak berubah."
Manfaat dari iterasi variabel tunggal ini adalah Anda tahu persis perubahan mana yang membawa perbedaan efek, daripada melakukan eksperimen "variabel kontrol" setiap saat.
Tingkat 3: Komposisi Multi-Gambar—Penggunaan Lanjutan
GPT Image 2 mendukung memasukkan beberapa gambar referensi secara bersamaan dan mengeluarkan hasil gabungan sesuai dengan hubungan yang Anda tentukan. Ini adalah penggunaan yang paling kuat tetapi juga paling rentan terhadap kesalahan dalam skenario e-commerce.
Skenario Khas untuk Komposisi Multi-Gambar
Skenario 1: Produk Asli + Postur Model Tangan
Masukan:
Image 1 = Gambar produk asli
Image 2 = Gambar referensi postur memegang model tangan
Tugas:
Tampilkan produk dari Image 1 di tangan sesuai dengan metode memegang di Image 2.
Produk itu sendiri harus mempertahankan warna, geometri, dan posisi labelnya yang realistis.
Sesuaikan perspektif, skala, bayangan, dan suhu warna agar hasilnya terlihat seperti satu pemotretan asli.
Kendala:
Hanya perkenalkan properti yang diperlukan; jangan tambahkan aksesori yang menyesatkan; jangan tambahkan teks, logo, atau tanda air baru.
Skenario 2: Produk Asli + Referensi Adegan + Referensi Gaya
Masukan:
Image 1 = Gambar produk asli
Image 2 = Gambar referensi adegan target
Image 3 = Gambar referensi pencahayaan/suasana
Tugas:
Tempatkan produk dari Image 1 ke dalam adegan dari Image 2, dirender sesuai dengan gaya pencahayaan Image 3.
Pertahankan semua detail produk itu sendiri agar tidak berubah.
Sesuaikan perspektif, skala, dan hubungan nada di antara ketiga gambar tersebut.
Kesalahan Paling Umum dalam Komposisi Multi-Gambar
Hubungan referensi tidak jelas. Jika Anda tidak secara eksplisit mengatakan "Image 1 adalah produk, Image 2 adalah adegan," model akan menebak sendiri. Probabilitas penebakannya benar tidak tinggi.
Kesenjangan gaya yang terlalu besar antara gambar masukan. Jika gambar produk Anda adalah bidikan studio dengan latar belakang putih, dan gambar referensi adegan adalah foto gaya hidup kasual yang diambil dengan telepon, pencahayaan dan suhu warna tidak akan cocok sama sekali, menghasilkan komposit yang sangat janggal. Cobalah untuk menjaga agar kondisi pencahayaan gambar masukan tetap dekat.
Meminta terlalu banyak. Tiga gambar masukan sudah cukup banyak. Semakin banyak masukan, semakin banyak informasi yang perlu diseimbangkan oleh model, dan semakin tinggi probabilitas kesalahan. Jika Anda dapat menyelesaikannya dengan dua gambar, jangan gunakan tiga.
Tingkat 4: Diagnosis Kegagalan—Cara Memperbaiki Masalah Saat Timbul
Bagian paling berharga dari rekayasa prompt bukan "bagaimana menulis prompt yang baik," tetapi "bagaimana dengan cepat menemukan dan memperbaiki masalah saat terjadi."
Berikut adalah pola kegagalan umum yang saya kumpulkan dalam praktik dan perbaikannya masing-masing.
Pola Kegagalan 1: Distorsi Bentuk Produk
Gejala: Bentuk botol berubah, cetakan sepatu bengkok, atau wadah headphone berubah bentuk.
Penyebab: Selama pembuatan teks murni, model memiliki penyimpangan dalam memahami detail geometris.
Perbaikan: Beralih ke alur pengeditan, menggunakan foto produk asli sebagai jangkar. Tambahkan "preserve exact geometry" atau "pertahankan bentuk geometris produk agar tidak berubah sama sekali" ke prompt.
Pola Kegagalan 2: Penyimpangan Warna
Gejala: Tutup perak berubah menjadi emas, atau cairan putih susu berubah menjadi biru pucat.
Penyebab: Deskripsi teks dari warna tidak cukup tepat, atau model salah memahami kata-kata warna.
Perbaikan: Berikan gambar referensi produk asli. Jika Anda harus menggunakan deskripsi teks, gunakan referensi warna tertentu daripada kata sifat yang kabur—menulis "logam perak" lebih baik daripada "warna metalik," dan menulis "abu-abu muda Pantone 7541 C" lebih baik daripada "abu-abu muda."
Pola Kegagalan 3: Invasi Elemen Berlebihan
Gejala: Kelopak bunga, daun, tetesan air, logo merek, atau teks tambahan muncul tanpa alasan yang jelas.
Penyebab: Model "mengaitkan" elemen-elemen umum berdasarkan kategori. Menambahkan kelopak bunga di samping produk perawatan kulit atau tetesan air di samping minuman—ini adalah "akal sehat" yang dipelajari model dari data pelatihannya.
Perbaikan: Kecualikan secara eksplisit dalam klausul kendala. "Tidak ada kelopak bunga, tidak ada daun, tidak ada tetesan air, tidak ada logo fiktif, tidak ada teks tambahan." Semakin spesifik kendala ini, semakin baik.
Pola Kegagalan 4: Ketidakcocokan Pencahayaan
Gejala: Arah pencahayaan pada produk tidak konsisten dengan arah pencahayaan latar belakang, membuatnya terlihat seperti diedit di Photoshop.
Penyebab: Alur pengeditan tidak secara eksplisit menyatakan persyaratan kecocokan pencahayaan.
Perbaikan: Tambahkan "match the lighting direction and color temperature of the scene" atau "sesuaikan arah pencahayaan dan suhu warna adegan" ke prompt.
Pola Kegagalan 5: Kelainan Bentuk Model Tangan
Gejala: Jumlah jari salah, pergelangan tangan terpelintir, atau postur memegang tidak wajar.
Penyebab: AI yang menghasilkan tangan manusia masih menjadi kesulitan yang diakui.
Perbaikan: Tulis secara eksplisit jumlah, posisi, dan postur tangan. "Satu tangan dewasa, pegangan alami, kuku pendek dan bersih, tidak ada cincin, potong di pergelangan tangan." Jangan biarkan model memutuskan detail tangan sendiri.
Tingkat 5: Perbedaan Kategori—Fokus Prompt untuk Produk yang Berbeda
Meskipun keduanya adalah "gambar produk," cara prompt ditulis untuk kategori yang berbeda sangat bervariasi. Berikut adalah perincian perbedaan utama prompt berdasarkan kategori.
Pakaian: Fokus pada "Keadaan Dipakai"
Ketakutan terbesar untuk pakaian adalah AI yang menghasilkan pakaian yang terlihat "tergantung di gantungan" daripada "dikenakan oleh seseorang." Prompt harus eksplisit tentang:
- Tipe tubuh dan postur model.
- Arah jatuhnya dan lipatan pakaian.
- Tekstur kain (kelembutan kapas, kilau sutra, kekakuan denim).
- "Jangan ubah potongan dan ukuran pakaian."
Alas Kaki: Fokus pada "Akurasi Struktural"
Kesulitan inti dengan alas kaki adalah bentuk cetakan sepatu dan pola sol. Prompt harus eksplisit tentang:
- Orientasi (Amazon mengharuskan menghadap ke kiri).
- Sudut (45 derajat adalah standar).
- Kejelasan pola sol.
- "Pertahankan bentuk sepatu, cetakan sepatu, bahan atas, dan distribusi blok warna agar tidak berubah."
Perhiasan: Fokus pada "Kontrol Pencahayaan"
Keberhasilan atau kegagalan gambar perhiasan terletak pada pencahayaan. Prompt harus eksplisit tentang:
- "Sorotan spekular terkontrol"—untuk mencegah pencahayaan berlebih.
- "Makro realistis"—untuk memastikan detail faset.
- "Logam yang tidak terdistorsi"—untuk mencegah perak berubah menjadi putih atau emas berubah menjadi kuning.
- "Tidak ada manekin, tidak ada patung dada"—aturan ketat untuk kategori perhiasan Amazon.
Elektronik: Fokus pada "Antarmuka yang Tepat"
Elektronik memiliki toleransi kesalahan terendah. Prompt harus eksplisit tentang:
- Jenis dan lokasi antarmuka (USB-C, Lightning, 3.5mm).
- Tata letak dan penandaan tombol.
- Warna dan posisi lampu indikator.
- "Larang menambahkan komponen apa pun yang tidak ada pada produk asli."
Barang-Barang Rumah Tangga: Fokus pada "Persepsi Skala"
Produk rumah tangga perlu menyampaikan ukuran melalui pemandangan. Prompt harus eksplisit tentang:
- Hubungan proporsional dengan objek referensi (pena di sebelah cangkir, bantal di tempat tidur).
- Keaslian adegan penggunaan (meja dapur, rak kamar mandi, meja kopi ruang tamu).
- Deskripsi taktil bahan (kasarnya serat kayu, kehalusan keramik, kelembutan kain).
Kecantikan: Fokus pada "Material Realistis"
Produk kecantikan memiliki bahasa material yang paling kaya. Prompt harus eksplisit tentang:
- Material badan botol (kaca buram, plastik mengkilap, logam).
- Tekstur isi (viskositas losion, transparansi serum, ketebalan krim).
- Detail kemasan (struktur pompa, bentuk penetes, material tutup).
- "Tidak ada hiasan bunga tambahan"—AI sangat suka menambahkan bunga pada produk perawatan kulit.
Tingkat 6: Membangun Perpustakaan Templat Berparameter Anda
Tujuan akhir dari rekayasa prompt bukanlah untuk "menulis dari awal setiap saat," tetapi untuk membangun perpustakaan templat berparameter sehingga siapa pun dalam tim dapat dengan cepat menghasilkan gambar.
Desain Templat Berbasis Bidang
Pecah prompt ke dalam bidang-bidang berikut, isi masing-masing secara independen:
category: [Kategori]
shot_type: [Gambar utama latar belakang putih / Gambar gaya hidup / Bidikan detail]
background: [Putih murni / Deskripsi adegan tertentu]
angle: [Depan / 45 derajat / Atas ke bawah / Makro]
lighting: [Cahaya difus studio / Cahaya jendela alami / Cahaya latar / Sorotan terkontrol]
props: [Tidak ada / Deskripsi properti tertentu]
constraints: [Tidak ada XX, Tidak ada YY, ...]
output_spec: [Ukuran, Tingkat kualitas, Format]
Cara yang Benar untuk Menggunakan Kembali Templat
Jangan salin dan tempel seluruh paragraf prompt. Sebaliknya, perbaiki kerangka templat (adegan, komposisi, pencahayaan, kendala) dan ganti hanya bagian deskripsi produk.
Misalnya, jika Anda memiliki templat "gambar utama latar belakang putih" yang sudah matang:
[Deskripsi Produk], latar belakang putih bersih tanpa batas, menghadap ke depan sedikit diputar 10 derajat ke kiri, subjek di tengah menempati 90% bingkai,
pencahayaan studio difus yang lembut, sorotan spekular terkontrol, bayangan kontak alami,
tidak ada properti tambahan, tidak ada tanda air, tidak ada logo fiktif, tidak ada teks tambahan,
1024x1024, quality=medium
Saat mengganti SKU, Anda hanya perlu mengganti bidang [Deskripsi Produk]. Biarkan sisanya tidak berubah. Hal ini memastikan konsistensi visual merek sekaligus meningkatkan efisiensi produksi.
Manajemen Versi dan Ketertelusuran
Tetapkan ID unik ke setiap templat prompt dan catat informasi berikut:
- ID templat dan nomor versi.
- Versi snapshot model yang digunakan.
- Parameter pembuatan (tingkat kualitas, ukuran).
- ID dari gambar referensi masukan.
- Peringkat hasil keluaran.
Dengan cara ini, saat Anda perlu mereproduksi gaya gambar tertentu, memecahkan masalah mengapa suatu versi ditolak oleh suatu platform, atau melakukan pengujian regresi setelah pemutakhiran model, semuanya didokumentasikan.
Daftar Periksa Kata "Efektif" vs. "Tidak Efektif"
Terakhir, berikut adalah panduan referensi cepat untuk membantu Anda menghindari kata-kata prompt "tampaknya berguna tetapi sebenarnya tidak berguna".
Kata-kata yang Benar-benar Berfungsi
| Tujuan | Ungkapan yang Disarankan |
|---|---|
| Tekstur Realistis | professional product photography, realistic textures, true-to-life materials |
| Kontrol Komposisi | centered product, front-facing, 45-degree angle, macro close-up, top-down |
| Deskripsi Pencahayaan | soft diffused studio lighting, clean specular highlights, natural window light |
| Stabilitas Pengeditan | change only X, keep geometry/layout/color unchanged |
| Kontrol Model Tangan | one adult hand, natural grip, short clean nails, crop at wrist |
Kata-kata yang Tampak Berguna tetapi Kinerjanya Buruk
| Ungkapan | Mengapa Buruk |
|---|---|
| 8K ultra realistic masterpiece | Penjejalan kata kunci yang tidak jelas; model tidak tahu efek spesifik apa yang Anda inginkan. |
| Canon EOS R5 + 100mm macro | Parameter kamera "ditafsirkan secara longgar" dan memiliki sedikit dampak pada output. |
| HDR, cinematic, award-winning | Terlalu luas; dengan mudah membuat gaya condong ke arah poster iklan daripada gambar produk. |
| best quality, highly detailed | Kurangnya arah yang spesifik; sama dengan tidak menulisnya. |
| Secara langsung menulis "dengan gaya [fotografer yang masih hidup]" | Model akan menolak, dan ini membawa risiko hukum. |
Dari "Menghasilkan Gambar" Menjadi "Menghasilkan Gambar Secara Stabil"
Rekayasa prompt bukanlah pekerjaan satu kali, melainkan proses iterasi yang berkelanjutan.
Saran saya adalah: mulailah dengan menghasilkan sekumpulan gambar dengan prompt paling sederhana untuk mencari tahu seperti apa "kinerja default model dalam kategori ini". Kemudian secara bertahap tambahkan kendala dan detail, amati perubahan yang dibawa oleh setiap modifikasi. Jangan menulis prompt yang panjang dan rumit sejak awal—itu hanya akan membuat Anda tidak mungkin menentukan bagian mana yang berhasil.
Jalankan dulu, lalu optimalkan. Ini adalah solusi universal untuk semua masalah rekayasa, tidak terkecuali rekayasa prompt.
Ingin mencoba sendiri perbedaan antara berbagai prompt? Kunjungi gpt-image2ai.net dan jalankan beberapa set perbandingan menggunakan produk yang sama dengan prompt yang berbeda. Anda akan belajar lebih banyak dari ini daripada membaca sepuluh artikel.
