Shutterstock

Bikin Gambar AI Lebih Keren? Kuncinya di Dataset dan Caption!

Fine-tuning itu seperti proses menyesuaikan model AI umum supaya lebih cocok dan maksimal untuk tugas tertentu. Khususnya dalam model generatif seperti text-to-image, fine-tuning dengan dataset yang pas bisa bikin hasilnya lebih sesuai dengan harapan pengguna.

Hal ini memungkinkan proses pembuatan visual yang lebih cepat, lebih konsisten, dan sesuai harapan. Tapi, apa Itu dataset yang “tepat”?

Berbeda dengan dataset pretraining yang mengutamakan skala, dataset untuk refinement mengutamakan kualitas. Dan bukan sembarang kualitas, tapi relevansi yaitu kumpulan gambar yang mencerminkan gaya, komposisi, dan makna visual yang benar-benar penting bagi pengguna akhir.

Selama ini, memilih data yang relevan lebih sering dianggap sebagai seni daripada sains. Kami ingin mengubah hal itu.


Dari Proxy Metrics ke Skor Berbasis Perilaku

Banyak tim sebelumnya mengandalkan proxy metrics spekulatif seperti aesthetic score dari LAION untuk memperkirakan kualitas gambar. Namun, metrik ini hanya mencerminkan penilaian estetika subjektif yang belum tentu mewakili kepuasan pengguna.

Potret yang paling banyak diunduh di marketplace stok kami (atas) vs potret dengan peringkat tertinggi berdasarkan skor Generative Aesthetic Score (bawah).

Di Shutterstock, kami mengambil pendekatan berbeda: menentukan dataset berdasarkan perilaku nyata pengguna.

Awalnya, Shutterstock menggunakan gambar-gambar paling laris di pasar stok kami untuk fine-tuning. Tapi ternyata ada celah besar: gambar yang laris di pasar stok belum tentu menghasilkan keluaran yang memuaskan bagi pengguna model generatif. Tujuan dan preferensi visual mereka berbeda-beda.


Memahami Generative Aesthetic Score

Di sinilah posisi unik Shutterstock memainkan peran penting. Dengan lebih dari 100 juta gambar AI yang telah dilisensikan, kami memiliki data perilaku nyata untuk melatih model pembelajaran mesin yang dapat memprediksi apa yang benar-benar disukai pengguna generatif.

Model ini menghasilkan Generative Aesthetic Score, sinyal prediktif yang sangat berkorelasi dengan keterlibatan pengguna.

Beberapa hasilnya:

  • Gambar AI dengan engagement tinggi memiliki skor 8,3% lebih tinggi dibanding gambar yang tidak menarik (bandingkan dengan 1,4% pada LAION).

  • Skor ini mampu meranking performa model generatif dengan korelasi 0,86 terhadap keterlibatan nyata pengguna (dibanding 0,39 dari LAION).

Model penilaian estetika generatif kami bisa menebak dengan sangat baik gambar mana yang paling menarik dan sering dilihat atau dipilih oleh pengguna (kiri). Model ini juga bisa membantu menentukan model AI mana yang paling bagus berdasarkan seberapa banyak orang tertarik dengan hasil gambarnya (kanan).

Generative Aesthetic Score juga berguna untuk pemilihan checkpoint selama eksperimen fine-tuning dan tetap akurat seiring perubahan selera pengguna.


Kualitas & Variasi: Kunci Dataset yang Optimal

Kualitas saja tidak cukup, variasi visual juga penting. Untuk itu, kami menggunakan strategi clustering-based sampling:

  1. Gambar diklaster berdasarkan kesamaan visual.

  2. Dari setiap klaster, kami memilih gambar dengan skor tertinggi berdasarkan Generative Aesthetic Score.

  3. Jumlah klaster disesuaikan agar seimbang antara kesesuaian konten dan variasi visual yang menarik.

Hasil akhirnya: dataset refinement yang tidak hanya sesuai dengan preferensi pengguna, tetapi juga kaya variasi visual dan minim redundansi.


Hasil Eksperimen: Kesesuaian Prompt & Engagement

Kami membandingkan hasil fine-tuning model dasar dengan:

  • Dataset baseline (gambar stok populer)

  • Dataset optimal (berdasarkan skor generatif dan clustering)

Hasilnya:

  • +1,1 poin CLIP score (kesesuaian dengan prompt)

  • +17% skor Generative Aesthetic

Secara visual, model yang di-fine-tune dengan dataset optimal menghasilkan gambar yang lebih tajam, relevan, dan memenuhi ekspektasi pengguna.


Peran Penting Caption: Bahasa adalah Kunci

Visual memang penting, tapi bahasa (tepatnya caption) sama pentingnya. Caption berkualitas tinggi membantu model belajar memetakan bahasa ke visual dengan lebih akurat.

Kami menemukan bahwa:

  • Caption dari kontributor Shutterstock lebih baik dari hasil scraping biasa.

  • Tapi caption sintetik dari Vision-Language Models (VLMs) bahkan lebih unggul.

  • Dengan 80% caption sintetik, model fine-tuning kami menunjukkan:

    • +0,5 CLIP score

    • +1,6% Generative Aesthetic Score

Caption ini memungkinkan model belajar visualisasi nuansa bahasa yang lebih kompleks dan relevan secara emosional.


Data Adalah Tuas, Fine-Tuning Adalah Titik Tumpunya

Jika kamu sedang membangun atau mengevaluasi pipeline model generatif, pelajaran pentingnya adalah:
Kualitas data mengalahkan kuantitas data. Dan kualitas terbaik adalah yang selaras dengan pengguna kamu.

Di Shutterstock, kami telah membangun pipeline yang:

  • Memilih dan memberi skor gambar berdasarkan perilaku pengguna

  • Mengelompokkan konten untuk menjaga variasi

  • Menghasilkan caption sintetik yang kaya dan kontekstual

Jika kamu tertarik membangun pipeline internal serupa, atau ingin melisensikan dataset generatif berkualitas tinggi yang siap digunakan, tim kami siap membantu.


Artikel asli ditulis oleh Raúl Gómez Bruballa : How Dataset Quality and Caption Richness Shape Fine-Tuned Text-to-Image Models

Related posts

Cara Menjadi Shutterstock Contributor Dari Nol Hingga Sukses

Admin Original

5 Fitur Shutterstock AI yang Bikin Edit Foto Online Mudah & Cepat

Admin Original

Menggali Keberadaan Shutterstock Indonesia Lebih Dalam

Admin Original

Mau Tahu Cara Jual Foto di Shutterstock yang Bikin Cuan Puluhan Juta? 

Admin Original

Bagaimana Remove Watermark di Shutterstock? Ini Jawabannya

Admin Original

Shutterstock AI Search Assistant

Villda Regina

Leave a Comment