Istraživanje generativnih modela za automatsko stvaranje sintetičkih slika s primjenom u augmentaciji podataka i automatizaciji radnih procesa. Razvijamo metodologije za fino ugađanje difuzijskih modela (Stable Diffusion) na malim domenskim skupovima podataka te njihovu primjenu za generiranje raznolikih scenarija (vremenski uvjeti, osvjetljenje) koji nisu zastupljeni u originalnim podacima. Istražujemo automatizirane cjevovode koji kombiniraju velike jezične modele za generiranje upita s modelima za sintezu slika (SDXL, Flux, Midjourney, Gemini), te provodimo sustavne evaluacije kvalitete generiranog sadržaja. Primjene uključuju augmentaciju podataka za segmentaciju pješačkih prijelaza u sustavima za pomoć slabovidnim osobama te automatsko generiranje slika za poljoprivredne novinske članke.
Korištene tehnologije
- Difuzijski modeli (Stable Diffusion, SDXL, SD 3.5, Flux, Midjourney)
- Fino ugađanje difuzijskih modela na malim skupovima podataka
- Generiranje upita temeljeno na velikim jezičnim modelima (GPT, Gemini, Claude)
- Augmentacija sintetičkim podacima za semantičku segmentaciju
- Uvjetno generiranje slika (vremenski uvjeti, varijacije osvjetljenja)
- Metodologije ljudske evaluacije generativne umjetne inteligencije
- Izrada i usporedna analiza sintetičkih i stvarnih skupova podataka