Skip to content

Kako funkcionira AI generator slika? Difuzijski modeli jednostavno objašnjeni

Upisali ste nekoliko riječi – „zalazak sunca nad planinama s odrazom u jezeru” – i za svega nekoliko sekundi pred vama se pojavio zadivljujući prizor. Kako je to moguće? Kako umjetna inteligencija uspijeva pretvoriti apstraktni tekst u konkretno vizualno djelo?

Alati poput DALL-E, Midjourney ili Stable Diffusion nisu samo pametni programi. Riječ je o složenim sustavima koji su na milijunima slika naučili kako izgleda naš svijet. Zajedno ćemo otkriti tajnu njihovog funkcioniranja – od početnog „šuma” sve do finalne remek-kreacije. Kad saznate kako to funkcionira iznutra, bacite pogled na praktični vodič za pisanje prompta.


Kako AI pretvara šum u umjetnost: Čarolija difuzijskih modela

Zamislite kipara koji počinje s velikim, bezobličnim blokom mramora. Postepeno ga kleše, otkriva grube oblike i na kraju dotjeruje fine detalje dok ne nastane skulptura. Moderni AI generatori rade na vrlo sličnom principu.

Taj se proces naziva difuzija i srce je gotovo svih suvremenih generatora.

Dijagram koji prikazuje pretvorbu nasumičnog šuma u detaljan prikaz
Proces difuzije: Od nasumičnog šuma (lijevo) AI postupnim „čišćenjem" dolazi do finalnog prikaza (desno).

Kako kipar kleše digitalni mramor

Cijeli se proces odvija u nekoliko koraka koje vodi vaša tekstualna naredba:

  1. Start iz kaosa: Sve počinje kao platno ispunjeno nasumičnim šumom. Izgleda kao stari televizor bez signala. To je naš „blok mramora”.
  2. Postupno uklanjanje šuma: Model u nizu desetaka malih koraka taj šum postupno „čisti”. Što više koraka napravi, to je rezultat kvalitetniji. U svakom koraku pita se: „Kako bi ta slika izgledala da u njoj ima malo manje šuma, a istovremeno odgovara opisu ‘mačka na krovu’?”
  3. Navođenje tekstom: Vaš prompt služi kao stalni vodič. Osigurava da iz šuma ne izroni pas ili auto, već upravo ona mačka koju ste željeli.

Pametna prečica: latentna difuzija

Umjesto da AI radi s ogromnom slikom u punoj rezoluciji (što je računalno zahtjevno), radi s njezinom smanjenom, komprimiranom verzijom u tzv. latentnom prostoru. To je poput rada s minijaturom skulpture umjesto s ogromnim komadom mramora – znatno brže i učinkovitije.


Kako AI razumije što želite: Od riječi do slika

Najveća magija krije se u tome kako AI razumije vašu tekstualnu naredbu i prevodi je na vizualni jezik. Ne radi se samo o pretraživanju ključnih riječi. Riječ je o složenom procesu razumijevanja značenja i odnosa.

1. Dešifriranje vaših riječi

Najprije jezični model rastavlja vaš prompt na sastavne dijelove. Prepoznaje da „leteći kitovi” nisu dvije odvojene riječi, već jedan surrealističan koncept. Svakoj riječi i njezinom kontekstu pridjeljuje matematički otisak (vektor) koji nosi njezino značenje.

2. Knjižnica svih ideja (Latentni prostor)

Zamislite ogromnu knjižnicu u kojoj su svi zamislivi koncepti raspoređeni prema sličnosti. U jednom kutu nalazite sve o „mačkama”, pokraj toga sekciju „psi”. Nešto dalje stoji odjel „sisavci”. Vaš prompt „narančasti prugasti mačak” postaje u toj knjižnici točnom koordinatom – točkom koja govori AI-ju s kojeg polica treba crpiti inspiraciju.

3. Dirigent koji spaja riječi i piksele (Cross-attention)

Kako AI osigurava da kosa bude crvena, a oči plave, a ne obrnuto? Tu dolazi mehanizam „unakrsne pažnje”. Zamislite ga kao dirigenta orkestra. Vaš prompt je partitura. Kad AI generira kosu, dirigent (attention) pokazuje na violine (riječ „crvena”). Kad generira oči, pokazuje na flaute (riječ „plava”). Time se osigurava da se ispravna osobina primijeni na ispravni dio slike.


Arhitektura Transformer: Mozak operacije

Tehnologija koja sve ovo omogućuje zove se Transformer. To je vrsta neuronske mreže koja se ističe u razumijevanju konteksta i odnosa. Za razliku od starijih modela koji su gledali samo svoju neposrednu okolinu, Transformer vidi cijelu sliku odjednom.

Analogija: slaganje mozaika

Zamislite slaganje mozaika. Stariji modeli (CNN) kao da gledaju uvijek samo na nekoliko kamenčića oko sebe. Transformer je poput nekoga tko stoji malo podalje i vidi cijelu sliku odjednom, pa razumije kako svaki dio pristaje cjelini.

Zahvaljujući tom globalnom pregledu AI može održavati dosljedne osvjetljenje, stil i kompoziciju kroz cijelu sliku. Modeli poput CLIP-a tvrtke OpenAI funkcioniraju kao glavni prevoditelj i sudac koji neprestano provjerava odgovara li generirana slika stvarno značenju vašeg teksta.


Put od treperavih piksela do fotorealizma

Današnji generatori nisu nastali preko noći. Rezultat su desetljeća istraživanja i nekoliko ključnih proboja.

Počeci: Prvi koraci

Prvim pokušajima dominirali su algoritamski i apstraktni pristupi. Neuronske mreže su postojale, ali nedostajala im je računalna moć. Rezultati su bili mutni i jednostavni, no postavili su temelje budućem razvoju.

Era umjetničkih suparnika (GAN)

Godine 2014. stigla je revolucija u obliku Generativnih adversarijskih mreža (GAN). Funkcionirale su kao igra krivotvoritelja i stručnjaka:

  • Generator (Krivotvoritelj): Nastojao je stvoriti što vjerniju sliku.
  • Diskriminator (Stručnjak): Učio se prepoznavati je li slika prava ili lažna od generatora.

Taj neprestani sukob tjerao ih je na međusobno poboljšanje, što je dovelo do ogromnog skoka u kvaliteti i fotorealizmu. Problem je ostajala mala kontrola nad sadržajem.

Suvremena revolucija (Difuzija)

Prava demokratizacija stigla je s difuzijskim modelima. Godina 2022. bila je prekretnica: pojavljuju se DALL-E 2, Midjourney i open-source projekt Stable Diffusion, koji je tu moćnu tehnologiju predao u ruke cijeloga svijeta.


Tehničke finese koje pomiču granice

Razvoj se nije zaustavio. Neprestano se pojavljuju nove tehnike koje nam daju još veću stvaralačku slobodu.

ControlNet: Vi ste redatelj

S alatima poput ControlNet-a više niste samo autor teksta, već i redatelj scene. Možete učitati jednostavnu skicu, pozu lika ili kartu dubine, a AI će stvoriti sliku koja točno poštuje vašu kompoziciju.

Zamislite da u glavi imate jasnu predodžbu o kompoziciji – gdje treba stajati lik, kako je okrenut, gdje je horizont. Umjesto da se oslanjate na sreću ili beskonačno regeneriranje, jednostavno nacrtate grubi oris i AI iz njega stvara fotorealistični rezultat. ControlNet podržava različite vrste ulaza: od detekcije rubova, segmentacije objekata pa sve do karata normala za 3D reljef.

Posebno je korisno za ilustratore i concept artiste kojima je potrebna dosljednost u više slika – primjerice pri izradi stripa ili storyboarda. Jednom nacrtate pozu lika, a zatim je možete koristiti kao predložak za desetke različitih stilizacija.

LoRA & DreamBooth: Naučite AI vaš stil

Želite da AI generira slike u vašem specifičnom stilu, s vašim proizvodom ili čak s vašim licem? Tehnike poput LoRA omogućuju vam da „douchite” model na malenom skupu vlastitih slika i tako stvorite personalizirani generator.

LoRA (Low-Rank Adaptation) elegantno je rješenje koje ne zahtijeva ponovnu obuku cijelog ogromnog modela. Dovoljno je 10–50 kvalitetnih fotografija vašeg proizvoda, vašeg lica ili primjera vašeg slikarskog stila, a za nekoliko sati možete imati vlastiti specijalizirani model. Rezultantna datoteka ima svega nekoliko megabajta, pa je možete lako dijeliti ili kombinirati s drugim LoRA modelima.

DreamBooth ide još dalje i može naučiti model prepoznati specifičan subjekt ili stil s još većom preciznošću. Savršeno za brendirane materijale – učitate logotipe, fotografije proizvoda, a AI tada može stvoriti neograničen broj marketinških vizuala konzistentnih s vašim identitetom. Influenceri ga koriste za izradu sadržaja, grafičari za dosljedne ilustracije, a tvrtke za vizualizaciju proizvoda bez potrebe za fotografiranjem.

Inpainting & Outpainting: Čarobna guma i beskonačno platno

AI više nije samo o stvaranju iz ničega. S inpaintingom možete označiti dio slike i ostaviti AI-ju da ga regenerira (npr. promijeniti boju auta). S outpaintingom možete proširiti platno i ostaviti AI-ju da domisli što se nalazi izvan izvorne kadracije.

Inpainting je poput čarobne kičice za retuširanje – trebate ukloniti turista s fotografije s odmora? Uljepšati prazan zid zanimljivom slikom? Promijeniti odjeću lika? Dovoljno je označiti područje i napisati što tamo želite vidjeti umjesto toga. AI ne samo da briše izvorni sadržaj, već ga inteligentno zamjenjuje tako da se uklapa u okolinu – uključujući ispravno osvjetljenje, sjene i perspektivu.

Outpainting pak ruši granice platna. Imate isječak fotografije, a trebate širi kadar? AI može prirodno proširiti scenu u svim smjerovima. Fotograf je slučajno odrezao vrh tornja? Ostavite AI-ju da domisli što je tamo trebalo biti. Krajobraza fotografija u omjeru 4:3 može tako postati panorama 21:9, a da pri tome izgleda potpuno prirodno. Za grafičare to znači da više nikada ne moraju rješavati problem pogrešnog formata izvorne fotografije.

Upscaling: Od detalja do plakata

Moderni upscaleri mogu inteligentno povećati slike iz niske rezolucije na kvalitetu za tisak, bez gubitka oštrine. Istovremeno se modeli neprestano optimiziraju, pa ih danas možete pokretati i na običnom gaming računalu.

Klasično povećavanje slika uvijek je značilo gubitak kvalitete – pikseli bi se zamaglili, a rezultat bi izgledao kao magla. AI upscaleri pak ne samo da interpoliraju piksele, već aktivno „haluciniraju” nedostajuće detalje. Mogu iz zamagljenог lica rekonstruirati oštre crte, iz pikselirane teksture stvoriti realističnu strukturu. Alati poput ESRGAN-a, Real-ESRGAN-a ili novog SUPIR-a postižu rezultate koji bi se prije nekoliko godina smatrali nemogućima.

A što je s performansama? Dok su prvi generatori zahtijevali profesionalne grafičke kartice vrijedne desetaka tisuća kuna, danas se snalazite s običnom gaming grafikom. Zahvaljujući optimizacijama poput xFormers-a, TensorRT-a ili kvantizacije modela možete generirati kvalitetne slike i na laptopu s GeForce RTX serije 40. Zajednica uz to stvara „pruned” verzije modela – okrajnute od nepotrebnih podataka, brže i štedljivije, ali uz zadržanu kvalitetu. Ulazna barijera tako se dramatično smanjila, a kreativni alati dostupniji su nego ikad.


Budućnost koja kuca na vrata

Što nas čeka dalje? Razvoj ide prema fotorealizmu nerazlučivom od stvarnosti, savršenoj anatomiji i generiranju slika u djeliću sekunde. Velika tema je multimodalnost – sustavi koji neće generirati samo slike, već cijele scene, videozapise (poput OpenAI Sora) ili 3D svjetove na temelju jedne jedine naredbe.

S rastućom moći raste i odgovornost. Očekujte razvoj tehnologija za digitalne vodene žigove koje će pomoći identificirati AI sadržaj, te sve pametnijih filtera koji će osigurati sigurno i etičko korištenje ove fascinantne tehnologije.

Želite to isprobati na vlastite oči?

GuideGlare AI Slike daje vam pristup tehnologijama Flux, Imagen i Stable Diffusion na jednom mjestu.

→ Pogledaj AI generator slika

Pregled teme
Vodič za generiranje slika
Svi članci o temi Vodič za generiranje slika