Skip to content

Hvordan virker en AI-billedgenerator? Diffusionsmodeller forklaret

Du indtastede et par ord – “solnedgang over bjerge med spejling i en sø” – og inden for få sekunder dukkede et betagende billede op foran dig. Hvordan er det muligt? Hvordan kan kunstig intelligens omdanne abstrakt tekst til et konkret visuelt værk?

Værktøjer som DALL-E, Midjourney eller Stable Diffusion er ikke blot smarte programmer. De er komplekse systemer, der har lært af millioner af billeder, hvordan vores verden ser ud. Lad os sammen afdække hemmeligheden bag deres virkemåde – fra den første “støj” til det endelige mesterværk. Når du ved, hvordan det fungerer indeni, kan du tage et kig på den praktiske guide til at skrive prompts.


Hvordan AI forvandler støj til kunst: Diffusionsmodellernes magi

Forestil dig en billedhugger, der begynder med en stor, formløs marmorblok. Skridt for skridt hugger han stykker af, afslører grove former og arbejder til sidst de fine detaljer frem, indtil en skulptur opstår. Moderne AI-generatorer arbejder efter et meget lignende princip.

Denne proces kaldes diffusion og er hjertet i næsten alle nuværende generatorer.

Diagram der viser omdannelsen af tilfældig støj til et detaljeret billede
Diffusionsprocessen: Fra tilfældig støj (til venstre) arbejder AI sig gradvist frem mod det endelige billede (til højre) ved "oprensning".

Hvordan billedhuggeren hugger digital marmor

Hele processen forløber i flere trin, der styres af din tekstkommando:

  1. Start fra kaos: Alt begynder som et lærred fyldt med tilfældig støj. Det ligner et gammelt TV uden signal. Det er vores “marmorblok”.
  2. Gradvis fjernelse af støj: Modellen “renser” denne støj gradvist i en serie af snesevis af små trin. Jo flere trin den udfører, desto bedre er resultatet. I hvert trin spørger den: “Hvordan ville dette billede se ud, hvis det indeholdt lidt mindre støj og samtidig svarede til beskrivelsen ‘kat på et tag’?”
  3. Styring via tekst: Din prompt fungerer som en konstant guide. Den sikrer, at det ikke er en hund eller en bil, der dukker op af støjen, men præcis den kat, du ønskede.

Smart genvej: latent diffusion

I stedet for at AI arbejder med et enormt billede i fuld opløsning (hvilket er beregningsmæssigt krævende), arbejder den med en komprimeret, formindsket version i det såkaldte latente rum. Det er som at arbejde med en miniature af skulpturen frem for et enormt stykke marmor – meget hurtigere og mere effektivt.


Hvordan AI forstår, hvad du vil have: Fra ord til billeder

Den største magi ligger i, hvordan AI forstår din tekstkommando og oversætter den til visuelt sprog. Det handler ikke blot om at søge efter nøgleord. Det er en kompleks proces, der forstår betydning og relationer.

1. Fortolkning af dine ord

Først nedbryder en sprogmodel din prompt i komponenter. Den genkender, at “flyvende hvaler” ikke er to adskilte ord, men ét surrealistisk koncept. Hvert ord og dets kontekst tildeles et matematisk aftryk (en vektor), der bærer dets betydning.

2. Biblioteket over alle idéer (Latent rum)

Forestil dig et enormt bibliotek, hvor alle tænkelige begreber er arrangeret efter lighed. I ét hjørne finder du alt om “katte”, ved siden af er der en sektion om “hunde”. Længere henne er der en afdeling for “pattedyr”. Din prompt “orange stribet hankat” bliver et præcist punkt i dette bibliotek – en koordinat, der fortæller AI, hvilken hylde den skal nå op på for inspiration.

3. Dirigenten der forbinder ord og pixels (Cross-attention)

Hvordan sikrer AI, at håret er rødt og øjnene blå, og ikke omvendt? Her kommer mekanismen “krydsattention” ind i billedet. Forestil dig den som en orkesterleder. Din prompt er partituret. Når AI genererer håret, peger dirigenten (attention) på violinerne (ordet “rød”). Når den genererer øjnene, peger den på fløjterne (ordet “blå”). Det sikrer, at den rigtige egenskab anvendes på den rigtige del af billedet.


Transformer-arkitektur: Operationens hjerne

Den teknologi, der muliggør alt dette, kaldes Transformer. Det er en type neuralt netværk, der udmærker sig ved at forstå kontekst og relationer. I modsætning til ældre modeller, der kun kiggede på deres umiddelbare omgivelser, ser Transformer hele billedet på én gang.

Analogi: Mosaikpuslespil

Forestil dig at lægge et mosaik-puslespil. Ældre modeller (CNN) er som en person, der altid kun kigger på et par brikker omkring sig. Transformer er som en person, der står lidt på afstand og ser hele billedet på én gang – og dermed forstår, hvordan hver del passer ind i helheden.

Takket være dette globale overblik kan AI opretholde konsistent belysning, stil og komposition på tværs af hele billedet. Modeller som CLIP fra OpenAI fungerer som den primære oversætter og dommer, der løbende kontrollerer, om det genererede billede faktisk svarer til betydningen af din tekst.


Vejen fra flimrende pixels til fotorealisme

Nutidens generatorer opstod ikke over natten. De er resultatet af årtiers forskning og flere afgørende gennembrud.

Begyndelsen: De første skridt

De første forsøg var mere algoritmiske og abstrakte. Neurale netværk eksisterede, men manglede regnekraft. Resultaterne var slørede og enkle, men lagde grundlaget for den fremtidige udvikling.

Æraen med kunstneriske rivaler (GAN)

I 2014 kom en revolution i form af Generative Adversarial Networks (GAN). De fungerede som et spil mellem en forfalsker og en ekspert:

  • Generatoren (Forfalskeren): Forsøgte at skabe det mest troværdige billede.
  • Diskriminatoren (Eksperten): Lærte at skelne, om et billede var ægte eller falsk fra generatoren.

Denne konstante kamp tvang dem til gensidigt at forbedre sig, hvilket førte til et enormt kvalitets- og fotorealismespring. Problemet var dog stadig begrænset kontrol over indholdet.

Den nuværende revolution (Diffusion)

Den egentlige demokratisering kom med diffusionsmodellerne. År 2022 var et vendepunkt: DALL-E 2, Midjourney og open source-projektet Stable Diffusion dukkede op og gav denne kraftfulde teknologi i hænderne på hele verden.


Tricks der skubber til grænserne

Udviklingen er ikke stoppet. Der dukker konstant nye teknikker op, der giver os endnu større kreativ frihed.

ControlNet: Du er instruktøren

Med værktøjer som ControlNet er du ikke blot tekstforfatter, men også instruktør for scenen. Du kan uploade en simpel skitse, en personpositur eller et dybdekort, og AI vil skabe et billede, der præcis respekterer din komposition.

Forestil dig, at du har et præcist billede i hovedet af kompositionen – hvor personagen skal stå, hvordan den skal være drejet, hvor horisonten skal være. I stedet for at stole på tilfældigheder eller uendelig regenerering tegner du blot en grov kontur, og AI skaber et fotorealistisk resultat ud fra det. ControlNet understøtter forskellige typer input: fra kantdetektion over objektsegmentering til normalkort til 3D-relief.

Det er særligt nyttigt for illustratorer og concept artists, der har brug for konsistens på tværs af flere billeder – for eksempel når man laver en tegneserie eller et storyboard. Du tegner personagens positur én gang, og så kan du bruge den som skabelon til snesevis af forskellige stiliseringer.

LoRA & DreamBooth: Lær AI din stil

Ønsker du, at AI genererer billeder i din specifikke stil, med dit produkt eller endda med dit ansigt? Teknikker som LoRA giver dig mulighed for at “efterlære” modellen på et lille sæt egne billeder og dermed skabe en personaliseret generator.

LoRA (Low-Rank Adaptation) er en elegant løsning, der ikke kræver genoptræning af hele den enorme model. Du behøver blot 10-50 kvalitetsbilleder af dit produkt, dit ansigt eller eksempler på din malerstil, og inden for få timer kan du have din egen specialiserede model. Den resulterende fil er blot et par megabytes, så du nemt kan dele den eller kombinere den med andre LoRA-modeller.

DreamBooth går endnu videre og kan lære modellen at genkende et bestemt motiv eller en stil med endnu større præcision. Perfekt til brandmateriale – du uploader logoer og produktfotos, og AI kan derefter skabe et uendeligt antal marketingvisualer, der er konsistente med din identitet. Influencere bruger det til indholdsskabelse, grafiske designere til konsistente illustrationer og virksomheder til produktvisualisering uden behov for fotografering.

Inpainting & Outpainting: Trylleviskelæder og uendeligt lærred

AI handler ikke længere kun om at skabe fra ingenting. Med inpainting kan du markere en del af et billede og lade AI regenerere det (f.eks. ændre farven på en bil). Med outpainting kan du udvide lærredet og lade AI forestille sig, hvad der befinder sig uden for det originale udsnit.

Inpainting er som en tryllependsel til retouchering – har du brug for at fjerne en turist fra et feriefoto? Pynte en tom væg med et interessant billede? Ændre en persons tøj? Marker blot området og skriv, hvad du vil se i stedet. AI sletter ikke bare det oprindelige indhold, men erstatter det intelligent, så det harmonerer med omgivelserne – inklusive korrekt belysning, skygger og perspektiv.

Outpainting sprænger lærredets grænser. Har du et beskåret foto, men har brug for et bredere udsnit? AI kan naturligt udvide scenen i alle retninger. Fotografen skar utilsigtet tårnets spids af? Lad AI forestille sig, hvad der burde have været der. Et landskabsfoto i 4:3-format kan dermed blive til et panorama i 21:9 og stadig se helt naturligt ud. For grafiske designere betyder det, at de aldrig mere behøver at slås med forkert format på kildefotoet.

Upscaling: Fra detalje til plakat

Moderne upscalere kan intelligent forstørre billeder fra lav opløsning til trykningskvalitet uden at miste skarphed. Modellerne optimeres desuden løbende, så de i dag kan køres på en almindelig gaming-computer.

Klassisk billedforstørrelse betød altid kvalitetstab – pixels slørede og resultatet lignede tåge. AI-upscalere interpolerer ikke blot pixels, men “hallucerer” aktivt manglende detaljer. De kan rekonstruere skarpe ansigtstræk ud fra et sløret ansigt og skabe realistisk tekstur ud fra en pixeleret overflade. Værktøjer som ESRGAN, Real-ESRGAN eller de nyere SUPIR opnår resultater, der for få år siden ville have været anset for umulige.

Og hvad med ydeevnen? Mens de første generatorer krævede professionelle grafikkort til titusindvis af kroner, kan du i dag klare dig med et almindeligt gaming-grafikkort. Takket være optimeringer som xFormers, TensorRT eller modelkvantitering kan du generere kvalitetsbilleder selv på en bærbar med GeForce RTX 40-serien. Desuden skaber fællesskabet “pruned” versioner af modeller – beskåret for unødvendige data, hurtigere og mere effektive, men med bevaret kvalitet. Adgangsbarrieren er dermed faldet dramatisk, og kreative værktøjer er mere tilgængelige end nogensinde.


Fremtiden, der banker på

Hvad venter os? Udviklingen bevæger sig mod fotorealisme, der er umuligt at skelne fra virkelighed, perfekt anatomi og billedgenerering på en brøkdel af et sekund. Et stort tema er multimodalitet – systemer, der ikke blot genererer billeder, men hele scener, videoer (som OpenAI Sora) eller 3D-verdener baseret på én enkelt kommando.

Med voksende kraft kommer også voksende ansvar. Forvent fremkomsten af teknologier til digitale vandmærker, der hjælper med at identificere AI-indhold, samt stadigt smartere filtre, der sikrer en sikker og etisk brug af denne fascinerende teknologi.

Vil du prøve det med egne øjne?

GuideGlare AI-billeder giver dig adgang til teknologierne Flux, Imagen og Stable Diffusion på ét sted.

→ Se AI-billedgeneratoren

Emneoversi gt
Guide til billedgenerering
Alle artikler om Guide til billedgenerering