AI-kunstgeneratorer: MidJourney vs. Stable Diffusion vs. Bing – Hvilken er best?

Kunstig intelligens er i ferd med å revolusjonere kunstens verden på en bemerkelsesverdig måte. En særlig fascinerende anvendelse av AI innen kunstfeltet er bruken av beskrivende kunstgeneratorer. Disse verktøyene har evnen til å analysere og forstå bilder, og deretter generere helt nye kunstverk basert på den innsamlede informasjonen.

I denne artikkelen skal vi se nærmere på tre slike AI-drevne kunstgeneratorer: MidJourney, Stable Diffusion og Microsoft Bing Image Creator. Vi vil også undersøke hvilken av disse tre som utmerker seg med å produsere de mest imponerende resultatene basert på gitte instruksjoner.

MidJourney

MidJourney, etablert av David Holz, er en AI-kunstgenerator som anvender maskinlæring for å identifisere strukturer og kjennetegn i eksisterende kunstverk. Denne kunnskapen blir deretter brukt til å skape nye verk.

MidJourney ble lansert i åpen beta 12. juli 2022. Før lanseringen av MidJourney var Holz med å grunnlegge Leap Motion, et selskap som revolusjonerte brukergrensesnitt ved hjelp av videoopptak og håndbevegelser. I 2019 solgte han Leap Motion til Ultrahaptics.

Etter hvert som MidJourneys popularitet har vokst, har Holz delt sine tanker om teknologiens innvirkning på kunst og samfunn. Han anser kunstnere som MidJourneys brukere, ikke konkurrenter, og tror at plattformen kan fremme økt kreativitet og eksperimentering i idéfasen.

Det har likevel blitt reist bekymringer angående potensielle brudd på opphavsretten, siden MidJourneys treningsdata kan inkludere opphavsrettsbeskyttede verk fra andre kunstnere.

Holz understreker at MidJourney er utviklet for å forbedre menneskelige evner, ikke for å erstatte dem. Han sammenligner det med biler, og forklarer at selv om biler er raskere enn mennesker, betyr det ikke at vi skal slutte å gå.

Gjennom bruken av MidJourneys AI-bildegenerering kan kunstnere utforske nye muligheter og generere et bredt spekter av ideer før de skaper sine egne kunstverk.

Stable Diffusion

Stable Diffusion er en åpen kildekode maskinlæringsmodell som kan generere bilder fra tekst, endre eksisterende bilder basert på tekstuelle beskrivelser, eller forbedre detaljene i bilder med lav oppløsning. Den er trent på milliarder av bilder og kan levere resultater som kan sammenlignes med DALL-E 2 og MidJourney.

Emad Mostaque, grunnlegger og administrerende direktør for Stability AI, er selskapet bak Stable Diffusion. Modellen er en latent diffusjonsmodell utviklet av CompVis-gruppen ved LMU München. Den ble designet av Patrick Esser og Robin Rombach, som tidligere skapte den latente diffusjonsmodellarkitekturen som Stable Diffusion bygger på.

Et samarbeid mellom Stability AI, CompVis LMU, Runway, EleutherAI og LAION har gjort Stable Diffusion tilgjengelig for offentligheten.

Stable Diffusion kan installeres på ulike plattformer, inkludert Windows- og Apple-enheter. Bruk av lokal installasjon i en app kan ivareta brukernes personvern, noe som er en fordel i forhold til serverbaserte løsninger.

Microsoft Bing Image Creator

Microsoft har introdusert et nytt verktøy kalt Bing Image Creator, som gir brukerne muligheten til å skape egne bilder direkte i Microsoft Edge. Selskapet har lansert en rekke verktøy som er designet for å fremme kreativitet og selvutfoldelse. Dette verktøyet lar brukere lage personlige bilder for å dele øyeblikk fra hverdagen, eller for andre formål de måtte ønske.

Brukere får enkelt tilgang til Image Creator via sidepanelet i Microsoft Edge. Microsoft har tatt proaktive grep for å sikre at verktøyet brukes på en ansvarlig måte og ikke bidrar til spredning av upassende innhold.

Selskapet har etablert en innholdspolicy som forbyr bruk av Image Creator i visse situasjoner, og brukere kan rapportere eventuelle brudd på denne policyen. I tillegg har Microsoft implementert teknologi for å håndtere potensielle skjevheter som kan oppstå i generativ bildeteknologi.

I denne artikkelen skal vi sammenligne resultatene fra hver av disse beskrivende AI-bildegeneratorene når de får de samme tekstlige instruksjonene.

Oppfordring 1: En moderne julenisse på en slede som trekkes av reinsdyr på en solrik og varm sommerdag på en motorvei

Oppfordring 2: Et nærbilde av et dyr med store, uskyldige øyne som fanger dets søthet

Oppfordring 3: En menneskelig astronaut som lander på en ny planet, blir møtt av fiendtlige romvesener som trekker sine våpen

Oppfordring 4: Moderne, abstrakt kunst til et bokomslag for en roman som utspiller seg i New York City, med sterke og livlige farger

Oppfordring 5: En mann som står foran to tallerkener – en med pizza og en med cheeseburger

Oppfordring 6: En såret kriger på sin hest i et snødekt fjellandskap, med et sverd i hånden

Oppfordring 7: Et abstrakt bilde med ulike fargetoner som viser bevegelse og vannets strøm

Oppfordring 8: Laks i en elv med frodige, grønne trær i bakgrunnen

Oppfordring 9: Et glass vann på et bord med en hånd som presser en sitron ned i det

Oppfordring 10: Utsikt over horisonten i en ørken fra perspektivet til personer som rir på en elefant

Oppfordring 11: En skog hvor papirpenger vokser på trærne og fugler er laget av mynter

Oppfordring 12: En bolle med ramen, cel shading, kveldsbelysning, fotorealistisk

Oppfordring 13: Elon Musk er fattig og arbeidsledig

Konklusjon

Etter å ha evaluert resultatene fra MidJourney, Stable Diffusion og Bing Image Creator, er det tydelig at ingen av dem kan krones til en soleklar vinner.

Hver generator tolker instruksjonene på sin egen måte. Det er noen likheter i resultatene fra Bing Image Creator og MidJourney. Stable Diffusion presterer godt når instruksjonene er klare og tydelige, men tolker ofte ord for bokstavelig. Både MidJourney og Bing Image Creator gir generelt sett gode resultater, men noen ganger leverer de bilder som ikke helt samsvarer med instruksjonene.

Bing Image Creator viser en viss forsiktighet når det gjelder å generere støtende eller ubehagelig innhold. Den gir for eksempel en advarsel når den blir bedt om å lage et bilde av en fattig og arbeidsledig Elon Musk. Microsofts beslutning om å innføre slike sikkerhetstiltak er prisverdig.

MidJourneys nevrale nettverk genererte derimot et bilde av en fattig og forlatt Elon Musk. Konklusjonen er at hver generator vil tilfredsstille sine respektive brukerbaser.