MidJourney vs. Stable Diffusion vs. Bing Image Creator

Kunstig intelligens forandrer kunstverdenen på bemerkelsesverdige måter. En av de fascinerende anvendelsene av AI i kunstsegmentet er gjennom bruken av beskrivende kunstgeneratorer. Disse generatorene har evnen til å undersøke og tolke bilder og generere helt nye kunstverk basert på deres analyse.

I denne artikkelen diskuterer vi tre slike AI-kunstgeneratorer: MidJourney, Stable Diffusion og Microsoft Bing Image Creator, og som blant de tre kommer ut på topp i å generere de beste resultatene basert på ledetekster.

MidJourney

MidJourney, grunnlagt av David Holz, er en AI-kunstgenerator som bruker maskinlæring for å identifisere mønstre og funksjoner i eksisterende kunstverk, som deretter kan brukes til å lage nye stykker.

MidJourney gikk inn i åpen beta 12. juli 2022. Før lanseringen av MidJourney var Holz med på å grunnlegge Leap Motion, en oppstart som forvandlet brukergrensesnitt ved å bruke videoopptak og håndbevegelser. I 2019 solgte han Leap Motion til Ultrahaptics.

Med MidJourney økende popularitet, har Holz delt sin innsikt om teknologi og dens innflytelse på kunst og samfunn. Holz ser på artister som kunder av MidJourney, ikke konkurrenter, og mener at plattformen kan legge til rette for større kreativitet og eksperimentering i idéfasen.

Det er imidlertid bekymringer om potensielle opphavsrettsbrudd fra MidJourneys treningssett, som kan inkludere opphavsrettsbeskyttede verk fra andre artister.

Holz understreker at MidJourney er designet for å forbedre menneskelige evner i stedet for å erstatte dem. Han sammenligner det med biler, og forklarer at bare fordi biler er raskere enn mennesker, betyr det ikke at vi skal kutte bena av oss.

Ved å bruke MidJourneys AI-bildegenerering kan kunstnere utforske nye muligheter og generere en rekke ideer før de lager sine egne verk.

Stabil diffusjon

Stable Diffusion er en maskinlæringsmodell med åpen kildekode som kan generere bilder fra tekst, endre bilder basert på tekst eller fylle ut detaljer på bilder med lav oppløsning eller lav detalj. Den har blitt trent på milliarder av bilder og kan gi resultater som er sammenlignbare med de du ville fått fra DALL-E 2 og MidJourney.

Emad Mostaque, grunnlegger og administrerende direktør for Stability AI, er selskapet som er ansvarlig for Stable Diffusion. Stable Diffusion er en latent diffusjonsmodell utviklet av CompVis-gruppen ved LMU München, og den ble designet av Patrick Esser og Robin Rombach, som tidligere skapte den latente diffusjonsmodellarkitekturen som ble brukt av Stable Diffusion.

Et samarbeid mellom Stability AI, CompVis LMU, Runway, EleutherAI og LAION har gjort Stable Diffusion tilgjengelig for publikum.

Stabil diffusjon kan distribueres på ulike plattformer, inkludert Windows- og Apple-enheter. Bruk av distribusjon på enheten i en app kan ivareta brukerens personvern, noe som er å foretrekke fremfor en serverbasert tilnærming.

Microsoft Bing Image Creator

Microsoft avduket et nytt verktøy kalt Bing Image Creator, som gir brukere mulighet til å lage sine egne bilder direkte i Microsoft Edge. Selskapet har gitt ut en pakke med skaperverktøy designet for å tenne kreativitet og selvuttrykk. Verktøyet lar brukere lage personlige bilder for å dele sine livsoppdateringer eller for andre formål de måtte trenge.

Brukere kan enkelt få tilgang til Image Creator fra sidefeltet til Microsoft Edge. Microsoft har tatt proaktive tiltak for å sikre at verktøyet brukes ansvarlig og ikke legger til rette for spredning av støtende innhold.

Selskapet har satt en innholdspolicy som forbyr bruk av Image Creator i visse tilfeller, og brukere kan rapportere eventuelle brudd på denne policyen. Dessuten har Microsoft implementert teknologi for å adressere potensielle skjevheter som kan oppstå i generativ bildeteknologi.

I denne artikkelen vil vi legge ut på en reise for å evaluere resultatene av hver beskrivende AI-bildegenerator når du blir bedt om med identiske tekstmeldinger.

Oppfordring 1: Moderne julenisse på en slede som blir trukket av reinsdyr på en varm, lys solskinnsdag på en motorvei

Prompt 2: Et nærbilde av et dyr med store øyne, som fanger dets uskyld og søthet

Prompt 3: En menneskelig astronaut som spiller på å lande en ny planet er velkommen av fiendtlige fremmede skapninger som trekker våpnene sine

Spørsmål 4: Moderne abstrakt kunst av et bokomslag til en roman basert i New York City i dristige lyse farger

Melding 5: En mann som bestemmer seg mellom to tallerkener – en med pizza og en med en cheeseburger på

Oppfordring 6: En såret kriger som rir på hesten sin på et snødekt fjell med et sverd i hånden

Prompt 7: Et abstrakt bilde med forskjellige nyanser som viser bevegelsen og vannstrømmen

Melding 8: Laks i en elv med frodige grønne trær i bakgrunnen

Oppfordring 9: Et glass vann på et bord med en sitron som presses inn i den med en hånd

Melding 10: Utsikt over horisonten i en ørken fra synspunktet til folk som rir på en elefant i den

Oppfordring 11: En skog der papirpenger vokser på trær og fugler er laget av mynter

Prompt 12: Skål med ramen, cel shading, kveldsbelysning, fotorealistisk

Oppfordring 13: Elon Musk er fattig og arbeidsledig

Kjennelse

Ved å evaluere resultatene fra MidJourney, Stable Diffusion og Bing Image Creator, er det tydelig at det ikke er noen definitiv vinner.

Hver generator tolker forespørsler på en særegen måte, med likheter funnet i utgangene til Bing Image Creator og MidJourney. Stabil diffusjon er effektiv når forespørsler har klare beskrivelser, men ofte tar ord for bokstavelig. Mens MidJourney og Bing Image Creator generelt er vellykkede, gir de av og til resultater som ikke samsvarer med ledetekstene.

Spesielt bruker Bing Image Creator forsiktighet ved å generere støtende eller hetsende utdata, og sender ut en advarsel når du blir bedt om å lage et bilde av en fattig og arbeidsledig Elon Musk. Microsofts vedtak av slike beskyttelsestiltak er prisverdig.

I mellomtiden genererte MidJourneys nevrale nettverksekspertise et bilde av en fattig og forlatt Elon Musk. Derfor kan det konkluderes med at hver generator vil imøtekomme sin respektive brukerbase.