Hva er Deepfakes og hvordan lage dem?

Din one-stop forklaring på Deepfakes og for å lage dem enkelt med Faceswap.

Kunstig intelligens er ikke så «kunstig» lenger. Disse tider har satt det farlig nær oss mennesker.

Den kan foreslå, skrive, skape kunst, og ser nå ut og snakker som de levende.

Dette er en av de siste utviklingene på dette domenet vi bør dra nytte av. Dette er imidlertid også noe vi må passe oss for.

Hva er Deepfakes?

Ordet Deepfake er laget ved å kombinere dyp læring og falsk. Enkelt sagt kan du også anta at dette er ekspertmanipulert eller dypt falske medier.

I følge Wikipedia er dette også kjent som syntetiske medier der et eksisterende bilde, lyd eller video er modifisert for å representere noen helt andre.

Vanligvis får deepfakes kjente personligheter til å se ut til å si noe de ellers ikke ville gjort.

Basert på skaperens ferdigheter, kan det være ekstremt vanskelig å si om det er ekte eller falskt.

Hvordan fungerer Deepfakes?

Enkelt sagt, er en del av den originale videoen (si et ansikt) erstattet av en lignende falsk ut. I et slikt tilfelle kan det også kalles en ansiktsbytte, som i denne «Obama»-videoen.

Det er imidlertid ikke begrenset til video alene, og vi har også dypfalske bilder og lyd (og hvem vet, dypfalske VR-avatarer i nær fremtid).

Kilde: Disney

Arbeidsmetodikken bak slike triks avhenger først og fremst av applikasjonen og den underliggende algoritmen.

I henhold til denne forskningsartikkelen av Disney, er det forskjellige teknikker, inkludert kodere-dekodere, Generative Adversarial Networks (GANs), geometribaserte deepfakes, etc.

Imidlertid er de følgende delene sterkt påvirket av hvordan det fungerer med Facewap. Dette er en gratis og åpen kildekode Deepfake-programvare som tillater flere algoritmer for å få det forventede resultatet.

Det er tre hovedprosesser for å generere deepfakes: utvinning, trening og konvertering.

#1. Utdrag

Dette handler om å oppdage og presse ut emneområdet av interesse fra medieprøver, originalen og den for byttet.

Basert på maskinvareegenskapene kan det være mange algoritmer å velge for effektiv deteksjon.

For eksempel har Faceswap noen forskjellige alternativer for utvinning, justering og maskering basert på CPU- eller GPU-effektivitet.

Ekstraksjon identifiserer ganske enkelt ansiktet i den generelle videoen. Justeringsflekker oppdager viktige trekk ved ethvert ansikt (øyne, nese, hake, etc.). Og til slutt, maskering blokkerer andre elementer i bildet bortsett fra interesseområdet.

Den totale tiden det tar for utdataene er viktig for å velge et hvilket som helst alternativ, da valg av ressurskrevende algoritmer på middelmådig maskinvare kan resultere i feil eller betydelig lang tid på å gi akseptable resultater.

Foruten maskinvaren, avhenger valget også av parametrene som om inndatavideoen lider av ansiktshindringer som håndbevegelser eller briller.

Et nødvendig element er til syvende og sist å rense (forklart senere) utgangen, siden ekstraksjonene vil ha noen falske positiver.

Til slutt gjentas utvinningen for den originale videoen og den falske (brukes til å bytte).

#2. Opplæring

Dette er hjertet av å lage dype forfalskninger.

Trening handler om det nevrale nettverket, som består av koder og dekoder. Her mates algoritmene med de utpakkede dataene for å lage en modell for konverteringen senere.

Koderen konverterer inngangen til en vektorrepresentasjon for å trene algoritmen til å gjenskape ansiktene tilbake fra vektorer, som gjort av dekoderen.

  Hvordan spille inn talefortelling i PowerPoint

Etterpå evaluerer det nevrale nettverket sine iterasjoner og sammenligner dem med originalen ved å tildele en tapscore. Denne tapsverdien faller over tid ettersom algoritmen fortsetter å iterere, og du stopper når forhåndsvisningene er akseptable.

Trening er en tidkrevende prosess, og resultatene forbedres generelt basert på iterasjonene den utfører og kvaliteten på inputdata.

For eksempel foreslår Faceawap minimum 500 bilder hver, originale og for bytte. I tillegg bør bildene avvike betydelig fra hverandre, og dekke alle mulige vinkler i unik belysning for den beste rekreasjonen.

På grunn av treningslengden lar noen applikasjoner (som Faceswap) en stoppe treningen midtveis eller fortsette senere.

Spesielt avhenger fotorealismen til utdataene også av algoritmens effektivitet og input. Og man er igjen begrenset av maskinvareegenskapene.

#3. Omdannelse

Dette er det siste kapittelet i deepfake-skapelsen. Konverteringsalgoritmene trenger kildevideoen, den trente modellen og kildejusteringsfilen.

Deretter kan man endre noen få alternativer knyttet til fargekorrigering, masketype, ønsket utdataformat, etc.

Etter å ha konfigurert disse få alternativene, venter du bare på den endelige gjengivelsen.

Faceswap fungerer som nevnt med mange algoritmer, og man kan spille mellom for å få en tålelig faceswap.

Er det alt?

Nei!

Dette var bare ansiktsbytte, en undergruppe av deepfake-teknologi. Ansiktsbytte, som den bokstavelige betydningen, erstatter bare en del av ansiktet for å gi en svak ide om hva dype faker kan gjøre.

For et troverdig bytte må du kanskje også etterligne lyden (bedre kjent som stemmekloning) og hele kroppen, inkludert alt som passer i rammen, slik:

Så, hva er på spill her?

Det som kan ha skjedd er at den deepfake-forfatteren skjøt videoen selv (som antydet i de siste sekundene), leppesynkroniserte dialogen med Morgan Freemans syntetiske stemme og byttet hodet.

Avslutningsvis handler det ikke bare om ansiktsbytte, men hele rammen, inkludert lyden.

Du kan finne tonnevis av deepfakes på YouTube til det punktet det blir skummelt med tanke på hva du skal stole på. Og alt som trengs er en kraftfull datamaskin med et effektivt grafikkort for å begynne.

Det er imidlertid vanskelig å oppnå perfeksjon, og det er spesielt sant med deepfakes.

For en overbevisende deepfake som kan villede eller imponere, krever publikum dyktighet og noen dager til uker med behandling for et minutt eller to av en video.

Interessant nok er det så dyktige disse algoritmene er per nå. Men hva fremtiden bringer, inkludert hvor effektive disse applikasjonene kan være på lavere maskinvare, er noe som har gjort hele regjeringer nervøse.

Vi vil imidlertid ikke dykke ned i dens fremtidige konsekvenser. La oss i stedet sjekke hvordan du gjør det selv for lite moro.

Opprette (grunnleggende) Deepfake-videoer

Du kan sjekke mange applikasjoner i denne listen over dypfalske apper for å lage memes.

En av dem er Faceswap, som vi kommer til å bruke.

Det er et par ting vi skal sørge for før vi fortsetter. Først bør vi ha en video av god kvalitet av målet som viser forskjellige følelser. Deretter trenger vi en kildevideo for å bytte til målet.

I tillegg, lukk alle grafikkortintensive applikasjoner som nettlesere eller spill før du fortsetter med Faceswap. Dette gjelder spesielt hvis du har mindre enn 2 spillejobber med VRAM (video-RAM).

Trinn 1: Trekk ut ansikter

Det første trinnet i denne prosessen er å trekke ut ansiktene fra videoen. For dette må vi velge målvideoen i Input Dir og liste en Output Dir for ekstraksjonene.

  En guide til Bash-arrayer

I tillegg er det noen få alternativer, inkludert detektor, aligner, masker, etc.; forklaringene for hver er i Faceawap FAQs, og det ville være bortkastet å rehash informasjonen her.

Kilde: Faceswap FAQ

Det er generelt greit å se gjennom dokumentasjonen for en bedre forståelse og et anstendig resultat. Imidlertid er det nyttige tekster i Faceswap du kan finne ved å holde musepekeren over det spesifikke alternativet.

Enkelt sagt, det er ingen universell måte, og man bør starte med de beste algoritmene og jobbe seg ned med suksess for å skape en overbevisende deepfake.

For kontekst brukte jeg Mtcnn (detektor), Fan (aligner) og Bisenet-Fp (masker) mens jeg beholdt alle de andre alternativene som de er.

Opprinnelig prøvde jeg det med S3Fd (beste detektor) og noen få andre masker kombinert. Min 2Gb Nvidia GeForce GTX 750Ti kunne imidlertid ikke bære belastningen, og prosessen mislyktes gjentatte ganger.

Til slutt tonet jeg ned forventningene mine og innstillingene for å se det gjennom.

I tillegg til å velge riktig detektor, masker, etc., er det noen flere alternativer i Innstillinger > Konfigurer innstillinger som hjelper til med å finjustere individuelle innstillinger ytterligere for å hjelpe maskinvaren.

Enkelt sagt, velg lavest mulig Batch-Size, Input Size og Output Size, og merk av for LowMem osv. Disse alternativene er ikke tilgjengelige universelt, og de er basert på en spesifikk seksjon. I tillegg hjelper hjelpetekstene ytterligere med å velge de beste alternativene.

Selv om dette verktøyet gjør en utmerket jobb med å trekke ut ansikter, kan utdatarammene ha mye mer enn nødvendig for å trene (diskutert senere) modellen. For eksempel vil den ha alle ansiktene (hvis videoen har mer enn ett) og noen feilaktige gjenkjenninger som ikke har målansiktet i det hele tatt.

Dette fører til rensing av datasettene. Enten kan man sjekke utdatamappen og slette seg selv eller bruke Faceswap-sortering for å få litt hjelp.

Ved å bruke det nevnte verktøyet vil du ordne forskjellige ansikter i rekkefølge, hvorfra du kan slå de nødvendige sammen i en enkelt mappe og slette resten.

Som en påminnelse vil du også gjenta utvinningen for den hentede videoen.

Trinn 2: Trening av modellen

Dette er den lengste prosessen med å lage en deepfake. Her refererer inngang A til målflaten, og inngang B handler om kildeflaten. Dessuten er Model Dir der treningsfilene vil bli lagret.

Her er det viktigste alternativet Trainer. Det er mange med individuelle skaleringsalternativer; Det som imidlertid fungerte for maskinvaren min er Dfl-H128 og lette trenere med de laveste konfigurasjonsinnstillingene.

Neste er batchstørrelsen. En høyere batchstørrelse reduserer den totale treningstiden, men bruker mer VRAM. Iterasjoner har ingen fast effekt på utgangen, og du bør sette en høy nok verdi og stoppe treningen når forhåndsvisningene er akseptable.

Det er noen flere innstillinger, inkludert å lage en timelapse med forhåndsinnstilte intervaller; Jeg trente imidlertid modellen med et minimum.

Trinn 3: Bytte til original

Dette er den siste bragden i deepfake-skapelsen.

Dette tar vanligvis ikke så mye tid, og du kan spille med mange alternativer for å få ønsket utgang raskt.

Som angitt i bildet ovenfor, er dette noen få alternativer man må velge for å starte konverteringen.

De fleste alternativene er allerede diskutert, som Input and Output-katalogen, Model-katalogen, osv. En avgjørende ting er Alignments som refererer til justeringsfilen (.fsa) til målvideoen. Den blir opprettet i Input Directory under utvinningen.

Justeringsfeltet kan stå tomt hvis den spesifikke filen ikke er flyttet. Ellers kan man velge filen og gå videre til andre alternativer. Husk imidlertid å rense justeringsfilen hvis du har renset uttrekkene tidligere.

  Hvordan kjøpe land i Metaverse [2022] + 7 Kjøpeplattformer

For dette ligger dette miniverktøyet i Verktøy > Justeringer.

Start med å velge Fjern-ansikter i Job-delen, velg den originale justeringsfilen og den rensede målflatene, og klikk på Justeringer nederst til høyre.

Dette vil opprette en modifisert justeringsfil som samsvarer med den optimaliserte ansiktsmappen. Husk at vi trenger dette for målvideoen, som vi ønsker å bytte inn i.

Noen flere konfigurasjoner inkluderer fargejustering og masketype. Fargejustering dikterer maskeblandingen, og du kan prøve noen få, sjekke forhåndsvisningen og velge det optimale alternativet.

Masketype er viktigere. Dette avhenger igjen av dine forventninger og tilgjengelig maskinvare. Vanligvis må du også vurdere inndatavideoens egenskaper. For eksempel fungerer Vgg-Clear godt med frontale ansikter uten hindringer, mens Vgg-Obstructed også kan gjøre med hindringer, som håndbevegelser, briller, etc.

Deretter presenterer Writer noen få valg basert på utdataene du ønsker. For for eksempel, velg Ffmpeg for en videogjengivelse.

Totalt sett er nøkkelen til en vellykket deepfake å forhåndsvise noen få utganger og optimalisere i henhold til tilgjengeligheten og maskinvarens styrke.

Applikasjoner av Deepfake

Det er gode, dårlige og farlige bruksområder for deepfakes.

De gode består i å gjenskape historietimer av de som faktisk var der for større engasjement.

I tillegg brukes de av nettbaserte læringsplattformer til å generere videoer fra tekster.

Men en av de største fordelene vil være filmindustrien. Her vil det være lett å se for seg selve hovedpersonen som utfører stunts, selv når det er stuntpersonen som risikerer livet sitt. I tillegg vil det være enklere enn noensinne å lage flerspråklige filmer.

Kommer til de dårlige, er det dessverre mange. Den største deepfake-applikasjonen til dags dato, faktisk, 96 % (i henhold til denne Deeptrace-rapporten), er i pornoindustrien for å bytte kjendisansikter med pornoskuespillere.

I tillegg er deepfakes også bevæpnet mot «standard» kvinner som ikke er kjendiser. Vanligvis har slike ofre fotografier eller videoer av høy kvalitet på sine sosiale medieprofiler som brukes til å lage dype falske.

En annen skummel applikasjon er vishing, også kalt stemmefisking. I et slikt tilfelle overførte administrerende direktør for et britisk-basert firma 243 000 dollar etter ordre fra «CEO» i det tyske morselskapet, bare for senere å finne ut at det faktisk var en falsk telefonsamtale.

Men det som er enda farligere er deepfake som provoserer kriger eller ber om overgivelse. Et siste forsøk har sett den ukrainske presidenten, Volodymyr Zelenskyy, ba sine styrker og folk om å overgi seg i den pågående krigen. Sannheten denne gangen ble imidlertid gitt bort av den underordnede videoen.

Avslutningsvis er det mange deepfake-applikasjoner, og det har så vidt begynt.

Dette bringer oss til million-dollar-spørsmålet…

Er Deepfakes lovlig?

Dette avhenger i stor grad av den lokale administrasjonen. Selv om veldefinerte lover, inkludert hva som er tillatt og hva som ikke er, ennå ikke er sett.

Likevel, det som er åpenbart er at det avhenger av hva du bruker deepfakes til – intensjonen. Det er neppe noen skade hvis du har tenkt å underholde eller utdanne noen uten å forstyrre byttemålet.

På den annen side bør ondsinnede søknader være straffbare ved lov, uavhengig av jurisdiksjon. En annen gråsone er brudd på opphavsretten som må vurderes grundig.

Men for å gjenta, bør du sjekke med dine lokale myndigheter om lovlige dypfalske søknader.

Hold øye med!

Deepfkaes utnytter kunstig intelligens for å få noen til å si ting.

Ikke stol på noe du ser på internett er det første rådet vi bør handle etter. Det er tonnevis med feilinformasjon, og effektiviteten deres bare øker.

Og siden det bare blir lettere å lage dem, er det på tide at vi lærer å oppdage dype falske.