Deepfakes: Kan du stole på det du ser og hører?

Det er menneskelig å stole på det vi ser og hører i video- og lydopptak. Men teknologien har kommet så langt at kunstig intelligens (AI) nå kan gjenskape ansikter og stemmer med en forbløffende presisjon. Resultatet er det vi kaller en «deepfake» – en svært overbevisende imitasjon som dessverre kan misbrukes til alt fra harmløse memer til alvorlig feilinformasjon og pornografi.

Et raskt søk på Nicholas Cage deepfakes eller Jordan Peeles deepfake-opplysningsvideo viser tydelig at vi står overfor en teknologi med et enormt potensial, både for godt og vondt. Selv om disse eksemplene kan virke uskyldige, reiser de viktige spørsmål om hvordan vi forholder oss til video og lyd i fremtiden. Kan vi stole på det vi ser og hører? Hvordan kan vi holde folk ansvarlige for handlinger som tilsynelatende skjer på skjermen? Og er vi egentlig forberedt på konsekvensene av deepfakes?

Deepfakes – Ny teknologi i sterk vekst

Deepfake-teknologien er relativt ny, men den har allerede utviklet seg i en forrykende fart. Begrepet «deepfake» oppsto på et Reddit-forum i 2017 og beskriver prosessen med å gjenskape et menneskes utseende eller stemme ved hjelp av kunstig intelligens. Det som er oppsiktsvekkende, er at nesten hvem som helst kan lage en deepfake med en helt vanlig PC, litt programvare og noen timers innsats.

Det kan være vanskelig å tro, men bildet til venstre er en deepfake.

Som med all ny teknologi, er det en del forvirring rundt deepfakes. Den såkalte «Drunk Pelosi»-videoen er et godt eksempel på dette. Deepfakes er skapt ved hjelp av AI og er ment å etterligne mennesker. Men «Drunk Pelosi»-videoen, som ofte feilaktig refereres til som en deepfake, er faktisk bare en video av Nancy Pelosi som er blitt bremset ned og tonehøydekorrigert for å skape en effekt av slørete tale.

Dette skiller deepfakes fra for eksempel CGI (Computer Generated Imagery), som vi så med Carrie Fisher i Star Wars: Rogue One. Disney brukte enorme summer på å studere Carrie Fishers ansikt og gjenskape det digitalt. En person med den rette deepfake-programvaren kan gjøre den samme jobben gratis på en enkelt dag. AI har gjort det utrolig enkelt, billig og overbevisende å lage slike falske videoer.

Slik lages en Deepfake

Akkurat som en elev i klasserommet, må AI «lære» hvordan den skal utføre oppgaven den er satt til. Dette gjøres gjennom en prosess der AI prøver og feiler mange ganger, en prosess vi ofte kaller maskinlæring eller dyp læring. En AI som skal klare det første nivået i Super Mario Bros, vil spille spillet igjen og igjen til den finner den beste måten å vinne på. Den som designer AI-en, må gi den noen data for å starte, sammen med noen «regler» for hva den skal gjøre når ting går galt. Utover dette gjør AI jobben selv.

Det samme gjelder for gjenskaping av ansikter med deepfakes. Men å gjenskape et ansikt er naturligvis noe annet enn å spille et videospill. La oss se for oss at vi skal lage en deepfake der Nicholas Cage er programleder for Wendy Williams show. Da trenger vi dette:

  • En video som «mål»: Deepfakes fungerer best med klare videoer av høy kvalitet. Dette er grunnen til at de mest overbevisende deepfakene ofte er av politikere, som gjerne står stille på et podium under god belysning. Vi trenger altså en video av Wendy som sitter stille og snakker.
  • To datasett: For at munn- og hodebevegelser skal se realistiske ut, trenger vi et datasett av Wendy Williams sitt ansikt og et datasett med Nicholas Cages ansikt. Hvis Wendy ser til høyre, trenger vi et bilde av Nicholas Cage som ser til høyre. Hvis Wendy åpner munnen, trenger vi et bilde av Cage som åpner munnen.

Etter dette lar vi AI gjøre jobben. Den prøver å lage deepfake igjen og igjen, og lærer av feilene underveis. Enkelt, ikke sant? Vel, en video av Cages ansikt på Wendy Williams…