Viktige poenger
- Deepfakes presenterer alvorlige utfordringer for samfunnet, inkludert spredning av falsk informasjon, skade på omdømme gjennom imitasjon og potensielle trusler mot nasjonal sikkerhet.
- Selv om kunstig intelligens (AI) tilbyr metoder for å oppdage deepfakes, er disse ikke feilfrie, og menneskelig vurdering er fortsatt viktig for å identifisere dypt forfalsket innhold.
- Både mennesker og AI-baserte deteksjonsverktøy har unike fordeler og svakheter når det gjelder å avsløre deepfakes. En kombinasjon av deres evner kan øke effektiviteten i å identifisere og redusere risikoen knyttet til deepfake-teknologi.
Deepfakes utgjør en trussel mot alle aspekter av samfunnet. Evnen vår til å gjenkjenne falskt innhold er avgjørende for å bekjempe desinformasjon. Men i takt med at AI-teknologien blir mer avansert, hvem kan vi stole på for å avsløre disse dype forfalskningene: mennesket eller maskinen?
Risikoen ved deepfakes
Ettersom AI-teknologien utvikler seg stadig, øker også farene forbundet med deepfakes. Her er en kort oversikt over noen av de mest akutte problemene de forårsaker:
- Desinformasjon: Deepfake-videoer og lydopptak kan brukes til å spre feilaktig informasjon, som falske nyheter.
- Imitasjon: Ved å etterligne enkeltpersoner kan deepfakes skade deres omdømme eller lure folk de kjenner.
- Nasjonal sikkerhet: Den mest alvorlige trusselen er bruken av deepfakes til å skape falske opptak av globale ledere for å starte konflikter.
- Sosial uro: Misvisende videoer og lyd kan også brukes til å skape sinne og uro i spesifikke befolkningsgrupper.
- Cyberkriminalitet: Kriminelle benytter allerede AI-stemmekloning til å sende overbevisende meldinger fra påståtte bekjente til utvalgte individer.
- Personvern og samtykke: Bruken av deepfakes innebærer ofte utnyttelse av enkeltpersoner uten deres samtykke.
- Tillit: Hvis man ikke kan skille mellom sannhet og løgn, mister pålitelig informasjon sin verdi.
Deepfakes vil trolig bli stadig mer overbevisende. Derfor trenger vi pålitelige metoder for å avsløre dem. AI tilbyr et slikt verktøy i form av deteksjonsmodeller for deepfakes. Men i likhet med algoritmer designet for å identifisere AI-generert tekst, er ikke disse deteksjonsverktøyene fullkomne.
Foreløpig er menneskelig vurdering det eneste andre verktøyet vi har. Så, er vi bedre enn algoritmene til å identifisere deepfakes?
Er algoritmer bedre enn mennesker til å oppdage deepfakes?
Deepfakes er en alvorlig nok trussel til at store teknologiselskaper og forskningsmiljøer bruker betydelige ressurser på forskning og utvikling. I 2019 lanserte selskaper som Meta, Microsoft og Amazon en Deepfake Detection Challenge med en premiepott på 1 million dollar for å utvikle den mest nøyaktige deteksjonsmodellen.
Den beste modellen oppnådde en nøyaktighet på 82,56 % mot et datasett med offentlig tilgjengelige videoer. Men da de samme modellene ble testet mot et «black box-datasett» med 10 000 ukjente videoer, sank nøyaktigheten til den beste modellen til bare 65,18 %.
Det finnes også flere studier som sammenligner effektiviteten til AI-deepfake-deteksjonsverktøy med menneskers evne til å gjenkjenne forfalskninger. Resultatene varierer fra studie til studie, men generelt viser det seg at mennesker enten er like gode eller bedre enn deepfake-deteksjonsverktøyene.
En studie publisert i PNAS i 2021 konkluderte med at «vanlige observatører» oppnådde litt høyere nøyaktighet enn de ledende deepfake-deteksjonsverktøyene. Studien påpekte imidlertid også at både menneskelige deltakere og AI-modeller var sårbare for ulike typer feil.
Interessant nok har forskning fra University of Sydney vist at den menneskelige hjernen ofte er mer effektiv til å oppdage deepfakes på et ubevisst nivå enn vi er i våre bevisste forsøk.
Oppdage visuelle tegn i deepfakes
Vitenskapen bak deepfake-deteksjon er kompleks, og den nødvendige analysen varierer avhengig av typen opptak. For eksempel er den kjente deepfake-videoen av Nord-Koreas leder Kim Jong-un fra 2020 i bunn og grunn en video der en person snakker direkte til kamera. I slike tilfeller kan den mest effektive metoden for å avsløre deepfakes være å analysere visemer (munnbevegelser) og fonemer (lyd av tale) for uoverensstemmelser.
Både menneskelige eksperter, tilfeldige seere og algoritmer kan foreta slike analyser, selv om resultatene varierer. MIT definerer åtte spørsmål for å identifisere deepfake-videoer:
- Se på ansiktet. Avanserte deepfake-manipulasjoner involverer nesten alltid ansiktstransformasjoner.
- Se på kinnene og pannen. Virker huden for glatt eller for rynkete? Er hudens alder i samsvar med alderen til hår og øyne? Deepfakes kan være inkongruente på noen områder.
- Se på øyne og øyenbryn. Er det skygger der du forventer dem? Deepfakes kan ha vanskeligheter med å gjenskape den naturlige fysikken i en scene.
- Se på briller. Er det refleksjoner? Er det for mye gjenskinn? Endres vinkelen på gjenskinnet når personen beveger seg? Igjen, kan deepfakes ha vanskeligheter med å gjenskape lysets naturlige fysikk fullstendig.
- Se på ansiktshår eller mangel på det. Virker ansiktshåret ekte? Deepfakes kan legge til eller fjerne bart, kinnskjegg eller skjegg, men transformasjonene kan se unaturlige ut.
- Se etter føflekker i ansiktet. Ser føflekkene ekte ut?
- Se etter blinking. Blinker personen nok eller for mye?
- Se på leppebevegelsene. Noen deepfakes er basert på leppesynkronisering. Ser leppebevegelsene naturlige ut?
De nyeste AI-baserte verktøyene for deepfake-deteksjon kan analysere de samme faktorene, igjen med varierende grad av suksess. Forskere utvikler stadig nye metoder, for eksempel å oppdage naturlig blodstrøm i ansiktene til dem som snakker på skjermen. Nye tilnærminger og forbedringer av eksisterende metoder kan føre til at AI-deepfake-deteksjonsverktøy overgår mennesker i fremtiden.
Oppdage lydtegn i deepfakes
Å oppdage deepfake-lyd er en helt annen utfordring. Uten de visuelle signalene fra video og evnen til å oppdage audiovisuelle uoverensstemmelser, er deepfake-deteksjon i stor grad avhengig av lydanalyse (andre metoder som metadataverifikasjon kan også være nyttige i noen tilfeller).
En studie publisert av University College London i 2023 viste at mennesker kan gjenkjenne deepfake-tale i 73 % av tilfellene (engelsk og mandarin). I likhet med deepfake-videoer oppdager lyttere ofte intuitivt unaturlige talemønstre i AI-generert tale, selv om de ikke alltid kan sette fingeren på hva som virker galt.
Vanlige tegn inkluderer:
- Uttale som flyter sammen
- Mangel på uttrykk
- Bakgrunnsstøy eller forstyrrelser
- Inkonsekvenser i stemme eller tale
- Mangel på «fylde» i stemmene
- Overdrevent oppskriftsmessig tale
- Mangel på ufullkommenheter (falske starter, korrigeringer, harking osv.)
Algoritmer kan også analysere tale for de samme deepfake-signalene, men nye metoder gjør verktøyene stadig mer effektive. Forskning fra USENIX identifiserte mønstre i rekonstruksjonen av AI-stemmekanaler som ikke klarer å etterligne naturlig tale. Studien konkluderte med at AI-stemmegeneratorer produserer lyd som er tilpasset smale vokalkanaler (omtrent på størrelse med et sugerør) uten de naturlige bevegelsene som finnes i menneskelig tale.
Tidligere forskning fra Horst Görtz Institute analyserte ekte og deepfake-lyd på engelsk og japansk, og avdekket små forskjeller i de høyere frekvensene av ekte tale og deepfakes.
Både vokalkanalen og uoverensstemmelser i høyere frekvenser kan oppfattes av menneskelige lyttere og AI-deteksjonsmodeller. Når det gjelder forskjeller i høye frekvenser, kan AI-modeller i teorien bli mer nøyaktige – selv om det samme kan sies om AI-deepfakes.
Mennesker og algoritmer lar seg lure av deepfakes på forskjellige måter
Studier indikerer at både mennesker og de nyeste AI-deteksjonsverktøyene i like stor grad er i stand til å identifisere deepfakes. Nøyaktigheten kan variere fra 50 % til over 90 %, avhengig av testparameterne.
Samtidig lar både mennesker og maskiner seg lure av deepfakes i omtrent samme grad. Det viktigste er imidlertid at vi er mottakelige på ulike måter. Dette kan være vår største ressurs i kampen mot risikoen knyttet til deepfake-teknologi. Ved å kombinere styrken til mennesker og deepfake-deteksjonsverktøy kan vi redusere svakhetene og øke effektiviteten.
For eksempel viste MIT-forskning at mennesker var bedre til å identifisere deepfakes av verdensledere og kjente personer enn AI-modeller. Studien avslørte også at AI-modeller slet med opptak som inneholdt flere personer. Dette kan ha sammenheng med at algoritmene ble trent på opptak med enkeltpersoner.
Omvendt fant den samme studien at AI-modeller overgikk mennesker når det gjaldt opptak av lav kvalitet (uskarpe, kornete, mørke osv.), som med vilje kan brukes til å lure menneskelige seere. På samme måte inneholder nyere AI-deteksjonsmetoder som å overvåke blodstrømmen i spesifikke deler av ansiktet analyser som mennesker ikke er i stand til å utføre.
Etter hvert som flere metoder utvikles, vil AI sin evne til å oppdage tegn som vi ikke kan se forbedres. Men det vil også deres evne til å lure oss. Det store spørsmålet er om teknologien for å oppdage deepfakes vil fortsette å holde tritt med deepfakes i seg selv.
Å se annerledes på ting i deepfakes-æraen
AI-verktøy for deepfake-deteksjon vil fortsette å utvikle seg. Det samme vil kvaliteten på selve deepfake-innholdet. Hvis AI sin evne til å lure overgår evnen til å oppdage (slik som med AI-generert tekst), kan menneskelig vurdering være det eneste verktøyet vi har igjen i kampen mot deepfakes.
Det er et ansvar for alle å lære seg tegnene på deepfakes og hvordan man kan gjenkjenne dem. Ved siden av å beskytte oss mot svindel og sikkerhetstrusler, er alt vi diskuterer og deler på nettet sårbart for desinformasjon hvis vi mister evnen til å forstå hva som er ekte.