Avslører chatboten din for mye? Nevrale nettverksangrep forklart!

0 Shares

Viktige punkter

Inversjonsangrep mot nevrale nettverksmodeller benytter AI-chatbots for å avsløre og rekonstruere personlige data fra digitale spor.
Hackere utvikler inversjonsmodeller som estimerer inndata basert på utdata fra et nevralt nettverk, og dermed potensielt avslører sensitiv informasjon.
Teknikker som differensielt personvern, flerpartsberegning og føderert læring kan bidra til å beskytte mot inversjonsangrep. Dette er en kontinuerlig kamp hvor brukere bør være forsiktige med hva de deler, holde programvaren oppdatert, og være kritiske til hvilken personlig informasjon de oppgir.

Tenk deg at du har smakt en utrolig god kake på restaurant. Hjemme bestemmer du deg for å gjenskape den. I stedet for å spørre etter oppskriften, forsøker du å rekonstruere den basert på smaken og dine egne matlagingsferdigheter.

Hva om noen kunne gjøre det samme med dine personlige data? At noen basert på dine digitale spor kunne rekonstruere dine private detaljer?

Dette er kjernen i et inversjonsangrep mot nevrale nettverksmodeller, en metode som kan forvandle en AI-chatbot til et kraftig spionverktøy.

Forstå inversjonsangrep mot nevrale nettverksmodeller

Et nevralt nettverk er selve hjernen i moderne kunstig intelligens (AI). De står bak funksjoner som stemmegjenkjenning, avanserte chatbots og generativ AI.

Nevrale nettverk er serier av algoritmer designet for å gjenkjenne mønstre, tenke og lære på samme måte som den menneskelige hjernen. De opererer på en skala og med en hastighet som overgår våre egne evner.

AI’s hemmelighetsbok

Akkurat som den menneskelige hjernen, kan nevrale nettverk holde på hemmeligheter, det vil si dataene brukerne har delt. Ved et modellinversjonsangrep utnytter en hacker utdataene fra et nevralt nettverk (som svar fra en chatbot) for å rekonstruere inndataene (informasjonen du har oppgitt).

For å gjennomføre angrepet, skaper hackere sin egen maskinlæringsmodell, en «inversjonsmodell». Denne modellen er designet som et speilbilde. Den trenes ikke på de opprinnelige dataene, men på utdataene fra målnettverket.

Inversjonsmodellen har som mål å forutsi inndataene – de opprinnelige, ofte sensitive dataene du har delt med chatboten.

Utvikling av inversjonsmodellen

Å lage en inversjonsmodell kan sammenlignes med å rekonstruere et makulert dokument. I stedet for å sette sammen papirbiter, settes historien sammen fra måmodellens svar.

Inversjonsmodellen lærer «språket» til det nevrale nettverkets utdata. Den ser etter ledetråder som over tid avslører innholdet i inndataene. For hver ny databit og respons den analyserer, blir modellen bedre på å forutsi informasjonen du har oppgitt.

Denne prosessen er en kontinuerlig syklus av hypoteser og testing. Med tilstrekkelig antall utdata, kan inversjonsmodellen bygge en detaljert profil av deg, selv fra tilsynelatende ufarlig informasjon.

Inversjonsmodellen kobler sammen ulike elementer. Hvert datapunkt som deles gjennom interaksjonene, lar modellen utvikle en profil. Med tiden blir denne profilen uventet detaljert.

Til slutt kan innsikt i brukerens aktiviteter, preferanser og identitet avsløres. Innsikt som aldri var ment å bli delt.

Hva gjør det mulig?

I nevrale nettverk er hver forespørsel og respons et datapunkt. Dyktige angripere benytter avanserte statistiske metoder for å analysere disse datapunktene og lete etter korrelasjoner og mønstre som er vanskelige for mennesker å oppdage.

De bruker teknikker som regresjonsanalyse (for å undersøke forholdet mellom to variabler) for å forutsi verdien av inndata basert på mottatte utdata.

Hackere bruker også maskinlæringsalgoritmer i sine inversjonsmodeller for å finjustere sine estimater. De bruker utdata fra chatboten som inndata for å trene modellene til å etterligne den omvendte funksjonen til det nevrale nettverket.

Kort sagt, en «invers funksjon» beskriver hvordan hackere reverserer dataflyten fra utdata til inndata. Målet til angriperen er å trene sine inversjonsmodeller slik at de kan utføre den motsatte oppgaven av det opprinnelige nevrale nettverket.

Dette er hvordan de utvikler en modell som, basert utelukkende på utdataene, prøver å beregne hva inndataene må ha vært.

Hvordan inversjonsangrep kan brukes mot deg

La oss si du bruker et helseverktøy online. Du skriver inn symptomer, tidligere sykdommer, kostholdsvaner og eventuelt narkotikabruk for å få en vurdering av helsetilstanden din.

Dette er sensitiv og personlig informasjon.

Ved et inversjonsangrep rettet mot AI-systemet du bruker, kan en hacker kanskje bruke de generelle rådene chatboten gir til å rekonstruere din medisinske historie. For eksempel kan et svar fra chatboten være noe slikt:

Antinukleært antistoff (ANA) kan indikere autoimmune sykdommer som Lupus.

Inversjonsmodellen kan forutsi at brukeren har stilt spørsmål knyttet til en autoimmun sykdom. Med mer informasjon og flere svar, kan hackerne konkludere med at du har en alvorlig helsetilstand. Dermed blir et nyttig verktøy til et digitalt kikkhull inn i din private helse.

Hva kan gjøres med inversjonsangrep?

Kan vi bygge et «fort» rundt våre personlige data? Det er komplisert. Utviklere av nevrale nettverk kan gjøre det vanskeligere å utføre inversjonsangrep ved å legge til ekstra sikkerhetslag og skjule hvordan de opererer. Her er noen teknikker som brukes for å beskytte brukere:

Differensielt personvern: Dette sørger for at AI-utdataene er tilstrekkelig «støyende» til å skjule individuelle datapunkt. Det kan sammenlignes med å hviske i en folkemengde – ordene dine forsvinner i den kollektive støyen.
Flerpartsberegning: Denne teknikken fungerer som et team som jobber med et konfidensielt prosjekt der de kun deler resultatene av sine individuelle oppgaver, ikke de sensitive detaljene. Det lar flere systemer prosessere data sammen uten å avsløre individuelle brukerdata for nettverket – eller hverandre.
Føderert læring: Her trenes AI på flere enheter samtidig som brukernes data lagres lokalt. Det er som et kor hvor du hører hver stemme, men ingen stemme kan isoleres.

Selv om disse løsningene er effektive, er beskyttelse mot inversjonsangrep et konstant kappløp. Etter hvert som forsvar forbedres, utvikles også teknikkene for å omgå dem. Ansvaret ligger hos selskapene og utviklerne som samler inn og lagrer data, men det finnes også måter du kan beskytte deg selv på.

Hvordan beskytte deg mot inversjonsangrep?

Bildekreditt: Mike MacKenzie/Flickr

Nevrale nettverk og AI-teknologier er relativt nye. Inntil systemene er idiotsikre, er det opp til brukerne å være den første forsvarslinjen for å beskytte egne data.

Her er noen tips for å redusere risikoen for å bli offer for et inversjonsangrep:

Vær selektiv med hva du deler: Behandle din personlige informasjon som en hemmelig familieoppskrift. Vær nøye med hvem du deler den med, spesielt når du fyller ut skjemaer online eller interagerer med chatbots. Still spørsmål ved nødvendigheten av hver databit som blir etterspurt. Hvis du ikke vil dele informasjonen med en fremmed, bør du heller ikke dele den med en chatbot.
Hold programvaren oppdatert: Oppdateringer av programvare, nettlesere og operativsystemer er designet for å holde deg trygg. Mens utviklere beskytter de nevrale nettverkene, kan du redusere risikoen for dataangrep ved å installere oppdateringer jevnlig.
Vær forsiktig med personlig informasjon: Når en applikasjon eller chatbot spør etter personlig informasjon, ta en pause og tenk over hvorfor. Hvis den etterspurte informasjonen virker irrelevant for tjenesten, er den sannsynligvis det.

Du ville ikke gitt sensitiv informasjon som helse, økonomi eller identitet til en tilfeldig bekjent bare fordi de ba om det. På samme måte bør du vurdere hvilken informasjon som er nødvendig for at en applikasjon skal fungere, og velge å ikke dele mer enn det.

Beskytte vår personlige informasjon i AI-alderen

Vår personlige informasjon er vår mest verdifulle ressurs. Å beskytte den krever årvåkenhet, både når det gjelder hvordan vi velger å dele informasjon og i utviklingen av sikkerhetstiltak for tjenestene vi bruker.

Bevissthet om disse truslene og å ta skritt som de som er beskrevet i denne artikkelen, bidrar til et sterkere forsvar mot disse usynlige angrepsvektorene.

La oss jobbe mot en fremtid hvor vår private informasjon forblir privat.