De fleste er komfortable med ansiktsgjenkjenning i applikasjoner som Instagram-filtre og Face ID, men denne relativt nye teknologien kan virke litt urovekkende. Ansiktet ditt er unikt, nesten som et fingeravtrykk, og den underliggende teknologien er ganske avansert.
Som med all teknologi, er det også ulemper med ansiktsgjenkjenning. Disse ulempene blir mer merkbare når militæret, politiet, reklamebyråer og skapere av deepfakes oppdager nye og raffinerte måter å utnytte programvare for ansiktsgjenkjenning på.
Det er nå viktigere enn noen gang at folk forstår hvordan ansiktsgjenkjenning fungerer. Det er også avgjørende å kjenne til begrensningene ved denne teknologien og hvordan den sannsynligvis vil utvikle seg i fremtiden.
Hvordan fungerer ansiktsgjenkjenning?
Før vi utforsker de ulike anvendelsene for ansiktsgjenkjenning, er det viktig å forstå selve prosessen. Her er tre eksempler på hvordan ansiktsgjenkjenningsprogramvare fungerer, sammen med en enkel forklaring på hvordan den gjenkjenner eller identifiserer ansikter:
Grunnleggende ansiktsgjenkjenning: For animerte emojis og filtre i Instagram, «ser» telefonens kamera etter de definerende elementene i et ansikt, spesielt øyne, nese og munn. Deretter bruker det algoritmer for å «låse» seg på et ansikt og avgjøre retningen det ser, om munnen er åpen osv. Det er viktig å merke seg at dette ikke er ansiktsidentifikasjon, men programvare som ganske enkelt søker etter ansikter.
Face ID og lignende programmer: Når du konfigurerer Face ID (eller liknende programmer) på telefonen din, tar den et bilde av ansiktet ditt og måler avstanden mellom de ulike ansiktstrekkene. Deretter, hver gang du skal låse opp telefonen, «ser» den gjennom kameraet for å måle og bekrefte identiteten din.
Identifisering av en ukjent: Når en organisasjon ønsker å identifisere et ansikt for sikkerhet, reklame eller politiarbeid, bruker den algoritmer for å sammenligne ansiktet med en stor database med ansikter. Denne prosessen er nesten identisk med Apples Face ID, men i større skala. Teoretisk sett kan enhver database brukes (ID-kort, Facebook-profiler), men en database med klare, forhåndsidentifiserte bilder er ideell.
La oss gå over til det mer kompliserte. Siden den «grunnleggende ansiktsgjenkjenningen» som brukes i Instagram-filtre er såpass enkel og ufarlig, vil vi konsentrere oss om ansiktsidentifikasjon og de ulike teknologiene som kan brukes til å identifisere et ansikt.
2D-bilder som utgangspunkt
Som forventet, bruker det meste av programvare for ansiktsgjenkjenning 2D-bilder. Dette er ikke fordi 2D-ansiktsavbildning er mest nøyaktig, men for enkelhets skyld. Det store flertallet av kameraene tar bilder uten dybde, og offentlig tilgjengelige bilder som kan brukes i ansiktsgjenkjenningsdatabaser (for eksempel Facebook-profilbilder), er i 2D.
Hvorfor er ikke 2D-ansiktsavbildning særlig nøyaktig? Et flatt bilde av ansiktet mangler identifiserende trekk, som dybde. Med et slikt bilde kan en datamaskin måle pupillavstanden og bredden på munnen din, men ikke lengden på nesen eller hvor fremtredende pannen din er.
I tillegg er 2D-ansiktsavbildning avhengig av det synlige lysspekteret. Det betyr at 2D-ansiktsavbildning ikke fungerer i mørket og kan være upålitelig under varierende lysforhold.
Løsningen på disse manglene er å bruke 3D-ansiktsavbildning. Men hvordan er det mulig? Trenger man spesialutstyr for å se et ansikt i 3D?
IR-kameraer gir dybde
Mens noen ansiktsgjenkjenningsapplikasjoner utelukkende bruker 2D-bilder, er det ikke uvanlig at ansiktsgjenkjenning også er avhengig av 3D-bilder. Faktisk innebærer din erfaring med ansiktsgjenkjenning sannsynligvis litt 3D.
Dette oppnås gjennom en teknikk som kalles lidar, som minner om ekkolodd. Ansiktsskanningsenheter, som iPhonen din, sender ut en ufarlig IR-matrise mot ansiktet ditt. Denne matrisen (en vegg av lasere) reflekteres deretter av ansiktet ditt og fanges opp av et IR-kamera (eller ToF-kamera) på telefonen din.
Hvordan oppstår 3D-magien? Telefonens IR-kamera måler tiden det tar for hver bit av IR-lys å sprette av ansiktet ditt og returnere til telefonen. Lyset som reflekteres fra nesen vil naturligvis ha en kortere reise enn lyset som reflekteres fra ørene, og IR-kameraet bruker denne informasjonen til å skape et unikt dybdekart av ansiktet ditt. Sammen med 2D-bilder kan 3D-bildebehandling øke nøyaktigheten til ansiktsgjenkjenningsprogramvare.
Lidar-avbildning kan være vanskelig å forstå. Hvis det hjelper, kan du forestille deg at IR-nettverket fra telefonen din (eller en annen ansiktsgjenkjenningsenhet) er som et pin-board leketøy. Ansiktet ditt etterlater en fordypning i IR-nettet, der nesen er merkbar dypere enn for eksempel øynene.
Termisk bildebehandling om natten
En av manglene med 2D-ansiktsgjenkjenning er at den er avhengig av det synlige lysspekteret. I praksis betyr det at grunnleggende ansiktsgjenkjenning ikke fungerer i mørket. Men dette kan løses ved å bruke et termisk kamera.
«Vent litt», tenker du kanskje, «er ikke termisk bildebehandling avhengig av IR-lys?» Jo, det stemmer. Men termiske kameraer sender ikke ut IR-lys; de oppdager ganske enkelt IR-lyset som sendes ut fra gjenstander. Varme gjenstander sender ut mye IR-lys, mens kalde gjenstander sender ut minimalt. Avanserte termiske kameraer kan oppdage subtile temperaturforskjeller, noe som gjør teknologien ideell for ansiktsgjenkjenning.
Det finnes flere metoder for å identifisere et ansikt med termisk bildebehandling. Teknikkene er komplekse, men de har noen grunnleggende likheter, så la oss se på noen av dem:
- Flere bilder er nødvendig: Et termisk kamera tar flere bilder av en persons ansikt. Hvert bilde fokuserer på et annet spekter av IR-lys (lange, korte og middels bølger). Vanligvis gir det lange bølgespekteret mest informasjon om ansiktet.
- Blodkarkart er nyttige: Disse IR-bildene kan også brukes til å kartlegge blodkarene i ansiktet. Dette kan virke skummelt, men blodkarkart kan brukes som unike ansiktsfingeravtrykk. De kan også brukes til å finne avstanden mellom ansiktsorganer (hvis termisk bildebehandling gir utydelige bilder) eller for å identifisere blåmerker og arr.
- Motivet kan identifiseres: Et sammensatt bilde (eller datasett) lages ved hjelp av flere IR-bilder. Dette sammensatte bildet kan deretter sammenlignes med en ansiktsdatabase for å identifisere motivet.
Termisk ansiktsgjenkjenning brukes vanligvis av militæret og er ikke standard i forbrukerelektronikk. I tillegg fungerer termisk bildebehandling dårlig på dagtid (eller i godt opplyste omgivelser), og har derfor begrenset anvendelse utenfor militæret.
Begrensninger ved ansiktsgjenkjenning
Vi har diskutert mange begrensninger ved ansiktsgjenkjenning. Som vi har sett, kan IR og termisk bildebehandling løse noen av disse, men det gjenstår fortsatt problemer:
- Hindringer: Solbriller og annet tilbehør kan hindre ansiktsgjenkjenningsprogramvare.
- Posisjoner: Ansiktsgjenkjenning fungerer best med et nøytralt, rett frem-vendt bilde. En vipping eller dreining av hodet kan vanskeliggjøre ansiktsgjenkjenning, selv for IR-basert programvare. Et smil, oppblåste kinn eller annen positur kan også påvirke målingen av ansiktet.
- Lys: Alle former for ansiktsgjenkjenning er avhengig av lys, enten det er synlig spektrum eller IR-lys. Uvanlige lysforhold kan redusere nøyaktigheten. Forskere jobber imidlertid med ekkoloddbasert ansiktsgjenkjenningsteknologi.
- Databasen: Uten en god database fungerer ikke ansiktsgjenkjenning. Det er også umulig å identifisere et ansikt som ikke er registrert tidligere.
- Databehandling: Avhengig av størrelsen og formatet på databasen, kan det ta lang tid for datamaskiner å identifisere ansikter nøyaktig. I noen situasjoner, som i politiarbeid, begrenser databehandlingsbegrensninger bruken av ansiktsidentifikasjon i hverdagen (noe som kanskje er bra).
Per i dag er den beste måten å omgå disse begrensningene å bruke andre former for identifikasjon sammen med ansiktsgjenkjenning. Telefonen din vil be om et passord eller fingeravtrykk hvis den ikke klarer å identifisere ansiktet ditt. Kinesiske myndigheter bruker ID-kort og sporingsteknologi for å redusere feilmarginen i ansiktsgjenkjenningsnettverket.
I fremtiden vil forskere sannsynligvis finne måter å løse disse problemene på. De kan bruke ekkoloddteknologi sammen med lidar for å skape 3D-ansiktskart i alle miljøer, og de kan finne måter å behandle ansiktsdata på (og identifisere fremmede) på svært kort tid. Uansett har teknologien et stort potensial for misbruk, så det er viktig å følge med.
Kilder: Universitetet i Rijeka, Electronic Frontier Foundation