Alexa er alltid i beredskap, men den lagrer ikke kontinuerlig lydopptak. Den starter ikke sending til servere før den oppfatter et avtalt våkenord, som «Alexa,» «Echo» eller «Computer.» Å detektere disse ordene er imidlertid mer komplisert enn man skulle tro.
Enheter som Echo er i utgangspunktet ikke smarte i seg selv. Uten internettilgang vil enhver forespørsel du sender til enheten feile. Dette skyldes at dine instruksjoner sendes til skyen for analyse og behandling. Amazon ønsker ikke å registrere alle dine samtaler foran en smarthøyttaler, men kun kommandoene rettet mot den. For å differensiere mellom samtaler og kommandoer, bruker de et spesifikt våkenord. For å oppnå dette benytter Amazon en kombinasjon av avanserte mikrofoner, en kort minnebuffer og avansert maskinlæring.
Mikrofoner med Presis Lokaliseringsfunksjon
Den lyseblå LED-indikatoren vil alltid peke i retning av din stemme.
Talestyringsassistenter, som Echo og Echo Dot, er vanligvis utstyrt med flere innebygde mikrofoner. Echo Dot har for eksempel hele syv. Dette arrayet av mikrofoner gir enhetene forbedrede evner, som å fange opp kommandoer fra avstand, samt å filtrere ut bakgrunnsstøy fra talen.
Det sistnevnte er særlig viktig for gjenkjennelse av våkenord. Ved hjelp av flere mikrofoner kan Echo-enheten kartlegge din posisjon og rette lyttingen mot deg, samtidig som den ignorerer støy fra andre deler av rommet.
Du kan observere dette i praksis hver gang du bruker våkenordet. Stå ved siden av en Echo eller Echo Dot og si ordet. Legg merke til at lysringen først skinner mørkeblått, deretter lysere blått, og «peker» mot deg. Gå noen skritt til siden og gjenta våkenordet. Du vil se at de lyseblå lysene følger din nye posisjon.
Denne posisjonsinformasjonen hjelper enheten med å fokusere bedre på din stemme og filtrere bort lyder fra andre kilder.
Begrenset Minnekapasitet Sikrer Personvern
Echo-enheter har rikelig med lagringsplass, men de benytter seg ikke av mye. Ifølge Rohit Prasad, en ledende forsker innenfor Alexa Artificial Intelligence hos Amazon, kan en Echo kun fysisk lagre noen få sekunder med lyd.
Denne begrensningen øker ikke bare personvernet (det er færre steder hvor din stemme lagres), men hindrer også Echo fra å registrere hele samtaler, og fokuserer heller på det spesifikke våkenordet.
Tenk deg en tre-sekunders båndopptaker som sletter det som er spilt inn når båndet kommer til slutten. Hvis du begynner å snakke, vil alt du sa for fire sekunder siden, bli slettet og erstattet med ny lyd. Det er slik en Amazon Echo fungerer.
Den registrerer lyder fortløpende, men sletter den like raskt. Denne korte «hukommelsen» sikrer at den kun fanger opp ordet «Alexa», og ikke mye mer. Tre sekunder er likevel nok tid til å registrere, analysere og reagere på dette ordet.
Maskinlæring Forbedrer Mønstergjenkjenning
En visuell fremstilling av de algoritmene som Amazon benytter.
Amazon er avhengig av nevrale nettverkstrening for å lære enhetene å identifisere mønstre. I likhet med annen maskinlæring, trenes algoritmene ved å mate dem med et stort antall forekomster av ordet «Alexa» (eller «Computer» eller «Echo,» avhengig av hvilket ord de trener).
Målet er å dekke alle mulige uttalelser, aksenter og kontekster. Amazon ønsker at enheten skal skille mellom når du snakker til den, når du snakker om den, eller når du snakker med en person som heter Alexa. De retningsbestemte mikrofonene bidrar også til dette.
Hver lyd som registreres passerer gjennom flere lag med algoritmer. Hvert lag er utviklet for å luke ut falske alarmer, ved å lete etter lydlikheter og kontekstuelle ledetråder. Hvis en lyd passerer et lag, går den videre til neste. Når enheten konkluderer med at den har oppfattet et våkenord, begynner den å ta opp lyd og sender den til Amazons servere. Amazon benytter seg av fire algoritmer: en for hvert våkenord («Alexa,» «Computer,» «Echo») og en for «Alexa Guard» som behandler spesifikke lyder, som for eksempel knust glass, som et våkenord.
Selv om et våkenord registreres, utfører Amazon ytterligere analyser. Du har kanskje lagt merke til at dersom noen sier «Alexa» i et TV-program eller en reklame, vil ikke enheten din reagere. Dette skyldes at Amazon også utfører en «sky-sjekk.»
Sky-Sjekker Reduserer Falske Alarmer
Denne morsomme Alexa-reklamen vil ikke aktivere din enhet.
Når selskaper produserer reklamer som inneholder ordet «Alexa», kan de sende lydopptaket til Amazon. Amazon analyserer opptaket med lignende algoritmer som de bruker for å identifisere våkenord. Når et opptak er fullstendig katalogisert, legges det til en database.
Når din Echo sender en forespørsel til skyen, inkluderer den informasjon om det oppfattede våkenordet. Denne informasjonen sjekkes mot databasen. Hvis det finnes et samsvar, instruerer Amazon din Echo om å ignorere ordet, slå seg av og forkaste lydopptaket.
Amazon sjekker også for tilfeller hvor flere forekomster av våkenordet sies samtidig. Ikke alle selskaper sender inn lyd til Amazon, derfor har de også en annen løsning. Etter å ha sjekket mot databasen, sammenligner de «fingeravtrykket» til våkenordet med andre forekomster som registreres samtidig. Det er usannsynlig at to personer som sier «Alexa» samtidig, vil høres identisk ut. Hvis det registreres et samsvar, vil Amazon konkludere med at lyden sannsynligvis kommer fra en reklame eller et TV-program, og dermed ignorere den.
Til tross for alle disse kontrollene, oppstår det fortsatt falske alarmer. Du kan lytte til hva din Echo har tatt opp på Amazons personvernssenter, og du vil sannsynligvis finne minst én falsk alarm. Teknologien forbedres kontinuerlig, og på sikt er Amazons mål at enheten skal fungere uten behov for et våkenord.