Hvordan Alexa lytter etter Wake Words

Alexa lytter alltid, men tar ikke kontinuerlig opp. Den sender ikke noe til skyservere før den hører deg si våkneordet (Alexa, Echo eller Computer). Men å lytte etter våkne ord er vanskeligere enn du kanskje tror.

Ekko-maskinvare er ikke så intelligent. Uten internett vil enhver forespørsel eller spørsmål du stiller mislykkes. Dette er fordi kommandoene dine sendes til skyen for tolkning og beslutninger. Amazon vil ikke at hver samtale du har foran en smarthøyttaler skal spilles inn, men bare kommandoene du gir smarthøyttaleren. Av denne grunn bruker selskapet et våkent ord for å fange smarthøyttalerens oppmerksomhet. For å oppnå dette bruker Amazon en kombinasjon av finjusterte mikrofoner, en kort minnebuffer og nevrale netttrening.

Finjusterte mikrofoner lokaliserer stemmen din

Den lyseblå LED-en vil alltid vende mot stemmen din.

Taleassistenthøyttalere, som Echo og Echo Dot, har vanligvis flere innebygde mikrofoner. Echo Dot, for eksempel, har syv. Denne matrisen gir enhetene flere evner, fra å høre kommandoer sagt langt unna, til å skille bakgrunnsstøy fra stemmer.

Sistnevnte er spesielt nyttig for deteksjon av våkneord. Ved å bruke flere mikrofoner kan Echo finne posisjonen din i forhold til hvor den sitter og lytte i den retningen mens den ignorerer resten av rommet.

Du ser dette i aksjon hver gang du bruker våkneordet. Stå ved siden av et ekko eller ekkopunkt og si våkneordet. Legg merke til at ringen lyser i mørkeblått, og deretter lysere blått når den sirkler og «peker» mot deg. Gå nå flere trinn til siden og si våkneordet igjen. Legg merke til at de lyseblå lysene følger deg.

  Slik tilbakestiller du en ruter til fabrikkstandard

Å vite hvor du er, hjelper enheten med å fokusere på deg bedre og tune ut lyder som kommer fra andre steder.

Kort minne hindrer høyttaleren i å holde for mye

Ekko-enheter har rikelig med lagringsplass, men de bruker ikke mye av det. I følge Rohit Prasad, visepresident i Amazon og hovedforsker for Alexa Artificial Intelligence, an Echo kan bare lagre noen få sekunder med lyd fysisk.

Ved å redusere kapasiteten gir Amazon deg ikke bare mer privatliv (det er ett sted mindre hvor stemmen din er lagret), men forhindrer også Echo fra å lytte til hele samtaler, og begrenser fokuset til å finne det våkne ordet.

Tenk deg at du hadde en tre-sekunders kassett og en båndopptaker. Anta at båndet gikk tilbake til begynnelsen igjen og igjen etter at det nådde slutten. Hvis du begynte å ta opp en samtale, ville alt du sa for fire sekunder siden bli slettet og umiddelbart tatt opp. Det er det et Amazon Echo gjør.

Den tar opp kontinuerlig, men sletter alt den nettopp har tatt opp samtidig. Det korte oppmerksomhetsspennet betyr at alt den kan høre er ordet «Alexa», og ikke mye mer. Tre sekunder er imidlertid lenge nok til at det ordet kan registreres, undersøkes og reageres på riktig måte.

  Stream musikk fra Dropbox, Google Drive og Box med CloudAmpz

Nevral netttrening hjelper med mønstertilpasning

En representasjon av lagene som brukes av Amazons algoritmer.

Til slutt er Amazon avhengig av nevrale nettverkstrening for å lære ekkoet hvordan man matcher mønsteret. På samme måte som andre former for maskinlæring, trener Amazon sine algoritmer ved å mate den instans etter instans av ordet Alexa (eller Computer, eller Echo, avhengig av hvilket wake-ord selskapet trener).

Tanken er å dekke alle bøyninger og aksent, men også konteksten. Amazon vil at ekkoet ditt skal gjenkjenne forskjellen når du snakker til det, når du snakker om det, eller kanskje når du snakker med en person som heter Alexa. De retningsbestemte mikrofonene hjelper også med det målet.

Med hvert ord som ekkoet hører, kjører det lyd gjennom lag med algoritmer. Hvert lag er utformet for å utelukke falske positiver, på jakt etter lyd-like eller kontekstledetråder. Hvis en lagsjekk passerer, går ordet til den neste. Til slutt, når den lokale enheten bestemmer seg for at den hørte våkneordet, begynner den å ta opp og sende lyden videre til Amazons skyservere. Amazon bruker fire algoritmer: en for hvert våkneord (Alexa, Computer, Echo), og en for Alexa Guard, som behandler spesifikke lyder, som glassknusing, som et våkneord.

Men selv når en kamp oppstår, kjører Amazon fortsatt mer kompliserte kontroller. Har du lagt merke til at når noen snakker ordet Alexa i et TV-program eller en reklamefilm, fremkaller det vanligvis ikke et svar fra Echo? Det er fordi Amazon også gjør en skysjekk.

  Hvordan finne venner i Telegram

Skysjekker utelukker noen falske positiver

Dette morsom Alexa-reklame vil ikke vekke ekkoet ditt.

Når selskaper lager reklamer som inneholder Alexa, kan de det send inn lyden til Amazon. Selskapet kjører lyden gjennom lignende mønstertilpasningsalgoritmer som brukes til å identifisere våkneordet. Når den eksakte forekomsten er fullstendig katalogisert, legges den til en database.

Som en del av prosessen når du når ut til skyen, inkluderer ekkoet informasjon om våkneordet det hørte og sjekker databasen. Når den finner en match, ber Amazon din Echo om å ignorere våkenordet, slå av og forkaste all innspilt lyd.

I tillegg sjekker Amazon for tilfeller av våkneordet som ble sagt samtidig. Ikke alle selskaper sender inn lyd til Amazon, så selskapet kom opp med en ny backup-løsning. Etter å ha sjekket for en databasematch, sammenligner selskapet våkneord-avtrykket med andre forekomster som kommer inn samtidig. Det er usannsynlig at to personer som sier Alexa samtidig vil høres helt likt ut, så hvis det er en kamp, ​​vet Amazon at det sannsynligvis er et reklame- eller TV-program og ignorerer forespørselen.

Til tross for alle kontrollene, forekommer fortsatt falske positiver. Du kan lytte til hva Echo har tatt opp på Amazons personvernsenter, og du vil sannsynligvis finne minst én falsk positiv i gjengen. Men teknologien blir kontinuerlig forbedret, og til slutt vil Amazon gjerne at den skal fungere uten et våkenord i det hele tatt.