Stemmeassistenter som Alexa, Google Assistent og Siri har hatt en betydelig utvikling de siste årene. Til tross for deres forbedrede funksjoner, er det én vesentlig begrensning som hindrer dem: deres manglende evne til å virkelig forstå det vi sier. Disse assistentene er i for stor grad avhengig av bestemte stemmekommandoer.
Talegjenkjenning – en illusjon av forståelse
Det er kanskje overraskende, men stemmeassistenter forstår deg egentlig ikke slik mennesker gjør. Når du kommuniserer med en Google Home eller Amazon Echo, omdanner den i bunn og grunn dine ord til tekst. Deretter sammenlignes denne teksten med et sett forhåndsprogrammerte kommandoer. Hvis den finner en nøyaktig match, følger den et bestemt sett med instruksjoner. Hvis den ikke finner en eksakt match, søker den etter et alternativ basert på tilgjengelig informasjon. Hvis ingen passende handling finnes, får du en feilmelding som «Beklager, jeg vet ikke det». Dette er i realiteten en avansert form for lureri som får oss til å tro at den faktisk forstår oss.
En stemmeassistent kan ikke bruke kontekstuelle ledetråder for å foreta kvalifiserte gjetninger, eller anvende kunnskap om relaterte emner for å ta informerte beslutninger. Det er ikke vanskelig å «lure» disse assistentene. For eksempel, hvis du spør Alexa: «Jobber du for NSA?» vil du få et svar, men dersom du deretter spør «Er du i hemmelighet en del av NSA?», er det stor sjanse for at svaret blir «Jeg vet ikke det» (i alle fall i skrivende stund).
Mennesker, som virkelig har evnen til å forstå tale, fungerer på en helt annen måte. Forestill deg at du spør en person: «Hva er den klare buen på himmelen? Den som er formet som en halvsirkel og har striper i farger som rød, oransje, gul og blå.» Selv om «klarvain» ikke er et ekte ord, vil den du spør sannsynligvis utlede at du beskriver en regnbue, basert på konteksten.
Mennesker kan konvertere tale til ideer og deretter bruke kunnskap og forståelse for å konkludere med et svar. Hvis du spør et menneske om de jobber i hemmelighet for NSA, vil de kunne gi deg et ja- eller nei-svar, selv om svaret er en løgn. Et menneske ville ikke svare «Jeg vet ikke det» på et slikt spørsmål. Evnen til å lyve er et tegn på ekte forståelse.
Stemmeassistenter er bundet av programmering
Stemmeassistenter er i bunn og grunn begrenset til forhåndsdefinerte parametere, og avvik fra disse fører til feil. Dette blir tydelig når tredjepartsenheter involveres. Ofte er kommandoene for å interagere med disse enhetene tungvinte. Det kan gjerne være noe slikt som: «Be produsenten av enheten om å utføre en valgfri handling». Et konkret eksempel er: «Be Whirlpool om å sette tørketrommelen på pause». For et enda mer komplisert eksempel, kan man se på Geneva Alexa-ferdigheter som kontrollerer visse GE-ovner. Brukeren må huske å si «fortell Geneva», ikke «fortell GE», før de gir resten av kommandoen. Og selv om du kan be den om å forvarme ovnen til 175 grader, kan du ikke be den om å øke temperaturen med ytterligere 25 grader. Et menneske ville derimot lett forstå slike forespørsler.
Amazon og Google jobber kontinuerlig for å overvinne disse utfordringene, og det merkes. Der du tidligere måtte bruke kompliserte kommandoer for å kontrollere en smartlås, kan du nå bare si «lås inngangsdøren». Alexa pleide å bli forvirret av spørsmålet «Fortell meg en hundevits», men i dag vil den klare det. De har lagt til flere variasjoner i kommandoene, men du må fortsatt kjenne den nøyaktige kommandoen og bruke riktig syntaks i riktig rekkefølge.
Og hvis dette minner om en kommandolinje, er du ikke på feil spor.
Stemmeassistenter – en sofistikert kommandolinje
En kommandolinje er spesifikt designet for å utføre enkle oppgaver, men bare hvis du kjenner den korrekte syntaksen. Hvis du for eksempel skriver «dyr» i stedet for «dir», vil ledeteksten gi en feilmelding. Du kan lage aliaser for å huske kommandoer lettere, men du må likevel forstå de originale kommandoene, hvordan de fungerer og hvordan du bruker aliasene effektivt. Uten denne kunnskapen vil du ikke få særlig utbytte av en kommandolinje.
Det samme gjelder for stemmeassistenter. Du må kjenne den korrekte måten å formulere kommandoer eller spørsmål på. Du må også forstå hvordan du setter opp grupper i Google og Alexa, hvorfor det er viktig å gruppere enhetene dine og hvordan du navngir smarte enheter. Hvis du ikke følger disse trinnene, vil du fort oppleve frustrasjon når du ber stemmeassistenten om å slå av lyset i stuen, og den spør «Hvilken stue?».
Selv når du bruker riktig syntaks og rekkefølge, kan prosessen mislykkes. Du kan enten få et feil svar eller et overraskende resultat. To Google Homes i samme hus kan gi værmelding for litt forskjellige steder, selv om de har tilgang til samme brukerkonto og internettforbindelse.
I eksemplet ovenfor ble kommandoen «Still inn en timer på en halvtime» gitt. Google Home-huben opprettet en timer som het «Tid» og spurte hvor lang tid den skulle vare. Da den samme kommandoen ble gjentatt tre andre ganger, fungerte det som det skulle og lagde en 30-minutters timer. Kommandoen «Still inn en timer på 30 minutter» fungerer mer konsistent.
Selv om det kan føles mer naturlig å kommunisere med Google Home eller Echo, er stemmeassistenter under panseret ikke så ulik en kommandolinje. Du trenger ikke lære et helt nytt språk, men du må mestre en ny dialekt.
Begrenset forståelse hindrer vekst
Dette betyr ikke at stemmeassistenter som Google Assistant og Alexa ikke fungerer tilfredsstillende (Cortana er en annen historie). Google Assistent og Alexa er flinke til å søke etter informasjon på nettet, og Google er spesielt god til å svare på grunnleggende spørsmål som måleenhetskonverteringer og enkel matematikk. Med et riktig konfigurert smarthus og en velinformert bruker, vil de fleste smarthuskommandoer fungere som de skal. Men dette er et resultat av arbeid og innsats, ikke av en genuin intellektuell forståelse.
Tidligere var tidtakere og alarmer ganske enkle. Over tid ble funksjoner som navngivning lagt til, og etter hvert muligheten til å legge til tid til en timer. De gikk fra å være primitive til mer kompliserte. Stemmeassistenter kan svare på flere spørsmål, og nye funksjoner legges til hele tiden. Men dette er ikke et resultat av selvutvikling gjennom læring og forståelse.
Og de mangler evnen til å bruke eksisterende kunnskap til å utforske det ukjente. For hver kommando som fungerer, vil det alltid være minst tre som ikke gjør det. Uten et gjennombrudd innen kunstig intelligens som gir en menneskelignende evne til forståelse, er stemmeassistenter ikke assistenter i det hele tatt. De er kun avanserte talekommandoer – nyttige i visse situasjoner, men begrenset til de scenarioene de er programmert til å forstå.
Med andre ord: maskiner kan lære, men de har ikke evnen til å forstå.