Er Turing-testen utdatert? 5 smarte alternativer!

Utviklingen av Kunstig Intelligens: Er Turing-testen Utdatert?

For mer enn syv tiår siden, da konseptet kunstig intelligens begynte å ta form, publiserte Alan Turing en banebrytende artikkel som omhandlet hvordan man kunne identifisere den. Dette arbeidet ble senere kjent som Turing-testen, og har siden den gang vært en standardmålestokk for å skille mellom menneskelig og kunstig intelligens.

Men med fremveksten av sofistikerte AI-chatbots som ChatGPT og Google Bard, har det blitt stadig vanskeligere å avgjøre om man kommuniserer med et menneske eller en maskin. Dette leder til et sentralt spørsmål: Er Turing-testen fremdeles relevant? Og hvis ikke, hvilke alternativer har vi?

Er Turing-testen Umoderne?

Bildekreditt: Jesus Sanz / Shutterstock

For å evaluere Turing-testens aktualitet, må vi først forstå dens prinsipper. For at en kunstig intelligens skal bestå denne testen, må den evne å overbevise en menneskelig samtalepartner om at den selv er et menneske. Det sentrale elementet er at AI-en evalueres i parallell med en menneskelig deltaker, og begge må kommunisere gjennom tekst.

Se for deg at du er observatøren, og du stiller spørsmål til to deltakere over internett, via tekstmeldinger. En av disse deltakerne er en AI-modell. Ville du, etter noen minutters interaksjon, kunne identifisere hvem som er maskinen? Det viktigste poenget i Turing-testen er ikke å identifisere AI-en basert på korrekte svar, men å vurdere om AI-en evner å tenke og oppføre seg på en menneskelig måte.

Utfordringen med Turing-testens tilnærming, hvor fokus er på å etterligne menneskelige svar, er at den ignorerer andre relevante faktorer. For eksempel, hvor intelligent AI-modellen er, eller hvilken kunnskap observatøren besitter. I tillegg begrenser Turing-testen seg til kun tekst, noe som gjør det vanskelig å identifisere AI som produserer menneskelig tale eller avanserte «deepfake»-videoer.

Det er viktig å påpeke at nåværende AI-modeller som ChatGPT-4 og Google Bard ikke har nådd det punktet hvor de konsekvent kan bestå Turing-testen. Faktisk, med litt erfaring innen kunstig intelligens, er det ofte mulig å gjenkjenne AI-generert tekst.

Fem Alternativer til Turing-testen

Det er sannsynlig at fremtidige AI-modeller som ChatGPT-5 kan bestå Turing-testen. Hvis dette skjer, vil vi trenge nye og mer omfattende tester, i kombinasjon med den tradisjonelle Turing-testen, for å kunne skille AI fra mennesker. Her er noen av de mest interessante alternativene:

1. Marcus-testen

Gary Marcus, en anerkjent kognitiv vitenskapsmann og AI-forsker, foreslår et alternativ til Turing-testen i en artikkel i The New Yorker. Marcus-testen har fokus på å måle en AI-modells evne til kognitiv forståelse. Testen er enkel: AI-en vurderes ut ifra dens evne til å tolke YouTube-videoer og TV-programmer uten undertekster eller ledsagende tekst. For å bestå Marcus-testen, må AI-en vise at den forstår sarkasme, humor, ironi og den overordnede narrativen, og kunne forklare dette som et menneske ville gjort.

Selv om GPT-4 kan beskrive bilder, finnes det per i dag ingen AI-modeller som fullt ut kan tolke videoer på en menneskelig måte. Selvkjørende biler nærmer seg, men de er ikke helt selvstendige og er avhengig av sensorer for å tolke omgivelsene.

2. Den Visuelle Turing-testen

En forskningsartikkel publisert i PNAS, presenterer den visuelle Turing-testen som en metode for å identifisere om man kommuniserer med et menneske eller en AI ved hjelp av bildespørsmål. Denne testen fungerer som den klassiske Turing-testen, men istedenfor å svare på spørsmål skriftlig, får deltakerne vist bilder og blir bedt om å svare på enkle spørsmål, mens de tenker som et menneske. Den visuelle Turing-testen skiller seg fra CAPTCHA, da alle svar er gyldige, men for å bestå testen, må AI-en behandle bildene på samme måte som et menneske.

Videre, hvis man viser både AI og et menneske flere bilder side om side og ber dem om å identifisere de mest realistiske bildene, vil mennesket sannsynligvis være i stand til å bestå testen grunnet sin kognitive evne. AI-modeller sliter med å skille bilder som ikke er tatt i en virkelig setting. Det er faktisk denne mangelen som gjør det mulig for oss å gjenkjenne AI-genererte bilder basert på anomalier som ikke gir mening i en virkelighetsnær kontekst.

3. Lovelace 2.0-testen

Teorien om at en datamaskin ikke kan skape originale ideer utover dens programmering, ble først presentert av Ada Lovelace før Turing-testen. Alan Turing argumenterte derimot mot denne ideen og mente at AI kan overgå menneskelige forventninger. Først i 2001 ble retningslinjene for Lovelace-testen utviklet, med mål om å skille mellom AI og mennesker. Disse retningslinjene ble senere oppdatert i 2014 i henhold til thekurzweilibrary.

For at en AI skal bestå Lovelace-testen, må den bevise at den kan generere originale ideer som ikke er basert på dens opprinnelige trening. Nåværende AI-modeller som GPT-4, mangler evnen til å utvikle nye oppfinnelser som ligger utenfor vår eksisterende kunnskap. Imidlertid er det forventet at en generell kunstig intelligens i fremtiden vil ha denne evnen, og vil dermed være i stand til å bestå Lovelace-testen.

4. Omvendt Turing-test

Hva med en Turing-test i motsatt retning? Istedenfor å avgjøre om man snakker med et menneske, er målet med den omvendte Turing-testen å lure AI-en til å tro at du er en AI. For å gjennomføre denne testen, trenger du også en annen AI-modell som svarer på de samme spørsmålene, ved hjelp av tekst.

For eksempel, hvis ChatGPT-4 er observatøren, kan man registrere Google Bard og et menneske som deltakere. Hvis AI-modellen klarer å identifisere den menneskelige deltakeren basert på svarene, har den bestått testen.

En svakhet ved den omvendte Turing-testen er at den ikke er pålitelig, særlig med tanke på at AI noen ganger har problemer med å skille mellom AI-generert og menneskeskrevet innhold.

5. AI-Klassifiseringsrammeverk

Ifølge AI-klassifiseringsrammeverket utviklet av Chris Saad, er Turing-testen kun én metode for å vurdere om man interagerer med en AI. Mer konkret er rammeverket basert på teorien om multippel intelligens, som krever at menneskelig intelligens oppfyller minst åtte forskjellige kriterier: musikalsk rytme, logisk-matematisk intelligens, visuell identifikasjon, emosjonell intelligens, selvrefleksjon, eksistensiell tenkeevne og kroppsbevissthet.

Siden AI evalueres ut ifra disse åtte parameterne, er det usannsynlig at den vil fremstå som menneskelig, selv om den scorer høyere enn gjennomsnittet på visse områder. For eksempel kan ChatGPT løse matematiske problemer, beskrive bilder og kommunisere på et naturlig språk, men den vil mislykkes i de fleste av de andre kategoriene definert i AI-klassifiseringsrammeverket.

Turing-testen er Ikke Konklusiv

Turing-testen var opprinnelig ment å være et tankeeksperiment, snarere enn en endelig test for å skille mennesker fra AI. Ved sin opprinnelse, var den et sentralt referansepunkt for å vurdere maskinintelligens.

Med den seneste utviklingen innen AI-modeller som har kapasitet til å interagere med tale, visuelle og auditive inntrykk, viser Turing-testen sine begrensninger, ettersom den fokuserer på tekstbasert kommunikasjon. Den beste løsningen er å introdusere de nevnte alternativene til Turing-testen, som bedre kan skille AI-modeller fra mennesker.