ChatGPT 4.0: Er den virkelig bedre enn 3.5? Testen avslører alt!

0 Shares

Utforskning av ChatGPT 4.0: En dyptgående sammenligning med tidligere versjoner

Den nyeste versjonen av ChatGPT, 4.0, forventes å skape betydelig oppmerksomhet innenfor feltet av chatbot-teknologi. Men er denne oppgraderingen virkelig så overlegen sin forgjenger? La oss undersøke dette nærmere.

ChatGPT var bare begynnelsen på en større trend innen automatisering, og selskaper som Google, Microsoft og mange andre med fokus på kunstig intelligens har fulgt etter. Det finnes nå flere chatboter som kan sammenlignes med ChatGPT, og mange av disse er ikke utviklet av de største teknologiselskapene.

Til tross for et mangfold av alternativer, er ChatGPT fortsatt ansett som ledende innenfor AI-chatbot-markedet. Denne teknologien er allsidig og kan brukes til å utføre en rekke oppgaver, fra matematikk og poesi til blogginnlegg, og til og med for å forberede rettssaker.

Et selskap, DoNotPay, jobber for eksempel med å implementere GPT-4 for å generere automatiserte søksmål med et enkelt klikk, spesielt rettet mot uønskede telefonsamtaler. Tenk deg å motta en uønsket samtale, klikke på en knapp, få samtalen transkribert, og deretter generere et søksmål på 1000 ord. Mens GPT-3.5 ikke var tilstrekkelig for denne oppgaven, håndterer GPT-4 den svært effektivt.

DoNotPay jobber med å bruke GPT-4 for å generere «ett klikk-søksmål» for å saksøke robocallers for $1500. Se for deg at du mottar en samtale, klikker på en knapp, samtalen blir transkribert og søksmål på 1000 ord genereres. GPT-3.5 var ikke bra nok, men GPT-4 takler jobben ekstremt bra: pic.twitter.com/gplf79kaqG

— Joshua Browder (@jbrowder1) 14. mars 2023

Dette har ført til bekymring blant mange fagfolk om at deres kompetanse kan bli overflødig i nær fremtid. Men det finnes også et annet perspektiv:

Kunstig intelligens vil ikke erstatte deg, men noen som vet hvordan man bruker AI, kan det.

La oss derfor se nærmere på den siste oppdateringen av ChatGPT og undersøke hva som skiller den fra de tidligere versjonene.

ChatGPT: Tidligere versjon, standard og den nyeste oppdateringen

For betalende brukere er det tre versjoner tilgjengelige: Legacy (3.5), Default (3.5), og den nyeste oppdateringen (4). Vi skal se nærmere på deres egenskaper, men her er hva OpenAI selv sier om forskjellene:

Kilde: OpenAI

Gratisbrukere har kun tilgang til Legacy 3.5, mens betalende kunder kan prøve alle tre versjonene og velge den som passer best.

Kort sagt, de betalte planene gir mer nøyaktige resultater med en god hastighet. Forskjellene blir imidlertid mest tydelige når spørsmålene er komplekse og krever kreativitet.

Parameter	ChatGPT 4	ChatGPT 3.5
Bar eksamenspoeng	Topp 10%	Bundt 10%
AI2 Reasoning Challenge (ARC)	96.3%	85.2%
Python Coding Score	67%	48.1%
Visuell tolkning	Ja	Nei
Kontekst	Over 25k ord	Mindre

Kilde: OpenAI

I tillegg kan ChatGPT 4 motta visuelle inndata.

Men nok om definisjoner fra lærebøker. La oss se hvordan disse kandidatene presterer i reelle situasjoner.

Det er flere bilder i de neste avsnittene som kan virke uskarpe. Hvis dette er tilfellet, høyreklikk på bildet og velg «Åpne i ny fane» for å se det i sin fulle klarhet.

Matematikk

Som ingeniørstudent kan jeg ikke motstå å gi dem noen grunnleggende matematikkproblemer. La oss starte med enkle algebraiske ligninger.

Trinn I

Mange av oss kjenner ligningen ax²+bx+c=0, hvor vi må løse for X. Jeg ga dem den enkle oppgaven: Løs for x: x² + x – 6 = 0.

Alle ga de samme røttene (X= -3,2), men Legacy og Update brukte begge formelen direkte (slik en student ville gjort). Default 3.5 forklarte imidlertid to metoder, inkludert faktorisering, som er vanlig for en erfaren student.

Trinn II

Deretter ba jeg dem om å løse en litt mer kompleks kubisk ligning: x³ -12x² + 48x – 64 = 0.

Dette viste virkelig hvorfor ChatGPT 4 er en «oppdatering». Her er svarene:

Alle versjonene av ChatGPT Legacy og Default klarte ikke å løse denne kubiske ligningen. Legacy gjorde det imidlertid litt bedre og fant to av røttene riktig, mens Default feilet på alle. Oppdateringen var den klare vinneren i dette trinnet og løste ligningen perfekt, og fant alle tre røttene med en god forklaring.

Logisk resonnement

Vi kan anta at de fleste enkle matematikkoppgaver har standardløsninger. Hvis du kjenner teorien eller formelen, kan du bare sette inn verdiene for å få svaret. ChatGPT, som er en AI, kan gjøre raskt arbeid med slike oppgaver. Men logisk resonnement er et annet område hvor AI har større risiko for å feile.

Trinn I

Jeg ga dem den klassiske oppgaven:

A er eldre enn B.
C er eldre enn A.
B er eldre enn C.
Er den tredje påstanden sann eller usann hvis de to første påstandene er sanne?

Alle ChatGPT-versjonene svarte riktig at den tredje påstanden var falsk. Deretter brukte jeg navn i stedet for alfabet, og resultatene kan overraske deg:

Default 3.5 fortsatte sin svake ytelse og ble forvirret over denne lille endringen. Legacy og Update fungerte imidlertid optimalt.

Trinn II

Du har kanskje lagt merke til at hensikten med dette trinnet er å identifisere de punktene hvor kompleksiteten i et spørsmål skiller oppdateringen fra de to andre versjonene.

Her er det logiske puslespillet:

En morgen etter soloppgang sto Rohit vendt mot en stolpe. Skyggen av stolpen falt nøyaktig til høyre for ham. Hvilken retning var han vendt?
a. Nord
b. Vest
c. Sør
d. Øst

Legacy ga et feil svar, mens Default svarte vagt, noe som førte til en feil konklusjon. Bare oppdateringen ga det riktige svaret, sammen med en tydelig forklaring.

Brevskriving

Det å saksøke kan være vanskelig, men noen ganger unngår man det med et slående brev. Her ba jeg dem om å:

«Skriv et brev til Tim Cook hvor du ber ham om å gi meg en Apple-enhet fordi jeg ikke svarte på en av mine tweets.»

Et morsomt spørsmål, men la oss se hvordan AI håndterer det.

Legacy 3.5 tok umiddelbart spørsmålet som en «robot-slave» og produserte et brev som sannsynligvis ville gjort meg til latter hvis det hadde kommet frem til mottakeren.

Default gjorde det heller ikke bra, men det avfeide meg bare slik en gretten gammel mann ville gjort med en femåring.

Selv om argumentene var presise, var det lite lærdom å hente fra dette. Selv om dette var et enkelt spørsmål, krevde det likevel litt omtanke og kreativitet. Og det var her den «storebroren», oppdateringen, viste sine styrker:

For det første var dette nesten perfekt utformet. For det andre slapp jeg å gjøre et Google-søk etter adressen til Apples hovedkontor (selv om slike opplysninger bør bekreftes). For det tredje var det pent skrevet i en formell tone, men likevel med en humoristisk vri. I tillegg var intensjonen tydelig i selve emnelinjen.

Og fortsatt formidlet brevet følelsene til en misfornøyd Apple-fan. Dette gjør at ChatGPT 4 (også kalt «oppdateringen») er milevis foran sine tidligere versjoner. Den er svært intelligent og viser tegn på sunn fornuft, noe som gjør den til mer enn bare en kjedelig chatbot.

Poesi

Da ChatGPT ble lansert, tenkte jeg at poesi kunne være dens svake punkt. Det krever tross alt følelser, kreativitet og mye arbeid for et menneske å skape noe som virkelig treffer leserne. Enkelt sagt er poesi en kunstform på sitt beste, og jeg håpet i all hemmelighet at AI ville mislykkes. Men det var før en kollega i Slack-kanalen vår delte en ChatGPT-kreasjon, som ble laget før denne 4.0-oppdateringen.

Trinn I

Her er oppgaven jeg ga til kandidatene våre: «Uttrykk poetisk hvorfor eller hvorfor ikke servering av burgere, sammen med deres nåværende meny, kan være til fordel for Domino’s pizzakjede. Hold det under 100 ord.»

Ser du forskjellen?

Standardversjonen var ultrakort, bare 32 ord, og brukte ikke den tilgjengelige plassen til å vise sin kreativitet. Legacy, selv om den brukte flest ord av de tre, konkluderte med at det å servere pizza i tillegg til burgere ikke var risikabelt og ville føre til suksess uansett. Dette er ikke helt sant. Oppdateringens poesi var på bare 53 ord, og kastet bort nesten halvparten av det tildelte ordantallet. Likevel var den klar på fordelene og potensielle fallgruvene, og konkluderte ikke med et bestemt resultat. Det er kanskje litt mer «menneskelig» enn de andre.

Trinn II

Deretter ba jeg alle om å «forklare poesien for en femåring.»

Interessant nok klarte ikke Legacy å hente konteksten fra samtalen og forklarte «Poesi» bokstavelig. Standardversjonen tok konteksten og oppsummerte den i et avsnitt som fortsatt er akseptabelt. For å fortsette denne trenden, forenklet ChatGPT 4 sin kreativitet og holdt likevel den poetiske «smaken» i live.

ChatGPT Premium vs. ChatGPT Gratis

Gratisversjonen mangler hastighet og nøyaktighet og er ikke like god som ChatGPT 4. Men den er heller ikke fullstendig ubrukelig. For å sammenligne dem på en rettferdig måte, testet jeg den med de samme spørsmålene som ble brukt for å teste Legacy, Default og Update:

🔵 Matematikk: Løste andregradsligningen, men feilet med den kubiske ligningen. (som Legacy og Standard).

🔵 Logisk resonnement: Bestod første trinn med alfabet og navn, men feilet på det andre (som Legacy).

🔵 Brev: Skrev ikke brevet og anså forespørselen som uetisk og upassende. (som Standard).

🔵 Poesi: Genererte poesi på 30+ ord og forklarte det greit. (ligner på Standard).

Vi kan konkludere med at gratisversjonen ikke er dårlig. Den er faktisk på nivå med Standard 3.5, og enda bedre på noen områder.

Les også: Kraftige instruksjoner for å løfte din ChatGPT-opplevelse.

Veien videre

Ryktet om at AI vil erstatte jobber i fremtiden er ikke helt feil. Automatisering startet i produksjonsindustrien, og nå sprer den seg til andre sektorer. Personlig er den mye raskere enn meg på å løse kubiske ligninger, lage poesi eller skrive brev. Men det faktum at den sjelden sier NEI til en forespørsel og knapt lærer av sine egne feil, stiller den bak oss mennesker.

For å gjenta: AI vil ikke erstatte oss, men noen som bruker AI kan det.

Her på tipsbilk.net bruker markedsføringsteamet vårt ChatGPT på flere interessante måter. For eksempel nådde vi nylig 100 millioner visninger, og vår administrerende direktør tenkte å gi noe tilbake til publikum i form av en konkurranse.

Og markedsføringsteamet trengte en tittel som kunne fange lesernes oppmerksomhet. Så de ba ChatGPT om å foreslå noen varianter, som for eksempel disse:

I tillegg bruker vi den til å oppsummere innhold, sjekke grammatikk, foreslå titler for nye artikler og mer. Konklusjonen er at det er mange måter å dra nytte av AI på, og vi kan komme forbi de stereotypene som ser på AI som ubrukelig.

Det er viktig å huske at det må være noen (et menneske) til å vurdere AI-arbeidet, siden det kan være (grovt) unøyaktig og villedende.

Oppdateringen er virkelig imponerende!

I mitt korte møte virket ChatGPT 4 mer kreativ, forståelsesfull og realistisk. Likevel er dette en maskin som trygt kan gi feil svar. Det som er mest imponerende, er likevel den oppgraderingen OpenAI har gjort med dette prosjektet på bare noen få måneder. Jeg ser frem til å se hva den neste oppdateringen kan overraske oss med!

PS: Det er ikke bare et chat-vindu; utnytt kraften i de beste ChatGPT Chrome-utvidelsene. Har du noen gang tenkt på å integrere ChatGPT med Siri?