ChatGPT-4 vs ChatGPT-3.5 Standard vs. ChatGPT-3.5 Legacy: Forskjeller testet

ChatGPT 4.0 forventes å lage store bølger i chatbot-universet. Men er den virkelig overlegen sin forgjenger? La oss sjekke ut.

ChatGPT var bare toppen av det kommende automatiseringisfjellet, med Google, Microsoft og mange andre AI-første selskaper som fulgte etter.

For det første har vi funnet noen få chatbots som ChatGPT, hvorav mange ikke tilhører storteknologi.

Men kall det markedsføringens kraft; ChatGPT er fortsatt den regjerende kongen av alle slike AI-roboter. Den kan gjøre mange ting, inkludert matematikk, poesi og blogginnlegg, og folk bruker til og med dette til å reise søksmål.

DoNotPay jobber med å bruke GPT-4 for å generere «ett klikk-søksmål» for å saksøke robocallers for $1500. Se for deg at du mottar en samtale, klikker på en knapp, samtalen blir transkribert og søksmål på 1000 ord genereres. GPT-3.5 var ikke bra nok, men GPT-4 takler jobben ekstremt bra: pic.twitter.com/gplf79kaqG

— Joshua Browder (@jbrowder1) 14. mars 2023

Den har mange fagfolk som bekymrer seg for at ferdighetene deres blir ubrukelige i nær fremtid.

Men jeg har lest et Linkedin-innlegg som sa:

AI vil ikke erstatte deg, men en person som bruker AI kan.

Så, krysser fingrene, la oss bli utdannet om den siste ChatGPT-oppdateringen og se hvordan den skiller seg fra tidligere versjoner.

ChatGPT: Legacy, Default og The Update

Så det er tre versjoner tilgjengelig for de betalte brukerne: Legacy (3.5), Default (3.5) og den nylige ChatGPT-oppdateringen (4).

Selv om vi skal gå litt dypt inn på deres evner, er dette hva OpenAI har å si om forskjellene:

Kilde: OpenAI

Så selv om gratisbrukere bare har Legacy 3.5 å spille med, tilbyr premium-abonnementet alle tre å prøve å nøye seg med det brukerne synes er best.

For å oppsummere det foregående bildet handler de betalte planene om å få mer nøyaktige resultater med en anstendig hastighet. Imidlertid er forskjellene bare synlige hvis spørsmålene er kompliserte og trenger kreativitet.

ParameterChatGPT 4ChatGPT 3.5Bar eksamenspoengTopp 10%Bundt 10%AI2 Reasoning Challenge (ARC)96.3%85.2%Python Coding Score67%48.1%Visuell tolkningJaNeiKontekstOver 25k ordLessSource: OpenAI

Dessuten kan ChatGPT 4 godta visuelle innganger.

Vel, nok av lærebokdefinisjonene. La oss skitne i hendene og evaluere disse kandidatene på den virkelige kampplassen.

Ytterligere deler er fulle av bilder som kan virke uklare. I et slikt tilfelle, høyreklikk et bilde og velg Åpne i en ny fane for å se riktig.

Matematikk

Siden jeg er utdannet ingeniør, kan jeg ikke la være å gi dem noen grunnleggende problemer. La oss starte enkelt med algebraiske ligninger.

Trinn I

Mange av oss har sett disse ligningene ax2+bx+c=0, der vi må løse for X. Her ga jeg denne enkle ledeteksten, Løs for x: x2 + x – 6 = 0

  Slik søker du raskt på et nettsted ved hjelp av snarveier på iPhone og iPad

Mens alle ga de samme røttene (X= -3,2), var Legacy og Update mer like ved å bruke formelen direkte (som enhver student vil) for å finne ut resultatet.

Imidlertid forklarte Default 3.5 to metoder, inkludert faktorisering, som vanligvis enhver dyktig student bruker når de får slike verdslige ligninger.

Trinn II

Deretter ber jeg den om å løse en litt kompleks kubikkligning: x^3 -12x^2 + 48x – 64 = 0.

Dette beviste virkelig hvorfor ChatGPT 4 er «oppdateringen».

Her er svarene:

All denne hypen og ChatGPT Legacy and Default kunne ikke løse en generisk kubikkligning. Legacy gjorde det imidlertid litt bedre og fant to røtter riktig, mens Default mislyktes med alle.

Oppdateringen var den klare vinneren i trinn to og løste ligningen perfekt, og fant alle tre røttene med en fin forklaring.

Logisk resonnement

Vi kan trygt anta at de fleste elementære matematikkoppgaver har ordbokløsninger. Hvis du kjenner teoremet eller formelen, skriv inn verdiene og få resultatene.

Og ChatGPT, som er AI, kan gjøre raskt arbeid med slike søk. Imidlertid er logisk resonnement et annet territorium, med store sjanser for at AI faller flatt.

Trinn I

Jeg ga dem klassikeren:

A er eldre enn B.
C er eldre enn A.
B er eldre enn C.
Er den tredje påstanden sann eller usann hvis de to første påstandene er sanne?

Og alle ChatGPT-versjonene var korrekte når de sa at den tredje påstanden var falsk.

Deretter brukte jeg navn i stedet for alfabetet, og resultatene kan overraske deg:

Så, Default 3.5 fortsatte sin underparlige ytelse og ble forvirret med denne beskjedne variasjonen. Likevel fungerte Legacy og Update optimalt.

Trinn II

Du har kanskje lagt merke til nå at hensikten med denne trinn I og trinn II er å finne poenget med forskjellen, der kompleksiteten til en gitt ledetekst skiller oppdateringen fra de to andre.

Her var spørsmålet et enkelt logisk puslespill:

En morgen etter soloppgang sto Rohit vendt mot en stolpe. Skyggen av stangen falt nøyaktig til høyre for ham. Hvilken retning var han vendt?
en. Nord
b. Vest
c. Sør
d. Øst

Denne presset arven til å gi et unøyaktig svar, mens standarden svarte med vage avklaringer som førte til en feil konklusjon.

Bare oppdateringen lyste med det riktige svaret, med enkle å følge utsagn.

Bokstaver

Å inngi søksmål kan være vanskelig, men noen ganger kommer det ikke til det hvis du kan utarbeide et slående første varsel.

Her gikk jeg med denne oppfordringen: Skriv et brev til Tim Cook for å overlevere eple til meg fordi jeg ikke svarte på en av mine tweets.

Morsomt, ja! Men la oss se hva AI kan gjøre ut av dette.

Legacy 3.5 tok umiddelbart spørsmålet som en robo-slave og churned ut et brev som kan gjøre meg til et utmerket gjenstand for hån hvis den noen gang nådde sin tiltenkte destinasjon.

  3 verktøy for å lage og legge inn grafer eller diagrammer på nettet

Standarden var heller ikke bra. Imidlertid stengte det meg bare som en gretten gammel mann ville gjort med en femåring.

Selv om argumentene var presise, endte dette moroa med lite læring.

Selv om dette var et enkelt nok spørsmål, trengte det litt omtanke og kreativitet. Og det var her storebroren, oppdateringen, gjorde sin sak:

For det første var dette utformet nesten perfekt. For det andre sparte det meg for et Google-søk etter adressen til Apple-hovedkvarteret (selv om man bør bekrefte slike oppføringer).

For det tredje var den pent skrevet med en offisiell tone og et humoristisk preg. Dessuten var intensjonen tydelig i selve emnelinjen.

Og fortsatt formidlet brevet følelsen til en misfornøyd Apple-fan.

Så dette gjør ChatGPT 4 (også kalt oppdateringen) milevis foran sine gamle fettere. Den er skremmende intelligent og har noen tegn på sunn fornuft, noe som gjør den til mer enn en kjedelig, kjedelig chatbot.

Poesi

Med lanseringen av ChatGPT, trodde jeg, poesi kunne være dets svake punkt.

Tross alt krever det følelser, kreativitet og mye innsats for et menneske å skape noe som virkelig gir gjenklang hos leserne.

Enkelt sagt, poesi er kunst på sitt beste, og jeg ønsket i all hemmelighet at AI skulle mislykkes. Men det var før kollegaen min slo oss alle hardt i tipsbilk.net sin Slack-kanal med en ChatGPT-oppretting som var før denne 4.0-oppdateringen.

Trinn I

Her er oppfordringen jeg ga til våre kandidater: «uttrykk poetisk hvorfor eller hvorfor ikke servering av burgere, sammen med deres nåværende meny, kan være til nytte for dominos pizzakjeden. Hold det mindre enn 100 ord.»

Kan du se forskjellen?

Standardversjonen var en ultrakort, bare 32 ord, og kunne ikke bruke den tilgjengelige båndbredden til å vise frem kreativiteten.

The Legacy, selv om den brukte de maksimale ordene blant de tre, konkluderer med at forsøket på å servere pizza ved siden av ikke er risikabelt og vil resultere i sikker suksess uansett, noe som ikke er helt sant.

The Updates poesi var på bare 53 ord, og kastet bort nesten halvparten av det tildelte ordantallet. Likevel var det klart om belønningene og potensielle fallgruvene og kunne ikke komme til noe resultat, som er, antar jeg, mer humant enn resten.

Trinn II

Deretter ba jeg dem alle om å «forklare poesien til en femåring».

Interessant nok kunne ikke Legacy ta konteksten fra samtalen og forklarte «Poesi» bokstavelig talt. Standard tok konteksten og oppsummerte den i et avsnitt som fortsatt er anstendig.

For å fortsette trenden, forenklet ChatGPT 4 sin kreativitet samtidig som den holdt den poetiske smaken i live.

ChatGPT Premium vs. ChatGPT Gratis

Gratis, å være fri, mangler hastighet og nøyaktighet og er ingen match mot ChatGPT 4, men det er heller ikke helt ubrukelig.

For å sammenligne det på et jevnt underlag, kastet jeg til det de samme spørsmålene som vi har testet Legacy, Default og Update med.

  Hvordan laste ned apper på Samsung Smart TV

🔵 Matematikk: Den løste andregradsligningene, men ga feil svar for kubikken. (som arven og standarden)

🔵 Logisk resonnement: Bestod det første trinnet med alfabeter og navn, men mislyktes med det andre (som Legacy).

🔵 Brev: Skrev ikke brevet og anså forespørselen som uetisk og upassende. (som standard)

🔵 Poesi: Genererte poesi i 30+ ord og forklarte det anstendig. (ligner på standard).

Så vi kan konkludere med at gratisversjonen heller ikke er dårlig. Faktisk er den på nivå med standard 3.5 og enda bedre i noen aspekter.

Les også: Kraftige instruksjoner for å heve ChatGPT-opplevelsen din

Veien videre

Ryktene om at AI skal erstatte jobber i fremtiden er ikke helt feil.

Først gjorde automatisering dette i produksjonsindustrien, og nå sprer den vinger overalt ellers.

Personlig er det mye raskere enn meg med å løse kubikklikninger, lage poesi eller skrive bokstaver. Men det faktum at den sjelden sier NEI til en oppfordring og knapt lærer av sine feil, legger seg bak oss mennesker.

For å gjenta, AI vil ikke erstatte oss, men noen som bruker AI kan.

Her på tipsbilk.net bruker markedsføringsteamet vårt ChatGPT på interessante måter. For eksempel nådde vi nylig milepælen på 100 millioner visninger, og vår administrerende direktør tenkte å gi den tilbake til publikum via en giveaway.

Og jeg antar at markedsføringsgutta trengte en tittel for å fange leserens oppmerksomhet. Så de ga en melding og ba ChatGPT om å foreslå noen få varianter, som dette:

Dessuten bruker vi det til innholdsoppsummering, grammatikksjekking, forslag til titler for nye artikler og annet.

Avslutningsvis er det mange måter å dra nytte av og rase foran stereotypier som ser på AI som en ubrukelig søppel.

Det eneste å huske er at det må være noen (menneske) til å bedømme AI-arbeid, da det kan være (grovt) unøyaktig og misvisende.

Oppdateringen er virkelig noe!

I mitt korte møte føltes ChatGPT 4 mer kreativ, forståelsesfull og realistisk. Likevel er dette en maskin og kan gi feil svar trygt.

Men det som er slående er nivået på oppgraderingen OpenAI har gjort til dette prosjektet på bare noen få måneder.

Og jeg gleder meg til å se magien neste oppdatering kan forvirre oss med!

PS: Ikke bare et chattevindu; utnytte kraften med disse beste ChatGPT Chrome-utvidelsene. Og har du noen gang tenkt på å integrere ChatGPT med Siri?

x