Stopp ChatGPT fra å skrape nettstedet ditt!

0 Shares

Selv om mange brukere setter pris på ChatGPTs omfattende informasjonsgrunnlag, er situasjonen ofte annerledes for de som eier nettsteder.

OpenAIs ChatGPT benytter seg av crawlere for å hente data fra nettet. Som nettstedseier kan du imidlertid forhindre at disse crawlerne får tilgang til ditt nettsted ved å iverksette visse tiltak.

Hvordan fungerer OpenAI sin crawling?

En webcrawler, også omtalt som en edderkopp eller søkemotorbot, er et automatisert verktøy som systematisk gjennomsøker internett etter informasjon. Denne informasjonen organiseres deretter på en måte som gjør den lett tilgjengelig for søkemotorer.

Webcrawlere indekserer alle relevante URL-er og fokuserer gjerne på nettsteder som er mer relevante for dine søk. La oss si at du for eksempel søker etter en spesifikk Windows-feil. Da vil søkemotorens webcrawler prioritere å skanne URL-er fra nettsteder som anses som autoritative innenfor feltet Windows-feil.

OpenAI sin webcrawler heter GPTBot. Ifølge OpenAIs dokumentasjon kan det å gi GPTBot tilgang til nettstedet ditt bidra til å forbedre AI-modellens pålitelighet og nøyaktighet, og potensielt utvide dens evner.

Hvordan hindre OpenAI fra å crawle nettstedet ditt

I likhet med andre webcrawlere kan GPTBot blokkeres fra å få tilgang til nettstedet ditt ved å endre nettstedets robots.txt-protokoll, også kjent som robotekskluderingsprotokollen. Denne .txt-filen finnes på nettstedets server og styrer hvordan webcrawlere og andre automatiserte programmer interagerer med nettstedet ditt.

Her er en kort oversikt over hva robots.txt-filen kan gjøre:

Den kan fullstendig nekte GPTBot tilgang til nettstedet.
Den kan hindre GPTBot i å få tilgang til spesifikke sider på nettstedet.
Den kan instruere GPTBot om hvilke lenker den kan følge, og hvilke den skal ignorere.

Slik kontrollerer du hva GPTBot kan gjøre på nettstedet ditt:

Blokker GPTBot fullstendig fra å få tilgang

Opprett eller finn robots.txt-filen på din server og åpne den i et tekstredigeringsprogram.
Legg til følgende kode for å blokkere GPTBot:

 User-agent: GPTBot
Disallow: /

Blokker kun enkelte sider fra å bli crawlet av GPTBot

Opprett eller finn robots.txt-filen og åpne den i et tekstredigeringsprogram.
Legg til følgende kode for å spesifisere hvilke sider GPTBot skal ha tilgang til:

 User-agent: GPTBot
Allow: /mappe-1/
Disallow: /mappe-2/

Merk at endringer i robots.txt-filen ikke har tilbakevirkende kraft. Informasjon GPTBot allerede har samlet inn, vil ikke kunne slettes.

OpenAI gir nettstedeiere muligheten til å velge bort crawling

Helt siden crawlere begynte å bli brukt til å trene AI-modeller, har nettstedeiere søkt etter måter å beskytte sine data.

Enkelte er bekymret for at AI-modeller i praksis stjeler deres arbeid og tilskriver nedgang i nettstedbesøk til at brukere nå får informasjonen de trenger uten å besøke nettsidene direkte.

Det er til syvende og sist ditt valg om du ønsker å blokkere AI-chatbots fra å gjennomsøke ditt nettsted.