Hvordan blokkere OpenAIs crawlere fra å skrape nettstedet ditt

Mens brukere elsker ChatGPT for den store mengden informasjon den har for øyeblikket, kan det samme ikke sies om nettstedeiere.

OpenAIs ChatGPT bruker crawlere til å skrape nettsteder, men hvis du er en nettstedseier, og du ikke vil at OpenAIs crawler skal få tilgang til nettstedet ditt, er det noen ting du kan gjøre for å forhindre det.

Hvordan fungerer OpenAI Crawling?

En webcrawler (også kjent som en edderkopp eller en søkemotorbot) er et automatisert program som skanner Internett for informasjon. Den samler deretter informasjonen på en måte som er lett for søkemotoren å få tilgang til den.

  Fiks Orcs Must Die Unchained Runtime Error

Webcrawlere indekserer hver side av hver relevante URL, og fokuserer vanligvis på nettsteder som er mer relevante for søkene dine. La oss for eksempel anta at du googler en bestemt Windows-feil. Webcrawleren i søkemotoren din vil skanne alle nettadressene fra nettsteder som den anser som mer autoritative når det gjelder Windows-feil.

OpenAIs webcrawler heter GPTBot, og iht OpenAIs dokumentasjonå gi GPTBot-tilgang til nettstedet ditt kan bidra til å trene opp AI-modellen til å bli tryggere og mer nøyaktig, og det kan til og med bidra til å utvide AI-modellens muligheter.

Hvordan forhindre at OpenAI gjennomsøker nettstedet ditt

Som de fleste andre webcrawlere, kan GPTBot blokkeres fra å få tilgang til nettstedet ditt ved å endre nettstedets robots.txt-protokoll (også kjent som robotekskluderingsprotokollen). Denne .txt-filen ligger på nettstedets server, og den kontrollerer hvordan webcrawlere og andre automatiserte programmer oppfører seg på nettstedet ditt.

  Slik administrerer du passordpreferansene til iTunes Store og App Store

Her er en kort liste over hva robot.txt-filen kan gjøre:

  • Det kan fullstendig blokkere GPTBot fra å få tilgang til nettstedet.
  • Den kan blokkere bare visse sider fra en URL fra å bli åpnet av GPTBot.
  • Den kan fortelle GPTBot hvilke koblinger den kan følge, og hvilke den ikke kan.

Slik kontrollerer du hva GPTBot kan gjøre på nettstedet ditt:

Blokker GPTBot fullstendig fra å få tilgang til nettstedet ditt

  • Sett opp robot.txt-filen, og rediger den med et hvilket som helst tekstredigeringsverktøy.
  • Legg til GPTBot i nettstedets robots.txt som følger:
  •  User-agent: GPTBot
    Disallow: /

    Blokker bare enkelte sider fra å bli åpnet av GPTBot

  • Sett opp robot.txt-filen, og rediger den deretter med ditt foretrukne tekstredigeringsverktøy.
  • Legg til GPTBot i nettstedets robots.txt som følger:
  •  User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    Vær imidlertid oppmerksom på at endring av robot.txt-filen ikke er en tilbakevirkende løsning, og all informasjon som GPTBot allerede har samlet inn fra nettstedet ditt, vil ikke kunne gjenopprettes.

      11 beste AWS-overvåkingsverktøy i 2022

    OpenAI lar nettstedeiere velge bort crawling

    Helt siden crawlere har blitt brukt til å trene AI-modeller, har nettstedeiere lett etter måter å holde dataene sine private.

    Noen frykter at AI-modeller i bunn og grunn stjeler arbeidet deres, og tilskriver til og med færre nettstedbesøk det faktum at brukerne nå får informasjonen deres uten å måtte besøke nettsidene deres.

    Alt i alt, om du vil blokkere AI chatbots fra å skanne nettsidene dine, er helt ditt valg.