Nettskraping med ChatGPT: Guide til plugins og kodetolk

En utførlig veiledning i hvordan man utfører nettskraping ved hjelp av ChatGPT Code Interpreter og tilhørende plugins.

Dersom du ikke er interessert i å skape noe fra bunnen av, er det stor sannsynlighet for at du trenger bakgrunnsinformasjon før du starter. Kanskje du også ønsker å undersøke hva konkurrentene gjør for å få verdifulle innspill. Det finnes utallige årsaker til at noen er interessert i innholdet på en spesifikk nettside.

Nettskraping er prosessen som brukes for slike formål.

Det finnes flere metoder for å gjøre dette. Du kan abonnere på avanserte verktøy for profesjonell skraping av omfattende nettsteder. Alternativt kan du kreve et spesifikt oppsett for lokal behandling.

Uansett er disse tilnærmingene kostbare, tidkrevende og kjedelige for nybegynnere, spesielt når man bare skal skrape noen få nettsider.

Oversikt over ChatGPT for nettskraping

Jeg antar at du allerede kjenner til ChatGPT, er det ikke slik?

I korte trekk er ChatGPT en generativ AI som responderer på en menneskelig måte. Du får et chat-grensesnitt hvor du kan be den om å utføre diverse oppgaver, som for eksempel å svare på spørsmål om historiske hendelser, skrive tekster, oppsummere, oversette, kode og så videre.

ChatGPT gir svar i tekstformat. Det finnes likevel ChatGPT-plugins som utvider funksjonaliteten betydelig. Vi skal bruke en slik plugin. I tillegg skal vi benytte kodetolken for å skrape nettsider med komplekse strukturer eller aktive anti-skrapingsprotokoller.

Det er viktig å huske at ChatGPT finnes i både gratis og betalte versjoner. For å kunne bruke nettskraper-pluginen eller kodetolken, trenger du det betalte abonnementet (som for øyeblikket koster 20 dollar i måneden).

I de kommende avsnittene vil jeg demonstrere prosessen trinn for trinn.

Ansvarsfraskrivelse: Før du starter, må du forsikre deg om at nettsiden du ønsker å skrape tillater dette. Hvis ikke, bør du kontakte administratoren og forhøre deg om tillatelse for å unngå juridiske problemer.

Nettskraping ved hjelp av ChatGPT-plugin

Logg deg inn på din OpenAI-konto, hold markøren over GPT-4 (den nåværende betalte versjonen) og klikk på «Plugins».

Klikk deretter på «Ingen plugins aktivert», bla ned og velg «Plugin Store».

Dersom du allerede har en aktiv plugin, vil du se et plugin-ikon i stedet for «Ingen plugins aktivert». Klikk i så fall på ikonet for å åpne menyen og velg «Plugin-butikken» nederst.

Dette vil åpne «Plugin-butikken». Søk etter «Scraper» og klikk «Installer».

Velg denne plugin-en i ChatGPT-grensesnittet.

Når dette er gjort, må du gi ChatGPT en beskjed, og inkludere nettadressen til siden og innholdet du ønsker å skrape.

Jeg har testet dette på et par nettsteder. Se eksemplene nedenfor.

Skrape en publikasjon

Vi er en teknologifokusert publikasjon, og jeg har valgt vår egen hjemmeside, tipsbilk.net.com/, for dette eksemplet.

Her er ledeteksten:

sjekk denne nettsiden: https://tipsbilk.net.com/ og lag en tabell som viser artikkelens tittel, forfatter, publiseringsdato og utdrag for de 10 mest populære artiklene.

Du kan også be om å konvertere dataene til CSV-format, lime dem inn i en tekstfil med .csv-utvidelse og åpne den i et regnearkprogram som MS Excel.

Skrape en tilbuds- eller kupongside

I tilbudsdelen på tipsbilk.net har vi håndplukket noen tilbud på populære teknologiprodukter. Hva med å hente ut hvert tilbud i tabellformat?

Lag en liste over tilbud fra denne nettsiden: https://tipsbilk.net.com/deals/. Presenter resultatet i en tabell.

Skrape Wikipedia

Oppsummer i tabellformat de siste nyhetene fra "in the news"-delen på denne Wikipedia-siden: https://en.wikipedia.org/wiki/Main_Page

Skraping av nettbutikker

Til slutt prøvde jeg å skrape Amazon.com etter bærbare datamaskiner ved hjelp av noen filtre og ga nettadressen til ChatGPT. Dette er resultatet:

Problemet er at dette ikke er en enkel oppgave. Du vil støte på mange slike tilfeller hvor nettsider har anti-skrapingstiltak. I slike situasjoner må du finne et alternativ for å få tak i dataene, dersom det ikke er et alternativ å abonnere på bransjestandard-skrapere.

De følgende avsnittene beskriver en slik løsning.

Nettskraping ved hjelp av ChatGPT-kodetolk

Code Interpreter er en ny ChatGPT-motor som er utviklet for å håndtere programmeringsrelaterte oppgaver. Mens standardmotoren hovedsakelig gir tekstbaserte svar, kan Code Interpreter hjelpe med å visualisere data, analysere, feilsøke og kjøre kode, integrere med programvarebinærfiler og utføre mange andre programmeringsrelaterte oppgaver.

I denne prosessen skal vi laste ned HTML-kildekoden, laste den opp til ChatGPT Code Interpreter og fortsette med skrapingen.

Jeg har valgt denne siden for datainnsamling:

Vi starter med å lagre nettsiden som HTML. Gå til nettsiden og trykk Ctrl+S.

Nå har vi filen vi skal skrape. La oss formulere ledeteksten.

I tillegg til tekstmeldingen, ser du at jeg har gitt eksempler på elementer for å fremskynde skrapingen. Siden Amazons nettsidestrukturer er komplekse, kan skrapingsforsøket mislykkes uten disse prøvene, eller gi dårlige resultater.

Det er enkelt å finne disse elementene. Høyreklikk et vilkårlig sted på siden og velg «Inspiser» fra menyen.

Klikk først på det øverste ikonet (merket som 1). Dette vil fremheve detaljene mens du velger elementer fra siden. Deretter velger du beholder-elementet for et spesifikt produkt.

Sørg for å velge den innerste beholderen. Du kan bevege musepekeren rundt, og den vil fortsette å fremheve. Når du har funnet det siste skallet som dekker den aktuelle blokken, kan du klikke og gå til høyre for å kopiere elementets div-klasse.

På samme måte velger du eksempler for andre elementer.

Til slutt laster du opp HTML-filen og ledeteksten som ligner på dette:

undersøk denne HTML-filen og hent ut titlene på bærbare datamaskiner, priser og vurderinger. Presenter resultatet i en tabell i dette chat-grensesnittet, og gi også resultatene i en CSV-fil som kan lastes ned.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
eksempel på tittelelement: span class="a-size-medium a-color-base a-text-normal"
eksempel på priselement: span class="a-price-whole"
eksempel på vurderingselement: span class="a-size-base puis-bold-weight-text"

Dette vil ta litt tid mens ChatGPT Code Interpreter gjør jobben sin. Du vil se noen detaljer, mens alle data vil være i den vedlagte CSV-filen.

Du kan se at tabellen inneholder noen oppføringer som ikke er til stede på den originale nettsiden, spesielt i starten. I slike tilfeller må du dobbeltsjekke og rense dataene for eventuell redundans.

Hvis det er noen feil, kan du be ChatGPT om å generere en ren CSV-fil.

Avsluttende tanker

ChatGPT kan utføre mange oppgaver, og grunnleggende nettskraping er en av dem. Det er kanskje ikke ideelt for noen som skraper hundrevis av sider. Likevel vil det hjelpe deg i gang, og det er perfekt for kortere skrapeøkter.

I denne veiledningen har vi brukt en av ChatGPTs skrapeplugins og Code Interpreter. Pluginen fungerer på mange standard nettsider, mens den andre metoden er bedre egnet for tilpassede nettsidestrukturer eller sider med dynamiske elementer (uendelig scrolling, «les mer»-knapper, etc.).

Og for å gjenta: Sjekk nettsidens vilkår før du starter med skraping.

PS: Sjekk ut disse skybaserte skrapeløsningene og vårt eget tipsbilk.net-skrapings-API.