Hvordan bruke ChatGPT for nettskraping ved hjelp av plugins og kodetolk

En detaljert guide til nettskraping ved hjelp av ChatGPT Code Interpreter og dens plugins.

Hvis du ikke er interessert i å lage noe nytt, er sjansen stor for at du trenger noe forutsetningsinformasjon for å begynne. Eller du vil kanskje se inn i konkurransen for verdifulle innspill. I tillegg kan det være utallige grunner til at noen er interessert i innholdet på en bestemt nettside.

Nettskraping er prosessen som tjener slike brukstilfeller.

Og det er noen måter å gå frem på. Det er tunge verktøy du kan abonnere på for profesjonell skraping av store nettsteder. Alternativt kan du kreve et spesifikt oppsett for behandling på stedet.

Uansett er tilnærmingen dyr, tidkrevende og kjedelig for nybegynnere, spesielt for å skrape noen nettsider.

Oversikt over ChatGPT for nettskraping

Det er ikke meningen at jeg skal introdusere ChatGPT for deg. Er jeg det?

Kort sagt, ChatGPT er en generativ AI som reagerer som mennesker. Du får et chat-grensesnitt for å be den om å fullføre ulike oppgaver, for eksempel å spørre om historiske hendelser, skrive essays, oppsummere, oversette, kode osv.

ChatGPT svarer i tekst. Imidlertid er det ChatGPT-plugins som forbedrer mulighetene på mange måter. Og vi kommer til å bruke en slik plugin. I tillegg vil vi bruke kodetolken for å skrape nettsider som har kompliserte nettsidestrukturer eller med aktive anti-skraping-protokoller.

Vær oppmerksom på at ChatGPT har gratis og betalte versjoner. Men du trenger det betalte abonnementet (for øyeblikket $20 i måneden) for å bruke nettskraper-pluginen eller kodetolkmotoren.

  Hvordan få Apex-mynter gratis

I flere avsnitt vil jeg illustrere prosessen trinn for trinn.

Ansvarsfraskrivelse: Før du fortsetter selv, bekreft at emnenettstedet tillater skraping av innholdet. Hvis ikke, kan du kontakte administratoren deres og se om de tillater det for deg for å unngå juridiske problemer.

Nettskraping ved hjelp av ChatGPT-plugin

Logg inn på din OpenAI-kontohold musepekeren over GPT-4 (den nåværende betalte versjonen) og klikk på Plugins.

Klikk deretter Ingen plugins aktivert, bla ned og klikk Plugin Store.

Vær oppmerksom på at i stedet for Ingen plugins aktivert, vil du ha et plugin-ikon hvis et er aktivt. I så fall må du klikke på det ikonet for å åpne rullegardinmenyen og klikke på Plugin-butikken nederst.

Dette vil åpne Plugin-butikken. Søk etter Scraper og trykk Installer.

Velg denne plugin-en i ChatGPT-grensesnittet.

Når dette er valgt, må man spørre ChatGPT, og nevne emne-URLen og innholdet for skraping.

Jeg har gjort dette for noen få nettsteder. Sjekk ut dette.

Skrape en publikasjon

Vi er en teknologifokusert publikasjon, og jeg har valgt vår hjemmeside, tipsbilk.net.com/ for denne illustrasjonen.

Her er ledeteksten:

check this webpage: https://tipsbilk.net.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.

Man kan også be om å konvertere dataene til CSV-format, lime dem inn i en tekstfil med .csv-utvidelse og åpne den i et regnearkprogram som MS Excel.

Skrape en avtale eller kupongside

I delen med tipsbilk.net-tilbud har vi håndplukket noen tilbud på toppteknologiske prosjekter. Hva med å hente hver avtale i tabellformat?

Prepare a list of deals from this webpage: https://tipsbilk.net.com/deals/. present the result in a tabular format.

Skraper Wikipedia

Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page

Skraping av e-handelsbutikker

Til slutt prøvde jeg å skrape Amazon.com for bærbare datamaskiner ved å bruke noen få filtre og mate URL-en til ChatGPT. Dette er hva jeg fikk:

  Hvorfor står e-posten min i kø?

Problemet er at dette ikke er et enkelt tilfelle. Du vil finne mange slike tilfeller der nettsidene har anti-skrapingstiltak. I denne situasjonen må du finne et alternativ for å få dataene hvis det ikke er et alternativ å abonnere på industristandardskrapere.

De følgende avsnittene innebærer en slik løsning.

Nettskraping ved hjelp av ChatGPT-kodetolk

Code Interpreter er en nylig lansert ChatGPT-motor for å imøtekomme programmeringsrelaterte oppgaver. Mens standardmotoren i stor grad er avhengig av tekstsvar, kan Code Interpreter hjelpe med å visualisere utdata, analysere, feilsøke og kjøre kode, integrere med programvarebinærfiler og gjøre mye mer programmeringssentriske ting.

I denne prosessen vil vi laste ned HTML-kilden, laste den opp til ChatGPT Code Interpreter og fortsette med skrapingen.

Jeg har tatt denne siden for utvinning:

Vi begynner med å lagre nettsiden som HTML. For det, gå til nettsiden og trykk Ctrl+S.

Nå har vi filen for skraping. La oss finne ut ledeteksten.

I tillegg til tekstmeldingen, kan du se at jeg har gitt den eksempelelementer for å raskere skrapingen. Siden Amazons nettsidestrukturer er komplekse, uten disse prøvene, kan skrapingsforsøket mislykkes eller ikke resultere i noe.

Og å få disse elementene er ganske enkelt. Høyreklikk hvor som helst på emnesiden og klikk Inspiser fra pop-over-vinduet.

Klikk først på det øverste ikonet (merket som 1). Dette vil fremheve detaljene mens du velger elementer fra siden. Deretter velger du beholderelementet for et bestemt produkt.

  Hva er databasedeling?

Sørg for å velge den innerste beholderen. Du kan sveve langs, og det vil fortsette å fremheve. I det øyeblikket du får det siste skallet som dekker den blokken, kan du klikke og gå over til høyre for å kopiere elementets div-klasse.

På samme måte velger du prøvene for andre elementer.

Til slutt laster du opp HTML-en og ledeteksten som ligner på denne:

check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"

Dette vil ta litt tid mens ChatGPT Code Interpreter gjør jobben sin. Du vil ha noen få detaljer, mens alt vil være i den innebygde CSV-filen.

Du kan observere at tabellen har noen få oppføringer som ikke finnes på den originale nettsiden, spesielt i starten. I slike tilfeller må du dobbeltsjekke og rense dataene for eventuelle redundanser.

Hvis det er noen, kan du be ChatGPT på nytt om å få en ren CSV.

Siste tanker

ChatGPT gjør mange ting, og grunnleggende nettskraping er en av dem. Enig, det er kanskje ikke egnet for noen som skraper hundrevis av sider. Likevel vil den få deg i gang i riktig retning og ideell for en kort skrapeøkt.

I denne guiden har vi brukt en av dens skraping-plugins og Code Interpreter. Mens plugins fungerer på mange standard nettsteder, er den andre metoden for tilpassede nettsidestrukturer eller hvis siden har dynamiske elementer (endeløs rulling, les mer, etc.).

Og for å gjenta, gå gjennom vilkårene for nettstedet før du skraper.

PS: Sjekk ut disse skyskrapingsløsningene og vår egen tipsbilk.net scraping API.