Det er enkelt å trekke ut data med Scraping Browser

Datautvinning er prosessen med å samle spesifikke data fra nettsider. Brukere kan trekke ut tekst, bilder, videoer, anmeldelser, produkter osv. Du kan trekke ut data for å utføre markedsundersøkelser, sentimentanalyse, konkurranseanalyse og aggregerte data.

Hvis du har å gjøre med en liten mengde data, kan du trekke ut data manuelt ved å kopiere og lime inn den spesifikke informasjonen fra nettsider til et regneark eller dokumentformat etter eget ønske. For eksempel, hvis du som kunde ser etter anmeldelser på nettet for å hjelpe deg med å ta en kjøpsbeslutning, kan du skrote data manuelt.

På den annen side, hvis du har å gjøre med store datasett, trenger du en automatisert datauttrekkingsteknikk. Du kan lage en intern datautvinningsløsning eller bruke Proxy API eller Scraping API for slike oppgaver.

Imidlertid kan disse teknikkene være mindre effektive ettersom noen av nettstedene du målretter mot kan være beskyttet av captchas. Du må kanskje også administrere roboter og proxyer. Slike oppgaver kan ta mye av tiden din og begrense innholdet du kan trekke ut.

Scraping Browser: Løsningen

Du kan overvinne alle disse utfordringene gjennom Scraping Browser by Bright Data. Denne alt-i-ett-nettleseren hjelper til med å samle inn data fra nettsteder som er vanskelige å skrape. Det er en nettleser som bruker et grafisk brukergrensesnitt (GUI) og styres av Puppeteer eller Playwright API, noe som gjør den uoppdagelig av roboter.

Scraping Browser har innebygde opplåsingsfunksjoner som automatisk håndterer alle blokkene på dine vegne. Nettleseren åpnes på Bright Datas servere, noe som betyr at du ikke trenger dyr intern infrastruktur for å kassere data for store prosjekter.

Funksjoner i Bright Data Scraping Browser

  • Automatisk opplåsing av nettsider: Du trenger ikke fortsette å oppdatere nettleseren din, siden denne nettleseren justerer seg automatisk for å håndtere CAPTCHA-løsning, nye blokkeringer, fingeravtrykk og gjenforsøk. Scraping Browser etterligner en ekte bruker.
  • Et stort proxy-nettverk: Du kan målrette mot hvilket land du vil, siden Scraping Browser har over 72 millioner IP-er. Du kan målrette mot byer eller til og med transportører og dra nytte av klassens beste teknologi.
  • Skalerbar: Du kan åpne tusenvis av økter samtidig ettersom denne nettleseren bruker Bright Data-infrastrukturen til å håndtere alle forespørslene.
  • Puppeteer og Playwright-kompatibel: Denne nettleseren lar deg foreta API-kall og hente et hvilket som helst antall nettleserøkter enten ved å bruke Puppeteer (Python) eller Playwright (Node.js).
  • Sparer tid og ressurser: I stedet for å sette opp proxyer, tar Scraping Browser seg av alt i bakgrunnen. Du trenger heller ikke sette opp intern infrastruktur, da dette verktøyet tar seg av alt i bakgrunnen.
  Lag vakkert linjediagram med disse 5 verktøyene [Free Templates]

Hvordan sette opp Scraping Browser

  • Gå over til Bright Data-nettstedet og klikk på Scraping Browser på fanen «Scraping Solutions».
  • Opprett en konto. Du vil se to alternativer; «Start gratis prøveversjon» og «Start gratis med Google». La oss velge «Start gratis prøveversjon» for nå og gå til neste trinn. Du kan enten opprette kontoen manuelt eller bruke Google-kontoen din.

  • Når kontoen din er opprettet, vil dashbordet vise flere alternativer. Velg «Fullmakter og skrapinginfrastruktur».

  • I det nye vinduet som åpnes, velg Scraping Browser og klikk på «Kom i gang».

  • Lagre og aktiver konfigurasjonene dine.

  • Aktiver din gratis prøveperiode. Det første alternativet gir deg en kreditt på $5 som du kan bruke til proxy-bruken din. Klikk på det første alternativet for å prøve dette produktet. Men hvis du er en stor bruker, kan du klikke på det andre alternativet som gir deg $50 gratis hvis du laster kontoen din med $50 eller mer.

  • Skriv inn faktureringsinformasjonen din. Ikke bekymre deg, siden plattformen ikke belaster deg noe. Faktureringsinformasjonen bekrefter bare at du er en ny bruker og ikke ser etter freebies ved å opprette flere kontoer.

  • Opprett en ny proxy. Når du har lagret faktureringsdetaljene dine, kan du opprette en ny proxy. Klikk på «legg til»-ikonet og velg Scraping Browser som «Proxy-type». Klikk på «Legg til proxy» og gå til neste trinn.

  • Opprett en ny «sone». En pop vil dukke opp som spør deg om du vil opprette en ny sone; klikk «Ja» og fortsett.

  • Klikk på «Sjekk kode og integrasjonseksempler». Du vil nå få eksempler på proxy-integrering som du kan bruke til å skrape data fra målnettstedet ditt. Du kan bruke Node.js eller Python til å trekke ut data fra målnettstedet ditt.
  Hvordan sette opp et smart kjøkken

Du har nå alt du trenger for å trekke ut data fra et nettsted. Vi skal bruke nettstedet vårt, tipsbilk.net.com, for å demonstrere hvordan Scraping Browser fungerer. For denne demonstrasjonen vil vi bruke node.js. Du kan følge med hvis du har node.js installert.

Følg disse instruksjonene;

  • Opprett et nytt prosjekt på din lokale maskin. Naviger til mappen og lag en fil, og gi den navnet script.js. Vi kjører skrapekoden lokalt og viser resultatene i terminalen vår.
  • Åpne prosjektet i ditt favorittkoderedigeringsprogram. Jeg bruker VsCode.
  • Installer dukkespiller. Bruk denne kommandoen til å; npm i dukketeater-kjerne
  • Legg til denne koden i script.js-filen;
  • const puppeteer = require('puppeteer-core');
    
       // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
    
    const auth="USERNAME:PASSWORD";
    
    async function run(){
    
      let browser;
    
      try {
    
        browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});
    
        const page = await browser.newPage();
    
        page.setDefaultNavigationTimeout(2*60*1000);
    
        await page.goto('https://example.com');
    
        const html = await page.evaluate(() => document.documentElement.outerHTML);
    
        console.log(html);
    
      } 
    
      catch(e) {
    
        console.error('run failed', e);
    
      } 
    
      finally {
    
        await browser?.close();
    
      }
    
    }
    
    if (require.main==module)
    
         run();
  • Endre innholdet på const auth=’BRUKERNAVN:PASSORD»; med kontoopplysningene dine. Se etter brukernavnet, sonenavnet og passordet ditt i fanen merket «Tilgangsparametere».
  • Skriv inn mål-URL. For mitt tilfelle ønsker jeg å trekke ut data for alle forfatterne på tipsbilk.net.com, funnet på https://tipsbilk.net.com/authors.
  • Jeg vil endre koden min på linje 10 til å være som følger;

    await page.goto(«https://tipsbilk.net.com/authors/«);

    Min siste kode nå vil være;

    const puppeteer = require('puppeteer-core');
    
       // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
    
    const auth="brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c";
    
    async function run(){
    
      let browser;
    
      try {
    
        browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});
    
        const page = await browser.newPage();
    
        page.setDefaultNavigationTimeout(2*60*1000);
    
        await page.goto('https://tipsbilk.net.com/authors/');
    
        const html = await page.evaluate(() => document.documentElement.outerHTML);
    
        console.log(html);
    
      } 
    
      catch(e) {
    
        console.error('run failed', e);
    
      } 
    
      finally {
    
        await browser?.close();
    
      }
    
    }
    
    if (require.main==module)
    
         run();
  • Kjør koden din med denne kommandoen;
  • node script.js

    Du vil ha noe slikt på terminalen din

    Hvordan eksportere data

    Du kan bruke flere metoder for å eksportere dataene, avhengig av hvordan du har tenkt å bruke dem. I dag kan vi eksportere dataene til en html-fil ved å endre skriptet for å lage en ny fil med navnet data.html i stedet for å skrive den ut på konsollen.

    Du kan endre innholdet i koden din som følger;

    const puppeteer = require('puppeteer-core');
    
    const fs = require('fs');
    
    // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
    
    const auth="brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c";
    
    async function run() {
    
      let browser;
    
      try {
    
        browser = await puppeteer.connect({ browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222` });
    
        const page = await browser.newPage();
    
        page.setDefaultNavigationTimeout(2 * 60 * 1000);
    
        await page.goto('https://tipsbilk.net.com/authors/');
    
        const html = await page.evaluate(() => document.documentElement.outerHTML);
    
        // Write HTML content to a file
    
        fs.writeFileSync('data.html', html);
    
        console.log('Data export complete.');
    
      } catch (e) {
    
        console.error('run failed', e);
    
      } finally {
    
        await browser?.close();
    
      }
    
    }
    
    if (require.main == module) {
    
      run();
    
    }

    Du kan nå kjøre koden ved å bruke denne kommandoen;

    node script.js

    Som du kan se på følgende skjermbilde, viser terminalen en melding som sier «dataeksport fullført».

      10 Effektiv skatteplanleggingsprogramvare for små og mellomstore bedrifter

    Hvis vi sjekker prosjektmappen vår, kan vi nå se en fil som heter data.html med tusenvis av linjer med kode.

    Jeg har nettopp skrapet på overflaten av hvordan man trekker ut data ved hjelp av Scraping-nettleseren. Jeg kan til og med begrense og skrote bare forfatternes navn og deres beskrivelser ved å bruke dette verktøyet.

    Hvis du vil bruke Scraping Browser, identifisere datasettene du vil trekke ut og endre koden deretter. Du kan trekke ut tekst, bilder, videoer, metadata og lenker, avhengig av nettstedet du målretter mot og strukturen til HTML-filen.

    Vanlige spørsmål

    Er datautvinning og nettskraping lovlig?

    Nettskraping er et kontroversielt tema, der en gruppe sier det er umoralsk mens andre føler at det er greit. Lovligheten av nettskraping vil avhenge av innholdet som skal skrapes og retningslinjene til målnettsiden.
    Generelt anses å skrape data med personlig informasjon som adresser og økonomiske detaljer som ulovlig. Før du skroter etter data, sjekk om nettstedet du målretter mot har noen retningslinjer. Sørg alltid for at du ikke skroter data som ikke er offentlig tilgjengelig.

    Er Scraping Browser et gratis verktøy?

    Nei. Scraping Browser er en betalt tjeneste. Hvis du registrerer deg for en gratis prøveperiode, gir verktøyet deg en kreditt på $5. De betalte pakkene starter fra $15/GB + $0,1/t. Du kan også velge Pay As You Go-alternativet som starter fra $20/GB + $0,1/t.

    Hva er forskjellen mellom Scraping-nettlesere og hodeløse nettlesere?

    Scraping Browser er en hodefull nettleser, noe som betyr at den har et grafisk brukergrensesnitt (GUI). På den annen side har ikke hodeløse nettlesere et grafisk grensesnitt. Hodeløse nettlesere som Selenium brukes til å automatisere nettskraping, men er noen ganger begrenset da de må håndtere CAPTCHA-er og botdeteksjon.

    Innpakning

    Som du kan se, forenkler Scraping Browser å trekke ut data fra nettsider. Scraping Browser er enkel å bruke sammenlignet med verktøy som Selenium. Selv ikke-utviklere kan bruke denne nettleseren med et fantastisk brukergrensesnitt og god dokumentasjon. Verktøyet har opphevingsfunksjoner som ikke er tilgjengelige i andre skrotingsverktøy, noe som gjør det effektivt for alle som ønsker å automatisere slike prosesser.

    Du kan også utforske hvordan du stopper ChatGPT-plugins fra å skrape innholdet på nettstedet ditt.