Datautvinning er prosessen med å samle spesifikke data fra nettsider. Brukere kan trekke ut tekst, bilder, videoer, anmeldelser, produkter osv. Du kan trekke ut data for å utføre markedsundersøkelser, sentimentanalyse, konkurranseanalyse og aggregerte data.
Hvis du har å gjøre med en liten mengde data, kan du trekke ut data manuelt ved å kopiere og lime inn den spesifikke informasjonen fra nettsider til et regneark eller dokumentformat etter eget ønske. For eksempel, hvis du som kunde ser etter anmeldelser på nettet for å hjelpe deg med å ta en kjøpsbeslutning, kan du skrote data manuelt.
På den annen side, hvis du har å gjøre med store datasett, trenger du en automatisert datauttrekkingsteknikk. Du kan lage en intern datautvinningsløsning eller bruke Proxy API eller Scraping API for slike oppgaver.
Imidlertid kan disse teknikkene være mindre effektive ettersom noen av nettstedene du målretter mot kan være beskyttet av captchas. Du må kanskje også administrere roboter og proxyer. Slike oppgaver kan ta mye av tiden din og begrense innholdet du kan trekke ut.
Innholdsfortegnelse
Scraping Browser: Løsningen
Du kan overvinne alle disse utfordringene gjennom Scraping Browser by Bright Data. Denne alt-i-ett-nettleseren hjelper til med å samle inn data fra nettsteder som er vanskelige å skrape. Det er en nettleser som bruker et grafisk brukergrensesnitt (GUI) og styres av Puppeteer eller Playwright API, noe som gjør den uoppdagelig av roboter.
Scraping Browser har innebygde opplåsingsfunksjoner som automatisk håndterer alle blokkene på dine vegne. Nettleseren åpnes på Bright Datas servere, noe som betyr at du ikke trenger dyr intern infrastruktur for å kassere data for store prosjekter.
Funksjoner i Bright Data Scraping Browser
- Automatisk opplåsing av nettsider: Du trenger ikke fortsette å oppdatere nettleseren din, siden denne nettleseren justerer seg automatisk for å håndtere CAPTCHA-løsning, nye blokkeringer, fingeravtrykk og gjenforsøk. Scraping Browser etterligner en ekte bruker.
- Et stort proxy-nettverk: Du kan målrette mot hvilket land du vil, siden Scraping Browser har over 72 millioner IP-er. Du kan målrette mot byer eller til og med transportører og dra nytte av klassens beste teknologi.
- Skalerbar: Du kan åpne tusenvis av økter samtidig ettersom denne nettleseren bruker Bright Data-infrastrukturen til å håndtere alle forespørslene.
- Puppeteer og Playwright-kompatibel: Denne nettleseren lar deg foreta API-kall og hente et hvilket som helst antall nettleserøkter enten ved å bruke Puppeteer (Python) eller Playwright (Node.js).
- Sparer tid og ressurser: I stedet for å sette opp proxyer, tar Scraping Browser seg av alt i bakgrunnen. Du trenger heller ikke sette opp intern infrastruktur, da dette verktøyet tar seg av alt i bakgrunnen.
Hvordan sette opp Scraping Browser
- Gå over til Bright Data-nettstedet og klikk på Scraping Browser på fanen «Scraping Solutions».
- Opprett en konto. Du vil se to alternativer; «Start gratis prøveversjon» og «Start gratis med Google». La oss velge «Start gratis prøveversjon» for nå og gå til neste trinn. Du kan enten opprette kontoen manuelt eller bruke Google-kontoen din.
- Når kontoen din er opprettet, vil dashbordet vise flere alternativer. Velg «Fullmakter og skrapinginfrastruktur».
- I det nye vinduet som åpnes, velg Scraping Browser og klikk på «Kom i gang».
- Lagre og aktiver konfigurasjonene dine.
- Aktiver din gratis prøveperiode. Det første alternativet gir deg en kreditt på $5 som du kan bruke til proxy-bruken din. Klikk på det første alternativet for å prøve dette produktet. Men hvis du er en stor bruker, kan du klikke på det andre alternativet som gir deg $50 gratis hvis du laster kontoen din med $50 eller mer.
- Skriv inn faktureringsinformasjonen din. Ikke bekymre deg, siden plattformen ikke belaster deg noe. Faktureringsinformasjonen bekrefter bare at du er en ny bruker og ikke ser etter freebies ved å opprette flere kontoer.
- Opprett en ny proxy. Når du har lagret faktureringsdetaljene dine, kan du opprette en ny proxy. Klikk på «legg til»-ikonet og velg Scraping Browser som «Proxy-type». Klikk på «Legg til proxy» og gå til neste trinn.
- Opprett en ny «sone». En pop vil dukke opp som spør deg om du vil opprette en ny sone; klikk «Ja» og fortsett.
- Klikk på «Sjekk kode og integrasjonseksempler». Du vil nå få eksempler på proxy-integrering som du kan bruke til å skrape data fra målnettstedet ditt. Du kan bruke Node.js eller Python til å trekke ut data fra målnettstedet ditt.
Du har nå alt du trenger for å trekke ut data fra et nettsted. Vi skal bruke nettstedet vårt, tipsbilk.net.com, for å demonstrere hvordan Scraping Browser fungerer. For denne demonstrasjonen vil vi bruke node.js. Du kan følge med hvis du har node.js installert.
Følg disse instruksjonene;
const puppeteer = require('puppeteer-core'); // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>' const auth="USERNAME:PASSWORD"; async function run(){ let browser; try { browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`}); const page = await browser.newPage(); page.setDefaultNavigationTimeout(2*60*1000); await page.goto('https://example.com'); const html = await page.evaluate(() => document.documentElement.outerHTML); console.log(html); } catch(e) { console.error('run failed', e); } finally { await browser?.close(); } } if (require.main==module) run();
Jeg vil endre koden min på linje 10 til å være som følger;
await page.goto(«https://tipsbilk.net.com/authors/«);
Min siste kode nå vil være;
const puppeteer = require('puppeteer-core'); // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>' const auth="brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c"; async function run(){ let browser; try { browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`}); const page = await browser.newPage(); page.setDefaultNavigationTimeout(2*60*1000); await page.goto('https://tipsbilk.net.com/authors/'); const html = await page.evaluate(() => document.documentElement.outerHTML); console.log(html); } catch(e) { console.error('run failed', e); } finally { await browser?.close(); } } if (require.main==module) run();
node script.js
Du vil ha noe slikt på terminalen din
Hvordan eksportere data
Du kan bruke flere metoder for å eksportere dataene, avhengig av hvordan du har tenkt å bruke dem. I dag kan vi eksportere dataene til en html-fil ved å endre skriptet for å lage en ny fil med navnet data.html i stedet for å skrive den ut på konsollen.
Du kan endre innholdet i koden din som følger;
const puppeteer = require('puppeteer-core'); const fs = require('fs'); // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>' const auth="brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c"; async function run() { let browser; try { browser = await puppeteer.connect({ browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222` }); const page = await browser.newPage(); page.setDefaultNavigationTimeout(2 * 60 * 1000); await page.goto('https://tipsbilk.net.com/authors/'); const html = await page.evaluate(() => document.documentElement.outerHTML); // Write HTML content to a file fs.writeFileSync('data.html', html); console.log('Data export complete.'); } catch (e) { console.error('run failed', e); } finally { await browser?.close(); } } if (require.main == module) { run(); }
Du kan nå kjøre koden ved å bruke denne kommandoen;
node script.js
Som du kan se på følgende skjermbilde, viser terminalen en melding som sier «dataeksport fullført».
Hvis vi sjekker prosjektmappen vår, kan vi nå se en fil som heter data.html med tusenvis av linjer med kode.
Jeg har nettopp skrapet på overflaten av hvordan man trekker ut data ved hjelp av Scraping-nettleseren. Jeg kan til og med begrense og skrote bare forfatternes navn og deres beskrivelser ved å bruke dette verktøyet.
Hvis du vil bruke Scraping Browser, identifisere datasettene du vil trekke ut og endre koden deretter. Du kan trekke ut tekst, bilder, videoer, metadata og lenker, avhengig av nettstedet du målretter mot og strukturen til HTML-filen.
Vanlige spørsmål
Er datautvinning og nettskraping lovlig?
Nettskraping er et kontroversielt tema, der en gruppe sier det er umoralsk mens andre føler at det er greit. Lovligheten av nettskraping vil avhenge av innholdet som skal skrapes og retningslinjene til målnettsiden.
Generelt anses å skrape data med personlig informasjon som adresser og økonomiske detaljer som ulovlig. Før du skroter etter data, sjekk om nettstedet du målretter mot har noen retningslinjer. Sørg alltid for at du ikke skroter data som ikke er offentlig tilgjengelig.
Er Scraping Browser et gratis verktøy?
Nei. Scraping Browser er en betalt tjeneste. Hvis du registrerer deg for en gratis prøveperiode, gir verktøyet deg en kreditt på $5. De betalte pakkene starter fra $15/GB + $0,1/t. Du kan også velge Pay As You Go-alternativet som starter fra $20/GB + $0,1/t.
Hva er forskjellen mellom Scraping-nettlesere og hodeløse nettlesere?
Scraping Browser er en hodefull nettleser, noe som betyr at den har et grafisk brukergrensesnitt (GUI). På den annen side har ikke hodeløse nettlesere et grafisk grensesnitt. Hodeløse nettlesere som Selenium brukes til å automatisere nettskraping, men er noen ganger begrenset da de må håndtere CAPTCHA-er og botdeteksjon.
Innpakning
Som du kan se, forenkler Scraping Browser å trekke ut data fra nettsider. Scraping Browser er enkel å bruke sammenlignet med verktøy som Selenium. Selv ikke-utviklere kan bruke denne nettleseren med et fantastisk brukergrensesnitt og god dokumentasjon. Verktøyet har opphevingsfunksjoner som ikke er tilgjengelige i andre skrotingsverktøy, noe som gjør det effektivt for alle som ønsker å automatisere slike prosesser.
Du kan også utforske hvordan du stopper ChatGPT-plugins fra å skrape innholdet på nettstedet ditt.