Utforskning av Datasett: En Omfattende Guide for Dine Data- og Maskinlæringsprosjekter
Å finne de rette datasett kan være en utfordring, spesielt når de trengs for maskinlæring (ML) og datavitenskapelige initiativer. Vi forenkler denne prosessen ved å tilby en komplett liste over gratis datasett som kan være til nytte for dine prosjekter.
Datasett er i bunn og grunn strukturerte samlinger av data. Disse kan omfatte alt fra økonomiske tall, data knyttet til samfunnshelse, informasjon fra aksjemarkedet, bankdata, geografiske data, resultater fra partikkelforskning, tilbakemeldinger på produkter fra nettbutikker, og mye mer.
Datasett opprettes ved hjelp av etablerte vitenskapelige metoder, og er avgjørende for visualisering, analyse, prediksjon og utvinning av innsikt. I vår digitale tidsalder, hvor data betraktes som «den nye oljen,» har datasett blitt verdifulle ressurser.
Fortsett å lese for å lære mer om hva datasett er og hvor du kan finne åpne og gratis datasett for dine maskinlærings- eller datavitenskapelige prosjekter.
Hva er egentlig Datasett?
Et datasett er en strukturert og organisert samling av data. Ofte er datasett knyttet til en spesifikk enhet, slik som Verdensbankens åpne data, eller det amerikanske folketellingsbyråets data fra folketellingen i 2020.
Datainnsamlere fokuserer ofte på spesifikke emner når de lager datasett. De fleste datasett består av relaterte datapunkter, som for eksempel befolkningsdata sammenlignet med forekomsten av fedme i ulike samfunnslag.
Dataforskere kan måtte rengjøre, omstrukturere og behandle disse datasett med avanserte verktøy for å trekke ut verdifull innsikt. Dette kan innebære å analysere plastbruksdata for å redusere avfall, undersøke lønnsdata for å løse problemer i arbeidsstyrken, eller trene kunstig intelligens (AI)-modeller.
Ulike Typer Datasett
Datasett kan klassifiseres som offentlige eller private, avhengig av kilden. Offentlige datasett er tilgjengelige for alle og er sentrale for forskning og utvikling.
Datasett kan også differensieres basert på informasjonen de inneholder:
- Multivariat: Inneholder flere variabler.
- Kategorisk: Skildrer ulike kategorier av mennesker eller elementer.
- Numerisk: Måler data i form av tall, som alder eller høyde.
- Korrelasjon: Datapunktene i datasettet henger sammen.
- Filbasert: Datasettet er lagret i filer.
- Bivariat: Inneholder to variabler og en sammenheng mellom dem.
- Nettbasert: Data samlet fra en eller flere nettportaler.
- Database: Data lagres i tabeller med rader og kolonner.
Åpne Datasett for Datavitenskapsprosjekter
Gratis datasett er drivstoffet for en karriere innen datavitenskap. I begynnelsen av karrieren kan det være nyttig å jobbe med personlige og ikke-kommersielle prosjekter for å bygge selvtillit og en portefølje.
Ved å bruke verktøy og teknikker på reelle datasett, kan du teste dine nyervervede ferdigheter. Det finnes mange offentlig tilgjengelige datasett, inkludert kreftforskningsdata, COVID-19-data, kriminalstatistikk fra FBI og partikkelanalysedata fra CERN. Slike data kan brukes til å utvikle datamodeller som gir svar på viktige samfunnsmessige, økonomiske og helsemessige problemstillinger.
I tillegg gir disse prosjektene en sterkere portefølje. Hvis du utvikler en vellykket dataanalysemodell som gir verdifull innsikt, kan du presentere disse modellene på nettsteder. Arbeidsgivere foretrekker å se konkrete prosjekter fremfor generelle ferdigheter.
Gratis Datasett for Maskinlæringsprosjekter
På samme måte som datavitere, må også ML-spesialister jobbe med egendefinerte prosjekter for å teste sine ferdigheter. Et vellykket prosjekt er en verdifull del av en ML-portefølje, enten den er online eller offline.
Det er tydelig at veksten innen datavitenskap og maskinlæring er avhengig av tilgjengelige og strukturerte datasett. Hvis slike datasett var sterkt kommersialisert, ville forskning og utvikling innen disse feltene i stor grad bli dominert av kommersielle interesser. For å sikre åpen forskning innen datavitenskap og maskinlæring, tilbyr flere organisasjoner gratis datasett, som de følgende.
Data.gov
Data.gov inneholder alle åpne data som er samlet og bearbeidet av den amerikanske regjeringen. Her finnes også verktøy og ressurser for forskning, data visualisering, og utvikling av mobil- og webapplikasjoner. Noen av de mest populære datasett omfatter bærekraftig arealbruk og boligdata.
Åpne Datasett: Kaggle
Kaggle tilbyr en stor mengde offentlige data og kode for datavitenskapelige prosjekter. Her kan du velge datasett for rådata eller koder for programmering. Populære datasett på Kaggle inkluderer AMEX-data, seerdata for Simpsons og treningsdata for chatbots.
Segmentdatasett: YouTube 8-M
Segmentdatasettet fra YouTube 8-M inneholder segmentannotasjoner verifisert av mennesker. Du har også tilgang til YouTube-8M-datasettet gjennom samme portal. Datasettet omfatter 6,1 millioner video-ID-er, 350 000 timer med video, 2,6 milliarder lyd- og visuelle funksjoner, 3863 videokategorier, og i snitt 3,0 etiketter per video.
Register for Åpne Data på AWS
Register of Open Data (ROD) på AWS hjelper forskere med å finne og dele datasett som er lagret på AWS-ressurser. Interessante datasett inkluderer The Cancer Genome Atlas, Foldingathome COVID-19 datasettet og Common Crawl.
Machine Learning Repository: UCI
UCI Machine Learning Repository inneholder 622 datasett som passer for dataforskere og ML-ingeniører for trening av AI-modeller. Her er det også et søkbart grensesnitt for å utforske databasene. Populære datasett inkluderer Accelerometer-datasettet, Synchronous Machine-datasettet, Wikipedia Math Essentials og Turkish Headlines-datasettet.
BigQuery Offentlige Datasett: Google Cloud
Google tilbyr mange offentlige datasett gjennom BigQuery og Google Cloud Public Dataset-programmet. Gratis spørringer er imidlertid begrenset til 1 TB per måned. Du kan bruke standard SQL og eldre SQL-spørringer.
Fantastiske Offentlige Datasett: GitHub
Awesome Public Datasets er et åpen kildekode-datasett som gir tilgang til emnesentrerte offentlige data. Samlet og sortert fra ulike blogger og tilbakemeldinger, kombinerer det både gratis og betalte datasett innen fysikk, sport, programvare, naturlig språk og maskinlæring.
Verdensbankens Data
Verdensbankens åpne data gir gratis tilgang til globale utviklingsdata. Her finnes også ressurser som ferdige tabeller og rapporter. Du kan enkelt søke etter datasett basert på land eller indikator.
FiveThirtyEight: Data
FiveThirtyEight er en amerikansk nettportal som analyserer meningsmålinger, politikk, økonomi og sport. Du kan laste ned datasett med meningsmålinger og prognoser med et enkelt klikk.
ImageNet
ImageNet er en bildedatabase hvor forskere kan hente åpne datasett for ikke-kommersielle prosjekter. Bildene er organisert i henhold til WordNet-hierarkiet og er viktige for dyplæringsforskning.
Datasettarkiv: UNICEF DATA
UNICEF DATA gir tilgang til datasett samlet inn over hele verden. Her finner du data om migrasjon, kosthold, utdanning, helse, barnearbeid og mye mer.
Finn Åpne Data: Govt. av Storbritannia
Hvis du trenger data fra lokale myndigheter eller sentralmyndigheter i Storbritannia, er Find Open Data-portalen et godt sted å starte. Den dekker temaer som offentlige utgifter, næringsliv, helse og forsvar.
Data: United States Census Bureau
Trenger du data fra USAs folketelling for et prosjekt? USCB Data tilbyr 2020-folketellingsdata, kart og dataprofiler, samt verktøy for å visualisere data.
Data og Statistikk: CDC
Det amerikanske byrået Centers for Disease Control and Prevention (CDC) tilbyr også gratis datasett til offentligheten. Disse omhandler temaer som miljøhelse, kroniske sykdommer, fødsler og dødsfall.
Datasett: MIT
Dette datasettet fokuserer på vibrasjonsdata. Senter for Havteknikk ved MIT hoster datasett for testing av datakoder, som er tilgjengelige for forskere innen data og synkronisering.
Verdensbankens Datakatalog
Datakatalogen gir enkel tilgang til Verdensbankens utviklingsrelaterte data. Her kan du finne og laste ned informasjon du trenger, og det finnes over 5000 datasett som dekker mikrodata, finans og energi.
NASA Space Science Data
NASA gir tilgang til arkivdata gjennom Space Science Data Coordinated Archive, en plattform som er nyttig for forskning og romvitenskap. Den inneholder 400 TB data med informasjon om 550 romvitenskapelige studier.
Få Dataene: Inside Airbnb
Airbnb tilbyr datainnsamling om forskjellige byer gjennom Get the Data-portalen. Her kan du enkelt søke etter data basert på by, be om spesifikke data og lese om databetingelser.
Nettdata: Amazon-Anmeldelser
For de som er interessert i markedsundersøkelser og produktanmeldelser, tilbyr Snap Web Data mer enn 34 millioner brukeranmeldelser fra Amazon fra 1995 til 2013. Datasettet inneholder ren tekst, produktinformasjon, brukernavn, vurderinger og anmeldelser.
IMF-Data
IMFs datportal er en verdifull ressurs for alle typer økonomiske og finansielle data. Her finner du blant annet finansdata, statistikk fra ekstern sektor og mikroøkonomiske data. Du kan også filtrere etter land.
Google Bøker Ngrams
Google Books Ngrams er et nyttig verktøy for de som arbeider med tale og språk. Dette åpne datasettet viser hvordan ord og uttrykk har blitt brukt gjennom historien eller en bestemt tidsperiode, basert på digitaliserte dokumenter indeksert av Google.
Markedsdata: Financial Times
For pålitelige globale og regionale aksjemarkedsdata, er Markets Data fra Financial Times et godt valg. Her kan du jobbe med markedsdata fra Amerika, Asia-Stillehavet, Europa, Afrika og det globale markedet.
Jorddata: NASA
NASA tilbyr full og åpen tilgang til sine vitenskapelige data gjennom Earth Data-programmet, noe som hjelper deg å forstå planeten vår. Du kan finne gratis datasett om atmosfære, biosfære, kryosfære, menneskelige dimensjoner, landoverflate, hav og sol-jord-interaksjoner.
Datasettsøk: Google
Dataset Search-portalen er en søkemotor for datasett. Den hjelper studenter, forskere og dataforskere med å finne datasett for sine prosjekter ved å søke etter nøkkelord.
Åpne Data: CERN
CERN har en Open Data-portal som gir tilgang til forskningsgenererte data innen partikkelfysikk. Denne portalen inneholder to petabyte data, samt applikasjoner og dokumentasjon som trengs for dataanalyse.
Crime Data Explorer: FBI
Crime Data Explorer (CDE) er et åpen kildekode-datasett fra FBI som gir tilgang til kriminaldata, samt data relatert til rettshåndhevelse. Du kan finne nødvendige data gjennom visualisering, kategorifiltrering, og du kan laste ned data i CSV-format.
Avsluttende Tanker
Denne listen gir deg en oversikt over mange kvalitetsdatasett som dekker et bredt spekter av emner, inkludert fysikk, medisinske data, romforskning, kriminalstatistikk og produktanmeldelser.
Basert på dine data- eller maskinlæringsprosjekter, kan du velge relevante datasett. De fleste datasett leveres med klare instruksjoner som hjelper deg i prosjektet ditt.
Du kan også være interessert i disse ressursene for å lære datavitenskap og ML.