26 fantastiske åpne datasett for dine datavitenskap/ML-prosjekter

Søket etter de riktige datasettene kan være skremmende, spesielt når du trenger dem for maskinlæring (ML) og datavitenskapsprosjekter. Vi reduserer forskningsinnsatsen din ved å tilby den ultimate listen over gratis datasett.

Datasett er ganske enkelt samlinger av data. Det kan være økonomiske, samfunnshelse, aksjemarkedsdata, bankdata, geografiske data, partikkelvitenskapelige forskningsdata, vurderinger av produkter på et e-handelsnettsted, etc.

Datasett inneholder data samlet inn gjennom en vitenskapelig undersøkelsesstandard og er viktig for videre visualisering, utvinning, prognoser osv. Siden data tilsvarer råolje i det digitale universet, blir datasett kommersielle og knappe.

Fortsett å lese for å finne ut det grunnleggende om datasett. Du vil også oppdage noen åpen kildekode-datasett som virkelig er gratis for maskinlæring (ML) eller datavitenskapsprosjekter.

Hva er datasett?

Datasett er innsamling av data i en strukturert og organisert beholder. Vanligvis forbinder landmålere datasett med et unikt organ, for eksempel World Bank Open Data.

Igjen, datainnsamlerne holder datasettene spesifikke for et emne som 2020 Census Data of the United States of America publisert av United States Census Bureau.

Du vil finne mange datasett om globale og lokale spørsmål. De fleste datasett inneholder innbyrdes relaterte datapunkter. For eksempel befolkningen i et land og hvordan fedme relaterer seg til ulike klasser av denne befolkningen.

Dataforskerne kan trenge å rense, omstrukturere og behandle slike datasett ved hjelp av store dataverktøy for å komme til verdifulle konklusjoner som å redusere plastavfall ved å analysere plastbruksdata, avhjelpe arbeidsstyrkeproblemer ved å analysere lønnsdata, trene kunstig intelligens (AI) og så på.

Datasetttyper

Avhengig av kilden til datasettene kan de være offentlige eller private. Offentlige datasett er åpne for alle og bidrar mye til forskning og utvikling.

Igjen, datasett kan være av følgende typer avhengig av informasjonen i dem:

  • Multivariat: Slike data inneholder flere variabler.
  • Kategorisk: Den skildrer mange kategorier av mennesker.
  • Numerisk: Slike datasett måler data i tall som alder, høyde osv.
  • Korrelasjon: I denne typen henger datapunkter sammen.
  • Filbasert: Her lagres datasett i filer.
  • Bivariat: Et datasett med to variabler og en sammenheng mellom dem.
  • Nettdatasett: Data samlet inn fra en eller flere lignende internettportaler.
  • Database: Slike datasett lagrer data i tabeller, kolonner og rader.
  Hvordan få et bilde bak tekst i PowerPoint

Åpen kildekode-datasett for datavitenskapelige prosjekter

Gratis datasett er drivstoffet for å drive lidenskapen din for en datavitenskapskarriere. For hvis du er i de tidlige stadiene av din datavitenskapskarriere, vil du kanskje ta på deg personlige og ikke-kommersielle prosjekter for selvtillit eller porteføljebygging.

For det første kan du enkelt teste de nylærte ferdighetene dine ved å bruke verktøy og teknikker på reelle datasettproblemer.

For eksempel er det fritt tilgjengelige kreftforskningsdata, Covid-19-data, FBI-kriminalregisterdata, partikkelanalysedata fra CERN osv. Du kan bruke slike data og bygge en datavitenskapelig modell for å svare på viktige sosiale, økonomiske og helsemessige problemer .

For det andre fungerer slike prosjekter som porteføljeforsterkere for din karriere. Hvis du kan bygge en vellykket dataanalysemodell som kan gi praktisk innsikt, kan du vise frem disse modellene på nettet ved å lage porteføljenettsteder. Arbeidsgivere foretrekker prosjekter fremfor formålserklæringer.

Gratis datasett for maskinlæringsprosjekter

I likhet med en datavitenskapsperson, må en ML-profesjonell også jobbe med selvstyrte prosjekter for å undersøke ferdighetene deres. Hvis prosjektet blir vellykket, blir det også en ideell komponent for din online eller offline portefølje av ML-prosjekter.

Derfor kan du nå forstå at datavitenskap og ML-vekst er avhengig av strukturerte datasett. Hvis slike datasett var for kommersialiserte, ville forskning og utvikling innen datavitenskap blitt fullstendig bedriftsentrisk.

For å holde datavitenskapelig ML-forskning åpen for alle, tilbyr følgende byråer, institusjoner og plattformer gratis datasett:

Data.gov

Du vil finne alle åpne data som er samlet inn og behandlet av den amerikanske regjeringen. i Data.gov. Plattformen tilbyr også ressurser og verktøy for å utføre forskning, designe datavisualiseringer, utvikle mobil-/nettapper, etc.

De bemerkelsesverdige datasettene inkluderer data om bærekraftig arealbruk, data om landlige boliger, elektroniske navigasjonskart i innlandet, etc.

Åpne datasett: Kaggle

Kaggle tilbyr et hav av offentlige data og datakoder for datavitenskapelige prosjekter. Du kan velge Datasett for rådata og Kode for programmeringskoder. Trendende datasett på Kaggle er AMEX-data, Simpsons Viewership, Chatbot-treningsdata, etc.

Segmentdatasett: YouTube 8-M

Segmentdatasett fra YouTube 8-M tilbyr deg segmentmerknader verifisert av menneskelige revisorer. Du kan også få tilgang til YouTube-8M-datasettet fra samme portal. Datasettet inneholder 6,1 millioner video-IDer, 350 000 timer med video, 2,6 milliarder audio/visuelle funksjoner, 3863 klasser med videoer, og i gjennomsnitt 3,0 etiketter per video.

Register for åpne data på AWS

ROD på AWS hjelper dataforskere med å dele og oppdage datasett som er vert for AWS-ressurser. Noen interessante datasett du kan finne her er The Cancer Genome Atlas, Foldingathome COVID-19-datasett, Common Crawl, etc.

Machine Learning Repository: UCI

UCI Machine Learning Repository vedlikeholder for tiden 622 datasett som er egnet for dataforskere og ML-ingeniører for å trene AI-modellene deres. Det er også et søkbart grensesnitt for å undersøke databasene. Populære attraksjoner er Accelerometer-datasettet, Synchronous Machine-datasettet, Wikipedia Math Essentials, Turkish Headlines-datasettet, etc.

BigQuery offentlige datasett: Google Cloud

Mange offentlige datasett er lagret på BigQuery. Google gjør datasettet tilgjengelig gratis gjennom Google Cloud Public Dataset-programmet. Den gratis spørringen har imidlertid en grense på 1 TB per måned. Du kan utføre standard SQL og eldre SQL-spørringer.

  Hvordan telle fargede celler i Excel

Fantastiske offentlige datasett: GitHub

Awesome Public Datasets er et åpen kildekode-datasett som inneholder emnesentrerte offentlige data. Samlet og sortert fra ulike blogger, svar og tilbakemeldinger fra brukere, kombinerer den gratis og betalte datasett om fysikk, sport, programvare, naturlig språk og maskinlæring.

Verdensbankens data

World Bank Open Data er plattformen hvor du får gratis tilgang til globale utviklingsdata. Den tilbyr også andre verdifulle ressurser som forhåndsformaterte tabeller og rapporter. Du kan enkelt bla etter land eller indikator for å få det nødvendige datasettet.

FiveThirtyEight: Data

FiveThirtyEight er et amerikansk nettsted som tar for seg analyse av meningsmålinger, politikk, økonomi og sport. Du kan få tilgang til disse avstemningene og prognosene gjennom datasett fra plattformen. Du kan laste ned datasettene med ett klikk.

ImageNet

ImageNet er en bildedatabase hvorfra forskere over hele verden kan hente datasett med åpen kildekode for sine ikke-kommersielle prosjekter. Her er bildene organisert basert på WordNet-hierarkiet. Prosjektet spiller en viktig rolle i dyplæringsforskning på avansert nivå.

Datasettarkiv: UNICEF DATA

Ved å bruke Datasettarkivene kan du få tak i datasett samlet inn av UNICEF over hele verden. Data om migrasjon, fordrivelse, kosthold, tilkobling, utdanning, helse, læring, dødelighet, vold, barndomsutvikling, barneekteskap, barnearbeid og diverse statistikker er tilgjengelig her.

Finn åpne data: Govt. av Storbritannia

Hvis prosjektet ditt trenger data publisert av lokale instanser og sentralmyndighetene i Storbritannia, er Find Open Data portalen du bør sjekke ut. Den dekker offentlige utgifter, næringsliv, helse, utdanning, forsvar og flere datasett.

Data: United States Census Bureau

Trenger du US Census data for et relevant prosjekt? Du kan få hjelp fra USCB Data. Her kan du utforske 2020 folketellingsdata, tabeller, kart og dataprofiler mens du visualiserer data og bruker dataverktøy.

Data og statistikk: CDC

Det amerikanske føderale byrået Centers for Disease Control and Prevention gir også gratis datasett til publikum for å få tilgang til data og statistikk fra denne portalen. Datasettets temaer er miljøhelse, kroniske sykdommer, fødsler og fødsel, dødsfall og dødelighet, forventet levealder, skader og vold, reproduktiv helse, nasjonale meldepliktige sykdommer, etc.

Datasett: MIT

Dette datasettet fokuserer på virvelinduserte vibrasjonsdata. Center for Ocean Engineering ved MIT er vert for noen offentlig tilgjengelige datasett for datakodebenchmarking. Datasettene er åpne for alle for å invitere nye teorier fra data- og synkroniseringsforskerne som jobber innen samme felt.

Verdensbankens datakatalog

Datakatalogen samler inn gratis datasett som gjør Verdensbankens utviklingsrelaterte data lett tilgjengelig. Det er enkelt å bruke det i ulike prosjekter, siden du enkelt kan finne og laste ned informasjonen du foretrekker. Den inneholder over 5000 datasett som dekker Verdensbankens mikrodata, finanser og energiplattformer.

  Hvordan logger jeg på Hulu med Spotify-kontoen min

NASA Space Science Data

NASA tilbyr tilgang til sine arkivdata på Space Science Data Coordinated Archive. Denne plattformen er til stor hjelp for allmennheten, spesielt folk som jobber med utdanning og romforskning. Den har 400 TB med digitale data som inneholder informasjon om 550 romvitenskap.

Få dataene: Inside Airbnb

Airbnb er en globalt anerkjent nettmarkedsplass for gjestgiveri og ferieutleie. Den tilbyr også datainnsamling om forskjellige byer over hele verden fra Get the Data. Du kan bla gjennom byen for raskt å få dataene. Videre kan du be om dine nødvendige data og lese dataforutsetninger på denne portalen.

Nettdata: Amazon-anmeldelser

De som er interessert i markedsundersøkelser og produktanmeldelser bør bruke datasettene levert av Snap Web Data. Den inneholder mer enn 34 millioner brukeranmeldelser på Amazon, fra juni 1995 til mars 2013. Datasettet inneholder ren tekst, produktinformasjon, brukernavn, vurderinger og en anmeldelse.

IMF-data

IMFs dataportal er verdifull for alle økonomiske og finansielle datatyper. Enten du søker etter IMF-finansdata, ekstern sektorstatistikk, flaggskippublikasjoner eller mikroøkonomiske data, er det her du kan finne dem. Dessuten kan du bruke et filter for å få landsvise data.

Google Bøker Ngrams

Hvis du jobber med deler av tale og språk, kan Google Books Ngrams hjelpe deg betydelig. Dette åpne kildedatasettet gir deg en idé om hvordan du bruker et bestemt ord og uttrykk gjennom historien eller en bestemt tidsperiode. Kilden til dette datasettet er de digitale dokumentene som er indeksert av Google.

Markedsdata: Financial Times

Hvis du ønsker å få tak i pålitelige og nøyaktige globale og regionale aksjemarkedsdata, er Markets Data av The Financial Times her for å hjelpe deg. Det lar deg jobbe med markedsdata fra Amerika, Asia-Stillehavet, Europa, Afrika og det globale markedet.

Jorddata: NASA

NASA gir full og åpen tilgang til sine vitenskapelige data gjennom Earth Data-programmet som hjelper deg å forstå hjemmeplaneten vår og gjøre prosjekter med den. Du kan finne gratis datasett om atmosfærisk, biosfære, kryosfære, menneskelige dimensjoner, landoverflate, hav, fast jord, sol-jord-interaksjon og terrestrisk hydrosfære.

Datasettsøk: Google

Hvis du er student, forsker eller dataforsker som leter etter datasett for å støtte prosjektet ditt, kan du få hjelp fra Dataset Search-portalen. Du kan kalle det en søkemotor for datasett ettersom den lar deg oppdage datasett som er vert i ulike rapporter på nettet gjennom søkeordsøk.

Åpne data: CERN

Den europeiske forskningsorganisasjonen CERN har en Open Data-portal som du kan bruke for å få tilgang til de forskningsgenererte dataene ved CERN. Denne datasettportalen inneholder to petabyte med data relatert til partikkelfysikk. Dessuten kommer den med applikasjoner og dokumentasjon som trengs for dataanalyse.

Crime Data Explorer: FBI

Crime Data Explorer (CDE) er åpen kildekode-datasettet fra FBI som tar sikte på å gi enklere tilgang til deling av kriminelle, ikke-kriminelle og rettshåndhevende data. I tillegg til å la deg finne de nødvendige dataene gjennom visualisering og kategorifiltrering, lar denne plattformen deg laste ned data i CSV-format.

Siste ord

Så langt har du gått gjennom en virkelig uttømmende liste over datasett av høy kvalitet. Artikkelen presenterer data fra ulike nisjer som fysisk vitenskap, medisinske poster, romforskning, kriminelle poster, produktvurderinger, etc.

Avhengig av datavitenskapen eller maskinlæringsprosjektet du holder på med, kan du velge. Nesten alle datasettene har også riktige instruksjoner for å hjelpe deg med prosjektet ditt.

Du kan også være interessert i disse ressursene for å lære datavitenskap og ML.