En introduksjonsveiledning til tidsseriedata

«Tid» er en avgjørende variabel når det gjelder dataakkumulering. I tidsserieanalyse er tid et viktig element i data.

Hva er tidsseriedata?

Tidsseriedata refererer til en serie datapunkter som er ordnet i tid. Det introduserer en rekkefølgeavhengighet mellom et sett med observasjoner. Tidsserier er allestedsnærværende i dagens datadrevne verden. Ettersom hver hendelse følger tidens pil, er vi i konstant interaksjon med en rekke tidsseriedata.

Tidsserier antas generelt å genereres med jevne tidsintervaller og omtales som vanlige tidsserier. Dataene innenfor den tidsserien trenger imidlertid ikke genereres med jevne mellomrom. Slike tilfeller omfatter uregelmessige tidsserier der data følger en temporært faset sekvens. Dette innebærer at målinger kanskje ikke forekommer med jevne mellomrom. Imidlertid kan data genereres med diskrete tidsintervaller eller som en serie. Minibankuttak eller kontoinnskudd er eksempler på uregelmessige tidsserier.

Teknisk sett, i en tidsserie, endres en eller flere variabler over en gitt tidsperiode. Hvis en enkelt variabel varierer over tid, kalles den Univariate tidsserier. Tenk for eksempel på en sensor som måler temperaturen i et rom hvert sekund. Her genereres kun en endimensjonal temperaturverdi ved hvert øyeblikk (dvs. sekund). Tvert imot, når mer enn én variabel endres over tid, kalles det en multivariabel tidsserie. Vurder for eksempel bankøkonomi. I slike tilfeller brukes multivariate tidsserier for å forstå hvordan politikkendringer i én variabel, som for eksempel reporente, kan påvirke andre variabler (dvs. utbetaling av lån for kommersielle banker).

Tidsseriedata finner sin anvendelse i alle disipliner, fra finans, geologi, meteorologi, produksjon til databehandling, IoT, fysisk og samfunnsvitenskap. Den brukes til å spore værendringer, fødselsrate, dødelighet, markedssvingninger, nettverksytelse og mange andre applikasjoner. Noen av de viktigste bruksområdene inkluderer overvåking, prognoser og oppdagelse av anomalier. For eksempel spiller tidsserieprognoser en kritisk rolle for å bestemme populariteten til databasestyringssystemer. Figuren nedenfor viser den økende populariteten til DBMS gjennom årene (2019-2021) i et tidsserieplott.

https://www.influxdata.com/time-series-database/

Nøkkelkomponenter i tidsserier

Faktorene som påvirker verdiene til en observasjon i en tidsserie blir behandlet som deres nøkkelkomponenter. De tre kategoriene av komponenter inkluderer:

  • Trend eller langsiktige bevegelser
  • Kortvarige bevegelser
  • Sesongvariasjoner
  • Sykliske variasjoner
  • Tilfeldige eller uregelmessige bevegelser
  • Trend

    Tendensen til data til å øke eller avta over en lang periode omtales som en trend eller en langsiktig komponent. Det er imidlertid viktig å merke seg at den oppadgående eller nedadgående bevegelsen ikke nødvendigvis trenger å være i samme retning over et gitt tidsrom.

    Tendensene kan enten stige, falle eller forbli stabile over ulike tidsperioder. Den generelle trenden må imidlertid alltid tilsvare et oppadgående, nedadgående eller stabilt mønster. Slike bevegelsestendenser er tydelige i eksemplene som jordbruksproduktivitet, dødsrate, produserte enheter, antall fabrikker, etc.

    Lineær og ikke-lineær trend

    Å plotte tidsserieverdier mot tid på en graf avslører typen trend basert på mønsteret av dataklynger. Hvis dataklyngen er mer eller mindre rundt en rett linje, betegnes trenden som en lineær trend. Ellers viser dataklyngemønsteret en ikke-lineær trend ettersom forholdet mellom endring mellom to variabler ikke er stabilt eller konstant. Derfor kalles slike trender også kurvlineære korrelasjoner.

    Kortsiktige bevegelser

    I en tidsserie har disse komponentene en tendens til å gjenta seg over en periode. De har uregelmessige korte utbrudd og påvirker variablene som studeres. De to kategoritypene under kortsiktig bevegelse inkluderer:

    Sesongvariasjoner

    Disse versjonene fungerer regelmessig og periodisk over en periode på mindre enn ett år. De har en tendens til å ha et lignende eller nesten samme mønster i løpet av en 12 måneders periode. Slike variasjoner blir en del av en tidsserie dersom dataene registreres regelmessig, dvs. timevis, daglig, ukentlig, månedlig eller kvartalsvis.

    Sesongvariasjoner er enten menneskeskapte eller naturlig forekommende. Ulike årstider eller klimatiske forhold spiller en avgjørende rolle i slike variasjoner. Avlingsproduksjon er for eksempel helt avhengig av årstider. På samme måte avhenger markedet for en paraply eller regnfrakk av regntiden, mens salget av kjølere og AC-enheter topper seg i sommersesongen.

      14 Kubernetes-veiledninger for nybegynnere til mestre

    Menneskeskapte konvensjoner inkluderer festivaler, fester og anledninger som ekteskap. Slike kortsiktige hendelser gjentar seg år etter år.

    Sykliske variasjoner

    Tidsserievariasjoner som har en tendens til å fungere over en periode på mer enn ett år, kalles sykliske variasjoner. For en bedrift regnes en hel periode som «Business Cycle». Toppen eller nedgangen i virksomhetens ytelse avhenger av ulike faktorer som økonomisk struktur, virksomhetsstyring og andre samvirkende krefter. Disse sykliske forretningsvariasjonene kan være regelmessige, men ikke periodiske. Vanligvis gjennomgår bedrifter en fire-faset syklisk prosess som omfatter velstand, resesjon, depresjon og vekkelse.

    Slike sykliske variasjoner er integrert i et tidsseriemønster ettersom forretningsutvikling i stor grad er avhengig av de genererte «sekvensielle datapunktene».

    Tilfeldige eller uregelmessige bevegelser

    Tilfeldige komponenter forårsaker en betydelig variasjon i variabelen som observeres. Dette er rent uregelmessige svingninger uten noe fast mønster. Styrkene er uforutsette, uforutsigbare og uberegnelige – for eksempel jordskjelv, flom, hungersnød og andre katastrofer.

    Tilfeldige hendelser beskrevet ovenfor analyseres ved å bruke kildetidsseriedataene for å takle bedre slike virkelige scenarier som kan oppstå i fremtiden.

    Typer av tidsserier

    Tidsseriedata kan deles inn i fire typer, deterministiske, ikke-deterministiske, stasjonære og ikke-stasjonære. La oss ta en titt på hver type i detalj.

    #1. Deterministiske tidsserier

    En deterministisk tidsserie kan beskrives med et analytisk uttrykk. Det involverer ikke tilfeldige eller sannsynlige aspekter. Matematisk kan det uttrykkes nøyaktig for alle tidsintervaller i form av en utvidelse av Taylor-serien. Dette er mulig hvis alle dens derivater er kjent på et eller annet vilkårlig tidspunkt. Disse derivatene spesifiserer eksplisitt fortiden og fremtiden på det tidspunktet. Hvis alle betingelsene er oppfylt, er det mulig å forutsi dens fremtidige oppførsel nøyaktig og analysere hvordan den oppførte seg i fortiden.

    #2. Ikke-deterministiske tidsserier

    En ikke-deterministisk tidsserie har et tilfeldig aspekt knyttet til seg som forhindrer dens eksplisitte beskrivelse. Derfor er analytiske uttrykk ikke gjennomførbare nok løsninger for å uttrykke en slik tidsserie. En tidsserie kan være ikke-deterministisk på grunn av følgende årsaker:

  • Informasjonen som kreves for å beskrive den er ikke tilgjengelig i sin helhet. Selv om data i prinsippet kan være til stede, kan de ikke behandles som kvantifiserbare eksplisitt.
  • Datagenereringsprosessen er tilfeldig.
  • På grunn av den tilfeldige faktoren, adlyder den ikke-deterministiske tidsserien sannsynlighetslover. Derfor behandles dataene i statistiske termer – noe som antyder at data er definert av sannsynlighetsfordelinger og gjennomsnitt av ulike former. Dette inkluderer midler og mål for spredning, dvs. varianser.

    #3. Stasjonær tidsserie

    I en stasjonær tidsserie er de statistiske egenskapene som gjennomsnitt, varians og andre ikke avhengig av tidsaspektet. En stasjonær tidsserie er lettere å forutsi da man med sikkerhet kan fastslå at dens statistiske egenskaper vil forbli de samme som de har blitt observert tidligere. Derfor er ulike statistiske prognosemetoder basert på argumentet om at tidsserien er omtrent stasjonær. Dette innebærer at tidsserien kan betraktes som stasjonær i tilnærming ved å bruke enkle matematiske transformasjoner.

    #4. Ikke-stasjonære tidsserier

    I en ikke-stasjonær serie varierer de statistiske egenskapene med tiden. Derfor faller tidsseriene med trender, eller sesongvariasjoner, inn under den ikke-stasjonære kategorien ettersom trenden og sesongvariasjonen kan påvirke verdien av tidsseriene ved forskjellige tidsintervaller. Ikke-stasjonære tidsserier beskriver uforutsigbare data, og hindrer dem i å bli modellert eller forutsagt.

    https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

    Tidsserieanalyse og prognoser

    Tidsserieanalyse og prognoser er nyttige verktøy for å observere, analysere og studere utviklingen og dynamikken til vitale prosesser og objekter av forskjellige slag. La oss se på hver enkelt i større dybde.

    Tidsserieanalyse

    Tidsserieanalyse er definert som en prosess for å analysere data som samles inn over en tidsperiode. Her registrerer dataanalytikere data i konstante intervaller over en fast tidsperiode. Dataobservasjonsraten, dvs. tidsintervallet, kan variere fra sekunder til år.

    Tidsseriedata beskriver variabler under inspeksjon da de gir en detaljert analyse av det fluktuerende mønsteret over et spesifikt tidsrom. Parametrene som er nødvendige for analyse kan variere på tvers av ulike domener og disipliner. Noen av eksemplene kan omfatte:

    • Vitenskapelige instrumenter – Data registrert per dag
    • Kommersiell nettside – Kundebesøk per dag
    • Aksjemarkedet – Aksjeverdier per uke
    • Sesong – Regnværsdager per år
      Hvordan endre bakgrunnsfarge i Microsoft Word

    For å sikre konsistens og pålitelighet, opererer tidsserieanalyse på store mengder datapunkter. En god prøvestørrelse er en subtil representasjon av ektheten til en oppdaget trend eller et mønster.

    I tillegg er tidsserieanalyse også egnet for å forutsi fremtidige hendelser basert på tidligere registrerte data.

    Tidsserieprognoser

    Tidsserieanalyse lar organisasjoner identifisere årsaken til svingninger i trender over tid. Med data i hånden kan bedrifter deretter studere og forske videre for å forstå bedre hvordan de kan takle ukjente trender og forutsi kommende hendelser. Bedrifter bruker vanligvis datavisualiseringsteknikker for å fastslå slike uregelmessigheter i data.

    Tidsserieprognoser dreier seg om to viktige faktorer:

  • Forutse fremtidige hendelser basert på tidligere dataadferd.
  • Anta at de kommende trendene vil ha likheter med tidligere datamønster.
  • I prognoser er hovedmålet i hovedsak å forutsi hvordan datapunktene vil fortsette å forbli de samme eller variere i fremtiden. Her er noen eksempler fra ulike industrisektorer for bedre å forstå nyansene i tidsserieanalyse og prognoser.

    • Aksjemarked – Prognoser sluttaksjekursen hver dag.
    • Salg – Forutsi produktsalg for en butikk hver dag.
    • Prissetting – Forutsi den gjennomsnittlige drivstoffprisen hver dag.

    Noen av de vanlige statistiske teknikkene som brukes for tidsserieprognoser inkluderer enkelt glidende gjennomsnitt (SMA), eksponentiell utjevning (SES), autoregressivt integrert glidende gjennomsnitt (ARIMA) og nevralt nettverk (NN).

    Tidsseriedata i skyen

    For å avsløre verdien av tidsseriedata, bør bedrifter kunne lagre og søke etter data raskt. Kapitalmarkedsselskaper er avhengige av store mengder historiske data og strømmedata for å bruke sanntidsdataanalyse og ta effektive forretningsbeslutninger. Dette kan innebære å forutsi sårbarhet ved aksjekurser, bestemme netto kapitalkrav eller forutsi valutakurser. For å gi fleksibilitet og behandle data sømløst, velger mange firmaer migrering av tidsseriedatabasene sine til skyen.

    Med migrering av tidsseriedatabaser til skyer kan organisasjoner få tilgang til ubegrensede ressurser på forespørsel. Det lar firmaer bruke hundrevis av kjerner for å utføre oppgaven sin som maksimerer nettverksgjennomstrømmingen uten problemer med ventetid.

    Tidsseriedatabaser i skyinfrastrukturen er egnet for dataintensive arbeidsbelastninger. Dette inkluderer å utføre risikoberegninger som svar på sanntids markedstrender. Finansbedrifter kan gjøre unna datasenterets overhead og null på å bruke ressurser for å forbedre produktiviteten til arbeidsbelastningen deres.

    Skyleverandører som AWS tilbyr Amazon Timestream, en tidsseriedatabasetjeneste som tillater enkel lasting, lagring og analyse av tidsseriedatasett. De tilbyr lagring for å administrere transaksjonsintensive arbeidsbelastninger, sanntidsanalyseverktøy og datastrømmefunksjonalitet for å vise hendelser når og når de oppstår.

    Derfor forsterker og skalerer skyinfrastrukturen fordelene med tidsseriedata.

    Anvendelser av tidsserier

    Tidsseriemodeller tjener to formål,

  • Forstå de underliggende faktorene som ga et bestemt datamønster.
  • Basert på analysen, tilpasse en modell for å forutsi og overvåke.
  • La oss se på noen av brukstilfellene for tidsseriedata.

    #1. Tidsserier i finans- og forretningsdomene

    Alle økonomiske, forretningsmessige og investeringsbeslutninger tas basert på gjeldende markedstrender og etterspørselsprognoser. Tidsseriedata brukes til å forklare, korrelere og forutsi det dynamiske finansmarkedet. Finanseksperter kan undersøke de økonomiske dataene for å gi prognoser for applikasjoner som hjelper til med å redusere risiko, stabilisere priser og handel.

    Tidsserieanalyse spiller en nøkkelrolle i finansiell analyse. Den brukes i renteprognose, forutsigelse av volatiliteten i aksjemarkedene og mange flere. Bedriftens interessenter og beslutningstakere kan ta informerte beslutninger om produksjon, kjøp, ressursallokering og optimalisere forretningsdriften.

    Denne analysen brukes effektivt i investeringssektoren for å overvåke sikkerhetsrentene og deres svingninger over tid. Sikkerhetsprisen kan også observeres på kort sikt (dvs. registrere data per time eller dag) eller på lang sikt (dvs. observasjon strukket over måneder eller år). Tidsserieanalyse er et nyttig verktøy for å spore hvordan et verdipapir, eiendel eller økonomisk variabel presterer over en lengre periode.

    #2. Tidsserier i medisinsk domene

    Helsevesenet vokser raskt frem som et datadrevet felt. I tillegg til finansiell og forretningsanalyse, utnytter det medisinske domenet i stor grad tidsserieanalyse.

      Hvordan (og hvorfor!) lage en oppsamlingsside for WordPress?

    Vurder et scenario som krever en synergi av tidsseriedata, medisinsk tilpassede prosedyrer og datautvinningsteknikker mens du behandler kreftpasienter. Et slikt hybridrammeverk kan brukes for å utnytte funksjoner for ekstraksjon fra de innsamlede tidsseriedataene (dvs. pasientens røntgenbilder) for å spore pasientens fremgang og respons på behandlinger gitt av det medisinske brorskapet.

    I helsesektoren er det av kritisk verdi å utlede slutninger fra de stadig skiftende tidsseriedataene. I tillegg krever avansert medisinsk praksis at pasientjournaler kobles sammen over tid for bedre synlighet av pasientens helse. Dessuten må pasientens helseparametere registreres nøyaktig med jevne mellomrom for å få et klarere bilde av pasientens helsetilstand.

    Med avanserte medisinske instrumenter i forgrunnen, har tidsserieanalyse etablert seg i helsevesenet. Tenk på eksempler nedenfor,

    • EKG-enheter: Enheter oppfunnet for å overvåke hjertetilstander ved å registrere de elektriske pulsene til hjertet.
    • EEG-enheter: Enheter som brukes til å kvantifisere elektrisk aktivitet i hjernen.

    Slike enheter har gjort det mulig for leger å utføre tidsserieanalyse for raskere, effektiv og nøyaktig medisinsk diagnose.

    I tillegg, med bruk av IoT-enheter som bærbare sensorer og bærbare helseenheter, kan folk nå ta regelmessige målinger av helsevariablene sine over tid med minimale input. Dette fører til en konsistent datainnsamling av tidsavhengige medisinske data for både syke og friske individer.

    #3. Tidsserie i astronomi

    Astronomi og astrofysikk er de to moderne disiplinene der tidsseriedata blir utnyttet betydelig.

    I bunn og grunn involverer astronomi å plotte kosmiske objekters baner og himmellegemer og utføre nøyaktige målinger for å bedre forstå universet utenfor jordens atmosfære. På grunn av dette kravet er astronomiske eksperter dyktige i å håndtere tidsseriedata mens de kalibrerer og konfigurerer komplekse instrumenter og studerer astronomiske objekter av interesse.

    Tidsseriedata har lenge vært assosiert med astronomifeltet. I 800 f.Kr. ble solflekktidsseriedata samlet inn med jevne mellomrom. Siden den gang ble tidsserieanalyse brukt til

    • Oppdag fjerne stjerner basert på stjerneavstander,
    • Observer kosmiske hendelser som supernovaer for å forstå opprinnelsen til universet vårt bedre.

    Tidsseriedata, i dette tilfellet, er relatert til bølgelengdene og intensiteten til lys gitt fra stjerner, himmellegemer eller objekter. Astronomer overvåker kontinuerlig slike direktestrømmingsdata for å oppdage kosmiske hendelser i sanntid når og når de oppstår.

    I nyere tid har forskningsområder som astroinformatikk og astrostatistikk dukket opp, som blander ulike disipliner som datautvinning, maskinlæring, beregningsintelligens og statistikk. I disse nye forskningsområdene er rollen til tidsseriedata å oppdage og klassifisere astronomiske objekter raskt og effektivt.

    #4. Tidsserie i værmelding

    Aristoteles studerte værmønstre mye for å bedre forstå årsakene og virkningene som ble observert i værendringer i antikken. Etter hvert som dagene gikk, begynte forskere å registrere værrelaterte data på instrumenter som «barometer» for å beregne atmosfæriske variabler. Dataene ble samlet inn med jevne mellomrom og oppbevart på forskjellige steder.

    Etter hvert begynte værmeldingene å vises i avisene. Spol frem til dagens dag og alder, allestedsnærværende værvarslingsstasjoner er installert i forskjellige geografier rundt om i verden for å samle nøyaktige værvariabler.

    Slike stasjoner har avanserte funksjonelle enheter som er sammenkoblet for å samle og korrelere værdata fra ulike steder. De korrelerte dataene brukes til å forutsi værforhold til enhver tid avhengig av krav.

    #5. Tidsserie i forretningsutvikling

    Tidsseriedata gjør det mulig for bedrifter å ta forretningsbeslutninger. Dette oppnås når prosessen analyserer tidligere data for å utlede fremtidige hendelser og kaste lys over sannsynlige muligheter. Det tidligere datamønsteret brukes til å utlede følgende parametere:

    • Forretningsvekst: For å evaluere den generelle økonomiske og forretningsmessige ytelsen og måle vekst, er tidsseriedata den mest egnede og pålitelige ressursen.
    • Estimattrend: Ulike tidsseriemetoder kan brukes for å estimere nye trender. Tenk for eksempel på at disse metodene analyserer dataobservasjoner over en periode for å reflektere over en økning eller nedgang i salget av en bestemt elektronisk enhet.
    • Avduke sesongmønstre: De registrerte datapunktene kan avsløre svingninger og sesongmønstre som kan hjelpe til med dataprognoser. Den innhentede datainformasjonen spiller en nøkkelrolle for markeder der produktprisene varierer sesongmessig. Slike data kan hjelpe bedrifter med bedre produktplanlegging og utvikling.

    Konklusjon 👨‍🏫

    Oppsummert kan tidsseriedata sees på som egenskapene til komplekse datapunkter samlet over en konstant tidsperiode. Tidsserieanalyse, modellering og prognose har blitt en integrert del av hverdagen vår med fremveksten av IoT-dingser, smarte husholdningsapparater og bærbare enheter. Dessuten finner tidsseriedata sin anvendelse på forskjellige felt, inkludert helsevesen, astrofysikk, økonomi, ingeniørfag, næringsliv og mange flere.