«Tid» fremstår som en kritisk faktor når vi studerer dataakkumulering. I analyser av tidsserier er tid en fundamental del av informasjonen.
Hva er tidsseriedata?
Tidsseriedata refererer til en sekvens av datapunkter organisert i kronologisk rekkefølge. Dette skaper en avhengighet mellom observasjoner. Tidsserier finnes overalt i dagens datadrevne samfunn. Fordi hver hendelse følger tidens gang, er vi stadig i kontakt med en rekke tidsseriedata.
Tidsserier antas normalt å være generert med jevne tidsintervaller, og omtales som regulære tidsserier. Dataene i en slik serie trenger imidlertid ikke å oppstå med jevne mellomrom. Dette kalles uregelmessige tidsserier, der dataene følger en temporær sekvens. Det betyr at målinger ikke nødvendigvis skjer regelmessig. Data kan genereres i diskrete intervaller eller som en serie. Uttak fra minibanker eller innskudd på konto er eksempler på uregelmessige tidsserier.
Teknisk sett endres en eller flere variabler i en tidsserie over en bestemt periode. Hvis en enkelt variabel varierer over tid, kalles det en univariat tidsserie. Tenk deg en sensor som måler temperaturen i et rom hvert sekund. Her registreres kun én endimensjonal temperaturverdi ved hvert øyeblikk. Omvendt, når flere enn én variabel endrer seg over tid, kalles det en multivariat tidsserie. Et eksempel er bankøkonomi. I slike tilfeller brukes multivariate tidsserier for å forstå hvordan endringer i én variabel, som for eksempel styringsrenten, påvirker andre variabler (f.eks. utlånsvolum for kommersielle banker).
Tidsseriedata er relevante i mange fagområder, fra finans, geologi, meteorologi og produksjon til informatikk, IoT, og både natur- og samfunnsvitenskap. De brukes til å spore værendringer, fødselsrater, dødelighet, markedssvingninger, nettverksytelse og mye mer. Noen av de viktigste anvendelsene er overvåking, prognoser og deteksjon av anomalier. For eksempel er tidsserieprognoser avgjørende for å vurdere populariteten til ulike databasestyringssystemer. Figuren nedenfor viser den økende populariteten til DBMS i tidsperioden 2019-2021 i et tidsserieplott.
https://www.influxdata.com/time-series-database/
Grunnleggende elementer i tidsserier
Faktorene som påvirker verdiene i en observasjon av en tidsserie, anses som de grunnleggende elementene. De tre hovedkategoriene av komponenter inkluderer:
- Trend eller langsiktige bevegelser
- Kortvarige bevegelser
- Sesongmessige variasjoner
- Sykliske variasjoner
- Tilfeldige eller uregelmessige bevegelser
Trend
En tendens til at data øker eller avtar over tid kalles en trend eller en langsiktig komponent. Det er viktig å huske at denne oppadgående eller nedadgående bevegelsen ikke nødvendigvis er konstant over tid.
Trendene kan stige, synke eller forbli stabile i ulike tidsperioder. Den generelle trenden må imidlertid alltid vise et klart oppadgående, nedadgående eller stabilt mønster. Slike bevegelser er synlige i eksempler som jordbruksproduktivitet, dødsrater, produksjonsvolum, antall fabrikker, osv.
Lineær og ikke-lineær trend
Ved å plotte tidsserieverdier mot tid i en graf, kan vi identifisere typen trend basert på hvordan datapunktene grupperes. Hvis datapunktene ligger omtrent langs en rett linje, kalles trenden en lineær trend. Hvis ikke, viser datapunktene en ikke-lineær trend, der forholdet mellom to variabler ikke er konstant. Slike trender kan også omtales som kurvlineære korrelasjoner.
Kortsiktige bevegelser
Disse komponentene i en tidsserie har en tendens til å gjenta seg med jevne mellomrom. De har korte, uregelmessige utbrudd og påvirker variablene som studeres. De to hovedtypene av kortsiktige bevegelser er:
Sesongmessige variasjoner
Disse variasjonene forekommer regelmessig og periodisk i løpet av et år. De har en tendens til å følge et lignende mønster i løpet av en 12-måneders periode. Slike variasjoner blir en del av en tidsserie hvis dataene registreres jevnlig, for eksempel timevis, daglig, ukentlig, månedlig eller kvartalsvis.
Sesongmessige variasjoner kan være menneskeskapte eller naturlige. Årstider eller klimatiske forhold spiller en viktig rolle i disse variasjonene. For eksempel er avlingsproduksjon sterkt avhengig av årstidene. Salget av paraplyer eller regnfrakker øker i regntiden, mens salget av kjølere og klimaanlegg topper seg om sommeren.
Menneskeskapte tradisjoner inkluderer festivaler, høytider og anledninger som bryllup. Slike kortvarige hendelser gjentar seg år etter år.
Sykliske variasjoner
Tidsserievariasjoner som varer i mer enn et år, kalles sykliske variasjoner. For en virksomhet regnes en hel periode som en «konjunktursyklus». Topper eller nedturer i virksomhetens prestasjoner avhenger av faktorer som økonomisk struktur, ledelse og andre sammenvirkende krefter. Disse sykliske variasjonene kan være regelmessige, men ikke periodiske. Vanligvis går bedrifter gjennom en firetrinns syklisk prosess som inkluderer oppgang, resesjon, depresjon og oppsving.
Slike sykliske variasjoner er en viktig del av tidsseriemønstre, da forretningsutvikling i stor grad er avhengig av de «sekvensielle datapunktene» som genereres.
Tilfeldige eller uregelmessige bevegelser
Tilfeldige komponenter kan forårsake store svingninger i variabelen som observeres. Dette er helt uregelmessige variasjoner uten faste mønstre. De er uforutsette, uforutsigbare og kan ikke beregnes – som jordskjelv, flom, hungersnød og andre katastrofer.
Tilfeldige hendelser som nevnt over, analyseres ved hjelp av tidsseriedata for å håndtere lignende hendelser som kan oppstå i fremtiden.
Typer tidsserier
Tidsseriedata kan deles inn i fire hovedtyper: deterministiske, ikke-deterministiske, stasjonære og ikke-stasjonære. La oss se nærmere på hver type.
#1. Deterministiske tidsserier
En deterministisk tidsserie kan beskrives med et analytisk uttrykk. Den inneholder ingen tilfeldige eller sannsynlige elementer. Matematisk kan den uttrykkes nøyaktig for alle tidsintervaller ved hjelp av en Taylor-rekkeutvikling. Dette er mulig hvis alle dens deriverte er kjent på et bestemt tidspunkt. Disse deriverte spesifiserer eksplisitt fortiden og fremtiden på det tidspunktet. Hvis alle betingelsene er oppfylt, kan man forutsi dens fremtidige atferd nøyaktig og analysere dens tidligere oppførsel.
#2. Ikke-deterministiske tidsserier
En ikke-deterministisk tidsserie har et tilfeldig aspekt som hindrer en eksplisitt beskrivelse. Derfor er analytiske uttrykk ikke tilstrekkelige løsninger for å beskrive en slik serie. En tidsserie kan være ikke-deterministisk av følgende årsaker:
- Informasjonen som kreves for å beskrive den er ikke fullstendig tilgjengelig. Selv om dataene i prinsippet kan eksistere, kan de ikke behandles som kvantifiserbare eksplisitt.
- Datagenereringsprosessen er tilfeldig.
På grunn av den tilfeldige faktoren, følger ikke den ikke-deterministiske tidsserien sannsynlighetslover. Derfor behandles dataene statistisk – som betyr at dataene defineres av sannsynlighetsfordelinger og gjennomsnitt. Dette inkluderer gjennomsnitt og spredningsmål, dvs. varianser.
#3. Stasjonær tidsserie
I en stasjonær tidsserie er de statistiske egenskapene, som gjennomsnitt og varians, uavhengige av tid. En stasjonær tidsserie er lettere å forutsi, da man kan være sikker på at dens statistiske egenskaper vil forbli de samme som tidligere. Derfor er mange statistiske prognosemetoder basert på antakelsen om at tidsserien er tilnærmet stasjonær. Dette betyr at tidsserien kan betraktes som stasjonær ved hjelp av enkle matematiske transformasjoner.
#4. Ikke-stasjonære tidsserier
I en ikke-stasjonær serie varierer de statistiske egenskapene over tid. Derfor faller tidsserier med trender eller sesongvariasjoner inn under den ikke-stasjonære kategorien, da både trenden og sesongvariasjonene kan påvirke verdien av tidsserien på ulike tidspunkter. Ikke-stasjonære tidsserier beskriver uforutsigbare data, noe som gjør det vanskelig å modellere eller forutsi dem.
Tidsserieanalyse og prognoser
Tidsserieanalyse og prognoser er nyttige verktøy for å studere utviklingen og dynamikken i forskjellige prosesser og objekter. La oss se nærmere på hver av dem.
Tidsserieanalyse
Tidsserieanalyse defineres som en prosess for å analysere data som samles inn over tid. Her registrerer dataanalytikere data i konstante intervaller over en bestemt periode. Dataobservasjonsraten, dvs. tidsintervallet, kan variere fra sekunder til år.
Tidsseriedata beskriver variabler som studeres, og gir en detaljert analyse av det skiftende mønsteret over et bestemt tidsrom. Parameterne som kreves for analyse kan variere avhengig av domene og fagfelt. Noen eksempler er:
- Vitenskapelige instrumenter – Data registrert per dag
- Kommersiell nettside – Kundebesøk per dag
- Aksjemarkedet – Aksjeverdier per uke
- Sesong – Regnværsdager per år
For å sikre konsistens og pålitelighet, utføres tidsserieanalyse med store mengder datapunkter. En god utvalgsstørrelse er viktig for å gi en nøyaktig representasjon av en identifisert trend eller et mønster.
Tidsserieanalyse kan også brukes til å forutsi fremtidige hendelser basert på tidligere registrerte data.
Tidsserieprognoser
Tidsserieanalyse hjelper organisasjoner med å identifisere årsakene til svingninger i trender over tid. Med dataene tilgjengelig kan bedrifter studere og undersøke ytterligere for å forstå hvordan de kan håndtere ukjente trender og forutse kommende hendelser. Bedrifter bruker ofte datavisualiseringsteknikker for å oppdage slike uregelmessigheter i data.
Tidsserieprognoser dreier seg om to hovedfaktorer:
- Forutse fremtidige hendelser basert på tidligere data.
- Anta at de kommende trendene vil ligne på tidligere datamønstre.
Hovedmålet med prognoser er å forutsi hvordan datapunktene vil fortsette å oppføre seg i fremtiden. Her er noen eksempler fra forskjellige bransjer for å bedre forstå nyansene i tidsserieanalyse og prognoser.
- Aksjemarkedet – Forutse sluttkursen hver dag.
- Salg – Forutse produktsalg for en butikk hver dag.
- Prissetting – Forutse den gjennomsnittlige drivstoffprisen hver dag.
Noen vanlige statistiske teknikker som brukes for tidsserieprognoser er enkelt glidende gjennomsnitt (SMA), eksponentiell utjevning (SES), autoregressivt integrert glidende gjennomsnitt (ARIMA) og nevrale nettverk (NN).
Tidsseriedata i skyen
For å utnytte verdien av tidsseriedata, bør bedrifter kunne lagre og søke etter data raskt. Finansselskaper er avhengige av store mengder historiske data og strømmedata for å bruke sanntidsdataanalyse og ta effektive forretningsbeslutninger. Dette kan omfatte å forutsi sårbarhet i aksjekurser, beregne nettokapitalkrav eller forutse valutakurser. For å gi fleksibilitet og behandle data smidig, velger mange selskaper å migrere sine tidsseriedatabaser til skyen.
Med migrering av tidsseriedatabaser til skyen kan organisasjoner få tilgang til ubegrensede ressurser ved behov. Det lar bedrifter bruke hundrevis av kjerner for å utføre oppgaver som maksimerer nettverksgjennomstrømningen uten forsinkelser.
Tidsseriedatabaser i skyinfrastruktur er egnet for dataintensive arbeidsbelastninger. Dette inkluderer risikoberegninger som svar på markedstrender i sanntid. Finansbedrifter kan redusere kostnadene ved datasentre og bruke ressursene til å øke produktiviteten.
Skyleverandører som AWS tilbyr Amazon Timestream, en tidsseriedatabasetjeneste som tillater enkel lasting, lagring og analyse av tidsseriedata. Den tilbyr lagring for å håndtere transaksjonsintensive arbeidsbelastninger, analyseverktøy i sanntid og datastrømmefunksjonalitet for å vise hendelser når de oppstår.
Dermed forbedrer og skalerer skyinfrastrukturen fordelene med tidsseriedata.
Anvendelser av tidsserier
Tidsseriemodeller tjener to formål:
- Forstå de underliggende faktorene som skaper et bestemt datamønster.
- Basert på analysen, tilpasse en modell for å forutsi og overvåke.
La oss se på noen eksempler på bruk av tidsseriedata.
#1. Tidsserier i finans- og forretningsdomenet
Alle økonomiske, forretningsmessige og investeringsbeslutninger tas basert på gjeldende markedstrender og etterspørselsprognoser. Tidsseriedata brukes til å forklare, korrelere og forutsi det dynamiske finansmarkedet. Finanseksperter kan analysere de økonomiske dataene for å lage prognoser som hjelper til med å redusere risiko, stabilisere priser og handle.
Tidsserieanalyse spiller en nøkkelrolle i finansiell analyse. Den brukes til renteprognoser, forutsigelse av volatilitet i aksjemarkedet og mye mer. Bedriftsinteressenter og beslutningstakere kan ta informerte beslutninger om produksjon, innkjøp, ressursallokering og optimalisering av driften.
Denne analysen brukes også i investeringssektoren for å overvåke sikkerhetsrenter og deres svingninger over tid. Sikkerhetsprisen kan observeres på kort sikt (f.eks. registrere data per time eller dag) eller på lang sikt (observasjoner over måneder eller år). Tidsserieanalyse er et nyttig verktøy for å spore hvordan et verdipapir, en eiendel eller en økonomisk variabel oppfører seg over tid.
#2. Tidsserier i det medisinske domenet
Helsevesenet utvikler seg raskt til et datadrevet felt. I tillegg til finansiell og forretningsanalyse, benytter det medisinske domenet seg i stor grad av tidsserieanalyse.
Tenk deg et scenario som krever en kombinasjon av tidsseriedata, medisinsk tilpassede prosedyrer og datautvinningsteknikker i behandling av kreftpasienter. Et slikt hybridrammeverk kan brukes til å utnytte funksjoner fra de innsamlede tidsseriedataene (f.eks. pasientens røntgenbilder) for å spore pasientens fremgang og respons på behandlingen.
I helsesektoren er det kritisk å trekke konklusjoner fra tidsseriedataene som endrer seg kontinuerlig. Avansert medisinsk praksis krever også at pasientjournaler kobles sammen over tid for bedre oversikt over pasientens helse. I tillegg må pasientens helseparametre registreres jevnlig for å få et klarere bilde av pasientens helsetilstand.
Med avanserte medisinske instrumenter i forkant har tidsserieanalyse etablert seg i helsevesenet. Her er noen eksempler:
- EKG-enheter: Enheter som brukes for å overvåke hjertetilstander ved å registrere de elektriske impulsene i hjertet.
- EEG-enheter: Enheter som brukes til å kvantifisere elektrisk aktivitet i hjernen.
Slike enheter har gjort det mulig for leger å utføre tidsserieanalyse for raskere, mer effektiv og nøyaktig medisinsk diagnose.
Med bruk av IoT-enheter som bærbare sensorer og helseenheter, kan folk nå ta regelmessige målinger av helsevariabler over tid med minimalt innsats. Dette gir en kontinuerlig datainnsamling av tidsavhengige medisinske data for både syke og friske mennesker.
#3. Tidsserier i astronomi
Astronomi og astrofysikk er to moderne disipliner der tidsseriedata brukes i stor grad.
Astronomi omfatter kartlegging av baner til kosmiske objekter og himmellegemer, og utførelse av nøyaktige målinger for å bedre forstå universet utenfor jordens atmosfære. Derfor er astronomer dyktige i å håndtere tidsseriedata når de kalibrerer og konfigurerer komplekse instrumenter og studerer astronomiske objekter.
Tidsseriedata har lenge vært knyttet til astronomifeltet. Allerede i 800 f.Kr. ble tidsseriedata om solflekker samlet inn regelmessig. Siden den gang har tidsserieanalyse blitt brukt til:
- Oppdagelse av fjerne stjerner basert på avstander.
- Observasjon av kosmiske hendelser som supernovaer for å forstå opprinnelsen til universet.
Tidsseriedata er i dette tilfellet relatert til bølgelengder og intensiteten av lys fra stjerner, himmellegemer eller andre objekter. Astronomer overvåker kontinuerlig slike datastrømmer for å oppdage kosmiske hendelser i sanntid.
I nyere tid har forskningsområder som astroinformatikk og astrostatistikk dukket opp, som kombinerer fagområder som datautvinning, maskinlæring, beregningsintelligens og statistikk. I disse nye feltene er rollen til tidsseriedata å oppdage og klassifisere astronomiske objekter raskt og effektivt.
#4. Tidsserier i værmelding
Aristoteles studerte værmønstre for å forstå årsakene og virkningene av værforandringer i antikken. Etter hvert begynte forskere å registrere værrelaterte data ved hjelp av instrumenter som «barometeret» for å beregne atmosfæriske variabler. Dataene ble samlet inn med jevne mellomrom og oppbevart på forskjellige steder.
Etter hvert begynte værmeldingene å dukke opp i aviser. I dag er det værvarslingsstasjoner over hele verden som samler inn nøyaktige værdata.
Disse stasjonene har avanserte enheter som er koblet sammen for å samle inn og korrelere værdata fra forskjellige steder. De korrelerte dataene brukes til å forutsi værforhold etter behov.
#5. Tidsserier i forretningsutvikling
Tidsseriedata hjelper bedrifter med å ta forretningsbeslutninger. Dette oppnås ved at tidligere data analyseres for å avdekke fremtidige hendelser og muligheter. De tidligere datamønstrene brukes til å beregne følgende:
- Forretningsvekst: Tidsseriedata er den mest pålitelige ressursen for å evaluere generell økonomisk og forretningsmessig ytelse og måle vekst.
- Estimere trender: Ulike tidsseriemetoder kan brukes for å estimere nye trender. For eksempel kan disse metodene analysere data over tid for å se en økning eller nedgang i salget av en elektronisk enhet.
- Avdekke sesongmønstre: De registrerte datapunktene kan vise svingninger og sesongmønstre som kan brukes til prognoser. Denne dataen er viktig for markeder der produktprisene varierer sesongmessig. Slik informasjon kan hjelpe bedrifter med bedre produktplanlegging og utvikling.
Konklusjon 👨🏫
Sammenfattende kan tidsseriedata betraktes som egenskapene til komplekse datapunkter samlet over en konstant tidsperiode. Tidsserieanalyse, modellering og prognoser har blitt en integrert del av hverdagen vår, med fremveksten av IoT-enheter, smarte husholdningsapparater og bærbare enheter. Tidsseriedata brukes også i mange forskjellige områder, inkludert helsevesen, astrofysikk, økonomi, ingeniørfag, næringsliv og mye mer.