Hvordan (og hvorfor) bruke Outliers-funksjonen i Excel

En uteligger er en verdi som er betydelig høyere eller lavere enn de fleste verdiene i dataene dine. Når du bruker Excel til å analysere data, kan avvikere forvride resultatene. For eksempel kan gjennomsnittlig gjennomsnitt av et datasett virkelig gjenspeile verdiene dine. Excel har noen nyttige funksjoner for å hjelpe deg med å administrere avvikene dine, så la oss ta en titt.

Et raskt eksempel

På bildet nedenfor er avvikene rimelig enkle å få øye på – verdien av to tildelt Eric og verdien av 173 tildelt Ryan. I et datasett som dette er det lett nok å oppdage og håndtere disse uteliggere manuelt.

I et større sett med data vil det ikke være tilfelle. Det er viktig å kunne identifisere uteliggere og fjerne dem fra statistiske beregninger – og det er det vi skal se på hvordan vi gjør i denne artikkelen.

  Hvordan lage postetiketter i Word fra en Excel-liste

Hvordan finne uteliggere i dataene dine

For å finne uteliggere i et datasett bruker vi følgende trinn:

Beregn 1. og 3. kvartil (vi skal snakke om hva de er om litt).
Vurder interkvartilområdet (vi skal også forklare disse litt lenger ned).
Returner øvre og nedre grenser for dataområdet vårt.
Bruk disse grensene for å identifisere de utenforliggende datapunktene.

Celleområdet til høyre for datasettet som vises i bildet nedenfor, vil bli brukt til å lagre disse verdiene.

La oss komme i gang.

Trinn én: Beregn kvartilene

Hvis du deler dataene inn i kvartaler, kalles hvert av disse settene en kvartil. De laveste 25 % av tallene i området utgjør den 1. kvartilen, de neste 25 % den 2. kvartilen, og så videre. Vi tar dette trinnet først fordi den mest brukte definisjonen av en uteligger er et datapunkt som er mer enn 1,5 interkvartilområder (IQRs) under 1. kvartil, og 1,5 interkvartilområder over 3. kvartil. For å bestemme disse verdiene, må vi først finne ut hva kvartilene er.

Excel har en KVARTILE-funksjon for å beregne kvartiler. Det krever to deler av informasjon: arrayen og quart.

=QUARTILE(array, quart)

Matrisen er rekkevidden av verdier du evaluerer. Og kvartilen er et tall som representerer kvartilen du ønsker å returnere (f.eks. 1 for 1. kvartil, 2 for 2. kvartil, og så videre).

  Hvordan fikse com.apple.mobilephone-feilen 1035

Merk: I Excel 2010 ga Microsoft ut funksjonene QUARTILE.INC og QUARTILE.EXC som forbedringer av QUARTILE-funksjonen. QUARTILE er mer bakoverkompatibel når du arbeider på tvers av flere versjoner av Excel.

La oss gå tilbake til eksempeltabellen vår.

For å beregne 1. kvartil kan vi bruke følgende formel i celle F2.

=QUARTILE(B2:B14,1)

Når du skriver inn formelen, gir Excel en liste over alternativer for quart-argumentet.

For å beregne den 3. kvartilen kan vi skrive inn en formel som den forrige i celle F3, men bruke en treer i stedet for en ener.

=QUARTILE(B2:B14,3)

Nå har vi kvartildatapunktene vist i cellene.

Trinn to: Evaluer interkvartilområdet

Interkvartilområdet (eller IQR) er de midterste 50 % av verdiene i dataene dine. Den beregnes som differansen mellom 1. kvartilverdi og 3. kvartilverdi.

Vi skal bruke en enkel formel i celle F4 som trekker den 1. kvartilen fra den 3. kvartilen:

=F3-F2

Nå kan vi se interkvartilområdet vårt vises.

Trinn tre: Returner nedre og øvre grense

De nedre og øvre grensene er de minste og største verdiene i dataområdet vi ønsker å bruke. Alle verdier som er mindre eller større enn disse bundne verdiene er uteliggere.

Vi vil beregne den nedre grensen i celle F5 ved å multiplisere IQR-verdien med 1,5 og deretter trekke den fra Q1-datapunktet:

=F2-(1.5*F4)

Merk: Klammerne i denne formelen er ikke nødvendige fordi multiplikasjonsdelen vil beregne før subtraksjonsdelen, men de gjør formelen lettere å lese.

  Hvordan bruke VLOOKUP på en rekke verdier

For å beregne den øvre grensen i celle F6, multipliserer vi IQR med 1,5 igjen, men denne gangen legger vi den til Q3-datapunktet:

=F3+(1.5*F4)

Trinn fire: Identifiser uteliggere

Nå som vi har satt opp alle de underliggende dataene våre, er det på tide å identifisere de ytre datapunktene våre – de som er lavere enn den nedre grenseverdien eller høyere enn den øvre grenseverdien.

Vi vil bruke ELLER-funksjon for å utføre denne logiske testen og vise verdiene som oppfyller disse kriteriene ved å skrive inn følgende formel i celle C2:

=OR(B2$F$6)

Vi kopierer deretter denne verdien inn i C3-C14-cellene våre. En TRUE-verdi indikerer en uteligger, og som du kan se, har vi to i dataene våre.

Ignorer uteliggere ved beregning av gjennomsnittlig gjennomsnitt

Ved å bruke QUARTILE-funksjonen kan vi beregne IQR og jobbe med den mest brukte definisjonen av en uteligger. Men når man beregner gjennomsnittlig gjennomsnitt for en rekke verdier og ignorerer uteliggere, er det en raskere og enklere funksjon å bruke. Denne teknikken vil ikke identifisere en uteligger som før, men den vil tillate oss å være fleksible med hva vi kan betrakte som vår ytterside.

Funksjonen vi trenger heter TRIMMEAN, og du kan se syntaksen for den nedenfor:

=TRIMMEAN(array, percent)

Matrisen er rekkevidden av verdier du vil gjennomsnittliggjøre. Prosenten er prosentandelen av datapunkter som skal ekskluderes fra toppen og bunnen av datasettet (du kan angi det som en prosentandel eller en desimalverdi).

Vi skrev inn formelen nedenfor i celle D3 i vårt eksempel for å beregne gjennomsnittet og ekskludere 20 % av uteliggere.

=TRIMMEAN(B2:B14, 20%)

Der har du to forskjellige funksjoner for å håndtere uteliggere. Enten du vil identifisere dem for enkelte rapporteringsbehov eller ekskludere dem fra beregninger som gjennomsnitt, har Excel en funksjon som passer dine behov.