Wko

Hvordan avvise uteliggere i data

Eksperimentelle data må granskes for uteliggere for å trekke meningsfulle konklusjoner fra det. I de enkleste tilfellene, dette oppnås ved å beregne middelverdien og standardavviket ved hjelp av alle datapunktene og avvise noen som er over tre standardavvik unna gjennomsnittet.

Men som antall prøver i datasettet øker, øker sannsynligheten for å se ekstreme eksempler også. For å veie opp for den økte sannsynligheten for å komme over ekstreme verdier, er følgende endringer foreslått.

Trinn

Hvordan avvise uteliggere i data. Beregn middelverdien å bruke alle datapunktene, inkludert mistenkte uteliggere.
Hvordan avvise uteliggere i data. Beregn middelverdien å bruke alle datapunktene, inkludert mistenkte uteliggere.
  1. 1
    Beregn middelverdien å bruke alle datapunktene, inkludert mistenkte uteliggere.
  2. 2
    Beregne standardavviket ved hjelp
  3. 3
    For hvert datapunkt, xi, beregnings-, i en separat kolonne,
    • For hver z> 0, beregne den Na, området under normalfordelingskurven mellom z og ∞, i en egen kolonne. Du kan gjøre dette i Excel ved hjelp av N * NORMSFORDELING ()-funksjonen, eller ved hjelp av følgende formel:
    • For hver z <0, beregne den Na, området under normalfordelingskurven mellom - ∞ og z, i en egen kolonne. Du kan gjøre dette i Excel ved hjelp av en - N * NORMSFORDELING ()-funksjonen, eller ved hjelp av følgende formel:
    • Hvis den Na <0,05, avviser datapunkt som en avvikende.
  4. 4
    Figuren nedenfor viser en serie av datapunkter med de to første med vilje satt til å være synlig forskjellig fra de andre. Det var 80 datapunkter, med et gjennomsnitt på 1122,6 og et standardavvik på 1.430.
    • Den lave outlier var 1117, med en beregnet z = 3,899. Den Na_ verdi var 0,004, noe som er mindre enn 0,05, så dette punktet kan trygt avvist som en avvikende.
    • Den høye outlier var 1128, med en datamaskin z = 3,794. Den Na_ verdi var 0,006, noe som er mindre enn 0,05, så dette punkt kan det også være trygt avvist som en avvikende.

Tips

  • Hvis uteliggere oppstår, bør årsaken til avvikende bli identifisert før du forkaster det. Hvis en verdi er en dataregistrering feil eller fra en annen prosess det skal korrigeres hvis mulig i stedet for å slette den. Hvis verdien er fra prosessen eller befolkningen du studerer og er ikke en dataregistrering feil det ikke skal slettes. Det er en del av den naturlige variasjon i dataene, og bør være inkludert i kvantifisere variabilitet.

Advarsler

  • Denne prosedyren forutsetter verdiene generert av prosessen eller befolkningen følger en normalfordeling. Selv målefeil kan følge en normal fordeling i mange tilfeller, kan mange populasjoner og prosesser ikke følge en normalfordeling. Som et resultat av den fremgangsmåte som er beskrevet i denne artikkelen kan resultere i feilaktig sletting verdier fra dataene. Også selv med data som er normalfordelt noen verdier utover 3 standardavvik vil oppstå med et stort antall observasjoner.
  • Det anses ikke god statistisk praksis å forkaste uteliggere uten sterk sak. Forkaster uteliggere uten grunn vanligvis resulterer i å undervurdere den faktiske variasjonen av prosessen som genererer data. Uteliggere oppstår vanligvis fra tre mulige årsaker:
    • Dataregistrering feil.
    • Verdier fra en annen populasjon eller prosess.
    • Faktiske uvanlige verdier i dataene.