Hvad sker der, hvis dine data IKKE er normale?
On januar 15, 2022 by adminI denne artikel diskuterer vi Chebyshevs grænse for statistisk dataanalyse. Hvis man ikke har nogen idé om et givet datasæts normalitet, kan denne grænse bruges til at måle koncentrationen af data omkring middelværdien.
Introduktion
Det er Halloween-uge, og mellem tricks og godbidder griner vi datanørder over dette søde meme over de sociale medier.
Tænker du, at dette er en joke? Lad mig fortælle jer, at det er ikke noget at grine af. Det er skræmmende, helt i Halloween-ånden!
Hvis vi ikke kan antage, at de fleste af vores data (af forretningsmæssig, social, økonomisk eller videnskabelig oprindelse) i det mindste tilnærmelsesvis er “normale” (dvs. de er genereret af en Gauss-proces eller af en sum af flere sådanne processer), så er vi dødsdømt!
Her er en ekstremt kort liste over ting, der ikke vil være gyldige,
- Hele begrebet six-sigma
- Den berømte 68-95-99,7-regel
- Det ‘hellige’ begreb p=0,05 (kommer fra 2 sigma-interval) i statistisk analyse
Skræmmende nok? Lad os tale mere om det…
Den almægtige og allestedsnærværende normalfordeling
Lad os holde dette afsnit kort og godt.
Normalfordelingen (gaussisk) er den mest kendte sandsynlighedsfordeling. Her er nogle links til artikler, der beskriver dens styrke og brede anvendelighed,
- Hvorfor dataloger elsker Gaussian
- Sådan dominerer du statistikdelen af dit interview om datalogi
- Hvad er så vigtigt ved normalfordelingen?
På grund af dens forekomst i forskellige domæner og det centrale grænseteorem (CLT) indtager denne fordeling en central plads inden for datalogi og analytik.
Så, hvad er problemet?
Det er alt sammen helt fint, hvad er problemet?
Problemet er, at du ofte kan finde en fordeling for dit specifikke datasæt, som måske ikke opfylder normalitet, dvs. egenskaberne ved en normalfordeling. Men på grund af den overdrevne afhængighed af antagelsen om normalitet er de fleste business analytics-rammer skræddersyet til at arbejde med normalt fordelte datasæt.
Det er næsten indgroet i vores underbevidsthed.
Lad os sige, at du bliver bedt om at opdage tjekke, om en ny batch data fra en eller anden proces (teknik eller forretning) giver mening. Med ‘giver mening’ mener du, om de nye data hører til, dvs. om de ligger inden for ‘det forventede interval’.
Hvad er denne ‘forventning’? Hvordan kvantificeres intervallet?
Automatisk, som om det var styret af en underbevidst drivkraft, måler vi gennemsnittet og standardafvigelsen for stikprøvedatasættet og fortsætter med at kontrollere, om de nye data falder inden for visse standardafvigelser.
Hvis vi skal arbejde med en 95 % konfidensgrænse, så er vi glade for at se dataene falde inden for 2 standardafvigelser. Hvis vi har brug for en strengere grænse, kontrollerer vi 3 eller 4 standardafvigelser. Vi beregner Cpk, eller vi følger six-sigma retningslinjerne for ppm (parts-per-million) kvalitetsniveau.
Tabellen ser ud som følgende (her betegner k så mange standardafvigelser væk fra middelværdien),
En videodemo af dens anvendelse er her,
Hvad er hagen ved det? Hvorfor bruger folk ikke denne “mere universelle” grænse?
Det er indlysende, hvad fangsten er, hvis man ser på tabellen eller den matematiske definition. Chebyshev-reglen er meget svagere end Gauss-reglen, når det gælder om at sætte grænser for dataene.
Den følger et 1/k²-mønster sammenlignet med et eksponentielt faldende mønster for normalfordelingen.
For eksempel skal man for at afgrænse noget med 95 % sikkerhed medtage data op til 4,5 standardafvigelser mod 4,5 standardafvigelser. kun 2 standardafvigelser (for Normal).
Men det kan stadig redde situationen, når dataene ikke ligner en Normalfordeling.
Er der noget bedre?
Der findes en anden afgrænsning kaldet “Chernoff Bound”/Hoeffding-ulighed, som giver en eksponentielt skarp halefordeling (sammenlignet med 1/k²) for summer af uafhængige tilfældige variabler.
Dette kan også bruges i stedet for den gaussiske fordeling, når dataene ikke ser normale ud, men kun når vi har en høj grad af tillid til, at den underliggende proces er sammensat af delprocesser, som er fuldstændig uafhængige af hinanden.
I mange sociale og forretningsmæssige tilfælde er de endelige data desværre resultatet af et ekstremt kompliceret samspil mellem mange delprocesser, som kan have en stærk indbyrdes afhængighed.
Summary
I denne artikel har vi lært om en særlig type statistisk binding, som kan anvendes på den bredest mulige fordeling af data uafhængigt af antagelsen om normalitet. Dette er praktisk, når vi ved meget lidt om den sande kilde til dataene og ikke kan antage, at de følger en Gaussisk fordeling. Grænsen følger en potenslov i stedet for en eksponentiel natur (som Gaussian) og er derfor svagere. Men det er et vigtigt værktøj at have i sit repertoire til at analysere enhver vilkårlig form for datafordeling.
Skriv et svar