Articles

Hvad sker der, hvis dine data IKKE er normale?

On januar 15, 2022 by admin

I denne artikel diskuterer vi Chebyshevs grænse for statistisk dataanalyse. Hvis man ikke har nogen idé om et givet datasæts normalitet, kan denne grænse bruges til at måle koncentrationen af data omkring middelværdien.

Introduktion

Det er Halloween-uge, og mellem tricks og godbidder griner vi datanørder over dette søde meme over de sociale medier.

Tænker du, at dette er en joke? Lad mig fortælle jer, at det er ikke noget at grine af. Det er skræmmende, helt i Halloween-ånden!

Hvis vi ikke kan antage, at de fleste af vores data (af forretningsmæssig, social, økonomisk eller videnskabelig oprindelse) i det mindste tilnærmelsesvis er “normale” (dvs. de er genereret af en Gauss-proces eller af en sum af flere sådanne processer), så er vi dødsdømt!

Her er en ekstremt kort liste over ting, der ikke vil være gyldige,

Hele begrebet six-sigma
Den berømte 68-95-99,7-regel
Det ‘hellige’ begreb p=0,05 (kommer fra 2 sigma-interval) i statistisk analyse

Skræmmende nok? Lad os tale mere om det…

Den almægtige og allestedsnærværende normalfordeling

Lad os holde dette afsnit kort og godt.

Normalfordelingen (gaussisk) er den mest kendte sandsynlighedsfordeling. Her er nogle links til artikler, der beskriver dens styrke og brede anvendelighed,

Hvorfor dataloger elsker Gaussian

Sådan dominerer du statistikdelen af dit interview om datalogi
Hvad er så vigtigt ved normalfordelingen?

På grund af dens forekomst i forskellige domæner og det centrale grænseteorem (CLT) indtager denne fordeling en central plads inden for datalogi og analytik.

Så, hvad er problemet?

Det er alt sammen helt fint, hvad er problemet?

Problemet er, at du ofte kan finde en fordeling for dit specifikke datasæt, som måske ikke opfylder normalitet, dvs. egenskaberne ved en normalfordeling. Men på grund af den overdrevne afhængighed af antagelsen om normalitet er de fleste business analytics-rammer skræddersyet til at arbejde med normalt fordelte datasæt.

Det er næsten indgroet i vores underbevidsthed.

Lad os sige, at du bliver bedt om at opdage tjekke, om en ny batch data fra en eller anden proces (teknik eller forretning) giver mening. Med ‘giver mening’ mener du, om de nye data hører til, dvs. om de ligger inden for ‘det forventede interval’.

Hvad er denne ‘forventning’? Hvordan kvantificeres intervallet?

Automatisk, som om det var styret af en underbevidst drivkraft, måler vi gennemsnittet og standardafvigelsen for stikprøvedatasættet og fortsætter med at kontrollere, om de nye data falder inden for visse standardafvigelser.

Hvis vi skal arbejde med en 95 % konfidensgrænse, så er vi glade for at se dataene falde inden for 2 standardafvigelser. Hvis vi har brug for en strengere grænse, kontrollerer vi 3 eller 4 standardafvigelser. Vi beregner Cpk, eller vi følger six-sigma retningslinjerne for ppm (parts-per-million) kvalitetsniveau.