Ce se întâmplă dacă datele dumneavoastră NU sunt normale?
On ianuarie 15, 2022 by adminÎn acest articol, discutăm despre limita lui Chebyshev pentru analiza statistică a datelor. În absența oricărei idei despre Normalitatea unui anumit set de date, această limită poate fi utilizată pentru a evalua concentrația datelor în jurul mediei.
Există o limită mai universală atunci când datele NU sunt normale?
În cele din urmă, vom avea în continuare nevoie de o tehnică matematică solidă pentru a cuantifica limita noastră de încredere, chiar dacă datele nu sunt normale. Asta înseamnă că, calculul nostru se poate schimba puțin, dar ar trebui să putem spune în continuare ceva de genul acesta-
„Probabilitatea de a observa un nou punct de date la o anumită distanță față de medie este așa și așa…”
Evident, trebuie să căutăm o limită mai universală decât prețioasele limite gaussiene de 68-95-99.7 (corespunzătoare distanței de 1/2/3 deviații standard față de medie).
Din fericire, există o astfel de limită numită „Chebyshev Bound”.
Ce este Chebyshev Bound și cum este ea utilă?
Inegalitatea lui Chebyshev (numită și inegalitatea Bienaymé-Chebyshev) garantează că, pentru o clasă largă de distribuții de probabilitate, nu mai mult de o anumită fracțiune de valori pot fi mai mult decât o anumită distanță față de medie.
În mod specific, nu mai mult de 1/k² din valorile distribuției pot fi la o distanță mai mare de k abateri standard față de medie (sau, în mod echivalent, cel puțin 1-1/k² din valorile distribuției se află în interiorul a k abateri standard față de medie).
Se aplică la tipuri practic nelimitate de distribuții de probabilitate și funcționează pe o ipoteză mult mai relaxată decât Normalitatea.
Cum funcționează?
Chiar dacă nu știți nimic despre procesul secret din spatele datelor dumneavoastră, există o șansă bună să puteți spune următoarele,
„Am încredere că 75% din toate datele ar trebui să se încadreze în 2 deviații standard de la medie”,
Sau,
Am încredere că 89% din toate datele ar trebui să se încadreze în 3 deviații standard de la medie”.
Iată cum arată pentru o distribuție cu aspect arbitrar,
Cum se aplică?
După cum puteți ghici până acum, mecanismul de bază al analizei datelor dvs. nu trebuie să se schimbe câtuși de puțin. Veți aduna în continuare un eșantion de date (cu cât mai mare, cu atât mai bine), veți calcula aceleași două mărimi pe care sunteți obișnuiți să le calculați – media și abaterea standard, iar apoi veți aplica noile limite în locul regulii 68-95-99,7.
Tabloul arată astfel (aici k denotă atâtea abateri standard de la medie),
O demonstrație video a aplicației sale este aici,
Care este capcana? De ce nu folosesc oamenii această legătură „mai universală”?
Este evident care este capcana dacă ne uităm la tabel sau la definiția matematică. Regula lui Chebyshev este mult mai slabă decât regula gaussiană în ceea ce privește punerea de limite pe date.
Ea urmează un tipar 1/k² față de un tipar exponențial descrescător pentru distribuția normală.
De exemplu, pentru a delimita ceva cu un grad de încredere de 95%, trebuie să includeți date până la 4,5 deviații standard față de 4,5 deviații standard față de 4,5 deviații standard. doar 2 abateri standard (pentru Normal).
Dar poate totuși să salveze situația atunci când datele nu seamănă deloc cu o distribuție Normală.
Există ceva mai bun?
Există o altă limită numită, „Chernoff Bound”/ inegalitatea Hoeffding care oferă o distribuție cu coadă exponențial de ascuțită (în comparație cu 1/k²) pentru sume de variabile aleatoare independente.
Aceasta poate fi, de asemenea, utilizată în locul distribuției gaussiene atunci când datele nu par normale, dar numai atunci când avem un grad ridicat de încredere că procesul subiacent este compus din subprocese care sunt complet independente unele de altele.
Din păcate, în multe cazuri sociale și de afaceri, datele finale sunt rezultatul unei interacțiuni extrem de complicate a mai multor subprocese care pot avea o puternică interdependență.
Summary
În acest articol, am aflat despre un anumit tip de legătură statistică care poate fi aplicată la cea mai largă distribuție posibilă de date, independent de ipoteza Normalității. Acest lucru vine la îndemână atunci când știm foarte puțin despre adevărata sursă a datelor și nu putem presupune că acestea urmează o distribuție gaussiană. Limita urmează o lege de putere în loc de o natură exponențială (precum cea gaussiană) și, prin urmare, este mai slabă. Dar este un instrument important pe care trebuie să-l aveți în repertoriu pentru a analiza orice tip arbitrar de distribuție a datelor.
Lasă un răspuns