E se i tuoi dati NON sono normali?
Il Gennaio 15, 2022 da adminIn questo articolo, discutiamo il limite di Chebyshev per l’analisi statistica dei dati. In assenza di qualsiasi idea sulla normalità di un dato set di dati, questo limite può essere usato per misurare la concentrazione dei dati intorno alla media.
Introduzione
È la settimana di Halloween, e tra dolcetti e scherzetti, noi geek dei dati stiamo ridacchiando di questo simpatico meme sui social media.
Pensi che sia uno scherzo? Lasciate che vi dica che non c’è niente da ridere. Fa paura, nello spirito di Halloween!
Se non possiamo assumere che la maggior parte dei nostri dati (di origine commerciale, sociale, economica o scientifica) siano almeno approssimativamente “normali” (cioè generati da un processo gaussiano o da una somma di più processi di questo tipo), allora siamo condannati!
Ecco una brevissima lista di cose che non saranno valide,
- Tutto il concetto di sei-sigma
- La famosa regola 68-95-99.7
- Il ‘sacro’ concetto di p=0.05 (deriva dall’intervallo 2 sigma) nell’analisi statistica
Basta spaventarsi? Parliamone ancora…
L’onnipotente e onnipresente distribuzione normale
Teniamo questa sezione breve e dolce.
La distribuzione normale (gaussiana) è la distribuzione di probabilità più conosciuta. Ecco alcuni link agli articoli che descrivono la sua potenza e la sua ampia applicabilità,
- Perché gli scienziati di dati amano la gaussiana
- Come dominare la parte di statistica del tuo colloquio di Data Science
- Cosa c’è di così importante nella distribuzione normale?
A causa della sua comparsa in vari domini e del Teorema del Limite Centrale (CLT), questa distribuzione occupa un posto centrale nella scienza dei dati e nell’analitica.
Quindi, qual è il problema?
Questo è tutto perfetto, qual è il problema?
Il problema è che spesso puoi trovare una distribuzione per il tuo specifico set di dati, che può non soddisfare la normalità, cioè le proprietà di una distribuzione normale. Ma a causa dell’eccessiva dipendenza dal presupposto della normalità, la maggior parte dei framework di business analytics sono fatti su misura per lavorare con insiemi di dati distribuiti in modo normale.
È quasi radicato nella nostra mente subconscia.
Diciamo che vi viene chiesto di rilevare il controllo se un nuovo lotto di dati da qualche processo (ingegneria o business) ha senso. Per ‘senso’, si intende se i nuovi dati appartengono, cioè se sono all’interno del ‘range atteso’.
Qual è questa ‘aspettativa’? Come quantificare l’intervallo?
Automaticamente, come se fossimo guidati da un impulso subconscio, misuriamo la media e la deviazione standard del campione di dati e procediamo a controllare se il nuovo dato rientra in un certo intervallo di deviazioni standard.
Se dobbiamo lavorare con un limite di confidenza del 95%, allora siamo felici di vedere i dati che rientrano in 2 deviazioni standard. Se abbiamo bisogno di un limite più severo, controlliamo 3 o 4 deviazioni standard. Calcoliamo Cpk, o seguiamo le linee guida six-sigma per il livello di qualità ppm (parti per milione).
Tutti questi calcoli sono basati sull’assunzione implicita che i dati della popolazione (NON il campione) seguano la distribuzione gaussiana cioè il processo fondamentale, da cui deriva la distribuzione Gaussiana.cioè il processo fondamentale, da cui tutti i dati sono stati generati (nel passato e nel presente), è governato dal modello sul lato sinistro.
Ma cosa succede se i dati seguono il modello sul lato destro?
Ovvero, questo e… quello?
Lascia un commento