E se os seus dados NÃO forem normais?
On Janeiro 15, 2022 by adminNeste artigo, discutimos os limites do Chebyshev para a análise estatística dos dados. Na ausência de qualquer idéia sobre a Normalidade de um dado conjunto de dados, este limite pode ser usado para medir a concentração de dados em torno da média.
Existe um limite mais universal quando os dados NÃO são normais?
No final do dia, ainda precisaremos de uma técnica matematicamente sólida para quantificar nosso limite de confiança, mesmo que os dados não sejam normais. Isso significa que nosso cálculo pode mudar um pouco, mas ainda assim devemos ser capazes de dizer algo como isto-
“A probabilidade de observar um novo ponto de dados a uma certa distância da média é tal e tal…”
Obviamente, precisamos buscar um limite mais universal do que os queridos limites gaussianos de 68-95-99.7 (correspondendo a 1/2/3 de distância padrão de desvios da média).
Felizmente, existe um tal limite chamado “Chebyshev Bound”.
O que é Chebyshev Bound e como é útil?
A desigualdade de Chebyshev (também chamada de desigualdade Bienaymé-Chebyshev) garante que, para uma ampla classe de distribuições de probabilidade, não mais do que uma certa fração de valores pode estar a mais do que uma certa distância da média.
Especificamente, não mais que 1/k² dos valores da distribuição podem estar a mais de k desvios padrão da média (ou equivalentemente, pelo menos 1-1/k² dos valores da distribuição estão dentro de k desvios padrão da média).
Aplica-se a tipos virtualmente ilimitados de distribuições de probabilidade e funciona numa hipótese muito mais relaxada do que a Normalidade.
Como funciona?
Se você não sabe nada sobre o processo secreto por trás dos seus dados, há uma boa chance de você poder dizer o seguinte,
“Estou confiante que 75% de todos os dados devem estar dentro de 2 desvios padrão de distância da média”,
Or,
Estou confiante que 89% de todos os dados devem estar dentro de 3 desvios padrão de distância da média”.
Aqui é o que parece para uma distribuição com aspecto arbitrário,
Como aplicá-lo?
Como você já pode adivinhar, a mecânica básica da sua análise de dados não precisa mudar um pouco. Você ainda irá reunir uma amostra dos dados (quanto maior, melhor), calcular as mesmas duas quantidades que você está acostumado a calcular – média e desvio padrão, e então aplicar os novos limites ao invés da regra 68-95-99.7.
A tabela tem a seguinte aparência (aqui k denota que muitos desvios-padrão afastam-se da média),
Está aqui uma demonstração em vídeo da sua aplicação,
Qual é a captura? Porque é que as pessoas não usam este limite ‘mais universal’?
É óbvio qual é o senão olhando para a tabela ou para a definição matemática. A regra Chebyshev é muito mais fraca do que a regra Gaussiana na questão de colocar limites nos dados.
Segue um padrão de 1/k² em comparação com um padrão de queda exponencial para a distribuição Normal.
Por exemplo, para limitar qualquer coisa com 95% de confiança, você precisa incluir dados de até 4,5 desvios padrão vs. Apenas 2 desvios padrão (para Normal).
Mas ainda pode salvar o dia quando os dados não se parecem nada com uma distribuição Normal.
Existe algo melhor?
Existe outro limite chamado, “Chernoff Bound”/Hoeffding inequality que dá uma distribuição de cauda exponencialmente acentuada (em comparação com os 1/k²) para somas de variáveis aleatórias independentes.
Isso também pode ser usado no lugar da distribuição Gaussiana quando os dados não parecem normais, mas apenas quando temos um alto grau de confiança de que o processo subjacente é composto de subprocessos que são completamente independentes uns dos outros.
Felizmente, em muitos casos sociais e empresariais, os dados finais são o resultado de uma interação extremamente complicada de muitos subprocessos que podem ter forte interdependência.
Sumário
Neste artigo, aprendemos sobre um tipo particular de vinculação estatística que pode ser aplicada à mais ampla distribuição possível de dados, independente da suposição da Normalidade. Isto vem a calhar quando sabemos muito pouco sobre a verdadeira fonte dos dados e não podemos assumir que segue uma distribuição Gaussiana. O limite segue uma lei de poder ao invés de uma natureza exponencial (como Gaussiano) e, portanto, é mais fraco. Mas é uma ferramenta importante a ter em seu repertório para analisar qualquer tipo arbitrário de distribuição de dados.
Deixe uma resposta