データが正規でない場合は?
On 1月 15, 2022 by admin今回は、統計データ解析のためのチェビシェフ境界について説明します。 与えられたデータセットの正規性についての考えがない場合、この境界は平均の周りのデータの集中度を測定するために使用することができます。
はじめに
ハロウィーンの週ですが、いたずらとおやつの間に、我々データ オタクはソーシャルメディア上でこのかわいいミームを眺めてくすくす笑ったりしています。
これがジョークだと思いますか? 言っておくが、これは笑い事ではないのだ。 ハロウィンの精神に忠実に、怖いのです!
もし私たちのデータ(ビジネス、社会、経済、または科学的起源)のほとんどが、少なくともおよそ「正規」(すなわち、ガウス過程または複数のそうした過程の合計によって生成されている)と仮定できなければ、絶望的です!
私たちは、「正規」(ガウスのような過程)、つまり、「正規」(ガウス過程、またはそうした過程の合計によって生成されている)であると仮定しなければ、私たちの運命は決まってしまうのです。
以下は、有効でないものの極めて簡単なリストです。
- シックスシグマの概念全体
- 68-95-99.7 ルール
- 統計分析における p=0.05 (2 シグマ間隔に由来) という「神聖な」概念
もう怖いですか? もっと詳しく説明しましょう。
The Omnipotent and Omnipatent Normal Distribution
このセクションは簡潔にまとめましょう。
正規(ガウス)分布は、最も広く知られている確率分布です。 以下は、その威力と幅広い適用性について説明した記事へのリンクです。
- Why Data Scientists love Gaussian
- How to Dominate the Statistics Partion of Your Data Science Interview
- What’s So Important about the Normal Distribution?
さまざまな領域で登場し、中心極限定理 (CLT) があるため、この分布はデータ サイエンスと分析において中心的な位置を占めています。
では、何が問題なのでしょうか。
これはすべて順調ですが、問題は何でしょうか。
問題は、特定のデータセットに対して、正規性、つまり正規分布の特性を満たさない分布を見つけることがよくあるということです。 しかし、正規性の仮定に過度に依存しているため、ほとんどのビジネス分析フレームワークは、正規分布のデータ セットで作業するように作られています。
それは、私たちの潜在意識にほとんど根付いています。
たとえば、あるプロセス(エンジニアリングまたはビジネス)からのデータの新しいバッチが意味をなすかどうかをチェックするよう求められたとします。 意味をなす」とは、新しいデータが「期待される範囲」に属しているかどうかを意味します。
この「期待」とは何でしょうか。
潜在意識に導かれるように自動的に、サンプル データセットの平均と標準偏差を測定し、新しいデータが特定の標準偏差の範囲に収まっているかどうかをチェックするのです。 より厳密な信頼区間が必要な場合は、3〜4標準偏差を確認します。 Cpkを計算したり、シックスシグマのガイドラインに従ってppm(parts-per-million)レベルの品質を求めたりします。
これらの計算すべては、母集団のデータ(サンプルではなく)はガウス分布に従うとの暗黙の前提に基づいて行っているのです。すなわち、すべてのデータが(過去と現在で)生成された基本的なプロセスは、左側のパターンに支配されている。
しかし、データが右側のパターンに従うとどうなるか?
それとも、これと、、、あれか?
データが正規でないときにより普遍的な境界があるか?
結局のところ、データが正規ではない場合でも、信頼限界を定量化する数学的に正しい技術が必要であることは変わらないでしょう。 つまり、計算は少し変わるかもしれませんが、それでも次のようなことが言えるはずです。
「平均からある距離で新しいデータ点を観察する確率はこのように…」
明らかに、68-95-99 というガウス境界よりも普遍的な境界を求める必要があることがわかります。7 (平均からの標準偏差の 1/2/3 の距離に対応)。
幸いにも、「チェビシェフ境界」と呼ばれるそのような境界があります。
チェビシェフ束縛とは何か、どのように役に立つのか。
チェビシェフの不等式(ビエナイメ・チェビシェフの不等式ともいう)は、広いクラスの確率分布に対して、平均からある距離以上の値がある割合以上にはならないことを保証しています。
具体的には、分布の値の 1/k² 以上が平均から k 標準偏差以上離れることはできない(または同等に、分布の値の少なくとも 1-1/k² が平均の k 標準偏差以内である)。
これは事実上無限のタイプの確率分布に適用され、正規性よりもはるかに緩やかな仮定で動作します。
データの背後にある秘密のプロセスについて何も知らなくても、次のように言える可能性は十分にあります:
「すべてのデータの 75% は平均から 2 標準偏差以内に収まると確信している」、または「
すべてのデータの 89% は平均から 3 標準偏差以内に収まると確信している」。
任意に見える分布の場合はこんな感じです
どう応用するか……。
もうお察しの通り、データ解析の基本的な仕組みは少しも変える必要はありません。 今まで通りデータのサンプルを集め(大きければ大きいほど良い)、今までと同じ2つの量、つまり平均と標準偏差を計算し、そして68-95-99.7ルールの代わりに新しい境界を適用することになります。
以下のような表になります(ここでkは平均から何標準偏差離れているかという意味です)。
アプリケーションのデモ映像はこちら
What’s the catch?
表や数学的な定義を見れば、何が引っかかるかは一目瞭然です。
正規分布が指数関数的に減少するのに対して、チェビシェフ則は1/k²のパターンに従います。
しかし、データが正規分布とは似ても似つかない場合でも、この方法で救うことができます。
これは、データが正規分布に見えないとき、ガウス分布の代わりに使うことができますが、基礎となるプロセスが互いに完全に独立しているサブプロセスで構成されているという高度な信頼がある場合に限ります。
残念ながら、多くの社会的およびビジネス的なケースでは、最終的なデータは、強い相互依存性を持つ可能性のある多くのサブプロセスの非常に複雑な相互作用の結果です。
まとめ
この記事では、正規性の仮定とは関係なくデータの最大限の分布に適用できる特定のタイプの統計境界について学びました。 これは、データの真の出所がほとんどわからず、ガウス分布に従うと仮定できない場合に便利です。 この境界は(ガウス分布のような)指数関数的な性質ではなく、べき乗則に従うので、弱くなります。 しかし、任意の種類のデータ分布を分析するためのレパートリーとして重要なツールである
。
コメントを残す