多項ロジスティック回帰|Stata Annotated Output
On 1月 28, 2022 by adminこのページでは、多項ロジスティック回帰分析の例を、脚注で出力を解説しています。 データは、200人の高校生について収集され、ビデオ・ゲームやパズルを含むさまざまなテストのスコアです。 この分析の結果指標は、アイスクリームの好みの味(バニラ、チョコレート、イチゴ)です。そこから、ビデオゲームの得点(ビデオ)、パズルの得点(パズル)、性別(女性)とどのような関係があるかを見ようとしています。 応答変数ice_creamは、ice_creamの水準が自然順位を持たないという仮定のもとでカテゴリとして扱われ、我々はStataに参照グループを選択させるつもりです。 この例では、これはバニラとなります。 デフォルトでは、Stataは最も頻出するグループを参照グループとして選択します。 このページの前半は、多項対数オッズ(logits)の観点から係数を解釈しています。 これらは、結果変数の2水準でのロジスティック回帰で達成されるlog-oddsに近いですが、等しくはありません。 後半は、相対リスク比の観点から係数を解釈します。
use https://stats.idre.ucla.edu/stat/stata/output/mlogit, clear
回帰を実行する前に、データ中のアイスクリーム・フレーバーの頻度を得ることは、参照グループの選択に情報を与えることができます。
tab ice_cream favorite flavor of ice cream | Freq. Percent Cum. ------------+----------------------------------- chocolate | 47 23.50 23.50 vanilla | 95 47.50 71.00 strawberry | 58 29.00 100.00 ------------+----------------------------------- Total | 200 100.00
バニラは最も頻繁に発生するアイスクリームのフレーバーで、この例では参照グループになります。
mlogit ice_cream video puzzle femaleIteration 0: log likelihood = -210.58254Iteration 1: log likelihood = -194.75041Iteration 2: log likelihood = -194.03782Iteration 3: log likelihood = -194.03485Iteration 4: log likelihood = -194.03485Multinomial logistic regression Number of obs = 200 LR chi2(6) = 33.10 Prob > chi2 = 0.0000Log likelihood = -194.03485 Pseudo R2 = 0.0786------------------------------------------------------------------------------ ice_cream | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------chocolate | video | -.0235647 .0209747 -1.12 0.261 -.0646744 .017545 puzzle | -.0389243 .0195165 -1.99 0.046 -.0771759 -.0006726 female | .8166202 .3909813 2.09 0.037 .050311 1.582929 _cons | 1.912256 1.127256 1.70 0.090 -.2971258 4.121638-------------+----------------------------------------------------------------strawberry | video | .022922 .0208718 1.10 0.272 -.0179861 .0638301 puzzle | .0430036 .0198894 2.16 0.031 .0040211 .081986 female | -.032862 .3500153 -0.09 0.925 -.7188793 .6531553 _cons | -4.057323 1.222939 -3.32 0.001 -6.45424 -1.660407------------------------------------------------------------------------------(ice_cream==vanilla is the base outcome)
Iteration Loga
Iteration 0: log likelihood = -210.58254Iteration 1: log likelihood = -194.75041Iteration 2: log likelihood = -194.03782Iteration 3: log likelihood = -194.03485Iteration 4: log likelihood = -194.03485
a. 反復ログ – これは、各反復における対数尤度のリストです。 多項ロジスティック回帰は、2値ロジスティック回帰や順序ロジスティック回帰と同様、最尤推定を使用し、それは反復的な手順であることに注意してください。 最初の反復(反復0と呼ばれる)は、「ヌル」または「空」モデル;つまり、予測変数のないモデルの対数尤度です。 次の反復では、予測変数(複数可)がモデルに含まれます。 目標は対数尤度を最大化することなので、各反復で、対数尤度は増加します。 連続する反復の間の差が非常に小さくなると、モデルは「収束した」と言われ、反復が停止し、結果が表示されます。 バイナリ結果に対するこのプロセスの詳細については、J. Scott Long著「Regression Models for Categorical and Limited Dependent Variables」(52-61ページ)をご覧ください。 対数尤度 – 適合したモデルの対数尤度です。 モデル中のすべての予測変数の回帰係数が同時に0であるかどうかの尤度比カイ二乗検定や入れ子モデルの検定で使われます。
c. Number of obs – これは多項ロジスティック回帰で使用されるオブザベーションの数である。 方程式中のいくつかの変数に欠損値がある場合,データセット中のケースの数より少なくなることがある. デフォルトでは、Stataは不完全なケースのリストワイズ削除を行う。
d. LR chi2(6) – これは尤度比(LR)カイ二乗検定で、両方の方程式(バニラに対するチョコレートとバニラに対するイチゴ)に対して、予測変数の回帰係数の少なくとも1つがゼロに等しくないというものである。 括弧内の数字は,LR カイ2乗統計量を検定するために使用されるカイ2乗分布の自由度を示し,推定モデルの数 (2) x モデル中の予測変数の数 (3) で定義される. LR カイ2乗統計量は,-2*( L(null model) – L(fitted model)) = -2*((-210.583) – (-194.035)) = 33.096 によって計算できる,ここで L(null model) はモデル中の応答変数だけの対数尤度(反復0)から, L(fitted model) はすべてのパラメータでの最終反復(モデルは収束したとして)からの対数尤度である. Prob > chi2 – これは帰無仮説の下で観測された統計量と同じかそれ以上の極端なLR検定統計量を得る確率である;帰無仮説は、両方のモデルにわたるすべての回帰係数が同時に0に等しいというものである。 言い換えると、これは、予測変数の効果が実際にない場合に、このカイ2乗統計量(33.10)またはそれよりも極端なものを得る確率です。 このp-値は,指定されたアルファ・レベル(第1種の過誤を受け入れる意志)と比較され,それは通常,0.05 または 0.01に設定される. LR検定からの小さなp-値、 <0.00001 は、モデル中の回帰係数の少なくとも1つが0に等しくないという結論を導くでしょう。 帰無仮説を検定するのに使用されるカイ2乗分布のパラメータは,先行線の自由度, chi2(6).
f によって定義される. Pseudo R2 – これはMcFaddenの擬似R2乗である。 ロジスティック回帰は、OLS回帰で見られるR2乗に相当するものがない;しかし、多くの人々がそれを考え出そうとしている。 擬似R2乗の統計量にはさまざまなものがある。
パラメータの推定値
------------------------------------------------------------------------------ ice_creamg | Coef.h Std. Err.j zk P>|z|k l-------------+----------------------------------------------------------------chocolate | video | -.0235647 .0209747 -1.12 0.261 -.0646744 .017545 puzzle | -.0389243 .0195165 -1.99 0.046 -.0771759 -.0006726 female | .8166202 .3909813 2.09 0.037 .050311 1.582929 _cons | 1.912256 1.127256 1.70 0.090 -.2971258 4.121638-------------+----------------------------------------------------------------strawberry | video | .022922 .0208718 1.10 0.272 -.0179861 .0638301 puzzle | .0430036 .0198894 2.16 0.031 .0040211 .081986 female | -.032862 .3500153 -0.09 0.925 -.7188793 .6531553 _cons | -4.057323 1.222939 -3.32 0.001 -6.45424 -1.660407------------------------------------------------------------------------------(ice_cream==vanilla is the base outcome)i
g. ice_cream – これは多項ロジスティック回帰の応答変数です。 ice_creamの下には、予測変数の2つの複製があり、推定された2つのモデル:バニラに対するチョコレート、バニラに対するストロベリーを表します。
h と i. Coef. と referent group – これらは、それぞれモデルの推定多項ロジスティック回帰係数と参照水準である。 多項ロジットモデルの重要な特徴は、k-1個のモデルを推定することで、ここでkは結果変数のレベルの数である。 この例では、Stataは、デフォルトでバニラを参照群として設定し、したがって、バニラに対するチョコレートのモデルとバニラに対するイチゴのモデルを推定しています。 パラメータ推定値は参照群に相対的なので、多項ロジットの標準的な解釈は、予測変数の単位変化に対して、参照群に対する結果mのロジットは、モデル中の変数が一定であれば、それぞれのパラメータ推定値(これは対数オッズ単位です)だけ変化すると期待されるというものです。
chocolate relative to vanilla
video – これは、モデル中の他の変数が一定である場合、バニラに対するチョコレートのビデオスコアが1単位増加した場合の多項ロジット推定値である。 3636>
puzzle – これは、モデル内の他の変数が一定である場合、バニラに対するチョコレートのパズルスコアが1単位増加した場合の多項ロジット推定値である。 3636>
female – これは、モデル中の他の変数が一定である場合、バニラに対してチョコレートを好む多項ロジットの推定値で、0.039単位減少することが予想される。 モデル中の他のすべての予測変数が一定であるとすると、男性に対する女性の多項ロジットは、バニラよりチョコレートを好む場合、0.817単位高くなります。 言い換えれば、女性は男性よりもバニラよりもチョコレートを好む可能性が高い。
_cons – これは、モデル中の予測変数がゼロで評価されるときのバニラに対するチョコレートの多項ロジットの推定値である。 ビデオとパズルのスコアがゼロの男性(女性はゼロで評価される変数)の場合、バニラよりチョコレートを好むロジットは1.912となります。 ビデオとパズルをゼロで評価することは、もっともらしいスコアの範囲から外れていることに注意してください。 3636>
strawberry relative to vanilla
video – これは、モデル中の他の変数が一定であるとすると、バニラに対するストロベリーのビデオスコアの1単位増加の多項ロジット推定値である。 3636>
puzzle – これは、モデル中の他の変数が一定である場合、バニラに対してイチゴを好むための多項ロジットの推定値が1単位増加した場合の多項ロジットである。 3636>
female – これは、モデル中の他の変数を一定とした場合の、バニラに対してイチゴを好む多項ロジットの推定値で、0.043単位増加することが予想される。 モデル中の他のすべての予測変数が一定である場合、男性に対する女性の多項ロジットは、バニラよりイチゴを好む場合、0.033単位低くなります。 言い換えれば、男性は女性よりもバニラ・アイスクリームよりもストロベリー・アイスクリームを好む可能性が高い。
_cons – これは、モデル中の予測変数がゼロで評価されるときのバニラに対するストロベリーの多項ロジット推定値である。 ビデオとパズルのスコアがゼロの男性(女性はゼロで評価)の場合、バニラよりイチゴを好むロジットは-4.057.
jとなる. Std. Err. – 推定された2つのそれぞれのモデルの個々の回帰係数の標準誤差である。 それらは,上付き添え字kのz 検定統計量の計算と上付き添え字lの回帰係数の信頼区間の両方で使用される. z と P>|z| – 検定統計量 z は,それぞれの予測変数の標準誤差へのCoeff.の比であり, p値 P>|z| は,帰無仮説のもとでz検定統計量(またはより極度の検定統計量)が観察される確率である. 任意のアルファ・レベルについて, z と P>|z| は,予測変数の残りがモデル中にあるとして,特定の予測変数の回帰係数がゼロであるという帰無仮説が棄却されるかどうかを決定する. P>|z|がアルファより小さいなら,帰無仮説が棄却され,パラメータ推定がそのアルファ水準で有意であるとみなされる. z 値は,Coef.が0に等しくないという両側対立仮説に対して検定するために使用される標準正規分布に従う. 多項ロジスティック回帰では,パラメータ推定の有意性の解釈は,そのパラメータ推定が計算されたモデルに制限される. 例えば、バニラに対するチョコレートのモデルにおけるパラメータ推定値の有意性は、バニラに対するイチゴのモデルでも保持されると仮定することはできない。
chocolate relative to vanilla
バニラに対するチョコレートでは、予測変数のビデオ(-0.024/0.021)のz検定統計量は-1.12で、関連p値は0.261となりました。 アルファレベルを0.05に設定すると、帰無仮説を棄却できず、バニラに対するチョコレートでは、パズルと女性がモデルに入っていることから、ビデオの回帰係数はゼロから統計的に異なることが発見されないと結論づけられます。
バニラに対するチョコレートでは、予測変数パズル(-0.039/0.020)のz検定統計量は-1.99で、関連するp値は0.046となります。 我々のアルファ・レベルを0.05に設定すると、我々は帰無仮説を棄却し、ビデオと女性がモデルに入っていることを考えると、パズルの回帰係数は、バニラに対するチョコレートでゼロから統計的に異なることがわかったと結論づけることになります。
バニラに対するチョコレートでは、予測変数femaleのz検定統計量(0.817/0.391)は2.09で、関連p値は0.037となります。 再びα水準を0.05に設定すると、帰無仮説を棄却し、ビデオと女性がモデルに入っていることから、男性と女性の間の差は、バニラに対してチョコレートで統計的に異なることがわかったと結論づけることになります。
バニラに対するチョコレートの場合、切片_cons (1.912/1.127) のz検定統計量は1.70で、関連するp値は0.090である。 アルファ・レベル0.05で、我々は帰無仮説を棄却できず、a) 男性(変数の女性はゼロで評価)、バニラに対するチョコレートでのビデオとパズル得点がゼロの多項ロジットは、ゼロから統計的に異ならないことがわかります、または b) ビデオとパズル得点がゼロの男性については、彼らがチョコレートとバニラのどちらをより好むと分類されるかは統計的に不明です、と結論づけることになるでしょう。 consを特定の共変量プロファイル(ビデオとパズルのスコアが0の男性)として見た場合、2番目の解釈をすることができます。 係数の方向と有意性に基づいて、 _cons は、プロファイルが、結果変数の1つの水準に分類される傾向が、他の水準よりも大きいかどうかを示します。
strawberry relative to vanilla
vanillaに対するstrawberryの場合、予測変数のビデオ(0.023/0.021)のz検定統計量は1.10で、関連p値は0.272となりました。 アルファレベルを0.05とすると、帰無仮説を棄却できず、バニラに対するイチゴでは、パズルと女性がモデルに入っていることから、ビデオの回帰係数はゼロから統計的に異なることが発見されないと結論付けられます。
バニラに対するストロベリーでは、予測変数パズル(0.043/0.020)のz検定統計量は2.16で、関連p値は0.031となります。
バニラに対するイチゴでは、予測変数femaleのz検定統計量は-0.09で、関連するp値は0.925である。 アルファレベルを0.05に設定すると、帰無仮説を棄却できず、バニラに対するイチゴでは、パズルとビデオがモデルに入っていることから、女性の回帰係数はゼロから統計的に異なることが発見されないと結論づけられます。
バニラに対するストロベリーの切片、_cons (-4.057/1.223) のz検定統計量は-3.32で、関連するp値は0.001である。 アルファレベル0.05で、我々は帰無仮説を棄却し、a) 男性(変数の女性は0で評価)、バニラに対するイチゴのビデオとパズル得点が0の場合の多項ロジットは、0と統計的に異なると結論づける。b) ビデオとパズル得点が0の男性では、イチゴを好むと分類される可能性またはバニラを好むと分類される可能性の間に統計的に有意差があるとする。 このような男性は、イチゴよりバニラを好むと分類される可能性が高いでしょう。 また、_consを特定の共変量プロファイル(ビデオとパズルの得点がゼロの男性)として捉えた場合、2つ目の解釈が可能である。 係数の方向と有意性に基づいて、 _cons は、プロファイルが、結果変数の1つの水準に分類される傾向が、他の水準よりも大きいかどうかを示します。
l. – これは、他の予測変数が参照グループと相対的な結果mについてのモデル中にある場合の、個々の多項ロジット回帰係数の信頼区間(CI)です。 信頼度95%の任意の予測変数について,我々は,”真の” 母集団多項ロジット回帰係数が参照群に対する結果mの区間の下限と上限の間にあることを95%確信していると言うだろう. これは、Coef.として計算されます。 (zα/2)*(Std.Err.), ここで zα/2 は標準正規分布の臨界値である. CIは、z検定統計量と同等である: CIがゼロを含む場合、我々は、他の予測変数がモデル中にある場合、特定の回帰係数がゼロであるという帰無仮説を棄却できないことになる。
相対リスク比の解釈
以下は相対リスク比の観点からの多項ロジスティック回帰の解釈で、多項ロジットモデル実行後にmlogit、rrrで得られるか、フルモデル指定時にrrrオプションを指定して得られるものである。 この部分の解釈は、以下の出力に適用されます。
mlogit ice_cream video puzzle female, rrr
Iteration 0: log likelihood = -210.58254Iteration 1: log likelihood = -194.75041Iteration 2: log likelihood = -194.03782Iteration 3: log likelihood = -194.03485Iteration 4: log likelihood = -194.03485Multinomial logistic regression Number of obs = 200 LR chi2(6) = 33.10 Prob > chi2 = 0.0000Log likelihood = -194.03485 Pseudo R2 = 0.0786------------------------------------------------------------------------------ ice_cream | RRRa Std. Err. z P>|z| b-------------+----------------------------------------------------------------chocolate | video | .9767108 .0204862 -1.12 0.261 .9373726 1.0177 puzzle | .9618236 .0187714 -1.99 0.046 .925727 .9993276 female | 2.262839 .8847276 2.09 0.037 1.051598 4.869199-------------+----------------------------------------------------------------strawberry | video | 1.023187 .0213558 1.10 0.272 .9821747 1.065911 puzzle | 1.043942 .0207633 2.16 0.031 1.004029 1.085441 female | .9676721 .3387 -0.09 0.925 .4872981 1.921595------------------------------------------------------------------------------(ice_cream==vanilla is the base outcome)
a. 相対危険率 – これらは、先に示した多項ロジット・モデルの相対危険率です。 これらは多項ロジット係数ecoefを指数関数化するか、mlogitコマンドの発行時にrrrオプションを指定することにより得ることができる。 多項ロジットモデルはk-1個のモデルを推定し、k番目の式は参照群に対する相対的なものであることを思い出してください。 ある係数のRRRは、参照群における結果のリスクと比較して、比較群における結果のリスクが、問題の変数によってどのように変化するかを示しています。 RRR<7289>1は、参照群に落ちる結果のリスクと比較して、比較群に落ちる結果のリスクが、変数が増加するにつれて増加することを示す。 言い換えると、比較結果は、よりありそうです。 RRR < 1は、参照グループで落ちる結果のリスクと比較して、比較グループで落ちる結果のリスクが、変数が増加するにつれて減少することを示します。 例については、下記の相対リスク比の解釈を参照してください。 一般に、RRR < 1なら、結果は参照群にある可能性が高い。
chocolate relative to vanilla
video – これは、モデル中の他の変数が一定だとすると、バニラよりチョコを好むためにビデオスコアが1単位増加した場合の相対リスク比である。 被験者がビデオスコアを1単位増加させた場合、モデル内の他の変数が一定であれば、バニラよりチョコレートを好む相対リスクは、0.977倍減少すると予想されます。 つまり、ビデオスコアが1単位増加すると、モデル中の他の変数が一定であれば、チョコレート群に入る相対リスクは0.977倍となるのである。 より一般的には、ある被験者がビデオのスコアを上げると、チョコレートアイスクリームよりもバニラアイスクリームを好む可能性が高くなると予想される、と言うことができます。
puzzle – これは,モデル中の他の変数が一定であるとすると,パズル・スコアが1単位増加すると,バニラよりもチョコレートを好むという相対危険率である. 被験者が彼女のパズル・スコアを1単位増加させた場合,モデル中の他の変数が一定であるとすると,バニラよりチョコレートを好む相対リスクは,0.962倍減少することが期待される. より一般的には、2人の被験者が同じビデオスコアを持っていて、両方とも女性(あるいは両方とも男性)である場合、パズルスコアが高い被験者は、パズルスコアが低い被験者よりも、チョコレートアイスクリームよりもバニラアイスクリームを好む可能性が高いと言うことができる。
female – これは、モデル中の他の変数が一定である場合、バニラよりチョコレートを好むことについて、女性と男性を比較した相対危険率である。 男性に比べ女性の場合、モデル中の他の変数が一定であれば、バニラに比べチョコレートを好む相対リスクは、2.263倍増加すると予想されます。 言い換えれば、女性は男性よりも、バニラアイスクリームよりもチョコレートアイスクリームを好む可能性が高い。
strawberry relative to vanilla
video – これは、モデル中の他の変数が一定であるとすると、バニラよりイチゴを好む場合の、ビデオスコアの1単位増加の相対リスク比率である。 被験者がビデオスコアを1単位増加させた場合、モデル内の他の変数が一定であれば、バニラに対するイチゴの相対リスクは1.023倍増加することが予想される。 より一般的には、被験者がビデオスコアを上げると、バニラアイスクリームよりもストロベリーアイスクリームを好む可能性が高くなると予想されると言うことができます。
puzzle – これは、モデル中の他の変数が一定であるとすると、パズル・スコアが1単位増加すると、バニラよりもイチゴを好むという相対危険率である。 被験者が彼女のパズル・スコアを1単位増加させた場合,モデル中の他の変数が一定であるとすると,バニラに対するイチゴの相対リスクは1.043倍増加することが予想される. より一般的には、2人の被験者が同じビデオスコアを持っていて、両方とも女性(あるいは両方とも男性)である場合、パズルスコアの高い被験者は、パズルスコアの低い被験者よりも、バニラアイスクリームよりもイチゴアイスクリームを好む可能性が高いと言えるのです。
female – これは、モデル中の他の変数が一定であると仮定して、バニラと比較してイチゴについて、女性と男性を比較した相対リスク比である。 男性に比べ女性の場合、モデル中の他の変数が一定であれば、バニラよりイチゴを好む相対リスクは0.968倍減少することが予想されます。 言い換えれば、女性は男性よりも、バニラアイスクリームよりもストロベリーアイスクリームを好む可能性が低い。
b. – これは,モデル中の他の予測変数が一定であると仮定した場合の相対リスク比のCIである. 信頼度95%の予測変数について,我々は,結果mと参照群を比較した “真の” 母集団相対リスク比が区間の下限と上限の間にあることを95%確信していると言うだろう. 信頼区間の利点は、それが例示的であることです;それは「真の」相対リスク比がどこにあるかという範囲を提供します。
コメントを残す