線形混合効果モデル

線形混合効果モデルは、依存データを含む回帰分析に使用されます。このようなデータは、各被験者について複数の観察が行われる長期的な研究デザインやその他の研究デザインを扱うときに発生します。いくつかの特定の線形混合効果モデルは次のとおりです

  • ランダム切片モデル では、グループ内のすべての応答が、そのグループ固有の値によって加法的にシフトされます。

  • ランダム勾配モデル では、グループ内の反応は、観察された共変量において線形である(条件付き)平均軌跡に従い、勾配(および場合によっては切片)はグループごとに異なります。

  • 分散成分モデル では、1つ以上のカテゴリ共変量のレベルが分布からの抽出と関連付けられます。これらのランダム項は、共変量値に基づいて各観測値の条件付き平均を加法的に決定します。

LME の統計モデルの実装は主にグループベースです。つまり、変量効果は異なるグループの応答に対して独立して実現する必要があります。混合モデルの実装には 2 種類のランダム効果があります。(i) 未知の共分散行列を持つランダム係数 (おそらくベクトル)、および (ii) 共通の一変量分布から独立して引き出されたランダム係数です。 (i) と (ii) の両方について、ランダム効果は、グループ固有の計画行列との行列/ベクトル積を通じてグループの条件付き平均に影響を与えます。

上記 (i) のようなランダム係数の簡単な例は次のとおりです :

\[Y_{ij} = \beta_0 + \beta_1X_{ij} + \gamma_{0i} + \gamma_{1i}X_{ij} + \epsilon_{ij}\]

ここで、 \(Y_{ij}\)\(j^\rm{th}\) で測定された被験者 \(i\) の反応で、 \(X_{ij}\) はこの反応の共変量です。 "固定効果パラメータ" \(\beta_0\)\(\beta_1\) はすべての被験者によって共有され、エラー \(\epsilon_{ij}\) は他のすべてとは独立しており、(平均0で)同じように分布しています。 "ランダム効果パラメータ" \(\gamma_{0i}\)\(\gamma_{1i}\) は平均0の二変量分布に従い、3つのパラメータ \({\rm var}(\gamma_{0i})\)\({\rm var}(\gamma_{1i})\)\({\rm cov}(\gamma_{0i},\gamma_{1i})\) で記述されます。 \({\rm var}(\epsilon_{ij})\) のパラメータもあります。

上記 (ii) の分散成分の簡単な例は次のとおりです :

\[Y_{ijk} = \beta_0 + \eta_{1i} + \eta_{2j} + \epsilon_{ijk}\]

ここで、 \(Y_{ijk}\) は、 \(i, j\) の条件下で測定された \(k^\rm{th}\) の応答です。唯一の "平均構造パラメータ" は \(\beta_0\) です。 \(\eta_{1i}\) は独立しており、平均が0で同じように分布しています。分散 \(\tau_1^2\)\(\eta_{2j}\) は独立しており、平均が0で同じように分布しています。分散 \(\tau_2^2\) です。

statsmodels MixedLMでは、ほとんどの非交差変量効果モデルと、いくつかの交差モデルを処理します。交差変量効果をモデルに含めるには、データセット全体を1つのグループとして扱う必要があります。モデルに対する分散コンポーネント引数を使用して、交差変量効果と非交差変量効果の様々な組合せでモデルを定義できます。

statsmodels LME フレームワークは現在、Wald 検定と係数の信頼区間、プロファイル尤度分析、尤度比検定、および AIC による事後推定推論をサポートしています。

In [1]: import statsmodels.api as sm

In [2]: import statsmodels.formula.api as smf

In [3]: data = sm.datasets.get_rdataset("dietox", "geepack").data

In [4]: md = smf.mixedlm("Weight ~ Time", data, groups=data["Pig"])

In [5]: mdf = md.fit()

In [6]: print(mdf.summary())
         Mixed Linear Model Regression Results
========================================================
Model:            MixedLM Dependent Variable: Weight    
No. Observations: 861     Method:             REML      
No. Groups:       72      Scale:              11.3669   
Min. group size:  11      Log-Likelihood:     -2404.7753
Max. group size:  12      Converged:          Yes       
Mean group size:  12.0                                  
--------------------------------------------------------
             Coef.  Std.Err.    z    P>|z| [0.025 0.975]
--------------------------------------------------------
Intercept    15.724    0.788  19.952 0.000 14.179 17.268
Time          6.943    0.033 207.939 0.000  6.877  7.008
Group Var    40.394    2.149                            
========================================================

詳細な例はここにあります

Wikiにはノートの例がいくつかあります: Wiki notebooks for MixedLM

技術文書

データは互いに重ならないグループに分割されます。グループ \(i\) に対する確率モデルは次の通りです:

\[Y = X\beta + Z\gamma + Q_1\eta_1 + \cdots + Q_k\eta_k + \epsilon\]

ここで

  • \(n_i\) グループ \(i\) 内の観測値の数

  • \(Y\)\(n_i\) 次元の応答ベクトル

  • \(X\) は固定効果を表す係数 \(n_i*k_{fe}\) 次元行列

  • \(\beta\) は固定効果を表す傾き \(k_{fe}\) -次元ベクトル

  • \(Z\) は変量効果を表す係数 \(n_i * k_{re}\) 次元行列

  • \(\gamma\)\(k_{re}\) 次元のランダムベクトルであり、平均は0、共分散行列は \(\Psi\) です;それぞれのグループが独自にガンマを実現していることに注意してください。

  • \(Q_j\)\(j^\rm{th}\) 分散成分に対応する \(n_i \times q_j\) 次元デザイン行列。

  • \(\eta_j\)\(q_j\) 次元のランダムなベクトルで、分散 \(\tau_j^2\) の独立同一分布の値を含んでいます。

  • \(\epsilon\) は平均が0で分散が \(\sigma^2\) の 独立同分布の正規分布に従う誤差を表す \(n_i\) 次元ベクトルです; \(\epsilon\) 値はグループ内でもグループ間でも独立しています

\(Y, X, \{Q_j\}\)\(Z\) は完全に観測されなければなりません。 \(\beta\) , \(\Psi\) , \(\sigma^2\) はMLかREML推定を使って推定されます。 \(\gamma\) , \(\{\eta_j\}\)\(\epsilon\) はランダムなので、確率モデルとして定義されます。

周辺平均の形は \(E[Y X,Z]=X*\beta\) です。周辺平均の形のみに関心がある場合は、GEEは混合モデルの優れた代替法です。

表記:

  • \(cov_{re}\) はランダム効果の共分散行列(上記では \(\Psi\) )で、 \(scale\) は(スカラーの)誤差分散です。また、各分散成分に対して単一の推定分散パラメータ \(\tau_j^2\) もあります。単一のグループに対して、与えられた exog の周辺共分散行列は \(scale*I+Z*cov_{re}*Z\) です。ここで \(Z\) は1つのグループのランダム効果のデザイン行列です。

参考文献

実装の詳細に関する主な参考資料は次のとおりです :

  • MJ Lindstrom, DM Bates (1988年)著. Newton Raphson and EM algorithms for linear mixed effects models for repeated measures data. Journal of the American Statistical Association. Volume 83, Issue 404, pages 1014-1022.

この最新のドキュメントも参照してください :

すべての尤度、勾配、ヘッセ行列の計算は、リンドストロームとベイツに厳密に従っています。

次の 2 つのドキュメントは、よりユーザーの観点から書かれています :

モジュールリファレンス

モデルクラスは次のとおりです :

MixedLM(endog, exog, groups[, exog_re, ...])

線形混合効果モデル

結果のクラスは次のとおりです :

MixedLMResults(model, params, cov_params)

線形混合効果モデルの近似結果を含むクラス。


最終更新日: 2025年01月28日