一般化推定方程式

一般化推定方程式は、観測値がクラスター内で相関している可能性があるが、クラスター間では相関がない場合に、パネル、クラスター、または反復測定データの一般化線形モデルを推定します。一般化線形モデル ( GLM )と同じ 1 パラメーターの指数族の推定をサポートします。

コマンドと引数については Module Reference を参照してください。

以下は、てんかん発作に関するデータを使用した、クラスター内の交換可能な相関によるポアソン回帰を示しています。

In [1]: import statsmodels.api as sm

In [2]: import statsmodels.formula.api as smf

In [3]: data = sm.datasets.get_rdataset('epil', package='MASS').data

In [4]: fam = sm.families.Poisson()

In [5]: ind = sm.cov_struct.Exchangeable()

In [6]: mod = smf.gee("y ~ age + trt + base", "subject", data,
   ...:               cov_struct=ind, family=fam)
   ...: 

In [7]: res = mod.fit()

In [8]: print(res.summary())
                               GEE Regression Results                              
===================================================================================
Dep. Variable:                           y   No. Observations:                  236
Model:                                 GEE   No. clusters:                       59
Method:                        Generalized   Min. cluster size:                   4
                      Estimating Equations   Max. cluster size:                   4
Family:                            Poisson   Mean cluster size:                 4.0
Dependence structure:         Exchangeable   Num. iterations:                     2
Date:                     Tue, 28 Jan 2025   Scale:                           1.000
Covariance type:                    robust   Time:                         00:02:59
====================================================================================
                       coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------
Intercept            0.5730      0.361      1.589      0.112      -0.134       1.280
trt[T.progabide]    -0.1519      0.171     -0.888      0.375      -0.487       0.183
age                  0.0223      0.011      1.960      0.050    2.11e-06       0.045
base                 0.0226      0.001     18.451      0.000       0.020       0.025
==============================================================================
Skew:                          3.7823   Kurtosis:                      28.6672
Centered skew:                 2.7597   Centered kurtosis:             21.9865
==============================================================================

Wikiには、GEEの使用例がいくつか紹介されています: Wiki notebooks for GEE

参考文献

  • KY Liang and S Zeger. "Longitudinal data analysis using generalized linear models". Biometrika (1986年) 73 (1): 13-22.

  • S Zeger and KY Liang. "Longitudinal Data Analysis for Discrete and Continuous Outcomes". Biometrics Vol. 42, No. 1 (Mar., 1986年), pp. 121-130

  • A Rotnitzky and NP Jewell (1990年). "Hypothesis testing of regression parameters in semiparametric generalized linear models for cluster correlated data", Biometrika, 77, 485-497.

  • Xu Guo and Wei Pan (2002年). "Small sample performance of the score test in GEE". http://www.sph.umn.edu/faculty1/wp-content/uploads/2012/11/rr2002-013.pdf

  • LA Mancl LA, TA DeRouen (2001年). A covariance estimator for GEE with improved small-sample properties. Biometrics. 2001 Mar;57(1):126-34.

モジュールリファレンス

モデルクラス

GEE(endog, exog, groups[, time, family, ...])

一般化推定方程式を用いた周辺回帰モデル。

NominalGEE(endog, exog, groups[, time, ...])

GEE を使用したノミナル応答周辺回帰モデル。

OrdinalGEE(endog, exog, groups[, time, ...])

GEE を使用した順序応答周辺回帰モデル

QIF(endog, exog, groups[, family, ...])

二次推論関数 (QIF) を使用して回帰モデルを近似します。

結果クラス

GEEResults(model, params, cov_params, scale)

このクラスは、GEE を使用した周辺回帰モデルの適合を要約します。

GEEMargins(results, args[, kwargs])

GEE に適合する回帰モデルの推定限界効果。

QIFResults(model, params, cov_params, scale)

QIF回帰の結果クラス

依存構造

現在実装されている依存構造は次のとおりです

CovStruct([cov_nearest_method])

相関構造と共分散構造の基本クラス。

Autoregressive([dist_func, grid])

一次自己回帰作業依存構造。

Exchangeable()

交換可能な動作依存構造。

GlobalOddsRatio(endog_type)

順序データまたは名目データを用いて、GEE の全体的なオッズ比を推定する。

Independence([cov_nearest_method])

独立した作業依存構造。

Nested([cov_nearest_method])

入れ子になった作業依存構造。

分布族

分布族は GLM と同じで、現在実装されているのは次のとおりです

Family(link, variance[, check_link])

1 パラメータ指数型分布族の親クラス。

Binomial([link, check_link])

二項指数族分布。

Gamma([link, check_link])

ガンマ指数族分布。

Gaussian([link, check_link])

ガウス指数族分布。

InverseGaussian([link, check_link])

逆ガウス指数族分布。

NegativeBinomial([link, alpha, check_link])

負二項指数族分布(NB2に対応)。

Poisson([link, check_link])

ポアソン指数族分布。

Tweedie([link, var_power, eql, check_link])

Tweedie 族.

リンク機能はGLMと同様で、現在実装されている機能は以下の通りです。すべてのリンク機能が各分布族で利用できるわけではありません。利用可能なリンク関数のリストは、次の方法で取得できます

>>> sm.families.family.<familyname>.links

Link()

1 パラメータ指数族の汎用リンク関数。

CDFLink([dbn])

scipy.stats 分布の CDF を使用する

CLogLog()

相補的な対数対対数変換

Log()

ログ変換

Logit()

ロジット変換

NegativeBinomial([alpha])

負二項リンク関数

Power([power])

べき変換

Cauchy()

コーシー (標準コーシー CDF) 変換

Identity()

恒等変換

InversePower()

逆変換

InverseSquared()

逆二乗変換

Probit([dbn])

プロビット (標準正規 CDF) 変換


最終更新日: 2025年01月28日