一般化推定方程式¶

一般化推定方程式は、観測値がクラスター内で相関している可能性があるが、クラスター間では相関がない場合に、パネル、クラスター、または反復測定データの一般化線形モデルを推定します。一般化線形モデル ( GLM )と同じ 1 パラメーターの指数族の推定をサポートします。

コマンドと引数については Module Reference を参照してください。

例¶

以下は、てんかん発作に関するデータを使用した、クラスター内の交換可能な相関によるポアソン回帰を示しています。

In [1]: import statsmodels.api as sm

In [2]: import statsmodels.formula.api as smf

In [3]: data = sm.datasets.get_rdataset('epil', package='MASS').data

In [4]: fam = sm.families.Poisson()

In [5]: ind = sm.cov_struct.Exchangeable()

In [6]: mod = smf.gee("y ~ age + trt + base", "subject", data,
   ...:               cov_struct=ind, family=fam)
   ...: 

In [7]: res = mod.fit()

In [8]: print(res.summary())
                               GEE Regression Results                              
===================================================================================
Dep. Variable:                           y   No. Observations:                  236
Model:                                 GEE   No. clusters:                       59
Method:                        Generalized   Min. cluster size:                   4
                      Estimating Equations   Max. cluster size:                   4
Family:                            Poisson   Mean cluster size:                 4.0
Dependence structure:         Exchangeable   Num. iterations:                     2
Date:                     Tue, 28 Jan 2025   Scale:                           1.000
Covariance type:                    robust   Time:                         00:02:59
====================================================================================
                       coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------
Intercept            0.5730      0.361      1.589      0.112      -0.134       1.280
trt[T.progabide]    -0.1519      0.171     -0.888      0.375      -0.487       0.183
age                  0.0223      0.011      1.960      0.050    2.11e-06       0.045
base                 0.0226      0.001     18.451      0.000       0.020       0.025
==============================================================================
Skew:                          3.7823   Kurtosis:                      28.6672
Centered skew:                 2.7597   Centered kurtosis:             21.9865
==============================================================================

Wikiには、GEEの使用例がいくつか紹介されています: Wiki notebooks for GEE

参考文献¶

KY Liang and S Zeger. "Longitudinal data analysis using generalized linear models". Biometrika (1986年) 73 (1): 13-22.
S Zeger and KY Liang. "Longitudinal Data Analysis for Discrete and Continuous Outcomes". Biometrics Vol. 42, No. 1 (Mar., 1986年), pp. 121-130
A Rotnitzky and NP Jewell (1990年). "Hypothesis testing of regression parameters in semiparametric generalized linear models for cluster correlated data", Biometrika, 77, 485-497.
Xu Guo and Wei Pan (2002年). "Small sample performance of the score test in GEE". http://www.sph.umn.edu/faculty1/wp-content/uploads/2012/11/rr2002-013.pdf
LA Mancl LA, TA DeRouen (2001年). A covariance estimator for GEE with improved small-sample properties. Biometrics. 2001 Mar;57(1):126-34.

モジュールリファレンス¶

モデルクラス¶

`GEE`(endog, exog, groups[, time, family, ...])	一般化推定方程式を用いた周辺回帰モデル。
`NominalGEE`(endog, exog, groups[, time, ...])	GEE を使用したノミナル応答周辺回帰モデル。
`OrdinalGEE`(endog, exog, groups[, time, ...])	GEE を使用した順序応答周辺回帰モデル

`QIF`(endog, exog, groups[, family, ...])	二次推論関数 (QIF) を使用して回帰モデルを近似します。

結果クラス¶

`GEEResults`(model, params, cov_params, scale)	このクラスは、GEE を使用した周辺回帰モデルの適合を要約します。
`GEEMargins`(results, args[, kwargs])	GEE に適合する回帰モデルの推定限界効果。

`QIFResults`(model, params, cov_params, scale)	QIF回帰の結果クラス

依存構造¶

現在実装されている依存構造は次のとおりです

`CovStruct`([cov_nearest_method])	相関構造と共分散構造の基本クラス。
`Autoregressive`([dist_func, grid])	一次自己回帰作業依存構造。
`Exchangeable`()	交換可能な動作依存構造。
`GlobalOddsRatio`(endog_type)	順序データまたは名目データを用いて、GEE の全体的なオッズ比を推定する。
`Independence`([cov_nearest_method])	独立した作業依存構造。
`Nested`([cov_nearest_method])	入れ子になった作業依存構造。

分布族¶

分布族は GLM と同じで、現在実装されているのは次のとおりです

`Family`(link, variance[, check_link])	1 パラメータ指数型分布族の親クラス。
`Binomial`([link, check_link])	二項指数族分布。
`Gamma`([link, check_link])	ガンマ指数族分布。
`Gaussian`([link, check_link])	ガウス指数族分布。
`InverseGaussian`([link, check_link])	逆ガウス指数族分布。
`NegativeBinomial`([link, alpha, check_link])	負二項指数族分布(NB2に対応)。
`Poisson`([link, check_link])	ポアソン指数族分布。
`Tweedie`([link, var_power, eql, check_link])	Tweedie 族.

リンク機能¶

リンク機能はGLMと同様で、現在実装されている機能は以下の通りです。すべてのリンク機能が各分布族で利用できるわけではありません。利用可能なリンク関数のリストは、次の方法で取得できます

>>> sm.families.family.<familyname>.links

`Link`()	1 パラメータ指数族の汎用リンク関数。
`CDFLink`([dbn])	scipy.stats 分布の CDF を使用する
`CLogLog`()	相補的な対数対対数変換
`Log`()	ログ変換
`Logit`()	ロジット変換
`NegativeBinomial`([alpha])	負二項リンク関数
`Power`([power])	べき変換
`Cauchy`()	コーシー (標準コーシー CDF) 変換
`Identity`()	恒等変換
`InversePower`()	逆変換
`InverseSquared`()	逆二乗変換
`Probit`([dbn])	プロビット (標準正規 CDF) 変換

最終更新日: 2025年01月28日