連鎖方程式による多重代入¶
MICE モジュールを使用すると、ほとんどの statsmodels モデルを独立変数および/または従属変数の欠損値を持つデータセットに適合させることができ、適合したパラメーターの厳密な標準誤差を提供します。基本的な考え方は、欠損値を持つ各変数を回帰の従属変数として扱い、残りの変数の一部またはすべてを予測子として扱うことです。 MICE 手順は、これらのモデルを循環してそれぞれを順番にフィッティングし、次に「予測平均マッチング」(PMM) と呼ばれる手順を使用して、フィッティングされたモデルによって決定された予測分布からランダムな抽出を生成します。これらのランダムな抽出は、1 つの代入データ セットの代入値になります。
デフォルトでは、変数が欠落している各変数は、データセット内の他のすべての変数に対する主効果を含む線形回帰を使用してモデル化されます。代入モデルが線形である場合でも、PMM プロシージャは各変数の定義域を保持することに注意してください。したがって、たとえば、特定の変数のすべての観測値が正の場合、その変数のすべての代入値は常に正になります。ユーザーは、各変数の代入値の生成にどのモデルを使用するかを指定するオプションもあります。
クラス¶
|
連鎖方程式による多重代入。 |
|
データセットをラップして、MICE で欠落データを処理できるようにします。 |
|
MI は、提供された imputer オブジェクトを使用して複数の代入を実行します。 |
|
ガウス モデルを使用したベイズ代入。 |
実装の詳細¶
内部的には、このファンクションは pandas.isnull を使用します。このファンクションから True が返されるものはすべて、欠落データとして扱われます。