ノンパラメトリック手法 nonparametric¶
このセクションでは、ノンパラメトリック統計のさまざまな手法を収集します。これには、一変量および多変量データのカーネル密度推定、カーネル回帰、および局所的に重み付けされた散布図平滑化 (lowess) が含まれます。
sandbox.nonparametric には、作業中の追加関数、または単体テストがまだ行われていない追加関数が含まれています。ここには、特にカーネルまたは直交多項式に基づくノンパラメトリック密度推定量、スムーザー、および統計モデルの他の部分のノンパラメトリック モデルおよびメソッド用のツールを含めることを計画しています。
カーネル密度の推定¶
カーネル密度推定 (KDE) 機能は、単変量推定と多変量推定に分かれており、まったく異なる方法で実装されています。
単変量推定 ( KDEUnivariateによって提供される) は FFT 変換を使用するため、非常に高速になります。したがって、速度が重要な場合は、連続的な単変量データの方が適しています。さまざまなカーネルの使用をサポートします。帯域幅の推定は経験則 (Scott または Silverman) によってのみ行われます。
多変数推定( KDEMultivariate )は積型カーネルを使用します。帯域幅推定のための最小二乗法と最尤交差検証、および連続データ、順序付きデータ、順序なしデータの混合の推定をサポートしています。ただし、デフォルトのカーネル(Gaussian、Wang-Ryzin、Aitchison-Aitken)は現時点では変更できません。条件付き密度の直接推定( \(P(X Y)=P(X, Y)/P(Y)\) )は KDEMultivariateConditional でサポートされています。
KDEMultivariate も同様に単変量推定を行うことができますが、 KDEUnivariate よりも最大 2 桁遅くなります。
カーネル回帰¶
カーネル回帰 ( KernelReg によって提供される) は、 KDEMultivariate と同じプロダクト カーネル アプローチに基づいているため、 KDEMultivariate について上で説明したのと同じ一連の機能 (混合データ、相互検証された帯域幅推定、カーネル) を備えています。打ち切り回帰は KernelCensoredReg によって提供されます。
KernelReg に基づくセミパラメトリック部分線形モデルと単一インデックス モデルのコードはサンドボックスにあることに注意してください。
参考文献¶
B.W. Silverman著、 「Density Estimation for Statistics and Data Analysis」
J.S. Racine 著、 "Nonparametric Econometrics: A Primer" 、 Foundation and Trends in Econometrics、 Vol. 3、 No. 1、 1-88ページ, 2008年。
Q. Li and J.S. Racine, "Nonparametric econometrics: theory and practice", Princeton University Press, 2006.
Hastie, Tibshirani and Friedman 著、 "The Elements of Statistical Learning: Data Mining, Inference, and Prediction" 、Springer、2009年。
Racine, J.、 Li, Q. 著 "Nonparametric Estimation of Distributions with Categorical and Continuous Data." ワーキングペーパー。 (2000年)
Racine, J、 Li, Q. 著 "Kernel Estimation of Multivariate Conditional Distributions" 、 Annals of Economics and Finance 5、 211-235 (2004年)
Liu, R.、 Yang, L. 著 "Kernel estimation of multivariate cumulative distribution function." Journal of Nonparametric Statistics (2008年)
Li, R.、 Ju, G. 著 "Nonparametric Estimation of Multivariate CDF with Categorical and Continuous Data." ワーキングペーパー
Li, Q.、 Racine, J. 著 "Cross-validated local linear nonparametric regression" Statistica Sinica 14(2004年), 485-512ページ
Racine, J.: 著 "Consistent Significance Testing for Nonparametric Regression" Journal of Business & Economics Statistics
Racine, J., Hart, J., Li, Q.,著 "Testing the Significance of Categorical Predictor Variables in Nonparametric Regression Models"、 2006年、 Econometric Reviews 25, 523-544
モジュールリファレンス¶
公開関数とクラス
|
LOWESS (局所加重散布図平滑化) |
|
単変量カーネル密度推定量。 |
|
多変量カーネル密度推定量。 |
|
条件付き多変量カーネル密度推定量。 |
|
密度推定または回帰の設定を指定するオブジェクト。 |
|
ノンパラメトリックカーネル回帰クラス。 |
|
ノンパラメトリック打ち切り回帰。 |
カーネル帯域幅のヘルパー関数
|
スコットの経験則 |
|
シルバーマンの経験則 |
|
選択ルール bw の帯域幅を選択します |
statsmodels.nonparametric.dgp_examples に非線形関数の例がいくつかあります
非対称カーネル¶
単位区間に対応するベータや正値確率変数に対応するガンマのような非対称カーネルは、分布のサポートの境界での問題を回避します。
Statsmodels には、単位区間で定義されるベータカーネル、あるいは正値実数直線で定義されるカーネル、その他すべてのカーネルを使用した密度および累積分布関数を推定するための予備サポートがあります。
正値実数直線のカーネルのいくつかは、ゼロ境界での密度がゼロであると仮定します。ガンマ カーネルでは、ゼロ境界での正の密度または無制限の密度の場合も許可されます。
現在、デフォルトはなく、帯域幅の選択もサポートされていません。ユーザが帯域幅を指定する必要があります。
カーネル密度とカーネル cdf を計算する関数は次のとおりです
|
非対称カーネルに基づく密度推定。 |
|
非対称カーネルに基づく累積分布の推定。 |
pdf および cdf で利用可能なカーネル関数は次のとおりです
|
密度、PDF、推定用のベータ カーネル。 |
|
密度、確率密度関数、境界補正を伴う推定用のベータ カーネル。 |
|
密度、確率密度関数、推定用のバーンバウム サンダース (normal) カーネル。 |
|
密度、PDF、推定用のガンマ カーネル。 |
|
密度、PDF、境界補正付き推定用のガンマ カーネル。 |
|
密度、確率密度関数、推定用の逆ガンマ カーネル。 |
|
密度、PDF、推定用の逆ガウス カーネル。 |
|
密度、確率密度関数、推定用の対数正規カーネル。 |
|
密度、PDF、推定用の逆ガウス カーネル。 |
|
密度、確率密度関数、推定のためのワイブル カーネル。 |
|
累積分布、累積分布関数、推定用のベータ カーネル。 |
|
境界補正を伴う cdf 推定用のベータ カーネル。 |
|
cdf 推定用の バーンバウム サンダース (normal) カーネル。 |
|
累積分布、累積分布関数、推定用のガンマ カーネル。 |
|
境界補正を伴う cdf 推定用のガンマ カーネル。 |
|
累積分布、累積分布関数、推定のための逆ガンマ カーネル。 |
|
累積分布、累積分布関数、推定のための逆ガウス カーネル。 |
|
累積分布、累積分布関数、推定のための対数正規カーネル。 |
|
cdf 推定用の逆ガウス カーネル。 |
|
累積分布、累積分布関数、推定のためのワイブル カーネル。 |
Sandbox.nonparametric には、関数形式および半線形モデルと単一インデックス モデルをテストするための、テストが不十分な追加のクラスが含まれています。