ページ

2016年8月26日金曜日

【R】 条件付きガウス分布

今晩は、統計分布マニアックスの時間がやってきました。

条件付きガウス分布(Conditional Gaussian Distribution)というのは、正規分布における条件付き確率の分布のことではなくて(紛らわしい)、多変量正規分布に対する独自の拡張のことである。この分布の想定により、量的変数と質的変数が混在した状態をモデル化することが可能になり、したがって回帰分析モデルと対数線形モデルを橋渡しすることが可能になる。

Wikipediaには載っていないので、Edwards本から抜粋して解説する。



CG分布の密度関数

太文字のXをn個の要素からなる離散確率変数のベクトル、太文字のYをm個の要素からなる連続確率変数のベクトルとする。それぞれの実現値を太文字のx、yで表現する。

iとyの同時確率分布は、条件付き確率の式より次のように表現できる。
\[
\int f(\boldsymbol{x},\boldsymbol{y}) d \boldsymbol{y} = \int f(\boldsymbol{y}|\boldsymbol{x}) d \boldsymbol{y} \cdot p(\boldsymbol{x})
\]

右辺第1項は正規分布の密度関数であり、xが実現された場合の条件付き確率である。そのパラメータはxに依存して変化する。また、pは多項分布の確率関数である。上の式を積分しないで密度の部分のみを取り出せば、次のようになる。

\[
f(\boldsymbol{x},\boldsymbol{y}) = p_{\boldsymbol{x}} |2 \pi \boldsymbol{\Sigma}_{\boldsymbol{x}}|^{-\frac{m}{2}} \exp \left\{ -\frac{1}{2} (\boldsymbol{y}-\boldsymbol{\mu}_{\boldsymbol{x}})^{\prime} \boldsymbol{\Sigma}_{\boldsymbol{x}}^{-1} (\boldsymbol{y}-\boldsymbol{\mu}_{\boldsymbol{x}}) \right\}
\]

更にこれを変形すると、

\[
f(\boldsymbol{x},\boldsymbol{y}) = \exp \left\{\boldsymbol{\alpha}_{\boldsymbol{x}} + \boldsymbol{\beta}_{\boldsymbol{x}}^{\prime}\boldsymbol{y} -\frac{1}{2} \boldsymbol{y}^{\prime} \boldsymbol{\Omega}_{\boldsymbol{x}} \boldsymbol{y} \right\}
\]

α、β、Ωをカノニカル・パラメータと呼ぶ。対して、p、μ、Σをモーメント・パラメータと呼ぶ。これらの間は次の変換式で結ばれる。

\[
\left\{ \begin{eqnarray}\boldsymbol{\Omega}_{\boldsymbol{x}} & = & \boldsymbol{\Sigma}_{\boldsymbol{x}}^{-1} \\ \boldsymbol{\beta}_{\boldsymbol{x}} & = & \boldsymbol{\Sigma}_{\boldsymbol{x}}^{-1} \boldsymbol{\mu}_{\boldsymbol{x}} \\ \boldsymbol{\alpha}_{\boldsymbol{x}} & = & \log \boldsymbol{p}_{\boldsymbol{x}} -\frac{m}{2} \log |\boldsymbol{\Sigma}_{\boldsymbol{x}}| -\frac{1}{2} \boldsymbol{\mu}_{\boldsymbol{x}}^{\prime} \boldsymbol{\Sigma}_{\boldsymbol{x}}^{-1} \boldsymbol{\mu}_{\boldsymbol{x}} -\frac{m}{2} \log 2\pi \end{eqnarray} \right.
\]

また、Ω、Σについて、一般的にはxに依存して変化するものとされる。これをheterogenousモデルと言う。しかし、実用上はΩ、Σはxによらず共通であると仮定することも多い。それをhomogenousモデルと言う。

ここから先はhomogenousモデルに限定して話を進める。

具体例(1) : n=1,m=1の場合

普通の一変量ANOVAと同じ。
\[
\begin{eqnarray} \log f & = & \log p_{i} - \frac{1}{2} \log 2 \pi - \frac{1}{2} \log \sigma^{2} -\frac{1}{2\sigma^{2}}(y-\mu_{i})^{2} \\ & = & \alpha_{i} + \beta_{i}y - \frac{1}{2} \omega y^{2} \\ & = & (u + u^{A}) + (v + v^{A})y -\frac{1}{2} \omega y^{2} \end{eqnarray}
\]

最後の行はカノニカルパラメータを定数部分と因子依存部分に切り分けたもの。もし、v^A=0ならば、
\[
\log f = \left\{ u^{A} \right\} + \left\{u + vy -\frac{1}{2} \omega y^{2} \right\}
\]

このように因子依存部分を完全に量的変数から切り離すことが出来る。つまり、質的変数にかかる多項分布パートと量的変数にかかる正規分布パートの積に完全に分解できる。なので、個別に分析するべし。

具体例(2) : n=1,m=2の場合

\[
\boldsymbol{\beta}_{\boldsymbol{x}} = \left( \begin{array}{c} v_{1} + v_{1}^{A} \\ v_{2} + v_{2}^{A} \end{array} \right)
\]

飽和モデルではv1^Aもv2^Aもゼロではない。片方をゼロにすると、「もう片方をゼロにすれば独立になる」=「条件付き独立」になる。両方ゼロにすると完全に独立になる。

\[
\boldsymbol{\Omega} = \left( \begin{array}{c c} \omega_{11} & \omega_{12} \\ \omega_{21} & \omega_{22} \end{array} \right)
\]

homogenousモデルを想定しているので、因子依存部分は存在しない。ω12=ω21=0のとき、y1とy2が同時に出現する項はなくなり、完全に分離できる。