ページ

2014年1月19日日曜日

AIC導出のABC(その1)

やあ、みんな。

今日はせっかくの休日を利用して、AIC(赤池の情報量基準)の導出過程をまとめておくよ。AICは統計モデルの選択に用いられる基準だけれど、その導出方法を理解することで、その限界を理解することもできると思うんだ。

  1. 期待(平均)対数尤度関数の二次テイラー近似
  2. 最尤推定量のバイアス算出
  3. 最尤推定量の分散行列の計算(漸近分布)

参考にしたのはこれらの本。

下平・伊藤・久保川・竹内「モデル選択 予測・検定・推定の交差点」岩波書店、2006の第1章、下平英寿「情報量基準によるモデル選択とその信頼性評価」
北川源四郎・小西貞則「情報量基準」朝倉書店、2006


A 期待(平均)対数尤度関数の二次テイラー近似

まずは期待(平均)対数尤度の概念を整理しておこうね。ある確率分布=確率モデルをここではpという確率密度関数で表現するよ(もちろん離散分布の場合にもあてはまるよ)。これに対して真の確率分布qを考えて、これによる期待値をとるんだ。

\[
L(q,p) = \int^{\infty}_{-\infty} q(x)\ln p(x)dx
\]

これはKullback Leiblar情報量(KL情報量)という量と密接な関係がある。この量をD(q,p)とすると、

\[
D(q,p) = L(q,q)-L(q,p)
\]

KL情報量はpとqの近さを表すんだ。p=qならD(q,q)=0になるし、pとqが遠いほどD(q,p)は大きくなる。モデル選択というのはできるだけqに近いpを候補の中から探すことだから、Dを出来る限り小さくすること、言い換えるとLを出来る限り大きくすることが求められるわけ。これが最尤法の原理なんだね。

次にpをパラメトリックモデルで表現することを考えるよ。これはいろいろなpの候補を対象にするために、いくつかの未知量(パラメータ)を置いて可変にしておくんだね。これによって、pが点ではなく、面、というか空間を表すようにするんだ。これをこんなふうに表現してみよう。

\[
p(x|\theta)=p_{\theta}(x)=p_{x}(\theta)
\]

次にLが極大値をとるときのパラメータを考えてみよう。このパラメータを代入したときのpがqに最も近い、ということが出来るね。そのときの条件は以下のようになるよ。

\[
\frac{\partial L(q,p_{x}(\theta))}{\partial \theta} = 0
\]

ここで次の注意点に気がつくね。

  • Lはパラメータ空間の上で滑らかに変化する必要がある。段差があったりすると、ダメ。極大は最大とは違う。
  • 最大値をとったとしても、そのときp=qになっているとは限らない。あくまでも一番近い、ということに過ぎない。

ここまで見たところで、L関数の二次近似を考えてみよう。なんで?なんで二次なの?こんな疑問が出ると思うね。まずは実際的な理由。三次以上の計算は大変だから。パラメータは複数あるので、三次以上の展開では行列じゃなくてテンソル代数がでてきちゃう。それから、二次なので、大まかに山の形になる。てっぺんが平で、滑らかな山。山頂からずれると必ず低くなるので、最適な状態を探っているという状況にふさわしいわけ。これが三次になっていると、今の山頂よりももっと高い山頂があるのでは?となってしまう。

というわけで極大値のまわりの二次までのテイラー展開を考えてみる。

\[
L(q,p_{x}(\theta)) = L(q,p_{x}(\hat{\theta_{0}})) + \frac{1}{2}(\theta - \hat{\theta_{0}})^{t} H (\theta - \hat{\theta_{0}})
\]

ここでHはLのヘッセ行列だよ。

\[
H = \left( \left. \frac{\partial^{2} L(q,p_{x}(\theta))}{\partial \theta_{i} \partial \theta_{j}} \right|_{\theta=\hat{\theta_{0}}} \right)
\]

山頂だから一次の項はゼロになってるってことに注意してね。次はセクションB、最尤推定量によるバイアスを説明するよ。

じゃあ、またね。