ページ

2016年3月2日水曜日

【R】分割表の自動カテゴリー統合プログラム : optrecod (その3)

これまでのあらすじ:Rで分割表分析のAICを計算する関数「catdap」を作成。「情報量統計学」の例題6.1を使って動作試験してみた。

今回は、別のデータにcatdapを使ってみる。経営経済調査実習で今年行った飲食店に関する調査データを用いてみる。特にカイ自乗検定で警告が出るパターンを試してみる。



飲食店の選択に関する調査結果より

以下は、「同行者によって店舗選びのポイントが変わるか(夕食)」に関する分析結果である。

t11_14D <- table(y$Q11D,y$Q14D)
> t11_14D
   
      1   2   3   4   5   6   7   8   9
  1 119 299  31  35   9   1   7  15   7
  2  23  96   2   0   2   1   2   2   2
  3  17  76   2   6   2   0   2   4   0
  4   3  20   2   0   1   0   0   1   2
  5   9  31   8   3   1   0   1   4   2
  6   1   0   0   0   0   1   0   0   0
> chisq.test(t11_14D, correct = FALSE)

        Pearson's Chi-squared test

data:  t11_14D
X-squared = 194.9459, df = 40, p-value < 2.2e-16

 警告メッセージ: 
In chisq.test(t11_14D, correct = FALSE) :
   カイ自乗近似は不正確かもしれません 
度数が5より小さいものがある場合に、このように「カイ自乗近似は不正確かもしれません」という警告が出される。これはイエーツの修正を施しても変わらない。P値はきわめて小さいが、その検定結果は信頼できないということになる。

同じデータをcatdapに掛けてみるとこうなる。
> catdap(t11_14D)
[1] 3.886714
AICの差はプラスであり、独立モデルよりもAICは悪化している。そのため、この表によっては同行者と店舗選びのポイントの関係は判断できない(関係ない可能性が濃厚)ということになる。

ただし、次のような問題がある。すなわち、この表がゼロ度数を多数含んでいる(つまり、選択肢の分類が細かすぎる)ためにAICが悪化したのであって、カテゴリー統合(リコード)を適切に行えばもっとましになるのでは、という疑いがある。このことを考慮して、プログラムを改善しようというのが、この一連のコラムの最終的な目標である。

次回の予告

次回は、リコードによってAICがどのように影響されるかを数式の上で検討してみることとする。