勝虫日記

動物生理学者の覚書

真の分布 q(x)

真の分布は未知なので、問うquestion対象としてのqだな、とq(x)と書かれているのを読んでいる。これは未知だが確率分布の要件をみたすものとして想定される構成的概念だ。

 

Akaike, 1985 *1より拙訳:

人工的にデータ発生させるときを除いて、真の分布によって何が意味されるのかは不明瞭である。実際、真の分布という概念は推定方法やモデルを指定することを通してのみ実際的な意味を獲得する。このように真の分布は特定のデータに対して推定手続きを設計する基礎を与える構成概念とみなされる。

Except for data obtained by an artificial sampling scheme, we do not know exactly what is meant by the true distribution. Indeed, the concept of the true distribution obtains a practical meaning only through the specification of an estimation procedure or a model. The true distribution may thus be viewed as a conceptual constract that provides a basis for the design of an estimation procedure for a particular type of data.

 

要するに真の分布q(x)はデータを発生した未知の分布、ということだが、赤池先生が統計学に導入した予測の観点によって意味が明瞭になる。

 

手元にあるデータは未知の真の分布q(x)から得られたが、手元にないさらにもうひとつデータが得られるとしたらそれはどのような分布かを考える。それを予測分布という*2。予測分布の構成のしかたはひととおりではない*3が、基本的な考え方としてはそのように共通している。(W)AICが測ろうとしているのは、その予測分布がいかに真の分布を近似できているだろうか、である。これは実問題にとりくんできた筆者には自然な考え方に感じる。データ数によって良いとされるモデルが変わってしまうことが不自然に感じられる、という方もおられるようではあるが。

 

最近危惧しているのは、このような予測分布の真の分布に対する適切さを測る、という考え方が忘れられてしまっていることである。統計モデルを構成して、その構成要素であるパラメータの一点を推測しようとする最尤推測はフィッシャーによって導入されたが、パラメータの一点推測に注力しすぎると、分布推測の観点がぼやけてしまうと赤池先生が指摘している*4

 

本来、真の分布推測を根本とした考え方であったのに、パラメータの推測だけ、AICの計算だけ、の方法だけに目がいってしまう傾向が統計ユーザーに蔓延してしまっているような気がする。

 

*1:Akaike, Hirotugu. "Prediction and entropy." Selected Papers of Hirotugu Akaike (1985): 387-410.

*2:ここでの汎化損失の観点と、もうひとつ、自由エネルギーの観点の、大きくわけてふたつの観点がある。参考、黒木さんのツイート:https://twitter.com/genkuroki/status/1183551330398265344?s=20

*3:最尤推測、MAP推測、平均プラグイン推測などがあるがこれらはベイズ推測の枠組みで統一的に整理される。詳しくは渡辺澄夫著「ベイズ統計の理論と方法」参照。

*4:*1と同じ論文