シャコ・エビ日記

シャコパンチ、エビパチン研究者の記録

データの洪水

自然科学の実験でやることとは、簡単に言えば、生のデータをとって、情報(=ストーリー)を読み出すということだ。

自然科学は客観的営みではない。流転する世界を主観で切り取る営みだ。

というのは、指導して下さっている教授から教わったことだ。この生のデータはまさに混沌と流転するものを取り出してきた、一番現実に近い情報である。こいつがとんでもなくたくさんたまる。ひとつひとつ不器用に読みとろうとしたら、日が暮れるどころか、人生が終わってしまう。このデータの洪水をどうにか扱わなければならない。

データマイニングという言葉がある。どんな定義かな……と思いWikipediaを紐解いてみた*1。そこで面白かったのが、

Another widely used (though hypothetical) example is that of a very large North American chain of supermarkets. Through intensive analysis of the transactions and the goods bought over a period of time, analysts found that beers and diapers were often bought together.

という例。ビールとおむつが実は一緒に売れるということを見いだす事ができたということなのだが、たしかに直観的には思いつかない。

従来は、こうした取引の「生データ」は、経理処理に必要なだけで活用されていなかったが、情報技術の向上により、潜在的な顧客ニーズが眠る「鉱山」として「採掘(mining)」されるようになった*2

というようにデータベースに登録されたものを有用に活用する技術と言える。

しかし、もとに戻って考えてみると、データマイニングというのは、常にすでにデータとなったものを使う技術であるから、ここではもとの情報をつくる第一段階には言及されることはない。

データは何をどうやってとるの?という事「も」、いや、「のほうが」、人間しかできない重要な段階なのだと思う。全てのデータの源泉なのだ。巡るめく世界から、ストーリーを創る。これがもっとも創造的営みだ。そういう意味で実験というのは非常に重要なのだと痛感する。やってみないと分からない世界に住んでいるわけだから。

もちろん、データマイニングのスキルによって、新たなデータをとる視野が開ける。常にRealなものに還元するようにすべきなのだ。データになったものをこねくり回すだけで満足してはいけないのだ。これは、自分への戒めだ。Realな、実体のあるものに回帰せよ。美しい世界にとどまらず、汚い世界を受け入れる勇気を持て。

*1:http://en.wikipedia.org/wiki/Data_mining#Definition

*2:http://e-words.jp/w/E38387E383BCE382BFE3839EE382A4E3838BE383B3E382B0.html