2018年イグノーベル賞を予想する

① 現代版"風が吹いたら桶屋が儲かる?"事例集

9月14日(金)朝7時(日本時間)に迫る、2018年のイグノーベル賞の受賞者発表&授賞式。
「笑い、そして考えさせられる」業績に対して送られる賞ということで(たぶん当たらないだろうと思いつつも)、3人の科学コミュニケーターが該当しそうな面白い研究を1つずつ紹介していきます。

正直なところ、イグノーベル文学賞を(今年の発表を見送ることになった文学的な顛末によって)本家ノーベル文学賞の選考委員会がとったり、経済学賞を(バーチャルと現実の融合世界に働き盛りの人々を没入させている功績で)ポケモンGoがとったりするんじゃないかと睨んでいたりするのですが。

いちおう未来館は科学館なので、科学にまつわる業績に絞って予想を行います。

■イグノーベル受賞予想 「現代版"風が吹いたら桶屋が儲かる?"事例集」

イグノーベル賞の受賞予想ブログ第一弾は、昨年からのイグノーベル賞担当メンバー山本が担当します。

僕が予想する2018年のイグノーベル統計学受賞者は、こちらの方です。Spurious Correlation (リンクは削除されました)というプロジェクトの実施者、Tyler Vigen氏です。

("Spurious Correlation"より)

"Spurious Correlation"とは、「疑似相関」のこと。つまり、直接関係がない(場合によっては、間接的にも関係がない)2つのことが、なんらかの別の理由や、ただの偶然によって、強い関係があるように見えてしまうことです。

言葉では具体的にどういうことかを上手く説明するのが難しいので、"Spurious Correlation"のサイトから1つ選んで、実例を見てもらいましょう。

「プールに落ちて溺死した人の数は、ニコラス・ケイジの映画出演数と相関がある」(黒が出演数、赤が溺死者数)(By Tyler J. Vigen via "Spurious Correlation", Creative Commons Attribution (CC BY 4.0)) (リンクは削除されました)

・・・。いやいやいや、そんなバカな。

このように、データが連動する関係を「相関関係」といいます。ですが、俳優さんの映画の出演数が増えるとプールで溺れる人の数が増える、というような関係性はなさそうですよね。関係がない(一方が原因でもう一方が結果、という直接的な関係にない)のに関係がありそうに見えるのが、「疑似相関」です。

Vigen氏は、世の中の統計データから、「いかにも疑似相関」、と思わせてくれる笑える事例をひたすら抽出し、発表しています。
他にも・・・

「一人あたりのモツァレラチーズ消費量は、土木工学の博士号授与者数と相関がある」(黒が博士号、赤がモツァレラ)(By Tyler J. Vigen via "Spurious Correlation", Creative Commons Attribution (CC BY 4.0)) (リンクは削除されました)

「一人あたりのチーズ消費量は、ベッドシーツに絡んで亡くなった人の数と相関がある」(黒がシーツ、赤がチーズ)(By Tyler J. Vigen via "Spurious Correlation", Creative Commons Attribution (CC BY 4.0)) (リンクは削除されました)

「メイン州の離婚率は、一人当たりのマーガリンの使用量と相関がある」(黒がマーガリン、赤が離婚率)(By Tyler J. Vigen via "Spurious Correlation", Creative Commons Attribution (CC BY 4.0)) (リンクは削除されました)

そんなわけないでしょうっ! と突っ込まずにいられない「疑似相関」が次から次にでてきて笑わせてくれます。

しかも、その事例数がモノスゴイんです。その数、なんと約3万。オモシロ事例集も、内容が数万事例という数になってくると、執念のようなものを感じずにはいられません。そんなクレイジーな(誉め言葉)ところもイグノーベル賞にふさわしいと思っております。

実際にサイトを見に行って笑っていただけると嬉しいです(最新版は掲載事例数が少ないですが、"old version"を見ればモノスゴイ数のグラフを見ることができます。

■「相関関係」「有意差」という言葉の魔力

イグノーベル賞には、「考えさせられる」要素も重要なので、その話をさせてください。

私たちの周りは、たくさんの"相関"であふれています。

テレビやウェブサイト、中吊り広告、雑誌、行政の文書などなど、色んなところに「〇〇を食べている人ほど成績が良い」とか、「××を使っている人ほどダイエットに成功している」とか、「△△を消費しているほど病気になりやすい」とか、「□□は、災害の前兆だ」とか言う情報を目にしますよね。そこには、"Spurious Correlation"と同じようなグラフとともに、「統計的に有意な相関関係」という但し書きが添えられていたりすることもあります。

「統計的に有意」と言われると、「そうなのか」と信じそうになりますが、本当にそれで良いのでしょうか?
試しに、"Spurious Correlation"のグラフのデータに、統計的に有意な相関関係があるかを計算してみました。Vigen氏のお気に入りだという、ニコラス・ケイジさんのグラフでやってみます。

Excelを使い、「無相関の検定」という方法で、上記のように算出しました(※)。間違いがあったら教えてください。
※『サイコロとExcelで体感する統計解析』石川 幹人著(共立出版)、及びこちらのページ(首都大学東京 大学教育センター 情報教育担当 & 学術情報基盤センター 情報メディア教育支援部門)を参考にしました。

11年間で、それぞれの年に「ニコラス・ケイジさんが映画に出た本数」と、「プールに落ちて溺死した人の数」との間に、実はなんの関係もないことを仮定します。その仮定のもとで、「取れたデータがたまたま偶然偏って」相関があるように見えてしまう確率(いわゆる"p値")を計算すると、2.52%でした。統計学的には、5%以下というのは有意に差がある(ここでは「相関関係がありそうだ」)と判断される一つの基準です。そうすると、これも「有意な相関」といえてしまいます。

そう聞いて、皆さん本当に相関があると思いますか?
まあ、本当に関係があるのかもしれませんが、多分ないと思うのでここでは関係がないものとして話を進めましょう。

実は、「統計的に有意な相関」という言葉に対して、「データを信用できる」「高い確率で相関関係がある」と解釈するのは、あまり正しくありません。「得られたデータは、偶然だとしたらビックリするくらいに偏っている(連動している)から、何らかの"裏"がありそうだ」と解釈する方が安全だと思います。
その"裏"が、「俳優さんが映画に出ると溺死者が本当に増えるという何らかの事実」なのか、「調査が不適切」なのか、「(都合の良い数字だけを使うような)不適切なデータの使い方」なのか、「たまたま起こった珍しい偶然なのか」はこの解析からは判断できません。

統計解析の結果だけでは誰も納得してくれないのが、学会あるある。

データを集めて解析した人の中には、悪意を持ってわざとやっている人もいるでしょうが、解析した本人もデータに騙されているということもありえます。

だから、研究者が成果を発表した際には、統計的に有意であるかどうかも大事にしつつ、「どうやってデータを取った?」「何と何を比べた?」「本当は別の要因が関わっているのでは?」というやり取りが交わされます。そんなやり取りをしながら、研究者は、他の人(と自分自身)を騙してしまわないように、「どうして相関関係が見えるのか」をもっと細かく調べていきます。
研究者だけでなく、僕たち一人ひとりにとっても、統計的な解析結果を見たときには、冷静に"裏"を見たり調べたりしてから判断する、慎重な姿勢が大事です。

「統計的に有意な相関がある」場合でも、数字の"裏"にある事情が何なのかまではわからない。どうか冷静に! ・・・ということです。そういったことを、"Spurious Correlation"の笑えるグラフたちは、オモシロおかしく教えてくれます。

■最後におまけ:"Spurious Correlation"のグラフたちは、何がおかしいのか?

今回紹介したオモシロおかしいグラフのような「疑似相関」がどうして見つかるのか、についてちょっとだけ推測してみましょう。

Vigen氏のお気に入り、ニコラス・ケイジさんのグラフを使います。

(再掲)「プールに落ちて溺死した人の数は、ニコラス・ケイジの映画出演数と相関がある」(黒が出演数、赤が溺死者数)(By Tyler J. Vigen via "Spurious Correlation", Creative Commons Attribution (CC BY 4.0))

なんの"裏"もないことを仮定した場合、このような数字の連動がある確率は、2.52%でした。おそらく相関関係のないデータばかりだと思えるのに、そんな確率の低い偶然が、3万事例も起こるというのはどういうことでしょうか?

「全然関係のない数字11年分のデータ」を適当に探してきて、「ニコラス・ケイジさんの1年間の映画出演数11年分のデータ」と組み合わせたときに2.52%という低い確率のことが起こるまで延々と探し続けたとします。
延々と100回繰り返すと、その間に1回以上この偶然が起こる確率は、約92.3%です。1000回やれば、99.9999999992%とほとんど100%みたいな確率になってきます。

世の中には、100や1000どころではなく、膨大な数の統計データがあります。そこから面白そうなものを拾ってきて、延々と都合の良いところだけ組み合わせ続ければ、"Spurious Correlation"のように笑える偶然がいくつも見つかってくるはずです。

つまり、「偶然相関しているように見えるデータを積極的に拾っている」というのが、"Spurious Correlation"のグラフたちの「裏」事情だと思います。中には本当に何らか関係があるものも見つかるかもしれませんが。

■笑いながら数字の見方を見直そう

以上、イグノーベル統計学賞の予想でした。 予想が当たるか当たらないかはさておき、是非"Spurious Correlation"を見に行って、統計学とのお付き合いの仕方を笑いながら考えてみてください。

私たちがデータを見て判断していることは、本当に正しいでしょうか? サイトのグラフとあまり変わらないものを根拠に、笑える(笑えない?)思い込みをしているかもしれませんよ。


イグノーベル賞の発表と授賞式は日本時間の9月14日(金)朝7時から!

ニコニコ生放送
「イグノーベル賞2018 授賞式 生中継<日本語同時通訳>」 (リンクは削除されました)
未来館科学コミュニケーターが運営コメントで参加します。

日本科学未来館のイグノーベル賞に関するイベント
9月8日、9日、15~17日の土日祝 科学コミュニケーター・トーク
「笑い、そして考える 2018年のイグノーベル賞!」 (リンクは削除されました)

9月23日(日)科学コミュニケーター・トーク特別版
「仕掛け人にあえる!きける! イグノーベル賞って何!?」 (リンクは削除されました)

ニコニコ生放送「イグノーベル賞のすべて!~ 仕掛け人マーク氏に聞く 【日本科学未来館×ニコ生】」 (リンクは削除されました)
出演:マーク・エイブラハムス氏、未来館の科学コミュニケーター

2018年イグノーベル賞を予想する
その① 現代版"風が吹いたら桶屋が儲かる?"事例集(この記事)
その② 鼻で天気がわかる?雨が降る前のにおいの正体は? (リンクは削除されました)
その③ 鏡で自分を見ると食事をおいしく感じる (リンクは削除されました)

「テクノロジー」の記事一覧