こんにちは、「Yahoo! JAPANビッグデータレポート」チームです。
「音楽CDが売れるとサバの漁獲量が増える」と聞いたらどう思いますか?
ほとんどの人は、まさか!と思ったことでしょう。
では実際のデータを見てみましょう。
(図1)Yahoo!ショッピングの音楽CDの流通総額とサバの漁獲量 (R=0.82)
- 資料:
- Yahoo!ショッピング、農林水産省統計
Yahoo!ショッピングでの音楽CDの流通総額とサバの漁獲量の推移が見事に一致しています。
つまりデータ上ではその関連性が裏付けられたことになります。
これを一般的には「相関がある」といいます。
では、本当にCDの売上とサバの漁獲量の間に繋がり、つまり因果関係はあるのでしょうか?
恐らくこの2つのデータ間に因果関係はないと思われます。
つまり、このデータは「相関があるが、因果関係はない」というデータなのです。
では、なぜこの2つのデータは見事に連動しているのでしょうか?
それは恐らく“偶然”です。
データとして比較した場合にたまたま相関がある結果となったのです。
これを「擬似相関」、海外ではspurious correlationなどと呼んでいます。
そこで今日は、この奥の深い「相関」の世界についてのお話をしたいと思います。
相関とは
まずは相関とは何かからおさらいしましょう。
一般的には相関とは「二つのものが密接にかかわり合っていること」とあります。
データの世界では一方が増えるともう一方のデータもその変動と綿密に連動した変化を伴うもののことをいい、またその強弱を測る指標として「相関係数(R)」というものがあります。
相関係数は1に近づくほど正の相関、-1に近づくほど負の相関があると表現され、1か-1に近づくほど相関が強いということになります。
負の相関というのは、一方の変数が増えると、もう一方の変数が減るような関係のことです。
正の相関を具体例で見てみましょう。
ここでは、1個100円のりんごのn個買った時のグラフを見てみます。
(図2)りんごの個数と合計金額 (R=1.0)
- 資料:
- Yahoo! JAPANビッグデータレポート
綺麗な直線になりました。
相関係数はデータを結ぶ線が直線に近づけば近づくほど1となります。
つまり、りんごの個数と合計金額は完全な正の相関であり、相関係数はR=1ということになります。
またこの時、合計金額はりんごの個数によって完全に影響を受ける関係にあるため、りんごの個数と合計金額の間には「因果関係がある」ということもできます。
相関はあっても因果は別物
では、世の中の相関係数の高いデータはすべて因果関係が必ずあるのでしょうか?
あるとするならばCD売上とサバの漁獲高も関係があるということになってしまいますが、そんな事はありません。
相関と因果は独立の概念なのです。
りんごの個数と合計金額のように相関も因果もあるパターンはとてもわかりやすいですが、CD売上とサバのように相関があるが因果がないパターンというのも意外とたくさんあります。
次に、典型的な例を紹介します。
(図3)相関するが因果関係のないパターン
- 資料:
- Yahoo! JAPANビッグデータレポート
この中でも特に偶然の一致にようなものを擬似相関と呼びます。
海外では擬似相関の事例だけを集めた書籍もある程親しまれているトピックでもあります。
そして冒頭で紹介した事例もまさに擬似相関の一つといえます。
さらに相関はないが因果があるパターンというのも実は多くあります。
それはいったいどういうものか想像付きますか?
例えば、次のようなBMIと死亡リスクのグラフです。
(図4)因果関係があっても相関がないもの
- 資料:
- 国立がん研究センター
下降していたデータがある基準を境に上昇に向かっているため、直線にならず相関計数的にはR=-0.57という負の相関という結果になりましたが、この2つの要素には明らかに因果関係を見てとれます。
データがこのような曲線を描いたり、二次関数的に伸びたり、ある基準点を境に極端に切り替わったりする場合には因果があっても、きれいに相関がでないことがよくあります。
つまり、二つのデータの間に相関がないということが必ずしも因果関係がないということにはつながらないのです。
(図5)あるラインを境に負から正へ変化
- 資料:
- Yahoo! JAPANビッグデータレポート
このように単純に相関係数が高い低いと判断するだけでなく、そのデータおける因果関係を考慮せずには本質を読み解くことができないのです。
相関は自動化の母
あらゆる自動化はモデルから生まれます。
そのモデル作りを自動化したものが機械学習です。相関はほとんどのモデルの母です。
実は、多くのモデルの中に入っているパラメーターは、なぜそれがそのモデルを生むのか全く理解できません。
それでも十分な相関さえあれば、モデルを作ることができます。
例えば、過去にビッグデータレポートで報告した「景気の「今」を把握することは可能か?」の中の「Yahoo! JAPAN景気指数」もその一つです。
ここに入っているパラメータ196個は、統計的に相関があるものを一切意味を見ずに拾ったものです。(ただし、相互に極度に相関の高い、多重共線性のある変数は、取り除いています。)
(図6)景気動向一致指数とYahoo! JAPAN景気指数の比較(月次)
(指数:2005年=100)
- 資料:
- 景気動向一致指数/内閣府"指数"=内閣府 経済社会総合研究所景気統計部、「Yahoo!検索」データ
今回、冒頭で取り上げた音楽CDとサバの事例のように、関係性がよくわからないものでも、それが何かを意味している可能性を否定するのは難しいものです。
この未知の関係性をうまく活用することで、新たな予測やデータの活用ができるようになるかもしれません。
オープンデータやヤフーの中にしかないデータも掛け合わせた意外な相関を今後も色々と紹介していきたいと思います。
これからもデータの面白さを伝えられるレポートを発信していきますので、Yahoo! JAPANビッグデータレポートをよろしくお願いいたします。