ヤフー株式会社

国勢調査とヤフー、異なるビッグデータは結びつくのか?

こんにちは、「Yahoo! JAPANビッグデータレポート」チームです。

今年は「これぞビッグデータ」と呼ぶにふさわしい、国による大規模な調査が実施されます。皆さん何かご存知でしょうか? そう、答えは「国勢調査」です。
5年に一度、日本国内に住むすべての人を対象に実施されるこの調査、前回は2010年に行われました。そこで今回は、ヤフーのビッグデータと国のビッグデータとの間に繋がりがあるのか、そしてどんな新たな発見が得られるのかを調べてみました。

国勢調査の過去データは集計されたものがすべて公開されていますので、そのデータを利用して調査を実施しました。都道府県別の人口や年齢分布といったことから、世帯分布や職業までさまざまな詳細データが公開されています。その国勢調査のデータとYahoo!検索の都道府県別検索キーワードの結果とを照らしあわせることで、 「国勢調査のデータを基にした国民の検索傾向」の分析を実施しました。

Yahoo!検索と国勢調査につながりはあるか?

Yahoo!検索は日々膨大な検索データが蓄積されていますが、一方で国勢調査は国による全量調査です。 これは老若男女すべてを対象とした調査ですので、他のどんなデータよりも日本に住む人の実態を正確に映し出した、こちらもまさに「ビッグデータ」と呼べるデータです。

このまったく異なるアプローチで集められた二つのビッグデータは果たして繋がるのでしょうか? 次の手法にて分析を行いました。 Yahoo!検索では検索されたキーワードがどの都道府県から検索されたかわかるので、 2014年1年間の検索量上位20万キーワードの「都道府県別の検索量」と「都道府県別の総検索量に対する割合」の数値をもとに、 前回の国勢調査のさまざまな項目における都道府県別のデータとの相関を調査しました。その結果、いくつかの項目で非常に高い関連性が見つかりました。

例えば、みなさんは「Netflix」をご存知でしょうか? アメリカのテレビ視聴スタイルを根本から変えたといわれる動画配信サービスで、日本でも今年の9月よりサービスが開始されるとあって最近話題になりつつあります。この「Netflix」、国勢調査のあるデータととても相関が高いとの結果が出ました。そのデータとは「都道府県別のアメリカ人の居住者数」です。

(図1)アメリカ人の都道府県別居住者数と「Netflix」の検索量

アメリカ人の都道府県別居住者数と「Netflix」の検索量の図

資料:
「Yahoo!検索」データ、2010年度国勢調査

飛びぬけて多い東京の数値を抜いたとしても相関係数は0.947、神奈川県を抜いても0.900と高く、いかにかなり前からアメリカ人の生活に「Netflix」が結びついているかを裏付ける発見となりました。
またこれ以外にもアメリカ人居住者数と相関が高いキーワードとして「washington post」「newsweek」「japan times」などのメディア名も上位に来ていました。

他の国勢調査データも見てみましょう。国勢調査では通勤にどのような交通手段を使っているかといったデータも公開されています。 そこで全通勤手段数における各通勤手段の都道府県別割合と検索割合との間で相関を取ってみたところ、こちらのデータでもそれぞれの通勤手段に関連したキーワードが上位に現れてきました。

(図2)都道府県別交通手段割合と検索割合との相関

都道府県別交通手段割合と検索割合との相関図

資料:
「Yahoo!検索」データ、2010年度国勢調査

これらの結果から、どうやらYahoo!検索というネット上の「ビッグデータ」と、国勢調査という実社会における「ビッグデータ」には十分繋がりがあることがわかってきました。

人口密度が増えると○○が増える?

次に人口密度のデータを見てみました。日本の人口密度が高くなると検索量が増え、低くなると検索量が減る検索キーワードに何か特色がないかと調査したところ、相関係数の高い上位に原動機付自転車(原付)関連のキーワードが並びました。

(図3)日本の人口密度と相関の高い原付、電動自転車関連キーワード(例)

日本の人口密度と相関の高い原付、電動自転車関連キーワードの図

「アドレスV125G」の検索量と人口密度を県別に比較すると以下のようになります。

(図4)人口密度と「アドレスV125G」の検索量比較
(共に指数)

人口密度と「アドレスV125G」の検索量比較の図

資料:
「Yahoo!検索」データ、2010年度国勢調査

原付や電動自転車への関心と人口密度には高い関連性があるようです。

世帯構成は検索に影響を与えるか

国勢調査では核家族なのか、子供がいるのかなどの世帯構成の調査も行われています。それらからも検索傾向に特徴の出るデータがないかを調べてみたところ、単身世帯や高齢単身者世帯の都道府県別世帯数と各都道府県からの検索実数がほぼ連動しているキーワード群が見つかりました。まずは単身世帯数でみてみると相関の高い検索キーワード上位に「病気関連」がたくさん現れました。

(図5)単身世帯数と相関の高い病気関連キーワード(例)

単身世帯数と相関の高い病気関連キーワードの図

(図6)単身世帯数と「白血球減少」の検索量比較
(共に指数)

単身世帯数と「白血球減少」の検索量比較の図

資料:
「Yahoo!検索」データ、2010年度国勢調査

病気関連以外には、「鍋でご飯を炊く」(0.996)や「カレー 隠し味」(0.997)、「シチュー レシピ」(0.997)といった料理に関するキーワードも上位によく登場しています。

また、65歳以上の高齢単身者世帯数に絞って抽出してみたところ、キーワードには別の傾向が現れました。

(図7)65歳以上の高齢単身者世帯数と相関の高い介護関連キーワード(例)

65歳以上の高齢単身者世帯数と相関の高い介護関連キーワードの図

このように介護に関するものが多く現れる結果となりました。ただしこれは世帯数と検索量の相関が高いというだけであり、実際に高齢単身世帯居住者がこれらの言葉を検索しているかどうかは不明です。高齢単身者世帯が多い地域ではそういう資格需要が高いために検索されているなどの理由が考えられます。

逆相関のデータは存在するのか?

最後に、Yahoo!検索と国勢調査の間で一方の数が多いともう一方が少なくなる、逆相関のデータはないかを分析してみたところ、県別の第一次産業から第三次産業の産業形態別構成割合のデータと検索割合との間に興味深い逆相関が見つかりました。第一次産業では金融に関するキーワード、第二次産業では航空機や飛行場に関するキーワード、第三次産業では自動車関連のキーワードと逆相関になることがわかりました。今回特にもっとも逆相関が高かったキーワードを下で図にしてみました。

(図8)産業形態就業者別構成割合と各検索割合との相関

産業形態就業者別構成割合と各検索割合との相関図

資料:
「Yahoo!検索」データ、2010年度国勢調査

各産業における逆相関の代表的キーワードを抜き出してみましたが、それぞれに偏った特徴が出ており非常に興味深い結果となりました。

これからも「Yahoo! JAPANビッグデータレポート」では、データの面白い発見などがありましたらお伝えしていく予定です。お楽しみに。