企業情報

2020.08.27

「データの持つ力と面白さを伝える」Yahoo! JAPANビッグデータレポート

画像

ヤフーは、2012年から「Yahoo! JAPANビッグデータレポート」(以下、ビッグデータレポート)を定期的に公開しています。これは、ヤフーが提供するさまざまなサービスから生まれる膨大なデータやソーシャル上のトレンド情報などを分析・活用し、「データの持つ力と面白さ」をお伝えする目的で作成しているレポートです。
今回は、ビッグデータレポートが生まれた背景やデータを可視化する難しさなどを聞きました。

画像
池宮 伸次(いけみや しんじ)
2007年に入社。Yahoo!検索事業部の編集業務を行う傍ら2012年より、ビッグデータレポートチームの立ち上げメンバーとして、アナリストおよびレポート作成に携わる。
「Yahoo!検索のキーワードランキングを見るのが大好きで、過去に運用していた検索スタッフブログで面白いキーワードの分析記事を発信していました。そのことが、現在のビッグデータレポートの執筆につながりました。できるだけ多くの方にデータの魅力をお伝えできるよう、わかりやすく書くことを一番意識しています。
データの分析に向いている人は、データそのものに興味を持てる人。そのデータがどのように生まれて、どういう定義でつくられているか、そこに興味が持てれば、自然とどのデータをどう分析したらよいのか発想の幅も広がると思います」

ヤフーのビッグデータレポートが生まれたきっかけ

ビッグデータレポートは、世の中に「ビッグデータ」という言葉が定着し始めたころに開始しました。ヤフーでも、具体的にどのようなデータが集まっていて、それを分析するとどんな(面白い)ことがわかるのか、ということを可視化して発信することは、まだできていませんでした。

最初に公開したビッグデータレポートは、2012年12月16日に行われた「第46回衆議院議員総選挙」に関するレポートです。このレポートでは、総務省が公開している投票数、得票数、支持政党別、都道府県別の投票結果データと、「Yahoo!検索」や「Yahoo!検索(リアルタイム)」などのヤフーが保有するビッグデータを比較・分析・調査しました。

衆議院議員選挙とYahoo!検索の驚くべき関係

画像

選挙の1、2週間くらい前に、ビッグデータレポートの責任者である安宅が「今回の選挙の結果と、ヤフーのデータを組み合わせることで何か変化が見られないだろうか」と検討していたそうです。
その当時、私は「Yahoo!検索スタッフブログ」で検索キーワードのランキングなどを使った分析記事を連載していました。そのため、検索データを分析できる人材としてお声がけいただいてこのレポートの作成に携わったことが、ビッグデータレポートに関わるようになったきっかけです。

このレポートでは、「選挙の得票数と検索量の間に関係性があることがわかった」という重要な発見がありました。「(投票所で)投票する」という行動で集めた一種のビッグデータと、ヤフーの検索結果などへのアクセスやアクションログで集まったビッグデータという、一見つなぐことが難しそうな二つのビッグデータの間に関係性がみえたのです。これはつまり「ヤフーのもっているデータを分析することで、世の中の消費者・生活者の行動や社会現象を把握できる可能性があるのでは」という可能性を見出すきっかけとなり、インフルエンザ予測や日本の景気予測などの他のレポートを作成するきっかけになりました。
また、このレポートの反響が大きかったことも取り組みが継続された理由です。もし反響がなかったら、この1回だけで終わっていたかもしれません…。

ビッグデータレポートができるまで

現在、ビッグデータレポートの分析担当者は7名。定例会議で「このような分析をしたら、もしかしたらこんな面白い結果がでるのではないか」とテーマを提案・検討ています。また、責任者の安宅の「今、社会的にこんな課題があって困っている人が多いから、ヤフーのデータから何かわかることはないか」という呼びかけがきっかけとなって作成することもあります。

レポートの完成までには、約2週間から1カ月かかります。完成したレポートは、チーム内と責任者の安宅、広報担当者の確認を必ず行ってから公開しています。また、ヤフーのビッグデータレポートでは、ユーザーのみなさまの個人情報には一切触れていません。すべてのレポートで、個人情報が特定されることがないよう加工・フィルタ・情報のあいまい化をするなどの処理を行ったデータを使用しています。

画像

特に反響があったレポートは? 日本地図はデータの可視化に向いている?

これまで定期的に公開したレポートの中では、選挙予測やインフルエンザの予測レポートが毎回大きな反響を得ています。また、公開からかなり経ってからも未だに反響があるのは、以下の記事です。

日本は2つの国からできている!? ~データで見る東京の特異性~
リニアは日本をどれだけ狭くするのか? ~到達所要時間ビジュアライゼーションマップに挑戦~

これらのレポートのような地域や地図を使ったものは、多くの方に読んでいただけることが多いです。

インターネット上の注目度【自動車メーカー】

画像

たとえば、上の地図ではタイトルが見えなかったとしても、なんとなく「東北地方は数値が高く、関西地方はあまり数値が高くない」何らかのデータを可視化したものだということがわかるのではないでしょうか。このように、地図を使うとデータへの敷居がぐんと低くなります。
また、日本地図の場合は自分の立ち位置(どこの出身なのか、今どこに住んでいるのか)を置きやすく、自分ごととしてとらえやすいんです。分析は何かと比較することで面白いと感じたり、発見が得られたりするのですが、地図を使うことで、自分の立ち位置と他(の県)との比較がしやすくなります。
その一方で、以下のようなグラフやチャートなどは、まず縦軸と横軸の項目が何を表しているのかを理解する必要があるため、ステップが1つ多くなってしまいます。

電車の年間利用回数とマイカー通勤・通学率:都道府県マッピング

画像

このように、日本地図を使ったものはデータの分析の表現方法に向いていますし、より多くの人に興味を持ち理解もしてもらいやすくなることがメリットです。

画像

新型コロナウイルスの影響

結論から言うと、新型コロナウイスルの流行によって検索キーワードの傾向はかなり変化しています。「毎年この時期に必ず検索数が増える」という、検索数の増減傾向に周期性をもつキーワードは、ユーザーの需要の予測や検索結果のレコメンドなどに使えるため分析する上で重要なのですが、今年はコロナの影響で生活様式が一変したことで、特定の時期に必ず増えていたキーワードがあがってこないといったことが増えています。そのため、今年のロジックを入れて分析すると結果が破たんする可能性もあり、レポートによっては影響を受けてしまうかもしれません。
外出自粛の影響により、外食をしない、交通機関を使わないなど、あらゆる行動が検索データにも影響しています。たとえばインフルエンザ予測レポートも過去に蓄積されたデータを使っているため、コロナの影響を受けて違う傾向になったときには、予測を立てることが難しくなります。

その一方で、コロナによって新しく生まれたニーズや、心の変化や行動の変化の影響も検索結果には反映されてきます。それらのデータを分析することも今後は有用になってくると思いますので、分析しがいがあります。

画像

今後の展望

私は約10年、検索キーワードの分析に関わっていますが、角度や分析手法を変えることで毎回新しい発見があるので、まだまだ分析できることは尽きないです。今後も検索キーワードに関連したレポートを発信していきたいです。
また、データ量が増えれば増えるほど、一画面で見せたり、短いテキストで書いたり、一枚画像で見せたりすることは難しくなるため、今後は分析結果の要点をよりわかりやすく見せることにも取り組んでいきたいです。

データは、量や種類があればあるほどいろいろな分析ができ、さらに異なるデータ同士をクロスさせることで、より精度が上がる傾向にあるため、正確な結果を得やすくなります。ヤフーはいろいろなサービスのデータをもっているので、それらをクロスさせていくことで、サービス単体ではわからなかったことが、もっとわかる時代になると思っています。

これからも、世の中の課題についてデータを元に検証し、ビッグデータレポートを通じてユーザーのみなさまに「データが持つ力や面白さ」をお伝えしていきます。

画像

【関連リンク】

このページの先頭へ