こんにちは、「Yahoo! JAPANビッグデータレポート」チームです。
この1年で最大の社会的トピックといえば、明らかに「新型コロナウイルス」です。
2020年は多くの方がコロナの影響を受けた年だったのではないでしょうか。そして2021年に入ってからも、収束の気配がなかなか見えない状況が続いています。
不安な状態が長く続くことで、気分が落ち込むことも多いかと思います。
そのような気持ちの変化は、周りから見て観測できるものではありませんが、2020年における日本のムードがどのように推移したのか、ヤフーのビッグデータを用いて計測できないかと考えました。
どうすればムードをとらえられるか
ヤフーが持つビッグデータから社会のムードをとらえるための仮説を立てた結果、以下の3つのデータを組み合わせることで社会のムードをとらえることができるのでは、と考えました。
A)センサーデータ(加速度センサー、気圧センサーなどの値)
B)一部のモニターに対して行った「あなたの今のムードは?」と聞いたアンケートデータ
C)検索キーワード
この3つの情報を使い、機械学習を駆使し、ユーザーの検索キーワードから、ユーザーのその時のムードを推定する検索気分モデル(QMM:Query Mood Model)を作りました。
詳細な手法に関してはこちらの記事に詳細な記述がありますので、ぜひあわせてご覧ください。
この手法における最大のキーポイントは、検索キーワードとその時のムードをいかに精緻にひもづけられるかということです。
通常私たちがイメージするアンケートは1度回答したら終わりです。そのため、アンケートに協力いただいた方たちが、回答時に気分がよかったとしても、検索タイミングとそのアンケートの結果の時間的なずれがあるため、検索キーワードを分析する際にその結果を当てはめるわけにはいきません。
そこで、センサーでずっとモニタリングを行った状態で定期的なアンケートの回答を行ってもらい、そこに検索行動を組み合わせました。検索したタイミングとアンケートに回答したタイミングをできるだけ近づけてひもづけることで、より精緻なデータを集めることができると考えたからです。
ムードスコアの生成ロジック
2019年11月から約90日間、400名を超えるモニターの方にご協力いただきました。それらのデータを解析し、検索キーワードの中からムードに関するコンテキストがにじみ出ている検索キーワードを抽出しました。
その結果を少しご紹介します。実施のパラメーターでは利用していない検索キーワードですが、それに準ずるスコアを持ったキーワードのサンプルです。言葉の意図を解析して抽出したわけではありませんが、なんとなく納得感のある言葉が並んでいます。
ムードスコアにて抽出されたキーワード例(非利用)
ポジティブなワードの例 | ネガティブなワードの例 |
---|---|
安い | 下痢 |
誕生日 | 破産 |
タピオカ | 地震 |
赤ちゃん | 天気 |
実際にやってみた
前の章でご説明したモデルでヤフーの全検索キーワードをスコア化し、新型コロナウイルスの時のヤフーの検索キーワードから推定される、日本のムードを調べていきたいと思います。
この指標が本当にうまく働いているか、気になる方もいらっしゃるのではないでしょうか。事前検証としてこのスコアで1週間のムードの波を抽出してみました。
みなさんは1週間のムードの浮き沈みについて、普段どのようなイメージをお持ちでしょうか? もちろん週によって大きく異なるのでしょうが、一般的には、
・月曜日(祝日の翌日)は気分が下がる(ブルーマンデーという言葉もあるくらい)
・土日祝日は気分が上がる
というのが共通の認識ではないでしょうか。
次の図は、2019年7月に検索された検索キーワードに対して、QMMによりスコアを出した値です。その結果、先ほどの仮説を裏付けるように、土日祝日が高くなり休み明けの月曜日にストンと気分が落ちる現象が再現されています。ただし、これはあくまで確からしいと考えられる推測との照らし合わせのため、100%正しい結果ではないことも付け加えておきます。
2019年7月のムードスコア
このようにみると、1週間のムード動きはそれなりに把握できていそうですね。これにより、このQMMのコンセプトやモデル自体はうまく機能していると言えそうです。
さらに時間単位で細かく見てみましょう。7月5日(金)から7月8日(月)までの3時間単位のムードスコア推移が次の図です。
週末における時間単位のムードスコア変化(7月5日0時(金)~7月8日21時(月)まで3時間単位)
これを見ると、金曜の夕方くらいからムードが上昇し、土日は終始高いムードのまま維持し、そして仕事がはじまる月曜日にムードが落ちていることがわかります。土日祝日のムードが高くなることは、直感にあう結果だと言えそうです。
では、このモデルを用いて、コロナ期における日本のムードをスコアにしてその推移を可視化してみたいと思います。次の図が実際の抽出結果です
2020年のムードスコア推移と新型コロナ陽性者数推移(週合計)
週のばらつきをなくすために、日曜日だけのムードスコアの推移を抽出してみました。
スコアが高い場合は、ムードがポジティブ、低い場合はネガティブということを示します。図中のオレンジ色の棒グラフは、新型コロナウイルスの現在感染者数推移を示したものです。このグラフを考察してみましょう。
1)コロナの患者数と逆の動きをしている
コロナの患者数が増えるとムードが下がり、減るとムードが上がっていることがわかりますね。
2)第1波、第2波……となるにつれて波の起伏が少なくなっている
コロナの患者数は、第1波より第2波、第2波よりも第3波と増えていっていますが、それに伴うムードの起伏は、徐々に小さくなりコロナ慣れしていることがわかります。
コロナが見つかった2~3月にはコロナに対して国民が敏感になっていましたが、それがwith コロナの生活様式になるとコロナがより「日常的」になっていったのだと考えられます。
9月以降は新しい生活様式の中での社会活動も活発になり、コロナ以外のさまざまな要因でムードに大きな影響を与えていることがわかります。
3)9月27日に衝撃的にムードが低くなる
9月27日に衝撃的にムードが低いスコアになっています。これはある有名女優の方が急逝された日です。他の要因などもあるのかもしれませんが、おそらくこの出来事が大勢の方にショックを与えたことがわかると思います。
9月27日の午前中にそのニュースが放送され、全国に一気に広まりました。その部分(オレンジの落ちている部分)だけ、ムードが前後の週よりも低く落ちていることがわかります。翌日の9月28日の朝までは、このムードスコアに明らかな差異として現れるほど、国民に大きなショックを与えたということかと思います。
2020年9月27日にムードスコアの急激な減少が発生した
今回は、コロナという視点を中心に2020年の日本のムードの推移を調べてみました。
2021年も2020年から引き続いて新型コロナウイルスに振り回さていますが、こういった新しい災害に対しても、データ解析は有用な手段となり得ます。
これからも、ヤフーが抱えるデータの総力をあげて、日本の課題を1つでも多く解決していきたいと思っています。今後ともビッグデータレポートをよろしくお願いいたします。
※このレポートは慶應義塾大学 大学院政策・メディア研究科 大越研究室との共同研究成果です。