ヤフー株式会社

景気の「今」を把握することは可能か?(II)

こんにちは、「Yahoo!ビッグデータレポート」です

今回は4月にお届けした「景気の「今」を把握することは可能か?」の第二弾をお届けします。

前回のレポートでは、Yahoo! JAPANが持つビッグデータの一つである「Yahoo!検索」の検索数データを用いて、内閣府が発表している景気動向一致指数(以下、内閣府“指数”とも表記)の予測を試みました。通常、景気動向一致指数は2カ月前の数値が発表されますが、検索数データを利用することでリアルタイムの景気状況がわかるのでは? という推測のもと分析を行い、新たな予測数値として「Yahoo! JAPAN景気指数(Ver1.0)」を発表しました。
その結果、「Yahoo!検索」のデータを利用することで、ある程度の予測は可能であるとの結果を得ました。

前回の予測結果

その前回のレポートで発表した「Yahoo! JAPAN景気指数(Ver1.0)」では、3月の景気動向一致指数を「91.9」と予測しました(図1)。

3月のYahoo! JAPAN景気指数のバージョン1.0の図

資料:
景気動向一致指数/内閣府“指数”=内閣府 経済社会総合研究所景気統計部、「Yahoo!検索」データ

この結果がどうなるのか、大変楽しみにしていたところ、その後6月に過去数カ月分にわたってさかのぼった数値の上方修正(差し替え)が行われました。結果、例えば92.1と理解していた2月の内閣府発表値が、93.7(+1.6)となるなど、モデルの前提が崩れてしまい、値の単純な比較が不可能になってしまったのです(図2)。

内閣府の新旧指数とYahoo! JAPAN指数のバージョン1.0の比較の図

資料:
景気動向一致指数/内閣府“指数”=内閣府 経済社会総合研究所景気統計部、「Yahoo!検索」データ

ということもあり、これを機にYahoo! JAPAN景気指数の大幅なバージョンアップを行うことにいたしました。それが本レポートです。

前回の課題を振りかえる

バージョンアップにあたって、前回の「Yahoo! JAPAN景気指数(Ver1.0)」で残された課題もあわせて解決すべく、まずは課題の見直しを行いました。大きな課題は3つありました。

【前回の課題】
1:抽出した変数(キーワード)をとりまとめ1変数として取り扱っていた(単回帰モデル)
2:期間が変わっても同じ抽出キーワードを使って予測していた
3:比較的短期間(2009年12月からの3年強)のデータをもとに変数を抽出していた

これらの課題の解決を行うべく、さらに精度の高い「Yahoo! JAPAN景気指数(Ver2.0)」の抽出に取り掛かったのです。

大幅なモデルの見直しを実施

前回「Yahoo! JAPAN景気指数(Ver1.0)」を求めるために実施した方法は、“景気動向一致指数の推移となるべく近しい推移をする、相関係数の高い検索キーワードをすべて集め、単回帰分析と呼ばれる手法により数値を算出する”というものでした。

しかし、同じ手法を用いたのでは前回の課題は解決できません。

そこで今回Yahoo! JAPANビッグデータレポートチームはその解決方法として、キーワードの“数”を重視するのではなく、重要なキーワードのうまい組み合わせ方を重視するアプローチから課題の解決を試みました。

まずはデータの質を向上させるため、入力データ期間を長くしました。前回は2009年12月〜2013年2月までと約3年間のデータでしたが、今回は2005年6月〜2013年4月までと約8年間のデータを用いました。

また、前回は75億種類から絞り込んだ60万種類のキーワードを元に分析を行いましたが、今回は60万種類からさらに分析に適した質の高いデータをもつキーワードをフィルタリングする作業を実施し、より厳選された2万種類のキーワードに基づき分析を進めました。

そして、質を上げるための最大のポイントとして、抽出したすべての変数を一つの変数に落とし込む「単回帰分析」から、複数の変数を独立して取り扱う「重回帰分析」へモデルを本質的に変更いたしました。

この「重回帰分析」の手法で選び出された検索キーワードは約15前後(予測計算をする月によって数が異なる)となり、数だけを見れば前回の分析で使用した196に比べて激減していますが、数ではなく多様性を伴った質という面で大きく見直しました。

今回の改訂のポイントの図

「オーバーフィッティング」というワナ

しかし、その「重回帰分析」を用いた予測をするにあたって一つの大きな落とし穴がありました。

普通に考えれば「景気動向一致指数の推移とほぼ同じになるまで変数(検索キーワード)を足して式を作成し、そこから予測すれば一番精度が高いのでは?」と思うところですが、実際に計算してみると予測するまでの推移はほぼ完全一致するにも関わらず、予測値を出すと実際の景気動向一致指数と大きくかい離してしまう現象が発生するのです。
これを「オーバーフィッティング」、過剰適合と呼んでいます(図4に例)。

オーバーフィッティングの例の図

資料:
景気動向一致指数/内閣府“指数”=内閣府 経済社会総合研究所景気統計部、「Yahoo!検索」データ

これが今回の分析でもっとも重要かつ難関となる「大きな落とし穴」でした。過去の景気動向一致指数とおおむね一致するグラフを作ることはそれほど難しいことではありません。しかし、上の例のように、肝心の予測値が大きくぶれてしまっては元も子もありません。過去の推移にも近しく適合し、かつ予測値も大きくかい離しない組み合わせと重み付けを見つけだすこと、それこそが今回の最大のポイントでした。

最適なモデルを構築

オーバーフィッティングにならない最適な組み合わせを求めて何度も出力を繰り返しました。結果、図5に見る通り事前入力段階と予測段階でのかい離幅が同レベルの新しい「Yahoo! JAPAN景気指数(Ver2.0)」のモデルを構築することができました

内閣府の新指数とYahoo! JAPAN景気指数のバージョン2.0の比較の図

資料:
景気動向一致指数/内閣府“指数”=内閣府 経済社会総合研究所景気統計部、「Yahoo!検索」データ

実際の予測を行った2013年2月〜6月のところを見てみると、最大のかい離の値は1.0、平均は0.5と高い一致を得ることができました(図6)。

Yahoo! JAPAN景気指数のバージョン2.0と内閣府の新指数の比較の図

資料:
景気動向一致指数/内閣府“指数”=内閣府 経済社会総合研究所景気統計部、「Yahoo!検索」データ

5月の景気動向一致指数はこれだ

前回残された課題や「オーバーフィッティング」の問題を解決して生み出された「Yahoo! JAPAN景気指数(Ver2.0)」による、5月の景気動向一致指数予測をお伝えしておきます。
“96.3”でした(図7)。

5月のYahoo! JAPAN景気指数のバージョン2.0の図

資料:
景気動向一致指数/内閣府“指数”=内閣府 経済社会総合研究所景気統計部、「Yahoo!検索」データ

内閣府からの速報値の発表は7月5日予定、改訂値の発表はさらに先になります。果たして今回はどのような結果になるのか、開けてみてのお楽しみとしたいと思います。

新たに判明した課題

大きな進化を遂げた「Yahoo! JAPAN景気指数(Ver2.0)」ですが、それでもすべての課題が解決したわけではありません。
今回の見直しの過程で新たなる課題が出てきました。
なかでも大きな問題だと捉えているのは、内閣府の出す景気動向指数が発表後に何度も過去にまでさかのぼって数値が変更される点です。このような変更は図2で見たようにそれまでに発表したYahoo! JAPAN景気指数の予測値との大きなかい離を生み出す可能性が高く、今後我々がこの指標を続けて発表して行くにあたっての懸念材料となっています。
他にもいくつか重要な課題があり、図8にまとめています。

今後に向けた課題の図

とはいうものの、Yahoo! JAPANが持つビッグデータを用いた予測の手法は、今回の取り組みによってより洗練され、着実に進歩したものと考えています。

本取り組みのビッグデータ活用への意味合い

最後に、検索数データから景気動向一致指数を予測するという取り組みは、Yahoo! JAPANが持つビッグデータにとって、どのような意味を持つのかを考えてみたいと思います。

ビッグデータという言葉が急速な広がりを見せていますが、巨大なデータ群という意味でいうと、保有している企業や団体などは世の中にたくさん存在します。
しかし、重要なのは巨大なデータ群の中からいかに価値を見いだせるかです。
今回の景気レポートを含むこれまでのビッグデータレポートでは、統計数値やオープンデータ、観測データと、Yahoo! JAPANが持つビッグデータの間の関連性についてお届けしてきました。
これらのレポートは「Yahoo! JAPANが保有するビッグデータから、社会の様々な現象を読み解ける可能性」を示唆しています。

例えば、今回の景気指標予測と同じ手法を用いれば他の指標、失業率や電力消費量なんてものまで予測できるようになるかもしれません。
そのような意味で今回の景気指数の取り組みは、大きな可能性と価値を秘めたものではないかと期待しています。

「Yahoo! JAPANビッグデータ」では我々が持つ数々のビッグデータを利用して、話題の事象に関するレポートを今後も報告していく予定です。これからも楽しみつつご覧いただければ幸いです。

7月25日追加レポート

Yahoo! JAPAN景気指数5月予測の答え合わせ

こんにちは、「Yahoo! JAPANビッグデータレポート」チームです。

6月28日の「Yahoo! JAPAN景気指数(Ver2.0)」で5月の景気動向一致指数を予測を発表しましたが、実際の景気動向一致指数はどうだったのでしょうか? 答え合わせをしてみたいと思います。

しかしその前に、重大な変更点をお知らせしておかねばなりません。
内閣府から発表された「景気動向指数における鉱工業指数平成22年基準改定への対応及びCIの基準年変更について」というリリースの中で、「景気動向指数では、平成25年7月5 日公表の平成25年5月分速報からCIの基準年を現行の平成17年から平成22年に変更するとともに、新しい基準年に基づき遡及改訂した結果を公表することを予定しています。」という文面があり、つまり、これまで2005年を基準年として100とした指数で発表されていた景気指数が、7月の発表より2010年を100としたものに変更されました。
そのため、「Yahoo! JAPAN景気指数(Ver2.0)」もそれに合わせて数値を変更しています(図9)。

5月のYahoo! JAPAN景気指数のバージョン2.0の図 (指数:2010年=100)

※7月5日発表データより景気動向指数の基準年が2005年から2010年に改訂になったことに伴い、Yahoo! JAPAN景気指数も2010=100として再算出

資料:
景気動向一致指数/内閣府“指数”=内閣府 経済社会総合研究所景気統計部、「Yahoo!検索」データ

それを踏まえたうえで、5月の景気動向一致指数予測と内閣府から発表された景気動向一致指数(改定値)の差はいったいどれぐらいあったのでしょうか(図10)。

5月のYahoo! JAPAN景気指数と内閣府指数の比較の図(指数:2010年=100)

※7月5日発表データより景気動向指数の基準年が2005年から2010年に改訂になったことに伴い、Yahoo! JAPAN景気指数も2010=100として再算出

資料:
景気動向一致指数/内閣府“指数”=内閣府 経済社会総合研究所景気統計部、「Yahoo!検索」データ

新しい基準値に合わせた数値で比較した結果、その差は+0.3という結果となりました。
これは、「Yahoo! JAPAN景気指数(Ver1.0)」で検証した予測数字と景気動向一致指数の差の最大が1.51、差の平均が0.51であったことと比べると、改善されたといえるのではないかと思います。

そしてさっそく7月19日に内閣府から発表された改定値をもとに、6月の景気動向一致指数予測してみました(図11)。
この6月の予測値は「Yahoo! JAPAN景気指数(Ver2.0)」からさらに改良を加え、分析に使用したキーワードの総検索量の波を用いて、各検索キーワードごとに検索量の補正を行うなど、精度向上に向けてマイナーチェンジをしています。

6月のYahoo! JAPAN景気指数の図(指数:2010年=100)

資料:
景気動向一致指数/内閣府“指数”=内閣府 経済社会総合研究所景気統計部、「Yahoo!検索」データ

「Yahoo! JAPAN景気指数(Ver2.0)」から導き出された値は「108.8」。つまり、6月の景気は引き続き上昇を続けていた、と予測されました。内閣府から数値が発表されるのは8月6日です。今回はどのような結果になるか楽しみです。

「Yahoo! JAPANビッグデータレポート」チームでは、今後も「Yahoo! JAPAN景気指数(Ver2.0)」を引き続き報告していく予定ですので、今後ともよろしくお願いいたします。