ヤフー株式会社

ビッグデータ参院選議席予測を振り返る

こんにちは、「Yahoo! JAPANビッグデータレポート」チームです。

2013年7月21日、第23回参議院選挙の投開票が行われ、自民党が65議席を獲得しました。衆参で発生していたねじれ構造が解消するという大きな変化が起こった選挙でした。
これに並行して「Yahoo! JAPANビッグデータレポート」では、7月8日、7月12日、7月19日の3回に渡り、我々が持つデータから各党の獲得議席予測に挑戦した「ビッグデータが導き出した参議院選挙の議席予測」を発表しました。

今回は、獲得議席予測の答え合わせと、それを踏まえて新たに見えた課題についてお届けしたいと思います。なお、対象は7月19日に出した最終予測レポートとなります。

参院選全体の予測と実際の結果を比較

まず、参院選全体の獲得議席数ではどうなったのでしょうか。比例区と選挙区の数字を足し合わせた合計議席で比較をいたします(図1)。

図1 2013年7月参院選全体の予測と結果比較図(議席数、計121議席、予測は7月19日最終版のもの)

資料:
「Yahoo!検索」データ、参院選結果データ

与党数76議席、野党数45議席と与野党でみると完全に一致しましたが、個別政党で見ると予測数値と少しずつずれており、今回の参院選で改選対象となった全121議席中、「相関モデル」では105議席(87%)、「投影モデル」では111議席(92%)となりました。政治的な読みに基づかないデータ解析からの予測としてここまで一致したことには我々も少々驚いています。
結果として選挙区、比例区ともに「相関モデル」よりも「投影モデル」のほうが精度の高い予測であったこと、また両モデルともに民主党と自民党の獲得議席を多めに予測する一方で、公明党は獲得議席が少なめに予測する傾向にありました。

選挙区の議席予測と実際の結果を比較

次に、選挙区について議席獲得予測と実際の結果を比較してみましょう。

選挙区の結果について、「相関モデル」と「投影モデル」の各都道府県別の詳細予測を実際の結果と比較し、日本地図を「当選政党がすべて一致」「当選政党が一部一致」「不一致」の3段階に色分けしました。

相関モデル(図2)

図2 2013年7月参院選選挙区予測と結果比較の相関モデルの図(予測は7/19最終版のもの)

資料:
「Yahoo!検索」データ

投影モデル(図3)

図3 2013年7月参院選選挙区予測と結果比較の投影モデルの図(予測は7月19日最終版のもの)

資料:
「Yahoo!検索」データ

「相関モデル」「投影モデル」ともに完全不一致となったのは沖縄県と岩手県の2県のみとなりました。特に両モデル共に西日本での一致率が高く、「投影モデル」では沖縄県を除くと、東北と関東以外が完全に予測と一致しました。
一方で、東京都に関しては両モデル共に全5議席中3議席だけの的中となり、他県と比較して大きなずれとなりました。

次に、選挙区全体で見てみましょう(図4)。

図4 2013年7月参院選選挙区の予測と結果比較の図 (議席数、選挙区73議席、予測は7月19日最終版のもの)

資料:
「Yahoo!検索」データ、参院選結果データ

選挙区は全73議席でしたが、結果として選挙区選出に関しては「相関モデル」では61議席(84%)が一致、「投影モデル」では65議席(89%)が一致し、与野党という単位ではともに1議席のみのずれという我々も予想していなかった結果となりました。選挙区で誤差が大きかったのは民主党と他(諸派、無所属)で、それぞれ両モデルともに3議席のズレが生じました。なぜこのような誤差が発生したのかは、後半で考察いたします。

比例区の議席予測と実際の結果を比較

最後に比例区について、議席獲得予測と実際の結果を比較してみましょう(図5)。

図5 2013年7月参院選比例区の予測と結果比較の図 (議席数、比例区48議席、予測は7月19日最終版のもの)

資料:
「Yahoo!検索」データ、参院選結果データ

結果、比例区の48議席のうち「相関モデル」では40議席(83%)が一致、「投影モデル」では42議席(88%)が一致しました。予測とかい離があった政党もおおむね誤差1議席内に収まっていますが、公明党と他(諸派、無所属)の獲得予測に関しては両モデルともに2議席のズレが発生しており、こちらも後ほど考察したいと思います。

相関モデルを検証する

これまでの議論で「相関モデル」の予測が少々低い値に見えますが、今回の選挙で検索量と得票の相関度合いが低かったのかというと、そうではありません。「相関モデル」の元となった2012年の衆議院選挙の時のデータと今回の選挙におけるデータを比較してみましょう(図6)。

図6 相関モデルの検証の図1(比例区の政党別得票数と検索量の関係)

資料:
「Yahoo!検索」データ、参院選(2013.7)と衆院選(2012.12)結果データ

一番左が2012年衆院選時のレポートで紹介した本予測の基になったデータ、真中が最終予測のレポート時に使用した7月4日〜7月16日までのデータ、右は選挙前日の7月4日〜7月20日までのデータになります。
相関係数(R)のみを比較すると今回の参院選のほうが下がっているようにも見えますが、今回も検索量と得票数に高い相関があることに変わりありませんでした。
しかし、年末の衆院選と今回の参院選のグラフを見くらべると、衆院選時に比べて多くの政党が回帰直線上に近づく一方、公明党はさらにかい離幅が大きくなっていることに気が付きます(図7)。

図7 相関モデルの検証の図2

資料:
「Yahoo!検索」データ、参院選結果データ

結果、本選挙では(図7)の右のように今回の予測に用いた補正率よりも大きな補正が必要だったことがわかります。特に公明党は実態との差が大きく、この差によって公明党の獲得議席予測が少なめに出る結果となりました。

今回の取り組みからみえた課題

以上の結果を踏まえたうえで、あらためて獲得議席予測のそれぞれのモデルを見直した時、なぜ実際の獲得議席とのかい離が生まれたのか、考察してみました。

大きな課題は3つ、以下に解説していきたいと思います。

諸派・無所属織り込みが困難

今回、1議席選出の選挙区の予測を外した県が沖縄県と岩手県の2県ありました。両方に共通するのは「自民党と予測していたが、諸派もしくは無所属候補が勝った」ということです。こちらについては理由は明確と考えています。
今回の獲得議席予測は両モデルともに“政党名”をベースに予測をしており、一部諸派や無所属は予測対象としていませんでした。
東京都選挙区のみ山本太郎氏の個人名を政党名として置きかえるなど取り組みを行いましたが、結果的に最終予測の時点では7位となり当選外と結論付けました。そのため、今後も獲得議席予測に取り組む場合は、今回の選挙で得た経験を元に諸派や無所属に対する異なるアプローチを検討して予測する必要があると考えています。

なお、山本太郎氏に関しては興味深いデータがあります。最終予測では7月4日〜7月16日までのデータを用いていましたが、選挙の4日前から山本太郎氏の検索数が急激に伸びており、その勢いは個人でありながら全国の各政党名の検索数を超えるほどでした(図8)。

図8 山本太郎の検索量推移の図(公示7月4日の自民党の検索量を100とした指数)

資料:
「Yahoo!検索」データ

さらに次の図は、2012年衆院選と2013年参院選の投票前日までの一週間の「山本太郎」検索数推移を比較したグラフです(図9)。今回の参院選のほうが選挙直前に急激に関心を集めていることがこちらからもわかります。ちなみに投影モデルは青線データによる盛り上がり度の予測でもあり、山本太郎氏を低めに見積もっていたことになります。

図9 山本太郎の検索量における選挙前1週間の推移の図(投票7日前の検索量を100とした指数)

資料:
「Yahoo!検索」データ

これらのデータを用いて後日あらためて検証をしてみると、山本太郎氏は当選圏内に入っていたため、投票日直前までのデータの伸びも重要であることがわかります。こういった熱狂的といって良いほどの関心を集める候補者を正確に予測するのは現段階では困難というのが正直なところです。

低投票率の影響

今回の参院選の投票率は52.61%と過去3番目の低さとなりました。一方、今回の予測モデルおよび検証のベースとなった2010年参院選と2012年衆院選の投票率はそれぞれ57.92%と59.32%であり、それらと比較してかなりの低投票率でした。低投票率時には一般的に組織力の強い政党が有利と考えられ、この影響によって、公明党では従来モデルを元に使用した補正率より、大きなかい離が発生したとみています。

政党や候補者ごとの票へのつながりやすさ

予測分析時に考慮しにくいのが、この“票へのつながりやすさ”と呼ばれるところです。例えば、誕生したばかりの政党は既存政党に比べて関心が高く検索されやすいということや、候補者の人柄や容姿などに関心が集まることで検索数が急上昇する、今回の参院選では直前に都議会選挙があったことでそちらの関心がデータとして混ざってしまうなど、人々の興味・関心は日々刻々と変わっており、予測発表時とその直後で傾向が変わることがあります。こういった影響を受けた場合に、本来その候補者や政党が持つ検索あたりの“票へのつながりやすさ”を正確に測れなくなってしまうため、それを踏まえたうえで動きを考慮するモデルも今後の予測時には検討すべき課題だと考えています。

参院選予測レポートのまとめ

以上、「Yahoo! JAPANビッグデータレポート」チームによる参議院選挙の予測レポートとその振り返りをお届けしました。結果的には、今後の課題が見つかり、大きな経験となりました。ただ、間違いなくいえることは、ビッグデータの中にはまだまだ発見できていない価値が大量に残っているということでしょう。そんなまだ見ぬ価値を求めて、今後も社会に貢献し、かつ興味深い分析をお届けできればと思っています。

これからも「Yahoo! JAPANビッグデータレポート」をよろしくお願いいたします。