こんにちは、「Yahoo! JAPANビッグデータレポート」チームです。
2014年12月14日、第47回衆議院議員総選挙の投開票が行われました。
これに先立ち、ビッグデータレポートチームでは、各党の議席数予測を、12月5日に速報値、12月12日に最終予測値というかたちで発表しました。
今回のレポートで紹介するのは、実際の選挙結果と議席数予測との答え合わせと、予測のズレの原因に関する検討結果です。
なお、検証の対象とする予測数値は、12月12日に出した最終予測における投票率50%台前半の値となります。
選挙結果の振り返り
まずは選挙結果を振り返ります。(図1)
(図1)2014衆議院議員選挙の結果
(議席数、比例区と小選挙区の計)
- 資料:
- 選挙結果データ
各党の獲得議席数結果をまとめると、自民党と維新の党はほぼ変わらず、公明党が微増、民主党と共産党は議席を大きく増やし、次世代の党は激減した選挙だったといえます。
議席数予測との一致状況
次に、本レポートの議席数予測と選挙結果の比較です。
2013年の参院選予測時の一致率は相関モデルでは93%、投影モデルでは96%でしたが今回の議席数予測との一致率は比例で92%、小選挙区で87%、全体で見ると92%という結果になりました(図2)。維新の党の維持、共産党の伸び傾向については見積もりに沿っていましたが、自民党の総数を過剰に、民主党の伸びは低めに見積もったといえます。
なお過去のレポートにおいて一致分から不一致分を差し引いて計算し、相関モデルを87%、投影モデルを92%とお伝えしていましたが、今回からは他社の予測と同様に予測値と選挙結果の一致分のみで計算しています。
(図2)2014衆院選最終予測と結果比較:比例区+小選挙区計
(議席数、比例区と小選挙区の計475議席、予測は最終版の投票率50%台前半のもの)
- 資料:
- 「Yahoo!検索」データ、選挙結果データ
今回の選挙において議席数予測を出していた大手メディアなどの数値と比較すると、以下の通りです。(図3)
(図3)他の予測との一致率の比較
- 資料:
- 各種報道記事、幅をもたせた予測の場合はその間の値を採用
このように一致率は前回の参院選予測時に比べて低下しましたが、世の中の議席数予測の大半を占めるアンケート及び情勢の読みに基づいた予測に対して、ビッグデータのみをベースに予測を行った本レポートも、有用な結果を示すことができたのではないかと思います。
比例区と小選挙区の一致状況
本レポートの議席数予測は、比例区と小選挙区ごと、かつ地域の軸を掛け合わせた予測値として発表をしましたが、結果、比例区においては「自民党を過小評価して共産党を過剰評価」し、小選挙区においては「自民党を過剰評価し民主党を過小評価」したものとなりました。(図2、図4、図5)
(図4)最終予測と結果比較:比例区選挙ブロック別
(議席数、比例区、左が投票率50%台前半の最終予測、右が選挙結果)
- 資料:
- 「Yahoo!検索」データ、選挙結果データ
(図5)最終予測と結果比較:小選挙区地域別
(議席数、小選挙区、左が投票率50%台前半の最終予測、右が選挙結果)
- 資料:
- 各種報道記事、幅をもたせた予測の場合はその間の値を採用
本レポートの予測は選挙期間中のデータと、過去のデータから見出されたパターンから作ったモデルに基づくものであり、ズレが大きく生じたということはデータに問題が発生したか、モデルの前提となるパターンになんらかの変化が起きたと考えられます。
以下、データ、モデルそれぞれについて掘り下げて検証しました。
データに問題がある可能性について
データに問題が発生したとすると、大きく2つの可能性が考えられます。
一つ目は、ある種の「データの汚れ」が発生した可能性です。これは、例えば予測のもととなる検索数データにおいて特殊な意図を持つ結果が明確に混入したとみられる場合などを指します。
もう一つは、選挙序盤での選挙への注目度の低さが、データの基本的な構造に影響した可能性です。具体的には、組織的な地盤が強い政党の注目度が下がらない中、他の政党が下がるというような現象(“ベースライン効果”)です。(図6)
(図6)データに問題が生じる2つの可能性
※Buzz:ネット上での活動
データの検証
一つ目の「データの汚れ」問題で、典型的なものはスパムによる異常な検索の発生です。こちらについては特定の政党での顕著な活動は見受けられませんでした。(図7)
(図7)政党による集中的Buzz度※の違い
※集中的Buzz度=当社内部指標
- 資料:
- 「Yahoo!検索」データ(2014年12月2日~13日)
次に“ベースライン効果”が起こっていないかを検証しました。過去の選挙におけるデータと比較してみてると、確かにベースラインが下がった中で、共産党、公明党という2つの組織的な地盤の強い政党の相対的な立ち位置は上がっていました。(図8)
今回の選挙は公示中の注目度が過去2回の国政選挙の半分程度しかない、盛り上がりに欠けた選挙だったため、その結果として特に組織地盤の強い共産党と公明党が過剰に見積もられる結果につながったことがわかります。試算してみた所、議席数予測のズレ8%の内0.8%がこの“ベースライン効果”によるものでした。
(図8)ベースラインの低下による共産党、公明党の相対的地位の変化
(2012衆院選公示日の自民党の注目度=100)
- 資料:
- 「Yahoo!検索」データ
また、2012年と2014年の衆院選における各政党別の注目度を比較してみると(図9)、2012年はそれぞれの政党ごとに綺麗に注目度に差が現れていましたが、2014年では主要政党における注目度にほとんど差がなくなり、投票前の段階で与党が圧倒だったというよりもむしろ、かなりの接戦状態だったといえます。図8の選挙前日の盛り上がり、及び図9に見る限り、とりわけ共産党の注目度が高かった選挙でした。
(図9)2014衆院選における注目度の接戦度合い
(2012衆院選公示期間中の自民党の注目度=10)
- 資料:
- 「Yahoo!検索」データ
これらの情報は有権者の方々にとって有益なデータと考えられるため、今後の選挙について同様の取り組みを実施する場合、当チームでは選挙前の開示を行っていくことを検討しています。
モデルに問題がある可能性について
過去のレポートに基づき、私たちは以下の5つのパターンを前提に予測を行いました。
- 前提1:
- 公示日から投票日前日までのネット上の注目度は、政党の得票数に直接的に相関する
- 前提2:
- 党による票へのつながりやすさ(注目度がどの程度、票につながるか)は、一部の例外を除き、党によって一定である(新党は一定の補正が効く)
- 前提3:
- 比例区において公明党は注目度、投票率に影響されず総投票数の一定割合(約13%)を獲得する
- 前提4:
- 投票日までの注目度盛り上がり度合いは党によって一定である
- 前提5:
- 小選挙区について県別の単位で予測することが可能である
各前提ごとに検証をしました。
モデルの検証
前提1(ネット上の注目度が得票につながること)については、今回の衆院選においてもおおむね当てはまりましたが、共産党と次世代の党で大きなズレが発生しました。(図10)
そのため、すべての政党での相関係数は0.74となりますが、この2政党を除くと0.97となり前回の衆院選のときの0.93よりもむしろ高くなりました。
(図10)2014衆院選比例区の得票率と注目度の関係
- 資料:
- 「Yahoo!検索」データ、選挙結果データ
前提2(政党別の票へのつながりやすさ)では、「次世代の党」は過去における新党(2013年における「生活の党」)と同様の補正を行ったために大きなズレは起きませんでしたが、共産党は過去のモデルをそのまま当てはめたため、過剰評価となりました。
また一方で、自民党の票へのつながりやすさが今回は有意に上がりました(図11)。以上のつながりやすさを補正すると、先ほどのベースライン効果に加え、更に一致率が0.2%向上します。
(図11)政党別にみた注目度の得票へのつながりやすさ
(2012衆院選の自民党の得票へのつながりやすさ=100とした指数)
※前提3のため参考値
- 資料:
- 「Yahoo!検索」データ、選挙結果データ
前提3(公明党の得票率)については、公明党の得票率が安定しているという点では大筋として正しかったのですが、今回の分析を通してある種の周期的な変動があることが見えましたので、次回はこの結果を反映することで更なる精度向上を目指します。(図12)
(図12)公明党の衆院選比例区における得票率推移
(単位:%)
※サインカーブをフィットさせたもの
- 資料:
- 選挙結果データ
この周期性のパターンが見えていたとすると、0.4%のズレが補正されます。
前提4(党による盛り上がりパターン)は基本的に合致していました(図13)。
(図13)盛り上がり度予測による公示後注目度の予実
(各党の公示前注目度=100とする指数)
- 資料:
- 「Yahoo!検索」データ
今回の予測で不一致を発生させたもう一つの大きな原因は前提5(県単位での小選挙区予測)でした。次の表(図14)が示すとおり、自民党が全勝した都道府県以外で大きなズレが生じました。
(図14)2014衆院選 小選挙区予測の一致率
- 資料:
- 「Yahoo!検索」データ 投票率50%台前半予測との一致率
今回の最終予測を都道府県単位ではなく、今回の選挙予測時には間に合わなかった小選挙区単位で試算しなおしてみたところ、小選挙区部分の一致率は87%から94%へと向上しました。(図15)これにより、比例区と小選挙区の合計の一致率では約3%改善します。
(図15)2014衆院選小選挙区 小選挙区単位で予測した場合
(議席数)
- 資料:
- 「Yahoo!検索」データ 投票率50%台前半予測、選挙結果データ
まとめ
以上をまとめると
- 公示日直後の注目度が低すぎたこと
- 自民党、共産党のコンバージョン変化
- 公明党のゆるやかな得票率サイクル
- 小選挙区単位ではなく県単位で予測したこと
が不一致率が拡大した主たる要因であることがわかりました。
仮にこれらの補正をすべて適応できていたと仮定して計算しなおすと、一致率は96%超と前回の参院選並みになることがわかります。(図16)
(図16)一致率を向上させる施策の効果シミュレーション
(%)
- 資料:
- 「Yahoo!検索」データ、選挙結果データ
以上が、第47回衆院選の議席数予測レポートの振り返りになります。
今後もデータの持つ魅力をさらにお伝えすべく、ビッグデータレポートチームではさまざまなレポートを発信してまいります。今後ともよろしくお願いいたします。