こんにちは、「Yahoo! JAPANビッグデータレポート」チームです。
突然ですが、もしも気になるアーティストの歌詞にはどんな特徴があるのかが可視化されたら面白いと思いませんか?そこで今回は普段のビッグデータ分析と趣を変えて、GYAO!の歌詞サービスと連携し歌詞の日本語処理分析とその結果のデータビジュアライズに取り組んでみました。
歌詞をどうやって分析するのか
形態素解析とは
まずは歌詞を解析してデータとして抽出する必要があります。今回は「形態素解析」と呼ばれる日本語処理手法を用いて歌詞の分析を行いました。
形態素とは、意味を持つ最小の単位のことで、形態素解析は、その最小単位に分解するという処理手法です。例えば「明日は日曜日です」という歌詞があった場合、「明日/は/日曜日/です」という形態素に分解できます。さらに「明日(名詞)/は(助詞)/日曜日(名詞)/です(助動詞)」のように、各形態素の品詞も判別できます。
(図1)形態素解析の例
これ以外にも、目的に応じた様々な補正や付加要素を加え、文章の解析を行うことを一般的に「形態素解析」と呼んでいます。今回は約16万曲分の歌詞データに対して、Yahoo! JAPANの日本語処理技術を用いた形態素解析を適用して処理を行い、次にすべての単語(以下歌詞ワード)の出現個数や曲あたりの出現頻度などを計算して、これを歌詞分析用のマスターデータとしました。
歌詞に登場しやすい歌詞ワード
まだ特徴などの分析を行う前の段階のデータでも、歌詞に登場しやすい歌詞ワードのランキングを知ることができます。
(図2)歌詞ワードの頻出ワードランキング
- 資料:
- GYAO! 次の6ワードは除外(「ない」「いい」「する」「いる」「なる」「ある」)
この結果、約16万曲の歌詞の中で、最も出現頻度が高い名詞は「君」、形容詞は「強い」、動詞は「見る」となりました。ただし、この同じ順位の言葉が必ずしも同時に使われているわけではないという点は留意する必要があります。
アーティスト別に「特徴語」を抽出
しかしこのデータだけでは、「各アーティストの歌詞ワードにはこんな特徴がある」という分析ができません。そのためには各アーティストの歌詞に含まれている歌詞ワードの特徴を統計的に解明する必要があります。アーティストが持つ歌詞ワードごとに「特徴度」を求めて、値が高かった上位歌詞ワードを各アーティストの「特徴語」としました。
これにより、「アーティストAさんの歌詞の中ではよく使われ(要素1)、他のアーティストの歌詞には現れにくい(要素2)歌詞ワード」ほど高い値となり、特徴語として抽出できます。アーティストの保有曲数が少ないと精度が下がるため、今回はGYAO!の歌詞サービスに登録されている曲数が多い順に上位約500アーティストに絞って分析を行いました。
歌詞の分析結果
「TUBE」の特徴語
実際の例で見てみましょう。382曲と最も登録曲数が多かった「TUBE」を例に、特徴度のスコア上位20件の特徴語を並べてみると次のようになりました。
(図3)「TUBE」の歌詞の特徴語上位20件
- 資料:
- 「GYAO!歌詞」データ バブルの大きさは特徴度のスコアに比例、中心またはバブル間の距離はデータに基づくものではない
「TUBE」において最も特徴度スコアの高い単語は「夏」となり、イメージ通りの結果を得ることができました。この抽出された歌詞ワードは、いろんな角度で眺めるだけでもとても面白い結果を得ることができます。
「自分」と「相手」をどう呼ぶのか
例えば、このデータから歌詞の中で「自分」と「相手」の呼び方がわかります。一人称と二人称を抜き出してみます。
(図4)一人称(自分)と二人称(相手)の呼び方表
- N/A:
- 十分なデータがない ※特徴スコアによる閾値足きり後のデータを使用。また複数の呼び方を持つアーティストはスコアが高いほうを採用
- 資料:
- GYAO!
(図5)一人称と二人称の呼び方アーティスト数バブルチャート
- ※
- 特徴スコアによる閾値足きり後のデータを使用。また複数の呼び方を持つアーティストはスコアが高いほうを採用
- 資料:
- GYAO!
図4から例えば「aiko」や「いきものががり」は、他のアーティストと比較して自分を「あたし」、相手を「あなた」と呼ぶことが特徴として現れているなどがわかります。また、同じ「私」という呼び方であっても「私」「わたし」「あたし」など、使われる表記でも分かれていることが読み取れます。
アーティスト数では「僕」と「君」の組み合わせが最も多く、自分を「私」、相手を「あんた」と呼ぶ組み合わせは、「やしきたかじん」のみとなっています。
特徴語が似たアーティストの分析手順
次に、一人称、二人称以外も含めた各アーティストの「特徴語」を使って、歌詞ワードが似ているアーティストを以下の手順で分類してみました。
【分析手順】
- 1:
- 約500アーティストそれぞれが持つ特徴語のスコア上位150ワードを抽出
- 2:
- 全アーティストをすべてペアにして、全組み合わせの特徴度の一致スコアを算出
- 3:
- 最もスコアが高くなったアーティストのペアから順に組み合わせを生成
- 4:
- ペアの組み合わせがなくなるまで処理を行う
- 5:
- (4)の結果をD3jsというデータビジュアライズライブラリを用いて可視化
【注意事項】
- 歌詞以外のデータ要素(サウンド、楽譜、ジャンルなど)は使用していません
- 日本語、英語とも一部の単語は除いています(助詞、接続詞、代名詞など)
- カバー曲も含まれています
- 作詞者を考慮したフィルタリングは行っていません
- GYAO!歌詞サービスに登録された曲数に基づいたデータであり、すべての楽曲を網羅しているわけではありません
- データは2015年6月までのものを利用しています
- 一致スコアが極端に低いアーティストは除外しています
ツールの詳細な使い方はツール内のヘルプで解説していますが、基本的にはアーティスト名を選択することで、そのアーティストの特徴語や、類似アーティストの情報を見ることができます。
「モーニング娘。」の特徴語と類似アーティスト
- ※
- ツール画面はパソコン版
機械的な処理で一致スコアを計算して自動的にグラフを生成しただけですが、例えば「モーニング娘。」などのハロー!プロジェクトのアーティストはすべて近い位置に集まった上に、プロデューサである「つんく♂」が所属している「シャ乱Q」まで組み合わせの近い位置に来るなど、感覚的にも納得できる結果を得ることができました。
また、中には「Mr.Children」と「TOKIO」や「矢沢永吉」と「郷ひろみ」のような興味深い組み合わせもたくさんあるため、一通り眺めてお気に入りのアーティストの特徴語をぜひ確認してみてください。
スマートフォン版のアーティストクラスタリングチャート
まとめ
今回はGYAO!歌詞のサービスデータ、Yahoo! JAPANの日本語処理技術、D3jsを用いたデータビジュアライゼーションといった様々な取り組みを連携させた分析・可視化技術に挑戦してみました。歌詞分析に関してはまだまだチャレンジできることが多く残っており、今後は年代別での歌詞ワード傾向や歌詞の持つ感情の評価などもできればと考えております。
今後とも、Yahoo! JAPANビッグデータレポートとデータビジュアライゼーションの取り組みをどうぞよろしくお願いいたします。
- 参考:
- LYRICS RADAR: 歌詞の潜在的意味分析に基づく 歌詞検索インタフェース(PDF)
- 佐々木 将人、吉井 和佳、中野 倫靖、後藤 真孝、森島 繁生