ヤフーの音声認識技術がつくる10年後の未来とは

ヤフーの音声認識技術がつくる10年後の未来とは

みなさんは、ヤフーの音声アシストアプリを使ったことはありますか?
スマホに話しかけるだけで、あすの天気予報や電車の経路などを調べられる、音声アシスト機能を使った便利なアプリです(^^


今回は、音声アシストアプリでも使われている「音声認識」の開発を担当している、データ&サイエンスソリューション統括本部の関根剛宏さんにお話を聞きました。

- 担当しているお仕事について教えてください。

私は中途入社で、ヤフーは3社目になりますが、これまでずっと「音声認識」と「画像認識」技術の開発に関わっています。
また、サービス担当者から「音声認識をつかってこういうことをやりたい」と相談を受けた時に、この検索エンジンをどう生かすかや、集めるデータについての検討、実装を想定した検証なども行っています。

- 音声認識の開発で、一番難しい点は何ですか?

「音声認識」は、人が話した言葉をテキストに変換する技術です。その言葉の内容に対して返答するためには「意味理解」という言語解析の技術領域があります。
意味理解の分野についても、社内の別のチームが取り組んでおり、「音声認識」「意味理解」の技術を組み合わせて「音声アシスト」アプリはできています。
このように違う技術を組み合わせていく難しさはあると思います。

音声認識技術がつくる、10年後の未来とは

- 音声認識領域の開発の面白さを教えてください!

人間は、目で見たり耳で聞いたりしたことを、いとも簡単に「何を見たのか」「何を聞いたのか」理解できますよね。

「人間と同じようにコンピューターも理解できるようになったら、どんなに素晴らしいだろう!」と考えたことが、この分野の技術開発に取り組むようになったきっかけです。

音声認識の技術は昔に比べて認識力が高くなり、以前より人間のそれに近づいてきましたが、人間が脳の中で抽象化する能力にはまだまだ追いついていません。ですが、コンピューターが人間と同じ理解力を持つような未来が近いうちにくるだろうと思っているので、そこに少しでも近づくための開発はとても面白いですし、やりがいがあります。

- 音声認識をつかって実現したい、10年後の未来像を教えてください。

ユーザーのいろいろなニーズや要求に対して、もっと柔軟に応えるため、音声認識の技術を使って、より的確な情報を表示し、多くのユーザーの課題を解決することを目指したいと思っています。
今後は、言語解析も含めたソリューションを提供していきたいですね。そうすることで、より多くのユーザーにヤフーのサービスを使ってもらえるのではないかと思っています。
お年寄りや小さい子にとっては、テキストを入力することがハードルになることもあるので、スマホに向かって、まるで人に話しかけるように知りたいことを話すだけで、すぐに情報を得られる世界になればいいなと。
たとえば、すぐ近くにとても物知りな人がいるようなイメージです(^^

相手が人だったら「『あれ』ってなんだっけ?」と聞いただけでも、これまでの経緯を考えて、求める答えをある程度推測して返事をすることができますよね。
音声認識と言語解析技術を使えば「あれ」と言われた内容から、その人が話しかけた背景やこれまで話してきたことをコンテキスト(文脈)として理解し、適切なものを提示できるようになるかもしれません。

image

(イメージ:アフロ)


ヤフー独自の音声認識技術

まだあまり知られていないのですが、実はヤフーは音声認識の独自技術を持っているんですよ。

ただ、この分野は専門領域がかなり広いので、音声認識技術を開発できる人材は一般的なウェブエンジニアと比べるとかなり少ないです。
音声認識は今後ますます重要性が高まる領域だと思っているので、後継者の育成は課題だと思っています。

- 音声入力では、どのようにデータを集めているのでしょうか。

大量の音声データを集めてきて、それらを認識させるための学習モデルを作り、日々改良しています。
ユーザーのみなさんがヤフーのアプリを使った時に、1日にかなりの数の発話(話したことで生まれる音声)が集まります。その約数百万の発話をテキストに書き起こします。それを学習モデルに追加するという、地道な作業を行っているんですよ。

特に、音声の認識が弱いデータを集めて学習モデルに組み込むことで、認識率が向上するため、音声データとパターンの多さはとても大切です。
これまでは、滑舌が悪い人の話した内容や、バックグラウンドで音が鳴っているような音声については認識率が低かったのですが、これらも音声データを集めることで性能を上げていくことができます。
たとえば、先日ヤフーカーナビに音声認識の機能が追加されたことで、バックグラウンドに車の音がしている音声データが集まり、道路で話された音声の認識率を上げるために使われています。

多くのサービスをもっているヤフーだからこそ、いろいろなパターンの声のデータが集まることは、かなり強みだと思っています。

image

(関根さん)

世界的に認められる音声認識技術を


- これから挑戦していきたいことを教えてください!

この技術の分野はどこまでいっても「やりきった!」と思えないことも魅力で、音声認識のプロジェクトチームには、この道一筋30年、という方もいるんですよ!
そういう先輩のおかげもあって、ヤフーが音声認識や画像認識などの分野で強い技術を持ち続けていられるのだと思っています。

「日本語の音声認識の性能ナンバー1」を目指して開発してきましたが、これからは、世界的に認められる音声認識技術を持つことを目標に挑戦を続け、いつか世界中の企業から「ヤフーの音声認識技術を使いたい」と言ってもらえるようになりたい。

ただ、トライしたいことが山のようにあるのに、人手がまだ足りないことが一番の悩みです。もう少しメンバーが増えたら、最先端の手法にどんどんチャレンジしていきたいですね。現在、人材を募集中です。この分野に興味がある方をお待ちしています!

- 最後に、ユーザーのみなさんに伝えたいことはありますか?

音声アシストアプリには、音声認識の新しい機能を今でも追加していますので、ぜひ一度使ってみていただけるとうれしいです!

ただ、街中でスマホに向かって話すことが恥ずかしいという人もまだ多いようなので、今後は人前で音声アシストアプリを使うハードルも下げていきたいですね(^^

ーーーーーーーーーー

たしかに、  私もこれまで、自宅以外の場所でこのアプリを使ったことはありませんでした……。
同僚から「電話しているフリをして話しかけるといいよ」と教えてもらって早速やってみたら、確かに恥ずかしくなかったです(^^ みなさんもぜひ一度、使ってみてくださいね。