ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社のコーポレートサイトはこちらです。
当ページに記載されている情報は、2023年9月30日時点の情報です。

2018.07.27

「トップカンファレンス参加支援制度」を活用し、世界に論文デビューするエンジニアたち【自然言語処理編】

ヤフーが世界的トップレベルのインターネット技術に関するカンファレンスや先端のテックイベントへの参加を、会社として奨励・支援する「トップカンファレンス参加支援制度」。
第三回となる今回はこの制度を活用して、自然言語処理の基礎研究を世界で発表したエンジニアを紹介します。

自然言語処理におけるグラフベース近似検索手法の有用性を証明

自然言語処理分野ではトップカンファレンス「ACL(Annual Meeting of the Association for Computational Linguistics)」の動向が研究開発の今後を示唆すると言われています。3年周期で北米、アジア・オセアニア、ヨーロッパで開催され、2016年の大会はベルリンにあるフンボルト大学を会場に開かれました。
そこで採択された論文の一つが、Yahoo! JAPAN研究所で自然言語処理・機械学習を専門に研究する小林隼人らの「On Approximately Searching for Similar Word Embeddings」というものでした。

▲ Yahoo! JAPAN研究所 小林隼人

小林は論文の概要を次のように説明します。

「自然言語処理では言語情報を実数空間にマッピングすることでその意味を捉えようとするアプローチが最近のはやりとなっています。そのような実数空間上において類似単語を高速に見つけるための近似検索手法はいくつかあるのですが、私たちはこれらについて網羅的な比較実験を行いました。

実数空間上の近似検索手法は画像処理分野ではよく研究されているのですが、言語データに対する網羅的な調査・実験はこの論文が初めてです。具体的には、代表的な空間索引構造であるハッシュ、ツリー、グラフベースの検索手法の比較を行いました。
その結果、グラフベースが最もロバストな性能(強靱性)を示すことなどを実験的に示すことができました。詳細な内容については共著者の菅原(検索技術)の解説記事で紹介されています」

もともとこのグラフベース検索手法では、今回の論文の共著者でもある岩崎雅二郎(Yahoo! JAPAN研究所)が開発した「NGT(Neighborhood Graph and Tree for Indexing)」が知られています。

*Yahoo! JAPAN研究所「高次元ベクトル近傍検索(NGT)」の威力とは──

「NGT」は、画像、商品・ユーザーデータなど、複数の特徴を持つデータ(高次元データ)を、大量のデータベースの中から、高速に検索・特定できる技術で、AIやIoTの台頭により、ますます巨大化の一途をたどるビッグデータの分析の高速化を実現するものと期待されています。

「岩崎はもともと画像処理の分野でグラフベース検索手法を研究していたのですが、NGTが自然言語処理の分野でも有用であるか確認するために一緒に研究しないかと誘われました。結果的に、今回の論文はそれを証明する結果になり、岩崎も驚いていました」

小林は前職の東芝の研究所でも自然言語処理技術を使ったテキストマイニングを研究。SNSなどでささやかれる商品の評判情報を検索・分析する技術に関わっていました。ヤフーへの転職は2013年のこと。

「生のビッグデータが集まり、それを解析する技術をもっている企業として、ヤフーはとても魅力がありました」。

現在所属するYahoo! JAPAN研究所については、「レベルの高い研究者が少数精鋭で自律的に研究している。互いの論文をレビューする時だけでなく、普段の何気ない会話の中にも研究のヒントが転がっている」と評価しています。

研究者だけで閉じこもって研究するのではなく、エンジニアとの協業、時にはインターン学生と一緒に共同研究することもあるなど、オープンな雰囲気も気に入っているそうです。
研究所での研究成果とそのビジネス活用の間に、距離がないというのも、ヤフーのR&Dの特徴の一つです。今回の論文で高い性能を示したNGTは商品検索などに広く活用されていますし、小林が最近取り組んでいる文書生成技術もYahoo!ニュースの編集支援ツールとして既に実用化されています。

「コンテンツの編集部があり、その一方で自然言語解析をサイエンスとして深掘りするチームがある。双方の密接な協業関係がさらに深まることで、ヤフーの技術力はより一歩、世界トップに近づくことができるはず」と、小林は今後の抱負を語っています。


◆おすすめ関連記事
⇒第一回「UIST2015で最先端スマホUI『Fix and Slide』の論文を発表」を読む
⇒第二回「Apache Big Data 2017でHadoopの運用手法を発表」を読む

関連記事

このページの先頭へ