2018.04.26

ヤフーの社会人ドクター進学支援制度で博士号取得を目指す田頭幸浩。機械学習で世界最速の技術を開発、OSS公開！

linoticeでは、先に『ヤフーで社会人ドクターを目指す「ファースト・ペンギン」』と題して、「社会人ドクター進学支援制度」の概要と、それを活用して京都大学の博士課程に学ぶ田頭（たがみ）幸浩を紹介しました。

* ヤフーで社会人ドクターを目指し、京都大学の博士課程に学ぶ田頭幸浩
* 夢を諦めず、働きながら博士号取得を目指す――ヤフーの社会人ドクター進学支援制度とは

その田頭がこのほど機械学習に関する新しいプログラムを開発し、オープンソースソフトウエア（OSS）として公開しました。日々の業務はもちろんのこと、社会人として博士課程で学んだ経験が、これらの開発に大きなモチベーションを与えました。

レコメンドエンジンに高精度、高速化をもたらす研究

ヤフーは数十万の選択肢の中から適切な解を、世界最速かつ高精度に予測する機械学習の技術「AnnexML」を開発して特許を取得。この技術を研究用途だけでなく商業用途にも広く活用してもらうため、特許権のライセンスの無償提供という形で、2017年11月中旬、GitHubにソースコードを公開しました。

https://github.com/yahoojapan/AnnexML

「AnnexML」は機械学習でいう“分類器”の一種で、正式名称は「Approximate Nearest Neighbor Search for Extreme Multi-label Classification」といいます。
ラベルの種類が膨大なデータをグラフ構造に整理した後、最も近いものを効率的に探索する近似最近傍探索法であることが名称の由来です。グラフベースの構造化には、ヤフー研究所が開発した高速検索技術「NGT」が用いられています。

* Yahoo! JAPAN研究所「高次元ベクトル近傍検索（NGT）」の威力とは──

ユーザーのサービス利用情報に基づいて、ウェブサイトで膨大な広告や商品の中から、ユーザーに最適なものを紹介するレコメンドエンジンに実装されれば、高い予測精度を保ったまま、予測速度の高速化を実現することが期待されています。
技術の詳細は、2017年8月にカナダで開催されたデータマイニング領域で最も権威のある国際会議「KDD2017」にて発表されました。

実際に本技術を同種のビッグデータ分類技術と比較検証したところ、既存技術の中でさまざまな研究に引用されている「SLEEC」よりも、最大で約58倍の予測速度を記録し、論文投稿時点（2017年2月）における世界最速の技術となりました。

この技術を開発し、論文として発表したのが、田頭幸浩です。東京工業大学を卒業後、2010年にヤフーに入社。2015年10月から「社会人ドクター支援制度」を利用して、京都大学大学院情報学研究科知能情報学専攻の博士課程に在学、機械学習の専門家である鹿島久嗣教授の下で博士号取得を目指しています。

**▲ テクノロジーグループデータ＆サイエンスソリューション統括本部サイエンス本部リードエンジニア田頭幸浩**

「既存手法を改良する」地道な取り組みを重ねて

田頭は言います。

「普段の私の仕事はレコメンデーション技術。ウェブサイトを訪れたユーザーに最適記事などをレコメンドするパーソナライズ機能の一つですが、適切なコンテンツをウェブページに掲示するのに、何秒もかかってしまっては意味がありません。

瞬時に表示されても、内容がそのユーザーにマッチしないものだったら、これも使えないということになります。そのため、精度と速度の両立はかねての懸案で、その効率を改善することは、私の仕事の主要なテーマでもあり、研究者としての最大の関心でもありました」

もちろんレコメンドにどの程度の精度と速度を求めるかは、サービスの種類によって異なります。サービスのタイプに応じて、精度と速度を調整できる手法があれば一番良いのですが、これがなかなかありません。
そこで田頭は「既存の手法のイマイチなところを改良する」ことに最大の関心を寄せます。

「これまでの予測技術でも、膨大なラベル種類の範囲を分割して探索することはよく行われていたのですが、その分割の方法や、分割後に探索する方法が不十分でした。その問題を一つずつつぶしていくことで精度と速度を担保することができるようになりました。

特に、機械学習のモデル開発と検索インデックス作成を、これまでのように別々に行うのではなく、モデルの中に検索インデックスを入れ込んで全体最適化を行う、というところがこの論文のポイントになっています」

学術的には、膨大なアイテムを分類する「エクストリーム・マルチ・ラベル・クラシフィケーション Extreme Multi-label Classification＝XMLC」領域の最新成果ということができます。
XMLCの研究領域では、数年前からモデルとなるデータセットが用意され、それを使うことで、新規や既存の手法がどれだけの精度と速度を出すのか、いわばベンチマーク的にわかるようになりました。その実験で、世界最速が証明されたのです。

実際に分類器を作ってそのソースコードをオープンにしたのは、これまで田頭自身が恩恵を受けてきたオープンソース・コミュニティーへの貢献という意思のあらわれでもあります。

「ソースがオープンになっていれば、誰もが検証しやすくなりますし、それを改良してさらに大きなパフォーマンスを生み出すことができ、研究領域はさらに活性化します。他の研究者には、ぜひ自分を追い抜いていってほしいし、そうなれば私も負けずとまた頑張れます」

社会人ドクターを諦めない思いが成果につながった

田頭は「AnnexML」の開発を「大学院に入っていなければ、実現できなかった仕事」と表現します。

「業務で開発するレコメンドエンジンと、論文として発表するそれは、基本は同じですが、細かいところで目的が違います。業務だけなら、ヤフーのマルチビッグデータを使って、過去のデータと比べてどれだけ速くなったかに、自分の関心はとどまっていただろうと思います。大学院で研究論文としてまとめるという前提がなければ、共通のデータセットを使って、他の手法との比較をここまで精緻に調べることはなかったと思うんです」

実務と研究の多少のズレがあればこそ、研究はより先端を行くことができる。このズレが許され、研究の幅を自由に広げることができたのは、やはり社会人ドクター制度があったからこそだというのです。

「より正確に言うと、ただ大学院に行ったからではなく、業務と研究のメリハリをつけて、しっかり研究業績も残しなさいと、ヤフーの上長たちから叱咤激励を受けたからですが（笑）」

大学院入学当初はどうしても業務に引きずられて、制度利用者に与えられている「研究日（週に丸1日は通学・研究などのため業務を休むことができる）」の権利行使をためらうことがあった田頭。上長らに尻を押されて、目が覚めたという経緯は、先の記事でも触れたところです。

田頭はKDD2017に発表した論文と、それとは別に「World Wide Web Conference（WWW）2017」で発表した論文をまとめて、京大の博士論文に仕立てようともくろんでいます。

「2018年の正月三が日が空けてから博士論文に取り組み、春先までには書き上げたいと思っています。だから、2017年末はタスクを翌年に持ち越ししないよう、がむしゃらに仕事をしました」

博士論文の先の、自分の仕事のあり方についても少し見えてきました。

「博士論文につながる研究を一つやりきったことは自分にとって最大の自信になるはずです。大学院を無事2018年9月に修了したら、これからは自分がメインで仕事を進めるというより、みんなが仕事をしやすいような環境整備に力を注ぎたいと考えています」

これまでは、田頭を含む機械学習の技術トップ層が頑張って、機械学習モデルのシステム化に注力してきました。これからは、より広いビジネス分野で機械学習が使われるようになります。そのためには技術のすそ野をもっと広げなくてはなりません。

「機械学習のモデリングが終わったら、それをすぐにサービスに実装して、ユーザー体験を向上させるような循環をもっとスムーズに進めたい。そのためのシステム的な環境整備に2018年度は力を注ぎます」と、田頭は抱負を語ります。