インタビュー 田頭 幸浩 メインビジュアル

YUKIHIRO TAGAMI

田頭 幸浩

機械学習で広告ビジネスを改善し知見を研究コミュニティに還元する

2010年入社

データ&サイエンスソリューション統括本部

ウェブの現場で機械学習の先端の知識を使う

ヤフーに入社した理由は「ウェブは変化が早いし規模が大きい。人の生活に技術で関われる仕事がしたい」と考えたからです。

大学院時代の研究室では論理と確率を用いた人工知能を扱っていましたが、私自身はどちらかというとデータ処理、機械学習に近い分野を研究していました。入社後に研修を経て配属されたのが広告関連の部署で、そこで機械学習に取り組むことになりました。

配属後に知ったことですが、広告の部門にも大量のデータがあり、データを見て意思決定する下地も整っていました。ただし、データサイエンスの最先端とは距離があり、そこを埋めたいと思いました。

広告ビジネスを機械学習の手法で改善する

インタビューに答える 田頭 幸浩

機械学習に取り組んでいる理由は、ウェブの広告ビジネスを改善するためです。

ウェブの広告ビジネスでは、広告主、パブリッシャー、ユーザーの3者がそれぞれに異なる目的を持っています。ここで重要な指標はクリック率(CTR)です。クリック率が高い広告はユーザーにとっても有用な情報である可能性が高いですし、広告主にとっては効果が高く、パブリッシャーにとってはより高い収益に結びつきます。そこでクリック率を精緻に予測して期待収益を計算し、よりクリック率の高い広告を表示できるように改善する取り組みを進めています。この取り組みの中で、過去の実績データからクリック率をより精緻に予測する部分で機械学習のテクノロジーを用いています。

広告を配信する対象となる集合は何十万種類もあります。その中から短い時間でどう効率的に情報を絞り込むか、ここも大事です。この絞り込みでは検索エンジンの力を借りることもあります。

こうした取り組みでは、機械学習の教科書的なアプローチだけでなく、実システムの知識が必要です。例えば計算コストやデータの持ち方などシステム上の制約について考える必要があります。最近はDL(ディープラーニング)の研究が花開いていますが、実システムに載せる上でのギャップをどう埋めるか、そこにはまだ課題があります。

例えば、機械学習の学習時間はHadoopで並列処理をすることで短縮できますが、学習結果を使った予測の時間に対する要求は非常にシビアです。ユーザーがウェブサイトを訪問してから何十ミリ秒以内といった範囲内に予測を終えて結果を返す必要があります。学会や機械学習の研究コミュニティでは、このような実時間性はこれまでさほど注目されていませんでした。

実システムを作るにはエンジニアとしての基礎体力がモノを言う

実システムに取り組む上では、機械学習のような最新のトピックスだけでなく、エンジニアとしての基礎体力に相当する部分、計算機科学を活用して実システムを組む部分が大事です。学生の前で今の仕事の話をするときは、「学生時代の講義で最も役に立っているのはOSの講義です」といったことを伝えています。

私が特に興味を持っているのは、計算機はいかに動いているか、どう効率的に動かせるのか、どうすれば計算をうまく早くできるのか、例えば機械学習の場合ならベクトルの積和演算を並列処理するにはどのような方法がよいのか、そういった取り組みです。

特に大規模な分散システムの作り方を調べるのが好きです。そこで課題を解決して、みんなで面白いことができればよいなと思っています。例えば、去年話題になったBorgやその次の世代のKubernetesといったオープンソースソフトウェア(OSS)は非常に興味深いですね。

ヤフーにおける計算機環境は、大学時代に比べても非常に恵まれています。全社的に使えるHadoopグリッドがあって、これを自由に使えることは魅力的です。OSSを1000台規模で並列処理させて動かすことができます。これには思い出もあって、Apache Sparkのバージョン1.0.0が出たとき、それに含まれる機械学習のMLlibというコンポーネントを1000台規模で使ってみると、その規模で初めて発現するバグが存在しました。バグを修正するパッチを出すのは他の人に先を越されてしまったのですが(笑)。

インタビューに答える 田頭 幸浩

最先端の知識を仕事で活用し、成果を学会で発表する「よいサイクル」

一般的には、企業の研究機関は事業部門と離れていますが、私は事業部門に所属しています。ビジネスを改善するために何が必要なのかを考えて、研究コミュニティの成果をわれわれのシステムに導入しようという姿勢で仕事に取り組んでいます。

仕事で取り組んでいる内容を学術論文として発表しているのですが、よいサイクルが回っていると思っています。研究コミュニティの成果も参考にさせてもらっているので、ビジネス改善で得られた知見はできる限り研究コミュニティに還元していきたい。論文を出すとたくさんの人に知ってもらえます。私自身も、社会人学生として博士課程に通っていますが、研究活動で人類の知に少しでも貢献していけたらと思っています。

R&Dという言葉がありますが、今の仕事のようにR(研究)もD(開発)も両方できる環境が整備されているのがヤフーのよい所だと思っています。

  • 2016年8月時点の情報となります。