linotice

linotice

2018.12.20

ヤフーのデータ&サイエンスソリューションチームが、国際学会のデータコンペティションで世界第2位を獲得!

データ&サイエンスソリューション統括本部の井関洋平、椎野弘章、鈴木翔吾、張洪偉の集合写真
「SIGIR(Special Interest Group on Information Retrieval=シグ・アイアール) 」 とは、40年以上の歴史を持つ、情報検索分野におけるトップカンファレンス。情報検索技術は社内のさまざまなサービスで幅広く活用されており、ヤフーからもデータ&サイエンスソリューション統括本部を中心に多くのエンジニアが参加。

2018年大会は7月に米ミシガン州で開催。その内のワークショップの一つである「SIGIR eCom’18(The 2018 SIGIR Workshop On eCommerce) 」 において、データコンペティション「Rakuten Data Challenge」が開催され、ヤフーのエンジニア6名のチームが見事第2位を獲得しました。彼らがどんな課題をどう解いたのか、語ってもらいました。

image
データ&サイエンスソリューション統括本部 リーダー  井関 洋平
京都大学 大学院情報学研究科卒。大学院では画像検索のために機械学習を使う。現在はYahoo!ショッピングの商品検索のランキング表示などにその技術を応用。新卒入社4年目。
image
データ&サイエンスソリューション統括本部 椎野 弘章
東京工業大学 大学院情報理工学研究科卒。大学院では主に機械学習分野における教師なし次元削減の研究を行う。新卒入社3年目の現在はYahoo!ショッピングのレコメンドや検索技術に関わる。
image
データ&サイエンスソリューション統括本部 鈴木 翔吾
東京工業大学 大学院情報理工学研究科卒。大学院では創薬インフォマティクスにおける化合物検索への機械学習応用の研究を行う。新卒入社2年目の現在は、Yahoo!ショッピングの検索技術に関わる。井関氏が直属の上長にあたる。
image
データ&サイエンスソリューション統括本部 張 洪偉
中国出身。大連理工大学ソフトウエア工学科出身。東京工業大学 大学院総合理工学研究科卒。大学院では自動運転車のデータ処理のための機械学習モデルを研究。新卒入社3年目。

商品の自動カテゴリー分類

eコマースの世界では、各商品がどのカテゴリーに属するかを正確に分類することが非常に重要です。商品のカテゴリーがわかれば、検索やレコメンド、特集、ランキングなどの質を高めることができます。

モール型のeコマースでは、出品者が商品を出品する際にその商品のカテゴリーを選択しますが、商品のカテゴリーは非常に多岐に亘るため、正しくカテゴリーを選択するのは非常に難しく、誤りが多く含まれます。また、eコマースの商品規模では、カテゴリーの選択・修正作業をすべて人的作業で行うのはとても困難です。

機械学習などの人工知能(AI)を生かし、過去のデータを踏まえながら、商品情報から正しいカテゴリーを予測し分類することが自動的にできれば、出品者、コマース業者双方の手間を大きく省くことができます。それは結果的にユーザーが欲しい商品を見つけるまでの時間を短縮することにもつながります。

eコマース業界の活性化に伴い、SIGIRには昨年からeコマースに関するワークショップである「SIGIR Workshop On eCommerce(SIGIR eCom)」が開設されました。ここでも、商品の自動カテゴリー分類技術は主要な議題として考えられています。企業の枠を超え、世界中の研究者が、商品を自動的に分類する技術に大きな関心を寄せているのです。

SIGIR eCom’18」では、楽天技術研究所が自社の100万件におよぶデータセットを提供し、自動分類技術の精度を競うコンペ「Rakuten Data Challenge」を主催。世界から28チームが参加する中、見事2位を獲得したのが、入社2年目から4年目の社員で構成されるヤフーのチームでした。

image

「商品タイトルからカテゴリーを予測する仕組みは、Yahoo!ショッピングの中でも実際に動いているものです。今回は楽天技術研究所が提供しているデータというのですべて英語。英語だと日本語解析という難しさが省かれるため、世界の研究者もチャレンジしやすい。自分たちの日本での日常的な取り組みが世界でどこまで通用するかを試すよいチャンスでした」

と語るのは、チームの中では入社2年目と一番の若手である鈴木翔吾。コンペに参加しようと言い出した張本人でもあります。運営サイドとのやりとりや論文執筆、ポスターセッションでのポスター作成も彼が担当しました。

image
▲データ&サイエンスソリューション統括本部 鈴木 翔吾

ディープラーニングの各手法の組み合わせを試行錯誤

コンペに提供されたデータは、商品タイトルと商品カテゴリーがセットになっている学習データが80万レコード。それとは別に商品タイトルだけが並ぶテストデータが20万レコードあり、大分類で10数個、末端カテゴリーでおよそ3000個にも及ぶカテゴリーに、正確に分類せよ、というのがお題です。

「例えば、『Halley Potter』というだけの商品名。書籍もあるし、映画のDVD化作品もある。魔女コスプレ用のアイテムの可能性もあるかもしれない。商品の形状を見ればすぐに判断できますが、商品タイトルだけでカテゴリーを判断するのは人でも難しい。しかも今回のコンペのタスクでは末端カテゴリーまで当ててようやくポイントがもらえる。どちらにも属するという曖昧な判断ではだめなんですね」(鈴木)

image

スピードは問わないものの、分類は正確でなければならない。そのためには何が必要か。まず、商品タイトルをコンピューターが扱える何らかの形に変換しなければなりません。
これには、世界中で広く研究されている、単語をベクトルとして表現する技術を応用しました。単語をベクトルとして表現することで、その近似性などからコンピューターは単語の類似性などを扱えるようになります。

商品タイトルをベクトル化する際には、単語の並びの順番も重要です。

「商品タイトルでは、先頭の単語がその商品が何かを表す傾向があります。とはいえ後から出てくる単語を見て初めてその商品が何かが分かる場合もある。さらに隣り合っている単語の特徴を合わせて意味を理解する手法も考えないといけません。

これらのいくつかの条件を満たすために、私たちは最終的にはディープラーニングの手法として広く使われているConvolutional Neural Networkと、Bidirectional LSTMという2つの手法を組み合わせることにしました」(井関)

image
▲データ&サイエンスソリューション統括本部 井関 洋平

結果的にはディープラーニングの各手法の組み合わせになりましたが、最初はそれぞれ思いつくまま自由にやってみようというところからスタート。張は、複雑なモデルを取り入れる前に、Support Vector Machine(SVM)という以前から幅広く利用されている分類器を活用して、ベーシックなモデルを作りました。

SVMは最先端の手法ではありませんが、これを一度作っておけば、単語の特徴抽出からカテゴリー分類までのPDCAサイクルを何度も繰り返すことができます。実際、ディープラーニングで作った最終モデルの精度向上が図れたのも、張が作った“原器”とそのアドバイスがあったからこそ。

鈴木は、学習データをとにかく目で確認して、各カテゴリーにはどのような商品タイトルが紐づく傾向にあるのかを調査しました。また、カテゴリー毎の商品数の分布状況などを可視化し、それらの情報を元に分類器の精度をより高めていきました。

image

椎野はモデルの改良と精度向上に専念。Bidirectional LSTMについての論文を読んで、その導入を薦めたのも椎野。

最初からディープラーニング決め打ちで取り組んだのは井関。

「Yahoo!ショッピングで日本語の商品名のカテゴリー分類ですでに実績がありましたから、その英語版を作ってみようと考えました」

「われわれの手法のもう一つの特徴に、外部データの活用ということがあります。私たちはAmazonが公開している商品データも活用しました。商品カテゴリーの体系はもちろん違いますが、なんと言ってもレコード数がコンペで提供されているデータセットに比べ桁違いに多い。そういった外部データを自分たちのモデルづくりに生かせたのも、良い結果を出せた一つの要因だったと思います」(椎野)

image
▲データ&サイエンスソリューション統括本部 椎野 弘章

世界のレベルは高いが、張り合っていけると認識

コンペは2018年の6月後半が締め切りです。それまでは自由に結果を提出し、自分たちのスコアを他と比較して、現在の順位を知ることができます。

最初からトップを独走したのは、単独でコンペに参加していた研究者。最終スコアは1位が0.85、2位ヤフーが0.84とわずか100分の1でしたが、この世界ではかなりの差なのだとか。

「3位以下と私たちは絶えず1000分の1のポイント差で競っていましたからね。まあ、1位の彼はスーパー・エンジニアと言わざるを得ない。ポスターセッションで実際にお会いしたら、とても気さくな方でしたけれど。私たちとしては3位の中国EC大手のチームに勝ててなんとか日本の面目を保てたのがうれしかったです」(鈴木)

image

世界のトップ企業の研究者やエンジニアと知り合い、相互のレベルを確認できるのは国際学会の楽しみの一つ。

「ポスターセッションでは2位ということもあって、どういう手法を使ったんですかという質問攻めにあいました。実際に開発している間は意識していませんでしたが、SIGIRの本会議やチュートリアルでの講演も通じて、私たちのモデルの考え方は間違っていなかったと感じました。たしかに世界のレベルは高い。ですが、私たちも張りあっていけるんだということを認識できました」(椎野)

image

「アドホックなチューニングの重要性があらためてわかりました。最終結果の前日ぐらいまでは私たちはまだ4位とか5位だったんですが、最後にカリカリにチューニングしてなんとか2位にまで追い上げることができました」(井関)

2位という結果は、井関の最後の追い込みがあったればこそ、と全員が認めています。

image

張は機械学習の学会参加歴は豊富ですが、今回のようなコンペにグループで参加するのは初めてのこと。

「チームで協力していくテクニックを学べましたね。このことは今後の業務にも生かせると思います。ディープラーニングの技術は以前から触っていましたが、業務ではまだ活用できていません。今回の機会で他のエンジニアとディープラーニングについて深く議論することができ、理解を深めることができました」と振り返ります。

image
▲データサイエンスソリューション統括本部 張 洪偉

コンペ入賞を可能にしたヤフーのエンジニア支援体制

他の参加チームは大学、企業がほとんどでしたが、日本からは東北大と筑波大の2つの大学チームのみ。企業からの参加はヤフーだけでした。

データコンペに限らず、SIGIR2018自体への論文発表、参加人員を見ても日本の存在感は低く、開催地の米国を除けば、圧倒的な存在感を示していたのが中国だったといいます。

「会社の環境もあると思います。データコンペに挑戦するために業務時間をどれだけ割けるか、という環境も重要ですから」と張。

image

ヤフーでは、トップカンファレンス参加支援制度など、エンジニアのための優遇措置は大きなバネになっています。業務時間のうち論文執筆やコンペ参加にどれだけの時間を割きたいか、上長に申告し認められればそれが可能です。今回はチームメンバーそれぞれ「業務時間の10~20%を使います」と宣言し、認められました。

今回のミシガンへの渡航・滞在費は1人50万円ほどでしたが全額会社負担。他にも7人が事業部予算でSIGIRに参加しています。

「とてもありがたいことだと思います。それだけ、今回の経験を業務にどう反映していくかが私たちの次のミッションだと考えています」(鈴木)

image

今回のデータチャレンジへの参加は、機械学習やディープラーニングに関する各人のスキルを高めただけでなく、業務の中にそれらをどう取り組むかのノウハウを積み上げる貴重な経験の場となったようです。

採用情報 公式SNSアカウント

このページの先頭へ