linotice

linotice

2021.06.23

ヤフーのデータサイエンティストが語る、データ分析をサービス改善と会社の成長につなげる醍醐味とは

画像
ヤフーには、データ分析やAIを活用する全社横断的なデータサイエンティストが所属する組織があります。各事業部からのリクエストに対し、 メンバーそれぞれが各自の担当領域ごとに役割を担い、サービス改善に関わっています。 まさにデータサイエンティストはヤフーにとって不可欠な人財で、近年その採用を強化しています。

なかでもデータサイエンティストの力が必要になる事業領域の一つが、eコマース事業です。 今回は「Yahoo!ショッピング」や「ヤフオク!」に代表されるeコマース事業のなかで、データサイエンティストたちが果たす役割をお伝えします。

プロフィール

関口 優希(リーダー)
テクノロジーグループサイエンス統括本部
2017年に新卒入社。入社以来、サイエンス統括本部にてYahoo!ショッピングのデータ分析に従事。現在はeコマースの横断領域を担当する分析チームのリーダーを務める。
今関 眞倫(まさみち)
テクノロジーグループサイエンス統括本部
2019年に新卒入社。検索モデリングの部署に所属し、検索やレコメンドの機械学習モデル開発・改善を担当。現在は主にYahoo!ショッピングの検索改善に従事。
高坂 和樹
テクノロジーグループサイエンス統括本部
2019年に新卒入社。ショッピングサイエンスのレコメンド配信サーバーや機械学習のモデルを動かすシステムを担当。2020年から汎用レコメンドエンジンの開発・運用にも従事。
伊奈 拓郎
テクノロジーグループサイエンス統括本部
2018年に新卒入社。自然言語処理の部署に所属し、Yahoo!ショッピングなどのeコマース事業に従事。現在はeコマースのクエリからカテゴリなどの属性を推定する要素技術の改善および運用を担当。
干場 未来子
ピープル・デベロップメント統括本部 コーポレートPD本部
マーケティングソリューション事業で営業、エデュケーション、プロダクトマーケティング、マーケティングチームなどを経て、2016年に人事へ異動し、採用ブランディングを担当。

ヤフーが持つ膨大なデータを思う存分、分析してみたかった

本日はeコマース事業におけるデータサイエンティストの仕事ややりがいなど、皆さんからいろいろお話を伺えればと思いますのでよろしくお願いします!まずは、皆さんのヤフーへの入社動機から聞かせてください。

大学院の博士課程で物理学を専攻し、X線レーザーを使って細胞の構造を調べる研究をしていました。その実験では1秒に1GBという大量のデータを扱います。 一つの実験でのデータ量は数テラバイトにもなる。それをリアルタイムに処理、可視化して分析します。この分析がとても楽しかったことから、それを最大限に生かせるヤフーに入社することを決めました。
企業からデータを受託してデータ分析を行う専門企業はいくつもありますが、やはり自社の事業を通してデータをたくさん持っている企業でなら、いろいろ分析できることも広がるのではないかと思ったのです。

私の学生時代での研究テーマは、顕微鏡で細胞の動きを撮影して、その動画を解析すること。この分析過程に興味を持つようになり、分析を仕事にする職業に就きたいと考えました。
いろいろ業界研究してみたら、先進的にデータ分析を組織立って行っているのはウェブサービス業界であることを知りました。とりわけヤフーには、データ分析のための専門的な部署がある。きっと分析基盤が整っているだろうし、相当な知見も溜まっているだろうと想像しました。
例えば、さまざまなサービスのユーザーデータが一つのデータベースに集約されていて、必要なときに欲しいデータが得られるイメージです。実際に入社してみると、ヤフーのデータベースはかなりフォーマット化されており、多様なサービスをシームレスに分析することができる。思った通りの環境でした。

大学院では機械学習をテーマにしている研究室に在籍していました。機械学習を使った顔認証技術の高度化が私のテーマ。修論では自分で収集した20名分ぐらいの動画データしか扱えなかったのですが、機械学習の精度を上げるためには、データがたくさんあった方が絶対に有利です。 就職してからも機械学習に携わりたいと考えていたので、そのなかで真っ先に浮上した候補がヤフーでした。

学生のときに旅行アルバムを対象にした人物クラスタリングとか、調理映像を画像処理する研究をしていました。研究室の先輩はほとんどが大手メーカーに就職するのですが、OB訪問でヤフーに勤めている先輩から話を聞け、インターネット企業に関心を持つようになりました。 ヤフーでは20代からバリバリと活躍できる環境だということを聞いて、魅力を感じました。

皆さんはそれぞれの思いを持ってヤフーに入社したわけですが、入社前後で会社や業務についてイメージのギャップはありませんでしたか。

OBから話を聞いていたので、それほどのギャップは感じませんでしたね。

エンジニアリングの経験が浅かったので不安もありましたが、新卒者向けの研修やサポートが充実していたので、なんとかついていくことができました。

私はとにかくたくさんのデータを触りたくて入社したのですが、専門のエンジニアがすでに良い環境を作りあげていたため、それが叶って非常に満足しています。ですからギャップのようなものは特にありません。 データ分析では、ビッグデータの格納と処理を可能にするHadoopのような基盤技術が重要ですが、ヤフーではそれらを構築するプラットフォームエンジニアが別に存在します。 彼らが作るHadoopクラスタはおそらく日本最大級。とてもありがたいことですね。

私は入社してから「あれ?」と思うことがありました。研究室のときはデータを使って、機械学習のモデルを作っていたので、企業でもそうだと思っていたのですが、実際にはモデルを作るだけではサービスには適用できない。 実務では、モデルをどうやったらサービスに導入できるかを考えて開発していく。それがここまで大変だとは思っていなかったです(笑)。

▲テクノロジーグループサイエンス統括本部 高坂 和樹

データサイエンス部における業務フローとは

データサイエンス部における業務フローや、業務上の連携などはどのように行われているのですか。

Yahoo!ショッピングを例に挙げると、担当部署では常に、どうしたら売り上げを向上できるかを考えています。その相談が分析チームにも舞い込みます。Yahoo!ショッピングの各データから、どこかに改善の余地はないか、何かネックになっていることはないかを分析してほしいという依頼ですね。
Yahoo!ショッピングを訪れたユーザーが商品の検索をする場合、「何をお探しですか?」とメッセージが書かれた検索窓に自分が欲しいものを入力します。もし商品名を知らない場合は、カテゴリから自分で探すことになるでしょう。 いずれの方法でも、自分が思ったとおりの欲しい商品がきちんと出てくれば購入意欲が高まりますが、逆にイメージと全然違う商品ばかりが出てきてしまうと「もういいや」となってしまう。
例えばユーザーがメロンソーダを買いたいと思ったとき、それが「炭酸飲料」のカテゴリに分類されるのは、人間には理解できます。しかし、コンピューターにもそれをきちんと学習させておかないと、めちゃくちゃな検索結果が出てしまう可能性もあります。このようなガッカリ体験をしてしまうリスクをできる限り減らすことで、売り上げが向上する可能性があるのです。

▲テクノロジーグループサイエンス統括本部 関口 優希

そうした自然言語処理技術の基盤を作っているのが、伊奈さんの要素技術チームです。そこで、このあたりの改善余地はどれぐらいあるのかを確認し、その回答をもとに私が「この改善をこれだけ行うと、1カ月で売り上げはこれぐらい伸びますよ」と、サービス側にフィードバックする。
その改善策で進めることになったら、要素技術チームには自然言語処理の改善を頑張っていただきつつ、今関さんのKPI改善チームには、機械学習のモデルを開発して、それを検索処理に取り込むようにお願いをします。新しい機械学習モデルのアイデアを出してもらい、それをテストして改善が見込めそうであれば、実装しようということになる。そこで登場するのが高坂さんのアプライチームです。
アプライチームはいくつかのチームが開発した機能を、実サービスに導入する業務を担当しています。ただし、改善された機械学習モデルの実装といっても、ただ導入すればいいというわけではありません。それを導入することでレイテンシ(通信の遅延時間)が発生したりレスポンスが落ちたりしては意味がないですからね。テストを重ねて、機能追加とサービス改善が同時に達成できることがわかって、初めて本番実装ということになります。
このように各チームが連携しながら、こうしたサイクルを何回も繰り返し、日々のサービスが改善されていくわけです。

実際に、業務のなかで最も頻繁に会話を交わすことが多いのは、どのチームとどのチームですか。

KPI改善と要素技術のチームが、一番関係性が強いと思います。要素技術チームが改善に使えそうなシステムやツールを開発すると、まずはKPI改善チームに相談が持ち込まれるので。

各チームのリーダーたちは毎日のようにミーティングしていますね。

私はそれらのシステムやツールを実サービスに導入するアプライチームなので、サービス事業部の人たちと直接話すことが多いですね。直接改善のリクエストがくることもあります。

「メディア to コマース」戦略を実現するために

分析領域の業務をこなしながら、同時にチームリーダーも務める関口さんは、どんなミッションと役割を果たされていますか。

分析チームは開発と違って、スケジュールが立てにくい面があります。開発では段取りやスケジュールが重要ですが、分析案件はビジネス事情に左右されることがあるからです。 なかには難易度が高い案件もありますが、それをなんとか調整して、メンバーの負荷が偏らないようにする。それもリーダーとしての役割ですね。
ただ、人が増えれば負荷が改善されるかというと、必ずしもそうではない。データサイエンティストには個々のセンスが求められます。人が増えるだけでなく、得意分野の異なる人が集まるということが重要だと思います。

今回は、eコマース領域に関わるデータサイエンティストの4名にお話を伺っていますが、皆さんは、「メディア to コマース」という企業戦略も意識しているのでしょうか。

これまでヤフーはどちらかといえば、広告をコアとするメディア事業を中心に推進してきました。しかし、Yahoo!ショッピングなどのeコマース事業を強化しようという動きがこの数年強まっています。 ZOZOの買収やPayPayモールを開始した頃からその流れが顕著になってきました。
昨年来の新型コロナによる巣ごもり需要により、eコマース自体の取扱高も伸びています。そこで、メディアサービスを利用するユーザーに、ヤフーのeコマースをもっと体験してもらうための取り組みが進んでいます。
例えば、Yahoo!ニュースに、そのユーザーに特化した商品レコメンドを展開し、Yahoo!ショッピングに来ていただく。この「メディア to コマース」という戦略がスムーズに行えるように、AIを使ってデータを分析することも私たちのミッションの一つです。

特徴量を掴んでモデルに反映させ、仮説・検証を繰り返す

ここからは、それぞれの専門領域に関する技術的な話を伺います。今関さんは、検索に関する機械学習モデルを改善することが日々のテーマですが、改善のためのポイントはどこにありますか。

まず、モデルに使える特徴量を掴むことが重要です。データのなかに見られる特徴量を発見し、「これを活用するとこういう効果があるのではないか」と仮説を立てます。それをモデルに使って精度が上がることを確認したら、実際のシステムで使えるように開発を始めます。
特徴量の検証には実システムで実装可能かという観点も重要になります。開発はKPI改善チームだけで完結するものもあれば、システム担当と協力して実装するものもあります。実装できたらテストを行って、どれだけ売り上げが上がるかなどを確かめられたら実サービスに導入する、というのが一連の流れです。 テスト結果が予想に反した場合、きちんと分析して次の改善につなげるのも重要なポイントです。
私たちはさまざまなサービスのデータを扱っているので、「このサービスではこうした特徴量が効いた」というモデル改善の情報や事例がチーム内で共有されます。この仮説・検証には通常1〜2週間はかかります。実際にサービスに適用したテストも1カ月で終われば早い方ですね。

▲テクノロジーグループサイエンス統括本部 今関 眞倫

高坂さんは、ユーザーが求める商品を的確に提案するレコメンド基盤チームにも属されています。そこでは社内の汎用レコメンドエンジンが使われているそうですが、これは具体的にどのようなものですか。

各サービスに特化したレコメンドエンジンを使っている部門もあるのですが、すべてがそうなってはいない状況です。そこで、レコメンドを使ってみたいという部署に対して汎用レコメンドエンジンを提供しているのです。
その開発にあたっては、どんなサービスにも使えそうな特徴量を見つけたり、どんな機械学習モデルにも対応できるシステム設計をしたりなど、いわば技術の抽象化が必要になります。エンジニアとしては別の頭を使わなくてはいけないのですが、そこが面白いところだと思っています。

検索機能にニューラルネットワークの知見を生かす

伊奈さんは自然言語処理(NLP)技術を専門にされています。ヤフーにおける自然言語処理技術で使われる最近のトレンドはどのようなものなのでしょうか。

自然言語処理の技術トレンドでは、Googleの「BERT」が話題ですが、これはその技術に長けた専門家がいないと使いこなせない技術。むしろヤフーでは、誰もが自然言語処理を扱える方向での研究開発が進んでいます。
社内ではライブラリやWeb APIなど、さまざまな言語処理機能が提供されていますが、エンジニアではないメンバーにとっては複雑で使いにくい。そこで、言語処理のインターフェースの共通化を推進するプロジェクトが始まりました。共通化が進めば、新規に開発された機能を利用する場合も覚えることが減り、学習コストを削減できます。
その一方で、ヤフーの各サービスにおける検索モデリングでもニューラルネットワーク、いわゆるディープラーニングを活用していこうという流れがあります。検索のアプリケーション側におけるニューラルネットワークの活用は業界的にもまだまだこれからですが、どういったサービスに適用すると展開効果があるのかを考えながら進めていくのは、非常に面白い仕事だと思っています。

▲テクノロジーグループサイエンス統括本部 伊奈 拓郎

例えば、Yahoo!ショッピングの商品カテゴリって、1万以上あるんですよね。そのなかからどれがクエリとマッチするかを決めなければならない。そこに定番的な技術が確立されているわけではないんです。eコマース領域の技術は日々進化していて、国際的に論文もたくさん発表されていますが、それらを読んで何が自分たちのサービスに使えるかを試していくことも、データサイエンティストとしての醍醐味の一つだと考えています。
私個人としては、やはり国際的な自然言語処理学会であるACL(Association for Computational Linguistics)や、機械学習分野の国際会議では世界最高峰といわれる、NeurIPS(Neural Information Processing Systems)の論文発表は目が離せないですね。

データ分析の結果をサービス改善につなぎ、ユーザーの行動を変える

サービス側からのリクエストに対応すると同時に、アカデミックな関心も持ち続けることが必要なのですね。皆さんは仕事の醍醐味をどこに感じていますか。

経営トップから直接リクエストを受けることもあるので、まさに会社の経営に直結するという意味で責任は重大。さらに、自分たちの技術によるサービス改善が与える影響範囲も広いですね。分析の方向を一つ間違えば、事業機会の大きな損失につながることもあります。プレッシャーはありますが、それだけ重要な仕事であると思っています。

データサイエンティストの醍醐味を一番感じるのは、やはり私たちの技術がユーザー一人ひとりにまで届いたときですね。以前、社内で使われているオープンソースの検索エンジンに、今関さんが作ってくれた新しいモデルを私が搭載して活用するというプロジェクトがありました。
ユーザーの特性を個々に把握して、適切なレコメンドを返す必要があるのですが、この実装が大変難しかった。それでもなんとか実装したところ、確実にユーザーの行動が変わっていることがデータからわかりました。これぞデータサイエンティスト冥利に尽きると思いましたね。

私は要素技術の提供が基本業務ですが、それを使って分析した結果や、そのデータを踏まえてYahoo!ショッピングの画面構成が変わっているのを目の当たりにすると、自分の技術が生かされた実感がありますね。検索画面が「きれいになったな」と思う瞬間がエンジニアにはあるんです。

私も担当したシステムがサービスに実装された連絡を受けると、すぐにスマホを開いて確認する習慣がついています。

私はKPI改善という領域にいるので、常に数字にはこだわりたいですね。私たちがモデルを改善することで、ひと月の取扱高が数億円規模で変わることが実際にあります。これは結果的に、より使いやすいeコマースサービスを世の中に提供できたという証しなので、そこに大きなやりがいを感じます。
もちろん、「超PayPay祭」のような大規模キャンペーンの売上高に比べれば微々たるもの。それでも、私たちのコツコツと地道な作業が会社を支えているという自負はあります。そこは、今後社内でもっとアピールしていきたいところですね。

売り上げに直接ヒットする技術改善を行った際は、企画の方から「サイエンティストさまさま」なんて持ち上げられることもありますね(笑)。

データを分析していると、性別や年齢で行動に明らかな異なる特徴が見えてくることがあります。例えばキャンペーンにおけるレコメンドでも、男性には具体的な商品を掲示するとクリックされやすい傾向があるのですが、女性はキャンペーンなどのお得感を強調した方がクリック率は高くなる。
世の中の消費行動すべてに当てはまるかどうかはわかりませんが、少なくともヤフーのeコマースではそういうファクトがある。「それを知っているのは僕だけだな(笑)」みたいな、密やかな楽しみはデータサイエンティストならではのものですね。

データサイエンティストの成長意欲に応えるヤフーの環境

まさに、これまで思い込んでいたことをデータが覆す「ファクトフルネス」の世界ですね。最後に皆さんの今後のキャリアプランを聞かせてください。

私は、この2〜3年内に絶対やりたいことがあります。社内には「分析」と名のつく部署がたくさんあるのですが、その技術レベルはまちまち。私たちデータサイエンティストがリーダーシップを発揮し、全社の分析クオリティを底上げする活動を始めたい。 「データの民主化」をより高度化する取り組みをしたいですね。

今後も検索改善という領域で、より大きなプロジェクトに関わっていきたい。そのためには機械学習のモデリングだけではなく、アプリケーションやエンジンとデータを連携するバックグラウンドの知識も必要になります。さらにプロジェクトマネジメントの経験を積み上げていく必要もあると考えています。

私は入社以来、一貫して運用や開発といったシステム寄りの技術に関わってきたので、今後は機械学習のモデルを作る開発をやりたいですね。レコメンドシステムを支える技術はひととおりわかるようになりたいです。

自然言語処理以外の技術やチームマネジメントに関心があります。今後のプロジェクトでプロジェクトマネージャーを務めたり、スペシャリストとしても活躍したりもしたい。どちらもできる人財になれるよう成長したいと考えています。

皆さん、成長意欲が旺盛ですね! ヤフーは、そうした成長意欲を実現できる環境だと思いますか。

私は、入社したときはアプリケーション一つ作れなかったんです。それが2年後にはスラスラとできるようになった。常に上長と1on1で相談できるし、技術者同士で忌憚なく意見を言い合える環境があって、その切磋琢磨があったからこそ、成長できたのだと思います。

膨大なデータを持つヤフーは、私たちデータサイエンティストには最高の環境ですね。 eコマースだけでなく、Yahoo!ニュースやYahoo!広告のデータもある。事業領域が広いから、まさにマルチビッグデータ。これはヤフーでないとなかなか触れられないものです。 データで売り上げが上がるという実感が得られることも、大きなポイント。事業規模が大きいから、わずか1%の改善も巨額の数字になって跳ね返ってきます。これが、エンジニアの成長意欲を刺激しますね。

新入社員でも新卒研修終了直後に重要なタスクを任せられることもある。ヤフーは若手が実力をすぐに発揮できる環境があるし、ベンチャーみたいな雰囲気もありますね。

働き方改革でも先進的な取り組みしていますからね。環境変化に対応し、持続的な成長を続けようという意欲が会社自体にあります。それが働いていて楽しいという実感につながっているのだと思います。

ヤフーのeコマース事業が、データサイエンティストの皆さんに支えられていることがよくわかりました! 本日は貴重なお話をありがとうございました!



この記事を読んでヤフーのデータサイエンティストに興味を持っていただいた方は、ぜひ下記より本職種の詳細をご確認ください。


採用情報 公式SNSアカウント

このページの先頭へ