Yahoo!検索改善:大規模クロールデータから画像やテキスト情報を抽出
募集は終了しました
プログラム概要
日程
10月3日(月)~12月28日(水)の間
※稼働日は週2日以上
※ただし、実際の稼働日は参加決定後にシフトを調整します
開催場所
ご自宅等からリモートにてご参加いただきます(リモート就業のためのネットワーク環境はご自身でご準備いただきます)。
プログラム内容
【概要】「Yahoo!検索」ではウェブサイトからの情報抽出を行ったり検索エンジンのインデックスとして利用したりするために、ウェブ上のページをクロールして大量のデータを収集しています。
本コースでは、Yahoo!検索で保持する大規模なクロールデータと計算環境に触れながら、実際に検索結果に表示される画像データの収集と精度改善などのタスクに取り組んでいただきます。
【内容(例)】
Apache HBaseに格納された大規模(数十億件単位)なクロールデータに対してApache Sparkで処理を行い、Yahoo!検索の結果を充実させるためのデータ抽出にチャレンジしていただきます。
状況やご志向により、下記のいずれかの取り組みにチャレンジしていただく予定です。
・ヤフー検索に表示される人物やお店などの画像抽出の精度改善タスク
・HTML中からの住所や電話番号、営業時間のような固有表現抽出および店名のマッチングタスク
・HTMLの本文部分の推定
プレエントリー締め切り
2022年6月6日(月)23:59
エントリーシート締め切り
2022年6月8日(水)15:00
必要な経験/スキル
・UNIX系OSの知識、経験
・SQLの基本知識
・Gitの基本知識
・Java、Scala、Pythonのいずれかの利用経験
あると望ましい経験/スキル
・分散並列処理に関する知識(Hadoop、Spark、HBase)
・ウェブに関する知識
・機械学習、画像処理、自然言語処理の知識
報酬等
・給与:時給1,500円
・就業時間:原則10:00~18:00(休憩1時間を含む)
※ただし、実際の就業時間は参加決定後シフトを調整します
・PC貸与(就業開始時に各種設定後発送いたします)
選考
ステップ1
プレエントリー
エントリー期限:
6月6日 23:59
ステップ2
エントリーシート提出
コーディングテスト受験
受験案内:
5月20日~
受験期限:
6月8日 15:00
ステップ3
オンライン面接
(6月末~7月上旬)
ステップ4
選考結果ご連絡
(7月中旬~下旬)
注意事項
・参加コースのご希望はエントリーシートにてご選択ください(複数選択可)。
・第1希望のコースから優先的に選考させていただきますが、応募者多数の場合は第2希望以下のコースにご参加いただく可能性があります。
・インターンシップは就業体験を目的としておりますので、18歳以上30歳以下の現在在学中(高校生を除く)の方以外の方のご応募はご遠慮ください。
・日本国内での就労資格がない方はご参加いただくことができません。