【エンジニア/東京】データプラットフォームコース

※募集は終了しました

プログラム概要

日程

2019年8月26日~2019年9月6日(10日間)※土日を除く

開催場所

紀尾井町オフィス(東京都千代田区)

プログラム内容

【概要】


    データの収集から活用までに利用されるプラットフォームにおいて、基盤システムの調査・設計・開発・運用業務を体験いただけます。


        【特徴】

          大規模データプラットフォームに必要な新機能やシステムの検討、調査、開発を通して、データエンジニアリングに必要な業務を体験いただけます。


      【内容】(予定)

        案件①Hadoopエコシステムの新機能検証

        OSSのデータ処理・蓄積ミドルウエアであるApache Hadoopの最新版である3.xの機能/非機能の検証ならびに、
        検証過程で発生した課題の解決に携わっていただきます。
        検証/課題解決のプロセスでは必要に応じてApache Hadoop本体に修正を加えます。
        本件の検証・開発プロセスについて、Apache HadoopプロジェクトのPMC/Commiterがその一部を支援します。

        想定タスク(参加が決まった際に、以下のいずれか一つから希望のタスクを選択いただきます)
        ・async pure c++ HDFS client機能/非機能検証…こちら
        ・DynamometerによるNN性能向上効果の検証…こちら
        ・Hive MR3の検証…こちら


        案件②Apache NiFiエコシステムの新機能検証

        OSSのデータ連携、処理ミドルウエアであるApache NiFiの新機能・エコシステムについて検証を行い、
        結果をレポートしていただきます。

        想定タスク(参加が決まった際に、以下のいずれか一つから希望のタスクを選択いただきます)
        ・Apache NiFiのOSSのチケット対応
        ・Apache NiFiの最新機能についての検証と評価の実施
        ・NiFi周辺のNiFi Registry, MiNiFiなどのエコシステムの検証


        案件③カラムナフォーマットにおける数値型エンコード方式の調査

        ヤフーが開発した Hadoop における OSSのスキーマレスカラムナフォーマットYosegi に使われているエンコード方式(特に数値型)について、
        調査、他のフォーマットとの比較を行い、結果をレポートしていただきます。

        想定タスク
        ・各フォーマットに実装されているエンコードの洗い出しと比較(Yosegi, ORC, Parquet)
        ・(アドバンスドタスク)新しい数値型エンコード方式の提案と機能検証

        【カラムナフォーマット】は下記よりご確認いただけます。
        ORC
        Parquet
        Yosegi


        案件④Apache Kafkaを用いたデータパイプラインの新機能検証

        この案件を扱うチームでは、OSSの分散ストリーム処理基盤であるApache Kafkaを用いたデータパイプラインの開発・運用を行っています。
        本件では、このデータパイプラインにて発生した課題の解決に貢献していただきます。

        想定タスク(参加が決まった際に、以下のいずれか一つから希望のタスクを選択いただきます)
        ・大規模データパイプラインに対するオートヒーリングツールの調査・導入
        ・大規模データパイプラインにおけるクラスタ間データ間転送コンポーネントの新技術調査と導入
        ・大規模データパイプラインにおけるログ欠損検知ツールの開発


        案件⑤データカタログ/メタデータの改善

        Hadoop,Teradata,Oracle/MySQLなど、YJ内の各種データベースから収集したメタデータ(テーブル定義など)を、
        データの横断的な利用にどのように役立てるかの方法を検討し、機能設計・モック開発を実施していただきます。


        案件⑥データウェアハウスのデータ開発

        ETLツール(Talendもしくは他プロダクト)を利用したデータ開発/改善作業を体験いただけます。
        HadoopなどのRAWデータをデータウェアハウス用の整備データとして開発し、標準化や品質管理を検討します。

プレエントリー締め切り

2019年6月17日(月)12:00

エントリーシート締め切り

2019年6月18日(火)12:00

必要な経験/スキル

  • UNIX系シェルの基本的な操作知識
  • プログラミング言語の使用経験

あると望ましい経験/スキル

  • 英文のドキュメントを理解できること
  • バージョン管理システムやユニットテストなどソフトウエア開発に関するスキル、実践的な開発の経験

報酬、交通費

一日あたり8,000円程度の金額をお支払いいたします(交通費は別途支給)。
※金額は一日7時間45分就業した場合の概算です。
※就業時間は10:00〜18:45(休憩1時間含む)です。
※【紀尾井町オフィスのみ】遠方からご参加いただく方には、弊社で交通費・宿泊費を負担いたします(弊社規定)。

選考

プレエントリー(6月17日締切)



エントリーシート・Coding Test(6月18日締切)



面接選考(7月中旬~7月下旬)



選考結果連絡(7月末)

注意事項

コースのご希望は、プレエントリー後に配布するエントリーシートにておうかがいします(第三希望まで)。

エントリーシートご提出後の再応募やコース変更はできませんので、あらかじめご了承ください。