DataEngConf NYC '18 に参加してきました

開発本部 データエンジニアリンググループの鈴木、松岡です。

データエンジニアリンググループは、データ分析基盤を構築・運用したり、機械学習等を駆使して自動化の仕組みを導入したりすることで、社内の色々な事業を横断的に支えることを目的としたチームです。

今回、私達はニューヨークで2018年11月8日〜9日に行われたDataEngConfというデータ系のカンファレンスに参加してきたので、その内容について簡単に報告します。

カンファレンス紹介

DataEngConfは、様々な企業のデータエンジニアやデータサイエンティストが業務に関するツールやノウハウを共有するコミュニティイベントで、Hakka Labsという団体が主催しています。

現在は年に3回、サンフランシスコ、ニューヨーク、バルセロナでイベントが行われており、私達が参加したニューヨークでのイベントは、コロンビア大学を会場として、およそ400人近くの人が参加しました。

メイン会場の後方には歓談のためのスペースがあり、セッションを聴きながら参加者同士で交流することが出来ます。

ケータリングはお昼とおやつ時の2回提供され、量は十分にあったものの、ほとんどがパンだったので味付けをうまくしないと飽きるかもしれません(参加者の中には外にバーガーを買いに行っている人達もいました。)

イベントでは、データエンジニアリング、データサイエンスやAIなどのカテゴリに分類されたトークセッションが二日間に渡って展開されました。この記事では、数多くのセッションの中で、特に気になったセッションをいくつか紹介します。

セッションの紹介

Extract - Tiered Transform - Load (ETTL): A pipeline for a modular, scalable, and observable Internal Analytics platform

本セッションは、DataDogの内部データ基盤のETLプロセスでの課題とその解決への取り組みについてのお話です。これまでの一般的なETLプロセスは、システムやデータの肥大化によって、データソースへの対応やタスクの依存性などの多くの問題が起こりえます。そこで、データの変換の階層化や、スクリプト型のワークフローなどの事例紹介がありました。

データ変換の階層化について各層の役割やメリットの詳しい説明があり、自社でDWHを構築している身分としては特に参考になる内容でした。これから、サービスによって複数のクラウドやデータソースを利用する場面が必然的に増えてくるため、一元的なDWHやBIツール開発において重要な考え方だと感じました。

ワークフローに関しては、宣言型とスクリプト型のメリット・デメリットや使い分けを考えるいい機会にもなりました。

Hindsight Bias: How to Deal with Label Leakage at Scale

本セッションは、Salesforceの機械学習パイプラインの急増による共通モデル作成と、そのとき発生しやすいデータリークの問題点とリークを抑える方法についての内容でした。予測時に知りえない情報を学習に利用してしまうとデータリークが発生し、モデル精度が悪化してしまいます。

セッションでは、タイタニックやコンバージョンデータなどの例も出しながら、データリークカラム削除の基準が分かりやすく説明がされていました。1つのモデルに対しての最適化は決して難しい問題にはならないこともあると思いますが、企業データなどの複雑なデータセットを共通モデルとして利用すると、こういったデータリークのカラム除去の選択が悩ましい問題になるのだと感じました。

Building a Modern Machine Learning Platform on Kubernetes

本セッションは、Lyftが社内に構築している機械学習用のKubernetesクラスタに関するお話です。データサイエンティストは機械学習モデルを開発するために、数多くの周辺タスクをこなす必要があります。Lyftはデータサイエンティストがモデル開発に集中できるように機械学習基盤を社内に構築し、そのベース技術として、機械学習界隈の技術や流行の変化の早さに対応できるようにDocker/Kubernetesを採用しました。

Kubernetesに言及したトークは本セッションの他にもいくつかあり、データや機械学習基盤を支える技術としても様々な企業で既に実績を出していることが改めて認識できる機会でした。Kubernetes周辺のOSS活動も活発な印象で、エコシステム全体としてとても充実してきているなと思いました。

また、スピーカーの方はトーク全体を通して業務における無駄な時間の削減を強調していて、AIスペシャリストの最近の給与相場を考えると非常に切実な問題であり、取り組む価値のある課題なのだと感じました。

Artwork Personalization at Netflix

二日目朝の基調講演として発表された本セッションは、Netflixが行っている機械学習の取り組みの内、アートワーク(ユーザに作品の内容を伝えるための画像)のパーソナライズに焦点を当てたものです。Netflixは、各作品に対してアートワークを複数用意しており、ユーザが最も再生してくれそうなアートワークを自動的に選んでいるらしいです。例えばラブロマンスが好きなユーザには男女が写った画像を、コメディが好きなユーザにはコメディアンが写った画像を、という風にです。

本セッションでは、アートワークのパーソナライズについて、そこに至るまでの背景、手法の選択理由、評価方法やオンラインでの適用方法などが筋道立てて体系的に説明されていました。そのため、トーク内容も興味深かったですが、なにより初学者でも理解がしやすく、発表としても参考になると感じました。参加者らが特に熱心に次々と質問していたことも印象的でした。

このトピックは他のカンファレンスやブログでも既に展開されているので、興味がある方は是非覗いてみてください。

おわりに

全体のセッションを通して、データの多様性や急成長が共通のメッセージとして強調されていました。今後は、データエンジニアとしてデータ基盤を整備をするのも、データサイエンティストとして最適なモデルを設計するのも、より幅広い知識やスピード感が求められると思います。だからこそ、マネージドサービスやOSSなど様々な武器を適切に駆使しながら、各分野のデータの変化に柔軟に対応していくことが、私達の必要性だと改めて感じました。

今回DataEngConfに参加して、様々な企業でデータに携わる優秀なエンジニアやデータサイエンティストが、どんな課題を抱えているか、また、どのような工夫でそれを乗り越えたかを広く知ることができました。トークの内容自体はスライドや動画が後で公開されるのでそちらで代用もできますが、現地でスピーカーや参加者たちの熱量や温度感を身を持って感じることが出来たことは、今後業務を行っていく上で私達の大きな糧になると思います。

データエンジニアリンググループでは、データ分析基盤や機械学習に興味のあるエンジニアを募集しています。

https://hrmos.co/pages/gree/jobs/00030600