Machine Learning Production Pitch #3に参加しました

Last updated at 2019-08-12Posted at 2019-08-02

ハッシュタグ #mlpp
募集枠通り、100人弱くらい来ていたと思う

ABEJA PlatformでMLOpsの課題を解決する

話し手はABEJA 取締役の人（営業みたいなことやってる、と自称）。
最初に「ABEJAを知ってる人ー？」と聞いたら、会場の8割ぐらいが手を上げていた。

・顧客には製造・物流・小売が多い
・社員数70人
・エンジニアの採用をすごいプッシュしていた

・小売り向け。カメラで来店者の分析をするSaaS（属性・リピート・etc）
・カメラの設置から入る。配線など、泥臭いこともやる。

ABEJA Insight For Retailをやっていた時の悩み
・動画データの取得遅延
・動画解析の遅延
・解析結果の真値チェック
・複数モデルの安定稼働
→これを解決するためのプラットフォームを作った

AI開発基盤となるPaaS

Webアノテーションツールも含まれている。
次はアノテーションの自動化を目指している（AIがアノテーションを仮付けして、人間がそれを修正）

富士通研究所は富士通とは別会社。
研究成果を富士通（通称：本体）に収める。

本体への技術移転が大変。特にAIエンジニアはシステムに明るくないのでツライ。
→AI基盤（個別環境構築なしにAI技術を使える環境）を作ろう

はじめはk8sをそのまま公開する形だった

→k8sの学習コストが高すぎて、AIエンジニアから批難多数
→WebAPIをかませて、使いやすくした

それでもいきなり使うのはつらいので、ジョブのテンプレート的なのを作って、カタログ化している
（＊＊やりたい人は、こんな入力で投げてね、みたいなの）
サーバは3,40台くらい入れてる
知見の蓄積にはnootbookを使っている
情報共有はissue

はやらせるために、社内ハンズオンをやった
10回、70人が参加
→ユーザ数176人になった
さらにハンズオンでAI研究者にDockerを覚えてもらった（すごい）

・電源ショートでk8sサーバ全滅
・コンテナ駆逐コンテナ
・GPUを抱えたままにする人がいる
詳細は https://qiita.com/kuromt_/items/8cd8eed8ae99e50e11e6 にて

LINE時代に使ったソフト。まだ開発に参加している。
https://github.com/rekcurd/rekcurd-python
「Rekcurdは絶対にはやる！」と、途中で終わってしまわないようにコントリビューションを続けているとのこと。

RekcurdはML Opsのデプロイ部分（Serving Model）を担当するOSS。
世の中にServing Modelのツールは大量に出てきているが、ほとんどk8sを事前知識として要求していて、ハードルが高すぎる
→だからAIエンジニアでも使いやすいRekcurdを作った

ML Opsのトレーニング部分を担当するOSS。
Auto-MLフレームワーク。
ハイパーパラメータチューニングを簡単化。
値と結果を一覧化・グラフ化して、どう制度が良くなったのかを可視化できる。

v2を出した。
v1はcloud nativeでない（要素が一つ落ちると復旧がツライ）ので、作り直した。
CDRにデータソースをまとめて、クラッシュに強くしている。

ハイパーパラメータチューニングだとジョブを大量に投げるが、それにk8sのetcdが耐えられるのかは要検証。

Q. KubeFlowは流行るのか？
A. わかりません
競合もたくさん出てきていて、今後どれが流行るかは見通せない
（KAMONOHASHI https://kamonohashi.ai/ の名前も出てきた！）

イベントの共催してくれる人・企業を歓迎しているらしい。
Slackを公開しているので、ぜひ参加を！とのこと。

まずはSlackに入ってみようかな。