Machine Learning Production Pitch #3 の参加報告
https://machine-learning-pitch.connpass.com/event/137974/
ハッシュタグ #mlpp
募集枠通り、100人弱くらい来ていたと思う
他のまとめ記事
https://www.hirayuki.com/zakki/machine-learning-production-pitch-2
ABEJA PlatformでMLOpsの課題を解決する
話し手はABEJA 取締役の人(営業みたいなことやってる、と自称)。
最初に「ABEJAを知ってる人ー?」と聞いたら、会場の8割ぐらいが手を上げていた。
・顧客には製造・物流・小売が多い
・社員数70人
・エンジニアの採用をすごいプッシュしていた
ABEJA Insight For Retail
・小売り向け。カメラで来店者の分析をするSaaS(属性・リピート・etc)
・カメラの設置から入る。配線など、泥臭いこともやる。
ABEJA Insight For Retailをやっていた時の悩み
・動画データの取得遅延
・動画解析の遅延
・解析結果の真値チェック
・複数モデルの安定稼働
→これを解決するためのプラットフォームを作った
ABEJA Platform
AI開発基盤となるPaaS
Webアノテーションツールも含まれている。
次はアノテーションの自動化を目指している(AIがアノテーションを仮付けして、人間がそれを修正)
富士通研のAI基盤の話
富士通研究所は富士通とは別会社。
研究成果を富士通(通称:本体)に収める。
本体への技術移転が大変。特にAIエンジニアはシステムに明るくないのでツライ。
→AI基盤(個別環境構築なしにAI技術を使える環境)を作ろう
はじめはk8sをそのまま公開する形だった
→k8sの学習コストが高すぎて、AIエンジニアから批難多数
→WebAPIをかませて、使いやすくした
それでもいきなり使うのはつらいので、ジョブのテンプレート的なのを作って、カタログ化している
(**やりたい人は、こんな入力で投げてね、みたいなの)
サーバは3,40台くらい入れてる
知見の蓄積にはnootbookを使っている
情報共有はissue
はやらせるために、社内ハンズオンをやった
10回、70人が参加
→ユーザ数176人になった
さらにハンズオンでAI研究者にDockerを覚えてもらった(すごい)
苦労話
・電源ショートでk8sサーバ全滅
・コンテナ駆逐コンテナ
・GPUを抱えたままにする人がいる
詳細は https://qiita.com/kuromt_/items/8cd8eed8ae99e50e11e6 にて
Rekcurd Update & Demo
LINE時代に使ったソフト。まだ開発に参加している。
https://github.com/rekcurd/rekcurd-python
「Rekcurdは絶対にはやる!」と、途中で終わってしまわないようにコントリビューションを続けているとのこと。
RekcurdはML Opsのデプロイ部分(Serving Model)を担当するOSS。
世の中にServing Modelのツールは大量に出てきているが、ほとんどk8sを事前知識として要求していて、ハードルが高すぎる
→だからAIエンジニアでも使いやすいRekcurdを作った
kubeflow/katib
ML Opsのトレーニング部分を担当するOSS。
Auto-MLフレームワーク。
ハイパーパラメータチューニングを簡単化。
値と結果を一覧化・グラフ化して、どう制度が良くなったのかを可視化できる。
v2を出した。
v1はcloud nativeでない(要素が一つ落ちると復旧がツライ)ので、作り直した。
CDRにデータソースをまとめて、クラッシュに強くしている。
ハイパーパラメータチューニングだとジョブを大量に投げるが、それにk8sのetcdが耐えられるのかは要検証。
Q. KubeFlowは流行るのか?
A. わかりません
競合もたくさん出てきていて、今後どれが流行るかは見通せない
(KAMONOHASHI https://kamonohashi.ai/ の名前も出てきた!)
会について
イベントの共催してくれる人・企業を歓迎しているらしい。
Slackを公開しているので、ぜひ参加を!とのこと。
まずはSlackに入ってみようかな。