Help us understand the problem. What is going on with this article?

データサイエンティストがAutoMLと共存するための心得

概要

Qiita夏祭り」、「DataRobotのAuto MLを使って、簡単にデータxAI活用!」の記事です。

本記事では「データサイエンティストがAutoMLと共存するための心得」として、データサイエンティストだけができる、注力して磨くべき仕事について考えました。以下が挙げられます。

  • 課題設定
  • データ収集・整形
  • ドメイン知識に基づく前処理
  • プレゼンテーション

はじめに

先日、PyCaretによるローコードの機械学習とDataRobotによるAutoMLを体験しました。

👇コチラ

これらを体験してみた感想として、AIの民主化が進むにつれて、「AutoMLは将来のデータサイエンティストの仕事を変える」と思いました。「データサイエンティストの仕事は奪われる」というネガティブな考えが生まれることもわかりますが、裏を返すと「データサイエンティストだけができる仕事に注力できる」というポジティブな考えもできます。つまりは、データサイエンティストとAutoMLが共存することによって、さまざまな業界におけるAI活用は進化すると考えられます。

本記事では、「データサイエンティストがAutoMLと共存するための心得」として、データサイエンティストが注力して磨くべき仕事、つまりAutoMLに対する、データサイエンティストだけができる仕事をポエムとして紹介します。これは主観的なものなので、積極的に議論したいと思います。 どんどん磨いていこうと思います。(ガンガン、コメントください✊)

👇これは、「かわいいフリー素材集 いらすとや」で見つけた「AIと仲良くなる人間のイラスト」です。この記事のテーマに合った良い絵ですね。

データサイエンティストだけができる仕事

課題設定

ビジネスでは、目標・KPI(重要業績判断指標)の設定が必要です。そして、これらを達成させるため課題に落とし込み、これらに取り組みます。ここではじめて、AutoMLをどのように活用できるのかを議論できます。AutoMLはあくまで課題解決のための“手段”です。この時、たとえば以下のように「実現可能性」や「コスト」といった観点が重要になるであろうと考えています。

実際、作成されたモデルが実現可能か否かを判断することも必要となります。たとえば、医療において、重大な疾患を検知する場面があったとします。このとき、適合率が低くても、再現率の高いモデルが必要とされます。また、この再現率をどれだけ高くあるべきなのかという基準も必要となります。どれだけの誤検知が許容されるのかも判断しないといけません。これらモデルを実際の作業に使用できるかどうかを判断するために、適合率と再現率のトレードオフについての議論も必要となります。

他にも、スマートハウスなど、センサネットワークにおいて特定の事象を推定する場面があったとします。簡単に言えば、センサが多いほど高い精度が見込まれますが、コストもかかります。この時、これら精度とコストのトレードオフについて議論する必要があります。とくに他の手法や仕組みによって多少の誤差を補うことができる場合もあるため、それも含めて判断する必要があります。

この観点から、課題設定が必要となります。

データ収集・整形

AutoMLを利用するさい、CSV形式のデータを入力する必要がありました。実際、そのような整形されたデータが最初から入手できることはほとんどありません。それゆえ、データ収集と整形が必要となります。収集に関しては、必要なデータとその収集方法について考える必要があります。形式に関して、収集したデータをAutoMLが解釈できる形式に整形する必要があります。IoTに関するデータ収集の場合、センサに関する知識が必要です。ログからデータを収集・整形するための知識も必要です。それに伴い、データベース技術の知識も非常に重要です。

この観点から、データ収集・整形が必要となります。

ドメイン知識に基づく前処理

AutoMLは機械学習の汎用的なプロセスを自動化します。しかし、AutoMLによるデータの解釈には限界があります。それに対して、データサイエンティストはドメイン知識を使用できます。場合によっては、少しのドメイン知識と活用のアイデアにより、大幅な精度向上、コスト削減を期待できます。それゆえ、各業界におけるドメイン知識、機械学習に役立つドメイン知識のあたりを付ける能力が重要となります。

この観点から、ドメイン知識に基づく前処理が必要となります。

プレゼンテーション

AutoMLでモデルを作成し、デプロイできる状態になったところで、ビジネスの場で利用するにあたり、それらを報告・提案する必要があります。このとき、課題として設定していた目的が何であるか、データで何がわかるか、どのようなアクションをとるべきか、そしてそれらの関係を相手に伝える必要があります。それゆえ、相手が理解しやすく、結果を伝えるためのスキルとして、プレゼンテーション能力が必要となります。とくに、相手に自分の考えを納得してもらうために、図やグラフなど可視化についての能力も重要です。

この観点から、プレゼンテーションが必要となります。

おわりに

本記事では、「データサイエンティストがAutoMLと共存するための心得」として、データサイエンティストが注力して磨くべき仕事、つまりAutoMLに対する、データサイエンティストだけができる仕事をポエムとして紹介しました。少しでも多くの方のお役に立てていれば幸いです。

daikikatsuragawa
見習い。基本、自分のための備忘録を書きます。コードの指摘に喜びます。
https://qiita.com/daikikatsuragawa
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away