記事の目的
- データサイエンティスト勉強会をするにあたってデータサイエンスとはバズワードじゃなくて何なのかを考えたので共有したい
データサイエンスと信号処理は違うものとして扱うべきなのか
- それはわからないしケースバイケースだと思うが、部署名とか勉強会名であえて画像処理じゃないんだと強調するときにはそうしても良いと思った
- 書籍とかだとデータサイエンスの本に画像処理の事例とかも書いてあったりするが
同じところは何か
- 機械学習や統計解析、パターン認識など使用している技術は同じ
違うところは何か
- いわゆるデータサイエンスで扱うデータは人が作ったデータ、画像処理などの信号処理は物理現象をセンサーで観測したデータを主に扱う
- じゃあCGは?とかデータの一つに画像がある場合はとか境界は曖昧だが
- このことに付随していろいろ必要なテクニック、テクノロジーに差が出てくる
① フォーマットの理解
画像や音声、その他時系列データは同じ物理現象を扱っているため、概ねフォーマットが統一されていて、その分野の技術者ならある程度すぐに中身の議論に入れる。一方、アプリのログや社員の勤怠のデータ、POSデータなどはそんなに統一されておらず、それの理解から始まる。
②データの理解
同じPOSデータを同じフォーマットで出したCSVであっても服屋とラーメン屋では使っているフラグや使い方に違いが生じたりする。塩ラーメンと味噌ラーメンをランチ時間に同じ品目でつけてたりするかもしれないし、ヒアリングしてみるまでデータの意味はわからない。画像や音声は見たり聞いたりしてみればある程度共通の理解がえられる。
③実現可能性
画像から人を探す、音声から日本語を認識するといったタスクは実現可能かと言われれば可能である。なぜなら人ができるからである。今の技術では無理でもその内できるかもしれない。しかし、明日売れるのは何の商品かを予測するというような問題は原理的にできるかどうか未知数であり、今あるデータでできるか何かデータを足せばできるのかという範囲も簡単には分からない。
④教師(正解)データ作成
機械学習する際に重要となる教師データだが、画像から人を抽出するというような場合はある程度誰でも人がいるのはどの部分かわかり正解をつけられる。一方POSデータからロイヤルカスタマーを探したいと言うような場合は、ロイヤルカスタマーとはどのような顧客かを定義して依頼者と共通認識をもつ必要があり、定義が定まったとしても誰でも正解ラベルを付けられるわけではない。
⑤データの変化への対応
データサイエンスで扱うデータは基本的には人の意志で変えられる。なので、来週からぜんぜん違うデータになったとか、塩ラーメン売るのやめたから販売個数が0になったとかそういうことがある。良い点もあって、こういうデータを取ってくださいという交渉もできる。どういうデータを得るかというところから試合が始まっている。画像・音声処理などは最初にカメラやマイクの性能が決まっていることが多い。
⑥応用範囲
データサイエンスはあくまでもこのラーメン屋の今のPOSデータに対して店主が定義したロイヤルカスタマーの定義に沿って判別することができるアルゴリズムを作るだけであって、それ自体は他に応用することがすごく難しい。もちろん考え方は使えるが、服屋に使おうと思ったらフォーマットの理解からやり直しとなる。
⑦説明力
データサイエンスで扱うデータは人が動いた結果生成されたものであるため、その解析結果も人を動かすものになることが多い。ラーメン屋のロイヤルカスタマーを判別できたらその人に広告を出すとかおまけするとかしたい。そうすると店主はなぜこの人がロイヤルカスタマーと推定されたかを知りたくなる。画像や音声の認識はあんまり説明力はいらない事が多い。人はだれが見ても人だし、間違っても、ああ、まあこれはしょうがないかみたいになることも多い。
ではどんなテクニックが必要になるか
- コミュ力(ヒアリングしたり、データをより多くもらったり、納得感のある正解の定義を作ったり)する力
- 社会人力(業務を理解して提案したり、常識でデータを補完したり)
- 全体的な構成力(データを解析して、その結果業務が良くなって、もっとデータがえられてと言うような好循環を持った構成を作れる力)
- 説明力が高いモデルを構築する技術
データサイエンスはサイエンスか
- 画像や音声のような再現性がない
- 論文を読んでも応用できるかはよくわからない
- なので共有するメリットもそんなになく、学会も日本ではあまり盛り上がっていない感じ
- 個人的には経営システム工学のような工学に近いように思う