More than 3 years have passed since last update.

データサイエンス業務の全体像を知る

Cloud

Last updated at 2021-08-05Posted at 2021-08-05

業務未経験ながらデータサイエンス業務について色々調べてみたのでまとめます。
全体像と使用されるツールについてです。

全体像を分かりやすく図で表すとざっとこんな感じ

左から順に説明していきます。

多様なデータ

いろんなデータがごっちゃになった状態のことを指しています。
センサーから持ってきたログファイルであったり、テキストデータの可能性もあるかもしれません。
この多様なデータを保存する場所として使われるのがデータレイクで、生データを取り扱います。

ETL

多様なデータをDWHへ格納する際に必要な作業です。
世の中にはETLツールというものがあり、データサイエンティストの工程の8割といわれる部分を軽減してくれるそうです。
どうやらコーディングが必要な箇所なようで、SQLやPython、他にもなんか使われているみたいです。

データウェアハウス

整理されたデータが格納されている場所です。
こっから直接BIツールで可視化することもできたり。
予測モデルの構築のためのデータ抽出もここから行います。

BIツール

PowerBIやTableauなどがよく聞くソフトウェア。
他、クラウドにもあり、データウェアハウスから直接持ってくることもできるようです。
例.GCP：Bigquery（DWH）とデータポータル（BI）が結びついている

予測モデルの構築

画像・言語・音声などの全てのデータから色々なことを予測します。
AutoMLもクラウド内のサービスとしてあり、それぞれの処理に特化したAutoMLがちゃんとある。
例.AutoML Translation（GCP）グーグル翻訳を組み込むことができる。

提案書

BIツールや予測結果を提案書を作成し、データを元に経営レベルまで話を進めると予想。
コンサルに近く、ビジネスよりのデータサイエンティストのアウトプットはこっち？

機器やアプリへの組み込みなど

よくAIによってなんちゃら～って聞くのはここの話ですね。

次に、企業でよく使用されているツールについて説明します。

どのツールも大体上の図のどこかのプロセスで使われるものとなっています。

データレイク関連

Hadoop

オープンソースのミドルウェアで、データレイクとして使われている。
分散サーバーから成り、あらゆる種類の大量のデータを保管・処理でき、有名です。
（Sparkについて）
Hadoopと互換性があり、並行利用されているとのこと。
Hadoopは大量のデータを処理可能で遅い、Sparkは容量は少ないが速い（イメージ）

クラウドのデータレイク

クラウドにもデータレイクがちゃんと用意されているようです。
AWS：たぶんあるけど名前不明
Azure：たぶんあるけど名前不明
GCP：Cloud Stroage、その他

ETL関連

trocco

データの転送・統合・ETLが行えるサービスで、クラウドのDWHにも対応しているらしい。
（データレイクからデータウェアハウスに移すための処理）

TalendのETLツール

オープンソースのツールで、無償版からアップグレードして機能を追加できる。
多くのETLツールを提供しており、各クラウドのDWHにも対応

クラウドのETL

AWS：AWS Glue
Azure：Ａzure ＤataFactory
GCP：見つかりませんでした。
あんまり良いこと書いてないけど詳しく知りたい人はどうぞ
https://it-trend.jp/etl/article/252-0005

データウェアハウス関連

クラウドのデータウェアハウス

AWS：Amazon Redshift
Azure：Azure Synapse Analytics
GCP：Bigquery
より詳しい説明はこちら
https://qeee.jp/magazine/articles/2870

BIツール

Tableau

有名な奴。多くの企業で使用されているBIツール

クラウドのBIツール

AWS：Amazon QuickSight
Azure：PowerBI
GCP：データポータル（旧データスタジオ）、Looker

予測モデルの構築に使われるやつら

SAS

ホームページによると高度なアナリティクスソフトウェアらしい。
統計解析・データマイニング、時系列予測、テキスト分析とホームページに書かれています。

AutoML

たぶんいっぱいありすぎるので割愛。
各クラウドにもそれぞれAutoMLが用意されているようです。

その他、データサイエンス系で聞いたツール

Splunk

ログ解析ツール。サーバー、ネットワーク、システムなどさまざまなマシンからログデータを収集し、リアルタイムな検知・分析が可能
実用例：セキュリティインシデントの検出
他にもあり次第追記します。

まとめてみた感想

クラウドがサービスが使われる理由がよくわかりました。

もちろんこんな記事1つで説明できるわけはないので、実際にデータサイエンティストとして働き始めた後、色々ツッコミを入れながら自分でも読みたいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up