業務未経験ながらデータサイエンス業務について色々調べてみたのでまとめます。
全体像と使用されるツールについてです。
全体像を分かりやすく図で表すとざっとこんな感じ
左から順に説明していきます。
多様なデータ
いろんなデータがごっちゃになった状態のことを指しています。
センサーから持ってきたログファイルであったり、テキストデータの可能性もあるかもしれません。
この多様なデータを保存する場所として使われるのがデータレイクで、生データを取り扱います。
ETL
多様なデータをDWHへ格納する際に必要な作業です。
世の中にはETLツールというものがあり、データサイエンティストの工程の8割といわれる部分を軽減してくれるそうです。
どうやらコーディングが必要な箇所なようで、SQLやPython、他にもなんか使われているみたいです。
データウェアハウス
整理されたデータが格納されている場所です。
こっから直接BIツールで可視化することもできたり。
予測モデルの構築のためのデータ抽出もここから行います。
BIツール
PowerBIやTableauなどがよく聞くソフトウェア。
他、クラウドにもあり、データウェアハウスから直接持ってくることもできるようです。
例.GCP:Bigquery(DWH)とデータポータル(BI)が結びついている
予測モデルの構築
画像・言語・音声などの全てのデータから色々なことを予測します。
AutoMLもクラウド内のサービスとしてあり、それぞれの処理に特化したAutoMLがちゃんとある。
例.AutoML Translation(GCP)グーグル翻訳を組み込むことができる。
提案書
BIツールや予測結果を提案書を作成し、データを元に経営レベルまで話を進めると予想。
コンサルに近く、ビジネスよりのデータサイエンティストのアウトプットはこっち?
機器やアプリへの組み込みなど
よくAIによってなんちゃら~って聞くのはここの話ですね。
次に、企業でよく使用されているツールについて説明します。
どのツールも大体上の図のどこかのプロセスで使われるものとなっています。
データレイク関連
Hadoop
オープンソースのミドルウェアで、データレイクとして使われている。
分散サーバーから成り、あらゆる種類の大量のデータを保管・処理でき、有名です。
(Sparkについて)
Hadoopと互換性があり、並行利用されているとのこと。
Hadoopは大量のデータを処理可能で遅い、Sparkは容量は少ないが速い(イメージ)
クラウドのデータレイク
クラウドにもデータレイクがちゃんと用意されているようです。
AWS:たぶんあるけど名前不明
Azure:たぶんあるけど名前不明
GCP:Cloud Stroage、その他
ETL関連
trocco
データの転送・統合・ETLが行えるサービスで、クラウドのDWHにも対応しているらしい。
(データレイクからデータウェアハウスに移すための処理)
TalendのETLツール
オープンソースのツールで、無償版からアップグレードして機能を追加できる。
多くのETLツールを提供しており、各クラウドのDWHにも対応
クラウドのETL
AWS:AWS Glue
Azure:Azure DataFactory
GCP:見つかりませんでした。
あんまり良いこと書いてないけど詳しく知りたい人はどうぞ
https://it-trend.jp/etl/article/252-0005
データウェアハウス関連
クラウドのデータウェアハウス
AWS:Amazon Redshift
Azure:Azure Synapse Analytics
GCP:Bigquery
より詳しい説明はこちら
https://qeee.jp/magazine/articles/2870
BIツール
Tableau
有名な奴。多くの企業で使用されているBIツール
####クラウドのBIツール
AWS:Amazon QuickSight
Azure:PowerBI
GCP:データポータル(旧データスタジオ)、Looker
予測モデルの構築に使われるやつら
SAS
ホームページによると高度なアナリティクスソフトウェアらしい。
統計解析・データマイニング、時系列予測、テキスト分析とホームページに書かれています。
AutoML
たぶんいっぱいありすぎるので割愛。
各クラウドにもそれぞれAutoMLが用意されているようです。
その他、データサイエンス系で聞いたツール
Splunk
ログ解析ツール。サーバー、ネットワーク、システムなどさまざまなマシンからログデータを収集し、リアルタイムな検知・分析が可能
実用例:セキュリティインシデントの検出
他にもあり次第追記します。
##まとめてみた感想