概要
技術書を定期的に買いますが、仕事などで使う一部分しかやらなかったり積み技術書になりやすいので
一度全ての章を勉強してみたいと思います。
開発の仕事でいつも使う、データやデータベースについての技術書を選びました。
「改訂新版 前処理大全」本橋智光、橋本秀太郎 技術評論社 2024年
データ
・データ活用の主役はテーブルデータ
・ディープラーニングの発展によって、テキストデータやマルチメディアデータの活用も
データ分析における前処理の役割
前処理とはデータ分析で用いるデータを準備する処理
1.統計的仮説検定
二つの集団には差があるといった仮説が成立するかどうかを集団から得られたデータをもとに統計的に判断する分析
2.多次元分析
データをさまざまな切り口から、かつ階層的に見ていくことでインサイトを得る分析方法
3.時系列分析
時間経過にともなって変化するデータを対象に、トレンドや周期性といった変動要素に基づいて分解したり、他のデータとの関係を抽出しながら変動の構造を明らかにしたりする分析
4.機械学習
データに含まれるパターンを自動的に抽出し、そのパターンを用いて何らかの問題解決を行うアルゴリズムの総称
Aweosomeな前処理
規範とすべき前処理のこと
前処理ではデータ分析に必要なデータを正しく用意する必要がある
前処理の種類
・データの構造を対象とした前処理
・データの内容を対象とした前処理
の二種類がある
この本で使う主な技術
・BigQuery、SQL、Pythonを主に使用している