pythonでデータ分析を初めたばかりの人へのリンク集です。
(*研究室後輩のために書いているので研究ってキーワードがちょくちょく出て来ます。)
- 対象:python使ってデータ分析始めたばかりの人
- 目的:この分野は全くの初学者にはハードルが高い(環境の設定がめんどくさい、調べることが多すぎて何から始めていいかわからなくなる、など)ため、調べるヒントとなるキーワードを与えることが目的。
はじめに
データ分析で使うスキルは3つに分かれるとか言われています。(データサイエンティスト協会プレスリリースより)
ここではとりあえずこの3つに基づき、研究ではサポート的な意味合いの強い「データエンジニアリング」と「ビジネス」の参考になりそうな記事やキーワードをうすーくさらいます。(もちろんこれができないとそもそも研究できないので超大事!)スタートダッシュのために参考になれば◎!
リンクリスト
「データエンジニアリング」に関するリンク集
- macOS用パッケージ管理
- 共同開発関連
- git
- github
- 解説サイト:「サルでもわかるGit入門」
- qiita記事:「開発フロー研修 @ Wantedly」など
- python関連
- バージョン管理&仮想環境構築
- pyenv
- pyenv-virtualenv
- (for Windows) anaconda
- パッケージ管理
- プログラミング環境
- インタラクティブな環境 jupyter notebook
- IDE (pycharmとか)
- 有名ライブラリ
- numpy, scipy, sklearn, pandas, matplotlib, 深層学習系のライブラリ(tensorflowとかtheanoとか)、など
- web app
- スライドシェア:「Pythonで始めるweb application開発」
- django、など
- バージョン管理&仮想環境構築
- データベース関連
- RDB (mysqlとか)
- pythonから使うためのMySQLドライバ(mysql-connector-pythonなど)
- ちょっと上級者向けORM(SQLALCHEMY)
- スライドシェア:「ビッグデータ処理データベースの全体像と使い分け」など
- 言語処理
- 日本語の形態素解析:MeCabとmecab-python、とか
- 優秀な辞書:mecab-ipadic-NEologd
- 英語の自然言語処理 NLTK、など
- 日本語の形態素解析:MeCabとmecab-python、とか
*ググればどれもたくさん記事が出て来ます!必要であれば調べてみてください!
「ビジネス(≒研究)」に関するリンク集
- マインドセット
- スライドシェア:「研究法」
- 人に伝える
- ロジック
- スライド
- ウェブ記事:「コンサル・シンクタンクの調査資料30選」
- ウェブ記事:「これが即戦力スライド!ネット界隈の有名企業のリアルプレゼン資料15選」
- 企画
- スライドシェア:「TIS Internship2016資料」
- 論文を書く・調べる
- ブログ:「論文の書き方とかサーベイの仕方のリンク集をめざして」
- tex関連
- ブログ:「“データ分析の主要な国際会議の日程”と“論文投稿のデットライン”が分かるカレンダーをシェア」
- ブログ:「機械学習界隈の情報収集方法」
以上です。こんな役立ちリンクあるなど書き込んでいただければ幸いです。