注記
1つの記事にするまでもないことや個人的にメモしたいことを1つの記事にごった煮にする。
随時更新したりする。
論文読み方
研究室に配属された学生が最初に学ぶべき論文の読み方:論文の読み方がまとまっている。
読み方のステップ引用
1.調べる
2.メモする
3.図解する
4.読み方を変化させる
1,2は実践している。3は大学時代にはやっていたが、完全に忘れていたステップ。4の項目ごとに読み方(どこに目を通すかの判断)はなんとなくやっていたけど忘れていたステップ。院生の先輩方は身に着けていたようで、どこどこを読めばいいよとは言うが前節との接続や分野の知識がないとその判断ができないように思う。
1.Abstractで全体像を掴む (分かった気になる)
2.Introductionで背景と目的を整理する
3.Figures(視覚的理解)とResults(テキスト理解)はセットで交互に見つつ、Methods は辞書的に読むことで内容を理解していく
4.Discussionで自分の結果の解釈の答え合わせを行う気持ちで読む
注意:完全にすべてを追おうとしないこと。
経験談:B4の時、手法について調べるためにメインで読んでいた論文の参考文献を漁って、文献輪廻に飲み込まれたことがあった。
↓
main→ref_A→refB→ref_Cといった具合に。そしてref_Aとref_Cの共通で参考に上がっていたref_Dがクリティカルなアイデアだったことが何度かあり、更にそのref_Dがネットで見つからず、図書館深部の書架で見つかるといったことがあった。これで2ヶ月論文付けだった
データ分析
ビジネス活用事例で学ぶデータサイエンス入門 メモ
データ分析 | 意思決定支援 | 自動化・最適化 |
---|---|---|
目的 | 人間の行動決定の支援 | コンピュータの行動効率化 |
目標 | コミュニケーションコストの低減 | 精度向上、計算量・計算時間削減 |
よく使われる手法 | 単純集計、クロス集計 | 機械学習、アルゴリズム構築 |
スマホゲームユーザー属性の把握(市場分析:セグメンテーション)->クラスタリング
・クラスタの基準(ゲームランキング)を元に、ヘビー/ミドル/ライトユーザーに分割->ランキング特徴量の作成
・k-means法を使うにあたって相関の高い特徴量と0ばかりの特徴量は排除、また主成分分析により相関を排除。
・クラスタ数は解釈性とどんなユーザー層を想定しているかで決定(大体一桁)
・クラスタの特徴を可視化->レーダーチャート
・ビジネス上におけるデータ分析の流れ
1.課題設定(何が課題であるかを共有)
2.問題発見(現状の整理と理想の把握、二つのギャップを具体化・言語化)
3.仮説探索(ギャップの要因を考え、確度の高い仮説(検証すべき仮説)を決める)
4.データ収集(仮説を裏付けるデータがあるか,関係各所からヒアリング(事実とデータを集める))
5.データ分析(仮説を裏付けるデータが作れるか。データ分析と可視化)
6.報告と行動決定
データサイエンティストのスキルセット
「一般社団法人データサイエンティスト協会 スキルセット改変」
https://www.slideshare.net/DataScientist_JP/2017-81179087