LoginSignup
15
17
エンジニアキャリアについてあなたの考えをシェアしよう!

データサイエンティストへの5つの門。あなたはいくつの門をくぐりましたか?統計と確率(8)

Last updated at Posted at 2020-11-30

データサイエンティスト志望者の5つの門

データサイエンティストになるには、いくつかの道があり、いくつかの門がある。

どの門から入っても、3つの門は経由した方がいいかもというのが経験則。

  1. 生物学(生命科学)
  2. 経済学(社会科学)
  3. 確率・統計
  4. プログラミング・機械学習
  5. 根気か財力か理想
    どの順番であるかは問わない。

1. 生物学(生命科学)

遺伝子学を含めて、生物は確率と統計の一番役にたつ対象領域。
生物学を極めずに、データサイエンティストっていってもちゃんちゃらおかしいかもしれない。

Rの本を初めて読んだのも、生物系の技術士の方から書籍をいただいたのがきっかけ。
50歳までの一番不得意な領域をなんとか克服しようと努力してきた。

一番難解だったのが疫学。
社会的な分析という巨視的な視点と、
生命行動という微視的な視点を均衡させ、
人に役立つ次善解を連続的に出し続けなければいけない。

精神力と集中力がいる分野。
現在のコロナ対策の核心でもある。

ここでは生物学と言っているが、医学、薬学、有機化学を含んで、生命現象のなんらかの側面、部分を確率・統計的に扱う場合を含みます。

図解 よくわかるデータマイニング (B&Tブックス)
石井 一夫
51KT8STJW6L.SX346_BO1,204,203,200.jpg
https://bookmeter.com/books/76564

情報鉱山を掘り当てるという表題にした方がよいかもしれない。 どちらにしろ、「山師」なのだから、対象領域の知識があるか、 数学が使いこなせるか、コンピュータを使いこなせるかの3つに一つの技術があればよい。 著者は3つとも使いこなせる山師なのだから、それぞれ優しく説明してくれている。 専門の医療関係の話は、専門外の人にはチンプンカンプンかもしれない。 本当は、その部分を3倍から4倍に増やしてもらえると嬉しかったかもしれない。

「DNAと遺伝情報の物理」伏見譲。統計と確率(20)

2. 経済学(社会科学)

社会的な価値の集計は貨幣価値である。
金融論や計量経済学を含めて、経済学をかじっていないと、
疫学の知識もうまく社会政策に反映できないかもしれない。

ここで経済学と言っているのは、経営学、金融学など貨幣価値または物流などの物理的なものの移動を社会全体で統計的に扱う場合を含め、その統計結果に影響を与える経済主体の心理的な行動も含みます。

Economics
Paul Anthony Samuelson
71pDQe07KWL.jpg
https://bookmeter.com/books/1028523

Economicsの初版に近い版をタイプライタでコピーしたことがある。 英語の勉強にとてもよかった。 経済学でよくでてくる単語が、日常用語が多いことが分かった。 論理展開、表現がわかりやすくてよい。 社会モデルの作成は、厳密に作りすぎると、多大な労力ががいる割に、 情報の精度が高くならない。将来の予測には使えないところが難点。 社会現象を解釈することと、これからの行動の指針を考える上では有益。

なぜ経済学徒を辞め、計算機屋になったか(経済学部入学前・入学後・卒業後対応) 転職(1)

3. 確率・統計

データを扱う技術の集大成が確率と統計。
しかし、確率と統計の知識だけでは、データの分析はできない。
データの属性である生命、経済についての体系的な知見がないと、
データ間の因果関係そうにみえる動きに踊らされてしまうかなって思うんです。

初等統計解析
佐和 隆光
51+QCxQO0HL.jpg

初版が教科書でした。初版P2「しばしば統計は、他人をだますための方便ともなる。統計の悪用と誤用は、日常茶飯事のごとくみうけられる。数字の氾濫するこの世の中において、「統計のウソ」に対する抵抗力をそなえておくことは、将来どういう仕事にたずさわる人にとっても必要不可欠なはずである。」1974年に警鐘を鳴らしていた。「人生で影響を受けた本100冊」の1冊

確率論及統計論輪講。仮説・検証(95) 統計と確率(9)

4. プログラミング・機械学習

確率・統計の知識がそれほどなくても、データをプログラミングであれこれいじっていると、何か答えのようなものが出てくることがある。機械学習も同じかも。

出てきた答えらしきものを、社会的に意味のある提言にまとめられるかどうかは、生物・経済などの領域における知識が大事。

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
斎藤 康毅
51aFEr4SG4L.SX350_BO1,204,203,200.jpg

感想歌 画像処理Python使い操ろうDeep Learningシステム構築 勉強会3月はじめ毎月開催した 「ゼロから作るDeep Learning」読書会に参加する前に読んで置くとよい資料とプログラム https://qiita.com/kaizen_nagoya/items/537b1810265bbbc70e73 「人生で影響を受けた本100冊」の1冊。https://qiita.com/kaizen_nagoya/items/16af53acbb147a94172e

プログラマにも読んでほしい「QC検定にも役立つ!QCべからず集」

5. 根気か財力か理想

データを集めるのは、根気か財力を要する。
財力といっても、ここではお金でデータを買うのではなく、googleのように便利な道具を作って、データが集まるようにする使い方をさす。

何かを追い求める理想がないと、世界征服とか、独裁とか、あらぬ方向にデータを使うようになる。

世の中の人に寄り添わないデータサイエンティストは、驕る平家のようになると信じている。
確証はない。

関連資料

権利のための闘争
イェーリング
513HK5EN90L.SX349_BO1,204,203,200.jpg

法学部を出た同僚に勧められて読んだ本。法律を正式に勉強していない人が法律をどう扱うとよいかの基本とのこと。権利を主張し続けることが法律を維持するための基本的な行動であること。法律は支配のための道具ではなく、支配者の横暴を許さないための道具であること。法律がすべてではないこと。権利と義務とが表裏一体である事から,義務が強制であれば権利も自主的に強制する必要があるのだろうと推測しました。日本人の著作としては、川島武宜を推薦されました。著作集を購入しました。法律は難しいところがあるので、まだ全部を読めません。

人生で影響を受けた本100冊。Youtube(3)

経緯

生活基盤の仕事を十年。停水の書類作成、停水解除の受付も業務。未確認の計量器の発掘も十件以上。数字が命で統計と確率で仕事をする(マクロ)ことと、人の生き死にに関係するかどうか(ミクロ)が鍵かも。どちらかだけで判断すると均衡を欠く。データサイエンティストにとって大事な経験だと思っている。

その後、経済論文でことごとく賞を逃したにもかかわらず、データ分析して賞をもらったのは、4年の現場で数字を分析した経験からだと、今思うとわかったような気がする。

生物学を先頭に書いたのも、データの分析結果、人命にどのような影響があるか評価できないような分析はまずいという経験則から。

参考資料(reference)

データサイエンティストの為のおすすめコンペサイト

新米データサイエンティスト、研修プログラムを考える。
https://qiita.com/s_yaginuma/items/a9c97f62d9bec129c33b

データサイエンティストへの道
https://qiita.com/lindq_yu/items/96e41995249ff348d3f6

データサイエンティストへの道のり
https://qiita.com/Pompom_/items/65d27b23f9eac97462d6

データサイエンティストの概要
https://qiita.com/savaniased/items/4f2fa76d3e6a6a2e2cb0

データサイエンティストのお仕事
https://qiita.com/Naka-u/items/ac4bd77bc3bff1c4017b

データサイエンティストという仕事を考える
https://qiita.com/kk_ph/items/7fa1e8110ac474dc081c

データサイエンティストになれるかな
https://qiita.com/hiro88hyo/items/169b629fcf6c185cf008

データサイエンティスト育成を支える技術
https://qiita.com/dcm_chida/items/5da1530ab69961c2c828

データサイエンティスト×経営者×教育者の1年を振り返る
https://qiita.com/tomoyuki-murakami/items/b04da27ebcd442df800d

データサイエンティスト半人前への最短ルート
https://qiita.com/gorn708/items/c6601cd8cfda0f7527a1

いまさら聞けないデータサイエンティストの必須スキル
https://qiita.com/takahashi_yukou/items/edce0465f71bac15fc8b

データサイエンティスト協会スキルチェックリストver.3.00「データサイエンティスト」に必要な本
https://qiita.com/aokikenichi/items/febcc7ae4f803050e90b

データサイエンティストのスキルレベル ~グルーピング~
https://qiita.com/iwasaki_kenichi/items/8a44b17eee20a8a16751

データサイエンティストのスキルレベル ~予測~
https://qiita.com/iwasaki_kenichi/items/3c2755e0b29669c11fbe

データサイエンティストのスキルレベル ~検定/判断~
https://qiita.com/iwasaki_kenichi/items/4ec59977c09f77581b8b

ゼロから目指すデータサイエンティスト(プログラミング編)
https://qiita.com/The_Noob_man/items/2dcf90e28abdf8280de5

ゼロから目指すデータサイエンティスト(数学編)
https://qiita.com/The_Noob_man/items/36d3a49da5479812a8e6

データサイエンティストとして面接を受けてみた
https://qiita.com/Dormir30/items/e39b2842d47a8f7f5580

データサイエンティスト求人の歓迎スキルを調べてみた
https://qiita.com/sayannk/items/8f499b4e5bd4830110a2

データサイエンティストの仕事~日立のデータサイエンティストに聞いてみた! ~シリーズ1~
https://qiita.com/KH_MOON/items/22e0913782e984f6fd26

データサイエンティストの仕事~日立のデータサイエンティストに聞いてみた!~シリーズ2~
https://qiita.com/KH_MOON/items/ef5274163f119a5e26be

データサイエンティストの仕事~日立のデータサイエンティストに聞いてみた!~シリーズ3~
https://qiita.com/KH_MOON/items/b8f21589547fbd21fe12

データサイエンティストの仕事の実際について
https://qiita.com/kinuta_masaya/items/7b6aedf765652274da14

本業ウェブエンジニア、副業データサイエンティストのキャリア設計
https://qiita.com/tamanobi/items/a74bc813562ed3460c29

データサイエンティストはエンジニアなのか?
https://qiita.com/knknkn1162/items/7402f3e1c9adb821837d

データサイエンティスト採用における技術評価
https://qiita.com/Rikuri1113/items/0749b7d2d8eaafe71a2e

50代でデータサイエンティストを目指す
https://qiita.com/marzg510/items/90fa59fa5059b8d55018

ビジネスでインパクトが出せるデータサイエンティストになるには
https://qiita.com/nihaton/items/766649c8bfca957db2df

データエンジニア/データアナリスト/データサイエンティストの違いを考える
https://qiita.com/ppt_msdg_maas/items/f6e26b9ff7d95c35f131

エンジニアがデータサイエンティストになるための経済の勉強
https://qiita.com/marzg510/items/cd8caf8eb9ed9a8f6494

Dataikuのロゴについて:ビジネスアナリストとデータサイエンティストの融合
https://qiita.com/Dataiku/items/3e5733bdfa41510ed9bd

松本 隆作詞楽曲リストのPDFをCSVに変換の予定が・・・
https://qiita.com/barobaro/items/a81f70fea45c956549c5

新人

新人の方によく展開している有益な情報

@kazuo_reve 「新人の方によく展開している有益な情報」はじめ記事を参照して頂いた時にしていること。

マネージャー・リーダーの私にとって有益な知見が得られた書籍

@kazuo_reve「マネージャー・リーダーの私にとって有益な知見が得られた書籍」への謝辞

自己参考資料(self reference)

docker(20)Data ScientistのためのPython, R, Machine Learning/Deep Learning環境構築
https://qiita.com/kaizen_nagoya/items/ff16ce6f2a1af43c77f3

データサイエンティストって
https://qiita.com/kaizen_nagoya/items/76f82232019272df56e6

docker(18) なぜdockerで機械学習するか 書籍・ソース一覧作成中 (目標100)
https://qiita.com/kaizen_nagoya/items/ddd12477544bf5ba85e2

転職(1) なぜ経済学徒を辞め、計算機屋になったか(経済学部入学前・入学後・卒業後対応)
https://qiita.com/kaizen_nagoya/items/06335a1d24c099733f64

仮説(28)データ収集とデータ分析の自動化
https://qiita.com/kaizen_nagoya/items/0594f1589a4c07fb3a3a

製造業における機械学習
https://qiita.com/kaizen_nagoya/items/fbe846de16f74bea1d6f

仮説(174)失敗してもめげないプログラマになるにはhttps://qiita.com/kaizen_nagoya/items/fd4515cfb6efa769661d

仮説(168)プログラマの「プログラムが書ける」思い込みの激しさは強みであって弱点ではない3つの理由
https://qiita.com/kaizen_nagoya/items/bc5dd86e414de402ec29

仮説(120)無限次元空間を想定すること
https://qiita.com/kaizen_nagoya/items/9f2c4d2e1ae4e1b4a7c6

仮説(195)与件解析(data analysis)入門
https://qiita.com/kaizen_nagoya/items/d9474c3bdb8ea0029bee

仮説(95) 確率論及統計論
https://qiita.com/kaizen_nagoya/items/89d0a91a56d33529e85c

仮説(93) 科学三分類・四分類・五分類と算譜(program)
https://qiita.com/kaizen_nagoya/items/a2f2b9cc3a51b6af7603

仮説(170)2020年の開発者が知っておくべき11の必須技能→回答編 → 並べ替え→項目合併(8項目)→内容追記
https://qiita.com/kaizen_nagoya/items/39e1c69bddb8e608b42b

仮説(38)プログラマで「飛び抜けた人が少ない」という仮説
https://qiita.com/kaizen_nagoya/items/f0d22e20f6d2c58f2c1b

横道(side story)

経済学部を出たが、卒業研究の担当教授と見解の相違で、経済学徒であることを辞めた。

そうは言っても、大学卒業後3年くらいは、経済論文などを投稿し続けた。

教授に一矢報いたいという思いもあった。

でも、教授にもすごく恩がある。

卒業論文の審査面接で、「これは経済学ではない」

と言われたのに、対する反論は、

「公務員の上級試験を通ったので卒業させてください」

だった。

これは経済学ではないといわれたのは「等価交換原則について」

交換の双方の主観的な価値を不等式で表現したもの。

理論的には社会心理学か、社会学の領域かもしれない。

僕らは新人類の走りだということを全面に押し出した発言だったかもしれない。

頑なそうな教授も卒業認定はしてくださった。

感謝している。

論文を出し続けて3年間でめげた訳ではない。

経済学徒から転向してプログラマになった。

工学部電気工学科に入り直した。

そして、プログラミングをしながら投稿したのがデータ解析の論文。

水道の使用量と料金制度を解析したもの。

2席の賞をいただいた。

ちょっとプログラムを書いて、データを解析しただけで賞が取れた。

背景として経済理論に基づいているものの、新しい理論な訳ではない。

データを割ったり、引いたり、掛けたり、比較したりしただけ。

微分も、積分も使っていない。

大事なのは消費者に寄り添うこと。

誰のために分析するかの軸がしっかりしていて、
データをいじくり回せば、
解決策か新しい展望は必ず生み出せる。

そのためには、いつも、できれば100データを集めて、いじくりまわすこと。

100データが集まらなければ、まず10だけでもいい。

立場の違いによって見えるものが違う(Difference in appearance due to differences in viewpoint)

立場1(左)から見ると、全体はAで、色は黄色(薄い色)、Bは中心の部分で色は黄緑(濃い色)
立場2(右)から見ると、全体はBで、色は空色(やや薄い色)、Aは中心部分で色は黄緑色(濃い色)

立場が違えば、集合関係も違うように見えるかもしれないし、色も違うように見えるかもしれない。

視点の違い.png HAZOP 質疑応答編&記録編(3.6a) Safety and Security https://www.slideshare.net/kaizenjapan/hazop-tokyo201809 p.174

 この資料は、三次元のA、Bを二次元表記したものです。全体像は、横から、左下は左から、右下は右から見た像の二次元表記です。屈折率等を考慮すると、下の左右の中心像はもっと大きくなるというご指摘をいただいています。三次元描画ソフトでこの資料を作成してくださる方を募集しています。

参考資料

Data Scientist の基礎(1)データ構造

Data Scientist の基礎(2)参考文献

データサイエンティストへの5つの門。データ部分。

データサイエンティストの気づき『勉強だけして仕事に役立てない人。大嫌い』それ自分かもってなった。

アンの部屋(人名から学ぶ数学:岩波数学辞典)英語(24)

なんでも統計相談室(1)分母の値が0になる場合
https://qiita.com/kaizen_nagoya/items/80746d82c11a0ef810d1

なんでも統計相談室(2)評価関数の作り方(1)高速道路無人出入口
https://qiita.com/kaizen_nagoya/items/830088de8b8f24a8d253

なんでも統計相談室(3) 時刻表の見方:単位と誤差。鉄道(11)
https://qiita.com/kaizen_nagoya/items/ce06604f3a0843440bbd

プログラマによる、プログラマのための、統計と確率のプログラミングとその後 統計と確率一覧(0)
https://qiita.com/kaizen_nagoya/items/6e9897eb641268766909

文書履歴(document history)

ver. 0.01 初稿 20201130
ver. 0.02 短歌追記 20201201
ver. 0.03 書籍追記 20201202
ver. 0.04 生物学、経済学補足 20201203
ver. 0.05 短歌6首追記 20201204
ver. 0.06 はじめに、短歌な大忘年会2020 in the zine~うたげ #うたげ2020 追記 20201217 午後9時
ver. 0.07 連作の作り説明。#藤原龍一郎 #松本隆 追記 20201217 午後10時
ver. 0.08 つぶやき、Qiita関連文献追記 20201217 午後11時
ver. 0.09 短歌4首追記 20201219
ver. 0.10 各項目にURL追記 20210911
ver. 0.11 データ部分切り離し。20210912
ver. 0.12 URL追記 20210913
ver. 0.13 データサイエンティストの気づき『勉強だけして仕事に役立てない人。大嫌い』それ自分かもってなった。追記 20210919
ver. 0.14 参考資料追記 20211006
ver. 0.15 ありがとう追記 20230504

最後までおよみいただきありがとうございました。

いいね 💚、フォローをお願いします。

Thank you very much for reading to the last sentence.

Please press the like icon 💚 and follow me for your happy life.

15
17
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
15
17