大学3年生の時に統計学の勉強をし始めて、今年で4年目を迎えています。
色々な書籍紹介の記事を読んだりしますが、どれくらいのレベルの時に、どれくらいの本を読んで、どんな感じになったのかという紹介は意外と少ないなと感じています。
今回はせっかくなので、自分がどういう勉強をしてきたかを振り返りながら、書籍紹介ができたら誰かの役に立つかなと思ってこの記事を書いてみました。
本の画像はAmazonへのリンクになっているので、そこに書いてあるレビューなども参考になると思います。ここではなるべくAmazonレビューには書いていないことを書ければなと思っています。
※アフィリエイトとかじゃないのでご安心ください。っていうかQiitaってアフィリエイト禁止だよね。たしか。
まずはここから(1年目)
失敗したとはいえ、収穫はありました。まず、ちゃんと地に足をつけて勉強をしないと使えるレベルにすらならなさそうだということ。また、大前提として統計学には確率分布の知識が必要だということが分かったということです。そして私にはそれが圧倒的に不足していました。ということで手を付けたのがこの本。
1.大学生の確率・統計
この本を選択したのは大正解でした。
この本のいいところは、受験勉強のノリで演習問題を通じて知識を身に着けられるところです。
基本的な確率分布の知識はもちろん、中心極限定理や積率母関数などの使い方、多次元分布の変数変換もあれば、条件付き期待値の計算も学ぶことができます。また、マルコフ連鎖やポアソン過程などの確率過程の初歩も練習することができます。
これらの内容を、手を動かした計算を通じて習得することができます。難解な本に進むのでなければ、しばらくは確率の勉強をしなくても大丈夫なくらいの知識を得られるのではないかなと思います。統計の参考書などで当たり前に使われていたり、当たり前すぎて端折られていたりする基本的な計算テクニックを身に付けることができるのも結構ありがたいです。
ちなみに最後の章は保険数理になっていますが、ここはやらなくてもいいかなと思います。
2.自然科学の統計学
基本的な確率の知識が身に付いたところで、さて統計学を勉強するぞと選んだのがこの本。
いわゆる青本といわれるものですが、多くの人は**赤本**から始める人が多いようです。赤本をやろうか迷っていた時に立ち読みした感じでは、先に上げた確率の本や授業でやったような内容とだいぶ被るなと思い、私はスキップしましたが、良書みたいなのでこちらをやるのもいいと思います。
もちろん青本を選んだのも正解でした。まず、線形モデルの知識がある程度ちゃんと身に付いたのは良かったです。機械学習の入門書だと、誤差の分布がどうとか検定の話には中々踏み込まないので、ここで勉強できたことは貴重でした。
また、検定の話についてレベルが高すぎないながらも、比較的ちゃんと書かれているので非常に勉強になりました。最尤法から検定の話に行くまでの流れが結構好きです。「○○検定っていうのがあるけど、なんでその検定がいいの?」とか疑問を持っている人が読むと腑に落ちるかもしれません。
ちなみに、この本を勉強しながら線形代数の知識の重要性が分かったので、線形代数の復習をしたりもしました。
カーネル多変量解析
なんかSVMすごいらしいということで、先生に聞いてみたらこの本をお勧めされました。
当時の私の頭の中には、そもそも数学でいうところの空間という概念がなかったので、特徴空間だとか、標本空間だとか、再生核ヒルベルト空間だとか、いろいろな空間が出てきてめちゃくちゃ困惑したのを覚えています。あと、高校や大学1年ぐらいの数学だと、一般的に成り立つような性質を学ぶことが多いと思うのですが、そういう性質を持ったものを対象にしているとか、そんな初歩的なことによく躓いていたのも覚えています。
ある程度の数学レベルがないとちょっと厳しいかなと思いますが、本の内容的には結構分かりやすい部類に入ると思います。この段階でこの本を読むことは、レベル感からいってお勧めできませんが、いつかカーネル法について学んでみたいという人であればお勧めです。
多変量統計解析法
かなり古い本(1983年の本)ですが、結構好きな1冊です。基本的な多変量解析法(回帰分析、主成分分析、判別分析、数量化法、因子分析、グラフ解析法、クラスター分析)について学べます。よくある、理論を一通り説明してから具体例という流れではなく、具体的なデータ例とこのデータを使って知りたいことは~というモチベーションの話から導入が始まって、理論と具体的なデータでの計算が並走して進んでいくので、実際にデータ分析をしている時と同じ感覚で勉強することができます。
今見ると話しや計算が具体的すぎるなと思いますが、当時の実力だとこれぐらいの具体的さが非常にありがたかったです。
多変量解析は他にも『データ解析の実際』を読みましたが、こちらも初学者にはお勧めです。多次元尺度法について扱っている本をあまり知らないので貴重かなと思います。
1年目まとめ
1年目はこんな感じで、まず失敗して反省し、基本的な確率の知識や統計学の発想、多変量解析などの使える手法の勉強を中心にしていました。測度論とかいう言葉も聞いていたのですが、レベル的に無理だなぁと思って手を出さなかったのは正解だったと思います。
また、大学1年時に習った線形代数や微積分の知識が重要だと認識し、横着しないで復習できたのもよかったです。勉強していくうえで大切なことは続けることだと思うので、そういう意味でも勉強を続けられる体力を身につけられたのは、その後にも活きてきているのでよかったなと思います。
機械学習に入門(2年目)
2年目は大学4年生で、応用統計学研究室に配属されました。金銭的な都合で大学院には進学する予定がなかったので、就職してからも役に立ち続けるのは勉強だと思っていました。そこで先生には研究室を決める際に「研究よりは勉強がしたいのですが、それでも大丈夫ですか?」と聞いたところ快くOKしてくれました。(研究をした後にこの発想は誤りで、研究で得たことも役に立ち続けると分かりましたが、あえてそこには突っ込まず快諾してくれた先生には感謝です。)
AIというものは、どうやら機械学習と呼ばれるものらしいということを聞いていたので、まずは機械学習について勉強することにしました。
統計的学習の基礎
先生に機械学習を勉強するにあたっておすすめを聞いて、紹介されたのがこの本でした。
機械学習の基本的な手法を網羅的に扱っていて、理論的背景について詳しく統計的な発想で説明がされているので非常に好みの1冊です。今でも辞書的によく使っています。
分厚いだけあって、各手法の繋がりや比較なども詳しいです。個人的には、バギングからランダムフォレストへの発想とか、区分的多項式からスプラインへの発展、みたいな流れが好きです。
教師なし学習や正則化なんかについて広く扱っている本は少ないので、そこをカバーしているのもおすすめポイントです。あとは、kaggleなどで流行っているブースティング系の話が基礎からちゃんと書かれている本をこの本しか知らないので、その点もおすすめです。(ブースティングは行間を埋めただけの記事を前に書いたので**リンク**だけ張っておきます。)
(いろいろな意味で)非常に重く、特に式変形の行間を埋めるのがとても大変だったなとか、行間を一生懸命埋めて先生に持っていったら「行間は埋まってるけど、理解はできていないね」と言われて出直したり、いろいろな思い出があります。
参考文献が非常に多く、こんな文献ですよという説明とともに紹介されているので、理解の及ばないところはそれらも読みました。ここで紹介されているのは良い論文ばかりなので、卒研に入る前の論文を読むいい練習にもなりました。
確率モデルの考え方
全部読んだわけではなく、確率過程の部分だけ読みました。
比較的わかりやすい本だったと思いますが、確率過程をその後使う機会がなかったので細かい内容はあまり覚えておらず。。。確率過程の基本的な話は、これで結構理解することができたという感想を持ったというのは覚えています。
ロバスト統計: 外れ値への対処の仕方
卒業研究のテーマがロバスト統計学だったので、まずはこの本で勉強しました。というかロバスト統計学の和書って、たぶんこの本ぐらいしかないと思います。(他に知っているのは『[頑健回帰推定(蓑谷)]
(https://www.amazon.co.jp/%E9%A0%91%E5%81%A5%E5%9B%9E%E5%B8%B0%E6%8E%A8%E5%AE%9A-%E7%B5%B1%E8%A8%88%E3%83%A9%E3%82%A4%E3%83%96%E3%83%A9%E3%83%AA%E3%83%BC-%E8%93%91%E8%B0%B7-%E5%8D%83%E5%87%B0%E5%BD%A6/dp/4254128371)』ぐらいですかね。)
藤澤先生のこの本は、めちゃくちゃ分かりやすくて非常にお勧めです。日本語で読める本がこの1冊ぐらいしかないのに、分かりやすくて神はいたんだなという気持ちになったのを覚えています。
洋書ですが、ロバスト統計に関して他に読んだものは、『Robust Statistics: Theory and Methods(Maronna,Martin,Yohai)』と『Robust Statistics(Huber,Ronchetti)』ですかね。あとは論文をたくさん漁ったという感じでした。ロバスト統計学に関しては思うところもあったのですが、この話は長くなるので割愛します。
数理統計学の基礎
[]
(https://www.amazon.co.jp/%E6%95%B0%E7%90%86%E7%B5%B1%E8%A8%88%E5%AD%A6%E3%81%AE%E5%9F%BA%E7%A4%8E-%E9%87%8E%E7%94%B0-%E4%B8%80%E9%9B%84/dp/4320014529/ref=sr_1_5?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&dchild=1&keywords=%E6%95%B0%E7%90%86%E7%B5%B1%E8%A8%88%E5%AD%A6%E3%81%AE%E5%9F%BA%E7%A4%8E&qid=1605955749&s=books&sr=1-5)
卒業研究を通して、基礎的な統計学の知識を身に着けたいなと思って購入。内容は決して軽くないですが、統計学における本格的な知識が得られたので良かったです。数理統計学の本の中では、いまのところ一番好きな本です。
内容的には、確率の話はあっさりめですが、統計モデルや収束、検定、推定について詳しく書かれています。数理統計学に関する一般的な話は一通り書かれていると思います。本格的な入門書という表現がしっくりくると思います。
行間が埋まらなかったりしたときは、『Theory of Point Estimation』を参考にするといいかなと思います。英語ですが、説明や書き方が分かりやすくて割と好きでした。特に漸近理論の部分は結構詳しく書いてあったと思います。いつか全部読みたいですが、読まないんだろうなぁ。。。
(ちなみにTheory of Point Estimationは、先生に勧められたか、この書評(pdf直リンク)を読んで覗いてみたんだったと思います。詳しく書評されているので一読の価値があると思います。)
(※Theory of Point Estimationは、PDFがネットに落ちていたと思います。)
論文も読んでいたよ
統計的学習の基礎のところでも書きましたが、結構論文を読みました。いやたくさん読んだからなんだっていう話ではなくて、この後の本はそれぐらいのレベル感まで来たところで読んだよということは書いておいた方が参考になるかなと思ったので。。。
話を戻して、、、統計的学習の基礎で参考文献に上がっていた論文は、幸いにも読みやすいものが多かったので良い練習になりました。最初は本などで参考文献として取り上げられている論文を読み、そこにまた書かれている参考文献を辿ったりして、それぞれの手法や理論に至った発想、解決した問題など理解が深まって面白かったです。また、論文内で参考文献に上げられている論文を読むことで、広がりやつながりを知ることもできたのもよかったです。
卒研のために読んだ論文は、必ずしも読みやすいものばかりではありませんでしたが、全部読まなきゃという意識もなかったり、ある程度耐性がついていたりだったので割と何とかなりました。もちろん先生にたくさん助けていただいたのは言うまでもありませんが、学部卒で論文を比較的ストレスなく読めるようになったのは大きかったかなと思います。
2年目まとめ
こんな感じで2年目の勉強を終えました。ざっくり言うと、前半は機械学習の勉強、後半は卒業研究を通してロバスト統計学と数理統計学の勉強をしていたという感じですね。ちなみに卒研ではMATLABを使っていました。私は結構好きでしたね。
この1年での成長は非常に大きく、1年目の勉強をしていた時には想像もできなかったぐらい力をつけることができました。
といっても自分の努力のおかげというよりは、研究室の先生のおかげなんですけどね。私が理解できるようにきちんと教育してくれたのが大きかったです。細かい話は別の機会にしようと思いますが、こういうのを教育っていうんだろうなと感じました。また、学問上の指導だけではなく、人としてというか、社会人として必要な、根本的な考え方や姿勢などについても教育してもらいました。これは働くうえでも非常に大きなアドバンテージになっています。
(なんか「教育してもらいました」って語感があまりよくないですね。けど、指導とか訓練とかじゃ言葉的に物足りなく、教育って言葉がぴったりなんですよね)
社会人になったよ(3年目)
3年目は社会人1年目で、データサイエンティストとして働くようになりました。機械学習エンジニアではなく、ビジネスサイドのデータサイエンティストで、コンサル系の仕事がとても多いです。最初にやった仕事はマーケティングのコンサルでしたしね。学生の時は、授業では応用を(経営工学だったので応用の話が多かったです)、自分の勉強では理論よりの話を中心に勉強してきたのですが、社会人になってもこのバランスは維持したいなという意識で勉強しました。
仕事上どうしても統計よりもドメイン知識の習得に努める必要があったので、統計の勉強は控えめになってしまいました。これはちょっと残念だった面もありますが、この仕事を続けていくのであれば有益だったと思います。
パターン認識と機械学習(通称PRML)
統計的学習の基礎の基礎を読んだので、もうひとつの必読本に数えられているPRMLを読みました。感覚的にはベイベイベイズって感じで、式変形を追いかけたりするのが大変でした。しかし、さすがは有名本というところでしょうか、ネットで調べると参考になるサイトやブログやスライドがたくさん出てきます。統計的学習の基礎はこれが少ないので苦労しましたが、PRMLはこの点勉強しやすかったです。
特にこのページがおすすめです。PDFは無料で配信されていますが、私はこれの紙版を買いました。556円でこの内容はめちゃくちゃありがたいです。まじ神様。
個人的な好みですが、私はPRMLよりも統計的学習の基礎の方が好きですね。
統計的学習の基礎でもそうなのですが、こういう勉強をするときに大事なのことは、愚直に手を動かすことかなと思います。もちろん私レベルの話なので、私より強い人の感覚は分かりませんが、、、
テキストアナリティクス
仕事でテキストデータを扱うことが多そうだったので購入。内容自体は良かったのですが、期待していたものとは違ったというのが正直なところです。でも内容はよかったですよ。
ひとつひとつの手法について丁寧にっていうよりは、テキストデータの分析はこんなアプローチがありますよーというのを俯瞰的に知ることができました。
欠測データ処理
実務(じゃなくてもそうだけど)では欠測データのオンパレードです。当然のことながら欠測データをどのように処理すればいいのか知識が必要になります。そこで手に取ったのがこの本です。
基本的に多重代入法をメインにしている本で、いろいろな手法における多重代入法を扱っていて内容的にも満足でしたが、最後の「おわりに」という章がとてもよかったです。
他にも例えば、ロジスティック回帰における多重代入法の章で、ロジスティック回帰そのものの説明(なぜロジスティック回帰を使うのか)もとてもよかったです。
ゼロから作るDeepLearning
こういう仕事についていると「Deep Learning分かるんでしょ」みたいなことを言われるのですが、お恥ずかしながらあまり興味が持てずに今まで勉強してきませんでした。んでも全く知らないって言い続けるのもよくないなと思いまして、とりあえずこの本で勉強してみることにしました。
中でどんな風に動いているのかを知るには最適な入門書になっていると思います。
機械学習のための特徴量エンジニアリング
それまでなんとなく知っている範囲で、数少ない選択肢の中から特徴量を作っていました。これではあまりよくないなと思って、この本を手に取りました。
内容的には、特徴量の作り方がメインという感じです。
正直言って知らないことはほとんどなかったのですが、こうやって1冊の本に整理されているものを読むのは、自分の頭の中も整理できるのでとてもよかったです。また、テキストデータの分析について勉強した時に知りたかったのは、むしろこの本に書いてあったという印象は受けました。
この本は今でも分析するときにはよく参照しています。
統計的因果探索
統計的因果推論を勉強したいなぁと思うのは、おそらく多くの人が思うことだと思います。私もそう思って色々な本を調べたところ、良さそうだったのがこの本です。
統計的因果推論の基礎的な話から始まって、著者が考案したLiNGAMという手法の解説という流れになっています。説明は分かりやすく「これこれ、こういう説明が欲しかったんよ」というような気持のよい感覚で読み進めることができました。めちゃくちゃお勧めです。
残念ながら実務では、ここまできちんとした分析を求められることは多くないのですが、いつかは重要性を認識してもらいたいなと思っています。(でも非分析者にこれを説くのは難しいだろうな・・・)
入門 実験計画法
昨年デミング賞を受賞された永田先生の本です。
正しいデータ分析には正しいデータの取得からということで、実験計画法については前々から勉強したいなと思っていたのですが、ちょっと面倒くさいなと思って放置していました。。。社会人になってからは学生の時のように、しっかり時間をとって勉強するというのが難しくなってしまったので、軽く読んでも(がっつり手を動かして長考しなくても)理解できそうな実験計画法はむしろぴったりでした。勉強してみると結構面白いですね。まぁ考えてみれば当たり前のようなことが書いてあるのですが、意識していないとというか知らないと見逃すようなことばかりでした。
勉強の仕方や各分野とのつながりなどの話も載っていて、独学している者にとって非常に親切な構成になっていると思います。式展開がかなり丁寧なので冗長に感じる人もいるかもしれませんが、ここもありがたいと感じる人の方が多いと思います。
最後の章50ページほどがQ&Aになっていて、ここも非常に読み応えがあります。
ただこれも残念なことに、ちゃんとした実験計画をするべきだと思うのですが、実務っていうかビジネスだと中々ちゃんとした実験計画を立てるというのは難しいんですよね。。。もちろん分野によりますが。
機械学習のエッセンス
話題になっていたので買ったのに卒研が大変で積んでいた本でした。前提知識は本当に高校数学までという珍しい本です。説明も非常に分かりやすく、初学者にかなり配慮されているなという印象を受けました。
なかなか類を見ない内容になっていて、機械学習を学び始めるのに必要な知識(実行環境の準備、Pythonの基本、線形代数、微積分、数値計算)の習得に270ページぐらい割かれており、残りの100ページぐらいが機械学習という構成です。
この本が出るまでは、機械学習の勉強を始めてみたけど前提知識を勉強しているうちに挫折したという話を少なからず聞いたので、めちゃくちゃいい本が出たなと思いました。この本を読めば機械学習にすんなり入門することができると思います。機械学習を勉強したいんだけど何がいいかな?という質問には、例外なくこの本を勧めています。
私もこの本で入門したかったよぉ。
3年目まとめ
仕事が始まったりマーケティングやらマネジメントやらドメイン知識やらも勉強していて、あまり統計学を勉強する時間が取れなかった割には結構読んでたなぁというのが正直な感想です。2年目で基礎力がある程度ついて、そこそこのレベルなら比較的スムーズに読めるようになったからというのもあると思いますが、PRML以外につらい本はなく、丁寧に説明されていたのが大きかったと思います。このあたりに良い本がたくさん出ているなという空気は感じますね。
統計的学習の基礎やPRMLは、今でもよく勧められている本だと思うのですが、実際どうなんですかね。こう良書がたくさん出ている中では、必ずしも初めの方に読む必要はなくなってきているのかもしれません。ある程度力がついてから、手法間の繋がりを知りたかったり、一貫した性格で一通りの手法を勉強したいという段階になってからでいいんじゃないかなと思います。確かに良書だと思うんですけどね、それを学ぶのに適した時期というのはあるような気がします。
社会人も2年目だよ(4年目)
今年の話ですね。今年は昨年のこの時期には考えもしなかった新型コロナウイルスに散々振り回されました。仕事でも危機に陥っていたため全ての時間的リソースを仕事に振り切ったりと更に勉強する時間がなかったです。さすがに最近は自分のことも大切にしないとなという気持ちになったことと、自分がそんな姿勢で取り組んでいると他人にも強制感のある影響を与えかねないなということに気が付いたというのもあって、通常運転に戻しまして勉強時間もある程度確保できるようになりましたが。。。
まぁそんな話はいいとして、今年はこれまでより少し基礎によった勉強をしていました。
統計学への確率論,その先へ
色々な本で「測度論的確率論の知識は必要としない」という記述をよく見かけると思います。この記述を見ると「測度論的確率論の知識って必要なのかな」という気持ちになって、学んでみるけど当然爆死という経験を繰り返した人は多いと思います。もちろん私も再三爆死しています。
この本はそんな方にピッタリな一冊です。
数理統計学を理解するための確率論を学ぶことを通じて、測度論の重要事項も学べるという内容でした。測度論的確率論自体の習得を目的としているわけではなく、数理統計学を学ぶための、いわゆる応用に耐えうるだけの基礎力を養うことを目的としている人に向いていると思います。
**「多くの統計的な問題では $\Omega=R^d$ としておけばほぼ問題ない」というような記述やホップの拡張定理の証明を省略していて「この定理は確率測度を構成する上では本質的なもので、これを証明するにはやはり測度論を学ばねばならない。しかしながら、定理の主張を理解することはさほど難しくないだろう。この定理を認めてしまうと、測度論初期の多くのステップを省略できる。統計学などへの応用確率論の理解を目指すなら、とりあえずこの定理を認めてしまって先に進むのがよいと筆者は思っている。」**というような記述がこの本の性格をよく表していると思います。
説明の仕方が教育的で、専門書によくある淡々とした説明ではなく、講義口調で説明してくれます。仮定を落としたらどうなるかとか、この話が何に繋がるかとか、そういう話にしっかりと文字数が割かれていて独学する人にすごくありがたい説明になっていました。
工学のための関数解析
統計学の本ではないのですが、非常に勉強になったので紹介です。特に「統計学への確率論,その先へ」などを読む前とか読みながらこの本の学習も進めると理解が深まると思います。
「工学のための」と書いてありますが、これを工学部でやっている学校があるのか・・・?と恐怖する内容になっています。(「工学のため」と書いてあるだけで「工学部でやっている」ではない。)
注意したいのは、やはり「工学のための」という文字を見て誤解することで、これは厳密性を排除して直感的にという意味ではなく、工学で使われている関数解析について扱っているよという意味だということです。だからこの本を読むと数理統計とか最適化とか確率論の理解が深まるってことなんだと思います。
とはいえ、工学の人にとってありがたいことに証明がほとんどされていて、しかも行間があまりないという点は「まさに工学のため」といえるかもしれません!神様!
あと、参考文献の紹介のページで、それぞれの文献にコメントが添えられているのも特徴かなと思います。私は辿ったわけではありませんが、コメントは熱いので余裕のある方は是非!
効果検証入門
話題になっていたので購入しましたが、話題になるだけあって非常に良い本でした。学生というよりはビジネスをかなり意識して書かれているので、非常に実践的な内容になっていると感じました。
内容についての書評は色んなところで書かれているのでここでは割愛します。
個人的には前書きと後書きが大好きで、赤べこのように首を上下に振っていました。ここを読むだけでも良書だということが分かると思います。
Scikit-learnとTensorFlowによる実践機械学習
仕事ではExcelばかりでRやPythonを使う機会がほとんどありませんでした。Rは学生の時に使っていたので、それなりに統計チックな分析をするときにはRを使いますが、Pythonは全く使ったことがありませんでした。機械学習のエッセンスや[ゼロから作るDeepLearning](# ゼロから作るDeepLearning)などではPythonを触りましたが、どちらもゼロからコードを書くので実務で使うと思われるツールを使えるようにしておきたいなと購入。
まず前半部分はScikit-Learnがかなりシンプルで便利だということが分かったけど、それどまりかなという感じです。
最序盤は当たり前の(かつ理想的な)話が書いてあり、この本全体にわたって実践的な話が展開されるのかなと思わされます。実際、実務におけるデータ分析のシナリオを考えている時とかはいまだに手に取ったりしています。
しかし、それは最序盤だけの話。あとはアルゴリズムの解説やら何やらが展開されていて、「実践どこ行ったねん」みたいな感情にさせられます。アルゴリズムにフォーカスするのはいいのですが、そのアルゴリズムを使っているとよくあたる問題や誤りの対処やらが読みたかったかなという感想でした。
あと、理論の解説はいらなかったかなというところですかね。するのであれば、もう少ししっかり書いてほしかったです。しかし、趣旨は理論ではないはずなので、発想やアウトラインだけ書いてggrksとしつつ、上に書いた問題への対処などに紙面を割いてほしかったです。
コードに関してはGitHubで公開されているものが個人的にはかなりいいなと思いました。これは価値が高いと思います。
また、この本ではTensorFlowのバージョンが1なのですが、現在はTensorFlow2という。。。
んでも基本的なScikit-Learnの使い方が学べたのは大きな収穫でした。不満は少々ありつつも、目的は達することはできたので個人的には満足しています。意外と何回も読み直すしね。
※2020/11/4にこの本の**第2版が出たようです。こちらは第1版よりも260ページも増量されているようです。O'REILLYのページによると「第2版では教師なし学習と深層ネットワーク訓練手法、コンピュータビジョンテクニック、自然言語処理、Tensor Flowの大規模な訓練や効率的なデータの取り扱いについての解説を拡充し、新たに畳み込みニューラルネットワークを使ったシーケンス処理とGANによる画像生成の説明を追加しました。サンプルコードはすべてTensorFlow2に準拠しています。」**とのことです。
4年目まとめ
今年は仕事に大半の時間的リソースを投入してしまったので勉強をする時間があまりとれませんでしたが、実力をワンランクアップさせることができたかなと思います。仕事での成果は大きかったので、総合点ではまぁ合格点がもらえるのではないかなと思います。
今年を通して思ったのは、比較的基礎によった勉強がそこそこできるようになったのは大かったなというところです。それは自分の力が少しずつついてきたからというのもあると思いますが(じゃないと悲しくて泣いちゃう)、比較的基礎によった内容でも、独学で頑張れるような本が出てきていているからだということも忘れてはいけません。非常にありがたい環境になってきていると思います。
もちろん、理解の甘いところも少なくないので、復習は欠かさないようにしていきたいと思います。
コーディングの方に関しては、仕事で使うことが皆無だったり、コードを書きながら理解するというのがどうも合わない私なのですが、さすがにそろそろそんなことも言ってられないだろうということで、よく使われているPythonとか勉強し始めたのは進歩かなと思います。(卒研ではMATLABで授業はRだったのでPythonはほとんど初めて触りましたが分かりやすくていいですね。)
今後は、引き続きPythonなどの習得を進めつつ、時系列解析や強化学習、それからベイズ統計学なんかに入門していきたいですね。あとは自分のキャリアを考えながらというところでしょうか。
まとめ
それぞれの本を読んだ段階で、どれくらいの知識があって、どんな感想を抱いたのかは割と整理できたんじゃないかなと思います。誰かの参考になれば嬉しいです。
おまけ:現在進行形の本
ベイズ統計学に入門しようと購入。噂通りの難解というか、今持っている知識と結び付けていくのが難しく、行間も結構広いので全く進んでいないのが現状です。これについては時間がかかってもいいと思っているので、ゆっくりじっくりまったり進めていこうと思います。ちなみに7章から眺めるといいよというアドバイスを頂いて、そうしてみたら確かにかなり良かったです。1章と7章を読んでから2章以降に進むといいのかなと思います。
ごく一般的な統計学の知識とこの本の内容を繋ぐようなものが、日本語であると嬉しいんですけどね。
**②Python機械学習プログラミング** [![Python機械学習プログラミング.jpg](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/296113/92c772d8-a9f9-302f-11ed-14a326909f64.jpeg)](https://www.amazon.co.jp/%E7%AC%AC3%E7%89%88-Python%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0-%E9%81%94%E4%BA%BA%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%83%86%E3%82%A3%E3%82%B9%E3%83%88%E3%81%AB%E3%82%88%E3%82%8B%E7%90%86%E8%AB%96%E3%81%A8%E5%AE%9F%E8%B7%B5-impress-gear/dp/4295010073/ref=sr_1_3_sspa?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&crid=1LFZPTNOVY9RI&dchild=1&keywords=python+%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92&qid=1606116134&sprefix=Python%2Caps%2C278&sr=8-3-spons&psc=1&spLa=ZW5jcnlwdGVkUXVhbGlmaWVyPUEzVjg3REVPUlY4MzNUJmVuY3J5cHRlZElkPUEwOTQ4NDk4M0ZSN0hDTjdCRUlIWSZlbmNyeXB0ZWRBZElkPUEzQVdCWUY5Q0xCUVpBJndpZGdldE5hbWU9c3BfYXRmJmFjdGlvbj1jbGlja1JlZGlyZWN0JmRvTm90TG9nQ2xpY2s9dHJ1ZQ==)
TensorFlow2に対応した書籍が欲しいなと思っていて、本当は[とかげの本](# Scikit-learnとTensorFlowによる実践機械学習)の第2版を買おうとしていたのですが、なんか同じ本を買うのは癪に障るので別の本を探していました。そんな中でPython機械学習プログラミングの第3版が出たというのを目にしたので購入。第1版、第2版とも評判が良かったので、そんなに心配していなかったのですが、理論よりもどう使っていくか良い方法を知りたいという私のニーズにはピッタリ合った本だと思います。
まだ大して進んでいませんが、ここまで読んだ範囲で好きな点はこんな感じ。
・コードが簡潔で分かりやすい。
・コードひとつひとつにコメントが添えられている。
・注釈によって恐ろしくかゆいところにも手が届いている。
・numpyやscikit-learnをちょっと触ったことがあるレベルなら無理なく理解できる。
ということで引き続き頑張っていきます。今年度中にはこの2冊の内容を習得できるといいな~。
あとがき
以下の文章は、本当は冒頭に書いていたのですが、この記事にたどり着く人が読みたい部分ってここじゃないよなーとなったので、一番下に移植しました。
興味がある人だけ読んでみてね。
■この記事のモチベーション
※少し自分の記憶を整理したかっただけなので、ここは読まなくても大丈夫です。
ここ数年で一気に統計学や機械学習の良書が日本語で登場し、コミュニティ等もたくさん生まれているようです。私が就活していた時には、Google先生に「統計学 仕事」なんて聞いてみても、まともな情報はあまり多く返ってきませんでした。かろうじてデータサイエンティストという仕事があるらしいということを知るだけでも中々苦労したのを思い出します。
それが3年前とかの話なので、どれだけ急激に普及したのかが感じられると思います。その1年後くらいの就活時には、そういう目的で話を聞きに行ったわけではないところでも、割と普通にデータサイエンティストとかいう単語は耳にしたと記憶しています。
就活生などに話を聞くと、現在でもこの勢いは衰えていないらしく、依然として企業はデータ分析に強い人間を求めているようです。それだけ社会に普及しているのもあって、日本語で書かれた良書がたくさん出てきているというわけなんでしょうね。
一方で良い本が出すぎているために、どの本を読むのかという選択が難しくなっているという側面もあると思います。
というわけで今回は、私の統計学における勉強の軌跡を振り返りながら、その時々に読んだ本を紹介していこうと思います。
そもそもなんで統計学を勉強し始めたのか
勉強を始めるきっかけというのは、聞いてみると人それぞれ意外と面白いものです。
私の場合は、単純に授業で統計学を学んだ時に「え、おもしろ」と思ったのがきっかけです。
何が面白かったのかというと**検定**です。私の中では昔から、「何かを測って比較した時に、どこまで同じでどこから違うと言っていいんだろう?」という疑問がありました。例えば、身長を測って友達よりも大きい小さい同じという話になったときに、0.1mmの差は同じ?じゃあ1mmは?1mm差は同じだよねっていうけど1.1mm差は同じじゃないの?というような、人に言ったらちょっと嫌われそうな疑問です。
普通に生きている分には、本人たち同士の感覚任せでいいと思いますが、客観的に評価したいときはどうしたらいいんだろう?とずっと考えていました。ググるにもなんて調べたらいいのか分からず、人に聞くにも嫌われそうだったので聞かず、そしたら授業で突然登場したんですよね。ちょっぴり感動したのをよく覚えています。
で、どういう根拠でその差を評価しているのかとかを知りたくて、統計学の勉強を始めたという具合でした。
■最初は失敗
私は経営システム工学科出身なので、品質管理やらなんやらって、統計学にはある程度授業で触れていました。レベル感でいうと、統計検定2級ぐらいのことは分かるという感じでした。
そういうレベルからのスタートで、何を勉強していいのかよくわからず、まず始めたのが統計検定準1級の範囲の勉強でした。理由は単純で、一番範囲が広く、それっぽい単語が並んでいて、網羅的な知識が得られそうだったからです。
正直言って、これは実力をつけるという意味では失敗だったかなと思います。
範囲が広いのに、これ用のテキストはないため、1つの分野を勉強するのに教科書を1冊読むハメになりました。証明などはすっ飛ばし、概要をひたすらに取り込む作業です。学校の実験や課題も山のようにあったために時間を確保しにくい中、モヤモヤが爆発しそうになりながらとりあえず全体を網羅的に把握することに努めました。
そんなことをしていたので、水溜まり並みに浅い知識しか身に付かず、、、
という失敗があったので、ちゃんと理解しないとなと思い、実力が着実に付きそうな勉強を始めることにしました。