はじめに
Waffleアドベントカレンダー18日を担当します、Waffle college2期生のなほです。
今回はぴよぴよですが大学で統計を勉強している私が今までやってきたことやそれを通じて考えたこと、学んだことを中心にお話しします。
統計に興味ある、やってみたい、今からやる、人にとってはほんのちょっと先を行っている人の話だと思って勉強のモチベーションになったら嬉しいです💖。
統計そしてR(統計で使うプログラミング言語)と出会ったのは大学に入ったばかりの時だったので、なんだかんだ2、3年間のお付き合いがあります。
Waffle collegeでプログラミング言語に初めて触れた〜!と勝手に思っていたのですが、思い返してみるとRが私が一番最初に触れたプログラミング言語だったな、と最近気づきました。
転機になったのはゼミ選択です。やっぱりエビデンス(ドヤ顔で言ってみたかった)が重要視されるようになってきた社会の中で、データを使いこなせる人になりてぇぇ〜!という気持ちが芽生えていたので、思い切って社会情報系のゼミを志望しました。その後ゼミに無事合格し専門的な授業をとることも増え、Rや統計、そしてそれに付随して機械学習等もどんどん身近になっていきました。
大変なことと学んだこと
そんなこんなで統計の世界に馴染みだした私ですが大変なこともたくさんあります。
まずデータの収集、成型です。分析を始めるにあたってまずは必要なデータを集めて使えるように整えなければいけません。ここでいう整えるとは、霧散しているデータを扱いやすいように一つのファイルまとめたり、いらないデータを削除したりすることを指します。また、欠損している値があるとRで読み込んだ際にエラーが止まらなくて分析にならないという特大インシデントが起きるので注意しなければなりません。
今までは既に綺麗に整った扱いやすいデータを使うことが比較的多かったのですが、もし最初から自力で調査を行って集めるような事になったら本当に本当に大変なんだろうなとつくづく思います。
使うことが多いe-Statのデータとデータサイエンス教育のための汎用素材として作成されているデータセット(SSDSE)
高校生、大学生向けにSSDSEを用いたデータコンペティションも毎年開催しているみたいなので興味のある方は是非〜〜
二つとも比較的綺麗で扱いやすいのでおすすめです(✌'ω'✌)(✌'ω'✌)(✌'ω'✌)。
また、コードを書いて結果出してはい終わり!!終了!!解散!!で終われるような単純なものではありませんでした。その先の課題解決が目的とされていることも多いので、、、🥺
エラーの対処はもちろんのこと、専門用語の理解だったり、擬似相関(本当は関連しない事象が関連があるように見えてしまうこと)等の気をつけないといけないことがたくさんあったりします。
そりゃ〜〜そうだろうな!!🙃(よく言われているのは人の年齢と年収の推移の話。年齢と年収が比例関係にある)みたいな分析ではなく、自分で立てたテーマや仮説に対してどのようなデータを使って、どのような手法で分析したら有意義な主張ができるかを自分で考えていかなければいけないので、課題設定から分析の流れを考える際には本当に毎回苦労します。ようやく終わりが見えたと思ったらそれ分析の意味あるの?と言われて心が折れたり、結果から見出せた考察が浅すぎてもっとわかることあるよね?と指摘され、自分の考察の甘さと見ていた世界の狭さに絶望したり、、
実際今の社会では、一つの事象がそれだけで成立しているのではなくて、様々な事象が複雑に絡み合って成り立っていることがほとんどだと思います。そういった社会に何かアプローチをしたいと考えたときに1つの視点からではなく、その背後にある社会的背景にも目を向け多角的な視点を持つことが重要である、ということにこのような経験を通して気づくことができたので、とても有意義な時間だったと思います。
余談ですが、カフェで友人と作業中にエラーが出たら即帰宅チャレンジを宣言した瞬間、読み込みエラーが起きて即帰宅決定したときがありました。良い思い出です。頼んだピーチティーは8割くらい残っていました。もちろん美味しく頂いて帰りました🍑。
最後に
最近はRだけではなく、Pythonで分析ができるように本を見ながら勉強してみたり、未だかつて見たことのない形のグラフを見た目がなんか可愛いからという理由で作ってみたり(動く共起ネットワーク図)、流行ってる分析手法を試してちゃっかり流行りに乗っかった気分を味わったりと楽しみながらゆるくスキルアップを頑張っていますd(:3」∠)_。
最近読んでいる本 📚
かなり実践的な内容で、データサイエンティストの仕事のイメージがつかめます。
気になったことを自分で調べて、データという確実な根拠に基づいて自分の意見が主張できるようになったら本当に最強だと思います。
私もゆるゆると目標に向けて頑張っていくので一緒に頑張りましょう〜(✌'ω'✌)