LoginSignup
38
65

More than 3 years have passed since last update.

データサイエンティストへの道

Last updated at Posted at 2020-05-21

はじめに

私は、 首都圏の理系大学に通う大学4年生です。
ありがたいことに早いうちにデータ系のエンジニア職の内定をいただけました。
大学の研究室では、プログラミング言語のPythonを軸に機械学習を勉強しています。
でも、covitショックで大学の研究室にはいけなくなり、独自に勉強せねばならぬ...!
しかも、自分の実力が会社に入ってから通用するのか?勉強しなきゃ...!!!
となった僕が、今まで独学で勉強してきた物を紹介&リストアップ

Step1 : Pythonを理解しようぜ

機械学習やAIを勉強していくに当たって、Pythonの基本的な文法がわからんぞってなると行き詰まってしまいました。
そのため、僕が使ったPythonの勉強サイトは、こいつらです。Python以外の言語を勉強するのにも使える!

EntryNo.1 : Progate

言わずと知れた、プログラミング学習サイト。
スライドと環境構築不要のエディター付きの学習サイトになっている。
解説がスライドなので、音楽を聴きながら勉強することができるのが個人的なGoodポイント。
とくにGoodなのは、後述するPaizaラーニングにもあるが、環境構築不要のエディターがあることが、初心者に優しい。
こいつだけで、結構な基礎を勉強することができる。
実際に他の言語とかも勉強することもできるし、まじで便利。

おすすめ度:★★★☆☆
URL : https://prog-8.com/

EntryNo.2 : Paizaラーニング

Paizaラーニングは、動画と環境構築不要のエディター付きの学習サイト。
前述のProgateと違うのが、スライドではなく動画であること。
しっかりと動画で、動いているところが見れるからしっかりと自分で手を動かしながらコードを構築することができるのがGood。

また、Paizaの運営会社「paiza株式会社」は、HR(人材系)の事業をやっていることから、自分が勉強したプログラミング知識で就職活動をすることができるのがとてもよかった。
(自分もここで就職を決めることができた。)

動画で基礎を勉強することができ、職にまでつなげることができるところがとてもよかった。
学習教材の内容も独自の内容なので、飽きずにやることができる。
progate同様こいつだけで、結構な基礎を勉強することができる。
実際に他の言語とかも勉強することもできるし、まじで便利。

おすすめ度:★★★★☆
URL : https://paiza.jp/works

EntryNo.3 : ドットインストール

ドットインストールは、動画のみの学習サイト。
前述した二つのサイトに比べ、環境構築が必要な点がネックになっているからあまり使わなかった。

ただ、強みとして前述した二つのサイトに比べて、カバーしている領域の広さがとても広い。
マイナーながら統計学をやっていれば一度は目にする「R」の講座があったり、「VBA」や「GAS」、「Docker」などの知ってたら地味に便利になる物の学習ができたり、最近では前述した二つにも増えてきたが、「AWS」の講座があったりとほんとに幅が広い。

おすすめ度:★★☆☆☆
URL : https://dotinstall.com/

Step1まとめ

ここまで紹介してきたサイトのPythonの基礎を勉強することができれば、この後に記載する学習サイトでも特に苦労せずに以降できると思います。
全部やらずとも、一つだけ自分に合うと思うサイトを使えばいいと思います。
何をやれば良いかわからない人は、個人的にPaizaを使えば良いのではないかなと思っています。
就職にも繋がるって良くない?笑

Step 2 機械学習・AIってなんだ?

Pythonの基礎がわかったところで、ここから機械学習について勉強をしました。
ここら辺から、僕はサイト以外にも本などを使って勉強をし始めました。

EntryNo.1 : キカガク

キャッチコピーが

最先端を、最短距離で身につける。初学者から始められる学習サイト

基礎的なところから、しっかり勉強することができるサイト。
機械学習初心者から、中級者に上がるまでをサポートしてくれるようなサイト。

大きく分けて、「自然言語」「画像処理」「ディープラーニング」 などの基礎的なところを無料で勉強することができるサイト。

tensorflowpytorchのどちらかで勉強するコースが整っているが、基本的に自分の環境が整っている人向けという印象。
ただ、環境構築についてもチュートリアルで説明があるので、敷居は低め!
Google ColaboratoryというGoogle様が提供しているとても素晴らしいエディターでも一応勉強することはできる。

おすすめ度:★★★★☆
URL : https://www.kikagaku.ai/

EntryNo.2 : AI academy

ゴール別にカリキュラムを設定してくれるので、便利。
「AWS」「GCP」や「R」などの機械学習を扱う上で便利なその他ツールの解説などがドキュメント形式である便利なサイト。
Pythonの基本的な文法から立ち戻って勉強することができるが、基礎を勉強するならStep1のサイトの方がわかりやすかったなとか思ったり。
「画像認識」「動画認識」などの分野を勉強することができ、学べる幅が広い。ただ、深いところまで勉強するには、課金しなければいけないのだが、月額1000円ほどで勉強ができるので結構良いのではとか思って私は課金してます。

環境構築についてもこのサイトにチュートリアルがあるので、しっかり自分のPCに環境を作ることもできる!

おすすめ度:★★★★☆
URL : https://aiacademy.jp/

EntryNo.3 : aidemy

僕はまだあまり使いこなしていないが、AI・機械学習を勉強することができるサイト。
コース別に技能を習得することができるみたい。
あまり使ってないので、コメントは程々にしておきます。

おすすめ度 : 未知数
URL : https://aidemy.net/

EntryNo.4 : Signate Gym

Step4に記載しているSignateからのメールであることに気づいた学習サイト
衛星データの基礎知識や衛星データ分析を実践的に学ぶ講座「TellusTrainer」を 6月末(予定)まで無償公開している。
このデータは、信号データなどを含んでいるデータになっているため、なかなか学習がし難い領域を勉強することができそう。

書籍編

書籍で購入したいという方もたくさんいると思います。
僕が購入している書物をいくつか紹介します。

番外編

中学数学からはじめるAI(人工知能)のための数学入門

Youtuberの予備校のノリで学ぶ「大学の数学・物理」(通称:ヨビノリ)が、Aidemyとコラボした動画。
AIや機械学習のうらで動いている数学を解説してくれている動画になっており、しばらく数学とはご無沙汰だなと感じているそこのあなた!是非見てみると良いですよ!

ヨビノリさんのYouTubeチャンネルはこちら

他の動画でも数学などを取り扱っているので、是非見てみてください。

言語処理100本ノック

言語処理にフォーカスをした物
東北大学の乾・岡崎研究室(当時)(現在は乾・鈴木研究室)の新人研修の一つであるプログラミング基礎勉強会で使われてきた物。

Qiita上に答えのようなものが、いくつかあるので自分で勉強していくこともできると思います。

URL : https://nlp100.github.io/ja/

importについて詳しく知りたい...

まにゃpy@Python解説の猫さんのツイートのなかにあった良く分かるimportの話。
今まで、呪文のように唱えていたimportfrom 〇〇 import ××についてシックリくる形で解説されています。

URL : https://twitter.com/uuyr112/status/1262259224903421952?s=20

Step3 : 実際に分析してみよう!

ここまできたあなたは、きっと自分が成し遂げたいことを実現する能力を身につけていると思います。
ここから先の分析の勉強をするにあたって、方法としては大きく分けて、2つあると思います。

  1. コンペに参加する。
  2. 自分でデータを集める。

コンペへの参加

敷居が低いものとしては、コンペに参加することをあげることができます。
コンペとして有名なのは、

などがあると思います。

Kaggle

世界中のデータサイエンティストがしのぎを削るコンペ
最先端のアルゴリズムなどを使っている人もいるため、Kernelというコードを読んでいるだけでもとてもとても勉強になる。
ただ、データサイエンスの領域になると文化的側面やコンペ対象に深い知識がないと難しい。
そういった面で、外国発のコンペということもあって、難しいように感じる。

Step2までとは違って、ほんとに難しい。
これをやるといきなり100点を目指さずに、不完全でも良いからアウトプットをしていくことの大切さを知る。
Kaggleチュートリアルは、いろんな方が出しているので、それをやっていくことで力を伸ばせるのでは?と思っています。

みなさんお馴染みのメルカリについてのコンペもあり、ここから僕は入りました。
メルカリチュートリアル

他に有名ところだとタイタニック号などもありますので、様々なチュートリアルを経てコンペにチャレンジしてみると良いかもしれないです。

Quevico AI Competitions

最近できたコンペ。
Instagramの広告で出てきた。

コンペ数が少ないが、しっかりとstep2で勉強したことが生かせそうなコンペになってる。
言語が日本語なのも、嬉しいポイント

###Signate
日本発のデータサイエンスコンペ。
言語が日本語で、コビットチャレンジなどもあって、日本のデータサイエンスの中心地になればなと思っている。
人のkarnelが見れないのが少し残念

(追記 5月22日)

Numerai

機械学習による株価予測 はじめようNumeraiから引用しました。
全て英語のコンペになっています。

###Prob-space
とある知り合いに教えてもらったコンペサイト。

###NISHIKA

自分でデータを集める。

自分でデータを集めるとなったら、やれることは無限大です。
ただ、追加で取得しなければいけない技術として、スクレイピングの技術が必要になります。

スクレイピングは、様々なサイトで勉強できますが、AI academyである程度勉強できるので、一度こちらで勉強してみるのも良いかもしれないです。

個人的に使っているデータ収集の方法

Twitter developer

Twitter APIを取得することができる開発者アカウントの申請をすることができる。
意外とできることが多くて、可能性がすごく大きい。

オープンソースのデータセットが手に入るサイト

自分でいつか使おうと思ってストックしているサイトです。

FineReportさんが公開しているデータ分析に必要なオープンデータ20選から抜粋したものです。

番外編

市場調査系レポート

変数選択などのアイディアを得ることができそうなレポートを提供してくれるサイト。
自分でいつか使おうと思ってストックです。

博報堂生活総合研究所

博報堂が、収集したデータがレポート形式で、アップロードされているサイト。

マクロミル

市場調査事例や分析事例がレポート形式でみることができるサイト

DODA

就職状況のレポートをみることができる。

最後に

今まで勉強したサイトなどをリスト化しました。
これで、慌てて記憶の底からなんだったけなーと思わなくてすみそうです。笑
COVITショックがあり、GWあたりから無料で学べるツールサイトが多くなってきて、とても勉強のやりがいがある一方で、自分が目指している業界の競争率が高くなりそうで、焦っています。

今後は動画解析などの技術を身につけて、TikTokの分析とかしてみたいなと思っています。
TikTokのAPIがあるみたいなので、チャレンジしたいと思っています。

最後にここまで長い間読んでくださった方ありがとうございます。

参考文献

紹介サイトまとめ

良質なコンテンツの提供ありがとうございます。
掲載してはいけない内容などありましたら、削除します。

38
65
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
38
65