みなさん、こんにちは!
本日は初めて目にする不思議な場所おもしろい方が集まっているKaggleについて、一緒にのぞいていきましょう~
Kaggleってなに?
Kaggleについての説明は簡単に言うとPythonなど自然言語を処理して、予測するAIを作っていく!ものだと勝手に解釈しています(個人の見解)
そのため、たくさんの天才たちがしのぎを削ってコンペに参加しています。そこに入っていくのはなんと恐れ多いことか…
ちなみに、アカウントの画像はAIで生成してうまくいったものを採用していますw
なぞの数字に戸惑う…
そうは言っても、始めてみないとなにも変わらない。
なんとかアカウントを作って、恐る恐るノートを投稿。
最初はチュートリアルにあるものをまるパクリしてますw
Public Scoreってなんやねん!
Best Scoreの数字はなに!?
わからないことが多いです…(いまだにつかみきれてない)
ちょっと勉強してみる
そんなとき、図書館である本を見つけて驚いてしまった!
これ、Kaggleのタイタニック課題のやつやん!
急いで借りた本はこちら!
この本の中にあるコードをGoogle Colabに書いて動作を確認…
そこで学んだことは以下の通りです!
- ライブラリ:datetime、dateutil、timezoneの使い方
- 時間の同期に必要なライブラリたち。なにしろ思っていたより使いやすくてびっくり!
- ライブラリ:matplotlib.pyplotの使い方
- ザ・Pythonという描画ライブラリ。描けた時は感動した…
- ライブラリ:pandasの使い方
- よくKaggleで見るけど使い方が分からなかったライブラリ!またも感動…こんなに簡単に統計を出してくれるなんて!
画像編集もありましたが、今回は統計の方面に興味があったためそちらを食い漁りました。
いざ出陣!
ちょっと自信がついてきたので、さっそくKaggleのNoteBookを投稿してみます!
https://www.kaggle.com/code/testlab2000/excise-csv-reading-mapping
まずはライブラリをインポート
ライブラリをインポートします。この時、tensorflow_decision_forestsのバージョンを確認するようにしています。エラーが出た時に解決しやすくなります。
(追記)なんか、書きやすくなってるみたいですね…
import ydf
model=ydf.RandomForestLearner(label="l").train(ds)
データの場所を確認してからCSV読み込み
Kaggleの場所をいくら探してもデータファイルが見つからないとのことだったため、ファイルの所在地一覧で探します。このままパスを指定できるため、Kaggleでは必須かもしれませんね~
その後にデータファイル(今回は日本のYoutubeの動画についてのCSV)を読み込ませます。
https://www.kaggle.com/datasets/datasnaek/youtube-new
実践!データの描画!
ここから、先に紹介した本の出番になります!まずは、それぞれの相関係数を出していきます。
ふむふむ…いいかんじ!
それをマッピングするとどうなるんだろ…
めちゃわかりやすい!!!!感動!
見てみると、閲覧数といいね、バッド数、コメントの数には相関関係があるようですね!
ただ、これだとちょっと見にくいので係数も一緒に表示してみましょう!
最高です!これでどれだけ強い相関があるかが一目瞭然ですね~
最後に、相関係数が強いグラフはどのように散布しているかが気になって、2つの因子を取り出して比較してみました~
まずは閲覧数といいねの数の散布図(係数:0.85)
つぎに閲覧数とバッドの散布図(係数:0.80)
こちらは、閲覧数が少なくてもバッドが多い動画が少し目立ちますね~
最後に閲覧数とコメント数の比較(係数:0.84)
閲覧数が多くてもコメントが少ない・ない動画もあるため妥当なラインですね!
データの描画してみて
今回はYoutubeの動画について分析してみました!
やっていて、こんなこともできるんだ~となったのは非常におもしろかったです!
ただ、今回は予測モデルを作成できずに終わってしまいました…(データの前処理が難しすぎる!)
今度はスコアが出せるように頑張りたいです~