0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【Kaggle】はじめまして、Kaggleさん!【初心者】

Posted at

みなさん、こんにちは!
本日は初めて目にする不思議な場所おもしろい方が集まっているKaggleについて、一緒にのぞいていきましょう~

Kaggleってなに?

Kaggleについての説明は簡単に言うとPythonなど自然言語を処理して、予測するAIを作っていく!ものだと勝手に解釈しています(個人の見解)

そのため、たくさんの天才たちがしのぎを削ってコンペに参加しています。そこに入っていくのはなんと恐れ多いことか…

ちなみに、アカウントの画像はAIで生成してうまくいったものを採用していますw

なぞの数字に戸惑う…

そうは言っても、始めてみないとなにも変わらない。

なんとかアカウントを作って、恐る恐るノートを投稿。
最初はチュートリアルにあるものをまるパクリしてますw

Public Scoreってなんやねん!
Best Scoreの数字はなに!?

わからないことが多いです…(いまだにつかみきれてない)

ちょっと勉強してみる

そんなとき、図書館である本を見つけて驚いてしまった!

これ、Kaggleのタイタニック課題のやつやん!

急いで借りた本はこちら!

スクリーンショット 2025-06-05 235450.png

この本の中にあるコードをGoogle Colabに書いて動作を確認…

そこで学んだことは以下の通りです!

ライブラリ:datetime、dateutil、timezoneの使い方
時間の同期に必要なライブラリたち。なにしろ思っていたより使いやすくてびっくり!
ライブラリ:matplotlib.pyplotの使い方
ザ・Pythonという描画ライブラリ。描けた時は感動した…
ライブラリ:pandasの使い方
よくKaggleで見るけど使い方が分からなかったライブラリ!またも感動…こんなに簡単に統計を出してくれるなんて!

画像編集もありましたが、今回は統計の方面に興味があったためそちらを食い漁りました。

いざ出陣!

ちょっと自信がついてきたので、さっそくKaggleのNoteBookを投稿してみます!

https://www.kaggle.com/code/testlab2000/excise-csv-reading-mapping

まずはライブラリをインポート

ライブラリをインポートします。

この時、tensorflow_decision_forestsのバージョンを確認するようにしています。エラーが出た時に解決しやすくなります。

(追記)なんか、書きやすくなってるみたいですね…

import ydf
model=ydf.RandomForestLearner(label="l").train(ds)

データの場所を確認してからCSV読み込み

Kaggleの場所をいくら探してもデータファイルが見つからないとのことだったため、ファイルの所在地一覧で探します。

このままパスを指定できるため、Kaggleでは必須かもしれませんね~

その後にデータファイル(今回は日本のYoutubeの動画についてのCSV)を読み込ませます。

https://www.kaggle.com/datasets/datasnaek/youtube-new

実践!データの描画!

ここから、先に紹介した本の出番になります!

まずは、それぞれの相関係数を出していきます。

スクリーンショット 2025-06-06 001420.png

ふむふむ…いいかんじ!

それをマッピングするとどうなるんだろ…

スクリーンショット 2025-06-06 001527.png

めちゃわかりやすい!!!!感動!

見てみると、閲覧数といいね、バッド数、コメントの数には相関関係があるようですね!

ただ、これだとちょっと見にくいので係数も一緒に表示してみましょう!

スクリーンショット 2025-06-06 001842.png

最高です!これでどれだけ強い相関があるかが一目瞭然ですね~

最後に、相関係数が強いグラフはどのように散布しているかが気になって、2つの因子を取り出して比較してみました~

まずは閲覧数といいねの数の散布図(係数:0.85)

スクリーンショット 2025-06-06 002126.png

つぎに閲覧数とバッドの散布図(係数:0.80)

スクリーンショット 2025-06-06 002254.png

こちらは、閲覧数が少なくてもバッドが多い動画が少し目立ちますね~

最後に閲覧数とコメント数の比較(係数:0.84)

スクリーンショット 2025-06-06 002418.png

閲覧数が多くてもコメントが少ない・ない動画もあるため妥当なラインですね!

データの描画してみて

今回はYoutubeの動画について分析してみました!

やっていて、こんなこともできるんだ~となったのは非常におもしろかったです!

ただ、今回は予測モデルを作成できずに終わってしまいました…(データの前処理が難しすぎる!)

今度はスコアが出せるように頑張りたいです~

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?