0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

AMBL株式会社Advent Calendar 2022

Day 14

Simple ML for Sheetsでkaggleのコンペに参加してみる

Posted at

はじめに

こんにちは!AMBL株式会社に21卒で入社した傍示です。現在は画像系AIアプリのインフラ周りをを主に担当させて頂いております。この記事はAMBL株式会社 Advent Calendar 2022の14日目の記事です。

この記事では12月8日に発表されたスプレッドシートでAutoMLを試すことができるツールSimple ML for Sheetsを使ってkaggleの練習用コンペに参加してみます!
また、このツールを使いたい人のために導入の仕方から簡単な機能を紹介しますので興味を持った方はぜひ利用してみてください。

必要なもの

  • google アカウント
  • kaggle アカウント(kaggleに実際に投稿まで行うので) kaggle公式サイト

準備

Simple ML for Sheetsのインストール

Simple ML for Sheetsはgoogleの拡張機能ですので、
まずは次のページからインストールを行ってください。

Simple ML for Sheetsのインストールサイト
無題.png

スプレッドシートの準備

googleアプリからスプレッドシートを選択し、空白の新しいスプレッドシートを作成してください。

無題.png
無題2.png

拡張機能の部分にSimple ML for Sheetsの項目があればインストールは無事に完了しています。
無題3.png

拡張機能の部分にSimple ML for Sheetsの項目があればインストールは無事に完了しています。

利用するデータセットの紹介

今回はkaggleの回帰問題のチュートリアルとして有名なHouse Prices - Advanced Regression Techniquesを使っていきます!

データの内容としてはアメリカ合衆国アイオワ州エイムズ市の戸建て住宅の価格を79個の変数から予測する表形式データの回帰問題になっています。

データの内容
詳しいコンペの情報については上記のURLから確認して下さい。

  • 目的変数:SaleCondition(戸建て住宅の値段)
  • 説明変数:家の面積や築年数、その他プール・地下室などの家の設備に関する情報79個
  • 学習データ:1460件
  • 予測データ:1459件
  • 評価指標: RMSE(二乗平均平方根誤差) 小さければ小さいほどスコアが良い

Kaggleのデータを使った回帰モデルの構築

Kaggleでダウンロードしたデータセットをスプレッドシートの「ファイル」→「インポート」で読み込んでください。

今回は

  • train(学習用)
  • test(予測用)
  • sample_submission(提出ファイル用)

の3つのシートを利用します。

無題3.png

スプレッドシートの拡張機能から「Simple ML for Sheets」を選択して「Start」を押すと右の選択欄が表示されますので自分の行いたい用途に
よって機能を選択してください。

機能一覧

  • Predict missing values : 他のシートの値を利用して欠損値の予測ができます
  • Spot abnormal values : データの異常値を検出することができます
  • Train a model : 機械学習モデルの学習ができます
  • Make predictions : 学習したモデルを利用して新しいデータに対して予測ができます
  • Evaluate a model : 学習したモデルの評価を行えます
  • Understand a model : 学習したデータセットの統計量の確認や特徴量重要度が確認できます
  • Export a model : 学習したモデルをColabやTensorflow Servingで利用できる形式で出力できます

詳しい使い方は公式チュートリアルを参照してください。
今回はモデルの学習と予測を試すのでTrain a modelMake predictionsを利用していきます。

無題2.png

Train a model

Train a modelでは以下の画像の項目を選択して学習を行います。
今回は下記の設定項目で進めていきます。

  • Name of the models(モデル名):test tree model
  • Label(目的変数):SalesPrice
  • Source columns(説明変数の設定):設定なし
  • Advances options Learning algorithm(学習するモデルの選択):Gradient Boosted Trees

項目を選んでTrainを押すと学習が開始されます。

無題22.png

Make predictions

Make predictionsではTrain a modelで選択したモデルをModelで選択し、Predictを押すと予測が開始されます。
予測結果はPred:SalsePriceとして新しいカラムとして追加されます。
この予測結果をsample_submissionに貼り付けてcsv形式でダウンロードすればkaggleに提出できます。

設定項目もそこまで多くなく、データを用意した後はマウス操作で簡単に予測まで行えるのでとても便利だと思いました。
では次章で実際にkaggleに結果を出してみましょう!

無題.png

kaggleの順位

順位は3351位/4592(上位73%)でした!
特徴量エンジニアリングは全然していないので納得の順位です笑
また自分で特徴量エンジニアリングをした後のデータでも試してみたいと思います。

無題3.png

まとめ

今回はスプレッドシートから簡単にAuto MLを試せるSimple ML for Sheetsを使ってKaggleに挑戦してみました。

最近はプログラムを書けなくてもこうして気軽に機械学習が使える環境がどんどん整ってきているのでその内自分たちデータサイエンティストの仕事が無くなっちゃうのではとたまに考えています。

ただビジネス面でのアプローチの検討やよりきめ細かな特徴量エンジニアリングであったりモデル構築などまだまだ差別化できる点はあると思いますので、そういったニーズを満たせるようなデータサイエンティストになれるように今後も精進していければと思います!

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?