はじめに
こんにちは!AMBL株式会社に21卒で入社した傍示です。現在は画像系AIアプリのインフラ周りをを主に担当させて頂いております。この記事はAMBL株式会社 Advent Calendar 2022の14日目の記事です。
この記事では12月8日に発表されたスプレッドシートでAutoMLを試すことができるツールSimple ML for Sheetsを使ってkaggleの練習用コンペに参加してみます!
また、このツールを使いたい人のために導入の仕方から簡単な機能を紹介しますので興味を持った方はぜひ利用してみてください。
必要なもの
- google アカウント
- kaggle アカウント(kaggleに実際に投稿まで行うので) kaggle公式サイト
準備
Simple ML for Sheetsのインストール
Simple ML for Sheetsはgoogleの拡張機能ですので、
まずは次のページからインストールを行ってください。
Simple ML for Sheetsのインストールサイト
スプレッドシートの準備
googleアプリからスプレッドシートを選択し、空白の新しいスプレッドシートを作成してください。
拡張機能の部分にSimple ML for Sheetsの項目があればインストールは無事に完了しています。
拡張機能の部分にSimple ML for Sheetsの項目があればインストールは無事に完了しています。
利用するデータセットの紹介
今回はkaggleの回帰問題のチュートリアルとして有名なHouse Prices - Advanced Regression Techniquesを使っていきます!
データの内容としてはアメリカ合衆国アイオワ州エイムズ市の戸建て住宅の価格を79個の変数から予測する表形式データの回帰問題になっています。
データの内容
詳しいコンペの情報については上記のURLから確認して下さい。
- 目的変数:SaleCondition(戸建て住宅の値段)
- 説明変数:家の面積や築年数、その他プール・地下室などの家の設備に関する情報79個
- 学習データ:1460件
- 予測データ:1459件
- 評価指標: RMSE(二乗平均平方根誤差) 小さければ小さいほどスコアが良い
Kaggleのデータを使った回帰モデルの構築
Kaggleでダウンロードしたデータセットをスプレッドシートの「ファイル」→「インポート」で読み込んでください。
今回は
- train(学習用)
- test(予測用)
- sample_submission(提出ファイル用)
の3つのシートを利用します。
スプレッドシートの拡張機能から「Simple ML for Sheets」を選択して「Start」を押すと右の選択欄が表示されますので自分の行いたい用途に
よって機能を選択してください。
機能一覧
- Predict missing values : 他のシートの値を利用して欠損値の予測ができます
- Spot abnormal values : データの異常値を検出することができます
- Train a model : 機械学習モデルの学習ができます
- Make predictions : 学習したモデルを利用して新しいデータに対して予測ができます
- Evaluate a model : 学習したモデルの評価を行えます
- Understand a model : 学習したデータセットの統計量の確認や特徴量重要度が確認できます
- Export a model : 学習したモデルをColabやTensorflow Servingで利用できる形式で出力できます
詳しい使い方は公式チュートリアルを参照してください。
今回はモデルの学習と予測を試すのでTrain a modelとMake predictionsを利用していきます。
Train a model
Train a modelでは以下の画像の項目を選択して学習を行います。
今回は下記の設定項目で進めていきます。
- Name of the models(モデル名):test tree model
- Label(目的変数):SalesPrice
- Source columns(説明変数の設定):設定なし
- Advances options Learning algorithm(学習するモデルの選択):Gradient Boosted Trees
項目を選んでTrainを押すと学習が開始されます。
Make predictions
Make predictionsではTrain a modelで選択したモデルをModelで選択し、Predictを押すと予測が開始されます。
予測結果はPred:SalsePriceとして新しいカラムとして追加されます。
この予測結果をsample_submissionに貼り付けてcsv形式でダウンロードすればkaggleに提出できます。
設定項目もそこまで多くなく、データを用意した後はマウス操作で簡単に予測まで行えるのでとても便利だと思いました。
では次章で実際にkaggleに結果を出してみましょう!
kaggleの順位
順位は3351位/4592(上位73%)でした!
特徴量エンジニアリングは全然していないので納得の順位です笑
また自分で特徴量エンジニアリングをした後のデータでも試してみたいと思います。
まとめ
今回はスプレッドシートから簡単にAuto MLを試せるSimple ML for Sheetsを使ってKaggleに挑戦してみました。
最近はプログラムを書けなくてもこうして気軽に機械学習が使える環境がどんどん整ってきているのでその内自分たちデータサイエンティストの仕事が無くなっちゃうのではとたまに考えています。
ただビジネス面でのアプローチの検討やよりきめ細かな特徴量エンジニアリングであったりモデル構築などまだまだ差別化できる点はあると思いますので、そういったニーズを満たせるようなデータサイエンティストになれるように今後も精進していければと思います!