データ分析・機械学習の勉強をするのに「kaggleのデータを分析する」はよい方法です。
ただ、実際のkaggleのコードを見ていると、数百行も書かれていて読むのが挫折してしまいそうになります。
これは学習精度を上げるために「データ変換の前処理」「モデルのパラメータの調整」などを行っているためです。
実はモデルを作成してsubmitするためには、これらの処理は必要ありません。
一度、submitまで行ってから精度を上げるために前処理などを行えばよいです。
この記事では最短でsubmitする方法を解説します。
※前提として、この記事では「py拡張子」のスクリプトまたは「jupyter notebook」を使用します。
####最速でsubmitする手順
1.提出(submit)するファイルの形式を確認します。
2.必要なライブラリを読み込みます。
3.ファイル読込みます。
4.データをデータフレームに読み込みます。
5.機械学習をして学習モデルを作ります。
6.予測をして提出ファイルを作ります。
7.ファイルを提出します。
1.ライブラリをインポートする
まず機械学習に必要なライブラリをインポートします。
データ操作用にpandasをインポートします。
import pandas as pd
モデル作成用にskleanをインポートします。
分類問題の場合はクラス分類のアルゴリズム
from sklearn.tree import DecisionTreeClassifier
回帰問題の場合は回帰のアルゴリズムをインポートします。
##ファイルを読み込む
train = pd.read_csv('../input/train.csv')
test = pd.read_csv('../input/test.csv')
##データをデータフレームに読み込みます。
##機械学習をして学習モデルを作ります。
##予測をして提出ファイルを作ります。
##ファイルを提出します。
#参考の記事
タイタニック号乗客の生存予測モデルを立ててみる
https://qiita.com/suzumi/items/8ce18bc90c942663d1e6
データ分析で頻出のPandas基本操作
https://qiita.com/ysdyt/items/9ccca82fc5b504e7913a