【イベント概要】
【キカガク流AI入門セミナー】Kaggleではじめるデータサイエンス体験セミナーでプルス・ウルトラ!
【参加目的】
「kaggle」を通して機械学習やデータサイエンスの実務を疑似体験を通して勉強方法や手法などを勉強したかった。
→自分の中に落とし込むのには時間はかかるが切っ掛けに良かった
【内容】
Pythonを扱う場合、jupyter notebook を利用していますが、今回はgoogle colab、google ドライブを利用し環境構築をせず体験できました。
・参考google colab
続いて、kaggleコンペサイトより今回の題材である「titanic」で、どんな特徴を持った人達が生き残ったのかを乗客の名前、年齢、性別、乗船クラスなどの情報から推定し分析しました。
・参考kaggleコンペサイト
【実際の手作業】
kaggleから「titanic」の分析に必要なテストデータを取得し、データ数と特徴量を確認、欠損値の補完、モデルの構築を順を追って行っていきます。データを整形するという過程の重要性が分かりました。
「titanic」では歴史的背景で名前によって階級差があり、その差が生存率に大きな影響を示していました。講師の方が「ドメイン知識」とおっしゃっており、AIエンジニアだけでなく、そのデータを扱っている業務の人と相互にやり取りしないと良い結果が出ないといわれており、現在、発注側として関わっていますがその通りだと感じます。
圧倒的にAIへの知識は足りないので相互に補完しながらさらに勉強したいところです。講義資料にも消化しきれないほどコードがあったので、特徴量を変えながらモデル構築をしていきたいと思います。
【まとめ】
キカガクさん主催のセミナーは物凄くいいと思います。(個人的主観(笑))