More than 5 years have passed since last update.

Oracle Cloud で機械学習（Kaggle Titanic 問題）

Posted at 2020-06-01

こちらでも書いたように、ノーコード開発、ローコード開発の基盤としては、それぞれ一長一短あるのは当然であり、さらなる選択肢を探していたところ、Oracle APEX（Oracle Application Express）が目につきました。
それはそれで試してみているのですが、その中でさらに目についたのが、Oracle Machine Learningでした。

Oracle Cloud

そもそも、Oracle Cloud についてですが、Always Free が用意されています。
内容は、こちらの「常時無償のクラウド・サービスにはどのようなものがありますか?」を参照。

データベース
自律型データ・ウェアハウスと自律型トランザクション処理のどちらかを選択。合計2つのデータベース（それぞれ1 OCPUと20GBのストレージを搭載）。

コンピュート
2つの仮想マシン（それぞれ1/8 OCPUと1GBのメモリーを搭載）。

ストレージ
2つのブロック・ボリューム（合計100GB）。10GBのオブジェクト・ストレージ。10GBのアーカイブ・ストレージ。

その他のサービス
ロード・バランサ（1インスタンス、10Mbpsの帯域幅）。監視（5億個の取込みデータポイント、10億個の取出しデータポイント）。通知（1か月当たり100万の通知配信オプション、1か月当たり1,000件の電子メール）。アウトバウンド・データ転送（10TB/月）。

開始方法についてはこちらから。
スタート・ガイド

一つ引っかかったところして、住所入力時に日本語が入っていると（？）クレジットカード認証が通らないという現象がありました。

Oracle Machine Learning の基礎

Oracle Machine Learning の入門方法については、下記がわかりやすいと思いました。
Oracle Machine Learningを使った機械学習

ここに書いてあることですが、調べ物するときに混乱しないように抑えておくべきかなと思うこと。

Oracle Databaseには旧来よりAdvanced Analytics（2019年12月の名称変更で、Machine Learningとなりました）という、データベースに内包された機械学習関連の機能があります。

そして、このページでは下準備みたいな内容になっており、本番は、そこからさらに、下記にリンクされます。
Autonomous Database ML ハンズオン

これをやることで雰囲気は掴めると思います。
Oracle Machine Learningノートブック、Jupyter Notebook と同じようなことができますね。Apache Zeppelinベースであることを強調したいようですが、Jupyter Notebookの方がメジャーではないですかね。それと同等と言ってくれた方が伝わる気が。
なお、これも言葉が色々で分かりにくいですが、「Oracle Machine Learning ノートブック」が現時点での正式名称のようです。すぐ忘れてしまうので、画像も貼っておきます。

データベースの中の、「サービス・コンソール」＞「開発」メニューの中の「Oracle Machine Learningノートブック」からログインします。

調べていると「SQLノートブック」という言葉がよく出てきますが、新しい情報を調べる場合は、「Oracle Machine Learningノートブック」で調べた方が良いかもしれません。

入門してみた感想ですが、モデルや結果をテーブルで管理し、それらの操作を全てSQLでできるというのが良い。これはアプリと連携しやすいですね。

タイタニック問題にチャレンジ

ここからが本題で、これまでに学んだことを生かして、Kaggleのタイタニック問題にチャレンジしたいと思います。

基本的には、参考サイト
【Kaggle初心者入門編】タイタニック号で生き残るのは誰？
の流れで進めます。
こちらの参考サイトは、

Python 3.X
Pandas
Numpy
scikit-learn

を使うのですが、それらを使わずに、Oracle Machine Learningで行うということです。

データセットの確認＆事前処理

Kaggle のタイタニックのDataページ、左下から、CSVをダウンロードします。

ダウンロードしたCSVを、Oracle Cloud にアップします。方法は、上記入門情報によると、大きくふたつりますが、SQL Developer Web による方法の方が分かりやすいかなと思いますので、そちらでやります。
いったん、上記入門で、データベースは作ってある前提です。
作ってある、データベースを開き、[ツール]→[SQL Developer Web]です。
そこで、雲のマークの「新規表へのデータのアップロード」ボタンを押します。

そこに、まずはtest.csvをドロップ。データ・プレビュー画面はそのまま次へ、表定義の画面で、テーブル名や、列定義をこんな感じに変えておきます。

こんな感じで生成されます。

CREATE TABLE MLUSER.TITANIC_TEST 
    ( 
     PASSENGERID NUMBER , 
     PCLASS      NUMBER , 
     NAME        VARCHAR2(4000) , 
     SEX         VARCHAR2(4000) , 
     AGE         NUMBER , 
     SIBSP       NUMBER , 
     PARCH       NUMBER , 
     TICKET      VARCHAR2(4000) , 
     FARE        NUMBER , 
     CABIN       VARCHAR2(4000) , 
     EMBARKED    VARCHAR2(4000) 
    ) 
    LOGGING 
;

同様に、train.csvもアップします。

CREATE TABLE MLUSER.TITANIC_TRAIN 
    ( 
     PASSENGERID NUMBER , 
     SURVIVED    NUMBER , 
     PCLASS      NUMBER , 
     NAME        VARCHAR2(4000) , 
     SEX         VARCHAR2(4000) , 
     AGE         NUMBER , 
     SIBSP       NUMBER , 
     PARCH       NUMBER , 
     TICKET      VARCHAR2(4000) , 
     FARE        NUMBER , 
     CABIN       VARCHAR2(4000) , 
     EMBARKED    VARCHAR2(4000) 
    ) 
    LOGGING 
;

この状態で、ノートブックを開きます。そして、新しいノートブックを作成します。

ノートブックからSQLでSELECT文を実行し、データが入っていることを確認します。

%sql
SELECT * FROM TITANIC_TRAIN;

%sql
SELECT * FROM TITANIC_TEST;

データの基本情報の確認も、SQLで取得できますが、一つ一つ見なければいけないのは、ちょっと面倒ですね。上記入門ハンズオンの真似をするとこんな感じです。

select min(AGE), max(AGE), avg(AGE), stddev(AGE), count(1) - count(AGE) as nullcount from TITANIC_TRAIN;

全カラム一括で一覧で取得できる、pandasのdescribe()は便利ですね。

仕方ないので、欠損値確認もこんなSQLで行います。
（余談。VSCodeでCtrl + D / command + Dによる複数選択一括書き換えは便利。）

select 
count(1) - count(PCLASS) as PCLASS_nullcount,
count(1) - count(SEX) as SEX_nullcount,
count(1) - count(AGE) as AGE_nullcount,
count(1) - count(SIBSP) as SIBSP_nullcount,
count(1) - count(PARCH) as PARCH_nullcount,
count(1) - count(TICKET) as TICKET_nullcount,
count(1) - count(FARE) as FARE_nullcount,
count(1) - count(CABIN) as CABIN_nullcount,
count(1) - count(EMBARKED) as EMBARKED_nullcount
from TITANIC_TRAIN;

AGEが177件、CABINが687件、EMBARKEDが2件欠損があります。

欠損処理は、SQLで問題ないでしょう、
AGEを中央値で埋め、EMBARKEDをSで埋めます。SQLに不安がある時は、SQL Developerで先に確認できるのも、良いかなと思います。
（さらに余談。Macの場合、コード補完（テーブル名等）はcommand + space なのですが、このショートカットがSpotlight検索に割り当たっていたために保管が効かなかったので、Spotlight検索のショートカットを無効にしました）

SELECT MEDIAN(AGE) FROM TITANIC_TRAIN;

SELECT * FROM TITANIC_TRAIN
WHERE AGE IS NULL;

UPDATE TITANIC_TRAIN
SET AGE = (SELECT MEDIAN(AGE) FROM TITANIC_TRAIN)
WHERE AGE IS NULL;

SELECT * FROM TITANIC_TRAIN
WHERE AGE IS NULL;

ROLLBACK;

SELECT * FROM TITANIC_TRAIN
WHERE EMBARKED IS NULL;

UPDATE TITANIC_TRAIN
SET EMBARKED = 'S'
WHERE EMBARKED IS NULL;

SELECT * FROM TITANIC_TRAIN
WHERE EMBARKED IS NULL;

SELECT * FROM TITANIC_TRAIN
WHERE EMBARKED = 'S';

ROLLBACK;

これで反映すれば良いのですが、いったん確認だけしてROLLBACKしておいて、同じことをノートブックからもできます。
反映したら、再度欠損確認して、CABIN以外は0になっていることを確認します。

欠損データの処理の次はカテゴリカルデータの文字列を数字に変換します。
これもSQLで行います。

UPDATE TITANIC_TRAIN
SET SEX =
(CASE SEX WHEN 'male' THEN '0'
  WHEN 'female' THEN '1'
  ELSE SEX
  END
)
,EMBARKED =
(CASE EMBARKED WHEN 'S' THEN '0'
  WHEN 'C' THEN '1'
  WHEN 'Q' THEN '2'
  ELSE EMBARKED
  END
)
;

SELECT * FROM TITANIC_TRAIN;

ROLLBACK;

TITANIC_TESTも同様に行います。

select 
count(1) - count(PCLASS) as PCLASS_nullcount,
count(1) - count(SEX) as SEX_nullcount,
count(1) - count(AGE) as AGE_nullcount,
count(1) - count(SIBSP) as SIBSP_nullcount,
count(1) - count(PARCH) as PARCH_nullcount,
count(1) - count(TICKET) as TICKET_nullcount,
count(1) - count(FARE) as FARE_nullcount,
count(1) - count(CABIN) as CABIN_nullcount,
count(1) - count(EMBARKED) as EMBARKED_nullcount
from TITANIC_TEST;

--AGE 86,FARE 1

SELECT MEDIAN(AGE) FROM TITANIC_TEST;

SELECT * FROM TITANIC_TEST
WHERE AGE IS NULL;

UPDATE TITANIC_TEST
SET AGE = (SELECT MEDIAN(AGE) FROM TITANIC_TEST)
WHERE AGE IS NULL;

SELECT * FROM TITANIC_TEST
WHERE AGE IS NULL;

SELECT MEDIAN(FARE) FROM TITANIC_TEST;

SELECT * FROM TITANIC_TEST
WHERE FARE IS NULL;

UPDATE TITANIC_TEST
SET FARE = (SELECT MEDIAN(FARE) FROM TITANIC_TEST)
WHERE FARE IS NULL;

SELECT * FROM TITANIC_TEST
WHERE FARE IS NULL;

UPDATE TITANIC_TEST
SET SEX =
(CASE SEX WHEN 'male' THEN '0'
  WHEN 'female' THEN '1'
  ELSE SEX
  END
)
,EMBARKED =
(CASE EMBARKED WHEN 'S' THEN '0'
  WHEN 'C' THEN '1'
  WHEN 'Q' THEN '2'
  ELSE EMBARKED
  END
)
;

SELECT * FROM TITANIC_TEST;

予測モデルその1 「決定木」

Oracle Data Miningでサポートされているアルゴリズムについては、下記にドキュメントがあります。

概要
（しかし申し訳ないけど探しにくい・・・）

決定木、すなわち、デシジョン・テーブルのアルゴリズムでモデルを作成します。

CREATE_MODELプロシージャ

モデル作成は、call DBMS_DATA_MINING.CREATE_MODEL で行うわけですが、まず、そこで使用する設定を行います。

パラメタ設定

create table TITANIC_MODEL_DT_SETTING (setting_name varchar2(30),setting_value varchar2(4000));
insert into TITANIC_MODEL_DT_SETTING values ('ALGO_NAME', 'ALGO_DECISION_TREE'); -- ランダムフォレストを指定
insert into TITANIC_MODEL_DT_SETTING values ('PREP_AUTO', 'ON'); --自動データ準備をONに

ALGO_DECISION_TREEなので DT です。

モデル作成

call dbms_data_mining.create_model('TITANIC_MODEL_DT', 'CLASSIFICATION', 'TITANIC_TRAIN', 'PASSENGERID', 'SURVIVED', 'TITANIC_MODEL_DT_SETTING');

CLASSIFICATION とは何かというと、31.2.2 アルゴリズムの選択によると、ALGO_DECISION_TREE は「分類」であり、31.2.1 マイニング機能の選択によると、「分類」は、CLASSIFICATION ということです。

モデル評価（このままでは失敗）

-- TEST表のデータにモデルを適用
call dbms_data_mining.apply('TITANIC_MODEL_DT','TITANIC_TEST','PASSENGERID','TITANIC_MODEL_DT_APPLY_RESULT');
-- LIFTを計算
call dbms_data_mining.compute_lift('TITANIC_MODEL_DT_APPLY_RESULT','TITANIC_TEST','PASSENGERID','SURVIVED','TITANIC_MODEL_DT_LIFT','1');
-- 混同行列を計算
declare
	v_accuracy    number;
	begin
         dbms_data_mining.compute_confusion_matrix(v_accuracy,'TITANIC_MODEL_DT_APPLY_RESULT',
             'TITANIC_TEST','PASSENGERID','SURVIVED','TITANIC_MODEL_DT_CONFUSION_MATRIX');
         dbms_output.put_line('**** model accuracy ****: ' || round(v_accuracy,4));
    end;
/
-- 混同行列を表示
select * from TITANIC_MODEL_RF_CONFUSION_MATRIX;

混同行列とか、LIFTの計算とかは、上述の、Autonomous Database ML ハンズオンを参照。
ただ、今回はここは失敗します。タイタニックのTESTデータには、SURVIVED項目がないためです。ハンズオンでやっているように、TRAINデータをさらに分けて試すこともできると思いますが、とりあえず、TRAINデータを使うこともできました。

-- TEST表のデータにモデルを適用
call dbms_data_mining.apply('TITANIC_MODEL_DT','TITANIC_TRAIN','PASSENGERID','TITANIC_MODEL_DT_APPLY_RESULT');
-- LIFTを計算
call dbms_data_mining.compute_lift('TITANIC_MODEL_DT_APPLY_RESULT','TITANIC_TRAIN','PASSENGERID','SURVIVED','TITANIC_MODEL_DT_LIFT','1');
-- 混同行列を計算
declare
	v_accuracy    number;
	begin
         dbms_data_mining.compute_confusion_matrix(v_accuracy,'TITANIC_MODEL_DT_APPLY_RESULT',
             'TITANIC_TRAIN','PASSENGERID','SURVIVED','TITANIC_MODEL_DT_CONFUSION_MATRIX');
         dbms_output.put_line('**** model accuracy ****: ' || round(v_accuracy,4));
    end;
/
-- 混同行列を表示
select * from TITANIC_MODEL_DT_CONFUSION_MATRIX;

ACTUAL_TARGET_VALUE   PREDICTED_TARGET_VALUE   VALUE   
                    0                        1       9 
                    0                        0     540 
                    1                        0     167 
                    1                        1     175

そんなに精度良くない？

では、テストデータに適用して確認してみます。

新規データに予測モデルを適用

select 
    PASSENGERID, -- レコードを一意に識別したいときに利用
    prediction( TITANIC_MODEL_DT using *) as prediction, -- 予測
    prediction_probability( TITANIC_MODEL_DT  , '1' using *) as probability -- 予測が '1' である確率
from TITANIC_TEST;

probabilityまで出しておきながら、0.1代が連発していますが、そして1とかありますが。いったん、probabilityは出力しないようにして、結果をCSVに出力すれば提出できますね。

上げてみたところ、スコア0.65550でした・・・

まとめ

もちろん、dbms_data_mining のストアドを使えるようにならないといけないのですが、それもSQLとして実行できるというところが強みですね。

今後は、Oracle APEX からの呼び出しとか？（やってみたいけど・・・）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up