More than 3 years have passed since last update.

Juliaでデータサイエンス100本ノック（構造化データ加工編）

Last updated at 2021-01-22Posted at 2020-08-02

データサイエンティスト協会によるデータサイエンス100本ノック（構造化データ加工編）をJuliaで解きました。

はじめに

わざわざ紹介するまでもありませんが、Juliaは書きやすくて実行が速いモダンな科学計算向け言語として昨今注目を集めています。ただ、まだデータをこねくりまわすコード例が少なく、前処理などの用途で使うには少しとっつきづらさも残っていると思います。つい先月公開されたデータサイエンス100本ノック（構造化データ加工編）はそんな日頃遭遇するデータ処理のタスクを効果的にカバーしているもので、Python、R、SQLでの回答例もついています。ということで、いっちょこれをJuliaでやって実地で使えるように練習しようと思い立ち、やってみました。いくぶんでも参考になるかもしれないので、あくまで一回答例として公開してみます。

コード

https://github.com/Ken-Kuroki/julia-100knocks-preprocess
上記リポジトリにてほぼ全問題への回答例を公開しています。テーブルのデータなどは含まず、Juliaでのnotebookのみ置いているので、あらかじめオリジナルのリポジトリを手元に用意してください。

ポイント

JuliaでRのtidyverseのようにテーブルを扱うため、DataFrames.jlを基本として、クエリ機能をDataFramesMetaで補っています。Rの %>%　に相当する |> でどんどん処理をつなげていけるのが便利です。ここでは使っていませんがDataFramesMeta.jlと同等の機能のライブラリとしてQuery.jlもあります。

そのほか、SQLに接続するためにLibPQ.jl、Julia版のScikitLearn.jl（Juliaに移植されている機能とPython呼び出しになる機能があります）、統計関係の関数でStatsBase.jl、Pythonでのimbalanced-learnに相当する機能を使うためにMLDataPattern.jl、そしてCSVファイルを取り扱うためにCSV.jlを用いています。

ここでは最適化はさして意識していないコードになっています。速度を意識する場面で使うにはなによりJuliaの高速化の出発点である「関数内でコードを実行すること」「グローバル変数へのアクセス回数は抑えること」が重要です。それだけで十分に速くなると思いますが、そのほかのテクニックについては公式ドキュメントのPerformance Tipsが非常に充実しているので気になる方は読んでみてください。

実行結果はPython版とおおむね一致することを基本的に確認しています。ただ、ソートアルゴリズムがPythonではstableなTim Sort （Merge sortとInsertion Sortの組み合わせ）であるのに対し、JuliaではQuick Sortが基本であるようで、きちんと検証したわけではありませんがおそらくその点に起因するソート結果の不一致が見られました。他にもミスや「こうした方がもっとスマートに書ける」などありましたらぜひコメントいただけたら幸いです。

ライブラリの用意

パッケージのインストールも行なってしまいます。最後の行はscikit-learnのPythonコードを呼び出すために必要です。

ENV["COLUMNS"]=240  # 描画する表の列数を増やす
ENV["LINES"]=10  # 行の数は制限（問題の指示とは異なるので好みに合わせて修正）

using Pkg

Pkg.add("DataFrames")
Pkg.add("DataFramesMeta")
Pkg.add("LibPQ")
Pkg.add("StatsBase")
Pkg.add("ScikitLearn")
Pkg.add("MLDataPattern")
Pkg.add("CSV")

using DataFrames
using DataFramesMeta
using LibPQ
using StatsBase
using Statistics
using Dates
using Random
using ScikitLearn
using MLDataPattern
using CSV

@sk_import preprocessing: (LabelBinarizer, StandardScaler, MinMaxScaler)

SQLとの接続

今回のサンプルデータはPostgreSQLから取るので、以下のようにして接続して取り出し、DataFrameを作ってやります。シェルスクリプトのように文字列中で $var で変数展開できます。

host = "db"
port = ENV["PG_PORT"]
database = ENV["PG_DATABASE"]
user = ENV["PG_USER"]
password = ENV["PG_PASSWORD"]
dsl = "postgresql://$user:$password@$host:$port/$database"
conn = LibPQ.Connection(dsl)

df_customer = DataFrame(execute(conn, "select * from customer"))
df_category = DataFrame(execute(conn, "select * from category"))
df_product = DataFrame(execute(conn, "select * from product"))
df_receipt = DataFrame(execute(conn, "select * from receipt"))
df_store = DataFrame(execute(conn, "select * from store"))
df_geocode = DataFrame(execute(conn, "select * from geocode"));

一部問題の回答と解説

トピック別に一部問題に絞って、問題文を引用しながらJuliaでの回答例とその解説を示します。ほぼ全問題の回答例は上記のリポジトリに用意してあります。

条件で絞り込み

006: レシート明細データフレーム「df_receipt」から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。

顧客ID（customer_id）が"CS018205000001"

売上金額（amount）が1,000以上または売上数量（quantity）が5以上

@linq df_receipt |>
    select(:sales_ymd, :customer_id, :product_cd, :quantity, :amount) |>
    where(:customer_id.=="CS018205000001", (:amount .>= 1000) .| (:quantity .>= 5))

5 rows × 5 columns

	sales_ymd	customer_id	product_cd	quantity	amount
	Int32?	String?	String?	Int32?	Int32?
1	20180911	CS018205000001	P071401012	1	2200
2	20180414	CS018205000001	P060104007	6	600
3	20170614	CS018205000001	P050206001	5	990
4	20190226	CS018205000001	P071401020	1	2200
5	20180911	CS018205000001	P071401005	1	1100

pandasなら .loc で列を絞ってから query() あたりを使うところでしょうか。DataFramesMeta.jlを活用してC#的なlinqで書くと非常にすっきりします。演算子の頭に . がつくのはvectorizeして適用する表記です。多用するので覚えておいてください。 where に複数の引数を与えるとand条件になり、or条件は .| で表します。また :foobar のようにコロンで始まるのは文字列に似ていますが Symbol 型で、同じ中身なら同じインスタンスである（equalityとidentityが等しい）という性質を持ちます。ここではだいたい文字列のようなものだと思っていただいて構いません。

正規表現で絞り込み

010: 店舗データフレーム（df_store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件だけ表示せよ。

# occursinをelement-wiseに使う。列名を指定するとその中身が展開されるのはここまでと同じ。
@linq df_store |>
    where(occursin.(r"^S14", :store_cd)) |>
    first(10)

10 rows × 10 columns

	store_cd	store_name	prefecture_cd	prefecture	address	address_kana	tel_no	longitude	latitude	floor_area
	String?	String?	String?	String?	String?	String?	String?	Decimal…?	Decimal…?	Decimal…?
1	S14010	菊名店	14	神奈川県	神奈川県横浜市港北区菊名一丁目	カナガワケンヨコハマシコウホククキクナイッチョウメ	045-123-4032	Decimal(0, 1396326, -4)	Decimal(0, 3550049, -5)	Decimal(0, 1732, 0)
2	S14033	阿久和店	14	神奈川県	神奈川県横浜市瀬谷区阿久和西一丁目	カナガワケンヨコハマシセヤクアクワニシイッチョウメ	045-123-4043	Decimal(0, 1394961, -4)	Decimal(0, 3545918, -5)	Decimal(0, 1495, 0)
3	S14036	相模原中央店	14	神奈川県	神奈川県相模原市中央二丁目	カナガワケンサガミハラシチュウオウニチョウメ	042-123-4045	Decimal(0, 1393716, -4)	Decimal(0, 3557327, -5)	Decimal(0, 1679, 0)
...	...	...	...	...	...	...	...	...	...	...
10	S14011	日吉本町店	14	神奈川県	神奈川県横浜市港北区日吉本町四丁目	カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ	045-123-4033	Decimal(0, 1396316, -4)	Decimal(0, 3554655, -5)	Decimal(0, 89, 1)

Pythonだと column_name.str. あたりをごにょごにょやるやつですね。こちらもJuliaのほうが直感的に書けると思います。 occursin.() と変な場所にドットが入っていますが、これもvectorizeの表記で、関数の場合は引数のかっこの前にドットを置きます。

ソート

019: レシート明細データフレーム（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

@linq df_receipt |>
    sort(order(:amount, rev=true)) |>
    transform(rank=competerank(:amount, rev=true)) |>
    select(:customer_id, :amount, :rank) |>
    first(10)

10 rows × 3 columns

	customer_id	amount	rank
	String?	Int32?	Int64?
1	CS011415000006	10925	1
2	ZZ000000000000	6800	2
3	CS028605000002	5780	3
4	CS015515000034	5480	4
5	ZZ000000000000	5480	4
6	ZZ000000000000	5480	4
7	ZZ000000000000	5440	7
8	CS021515000089	5440	7
9	CS015515000083	5280	9
10	CS017414000114	5280	9

こちらは微妙にすっきりしないケースです。昇順ソートなら

@linq df_receipt |>
    orderby(:amount) |>
    ...

と書くだけでいいのですが、DataFramesMeta.jlのorderbyは降順ソートをサポートしない（numericalな場合は符号を反転すればできますが、ここでは一般性を保ちたいので使いません。こちらのissue参照）ので、DataFrames本体の sort を使います。本来は sort(df, order(:col, rev=true)) のように使う関数ですが、linqの中では第一引数に当該データフレームが自動的に与えられるので、そこは省略します。他の関数も同様にlinqの中で使えるので、DataFrames.jlのドキュメントを見ながら読み替えてみてください。もちろん見やすさを気にしないならfirst(select(transfort(sort(... のようにlinqをやめてもかまいません。

ランキングをつけるのは非常に簡単で、 StatsBase.jlにさまざまなランキングの取り方をするための関数が用意されているので使うだけです。

集約

026: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）と古い売上日を求め、両者が異なるデータを10件表示せよ。

@linq df_receipt |>
    select(:customer_id, :sales_ymd) |>
    orderby(:customer_id, :sales_ymd) |>
    groupby(:customer_id) |>
    combine(:sales_ymd => last, :sales_ymd => first) |>
    where(:sales_ymd_last .!= :sales_ymd_first) |>
    first(10)

10 rows × 3 columns

	customer_id	sales_ymd_last	sales_ymd_first
	String?	Int32	Int32
1	CS001114000005	20190731	20180503
2	CS001115000010	20190405	20171228
3	CS001205000004	20190625	20170914
...	...	...	...
10	CS001215000040	20171022	20170214

pandasだったらgroupbyしてから agg({"col": ["min", "max"]}) するか、もしも非数値データが対象だったらソートしてから nth(0) と nth(-1) を使うべきところでしょうか。Juliaだとこの通り、Rの summarise() に相当する combine() でさまざまな集約関数を指定でき、その関数名が末尾に付加された列ができるのでそれらについて where をかけるという自然なコードが書けます。数値なので min と max を使った方が手っ取り早いですがあえて一般性のある実装を示します。もちろんほかにも普通の sum や mean などの集約関数も使えます。なお、件数を数えるときにはpandasでは count を使いますが、 Juliaでは length になります。

結合、集約、絞り込み

038: 顧客データフレーム（df_customer）とレシート明細データフレーム（df_receipt）から、各顧客ごとの売上金額合計を求めよ。ただし、買い物の実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが'Z'から始まるもの）は除外すること。なお、結果は10件だけ表示させれば良い。

@linq outerjoin(df_customer[:, [:customer_id, :gender_cd]],
                df_receipt[:, [:customer_id, :amount]],
                on=:customer_id) |>
    dropmissing(:gender_cd) |>
    where(:gender_cd .== "1") |>
    where(occursin.(r"^[^Z]", :customer_id)) |>
    groupby(:customer_id) |>
    combine(:amount => sum) |>
    transform(amount_sum = coalesce.(:amount_sum, 0)) |>
    first(10)

10 rows × 2 columns

	customer_id	amount_sum
	String?	Int64
1	CS021313000114	0
2	CS031415000172	5088
3	CS028811000001	0
...	...	...
10	CS040412000191	210

Joinもこのように簡単です。ここではjoinするDataFrameそれぞれ先に列を絞っています。顧客情報テーブルで gender_cd が missing であるエントリがあるので dropmissing() します。その上で与えられた条件で絞り込み、売り上げの合計を取り、売り上げがないために missing であるエントリは指示通り売り上げゼロとみなすためpandasの fillna()　に相当する coalesce.() してやります。行数はかさみますが素直に積み上げていくだけです。

関数を作って適用＆クロス集計

043：レシート明細データフレーム（df_receipt）と顧客データフレーム（df_customer）を結合し、性別（gender）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリデータフレーム（df_sales_summary）を作成せよ。性別は0が男性、1が女性、9が不明を表すものとする。

ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

# 一よりも上の位で切り捨てる関数を用意
# ÷はPythonの//に相当する商を求める演算
function digitfloor(x::Real, digit::Int64)
    d = digit
    return Int(floor(x÷10^d)*10^d)
end

# あとは適当に処理してunstackするだけ
@linq innerjoin(df_receipt, df_customer, on=:customer_id) |>
    select(:gender_cd, :age, :amount) |>
    transform(age_cd = digitfloor.(:age, 1)) |>
    groupby([:gender_cd, :age_cd]) |>
    combine(:amount => sum) |>
    unstack(:age_cd, :gender_cd, :amount_sum) |>
    rename([:age_cd, :male, :female, :unknown])

9 rows × 4 columns

	age_cd	male	female	unknown
	Int64	Int64?	Int64?	Int64?
1	10	1591	149836	4317
2	20	72940	1363724	44328
3	30	177322	693047	50441
4	40	19355	9320791	483512
5	50	54320	6685192	342923
6	60	272469	987741	71418
7	70	13435	29764	2427
8	80	46360	262923	5111
9	90	missing	6260	missing

いままではPythonと比較しながらSQLっぽく書ける強みを押してきましたが、今回はSQLっぽくない利点、つまり自由に関数を定義して手続き型で書けることを活用してみます。Pythonでの回答はその場で floor を使って上位の桁で丸めていますが、ここでは別途関数に独立させています。

その上でいままでと同様に列選択、変形、集約をして、 unstack で横持ちにしてクロス集計にしています。このあたりもpandasに慣れていれば戸惑うことはないでしょう。

One-hotエンコーディング

058: 顧客データフレーム（df_customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに抽出せよ。結果は10件表示させれば良い。

# StatModels.jlを使う手もあるが、ここではscikit-learnを呼んでみることにする。どちらにしてもArrayになってしまうのでwrapperを用意。
function get_onehot(df::DataFrame, col::Symbol)
    binalizer = LabelBinarizer()
    mapper = DataFrameMapper([(col, binalizer)])
    onehotdf = DataFrame(Int.(fit_transform!(mapper, copy(df))))
    rename!(onehotdf, [string(col, "_", each) for each in binalizer.classes_])
    return onehotdf
end

@linq hcat(df_customer[:, :customer_id], get_onehot(df_customer, :gender_cd)) |>
    first(10)

10 rows × 4 columns

	x1	gender_cd_0	gender_cd_1	gender_cd_9
	String?	Int64	Int64	Int64
1	CS021313000114	0	1	0
2	CS037613000071	0	0	1
3	CS031415000172	0	1	0
...	...	...	...	...
10	CS033513000180	0	1	0

機械学習の前処理でおなじみのone-hotエンコーディングをする問題です。scikit-learnのPythonコードを呼んでPython同様に処理できます。そのあと元データに hcat で横方向に結合しています。そのままではArrayになって列名も消えてしまうので、適宜そのあたりをお世話するwrapper関数を定義して使っています。

サンプリング

075: 顧客データフレーム（df_customer）からランダムに1%のデータを抽出し、先頭から10件データを抽出せよ。

n = nrow(df_receipt)
index = StatsBase.sample(1:n, n÷100, replace=false)
first(df_receipt[index, :], 10)

（出力は省略）

pandasは sample() があるので非常に便利ですが、JuliaのDataFrameにはありません。scikit-learnや MLDataPattern.jl を使えば直接サンプリングできるものの、ArrayとDataFrameの間の変換が必要でかえって煩雑なため、取り出すインデックスをサンプリングするという経路で解きます。

欠損値カウント

079: 商品データフレーム（df_product）の各項目に対し、欠損数を確認せよ。

Dict(zip(names(df_product), sum.(eachcol(ismissing.(df_product)))))

Dict{String,Int64} with 6 entries:
  "category_major_cd"  => 0
  "category_medium_cd" => 0
  "category_small_cd"  => 0
  "unit_cost"          => 7
  "unit_price"         => 7
  "product_cd"         => 0

これまでにも missing は出てきていましたが、その数をカウントする方法も改めて確認しておきます。JuliaでもPythonとほぼ同様にハッシュテーブルとしてのdictionaryが使えます。ただ、専用の記法はなく、 (key, value) のタプルを入れていって使います。というわけで列ごとの missing を数えて列名といっしょにzipすることでdictにしてやります。

平均値を結合

085: 顧客データフレーム（df_customer）の全顧客に対し、郵便番号（postal_cd）を用いて経度緯度変換用データフレーム（df_geocode）を紐付け、新たなdf_customer_1を作成せよ。ただし、複数紐づく場合は経度（longitude）、緯度（latitude）それぞれ平均を算出すること。

# いったん平均を取るために使う列だけで処理してから再度joinする
df_tmp = @linq innerjoin(df_customer,
                         @select(df_geocode, :postal_cd, :longitude, :latitude),
                         on=:postal_cd) |>
    select(:customer_id, :longitude, :latitude) |>
    groupby(:customer_id) |>
    combine(:longitude => mean, :latitude => mean);

df_customer_1 = innerjoin(df_customer, df_tmp, on=:customer_id);

df_customer には同じ customer_id で複数エントリ登録されている場合があるから注意しなさい、という問題だと思います。出力結果としてはオリジナルの列をすべて保持することが求められていますが、ずっと持ち続けようとすると緯度経度に集約関数を適用するときに他の列は集約してはいけないので困ってしまいます。回避方法はありそうですが、ここでは安直にいったん緯度経度だけに列を絞り、平均を取った上でオリジナルのテーブルに結合し直すことにします。

ふたつの緯度経度から距離計算

086: 前設問で作成した緯度経度つき顧客データフレーム（df_customer_1）に対し、申込み店舗コード（application_store_cd）をキーに店舗データフレーム（df_store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客の緯度・経度を用いて距離（km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示すれば良い。

# 緯度経度がDecimal型のままではdeg2radに入らないのでFloatにキャスト。ほかはPython版の式を移植しただけ。
function calc_distance(x1, y1, x2, y2)
    x1, y1, x2, y2 = deg2rad(Float64(x1)), deg2rad(Float64(y1)), deg2rad(Float64(x2)), deg2rad(Float64(y2))
    L = 6371 * acos(sin(y1)*sin(y2)
                    + cos(y1)*cos(y2)*cos(x1 - x2))
    return L
end

# 各カスタマーに対して店舗の緯度経度を取得
# joinの左右で列名が違う場合はこのようにon = :left => :rightとする
df_tmp = @linq innerjoin(@select(df_customer_1, :customer_id, :application_store_cd),
                         df_store,
                         on=:application_store_cd=>:store_cd) |>
    select(:customer_id,
           store_lat = :latitude,
           store_lon = :longitude);

# 顧客と店舗の緯度経度をjoin
df_tmp2 = innerjoin(@select(df_customer_1,
                            :customer_id,
                            customer_lat = :latitude_mean,
                            customer_lon = :longitude_mean),
                    df_tmp,
                    on=:customer_id);

# 距離を計算
df_tmp3 = @byrow! df_tmp2 begin
    @newcol distance::Array{Float64}
    :distance = calc_distance(:customer_lat, :customer_lon, :store_lat, :store_lon)
end;

@linq df_tmp3 |>
    orderby(:customer_id) |>
    first(3)

3 rows × 6 columns

	customer_id	customer_lat	customer_lon	store_lat	store_lon	distance
	String?	Decimal…	Decimal…	Decimal…?	Decimal…?	Float64
1	CS001105000001	Decimal(0, 3554137, -5)	Decimal(0, 13970238, -5)	Decimal(0, 3555135, -5)	Decimal(0, 1397132, -4)	1.47105
2	CS001112000009	Decimal(0, 355867, -4)	Decimal(0, 13970386, -5)	Decimal(0, 3555135, -5)	Decimal(0, 1397132, -4)	3.17301
3	CS001112000019	Decimal(0, 3557153, -5)	Decimal(0, 13974687, -5)	Decimal(0, 3555135, -5)	Decimal(0, 1397132, -4)	4.11684

列がごちゃごちゃになるのを避けるために分割して処理しています。まず顧客ごとに店舗を結合してその緯度経度を取り、そのあとで改めて顧客の緯度経度と合わせ、最後に距離を計算しています。Juliaは当然数値計算が得意なので特に困る要素はありませんが、Pythonで書くときよりも型を意識する場面は多い印象です。ここでは度からラジアンに単位変換する前にfloat型への変換が必要です。行数は多いですが書いているとそんなにしんどい感じではありません。

データセット分割

090: レシート明細データフレーム（df_receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月のモデル構築用データを3セット作成せよ。

df_tmp = @linq df_receipt |>
    transform(month = :sales_ymd .÷ 100) |>
    groupby(:month) |>
    combine(:amount => sum) |>
    orderby(:month);

# スライスを指定するときに1-originでboth-sides inclusiveなことに注意する
function split_data(df::DataFrame; start_offset::Int64, train_size=12, test_size=6, slide_window=6)
    train_start = 1 + start_offset*6
    train_end = train_start + train_size - 1
    test_start = train_end + 1
    test_end = test_start +test_size - 1
    return df[train_start:train_end, :], df[test_start:test_end, :]
end

df_train_1, df_test_1 = split_data(df_tmp, start_offset=0)
df_train_2, df_test_2 = split_data(df_tmp, start_offset=1)
df_train_3, df_test_3 = split_data(df_tmp, start_offset=2);

月次集計した仮テーブルを作り、適当に切り出す関数を定義して使ってやるだけです。ただし、Juliaだと1-originかつスライスが閉区間、つまり両端を含みます。そのため、Pythonでのクセで arr[1:5] と arr[5:10] とか分割すると真ん中が被ってしまいます。注意しましょう。

層化抽出

091: 顧客データフレーム（df_customer）の各顧客に対し、売上実績のある顧客数と売上実績のない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

# 売上実績ありの顧客に1のフラグを立てる
df_ifpurchased = @linq df_receipt |>
    select(:customer_id) |>
    unique() |>
    transform(if_purchased = (x -> 1).(:customer_id));

# 購買履歴を結合してmissingを0埋めすることで売上なしを示す
df_tmp = @linq leftjoin(df_customer, df_ifpurchased, on=:customer_id) |>
    transform(if_purchased = coalesce.(:if_purchased, 0));

まずは売上の有無のフラグとなる列を作ります。顧客テーブルに売上履歴テーブルを結合することを軸にして処理します。

# obddim=1を指定して縦長のテーブルであることを示す。
arr_sampled, _ = undersample((Array(df_tmp), df_tmp.if_purchased), obsdim=1)
df_sampled = DataFrame(arr_sampled)
rename!(df_sampled, names(df_tmp));

# 件数が揃っていることを確認
@linq df_sampled |>
    groupby(:if_purchased) |>
    combine(:customer_id => length)

2 rows × 2 columns

	if_purchased	customer_id_length
	Any	Int64
1	1	8306
2	0	8306

そのうえで売上のフラグを使ってMLDataPattern.jlにおまかせでundersamplingします。ただ、デフォルトでは列方向にエントリが入っている横長のテーブルを想定している（正確に言うと最後の次元が観測の次元。ドキュメント参照）ので、 obsdim=1 を与えて縦長のテーブルであることを示す必要があります。

なお、この記事では割愛していますが上記リポジトリに載せたP-076の解き方と同様に、scikit-learnの CrossValidation.train_test_split() でstratified samplingしてやるのも手です。

ファイル読み書き

094 （CSV保存、ヘッダーあり、UTF-8）

# CSVモジュールにお任せ。デフォルトの設定でOK
CSV.write("data/category_julia.csv", df_product_full)

P-097 （CSV読み込み、ヘッダーあり、UTF-8）

# 保存する時と書き方が対照的でないので戸惑うが、CSV.read()はdeprecatedなのでこちらで
df_read = DataFrame!(CSV.File("data/category_julia.csv"))

CSVファイルの読み書きもモジュールがあるので使うだけです。ほかのフォーマットでのデータ入出力に関しては、 HDF5を扱ったこちらの記事が参考になります。私が以前書いたFeatherフォーマットに関する記事もよろしければご覧ください。

まとめ

というわけで、ここでは抜粋のみ紹介しましたが、100問通してみたところ、Juliaで十分にやっていける印象を覚えました。pandasに機能では負けますが、むしろやりかたが多すぎず混乱が少ないですし、RやSQLのように見通しのよい書き方ができます。大きなデータフレームになったときの処理速度も気になるところですが、その点についてはちょっとした速度比較を以前書いたのでよかったら参考にしてください。

本記事の内容は、データサイエンティスト協会の作成されたコンテンツに基づいています。特に、問題文および出力結果はオリジナルのリポジトリの内容によるものを引用の範囲内で利用させていただきました。実践的で教育的価値の高いコンテンツを公開してくださったことに感謝いたします。

（追記）We’re hiring!

私が関わっているスタートアップ企業であるQuantomicsでは農業×ITの分野で一緒にデータ解析や技術開発をしてくださるサイエンティスト・エンジニアを募集しています。詳しくは弊社ウェブサイトをご覧ください。

144

168

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up