背景
勉強するために、章ごとにまとめよう!と思い立ったはいいものの、そもそも章立てするのが面倒くさい。
Notionで勉強ノートを作ろうとした時に、テーブルビューに1.1, 1,2 1,3……と書いていくには面倒くさいし、それを打つと思うと、そもそも勉強自体に手が伸びなくなる。
経験上、章立てした方が勉強効率が上がることはわかっているので簡単に作れないかPythonでやってみた。
章の構成をcsvに落とし込む
『Python機械学習プログラミング』を例に、章立てをやってみる。この本は18章あり、各所で区切りがある。
例えば1章の
「データから学習する能力」をコンピュータに与える
には、5つの見出しがある。それを1.5と表現したい。ただし、章のタイトルも失いたくないので、今回のcsvはこんな構成にした。
名前,章,見出し
「データから学習する能力」をコンピュータに与える,1,5
分類問題 - 単純な機械学習アルゴリズムの訓練,2,7
分類問題 - 機械学習ライブラリ scikit - learnの活用,3,6
.
.
.
見出しの列は、見出しの個数を意味している。
これを1列のcsvに落とし込み、次のような形をゴールとする。
作成
ライブラリにpandasを入れ、csvを読み込み構造を確認する。
import pandas as pd
df = pd.read_csv('original.csv')
df.head()
すると次のような項目であった。
名前 | 章 | 見出し | |
---|---|---|---|
0 | 「データから学習する能力」をコンピュータに与える | 1 | 5 |
1 | 分類問題 - 単純な機械学習アルゴリズムの訓練 | 2 | 7 |
2 | 分類問題 - 機械学習ライブラリ scikit - learnの活用 | 3 | 6 |
3 | データ前処理 - よりよいトレーニングセットの構築 | 4 | 3 |
4 | 次元削減でデータを圧縮する | 5 | 6 |
ループ処理で配列にそれぞれを入れ込んでいく。
この段階で気がついたけどDataFrameってデータを追加することをあんまり想定してないのね…
ということで配列に入れ込んでいく。
data = []
for i in range(df.shape[0]):
data.append(str(df.iloc[i,0]))
for j in range(df.iloc[i,2]):
# 0からカウントされるため
data.append (str(i + 1)+ "." + str(j + 1))
これ、カウントを1からにした方がいいかとも思ったがどのみち調整が必要になりそうだったのでとりあえずこれで。
リストをデータフレームに変換し、問題がない確認する。
# リストをデータフレームに変換
df_out = pd.DataFrame(data)
df_out
0 | |
---|---|
0 | 「データから学習する能力」をコンピュータに与える |
1 | 1.1 |
2 | 1.2 |
3 | 1.3 |
4 | 1.4 |
... | ... |
101 | 複雑な環境での意思決定 - 強化学習 |
102 | 18.1 |
103 | 18.2 |
104 | 18.3 |
105 | 18.4 |
106 rows × 1 columns
問題なさそうなので、csvで出力
df_out.to_csv('output.csv', index=False)
これをNotionに読み込むとこんな感じ。
まあ気になる点(項目のタイトルがない)が、それは結局最初のcsvではできないし、とりあえずこんな感じで良いではないだろうか?
これで「章立て作るのめんどくさい」という言い訳からは逃れられなくなった。