#やりたいこと
オリジナルデータから読み込み、そのデータをkerasで扱う方法を勉強しておきたい。
##理由
MNISTデータを準備する方法として、下記のようにkeras.datasetsからの読み込む方法は最初の学習用としては良いが、
それだとデータの読み込みや前処理に関しての理解が深まらない。
オリジナルデータから読み込んでそのデータをkerasで扱う方法を勉強しておきたい。
以下はkerasから読み込む場合の方法。
なお、kerasのデータセットについてはこちらの記事で触れた。
from keras.datasets import mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
#MNISTのオリジナルデータについて
##データの入手先
以下のヤン・ルカンのサイトにMNISTのオリジナル(多分?)データが置いてある。
http://yann.lecun.com/exdb/mnist/
##データの拡張子
上記サイトにおいてあるデータは、gzで圧縮されている。
gzだからと言って、7zipで展開してもただのバイナリファイルとしてしか解凍できない。
##データのフォーマット
上記のサイトの下の方に「FILE FORMATS FOR THE MNIST DATABASE」というタイトルで
バイナリファイルののフォーマットが説明されている。
このフォーマットはとりあえずは読んでふーんと思っておけばよい。
##オリジナルデータの読み込み方法
実際には先人たちがその読み込みの実装方法を紹介しているため、
こちらの記事を参照