More than 5 years have passed since last update.

kerasで利用できるデフォルトデータセット

Last updated at 2017-06-16Posted at 2017-06-13

kerasでデフォルトで利用できるデータセット

keras とは

kerasそのものについては過去記事参照

本記事について

本記事はkeras公式ドキュメントの情報をほぼほぼ引用し、自分用にまとめたものなので、
正確な情報の方が好ましい方はそちらを利用した方が良いかもしれません。

デフォルトで使えるデータセット

CIFA10 画像分類

from keras.datasets import cifar10
(X_train, y_train), (X_test, y_test) = cifar10.load_data()

10のクラスにラベル付けされた32x32カラー画像
50,000枚の訓練用画像データ
10,000枚のテスト用画像データ
返り値
- 2つのタプル
  - X_train, X_test: shape (nb_samples, 3, 32, 32)のRGB画像データのunit8配列
  - y_train, y_test: shape (nb_samples,)の0~9の範囲のカテゴリラベルのunit8配列

CIFAR100 画像分類

from keras.datasets import cifar100
(X_train, y_train), (X_test, y_test) = cifar10.load_data(label_mode='fine')

100のクラスにラベル付けされた32x32カラー画像
50,000枚の訓練用画像データ
10,000枚のテスト用画像データ
返り値
- 2つのタプル
  - X_train, X_test: shape (nb_samples, 3, 32, 32)のRGB画像データのunit8配列
  - y_train, y_test: shape (nb_samples,)の0~9の範囲のカテゴリラベルのunit8配列
引数
- label_mode: "fine"または"coarse"

MNIST(手書き数字データベース)

from keras.datasets import mnist
(X_train, y_train), (X_test, y_test) = mnist.load_data()

10個(0~9)の数字の28x28白黒画像
60,000枚の訓練画像データ
10,000枚のテスト用画像データ
返り値
- 2つのタプル
  - X_train, X_test: shape (nb_samples, 28, 28)の白黒画像データのunit8配列
  - y_train, y_test: shape (nb_samples,)のカテゴリラベル(0~9の範囲のinteger)のunit8配列
引数
- path: データをローカルに持っている場合、('~/.keras/datasets/' + path)。cPickleフォーマットではこの位置にダウンロードされる

IMDB映画レビュー感情分類

from keras.datasets import imdb
(X_train, y_train), (X_test, y_test) = reuters.load_data(path = "imdb_full.pkl",
                                                         num_words = None,
                                                         skip_top = 0,
                                                         maxlen = None,
                                                         seed = 113,
                                                         start_char = 1,
                                                         oov_char = 2
                                                         index_from = 3)

肯定/否定の感情でラベル付けされたレビューデータ
25,000個
レビューは前処理済みで各レビューは単語のインデックスのシーケンスとしてエンコードされている
単語はデータセットにおいての出現頻度によってインデックスされている
返り値
2つのタプル
- X_train, X_test: シーケンスのリスト、リストはインデックス
- 引数num_wordsに具体的な整数値を与えた場合、取り得るインデックスの最大値はnum_words - 1となる
- 引数maxlenに具体的な整数値を与えた場合、シーケンスの最大長はmaxlenとなる
  - y_train, y_test: integer型ラベル(1 or 0)のリスト
引数
- path: データをローカルに持っている場合、('~/.keras/datasets/' + path)。cPikleフォーマットではこの位置にダウンロードされる
- num_words: integer型またはNone、指定された数値だけ上位の頻出語が対象になる。指定された数値より下位の頻出語はシーケンスデータにおいて0と表される
- skip_top: integer型、指定された数値だけ上位の頻出語が無視される(シーケンスデータにおいて0と表される)
- maxlen: integer型、シーケンスの最大長。最大長より長いシーケンスは切り捨て
- seed: integer型、再読可能なデータシャッフルのためのシード
- start_char: この文字が系列の開始記号として扱われる。0は通常パディング用の文字なので、1以上からセットする
- oov_char: num_wordsかskip_topによって削除された単語を置換する
- index_from: 単語のインデックスはこのインデックス以上の数値が与えられる

ニューストピック

from keras.datasets import reuters
(X_train, y_train), (X_test, y_test) = reuters.load_data(path = "reuters.pkls",
                                                         num_words = None,
                                                         skip_top = 0,
                                                         maxlen = None,
                                                         test_split = 0.2,
                                                         seed = 113,
                                                         start_char = 1,
                                                         oov_char = 2
                                                         index_from = 3)

46トピックに分類
11,228個のロイターニュースワイヤーデータ
IMDBデータセット同様に各ワイヤーが一連の単語インデックスとしてエンコードされる
IMDBデータセット同様の仕様に次のパラメータが追加されている
- test_split: float テストデータとして使用するデータセットの割合
シーケンスをエンコードするのに使われる単語インデックスとしても利用できる
word_index = reuters.get_word_index(path="reuters_word_index.pkl")
引数
- path: データをローカルに持っている場合、('~/.keras/datasets/' + path)。cPikleフォーマットではこの位置にダウンロードされる
- num_words: integer型またはNone、指定された数値だけ上位の頻出語が対象になる。指定された数値より下位の頻出語はシーケンスデータにおいて0と表される
- skip_top: integer型、指定された数値だけ上位の頻出語が無視される(シーケンスデータにおいて0と表される)
- maxlen: integer型、シーケンスの最大長。最大長より長いシーケンスは切り捨て
- test_split: float型テストデータとして使用するデータセットの割合
- seed: integer型、再読可能なデータシャッフルのためのシード
- start_char: この文字が系列の開始記号として扱われる。0は通常パディング用の文字なので、1以上からセットする
- oov_char: num_wordsかskip_topによって削除された単語を置換する
- index_from: 単語のインデックスはこのインデックス以上の数値が与えられる

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up