#sklearn.datasets
datasetsの中には様々なデータセットが用意されている。詳細は次のリンクを参照。
scikit-learnのサンプルデータセットの一覧と使い方
#datasets.fetch_openml
return = datasets.openml(parameters)
でデータセットを取得することが可能。parameterでどのデータを取得するのか、どのような形式で取得するのかを指定する。
以下は公式ドキュメントの解説
sklearn.datasets.fetch_openml
##parameters
*sklearn.datasets.fetch_openml(name: Optional[str] = None, , version: Union[str, int] = 'active', data_id: Optional[int] = None, data_home: Optional[str] = None, target_column: Optional[Union[str, List]] = 'default-target', cache: bool = True, return_X_y: bool = False, as_frame: Union[str, bool] = 'auto')[source]¶
name:str, default=None
データセットの名前を文字列で与える。同じ名前のデータセットが存在するので、その場合はIDで指定する。IDと名前で同時に指定してはいけない。
version:int or ‘active’, default=’active’
nameが指定されている場合のみ与えることができる。データセットのバージョン。activeにすると最も古いバージョンが指定される。
data_id:int, default=None
データセットID。データセットに対し1対1で対応している。nameとversionを指定するか、IDを指定するかをえらぶ。
return_X_y:bool, default=False
このオブジェクトは戻り値としてデフォルトでBunchを返す。Bunchは辞書型のようなものらしい。この変数をTrueにすると、データと目的変数を別で戻り値として設定する。それはnp.arrayやpd.Seriesなどで返すことができる。