1. はじめに
自分が DatasetDict から特定のファイル, 列を選択するのにちょっと時間がかかったため、やり方を載せておきます
2. やり方
- 
DatasetDict を huggingface 経由でロードする from dataser import load_dataset dataset = load_dataset({dataset_name})
- 
データ選択の方法 
 特定のファイルを削除したいとき# 普通の辞書からの削除方法と一緒 # 今回は 'garbage_file' という名前のファイルを削除する del dataset['garbage_file']特定の列を削除したいとき # 今回は 'garbage_column' という名前の列を削除する dataset = dataset.remove_columns('garbage_column')
3. 終わりに
huggingface 経由でデータをとることは多々あると思うので参考になればと思います