1. はじめに
自分が DatasetDict から特定のファイル, 列を選択するのにちょっと時間がかかったため、やり方を載せておきます
2. やり方
-
DatasetDict を huggingface 経由でロードする
from dataser import load_dataset dataset = load_dataset({dataset_name})
-
データ選択の方法
特定のファイルを削除したいとき# 普通の辞書からの削除方法と一緒 # 今回は 'garbage_file' という名前のファイルを削除する del dataset['garbage_file']
特定の列を削除したいとき
# 今回は 'garbage_column' という名前の列を削除する dataset = dataset.remove_columns('garbage_column')
3. 終わりに
huggingface 経由でデータをとることは多々あると思うので参考になればと思います