発生したエラー
pip install datasets
でdatasetsライブラリを3.6から4.0にupdateしたらunslothのコードでエラーが起こるようになった。
実行したコードと表示されていたエラーはこちら。
from datasets import load_dataset
dataset = load_dataset("mlabonne/FineTome-100k", split = "train")
ValueError: Feature type 'List' not found. Available feature types: ['Value', 'ClassLabel', 'Translation', 'TranslationVariableLanguages', 'LargeList', 'Sequence', 'Array2D', 'Array3D', 'Array4D', 'Array5D', 'Audio', 'Image', 'Video', 'Pdf']
類似の報告とその中での対処
githubやQiitaでも同じ事象を報告している人がいて、基本的にはdatasetsライブラリのバージョンを下げるのが対処のようだった。
https://github.com/huggingface/lerobot/issues/1571
https://github.com/huggingface/lerobot/issues/1538
https://github.com/huggingface/datasets/issues/7676
https://qiita.com/tetsuro731/items/783afb42f9a36787262b
あと、load_datasetdownload_mode="force_redownload"オプションがあるのでそれを使ってみましたが、それでも動作しませんでした。
対処方法
キャッシュされてるディレクトリで対象のファイルを直接消したら再ダウンロードするようになって解消しました。具体的には
~/.cache/huggingface/datasets
のファイルを見て対象のファイルを削除します。