tokenizeしたdata['train'][行数]['input_ids']に新たな行で['input_ids']を加える方法を知りたい。
解決したいこと
自然言語処理でストライドウィンドなるもので512を越えるトークンを分割し、区切ったトークンを新たなdataとして追加する方法を模索しています。data = DatasetDictを
tokenizeしたdata(data['train'][行数]['input_ids']で参照できる)に新たな行で['input_ids']を加える方法を知りたい。
解決方法を教えて下さい。
発生している問題・エラー
append,extendはエラーは発生しないが効果を発揮しない
出ているエラーメッセージを入力
該当するソースコード
model_name = "allenai/scibert_scivocab_uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
train_dataset = Dataset.from_pandas(df)
data = DatasetDict(
{
"train": train_dataset,
}
)
data = data.map(lambda samples: tokenizer(samples["context"]), batched=True)
p=[101, 102, 103, 104, 105, 106, 107]
data['train'][-1]['input_ids'].append(p)
#または
#data['train'][-1]['input_ids'].extend(p)
print(data['train'][-1]['input_ids'])
自分で試したこと
bing chatやbardで聞いたところappendやextendを使用していて実装したがエラーは出ないもののprintで追加が確認できない。
0