@atamrposted at 2023-11-03

tokenizeしたdata['train'][行数]['input_ids']に新たな行で['input_ids']を加える方法を知りたい。

Q&A

解決したいこと

自然言語処理でストライドウィンドなるもので512を越えるトークンを分割し、区切ったトークンを新たなdataとして追加する方法を模索しています。data = DatasetDictを
tokenizeしたdata（data['train'][行数]['input_ids']で参照できる）に新たな行で['input_ids']を加える方法を知りたい。

解決方法を教えて下さい。

発生している問題・エラー

append,extendはエラーは発生しないが効果を発揮しない
出ているエラーメッセージを入力

該当するソースコード

model_name = "allenai/scibert_scivocab_uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

train_dataset = Dataset.from_pandas(df)
data = DatasetDict(
    {
        "train": train_dataset,
    }
)

data = data.map(lambda samples: tokenizer(samples["context"]), batched=True)

p=[101, 102, 103, 104, 105, 106, 107]
data['train'][-1]['input_ids'].append(p)
#または
#data['train'][-1]['input_ids'].extend(p)
print(data['train'][-1]['input_ids'])

自分で試したこと

bing chatやbardで聞いたところappendやextendを使用していて実装したがエラーは出ないもののprintで追加が確認できない。

0 likes

Are you sure you want to delete the question?