atamr
@atamr

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

tokenizeしたdata['train'][行数]['input_ids']に新たな行で['input_ids']を加える方法を知りたい。

解決したいこと

自然言語処理でストライドウィンドなるもので512を越えるトークンを分割し、区切ったトークンを新たなdataとして追加する方法を模索しています。data = DatasetDictを
tokenizeしたdata(data['train'][行数]['input_ids']で参照できる)に新たな行で['input_ids']を加える方法を知りたい。

解決方法を教えて下さい。

発生している問題・エラー

append,extendはエラーは発生しないが効果を発揮しない
出ているエラーメッセージを入力


該当するソースコード

model_name = "allenai/scibert_scivocab_uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

train_dataset = Dataset.from_pandas(df)
data = DatasetDict(
    {
        "train": train_dataset,
    }
)

data = data.map(lambda samples: tokenizer(samples["context"]), batched=True)

p=[101, 102, 103, 104, 105, 106, 107]
data['train'][-1]['input_ids'].append(p)
#または
#data['train'][-1]['input_ids'].extend(p)
print(data['train'][-1]['input_ids'])

自分で試したこと

bing chatやbardで聞いたところappendやextendを使用していて実装したがエラーは出ないもののprintで追加が確認できない。

0

1Answer

appendやextendを使用していて実装したがエラーは出ないもののprintで追加が確認できない。

もしかして、「イミュータブル」だから?
コピーしたオブジェクトに対してなら追加できるかも?

0Like

Your answer might help someone💌