勉強会の基本情報
- 【日 時】2024年10月03日 19:30~20:30
- 【会 場】Zoom Online
- 【参加費】無料
- 【主 催】StudyCo
- 【申し込み】https://studyco.connpass.com/event/330887/
概要
- 「トークン」とは何なのか、LLMにおいてどのような役割を果たしているかについて
資料
内容
- トークンナイザーとは
- トークンID
- Embedding層
- ボキャブラリー
- トークンナイズ手法
- トークンナイゼーション
- BPE
- WordPiece
- Unigram
- SenencePiece
感想
- LangchainのTextSplitterでテキストを分割する方法がいろいろあるが、TokenTextSplitterで分割することが一番いいはず
- CharacterTextSplitterでテキスト分割する時に、「こんにちは」を「こん」と「にちは」を分けると、LLMへ送信すると間違い意味の言葉が出てしまう
- 逆にTokenTextSplitterで分割すると上記の問題がないはず