0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

トークナイザー入門勉強会に参加しました

Posted at

勉強会の基本情報

概要

  • 「トークン」とは何なのか、LLMにおいてどのような役割を果たしているかについて

資料

内容

  • トークンナイザーとは
  • トークンID
  • Embedding層
  • ボキャブラリー
  • トークンナイズ手法
  • トークンナイゼーション
    • BPE
    • WordPiece
    • Unigram
    • SenencePiece

感想

  • LangchainのTextSplitterでテキストを分割する方法がいろいろあるが、TokenTextSplitterで分割することが一番いいはず
    • CharacterTextSplitterでテキスト分割する時に、「こんにちは」を「こん」と「にちは」を分けると、LLMへ送信すると間違い意味の言葉が出てしまう
    • 逆にTokenTextSplitterで分割すると上記の問題がないはず
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?