LLM・LLM活用 Calendar 2024
https://qiita.com/advent-calendar/2024/large-language-model
Day 1 投稿記事です。
LLMの勉強中です。
日本語LLMの課題で、思いついたことを記録します。
英語のLLMは、有用なデータが大量にあり、かつ単語が分かれており、計算気処理が日本語に比較して簡単です。
data
日本語および漢字データであれば、インドの知識を漢字にしたデータ、中国の漢字のデータ、日本語の古典など、日本語LLMを作成するために有用なデータを組織化できていないようにお聞きしています。
日本語情報処理のいろは。日本語(13)
https://qiita.com/kaizen_nagoya/items/5030f9c6165b523b7f82
文字コード、文字フォント
漢字データを電子化して利用するには、文字鏡フォントがある。
文字鏡フォント。追悼 古家 時雄。日本語(2)
https://qiita.com/kaizen_nagoya/items/64c2ff25271ea8ebf2b0
日本語語彙大系
日本語語彙大系 追悼:白井諭。Lisperへの敬意を込めて。
https://qiita.com/kaizen_nagoya/items/e41ed513c8686841399b
関連資料
追悼 白井諭 古家時雄 銀林純 清水吉男
https://qiita.com/kaizen_nagoya/items/8615a34ef6fd5b6a5ad9
機械学習で手書き漢字をどれくらい読み取れるか, AI(35) 日本語(4)
https://qiita.com/kaizen_nagoya/items/16e38841f022a278830f
日本語の仕様または設計があると嬉しい事例
https://qiita.com/kaizen_nagoya/items/7f8152eef4e68af2a06e