はじめに
私について
私はベイズ統計学について大学で専攻していたのですが、MLやLLMについてはあまり把握できていませんでした。
また、以前私のGemma2の論文概要の記事で取り上げたようなモデルがKaggleでも広く利用されているため、本アドベントカレンダーの機会にこれらの使い方を調査したいと考えました。
本記事の目的
そのため、本記事の目的は、LLMを学習させるのに必要のありそうなライブラリがなにかをまとめることとします。
コンペの詳細の内容については、nishimotoさんの2023-24年(上期)のKaggleコンペから学ぶ、NLPコンペの精度の上げ方や、それぞれのコンペの解説記事(後述)で綺麗にまとめられてくださっているため、適宜参考にしてください。
今年あったLLM関連のコンペと使用ライブラリや技術について
まず、今年開催されたLLM関連のコンペを調査し、それぞれの上位解法を調べます(漏れているコンペもあると思います)。
1 LLM Prompt Recovery
- 概要: LLMが生成したテキストから、元のプロンプトを推定するコンペティション。
- 期間: 2024年2月28日~4月17日
-
詳細な解説記事: s_shoheyさん Kaggle LLM Prompt Recoveryコンペまとめ
- キーワード:
- EndOfSentenceトークンの処理
- キーワード:
上位解法で使用されていたライブラリ: 参照元:Khoi Nguyenさん 1st place 0.71
- 参考: コード理解のためにリファクタ等を私が行ったもの
- How to generate text: using different decoding methods for language generation with Transformers に似た手法
- ファインチューニングするためのPeft, LoRAなど: LoRA
2. Automated Essay Scoring 2.0
- 概要: 学生のエッセイを自動的に採点するモデルを構築するコンペティション。
- 期間: 2024年4月4日~7月3日
-
詳細な解説記事:
- ML_Bearさん Kaggle Automated Essay Scoring 2.0 コンペ上位解法まとめ
- ttkk22(tk2)さん Kaggle Automated Essay Scoring 2.0 上位解法まとめ #NLP - Qiita
- キーワード:
- Quadratic Weighted Kappaの最適化
- CVとLBの乖離の際にCVを信じる
- Data-Centricに考えて学習をする
上位解法で使用されていたライブラリ: 参照元:Qamar mathさん "DeBERTa & LightGBM for Automated Essay Scoring"
- 参考: コード理解のために私がリファクタリングしたもの
- 使用ライブラリ:polars, transformers(Trainer, DataCollatorWithPadding, AutoModelForSequenceClassification), spacy
3. LLM 20 Questions
- 概要: 20の質問で秘密のキーワードを当てるゲーム形式のコンペティション。
- 期間: 2024年5月16日~8月30日
-
詳細な解説記事: Isaka-code(ねぼすけAI)さん Kaggle LLM 20 Questionsの解説と上位ソリューションまとめ #Python - Qiita
- キーワード:
- 二分探索
- LLM曖昧さ回避のための正規表現の利用
- レスポンスを減らすための事前にデータの保持
- キーワード:
上位解法で使用されていたライブラリ: 参照元: c-numberさん LLM 20 Questions Final Submissions
他のコンペも下の粒度でまとめたかったのですが、時間が取れなかったためこちらのコンペだけ以下の形式でまとめてみました。
最後に
上位のコードやその際に利用していたアルゴリズムの大枠について理解をできました。
こちらの記事を参考に、現在開催中のコンペなどの使用ライブラリの理解の役になれば幸いです。
以下LLMが関連していそうな現在開催中のコンペを記載しています。