はじめに
この記事は「ただただアウトプットを癖付けるための Advent Calendar 2024」に投稿した記事です。
最初の記事にも書いた通り、私は生物物理の実験を専門にしている研究者です。
最近はデータ解析のため機械学習のコード開発も行っており、幸いにもその成果がNeurIPSに採択されました。
前の記事でローカルLLMをAPIサーバーにしまして、他のAIサービスのバックエンドとして機能するようにしました。
今回はさらに、hugging faceからLLMを導入することを試してみました。
最近になって、国産LLMのまとめページを知りました。
せっかくなので、ここで紹介されている日本語LLMを試してみることにしました。
関連記事
前の記事「【生物物理屋による論文紹介】ハイパーグラフと層」
次の記事「生物物理屋がSIGNATEの初心者向け課題に挑戦してみた話」
hugging face
hugging faceは、自然言語処理のためのモデルを提供しているサービスです。
こちらからアクセスできます。
ここには、言語モデルが多数提供されており、その中には日本語のモデルもあります。
言語モデルの提供というのは、学習済みのモデルを提供するということです。
モデルのフレームワークのみならず、学習済みのニューラルネットワークの重みも提供されているので、これを使えば簡単に自然言語処理のタスクを解くことができますし、これを事前学習済みのモデルとしてファインチューニングを行うこともできます。
日本語LLM
日本語LLMは、日本語の言語モデルです。
上のページにもリストアップされているように、英語の学習済みモデルを転移学習したものであったり、あるいは日本語のコーパスを使って一から学習したものがあります。
このリストのすべてがhugging faceに提供されているわけではありませんが、いくつかは提供されています。
今回は、EhimeNLP/AcademicRoBERTaを使ってみることにしました。
このモデルは愛媛大学人工知能研究室が作成したもので、RoBERTaをベースにしています。
と思いましたが、hugging faceに上がっていてもollama用のファイルがありませんでした。
なので、まずは7shi/tanuki-dpo-v1.0を使ってみます。
モデルの導入
とても簡単です。
ollama run 7shi/tanuki-dpo-v1.0
これを実行すると、モデルがダウンロードされ、そのまま使うことができます。
使ってみる
今回は、ターミナル上でそのまま使ってみます。
以前、llamaで日本語入力を試した時と比べると、かなり自然な文章が生成されるようになっているようです。
>>> こんにちは!
こんにちは!お元気ですか?今日はどんなお手伝いが必要ですか?
>>> 形態形成における細胞遊走の重要性について教えてください
形態形成における細胞遊走(セルラー・ムービメント)は非常に重要な役割を果たします。まず、細胞遊走とは、未分化または特定の方向に移動する細胞が新しい組織や器官を形成するために周囲の環境と相互作用しながら移動する現象を指します。このプロセスは胚発生の初期段階から成人期に至るまで続いており、組織の形状や機能を決定する上で不可欠です。
形態形成において細胞遊走が重要なのは、以下のような理由があります(1) 組織のパターン形成: 初期の胚では、特定のシグナル分子や成長因子によって細胞群が誘導され、これが細胞間のコミュニケーションを通じて複雑なパターンを形成します。この過程で細胞遊走が重要な役割を果たします。
次に、細胞遊走は組織の分化と運命決定にも関与しています。特定のシグナルや環境条件によって、細胞がどの方向に動くかが決まり、その結果として異なる種類の細胞に分化します。例えば、神経管の形成や血管網の構築など、精密なパターン形成には細胞遊走の精密な制御が必要です。
さらに、組織再生やがん研究においても細胞遊走の理解は重要です。損傷を受けた組織や腫瘍内での異常な細胞移動は、新しい病変部位への定着や転移に寄与することがあります。これを理解することで、治療戦略の開発や予防策の設計が可能になります。
最後に、細胞遊走は発生過程だけでなく、再生医療やバイオエンジニアリングにおいても応用されています。人工的に制御された細胞移動システムを構築することで、損傷した組織の修復や新しい臓器の作成が期待されています。
このように、細胞遊走は形態形成において中心的な役割を果たし、生物の多様な機能と構造を支える重要なプロセスです。理解を深めることで、発生学、医学、工学など多岐にわたる分野での応用が広がります。