目的
文章の類似度を検索して、多数派意見は何人中何人いるのかというのを調べたいなあと。。。。そのために参考になる記事を個人的にまとめました~
目的としては自分が見返すためですが、この記事を見た方にも参考になればと思います。
記事一覧
・そもそもembeddingってなんだよって振り返ってみたくなったとき用の記事
https://zenn.dev/peishim/articles/c696ff85a539bd
・embedding を使用した類似度検索の手法を紹介した記事
https://qiita.com/takiatsushi/items/fe8ddbed315d81d5327e
・SentenceTransformer の精度を比較した記事
stsb-xlm-r-multilingualがよさそう!?
https://zenn.dev/welmo/articles/a79b8b45573383
・text-embedding-3
text-embedding-3-smallが少ない文章量の検索には最適なかんじ。
これがよさそー
https://weel.co.jp/media/tech/text-embedding-3/
・そもそもOpenAIのembedding はイケてるのかを調査した記事
結論そもそもOpenAIのembeddingはイケてるらしい(やっぱV3がいいって)
https://qiita.com/akeyhero/items/ce371bfed64399027c23
個人的な感想
いくつかの文章類似度の記事を読んでみましたが、結局は文章をどうベクトル化するのかが重要になってくるって感じですね。また、日本語に対応していないembeddingを使うと精度は全然ダメなようです。
類似度の計算は、基本的には cos類似度で計算するのが一般的というのもびっくり!(OpenAIのサイトでもcos類似度を推奨してるんだとか)もっと違う類似度計算を頭のいい人たちはやってるんだと思ってたらそんなことなかった笑
まだまだ、頭のいい人たちにしがみついていけそう~と一瞬勘違いした私でした。