2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【個人開発】テックワード自動収集サービスを作って気づいた「英語が一次情報」という現実。うん。知ってた。

2
Posted at

image.png

はじめに

ITエンジニアとして働いていると、毎日QiitaZennHatena Bookmarkのテクノロジーカテゴリなど、複数のサイトを巡回して情報収集するのが日課になっている人も多いと思います。自分もそうだったのですが、新しい技術を学ぼうと思ったとき、これらのサイトを一つ一つ見て回るのは結構な手間です。そこで「キーワードを登録しておけば、関連する記事を自動で集めてきてくれるサービス」があったら便利なのでは、と思い立ちました。最近は量子コンピュータに興味があり、まずはこの分野の情報を効率よく集めたいというのが開発のきっかけでもあります。

サービスの概要

作ったのは、ITキーワードを登録すると関連記事を自動収集し、おすすめ順に並べてくれるサービスです。10個ぐらいの主要サイトからスクレイピングに近い形で記事を集め、AIが採点してランキング化します。要約機能もつけたので、一覧を眺めるだけでも有益な情報が得られるようになっています。現状は量子コンピュータの情報を集めていますが、キーワードを追加すればAI、ロボット、あるいはもっとピンポイントにClaude Codeといった具体的なサービス名でも情報を集められる仕組みになっています。

image.png

LLM as a Judgeという手法

記事の採点にはLLM as a Judgeという手法を採用しました。これはAIに採点させるアプローチで、人間が一つ一つ評価するよりも効率的に大量の記事を処理できます。ここはかなりトライアンドエラーを繰り返した部分で、モデルの選定や評価方法を何度も見直しました。

Azure AI APIとモデル選定の試行錯誤

ローカルでClaude Codeを使うのとは違い、Web上で動かすにはAPIを使う必要があります。Azure OpenAI Serviceを採用し、GPT-4oベースのモデル、技術特化のCodex、複数回ジャッジによる精度向上など、さまざまなアプローチを試しました。モデルを複数回通すことで精度が上がるのでは、という仮説も検証してみました。

コストという現実

ところが、良いモデルを使うと金額がかさみます。この仕組みだと数百の記事を複数回ジャッジするのでさらにコストは倍増します。当初の想定よりもずっとお金がかかることがわかり、アプローチの見直しを迫られました。

最終的なモデル構成

結局、1回のAPIコールでできるだけ多くの記事をまとめて渡し、安価なGPT-4o-miniで一次評価を行う形に落ち着きました。二次評価としてo3-miniを1回だけ通すようにしています。複数回・複数モデルで評価した場合と比べても、結果にそれほど差がなかったのでこの構成を採用しました。

ランキングの限界に気づく

20点満点で採点したとき、20点と19点の記事に本当に優劣があるのかという疑問が出てきました。100点と50点なら明確な差がありますが、100点と99点、あるいは90点との差はほとんど感じられません。点数で厳密にランキングするのは暴論に近いと感じ、方針を変えることにしました。

ランキングからおすすめ順へ

点数順には並べますが、「ランキング」ではなく「おすすめ順」という軽い表現に変えました。特におすすめの記事には自動でマークがつく仕組みにしています。結果的にはこの方針のほうが、利用者にとっても誠実な見せ方になったと思います。

英語が一次情報という現実

ここが今回一番書きたかった内容です。「量子コンピュータ」というキーワードで収集してみたところ、上位に来るのはほぼGoogle Newsなどの英語の記事でした。何度かやっても日本語の記事はTOP30件に対して1〜2件入るかどうか、という状況です。

(因みにパソコンならマウスを置けば概要の日本語訳が見えたりします)
image.png

AIに理由を聞いてみた

なぜそうなるのかAIに聞いたところ、「英語の情報が一次情報であり、日本語の情報は二次情報になるので、英語の記事がトップに来るのは当然です」という趣旨の回答でした。ITの世界では当たり前のことかもしれませんが、自分は今まで英語の情報を集めて勉強することを避けていたので、改めてAIにこの現実を突きつけられたのはビックリしました。

マネタイズの課題

実はAI APIの利用でまだ1日約100円ぐらいのコストがかかっています。キーワードを増やせばこの金額は倍々に増えていきます。有料サービス化を考えても、相当な利用者が集まらない限りAPI費用がペイできない構造になっています。

今後の構想

まずは無料でおすすめページを公開し、ユーザー登録すれば既読管理ができる仕組みを作る予定です。キーワードをどう増やしていくか、そのコストをどうまかなうかはまだ考え中です。画像や動画の表示も検討しましたが、現時点ではうまくいかなかったので保留にしています。

おわりに

このサービスを作ったことで「英語が一次情報である」という気づきを得られただけでも、作った意味はあったと思っています。あとは毎日このサイトを見ることで、自分自身の学習にも役立てていくつもりです。

実際に作ったサービスは以下で公開しています。現時点では公開しているのは、量子コンピュータだけです。今後は増やす予定だし、誰でも登録出来るようにする考えもあります。興味のある方はぜひ覗いてみてください。

TechDive: https://techdive.binnmti.net/articles

2
0
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?