リンクアンドモチベーションの木村と申します。
1年ほどバックエンドエンジニアをやっています。
2024年のAdvent Calendarへの投稿です。
今年のアドカレの社内テーマは「試す」ということで、『screenpipe』というOSSを使ってみました。
このツールは、PC作業中の画面や音声情報を記録・管理し、効率的な検索を可能にするものです。
背景
以前社内ハッカソンで、
- 「あの資料、どこにあったっけ?」
- 「この前◯◯さんにこんな話しなかったっけ?」
など、「思い出すのに時間がかかる・思い出せない」を解決したい!という気持ちから、
常にデータを収集し、常に質問から収集したデータを返せるツールを作りました。
二日間で実装できたのは2方向からの情報のインプットとアウトプットです。
- 音声情報とPCでアクティブになっている画像を文章化し、dbに保存
- 検索も音声と文字検索でdbのデータを呼び出す
なんとその延長とも言えるツールがハッカソンの次の日くらいに社内の人がXで見つけておりました。それが冒頭の『screenpipe』です。
公式ドキュメント
アーキテクチャ

左から
- 画面や音声によるインプット
- データの蓄積
- 分類や検索
- AIによるサマリーなど高度なデータ収集
となっています。
重要なのはプライバシーを守るために、全てのデータをローカルに保存している点です。
ハッカソンで同じような観点が出ていました。
さっそく動かしてみる
デスクトップアプリがあるようなので、ダウンロードして動かしてみました。機能は検索機能や保存したデータをテーブル上で見られる機能などがありました。

右上のボタンから、アクセス制限の状態やレコーディングのコントロールができるようです。


下記動画にある通り、自動で保存されたデータがどんどん追加されていることがわかります。
どのくらいの容量を使うのか?
ハッカソンの時に、「ずっと保存し続けるのはいいけど、容量がボトルネックだよね」という話をしていました。このscreenpipeを使った時の使用する容量やいかに
- input音声→約220KB/30秒
- output音声→約250KB/30秒
- 動画モニター→約3MB/1分
だいたい4MB/分なので、60分で240MB。
1日8時間で1.9GBとすると、100日で約190GBです。
すぐにPCが容量不足になりそうです。
やはり、この途方もない量のデータをどう扱うかが今後の課題ですね。
公式ドキュメントでは、「解像度を下げれば軽くなるよ」と書かれています。

効率が100倍くらいになれば勤める期間分くらいは溜められそうですが、いつになることやら。未来に期待です。
検索機能をAIで引き出してみる
こちらの検索機能で自動レコードしたデータから欲しい情報を検索できるようです。

ここでは、僕がOpenAIのAPI Keyを使って0.08ドルだけ使うことに成功した記録が残されています。
※この機能は残念ながらOpenAIのAPI Keyを登録してもうまく読み込まれず、溜まりに溜まったデータをAIでうまく引き出すことが叶いませんでした。(泣)
他にtimelineという機能もあり、こちらではAI APIが使えました。ここではスクリーンからキャプチャした動画の要約を行ってくれるようです。画像はYouTubeで海外の人がscreenpipeについての実装などの解説を行っている動画です。
動画:Creating an AI agent with Screenpipe
まだAI機能が不完全ですが、うまく連携してくれれば、いい感じでデータをまとめてくれそうです。先ほど取り上げた通り動画はデータ量がものすごいので、コストが少し心配です。
感想
現状まだ容量やAIコストが嵩張るところに課題があります。
しかし、業務中扱う情報をここまで徹底的に蓄積してくれて、かついつでも引き出せるエージェントが存在する世界を垣間見ることができたように思います。