AI を『使うだけ』から『AI に秘書を付ける』へ — 自宅 PC で動くおせっかい AI フレームワーク llive 開発日記
著者: 古瀬 和文(ぷるやん)
はじめに — 「AI に任せる」って実は怖い
最近、ChatGPT や Claude、Gemini など、便利な AI が次々と出てきました。仕事の文章を書かせたり、コードを書かせたり、子どもの宿題のヒントを聞いたり、ちょっとした調べ物に使ったり。
でも、こんなふうに思ったことはありませんか?
- 「会社の機密情報を AI に投げて大丈夫?」
- 「家族との会話の文字起こしを Google に送って平気?」
- 「医療記録を AI に分析させたら個人情報はどこへ行く?」
- 「電気代も気になる。クラウドで動かすと月いくら?」
- 「ネットが切れたら何もできなくなる?」
- 「AI が間違ったことを言っても誰が責任を取るの?」
実は、これらの懸念にきちんと答えてくれる AI ツールは、まだ世の中にあまりありません。便利な AI は基本的にクラウド頼みで、データはどこかの大きな会社のサーバに送られて処理されます。
私が今作っている llive (リブ) という研究開発フレームワークは、この問題に正面から取り組んでいます。一言で言うと:
「AI 本体」ではなく、「AI を使いこなす秘書」を作る研究
今日 (2026 年 5 月 17 日) 1 日で、要件 32 件追加 + プログラム約 2200 行 + テスト 78 件追加 + ベンチマーク 4 種類実施 + 記事 11 本公開、という結構な分量を進めたので、その内容を 非エンジニアの方にも分かるよう に整理しました。
llive を例えるなら — 「AI に秘書を付ける」感じ
AI を「優秀だけど忘れっぽくて、計算が苦手で、嘘もつく、責任感の薄い新入社員」 と想像してください。
[従来] [llive がやろうとしていること]
新入社員 (AI) に → 上司 (=人間) は新入社員に
直接仕事を依頼 指示書 (=Brief) を渡し、
秘書 (=llive) が以下を担当:
- 過去のやり取りを記録 (記憶)
- 危ない発言を止める (監査)
- 計算は電卓を使わせる (補完)
- 段取りを管理 (思考プロセス)
- 責任所在を残す (台帳)
つまり llive は「AI 本体を作り替える」のではなく、「AI の周りに被せて、苦手な部分を補い、危ない部分を止める仕組み」です。
中で動かす AI 本体は、Qwen (アリババの OSS LLM) や Llama (Meta の OSS LLM) を選べます。これらは大手企業が無料で公開しているもので、自宅 PC でも動かせます。
今日やったこと、5 つに絞って
1. AI に「タスク指示書 (Brief)」を渡せるようにした
これまでの llive は「ぽつん」と一言投げると一言返してくる感じだったのを、
brief_id: portal-refresh-2026-05-17
goal: |
ホームページのトップ画像を新製品に差し替えてほしい。
constraints:
- 既存のリンクを壊さない
- 画像サイズは 1MB 以内
success_criteria:
- 画像が表示される
- リンクテストが全部通る
approval_required: true # 危ない作業は人間の承認を必須に
のような「構造化された依頼書」で渡せるようにしました。会社で言うところの業務指示書のテンプレみたいなものです。
これにより:
- AI が「何をやればいいか」を最初から正確に把握できる
- 「やってはいけないこと」を最初に伝えられる
- 「完了条件」が明確なので、AI が勝手な解釈をしにくい
- 全部の作業記録が後から見返せる (議事録のように)
2. AI の「思考の癖」を 10 個に整理した
YouTube チャンネル「心理の深層」を見ていて、面白いことに気付きました。人間の思考って 10 種類の癖の組み合わせ で成り立っているらしいんです:
- 構造化 — 問題を分解する
- 再構成 — アイデアを組み替える
- 閉ループ — 確認しながら進める
- 自己拡張 — 道具や記憶を使う
- 不確実性 — 「分からない」を持ちこたえる
- 探索 — 試しにやってみる
- 整合 — 全体の辻褄を合わせる
- 来歴 — 経緯を覚えておく
- 多視点 — 別の角度から見直す
- 現実接続 — 実際の物に当てはめる
これを llive に組み込むと:
- 5 つはもう実装済み
- 3 つは既存の機能で対応済み
- 1 つは今日新しく作った
- 1 つだけが「これから」
つまり llive は 「人間の思考の癖を AI に持たせる」研究 とも言えます。
3. AI に「計算をさせない」仕組みを入れた
ChatGPT に「2.5 × 7.8 ÷ 0.3 はいくつ?」と聞くと、それっぽい数字を返してきますが、結構な確率で間違えます。AI は言葉が得意だけど、計算は得意じゃないんです。
そこで、llive は AI に計算させない設計 にしました。AI が「ここで計算が必要だ」と判断したら、電卓に渡す感じで決定論的に正確な答えを取得し、それを AI に「事実」として与える。
例えば:
- AI: 「速度 5 m/s で 3 秒移動したら何メートルですか?」
- llive (内蔵): 「距離 = 速度 × 時間 = 5 × 3 = 15 m」 (数式エンジンで計算)
- AI: 「15 m です。これは…」 (llive の計算結果を引用するだけ)
さらに 「単位の次元チェック」 も入れたので、AI が「5 m/s + 3 s = 8」みたいな単位が合わない式を出したら必ずエラーを返して止めるようになっています (5 m/s と 3 s は足せない量です。中学物理の話)。
4. ベンチマークの「変な勝ち方」を自分で見破った
AI 同士の性能比較 (ベンチマーク) を取ってみたら、最初の結果で llive が他の AI より圧倒的に速い という数字が出ました。
| AI | 応答時間 |
|---|---|
| llive | 約 0.15 秒 |
| クラウド AI (Perplexity) | 約 4 秒 |
| ローカル AI (ollama) | 約 18 秒 |
「やった、圧勝!」と言いたいところですが、ユーザーから「変に高速ですね、何かおかしくないですか?」と指摘を受けて、よく調べたら:
- llive 側は AI を実は呼んでいなかった (テンプレートで応答していた)
- 速度を測っている部分が AI の処理時間ではなく、プログラム起動時間 だった
- 比較対象 (chars 数) も AI の返答ではなく JSON 全体の長さ で測っていた
つまり「勝った気になっていただけ」でした。
そこで設計を直して、ちゃんと AI を呼ぶようにして再測定したら:
| AI | 応答時間 |
|---|---|
| llive (AI 内蔵) | 約 40 秒 |
| ローカル AI 直叩き | 約 15 秒 |
llive のほうが 2-4 倍遅い。理由は llive が AI に渡すプロンプトを丁寧に組み立てるので、AI の処理時間自体が長くなるからでした。
これを「llive の付加価値は速度ではなく構造 (記憶・監査・段取り)」と書いて公開しました。「失敗した数字を消す」ではなく「失敗を honest に出す」 のが研究では大事です。
5. AI 用クイズで「平均値・分散値」を測った
10 問のクイズ (算数 / 論理 / 知識 / 推論 / 創造性) を AI に解かせて、平均正答率と速度のばらつきを統計的に測りました:
| モード | 正答率 (10 問中) | 平均応答時間 |
|---|---|---|
| Debug モード (詳しい記録あり) | 6 問 | 22.3 秒 |
| Release モード (記録最小限) | 7 問 | 22.8 秒 |
観察:
- 詳しい記録を残す Debug モードでも、応答時間はほぼ変わらない (+1.8%) → 開発中ずっと記録を取っても性能は落ちない
- 正答率の差 (6 問 vs 7 問) は サンプル数 10 では誤差の範囲 (1 問の差は確率的揺らぎ)
「次は 30 問以上で、複数の AI モデルで、ちゃんと比較しよう」 と決めました。
なぜこれが大事か — 業界・社会への意義
自宅 PC で完結する AI = プライバシー革命
llive はネット接続なしで完全に自宅 PC 内で動作します。これは:
- 家族の会話の文字起こし をクラウドに送らずに要約できる
- 医療情報・診療記録 を病院内に閉じたまま AI 分析できる
- 企業の機密文書 を社外に出さずに整理できる
- 災害時にネットが切れても AI が引き続き使える
- 電気代だけで AI が動く (クラウド月額不要)
AI の責任所在を明確に
llive は AI のすべての判断を台帳 (ledger) に記録します。後から「いつ、誰が、何を、なぜ承認したか」が全部分かるので:
- 医療現場: AI が出した薬剤提案を医師がなぜ承認/却下したかが記録に残る
- 法律事務所: AI が起案した文書のどの部分が AI 由来か追跡可能
- 金融機関: AI が出した投資判断の全プロセスを監督官庁に提出可能
- 教育現場: AI が出した解答の引用元を全部辿れる
これは ChatGPT / Claude / Gemini の単独使用では絶対にできない領域です。
計算と単位を間違えない AI
特に 製造業 / 計測 / 物理 / 工学 / 医療 の現場では、AI が「5 m/s + 3 s = 8」のような単位を間違えた式を返してくると致命的です。llive はこれを自動で止めるので、安心して業務 AI として使えます。
「AI に置き換えられる」ではなく「AI と一緒に働く」
llive の TUI 画面 (llove) では、AI が「これでいいですか?」と聞いてきて、人間が承認/却下/修正できます。完全自動ではなく、人間が判断ループに必ず入る。
これは AI 失業の不安を減らす設計でもあります。
これからの展望
短期 (~3 ヶ月) — 今日の続き
- 数学と単位の計算エンジンを完成
- AI 思考プロセス (KJ法 / マインドマップ / 矛盾解決) の自動化
- AI の出力を Z3 という形式検証ツールで検算
中期 (~1 年) — llive 専用の小型 AI を作る
- 大手 AI (Qwen 14B など) から「llive 専用に圧縮した小型 AI」を蒸留
- 自宅 PC でもサクサク動く軽量版を目指す
長期 (~3 年) — 全く新しい AI 構造へ
- Transformer (今の AI の基本構造) に頼らない、llive 専用のアーキテクチャ
- 「AI が記憶を直接参照する」「人間の承認を必須にする」が AI 自体に組み込まれた設計
「AI を使うなら Qwen で十分」と言われない設計
ユーザーから鋭い指摘も受けました:
「差別化されていないと研究の価値がない。普及している AI を使った方がマシってなりそう」
その通りです。llive 単独では Qwen に勝てません (生成品質は Qwen そのもの)。
でも、こう考えるとどうでしょう:
「Qwen を 自宅 PC で安全に責任を持って使う なら llive が最短経路」
これは Qwen / Llama / Mistral が進化しても 変わらない価値 です。なぜなら:
- 記憶を保ち続けるのは llive
- 計算を間違えないのは llive
- 危ない発言を止めるのは llive
- 議事録を残すのは llive
- Local 環境で動かすのは llive
「AI 本体 (Qwen) と AI を使いこなす秘書 (llive) は別物で、両方必要」というポジションです。
おわりに — 1 日の振り返り
今日 1 日で、
- 32 件の要件追加
- 約 2200 行のプログラム実装
- 78 件のテスト追加 (全 1014 件 OK、不具合ゼロ)
- 4 種類のベンチマーク実施
- 11 本の技術記事 + 本記事 1 本の公開
を達成しました。1 日でこれだけ進められるのは、AI と一緒に開発しているから です (実装中の私の相棒は Claude Opus 4.7 という AI で、コードを書いてもらいながら、設計や戦略は私が判断しています)。
llive はまだ研究開発段階 (v0.6 = 開発中バージョン) ですが、プログラマー以外の方 でも、いずれは自宅 PC で安心して AI を使える未来を目指しています。
質問・感想・「こういう使い方ができたら嬉しい」というご要望は GitHub Issues や Twitter / X (@puruyan) までお気軽にお願いします。
本記事は技術者向けの詳細版 (同日 11 本 + Qiita 統合版 1 本) と並走する一般読者向けバージョン。専門用語を可能な限り平易な比喩に置き換えました。「自宅 PC で動く、おせっかいで、責任感のある AI 秘書」を作る研究、というのが llive のいちばん簡単な説明です。
関連リンク
- llive GitHub: https://github.com/furuse-kazufumi/llive
- FullSense umbrella (4 製品): https://github.com/furuse-kazufumi/fullsense
- 技術者向け詳細記事 (11 本): docs/articles/2026-05-17/
- 技術者向け Qiita 統合版: QIITA_SUMMARY.md