0

Gemini音声で字幕生成＆課金機能実装進捗報告

Posted at 2025-05-14

個人開発進捗報告（字幕生成＆ユーザー管理機能の実装状況）

こんにちは。今回も個人開発の進捗をまとめて共有します。

1. 音声認識＆字幕生成機能の改良

既存の自動カットリポジトリを改造し、Gemini 2.5 の音声機能を使って字幕（SRTファイル）を生成できるようにテストしました。
ハラスメントレスポンスも問題なく返ってきて一安心。
現状、素材を変えて実行したところ、エラーが出たり出なかったりと不安定な部分があります。
セーフティ情報を使わない設定にできないか検討中。

2. モデルやデプロイ計画の検討

モデルを変えて動作検証を進めています。
デプロイ先を Render と S3 に絞りました。
プラン内容も決定し、次はデザインをモダンに刷新する予定です。

3. ユーザー管理＆課金機能の実装

ユーザー追加・削除が任意にできる管理機能をローカルで動作確認済み。
多重リクエストにも耐えられるかテストしました。
Stripe を使った課金機能もローカルとFlash環境で動作確認。
今後はSupabaseのDBとStripeラッパーを活用して実装予定です。

4. サービス運用の方針

まずは無料・招待制でユーザー100人限定公開し、広告収益のみで運営してみます。
そのため、字幕の質を高める必要があり、XML・SRTファイルの完全互換も確認中。

5. UI改善＆制限対応

字幕生成中に進行状況がわかるUIを実装予定。生成時間の目安表示も検討中。
トークン制限解除とユーザー100人制限の管理も進めています。

6. データベース移行＆AWSデプロイ準備

PostgreSQLへの移行作業を開始。テーブル作成や接続、ローカル動作確認まで完了。
A5:SQL Mk-2を導入し、ユーザーテーブルやログイン用テーブルを作成済み。
現在psqlコマンドの使い方でつまづきつつも、徐々に理解が進んでいます。
並列処理ができない問題を解決するためGunicornの導入も計画中。
Dockerfile作成も開始しました。

7. ファイル管理＆バグ修正

字幕ファイルは現状ローカル保存ですが、S3に保存してどこからでもアクセス可能にする予定。
ファイル名の重複はUUIDで回避中。
字幕生成後に編集を再開すると無限リロードになるバグが発生しており、修正が必要です。

以上、現在の開発状況でした。次回はUIの改善やAWSへのデプロイ、広告実装などを中心に進めていきます。

引き続き頑張ります！もし似たような課題や技術的なアドバイスがあれば、ぜひコメントで教えていただけると嬉しいです。

よろしくお願いします！

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0