はじめに
Ttersという匿名SNSを個人で開発しています。
最近話題の偽中国語掲示板「対多」、素晴らしいですね!
当SNS「Tters」にも「偽中国語ったー」という偽中国語に特化したコミュニティが存在しているのですが、ここまで話題になるのは「対多」のネーミングセンスの良さと、アプリ化が成功のポイントだと感じています。@app_asaさんのセンスには脱帽です。
偽中国語ったー ⇒ https://tters.jp/g/5e52704ef3ee
さて、先日から「対多」は利用者が急増した影響で、サーバーを意図的にダウンさせているようです。その間、避難所として機能する場を「Tters」内に作れないかと考えました。どうせなら、全投稿を自動で偽中国語風に変換できるようにしたいと思い、試行錯誤の末、実現する方法を見つけたので、本アドベントカレンダー記事として公開します。
名前は「自動変換対多(じどうへんかんついた)」です。以下のリンクから利用できます。
上記サイトでは、すべてのつぶやきを自動で「偽中国語風」の文章に変換します。以下にその仕組みを解説します。
偽中国語変換の実現方法
変換にはOpenAIのAPIを使用しますが、単に「偽中国語に変換して」と依頼すると、中国語風になってしまい、あの独特の「日本人が読める偽中国語感」が出ません。
この問題については、「対多」の開発者である@app_asaさんも以下のように指摘されていました。
何度かChatGPTに翻訳させようとしてみたんですが、中国語に引っ張られたりひらがな入ってしまったり、なかなか精度でなくて断念しました笑
データが足りないからかもなので、対多で溜まったデータをファインチューニングに使ったら精度良くなるかもです。
そこで、「偽中国語感」を再現するためのプロンプトを独自に試行錯誤しました。以下のプロンプトが最適解でした。
[文章]を標準語に直して、小中学校で学ぶ教育漢字のみを使って熟語風漢詩文に変換して結果だけを出力してください。
このプロンプトを使うと、偽中国語として使えそうなそれっぽい文章が生成されます。さらに、生成された文章から「ひらがな」を正規表現などで削除することで、より偽中国語っぽい文章が完成します。
あくまで「それっぽい」文章なので、完璧な結果にはなりませんが、遊びで使う分には十分使えそうな精度でした。カタカナはそのまま出力されるケースが多いため、工夫が必要です。
実際の動作例
例えば、以下の投稿を変換してみます。
入力:
「今日は寒くて気分が落ち込む。明日はぽかぽか日和の良い天気だったらいいな。」
プロンプト出力:
「寒気襲来し気落ちて、明日陽光温かけれ。」
ひらがな削除後:
「寒気襲来気落、明日陽光温。」
運用コスト
全投稿を変換するにはコストがかかるため、コストパフォーマンスを重視して「GPT-4o-mini」を採用しています。上記プロンプトは、このモデルでそれなりの精度を出すため、個人開発でも運用可能です。
まとめと今後の展望
「対多」の復旧までの間、ぜひこの機能で遊んでみてください。
Ttersに興味を持っていただけた方は、ぜひサイトにも遊びに来てください!