55
26

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

BrainPadAdvent Calendar 2020

Day 24

Wikipediaは書く時代から生み出す時代へ ~ Twitterからの自動生成

Last updated at Posted at 2020-12-24

image.png
Twi2Wiki(ツイトゥーウィキ)は、2020年に藤田洸介(ふじた こうすけ)、田中利夫(たなか としお)、山本孔次郎(やまもと こうじろう)により開発されたWebアプリケーションである。Twitterのプロフィール情報からウィキペディアの記事ページ風の文章を生成する機能を有する。
スマートフォンパソコンに対応している。2020年をもってダイヤルパルス式黒電話のサポートが終了した。
image.png
画像をクリックしてアプリへ移動

image.png
Twi2Wiki(ツイトゥーウィキ)は、個人が手軽にウィキペディア風のプロフィールを作ることを目的として開発されたWebアプリケーションである。記事ページの生成には、テキスト情報が必要になる(詳細はシステムを参照)が、手軽さを重視し、当時既に普及していた Twitterのプロフィール文を用いる方法が採用された。
image.png
2015年に西野カナの「トリセツ」が流行ると、相手と関係を築く際に自身の詳細なプロフィールを伝える動きが活発になった(注1)。一方でプロフィールの詳細化は過剰な作成コストを招く結果となり、簡略化を望む声(トリセツのデジタルトランスフォーメーション)が高まった。こうした時代背景のもと、2020年に有志の開発チーム(藤田、田中、山本)によって、誰でも手軽にウィキペディア風のプロフィールを作れるアプリとして開発された。
image.png
バックエンドは大きくTwitter連携、職業判定、略歴生成の3つの機能に分かれ、生成された文章がウィキペディア風のWebページとして表示される。アプリケーション部分はPythonのWebアプリフレームワークであるFlaskが採用され、Herokuの無料サーバーにて運用されている。

気が付いたら12月中旬になっており、十分な開発リソースが確保出来なかったため、Twitterでシェアする機能は有していない。その代替方法として、スクリーンショットでのシェアが推奨されている。
image.png
Twitterのアカウント名、プロフィール文、直近のツイートをもとに職業を判定しており、小学生がなりたい職業TOP100の中から最も可能性が高い職業が選ばれる。判定方法としては、1種類の職業に対して分散表現が類似している単語を1,000語用意し、Twitter文章中に最も多くの対象単語が出現した職業を割り当てている。
image.png
略歴は、ニューラルネットワークの一種であるseq2seq(英: sequence to sequence、略称: seq2seq)を用いて生成されている。seq2seqは、LSTM (英:Long Short-Term Memory、日:長・短期記憶)をベースにしたEncoderとDecoderの2つのモデルからなる自然言語処理の技術の一つである。

学習には、ウィキペディアの人物ページ13万件を用いている。記事ページの導入部を入力データとし、略歴を出力データとしている。Twitterプロフィールからウィキペディア風略歴へ変換は、日本語から英語への翻訳と同様のアルゴリズムを用いている(注2)。

Twitterのプロフィールをウィキペディアのスタイルマニュアルに従って記載すると、略歴が生成されやすい特徴を持つ(注3)。学習データには、ドナルド・トランプ野田クリスタル浜辺美波らも含まれる。

作成にあたり、開発者の山本孔次郎(やまもと こうじろう)は「Seq2Seqを利用した文章生成」と「PyTorchでAttention Seq2Seqを実装してみた」の2つの記事を参考にしていた。
image.png
世界シェア
2020年12月、サービス開始から約1ヶ月で利用者数が0人を超え、翌年1月に3人を突破した。この速度で利用者が増加すると約2億年後には、世界人口(注4)に達する。これは、利用開始に当たりTwitter連携だけの単純さと、結果をTwitterで投稿できるというユーザー導線により、目新しいものやネタになりそうなものはツイートするというTwitterユーザーの習性と合致したためだといわれている。

若者への普及の遅れ
若者への普及が遅れているという見方がある。開発チームが独自に行ったインターネット調査によれば、0~3才の利用率は0%であり、メインターゲット層である20~120歳の利用者数を大きく下回る結果であった。これは、若者が使用する「だあー(da)」「あうー(au)」などの喃語への対応の遅れが原因とされている。
image.png
一部のユーザーから実際の経歴と著しく異なるとの指摘がある。開発チームはこれを認めた上で、ユーザーの前世(注5)の経歴が反映されてしまうことが原因だとしている。上記の現象は、『君の名は。』(監督:新海誠)を視聴した経験を持つユーザーに多くみられるという報告もある。
image.png

  1. ^「トリセツ」との関係性には、諸説ある。
  2. ^Attentionを使ったseq2seqモデル、LSTMにはGRUを用いている。
  3. ^Twitterのプロフィール文をWikipediaの導入部とみなしている。
  4. ^2020年時点77億人。
  5. ^パラレルワールドとする説もある。
    image.png
55
26
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
55
26

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?