LoginSignup
9
11

More than 5 years have passed since last update.

LDA(Latent Dirichlet Allocation)について

Last updated at Posted at 2016-07-01

はじめに

「歌」「演奏」「ダンス」などの単語を見た時、書いていないくても「音楽」を想起できる。
→複数の単語の共起性から創発される情報

潜在的意味のカテゴリをトピックと呼ぶ。

試しに動かしてみた

ジャンルの異なる任意のwikiの文章(カリフラワー、NASA、マスカラ)をインプットし、それぞれの文章のテーマを抽出、LDAで分類できているかを確認する

実行結果

なんとなくできてそう。それぞれの単語があるべきカテゴリに分けられている。
カリフラワー、NASA、マスカラでは記事内の単語の出現パターンが大分異なるため、モデルとしてもイージーだったかもしれません。

151116171947_10ver.png

お試し実行コード

基本コード...


# LDA(Latent Dirichlet Allocation)のRパッケージを試してみるスクリプト
#
#   複数のテキストからトピックを抽出する
#
# 参考:
#   トピックモデルによる統計的潜在意味解析 2章後半:http://goo.gl/6Sq3pd
#   RでLDAの一例:http://goo.gl/FsYGZd
#   ggplot2エラー対処法:http://goo.gl/RJJ7gG
#
#

#  ================== パッケージ準備 ==================
  # パッケージインストール
  #install.packages (`RMeCab`, repos = `http://rmecab.jp/R`)
  #install.packages(`lda`)

  # library読み込み
  library(RMeCab)
  library(lda)
  library(reshape2)
  library(ggplot2)

#  ================== 定数定義 ==================
  path.input <- `テストテキスト.txt`
  filter.wordclass <- `名詞|形容詞`
  k <- 10 # トピック数

#  ================== 分析データ準備 ==================
  # テキストデータ読み込み
  setwd(`C:/Users/tadashi.mori/Google ドライブ/01_R/LDAtest`)
  sentence <- read.table(path.input
                     #, stringsAsFactors=F  #char型にするとRMecabDFでエラーが出るのでファクターのまま
                     , header = FALSE
                     , sep = `  `)
  names(sentence) <- `text`

  # コーパスデータを生成
  tmp <- RMeCabDF(sentence,1)  # 形態素解析
  tmp.vec <- NULL
  for (i in 1:length(tmp)) {
    tmp.vec <- c(tmp.vec,paste(tmp[[i]][grep(filter.wordclass,names(tmp[[i]]))]
                               ,sep = ``
                               , collapse = ` `
                               )
    )
    }  # filter.wordclassで指定した品詞を抽出
  sentence.lex <- lexicalize(tmp.vec, lower = TRUE)

#  ================== トピック分析 ==================
  # 分析実行
  result <- lda.collapsed.gibbs.sampler(sentence.lex$documents
                                        ,k
                                        ,sentence.lex$vocab
                                        ,25  #繰り返し数
                                        ,0.1  #ディリクレ過程のパイパーパラメーターα
                                        ,0.1  #ディリクレ過程のパイパーパラメーターα
                                        ,compute.log.likelihood = TRUE
                                        )
  # 実行結果確認
  summary(result)

  # 各クラスターの上位キーワード抽出
  top.words <- top.topic.words(result$topics
                               ,3
                               ,by.score = TRUE)
  # 実行結果確認
  top.words

  # トピック割合を抽出
  N <- 3
  topic.prop <- t(result$document_sums) / colSums(result$document_sums)
  topic.prop <- topic.prop[1:N, ]
  topic.prop[is.na(topic.prop)] <-  1 / k

#   # 上位3位トップワードでプロット
#   colnames(topic.prop) <- apply(top.words, 2, paste, collapse=` `)
#   par(mar=c(5, 14, 2, 2))
#   barplot(topic.prop, beside=TRUE, horiz=TRUE, las=1, xlab=`proportion`)

  # ggplotで可視化するために、meltを駆使してデータを作成(トリッキーなので注意)
  topic.prop.df <- melt(cbind(data.frame(topic.prop), document=factor(1:N)), variable.name=`topic`, id.vars = `document`)

  # ggplotで可視化
  ggplot(topic.prop.df, aes(x=topic, y=value, fill=document)) + geom_bar(stat=`identity`) + facet_wrap(~ document, ncol=N) + coord_flip()


  #  ================== 予測 ==================
  predictions <- predictive.distribution(result$document_sums[,1:3], result$topics, 0.1, 0.1)
  top.topic.words(t(predictions), 5)

時間計測仕様に修正 ...


# LDA(Latent Dirichlet Allocation)のRパッケージを試してみるスクリプト
#
#   複数のテキストからトピックを抽出する
#
# 参考:
#   トピックモデルによる統計的潜在意味解析 2章後半:http://goo.gl/6Sq3pd
#   RでLDAの一例:http://goo.gl/FsYGZd
#   ggplot2エラー対処法:http://goo.gl/RJJ7gG
#
#

#  ================== パッケージ準備 ==================
  # パッケージインストール
  # install.packages (`RMeCab`, repos = `http://rmecab.jp/R`)
  # install.packages(`lda`)

  # library読み込み
  library(RMeCab)
  library(lda)
  library(reshape2)
  library(ggplot2)

#  ================== 定数定義 ==================
  wd <- `C:/Users/tadashi.mori/Google ドライブ/01_R/LDAtest`  #作業ディレクトリ
  path.input <- `テストテキスト.txt`
  filter.wordclass <- `名詞|形容詞`
  k <- 10 # トピック数

#  ================== 関数定義 ==================
  # 実行時間記録関数
  write.proctime <- function(time.exec,name.task,proctime){
    tmp = data.frame(タスク = name.task
                        , ユーザ = format(proctime[1], digits = 3)
                        , システム = format(proctime[2], digits = 3)
                        , 経過 = format(proctime[3], digits = 3)
    )
    if(is.null(time.exec)){
      result <- tmp
    } else {
      result <- rbind(time.exec
                      , tmp)
    }
    rownames(result) <- NULL
    return(result)
  }

#  ================== 実行時間集計 ==================
  startT <- proc.time()
  endT <- proc.time()
  time.exec <- NULL

#  ================== 分析データ準備 ==================
  # ■■■ データ読み込み ■■■
  startT <- proc.time()
  setwd(wd)  # 作業ディレクトリ設定

  # ↓↓↓↓↓↓ 使用データ選択 ここから ↓↓↓↓↓↓
    # ①テストデータの場合
#     sentence <- read.table(path.input
#                        #, stringsAsFactors=F  #char型にするとRMecabDFでエラーが出るのでファクターのまま
#                        , header = FALSE
#                        , sep = `  `)
#     names(sentence) <- `text`

    # ②atcosmeデータの場合
    load(`atcosmeReview.dat`)
  # ↑↑↑↑↑↑ 使用データ選択 ここまで ↑↑↑↑↑↑

  endT <- proc.time()
  time.exec <- write.proctime(time.exec,`データ読み込み`,endT-startT)  # <実行時間記録>

  # ■■■ 形態素解析 ■■■
  startT <- proc.time()
  tmp <- RMeCabDF(sentence,1)  # 形態素解析実行
  endT <- proc.time()
  time.exec <- write.proctime(time.exec,`形態素解析`,endT-startT)  # <実行時間記録>

  # ■■■ 品詞フィルタ ■■■
  startT <- proc.time()
  tmp.vec <- NULL
  for (i in 1:length(tmp)) {
    tmp.vec <- c(tmp.vec,paste(tmp[[i]][grep(filter.wordclass,names(tmp[[i]]))]
                               ,sep = ``
                               , collapse = ` `
                               )
    )
    }  # filter.wordclassで指定した品詞を抽出
  endT <- proc.time()
  time.exec <- write.proctime(time.exec,`品詞フィルタ`,endT-startT)  # <実行時間記録>

  # ■■■ ldaデータ前処理 ■■■
  startT <- proc.time()
  sentence.lex <- lexicalize(tmp.vec, lower = TRUE)
  endT <- proc.time()
  time.exec <- write.proctime(time.exec,`ldaデータ前処理`,endT-startT)  # <実行時間記録>

#  ================== トピック分析 ==================
  # ■■■ lda分析 ■■■
  startT <- proc.time()
  result <- lda.collapsed.gibbs.sampler(sentence.lex$documents
                                        ,k
                                        ,sentence.lex$vocab
                                        ,25  #繰り返し数
                                        ,0.1  #ディリクレ過程のパイパーパラメーターα
                                        ,0.1  #ディリクレ過程のパイパーパラメーターα
                                        ,compute.log.likelihood = TRUE
                                        )
  endT <- proc.time()
  time.exec <- write.proctime(time.exec,`lda分析`,endT-startT)  # <実行時間記録>

  #  ================== 実行結果確認 ==================

  # ■■■ 実行時間確認 ■■■
  time.exec

  # ■■■ 実行結果確認 ■■■
  summary(result)

  # ■■■ 上位kw抽出/クラスター ■■■
  top.words <- top.topic.words(result$topics
                               ,3
                               ,by.score = TRUE)

  # ■■■ 実行結果確認 ■■■
  top.words

  # ■■■ 結果プロット ■■■
  # トピック割合を抽出
  N <- 3
  topic.prop <- t(result$document_sums) / colSums(result$document_sums)
  topic.prop <- topic.prop[1:N, ]
  topic.prop[is.na(topic.prop)] <-  1 / k

  # 上位3位トップワードでプロット
  colnames(topic.prop) <- apply(top.words, 2, paste, collapse=` `)
  par(mar=c(5, 14, 2, 2))
#   barplot(topic.prop, beside=TRUE, horiz=TRUE, las=1, xlab=`proportion`)

  # ggplotで可視化するために、meltを駆使してデータを作成(トリッキーなので注意)
  topic.prop.df <- melt(cbind(data.frame(topic.prop), document=factor(1:N)), variable.name=`topic`, id.vars = `document`)

  # ggplotで可視化
  ggplot(topic.prop.df, aes(x=topic, y=value, fill=document)) + geom_bar(stat=`identity`) + facet_wrap(~ document, ncol=N) + coord_flip()


  #  ================== 予測 ==================
  predictions <- predictive.distribution(result$document_sums[,1:3], result$topics, 0.1, 0.1)
  top.topic.words(t(predictions), 5)

Meryの記事データを分析してみた

Meryの記事データをインプットとして分析を実行。
インプットレコード件数毎の計算所要時間と実行結果は下記の通り。
分析に使用したコードも記載。

課題

  • データ前処理で取り除けていない記号がある(ブラックリスト形式なので時間がかかる)
  • データ前処理でコケるケースがある(文字コードは統一しているが、マルチバイト形式系のエラーがでる)
  • 汎用的に使うためにはモジュール化する必要がある
  • Mery程度のレコード件数であればあまり必要ないが、場合によっては分散処理させる必要がある

実行時間

【実行時間】10000レコード1000分割シングル...(単位:秒)

タスク ユーザ システム 経過 完了時刻
データ読み込み 1.53 0.01 1.59 2015/11/18 11:53
形態素解析 24 22.5 46.8 2015/11/18 11:54
品詞フィルタ 12.2 0.05 12.3 2015/11/18 11:54
ldaデータ前処理 39.4 3.12 42.7 2015/11/18 11:55
lda分析 13.1 0.03 13.3 2015/11/18 11:55

【実行時間】30000レコード1000分割シングル...

タスク ユーザ システム 経過 完了時刻
データ読み込み 2.26 0.1 2.4 2015/11/18 13:53
形態素解析 92.8 94.9 194 2015/11/18 13:56
品詞フィルタ 39.3 0.12 40.4 2015/11/18 13:57
ldaデータ前処理 319 26.6 356 2015/11/18 14:03
lda分析 39.1 0.1 40.1 2015/11/18 14:03

【実行時間】67249レコード1000分割シングル...

タスク ユーザ システム 経過 完了時刻
データ読み込み 1.7 0.04 1.79 2015/11/18 15:07
形態素解析 234 168 413 2015/11/18 15:13
品詞フィルタ 97.5 0.05 99.3 2015/11/18 15:27
ldaデータ前処理 1059 102 1195 2015/11/18 15:47
lda分析 130 0.5 133 2015/11/18 15:50
  • 形態素解析の計算所要時間は途中でエラーが起きたため、有効な数値ではない
  • 大体30分くらい

実行結果:10カテゴリ

10カテゴリは10000レコードからあまり変化ない。

【実行結果:10カテゴリ】10000レコード1000分割シングル...

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
コーディネート こと ブランド ダイエット ネイル - g
コーデ 効果 デザイン 材料 ヘア
アイテム ピンク 東京 大さじ 前髪 映画
スカート 自分 可愛い 美容 営業 アレンジ 日本
ワンピース - ケース ケア ケーキ
アイテム いい . デザイン 可愛い 小さじ カラー チョコレート
ニット 価格 原因 カラー 適量 メイク 世界
デニム あなた 東京 プレゼント 方法 かわいい 住所 レシピ 限定
シャツ とき 開催 部屋 脂肪 ゴールド 徒歩 スタイル
パンツ 女の子 徒歩 アプリ こと 渋谷 砂糖 パーマ
トップス 相手 商品 時間 印象 ホテル
スタイル 時間 写真 シンプル カフェ 髪型 オープン
恋愛 バッグ マッサージ ストーン ランチ サイド アメリカ
カジュアル もの アクセス 雑貨 成分 ちゃん 定休 バター 大阪
スニーカー 男性 料金 かわいい 乾燥 ハート チーズ カール 旅行
http iphone モチーフ 1 有名
カラー これ スポット おしゃれ 美肌 . 髪の毛 レストラン
それ インテリア ブルー 新宿 牛乳 ショート 神戸
バッグ 期間 発売 化粧 ネイルデザイン 電話 0 ヘアスタイル &
シンプル ため 税込 ため 上品 メニュー cc 簡単 出演
ジャケット 好き ファッション 運動 ベース 美味しい トマト ボブ 期間
quot 無料 ショップ ピアス 簡単 編み 発売
おしゃれ 香り 場所 もの 健康 フレンチ 店内 野菜 フランス
方法 jp 自分 改善 ラメ パンケーキ ロング 人気
着こなし 多い デート 機能 筋肉 アクセス リップ
ブーツ イベント コスメ 風呂 リボン ビル ショップ
女性 イルミネーション サイト ビタミン キュート 料理 黒髪 店舗
シューズ 女子 0 画像 水分 大人 三つ 登場
大人 時間 財布 毛穴 パステルカラー 銀座 ピン
印象 気持ち 公園 カード オイル アクセサリー 番号 玉ねぎ

【実行結果:10カテゴリ】30000レコード1000分割シングル...

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
クリスマス ヘア ダイエット ネイル コーデ - 大さじ
部屋 こと 香り メイク コーディネート g
デート アレンジ デザイン 税込 化粧 ちゃん スカート 東京 材料
写真 前髪 ケーキ ケア ブランド ニット 営業
観光 カラー スイーツ 効果 モデル 小さじ
カラー 自分 ピンク さん ワンピース
スタイル あなた チョコレート . シャツ ランチ 適量
旅行 簡単 恋愛 ブランド 限定 乾燥 世界 パンツ 徒歩
スポット 男性 可愛い フルーツ シャンプー 映画 カジュアル レシピ
脱毛 パーマ 相手 バッグ アイス 美容 日本 アイテム 住所
ヘアスタイル かわいい ファッション スタイル 時間 1
こと ショート シンプル 美味しい 成分 作品 デニム カフェ 砂糖
場所 サイド いい アイテム チョコ 洗顔
イルミネーション 髪型 方法 ゴールド コーヒー クリーム ショップ トップス 0
プレゼント ボブ 気持ち おしゃれ 土産 方法 たち 定休
カール 指先 抹茶 ニキビ デザイン スニーカー
アプリ 印象 ドリンク リップ _ カラー . 2
カップル 編み 大切 モチーフ パンケーキ 原因 開催 渋谷 トマト
ピン 女性 ストーン クリーム ファンデーション アイテム シンプル cc
インテリア それ ネイルデザイン マスカラ 彼女 牛乳
思い出 三つ ため 大人 発売 香り 発売 着こなし
友達 髪の毛 とき ブルー 商品 大人
世界 時間 上品 香水 こと イラスト ジャケット 新宿 バター
女子 ロング 運動 コーディネート ミルク オイル ハロウィン ブーツ 電話 野菜
ルーム 好き 毛穴 サイト コート アクセス チーズ
素敵 浴衣 モテ 派手 かき氷 まつげ 韓国 カーディガン メニュー 醤油
食事 お菓子 登場 足元 料理 料理
楽しい リボン カラフル いちご 口コミ 限定 tシャツ 店内 スープ
サロン アップ もの 価格 マッサージ ショート
ホテル 女の子 パステルカラー 種類 日焼け アメリカ パンプス 番号

【実行結果:10カテゴリ】67249レコード1000分割シングル...

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
ケーキ ヘア メイク 観光 ネイル ブランド 大さじ -
スイーツ 効果 リップ スポット コーデ アイテム g こと
チョコレート ダイエット アレンジ コーディネート . 小さじ
フルーツ ケア 前髪 温泉 デザイン ランチ 自分
アイス 化粧 カラー カラー デザイン 適量 東京
チョコ こと スタイル スカート 材料 営業 あなた
チーク カラー 男性
お菓子 原因 ヘアスタイル デニム ファッション レシピ カフェ 恋愛
パン 乾燥 ショート コスメ 東京 世界 徒歩 相手
美味しい 方法 ボブ マスカラ 旅行 カジュアル プレゼント 彼女
コーヒー 髪型 美容 世界 アイテム 商品
限定 洗顔 パーマ シャンプー 場所 シンプル 砂糖 料理 気持ち
ニキビ 印象 まつげ 開催 パンツ アクセサリー 1 メニュー 好き
クッキー マッサージ 編み 日本 ワンピース 部屋 醤油 住所
抹茶 サイド ツヤ シャツ さん cc 店内
いちご カール ピンク 土産 スタイル 可愛い 渋谷 いい
かき氷 成分 簡単 ファンデーション かわいい . デート
バナナ 美容 三つ ニット ショップ 女性
ドリンク 日焼け ナチュラル 公園 トップス モデル 定休 女の子
ミルク リボン 目元 パワー 発売 時間 それ
風呂 ピン パウダー 有名 大人 ちゃん 新宿 彼氏
アイシャドウ ピンク 限定 トマト 友達
美味し 対策 ブラシ スニーカー 作品 玉ねぎ 美味しい
見た目 オイル ロング 花火 バッグ 電話 言葉
ため 髪の毛 ケース ホワイト 雑貨 大切
ヨーグルト 可愛い まつ毛 トレンド 登場 豆腐 野菜 幸せ
ハロウィン ケア 印象 衣装 0
紫外線 浴衣 着こなし 韓国 2 もの
発売 運動 大人 アイメイク 景色 写真 チーズ 銀座 とき
クリーム 毛穴 アップ 印象 時間 日本 簡単 レストラン

実行結果:15カテゴリ

15カテゴリは結構ばらつくき、レコード件数と精度の相関があるようにも思えない。
感覚的には10カテゴリで良さそう。

【実行結果:15カテゴリ】10000レコード1000分割シングル...

映像? インテリア イベント? レシピ ファッション 健康 メイク カフェ情報 スイーツ 恋愛 アクセサリ? ファッション? ヘアスタイル スポット情報 レシピ
. 部屋 プレゼント g コーディネート ダイエット - こと ブランド 0
アプリ 可愛い 香り 大さじ コーデ 効果 メイク 東京 チョコレート アイテム ネイル ヘア レシピ
& ケース 誕生 材料 スカート ケア ケーキ ちゃん アレンジ 開催 野菜
quot 雑貨 可愛い ニット こと 効果 営業 スイーツ デザイン ピンク 前髪 料理
http インテリア もの 小さじ 脂肪 美容 価格 自分 モデル デザイン スポット
映画 かわいい 適量 パンツ フルーツ あなた 可愛い コーディネート カラー 1
iphone デニム 食事 化粧 チョコ 恋愛 ファッション カラー スタイル 美味しい
- 香水 シャツ 運動 方法 徒歩 限定 男性 パーマ 簡単
モデル スニーカー リップ 住所 税込 相手 アクセサリー ワンピース 髪型 時間
ちゃん 収納 自分 砂糖 アイテム カロリー 渋谷 抹茶 かわいい 料金 2
jp もの ケーキ トップス 身体 乾燥 時間 アイス シンプル 東京 チーズ
写真 デザイン かわいい カジュアル ため よう . 女性 商品 可愛い サイド スープ
作品 グッズ 部屋 時間 マッサージ 香り 人気 ショート デート
com メッセージ バター ブーツ お腹 カフェ いちご いい 新作 ヘアスタイル 温泉 カレー
さん 生活 素敵 cc スタイル 健康 原因 ランチ 発売 とき 発売 印象 場所 トマト
撮影 ディズニー 写真 1 ストレス クリーム 定休 クリーム ため コスメ スカート カール 5
美容 おしゃれ 友達 ジャケット 体重 新宿 ピアス 印象 髪の毛 ホテル ソース
_ クリスマス 牛乳 税込 方法 こと それ かわいい アイテム サラダ
出演 旅行 画像 レシピ バッグ 原因 電話 ミルク 大切 大人気 大人 ボブ 期間 ご飯
www さん 好き 着こなし 摂取 アクセス よう ショップ コーデ 編み バス おいしい
公開 女の子 こと ml カラー ビタミン コーヒー 好き バッグ ブルー 三つ 弁当
自分 ワンピース 代謝 マスカラ 商品 彼女 モチーフ おしゃれ ピン 旅行
サロン 壁紙 いい シューズ ホルモン まつげ 復縁 限定 レース ロング イルミネーション カロリー
動画 韓国 サプライズ 2 ショート 便秘 成分 銀座 ml 女の子 韓国 上品 簡単 公園 4
twitter お気に入り バレンタイン こしょう シンプル 睡眠 ため 店内 風味 日本 ボーダー 黒髪 イベント ヘルシー
大学 ルーム 玉ねぎ 紫外線 バニラ カラー ゴールド アクセス
ファッション ベッド 匂い おしゃれ チーク ビル 登場 ライン 大人
よう 女子 カップ メニュー アイスクリーム もの コレクション パステルカラー 可愛い 夜景
サイト 素敵 手作り トマト 解消 シャンプー ドリンク 気持ち 注目 カジュアル アップ 観光 栄養
機能 これ 気持ち 醤油 素材 kcal 味わい これ リボン 3

【実行結果:15カテゴリ】30000レコード1000分割シングル...

ファッション(コーデ系) イベント 健康 レシピ ネイル?アクセサリ? 美容(コスメ系?) エンタメ ヘアスタイル ファッション(アイテム系) スイーツ メイク 美容(ケア系) 恋愛 アイメイク スポット情報
コーデ - ダイエット 大さじ ネイル ちゃん ヘア ブランド ケーキ メイク カラー -
コーディネート 野菜 g デザイン 化粧 アレンジ アイテム チョコレート リップ 効果 こと メイク
スカート 美味しい 材料 香り 写真 バッグ 香り ケア 東京
. 料理 ピンク アプリ さん 前髪 ファッション クリスマス ダイエット デート マスカラ 営業
ニット カロリー 小さじ 映画 デザイン プレゼント ファンデーション まつげ
ワンピース 税込 土産 カラー 口コミ 彼女 スタイル 可愛い スイーツ シャンプー 映画 ドレス
シャツ + 適量 日焼け サイド モデル チョコ チーク 美容 恋愛 ランチ
カジュアル 可愛い 商品 ショート ちゃん アイス 男性 まつ毛 徒歩
パンツ 開催 1 コスメ ヘアスタイル かわいい 限定 パウダー 乾燥 自分 住所
スタイル 限定 レシピ かわいい ランキング たち 簡単 ショップ 可愛い カバー こと 相手
デニム 価格 パン 指先 クリーム 作品 パーマ コーディネート フルーツ 方法 観光 カフェ
期間 メニュー 砂糖 ゴールド こと 編み おしゃれ お菓子 ブラシ 洗顔 あなた ピンク
アイテム http 食事 0 止め かわいい ボブ アクセサリー クッキー コスメ 原因 彼氏 時間
トップス _ ご飯 2 ストーン 人気 笑顔 ピン 人気 quot 化粧 カップル ナチュラル
無料 おいしい シンプル こと 髪型 洋服 よう ニキビ ブラウン .
スニーカー イルミネーション モチーフ もの 手帳 三つ シューズ 抹茶 口紅 旅行 美容
サロン フルーツ ネイルデザイン ケア イラスト ケース 香水 ポーチ 成分 好き 印象 定休
カラー & スープ cc パール 自分 可愛い 海外 いちご クリーム 友達 グラデーション 渋谷
シンプル イベント アクセサリー クレンジング 漫画 髪の毛 ハロウィン ピンク マッサージ 結婚式
jp サラダ トマト ハート 女の子 カール 商品 もの 目元
大人 kcal 牛乳 フレンチ メイク ロング 韓国 かわいい 化粧 オイル 気持ち 透明 新宿
着こなし クリスマス 日本 バター ブルー 成分 日本 かき氷 印象
ジャケット gt ヘルシー カラフル アニメ アップ 新作 クリーム ナチュラル 大切 つけ アクセス
足元 * 朝食 醤油 ピアス 匂い 世界 巻き さん 見た目 こと 頭皮 スポット 眉毛 電話
カーディガン lt チーズ チーズ ラメ ボディ キャラクター 可愛い ミルク 毛穴 世界 ライン
店舗 ごはん 上品 美容 くん リボン お洒落 部屋 美肌 カール 店内
ブーツ 予約 栄養 リボン スキン 世界 ドリンク カラー 風呂 素敵 ヘア メニュー
コート 発売 食材 玉ねぎ 大人 いい 自分 ポニーテール スニーカー & 運動 幸せ まぶた
ショート com コーヒー カップ 派手 後ろ セレブ カップ グロス 脱毛 いい ビル
トレンド ホワイト 紹介 印象 女の子 コーヒー 方法 番号

【実行結果:15カテゴリ】67249レコード1000分割シングル...

インテリア? ネイル スポット? カフェ スイーツ メイク ファッション(アイテム系) スポット情報 美容室 ヘアスタイル 美容(ケア系) レシピ ファッション(コーデ系?) 恋愛 ダイエット
ブランド ネイル - チョコレート メイク コーディネート 観光 美容 ヘア 大さじ コーデ
デザイン デザイン ランチ アイス リップ アイテム スポット . 効果 g コーディネート こと
可愛い ピンク 東京 - スイーツ コーデ 映画 さん アレンジ ダイエット 小さじ スカート 自分
アクセサリー カラー 営業 料理 フルーツ スニーカー 温泉 サロン 前髪 ケア
ケース カフェ ケーキ チーク バッグ モデル 適量 シャツ こと
プレゼント 徒歩 メニュー チョコ ブランド 世界 ドレス スタイル 化粧 材料 デニム あなた 水着
かわいい ストーン 美味しい スタイル カラー カジュアル 男性 マッサージ
アイテム . 野菜 限定 マスカラ デニム ヘアスタイル 美容 パンツ 恋愛 簡単
部屋 ゴールド 時間 店内 コスメ サンダル 日本 ちゃん ショート 成分 レシピ ワンピース 相手 筋肉
iphone 指先 住所 東京 税込 まつげ ワンピース 旅行 香り ボブ 乾燥 スタイル 気持ち
商品 フレンチ シューズ http パーマ シャンプー 砂糖 トップス 彼女 方法
ハロウィン ラメ パン 発売 ファンデーション ファッション 作品 脱毛 髪型 ニット 効果
世界 ホワイト 抹茶 目元 トレンド 開催 ヘア 編み 原因 1 好き 姿勢
ちゃん シンプル パンケーキ かき氷 シンプル 有名 人気 サイド オイル cc アイテム
雑貨 ブルー ミルク パウダー カジュアル サイト カール 洗顔 それ quot
パール お菓子 アイシャドウ パンツ 花火 ブランド 三つ こと 醤油 大人 友達
定休 サラダ いちご まつ毛 スカート 場所 印象 ニキビ 着こなし よう
ショップ カレー ドリンク ナチュラル 公園 通販 ピン 日焼け シンプル いい
衣装 ベース 電話 コーヒー 化粧 ニット イベント 結婚式 方法 女性 背中
インテリア 印象 アクセス おいしい 香り カラー tシャツ こと 髪の毛 カラー
さん 大人 渋谷 デザート ブラシ おしゃれ 体験 簡単 香り トレンド 大切 太もも
発売 上品 バナナ アイメイク デザイン jp 風呂 トマト 彼氏 とき
ピアス ネイルデザイン 新宿 レストラン 印象 スタイリスト ロング 美肌 玉ねぎ 言葉
プレ グラデーション 渋谷 ヨーグルト まぶた 香水 豆腐 スニーカー 幸せ お腹
イラスト ライン カフェ 絶品 クリーム 眉毛 トップス 土産 雑誌 巻き 紫外線 tシャツ 時間 これ
もの 可愛い 放題 美味しい アイライン 足元 自然 カラー ポニーテール クリーム ジャケット 女の子 ダイエット
クリア 大阪 パスタ 見た目 目尻 景色 ファッション リボン 頭皮 0 とき エクササイズ
モチーフ シェル 番号 美味し バニラ 発色 歴史 施術 黒髪 2 バッグ もの
コス フレンチネイル ビル 人気 商品 グロス 靴下 !! 毛穴 チーズ 印象 ため バスト
写真 ハート 予約 種類 クッキー 下地 紅葉 ルーム アップ 対策 バター 小物

追加でやってみた:100カテゴリ
lda分析:約13分
【実行結果:100カテゴリ】67249レコード1000分割シングル...

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24 V25 V26 V27 V28 V29 V30 V31 V32 V33 V34 V35 V36 V37 V38 V39 V40 V41 V42 V43 V44 V45 V46 V47 V48 V49 V50 V51 V52 V53 V54 V55 V56 V57 V58 V59 V60 V61 V62 V63 V64 V65 V66 V67 V68 V69 V70 V71 V72 V73 V74 V75 V76 V77 V78 V79 V80 V81 V82 V83 V84 V85 V86 V87 V88 V89 V90 V91 V92 V93 V94 V95 V96 V97 V98 V99 V100
1 コーデ 作品 美容 デザイン アレンジ 効果 アクセサリー 部屋 ケース 観光 ケーキ ヘア + !! ドレス ピンク 野菜 こと ニキビ 風呂 コーデ & アイス メイク ダイエット 弁当 ブランド さん クリスマス & g こと コーデ カフェ 前髪 大さじ 簡単 バッグ ファッション 映画 ネイル - ワンピース 映画 大さじ カラー スタンプ ! 身長 パワー パーマ 金沢 赤ちゃん ちゃん ランチ 香り 旅行 女性 時間 浴衣 リップ かわいい . 日焼け - 温泉 カレー パンケーキ コスメ
0 コーディネート 世界 ヘア 可愛い インテリア iphone パン アレンジ プレゼント アイテム レディース 結婚式 料理 シャンプー お金 ブラ 今年 こと 洗顔 スカート ランチ quot 抹茶 リップ ホルモン アート 効果 スカート アイテム ちゃん quot コーディネート スタイル ケア 小さじ まつげ コーディネート 海外 こと 韓国 ハロウィン デザイン レース ドラマ 小さじ 英語 サングラス cm スタイリング こと 個室 褒美 ママ モデル 香水 観光 こと 花火 可愛い http ネイル and 紫外線 サンダル ニット かき氷 ハート トマト 女の子 化粧
2 ドラマ 京都 リボン 美容 デザイン 雑貨 シャネル スポット フルーツ 誕生 トレンド 帽子 脱毛 パーティー カラー アボカド 手帳 自分 バスト 暑い 効果 毛穴 ワンピース カフェ 開催 デート チーク 生理 星座 カロリー レシピ コーディネート 写真 クッキー amp 材料 オリーブ 自分 スカート コーヒー ヘア 化粧 g テープ tシャツ セレブ 税込 衣装 ピンク 水着 大人 g カード 財布 大学 ストーン スタイル 居酒屋 雑貨 ベビー さん 料理 ブランド 女の子 毎日 方法 ピクニック - ブルー the 対策 スニーカー ハワイ 動物 大人 タイツ チーズ
3 スカート 韓国 サロン アップ ビタミン かわいい おしゃれ by チョコ ギフト 秋冬 ハット サロン 花嫁 サラダ 頭皮 雑誌 アプリ レーザー 季節 時間 化粧 メニュー 東京 もの スイーツ 世界 発売 簡単 アイテム instagram マッサージ バレンタイン gt 1 オイル パンツ ケーキ ショート クリーム つけ コーデ ブランド 写真 ブランド コス カラー 営業 アイテム 漫画 % !! 漫画 カール 男性 女子 プレゼント 世界 メニュー デザイン 日本 あなた 仕事 祭り コスメ com カラー point 止め 東京 シューズ フルーツ 露天風呂 前髪 ウェア スイーツ ファンデーション
5 デニム 日本 さん ネイル スタイル ダイエット リング 可愛い アプリ 有名 スイーツ 簡単 記念 ファッション メンズ 無料 ウェディング 大人 ご飯 - ブック 成分 アイテム ケア チョコレート マスカラ 美しい 限定 食事 料理 ワンピース 新作 モデル お菓子 lt 大さじ トマト デニム メニュー ボブ 乾燥 適量 マスキング パーカー モデル 商品 プレ ストーン 大阪 作品 ヘア 鳥取 フェス ポーズ カット 自分 セット 洗濯 うさぎ 匂い 大会 発色 くま jp シェル ドン ケア 徒歩 足元 ビール 色気 スタッフ ルーム ドーナツ 女子 人気
4 カジュアル ピアス ヨーグルト モチーフ かわいい ブランド 土産 チョコレート ピン 特別 ファー おしゃれ エステ 素敵 ブルー スープ na ノート ヶ月 ポインター サンダル ケア デニム パン イベント もち 花粉 よう 期間 こと チーズ チェック 洋服 イラスト パーティー 牡蠣 とき シャツ スイーツ ヘアスタイル 完成 シンプル 彼女 自分 価格 アニメ フレンチ 住所 コーディネート 適量 透明 さま フレーム 少女 ブレスレット あなた 北欧 おむつ 福袋 店内 女性 沖縄 オンナ 自分 カラー みたい www キュン 営業 靴下 日本 体験 フェロ コート こと フラワー パスタ 可愛い
6 シャツ 彼女 印象 髪型 美肌 女の子 収納 s 紅葉 いちご 編み キャンドル 今年 ファッション 絵本 成分 読書 ランジェリー 皮脂 コーディネート デート 女性 登場 脂肪 ご飯 トップス かわいい 梅雨 ケーキ ;。 渋谷 カジュアル 女優 デート ショップ 仮装 指先 花見 主人公 材料 de kate さん ワックス オリジナル 汚れ レストラン 魅力 スポット 色気 着物 マニキュア よう 動物 _ ホワイト タンブラー ソックス 施設 印象 ストール 素敵 可愛い いい メイク
8 大人 映画 シンプル 編み フルーツ アイテム もの 充電 レシピ 三つ メッセージ 流行 ペア サイト パーティ オレンジ 寿司 通販 ページ 女性 効果 洋服 シャツ 店内 時間 洋服 風邪 宇宙 新作 運動 ごはん コート 画像 太もも ?& 0 サラダ スタイル ドリンク パーマ オイル 材料 自分 スタイル セーラー カップル 通販 ディズニー ラメ プール 時間 スタイル ブラウン 制服 花冠 くん 意味 恋愛 オーダー もの 人気 世界 世界 成人 口紅 髪の毛 カラフル html デザイン 原因 ヒール カクテル 風呂 マフラー 女の子 バター かわいい パウダー
7 イギリス スタイリスト 華やか かわいい 健康 ピアス 素敵 機能 簡単 サイド サプライズ 季節 揃い サービス バービー 印象 ヘア merry もの ビーチ 原因 メイク ロング 美味しい 買い物 目元 開催 美味しい 大人 コレクション インスタグラム プレゼント ;& 砂糖 適量 意識 カジュアル 表参道 カール 効果 シール おしゃれ 友達 販売 刀剣 ゴールド さくら セクシー 出演 1 トーン ミラー 選手 宝石 デジタル 相手 料理 ショップ 活躍 メイド ワタ 生活 グロス co ゴールド テイラー . 種類 展示 音楽 ソース 生地 これ ランキング
9 アメリカ カット ピンク 簡単 リボン お洒落 画面 自然 トースト 髪の毛 大切 おしゃれ パーカー キャンペーン お呼ばれ パステルカラー 美味しい ケア 文房具 必要 ホルモン 下着 睡眠 ニキビ パンツ 東京 スポット いい 和菓子 作品 販売 お腹 ニット ファッション 投稿 筋肉 可愛い !& 2 あなた 大人 店内 印象 ボディ 作り方 アイテム ムーン あなた アイテム 乱舞 シンプル ビキニ 電話 トップス 物語 豆腐 数字 spade イケメン 天然石 クセ 女性 平均 名前 こと 読者 野菜 ローズ 魅力 勉強 no クリア 女のコ 時間 パンプス 土産 宿 ウケ 寒い あなた モチーフ 玉ねぎ 限定 あなた 口コミ
チョコレート 施術 個性 アクセサリー ジュース さん アイテム デザイン 歴史 前髪 友達 腕時計 つば 二次会 女の子 ヘルシー エキス jenny ため 入浴 汚れ 着こなし さん 場所 ミルク ナチュラル 症状 商品 方法 ハンバーグ コーデ 人気 話題 効果 チョコレート 自転車 適量 レモン 姿勢 トップス オープン 成分 レシピ まつ毛 クラッチ スタイル いい サイト 魔女 季節 東京 上品 占い グラデーション ひとり レンズ 効果 オススメ コース 自分 洗剤 かわいい 美味しい フレグランス 海外 ・・・ ため パッケージ うさぎ t 爽やか 栄子 乾燥 住所 コーディネート ポップコーン 自然 雰囲気 ファー 気持ち 花言葉 レシピ 土産 自分 アイテム
パンツ フランス 大人 サイド 炭酸 ネックレス 空間 原宿 神社 ヨーグルト ポニーテール 小物 双子 予約 ごはん 美容 産後 豆乳 スキン ニット ラーメン 公園 今日 チョコ アイシャドウ 妊娠 素敵 予定 代謝 カジュアル 秋冬 twitter アイシング )& 牛乳 着こなし 専門 スキン 醤油 部分 スニーカー 注目 幸せ 日本 アナ ホワイト フェス フリル 先生 ベージュ ケイト バレエ 鑑定 質感 好き 放題 食器 手入れ カフェ 商品 土産 ガール トロ 可愛い こと キャンディー la イエロー to こと ブーツ 紅茶 モテ 更新 スープ 焼き 商品
スタイル 店内 おしゃれ ココナッツ ブランド 携帯 日本 バター アップ 気持ち チェック ルック ウエディングドレス 玄米 ml 抜け毛 背中 涼しげ ため 乾燥 スタイル 夜景 スタバ 印象 病気 コラボ 身体 天ぷら デザイン エクササイズ チョコ ;! 小さじ 材料 よう ニット 原宿 大人 もの ロゴ たち シンデレラ ビーチ 定休 女の子 ツヤ 環境 スペード 年生 気持ち 石川 掃除 注目 雰囲気 素敵 いい ヨガ 金魚 発売 そう s ベース you おしゃれ 美味しい 美術館 オシャレ マーガレット オリーブ 美味しい ポーチ
1つ トップス ロンドン 派手 メガネ スムージー もの ベッド plus 京都 マシュマロ 後ろ お母さん 以上 さん パステル カバー 下着 美肌 アイテム 雰囲気 自分 アイスクリーム アイメイク こと 繊細 健康 ソース アウター 古着 インスタ リンパ かわいい (& cc 大さじ パンケーキ 美容 リュック 日本 彼氏 製作 今年 . シルエット 外国 ペン かん kastane 予算 ギフト 子供 大人気 東京 ハンド こと 学校 イベント 豊富 簡単 押し花 laser ピンク 蜷川 定休 コーデ ショート アウター ひまわり pique g みんな プチプラ
シンプル シーン 技術 三つ 可愛 オシャレ 便利 バナナ ゴム お祝い 情報 コード イエロー レシピ ペン 時間 ビタミン ファッション 方法 角質 カーディガン 時間 イルミネーション ... 限定 まぶた ピル 星空 オープン kcal カレー チェック たち 今年 ;_& バター きゅうり ため シンプル 人気 洗顔 エクステ ファッション 思い出 人気 キャラクター ベース サクラ デザイン たち アッシュ 時代 ボブ 人数 商品 ローラ 放題 ボトル ビーチ 週間 振袖 ピンク さん in ボーダー ... アクセス ファー フレーバー おすすめ タートルネック gelato オイル 濃厚 優秀
cm スニーカー 雰囲気 ストーン 華やか 栄養 バッグ スマ おすすめ 食パン 感謝 ボヘミアン おそろい 店舗 ウエディング っぽい ダメージ 日記 あなた 大豆 バス シンプル 期間 毎日 濃厚 まつげ 治療 シリーズ 摂取 美味し パンツ 大人 ブログ ツボ ツリー ;  アボカド ティー クレンジング セクシー 一緒 限定 プリンセス パール イベント ライン レシピ ダーク スクール 眼鏡 ダンス 恋愛 ミディ 言葉 宴会 キット かぶれ 女の子 ディナー 人気 場所 美人 あなた 今年 バリエーション 可愛 a 実花 渋谷 ロー 日帰り 女性 ベレー パンジー ベーコン クリーム 好き カバー
公開 ゴールド 可愛い 野菜 たくさん グッズ カバー 美味しい 嬉しい 時計 バケット 最新 華やか グリーン トリートメント 文字 方法 細胞 クレンジング カジュアル 吉祥寺 スター 眉毛 時期 幻想 体重 パン トレンド コンセプト 動画 let マヨネーズ 方法 店舗 ロング 石鹸 砂糖 スポーツ 愛用 はず 店舗 公開 大人 番号 さん ハイライト 英会話 !? 天然 ワン 彼女 テーブル 玉川 安心 コラボ 習慣 夏休み 見た目 トリートメント ネコ i モチーフ グミ 方法 新宿 フラット グラス 男性 スタイル 友達 ジェラートピケ 牛乳 種類 みたい
ワンピース 有名 人気 綺麗 印象 バナナ おしゃれ 生活 フォン 温泉 牛乳 完成 香り おじさん 幸せ 可愛い 妊娠 予定 育毛 使用 爽やか タイム 人気 amp 美味しい アイライン 病院 夜空 周年 ストレス そう スタイル アウター 可愛い 足首 カップ アリ ドレッシング 綺麗 アイテム 東京 髪型 cc スイカ アメリカ 時間 発売 再現 ライン 満開 名古屋 カジュアル 恋愛 製造 ?! カス 組み合わせ ゴキブリ パッケージ たち 新宿 パッケージ ホテル 今日 今日 卒業 時間 世界 p オレンジ is シミ ニット 人気 ホテル ヘアスタイル ビスチェ これ シェル コンソメ チョコレート クリーム
石原 カラー たち 安心 色合い 豊富 可愛く お気に入り グルメ 砂糖 トップ 贈り物 お洒落 体験 ブーケ 雰囲気 安値 メモ 便利 無印 トップス 料理 料金 欲しい クリーム 目尻 学生 太陽 今年 原因 おにぎり 素材 トレンド 雑誌 ハート  & 小さじ 美人 パンプス カップ カラー 美肌 みりん スポーティー 人気 気持ち デザイン 世界 上品 神戸 女性 放送 学校 new テニス もの ^ 彼氏 レター 便利 原宿 デザート シリーズ 有名 イイ 魅力 たち laserpointer ボー 効果 電話 お洒落 ワイン セクシー ダウン かわいい チョコ こと ブラシ
3つ アイテム discasdvd 空間 可愛い ヘアスタイル ドリンク 洋服 自分 photo こと アイス 団子 バス 人気 違い 料金 淡い おにぎり イラスト 可能 調整 気分 リラックス 原因 ショート おいしい こと まつ毛 分泌 開始 可愛い 女性 彼女 ストレッチ サンタ ♪& ml パプリカ これ ジャケット 青山 黒髪 用意 トレンド コレクション 素敵 原宿 コスチューム かわいい 醤油 学期 カバン 小さい 厳選 柔軟 それ ため 登場 コース いい ここ 自分 休日 モダン 新作 たくさん n フットネイル ハリ タオル 厚底 ティー 旅館 o チェック 人魚 じゃがいも もの
2つ ホワイト ため 徒歩 アクセント ハーフ オイル パール キッチン from 景色 お菓子 リボン タイム 注目 color 可能 一生 かわいい 配合 スケジュール 節約 可能 暑く 美容 方法 シルエット 横浜 あなた 服用 紫陽花 かぼちゃ セットアップ バッグ みたい イベント アンド それ 美味しい 雰囲気 潤い 手作り 小物 出身 好き 大人気 ネイルデザイン 花びら ビル ウエスト ストーリー 2 ピンク miumiu 高校 本物 動き モテ ムーミン 歯磨き 話題 イタリアン よう 美しい 魔法 和風 メルヘン m カラフル for パック 専門 こと カール 幸せ マーメイド 材料 ソース はず ブランド
ml 印象 -- 魅力 ベース カチューシャ レモン 素敵 家具 スマホ 美しい 可愛い セット フリンジ コチラ 利用 結婚 っぽく 表紙 ない 治療 あなた トラブル 浅草 無料 商品 ポイント ストレス モチーフ 記念 ヘルシー 秋冬 snidel おしゃれ ふく バラ 薄力粉 レシピ 女性 tシャツ チョコレート カット パック 生姜 ペーパー オシャレ センス 購入 原作 ブルー ワキ デニム cc 印象 かばん サークル いい プラン マジック 子ども プロデュース 人気 トレーニング 着付け クレヨン 部分 お菓子 beauty グリーン 浮き クマ 出口 可愛い ジェラート キャンプ スタイル 自分 かわいく アイス 可愛く
さとみ ヘア バレッタ 成分 ルーム 財布 絶景 ミルク ハーフ マカロン 素材 私服 価格 お姫様 ベージュ 栄養 専売 本屋 よう お洒落 こと 大人 ない 避妊 芸術 価格 サラダ ガーリー 提案 撮影 結晶 もの スニーカー 日本 ハンド カラー 登場 大切 プチプラ ニオイ 中央 素材 主演 ハイ オタク 荷物 低い こと くせ毛 友達 予約 メッセージ 重曹 イベント パスタ 自分 笑顔 それ 思い出 ルージュ これ 宇宙 f ため ビル トレンド 足湯 ライブ パジャマ 野菜 大好き 仕上がり
mcbee 着こなし 軽井沢 スタッフ 淡い 団子 世界 お家 鎌倉 ジャム 巻き 手作り カーキ ベスト 登録 レース ネイビー ラーメン サイト 毎日 これ サマー マッサージ パック 大人 営業 会場 はず バックス 月経 不思議 日本 朝食 シンプル 予約 デコレーション ?& * いい 印象 動き 配合 玉ねぎ これ デザイン 真似 以下 人気 可愛い タトゥーシール 渋谷 デート 公開 砂糖 フランス コンパクト 学生 お守り ナチュラル 大切 誕生 デザイン ブランド 徒歩 ボディ タイ アナタ 運動 古典 自分 ドライヤー de 涼しげ オシャレ 見た目 日本 ショップ たくさん サック 簡単 味わい 高い
バレンタイン おしゃれ 嬉しい パール ポニーテール 作用 ブレスレット 写真 スマート 名所 材料 奈良 紹介 通学 場合 マナー グレー めん シール 管理 皮膚 紹介 すっぴん 素材 グルメ 入場 多い パフェ ブラウン ため candy チェック 便秘 商品 活躍 セル しまむら テーマ 5 海老 ない ショート 代官山 ナチュラル 使用 お洒落 dazzlin ファッション アリス グラデーション 梅田 ガーリー 話題 キャベツ 明るく プレゼン ラウンド サッカー 水晶 矯正 徒歩 カラコン ワイン 個性 リゾート 屋台 ダイソー タオル キュート mw マリン with とき 番号 デザイン ジュース 源泉 ナチュラル 秋冬 量産 適量 ベリー ない 紹介
まとめ ジャケット 出演 リラックス ネイルデザイン 大人 便秘 華奢 雰囲気 カメラ 素敵 先取り 可愛い 特別 付録 薄毛 プラセンタ キャップ 美容 tシャツ トロ 水族館 うち パン ライン 精神 綺麗 イベント ため おかず 上品 ヴィンテージ 参考 クリスマスツリー カキ 豆乳 ロング おしゃれ 巻き 敏感 大根 好き もの 展開 女王 印象 野外 少女 好み 栽培 是非 女の子 完全 グッズ 清潔 ファン 種類 景色 セクシー 電車 加工 優秀 綺麗 不思議 die っぽい niko マスク ] スリッポン アイス スポット っぽい パジャマ 名前 ナップ パセリ フルーツ ... パッケージ
以上 小物 担当 パーティー 繊維 紹介 可愛く カード 時代 プリン 髪型 ケーキ ブランド ランク コース ボレロ マグロ 解析 徳島 mw 涼しく 毎日 ボーダー そば デートスポット 楽しい かき氷 よう 子宮 さん 店舗 解消 おいしい 今年 ムートンブーツ ぬいぐるみ ライト 友達 ..* 3 自信 ブーツ 台湾 しょうゆ バック 私服 大好き 値段 魔法 ハート mi ごま油 ブリーチ 小さめ コンプレックス 偽物 美容 デート ディナー 二子 歯ブラシ ラン 種類 上品 おすすめ 気分 姿 アイテム titty 指先 of 季節 やすい アルコール 黒髪 毎日 はず お花 ピザ 風味 それ 使用
ニット dvdhttp カラー 上品 雰囲気 ミネラル キュート デザイン 達也 ゼリー コテ ゲット 通勤 会員 トロ 香り 簡単 改善 疲れ 乳液 コート こちら バス お金 キャラメル 神秘 時間 野菜 ショップ 海外 可愛く ビューティー 生クリーム 足元 限定 バング にんにく 大人 キュート 楽しい コラボ 主人公 フレンチネイル 暖かく 新宿 姿 ご飯 黒髪 パーム channel ララ ストレート サプライズ センス とき 芸能人 おすすめ 絶景 下駄 タイプ あめ e 大人 テイラー・スウィフト シンプル パンケーキ 疲れ っぽ スヌード 可愛く にんにく トッピング 多い 美容
ランキング グレー ファン お客様 雰囲気 可愛く こと シンプル ライト トルネード 人気 ヘアスタイル 秋色 ワン お客様 新婦 レッド ツヤ リスト フラーレン 流行 良品 よう トレンド セット スカイ シロップ パウダー 社会 もの オムライス 上質 人気 二の腕 バレンタインデー かき レシピ パセリ 印象 おしゃれ ストレート ニキビ ひも ブラック 有名 それ チェック ホログラム 時期 丁目 コーデ 韓国 明るい 勉強 バック マンガ 可愛い よう 西荻 雑誌 空間 女の子 時間 オーラ 疲れ セルフネイル der シルバー taylor 崩れ 予約 おすすめ 野球 女の子 インナー よう ハー コショウ マンゴー 感じ
オススメ ブラック 受賞 トリートメント ポップ 上品 食物 ジュエリー 小物 hair 生クリーム スタイル カード 買取 ブライダル 派手 食材 クロ 多い 出力 真夏 大切 ファンデーション 今年 絶品 セール 風味 こと 五月 キャンディ テーマ レンジ シルエット たくさん お洒落 両手 見た目 ?。* 好み こしょう 大切 バランス cafe 可愛い 日焼け 片栗粉 ホワイト 女性 とき 物語 夜桜 スカート 簡単 学生 york 二の腕 柔らかく ない デート 文字 サラダ 人気 それ 飾り 可愛 写真 und 可愛い swift 銀座 スタイル 好き 山形 髪型 コーディネート もの レインボー ブロッコリー 商品 たち 下地

実行コード

実行コード...

# LDA(Latent Dirichlet Allocation)のRパッケージを試してみるスクリプト
#
#   複数のテキストからトピックを抽出する
#
# 参考:
#   トピックモデルによる統計的潜在意味解析 2章後半:http://goo.gl/6Sq3pd
#   RでLDAの一例:http://goo.gl/FsYGZd
#   ggplot2エラー対処法:http://goo.gl/RJJ7gG
#
#

#  ================== パッケージ準備 ==================
  # パッケージインストール
  # install.packages (`RMeCab`, repos = `http://rmecab.jp/R`)
  # install.packages(`lda`)

  # library読み込み
  library(RMeCab)
  library(lda)
  library(reshape2)
  library(ggplot2)
  library(foreach)
  library(doParallel)
  library(tcltk)

#  ================== 定数定義 ==================
  wd <- `C:/Users/tadashi.mori/Google ドライブ/01_R/LDAtest`  #作業ディレクトリ
  path.input <- `テストテキスト.txt`
  filter.wordclass <- `名詞|形容詞`
  filter.ngword <- `[^\?/:-\,\(\)♪【】<><>]`
  sep <- 5000  # 形態素解析分割数
  k <- 10 # トピック数

#  ================== 関数定義 ==================
  # 実行時間記録関数
  write.proctime <- function(time.exec,name.task,proctime){
    tmp = data.frame(タスク = name.task
                        , ユーザ = format(proctime[1], digits = 3)
                        , システム = format(proctime[2], digits = 3)
                        , 経過 = format(proctime[3], digits = 3)
                        , 完了時刻 = Sys.time()
    )
    if(is.null(time.exec)){
      result <- tmp
    } else {
      result <- rbind(time.exec
                      , tmp)
    }
    rownames(result) <- NULL
    return(result)
  }

#  ================== 実行時間集計 ==================
  startT <- proc.time()
  endT <- proc.time()
  time.exec <- NULL

#  ================== 分析データ準備 ==================
  # --- データ読み込み ---
  startT <- proc.time()
  setwd(wd)  # 作業ディレクトリ設定

  # ↓↓↓↓↓↓ 使用データ選択 ここから ↓↓↓↓↓↓
#     # ①テストデータの場合
#     sentence <- read.table(path.input
#                        #, stringsAsFactors=F  #char型にするとRMecabDFでエラーが出るのでファクターのまま
#                        , header = FALSE
#                        , sep = `  `)
#     names(sentence) <- `text`

#     # ②atcosmeデータの場合
#     load(`atcosmeReview.dat`)
#     sentence <- head(sentence,n=1000)
#     sentence[,1] <- as.factor(iconv(sentence[,1]
#                                     ,from=Encoding(sentence[1,1])
#                                     ,to=`cp932`
#                                     )
#                               )

    # ③meryデータの場合
    load(`meryArticle.dat`)
    # sentence <- head(sentence,n=1000)


  # ↑↑↑↑↑↑ 使用データ選択 ここまで ↑↑↑↑↑↑

  endT <- proc.time()
  time.exec <- write.proctime(time.exec,`データ読み込み`,endT-startT)  # <実行時間記録>

  # --- 形態素解析 ---
  startT <- proc.time()
  n <- ceiling(nrow(sentence)/sep)
  sentence.split <- split(sentence,1:n)
  pb <- txtProgressBar(min = 1, max = n, style = 3)

  # 分割して形態素解析し保存
  for(i in 1:n){
    tmp.part <- RMeCabDF(sentence.split[[i]],1)  # 形態素解析実行
    saveRDS(tmp.part,file = paste(`mecabdata`,i,`RData`,sep = ``))  # 作業ディレクトリに保存
    setTxtProgressBar(pb, i) # プログレスバー更新
  }

  # 保存したデータを読み込みマージ
  tmp <- NULL
  for(i in 1:n){
    tmp.part <- NULL
    tmp.part <- readRDS(paste(`mecabdata`,i,`RData`,sep = ``))  # 保存したファイルを読み込み
    tmp <- c(tmp,tmp.part)
  }

  # マージデータを保存
  saveRDS(tmp,file = `mecabmerge.RData`)

#   # 分散処理準備
#   n <- nrow(sentence)/1000  # コア数を繰り返し回数にセット
#   registerDoParallel(detectCores())  # コア数をセット
#   sentence.split <- split(sentence,1:n)  # データをコア数分割
#
#   # 分散処理
#   tmp.list <- foreach(i=1:n
#                  , .export = ls(envir=parent.frame())
#                  , .packages = `RMeCab`
#                  ) %dopar% {
#                    try(RMeCabDF(sentence.split[[i]],1))
#                  }
#   # 結果マージ
#   tmp <- NULL
#   for(i in 1:n){ tmp <- c(tmp,tmp.list[[i]]) }

  endT <- proc.time()
  time.exec <- write.proctime(time.exec,`形態素解析`,endT-startT)  # <実行時間記録>

  # --- 品詞フィルタ ---
  startT <- proc.time()
  #
  tmp.vec <- unlist(
    lapply(tmp
           ,function(x
                     ,filter.wc = filter.wordclass
                     ,filter.ngw = filter.ngword
                     )
             {
             z <- x[grep(filter.wordclass,names(x))]  # filter.wordclassで指定した品詞を抽出
             z <- z[grep(filter.ngword,z)]  # filter.ngwordでNGワードを排除
             z <- z[grep(`[^0-9]`,z)]  # 数字を排除
             result <- paste(z
                             , sep = ``
                             , collapse = ` `
             )  # ベクトルから文字列へ変換
9
11
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
11