この記事は2020年4月に自分が全文を読んだ論文のメモみたいなものです.解説としてはいまいちかも.(飽和気味だと思うので)新しいモデルの解説とかよりは面白いテーマとかを読んでいきたいと思ってます.
別に最新の論文というわけでもないです.
あと,これがQiita初投稿です.
#Towards Context Expiry Data Determination: Predicting Validity Periods of Sentences
元論文:https://link.springer.com/chapter/10.1007/978-3-030-15712-8_6
データセット:https://github.com/AxlAlm/ValidityPeriods-dataset
この論文は文章の内容が有効である期間を予測するタスクを提案,実際に予測を試みている.トランプがスウェーデンを訪問した,とあればこれは数日後には有効な情報じゃなくなる,といった問題.
問題提起が主なので,用いている機械学習モデルや特徴量とかはシンプルめ.
ただ,この問題自体は相当広い範囲に応用可能なものなので,今後注目を集める可能性はある.
###関連研究
時間指定してやって,その時間に関連した情報だけを提示してやるTemporal Information Retrievalという分野がある.簡単な例だとツイッター上でどういう情報を表示すればユーザにとって利用価値が高いか,などといった研究など.
もう既に失効してるトレンドとかを見せてもあんまり意味ないよねっていうこと.
さらにこれまでは時間の情報が直接書かれてるようなのに限定されてたらしい."今日"とか"1995年"とか.
こういうのに依存せずツイッターのような特定のプラットフォームや記法などにも依存しない研究,というのがこの論文の立場.
###タスクの定義
ある時間に生成された文章が有効である最大期間を予測すること.
この論文の中では数時間,数日,数週間,数か月,数年,それ以上 のクラス分類問題と単純化している.
###予測
各文章の特徴量として,LSA,平均単語長,文章長,POS-tagの登場回数,時間表現,sentence embedding(各単語の学習済みskip-gramによるembeddingの平均),TempoWordNet,単語のカテゴリ(Empath),Global Temporal Associations(GTA) を使用している.
このGTAという特徴量はこの論文で新しく提案しているものらしい.
主語・述語・目的語の組み合わせからかかる時間が大体想定できるだろうという考えに基づいている.例えば,"家を建てる"は"ボールを蹴る"より長い時間がかかるはずという想定ができる.
こうして得られた特徴量を使ったり使わなかったりしてSVN/RNN/KNN/ランダムフォレストなどのモデルでクラス分類を学習.
GTA以外の特徴量は有用そうなことがわかっている.
###展望
例えば,もう使えなくなった文書を今後も有効になるように自動生成するタスクとかが将来的な問題として考えられる.
#Deep Learning for Stock Prediction Using Numerical and Textual Information
元論文:https://ieeexplore.ieee.org/abstract/document/7550882
この論文は株価の予測をしている.株価の予測論文はかなりの数があるが,数値情報だけでなくテキスト情報も組み込んでより人間の考えに合わせようとしている.
###関連研究
数値データだけを使った株価の時系列データの予測は普通にあった.また,テキストデータを使った株価の時系列ではないデータの予測もあった.
現実の株取引は新聞とか株価の変動とかを総合的に考えてするので,この研究はそれを組み合わせて考える点で新しい.
###予測
予測手法自体はかなりシンプル.だが興味深い.
テキストデータはBoWベースの手法とPV-DMとを入力にする.
数値データは単純に株価.これらは次元が全く違うので,単純に結合させるのはよろしくないことが想定されるため,FFNでそれぞれの次元を合わせるように変換してから結合.これをLSTMの入力として予測する.
一社だけを入力とする場合と,同業の会社をいくつか同時に与えてやる場合でテストし,
結局テキストと数値,競合他社を合わせたほうが評価値が高いという結果が得られている.
Tweet Classification Based on Their Lifetime Duration
元論文:https://dl.acm.org/doi/pdf/10.1145/2396761.2398642
最初の論文と似たタスクに取り組んでいる論文.
ツイート中の情報が有効な期間を求めることで,ユーザに読むべきツイートを選別して提供することを目的としている.
例えば,地震!ってツイートは後で読み返す必要性の低いツイートだから提示しない,といった形.
###タスクの定義
まずツイートが時間依存する価値を持つかどうかを求める.
その後ツイートの価値の有効期間を求める.
この期間から情報の時間依存性(Time-Dependency)を求める.時間依存性は,現在時刻から一定時間経過後に失われる価値の割合で定義される.
この依存性に基づいてツイートを"should-read-now"と"may-read-later","Not-Useful"に分類する.
Time-Dependencyが高ければ,すぐに情報の価値が失われることになるためすぐ読むべき.低い場合では既に価値が失われてるか,長持ちするかのどちらか.
###予測
SVMなどで予測.
Bursty wordsという,一時的に出現頻度の高い単語が短期間のものの特定に役立つことがわかる.また,URLがツイート中に含まれれば,有効期間が長期のものの特定に役立つことがわかる.
Task Duration Estimation
元論文:https://www.microsoft.com/en-us/research/publication/task-duration-estimation/
カレンダーに登録されているタスクに要する時間を予測する論文.
予測できれば,例えばSiriとかCortanaとかにカレンダー登録依頼したらそのイベントの期間を決定をアシストしたりできる.将来的にさらに利用価値が上がっていくであろう問題を提起している.
カレンダーの情報が膨大だからこそ成立する内容で,Microsoftのような長大企業だからこそできる研究だと感じる.
###タスクの定義
予測の前に,カレンダー中の各要素とタスクの実行時間の相関を調べて,タスクの影響がユーザの影響より大きいことを確認している.また,位置に関する情報が入っているもの(移動を伴うタスク)は電話番号を含むものより長くなる傾向などを確認している.
これをもとに予測を行う.
データの特徴量を,内容,文脈(位置の情報や時間等),過去の3つに分類し,それぞれの特徴量の予測への影響度を調べている.
結果として,内容ベースが最も高く,次に過去,文脈となっていて,文脈データはこの研究ではあまり有用なデータではないという結果になっている.
実際には文脈データは端末の位置情報データなどを利用していないためこの結果になっている可能性がある.
Mapping Entity Sets in News Archives Across Time
元論文:https://link.springer.com/article/10.1007/s41019-019-00102-3
ニュース中に出現する似ているエンティティの組を抽出する,というタスクを行っている論文.
過去の人物や出来事と現在のものを比較したい場合とかがある.例えばトランプとレーガン,ゴルバチョフとプーチンとか.そういう時に自動で出したいねという論文.
###手法
過去の一定期間と現代の一定期間のニュース記事,およびそこに含まれる実体をデータセットとしている.
使用するのは基本的には2実体間の類似度.skip-gramを使っているが,学習は過去と現代別々に行う.従って類似度を求めるのは困難になるが,出現頻度の非常に高い単語(Iとかyouとか)同士の意味は大きく変わらないことから,それらを用いて変換行列を作り,マッピングする.
こうして類似度を求めても,似ている例とかが微妙だとよろしくない.あんまり知らない人とかの名前出されても良い対比になりづらい.
そのため,単語が,自身の属しているグループの代表例であるようなものを選ぶ.
これだけだと,とても小さいサブグループの代表例とかになってしまったりもするので,このグループもなるべく顕著なものを選ぶ."昆虫学者"よりは"物理学者".
これらを組み合わせることで典型的なグループの典型的な例の過去と現在の類似の組を出力する.
#
式とか書く体力は尽きてしまっているが,見返したときに楽なようにこれからはまめに書きたい.