More than 5 years have passed since last update.

4月に読んだ論文のメモ

Posted at 2020-05-03

この記事は2020年4月に自分が全文を読んだ論文のメモみたいなものです．解説としてはいまいちかも．(飽和気味だと思うので)新しいモデルの解説とかよりは面白いテーマとかを読んでいきたいと思ってます．
別に最新の論文というわけでもないです．
あと，これがQiita初投稿です．

Towards Context Expiry Data Determination: Predicting Validity Periods of Sentences

元論文：https://link.springer.com/chapter/10.1007/978-3-030-15712-8_6
データセット：https://github.com/AxlAlm/ValidityPeriods-dataset

この論文は文章の内容が有効である期間を予測するタスクを提案，実際に予測を試みている．トランプがスウェーデンを訪問した，とあればこれは数日後には有効な情報じゃなくなる，といった問題．
問題提起が主なので，用いている機械学習モデルや特徴量とかはシンプルめ．
ただ，この問題自体は相当広い範囲に応用可能なものなので，今後注目を集める可能性はある．

タスクの定義

ある時間に生成された文章が有効である最大期間を予測すること．
この論文の中では数時間，数日，数週間，数か月，数年，それ以上のクラス分類問題と単純化している．

予測

各文章の特徴量として，LSA，平均単語長，文章長，POS-tagの登場回数，時間表現，sentence embedding(各単語の学習済みskip-gramによるembeddingの平均)，TempoWordNet，単語のカテゴリ(Empath)，Global Temporal Associations(GTA) を使用している．
このGTAという特徴量はこの論文で新しく提案しているものらしい．
主語・述語・目的語の組み合わせからかかる時間が大体想定できるだろうという考えに基づいている．例えば，"家を建てる"は"ボールを蹴る"より長い時間がかかるはずという想定ができる．

こうして得られた特徴量を使ったり使わなかったりしてSVN/RNN/KNN/ランダムフォレストなどのモデルでクラス分類を学習．
GTA以外の特徴量は有用そうなことがわかっている．

展望

例えば，もう使えなくなった文書を今後も有効になるように自動生成するタスクとかが将来的な問題として考えられる．

Deep Learning for Stock Prediction Using Numerical and Textual Information

元論文：https://ieeexplore.ieee.org/abstract/document/7550882
この論文は株価の予測をしている．株価の予測論文はかなりの数があるが，数値情報だけでなくテキスト情報も組み込んでより人間の考えに合わせようとしている．

予測

予測手法自体はかなりシンプル．だが興味深い．
テキストデータはBoWベースの手法とPV-DMとを入力にする．
数値データは単純に株価．これらは次元が全く違うので，単純に結合させるのはよろしくないことが想定されるため，FFNでそれぞれの次元を合わせるように変換してから結合．これをLSTMの入力として予測する．

一社だけを入力とする場合と，同業の会社をいくつか同時に与えてやる場合でテストし，
結局テキストと数値，競合他社を合わせたほうが評価値が高いという結果が得られている．

Tweet Classification Based on Their Lifetime Duration

元論文：https://dl.acm.org/doi/pdf/10.1145/2396761.2398642
最初の論文と似たタスクに取り組んでいる論文．
ツイート中の情報が有効な期間を求めることで，ユーザに読むべきツイートを選別して提供することを目的としている．
例えば，地震！ってツイートは後で読み返す必要性の低いツイートだから提示しない，といった形．

タスクの定義

まずツイートが時間依存する価値を持つかどうかを求める．
その後ツイートの価値の有効期間を求める．
この期間から情報の時間依存性(Time-Dependency)を求める．時間依存性は，現在時刻から一定時間経過後に失われる価値の割合で定義される．
この依存性に基づいてツイートを"should-read-now"と"may-read-later"，"Not-Useful"に分類する．

Time-Dependencyが高ければ，すぐに情報の価値が失われることになるためすぐ読むべき．低い場合では既に価値が失われてるか，長持ちするかのどちらか．

予測

SVMなどで予測．
Bursty wordsという，一時的に出現頻度の高い単語が短期間のものの特定に役立つことがわかる．また，URLがツイート中に含まれれば，有効期間が長期のものの特定に役立つことがわかる．

Task Duration Estimation

元論文：https://www.microsoft.com/en-us/research/publication/task-duration-estimation/

カレンダーに登録されているタスクに要する時間を予測する論文．
予測できれば，例えばSiriとかCortanaとかにカレンダー登録依頼したらそのイベントの期間を決定をアシストしたりできる．将来的にさらに利用価値が上がっていくであろう問題を提起している．
カレンダーの情報が膨大だからこそ成立する内容で，Microsoftのような長大企業だからこそできる研究だと感じる．

タスクの定義

予測の前に，カレンダー中の各要素とタスクの実行時間の相関を調べて，タスクの影響がユーザの影響より大きいことを確認している．また，位置に関する情報が入っているもの(移動を伴うタスク)は電話番号を含むものより長くなる傾向などを確認している．

これをもとに予測を行う．
データの特徴量を，内容，文脈(位置の情報や時間等)，過去の3つに分類し，それぞれの特徴量の予測への影響度を調べている．
結果として，内容ベースが最も高く，次に過去，文脈となっていて，文脈データはこの研究ではあまり有用なデータではないという結果になっている．

実際には文脈データは端末の位置情報データなどを利用していないためこの結果になっている可能性がある．

Mapping Entity Sets in News Archives Across Time

元論文：https://link.springer.com/article/10.1007/s41019-019-00102-3

ニュース中に出現する似ているエンティティの組を抽出する，というタスクを行っている論文．
過去の人物や出来事と現在のものを比較したい場合とかがある．例えばトランプとレーガン，ゴルバチョフとプーチンとか．そういう時に自動で出したいねという論文．

手法

過去の一定期間と現代の一定期間のニュース記事，およびそこに含まれる実体をデータセットとしている．

使用するのは基本的には２実体間の類似度．skip-gramを使っているが，学習は過去と現代別々に行う．従って類似度を求めるのは困難になるが，出現頻度の非常に高い単語(Iとかyouとか)同士の意味は大きく変わらないことから，それらを用いて変換行列を作り，マッピングする．

こうして類似度を求めても，似ている例とかが微妙だとよろしくない．あんまり知らない人とかの名前出されても良い対比になりづらい．
そのため，単語が，自身の属しているグループの代表例であるようなものを選ぶ．

これだけだと，とても小さいサブグループの代表例とかになってしまったりもするので，このグループもなるべく顕著なものを選ぶ．"昆虫学者"よりは"物理学者"．

これらを組み合わせることで典型的なグループの典型的な例の過去と現在の類似の組を出力する．

式とか書く体力は尽きてしまっているが，見返したときに楽なようにこれからはまめに書きたい．

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

4月に読んだ論文のメモ

Towards Context Expiry Data Determination: Predicting Validity Periods of Sentences

関連研究

タスクの定義

予測

展望

Deep Learning for Stock Prediction Using Numerical and Textual Information

関連研究

予測

Tweet Classification Based on Their Lifetime Duration

タスクの定義

予測

Task Duration Estimation

タスクの定義

Mapping Entity Sets in News Archives Across Time

手法