STS ってなんぞ?
STS とは Semantic Textual Similarity の略で、簡潔に言えば 文章の等価性 を評価するためのタスクです。
最近話題の BERT もこのタスクに取り組んでおり、2018年11月でSOTAの地位を手にしています。
このタスクの特徴は?
このタスクは 2つの文章の関係 を評価するタスクです。
何処かで聞いたことがありますね?はい、前回 紹介した QQP のタスクと非常に似ています。しかしこちらはそれよりもやや基準が緩いようです。どのように緩いかはデータの項で明らかになります。
具体的なデータは?
データは、文章1 と 文章2 とそれらの 類似度 である [0, 5]区間の 連続値 を取ります。
具体例を以下に示します。
大福美味しい。
いちご大福大好き。
4.0 (大きいほど似ている。)
実際のSTSに含まれるデータを紹介します。
a small bird sitting on a branch in winter.
(冬の枝に止まっている小鳥)
a small bird perched on an icy branch.
(凍った枝の上に止まっている小鳥)
4.2 (相当似ている。)
どう活用できる?
QQPタスクよりも緩そうな感じですね。活用先としては、これを学習させた後に、任意の文章に一致しているか を調べるシステムが想定できます。
これの良い点は、任意の文章が入ってくるシステムである特定のコンテキストの文章をとり出したいときに、分類問題にしてしまうと不均衡なデータセット となってしまう (そのコンテクストの文章とそれ以外の文章の存在比率を考えれば明らか) という問題を解決できるということです。
参考文献
Semantic textual similarity http://nlpprogress.com/english/semantic_textual_similarity.html
文の意味構成に伴う高次元空間の最適化と単語表現学習 http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D6-3.pdf
Learning Semantic Textual Similarity from Conversations
https://arxiv.org/pdf/1804.07754.pdf
他ページヘのリンク
NLPのタスクを紹介するだけの簡単なページ(0)
[NLPのタスクを紹介するだけの簡単なページ(1) ~SQuAD編~]
(https://qiita.com/MeguruMokke/items/44720220d4fe9de3f804)
NLPのタスクを紹介するだけの簡単なページ(2) ~CoLA編~
NLPのタスクを紹介するだけの簡単なページ(3) ~QQP編~
NLPのタスクを紹介するだけの簡単なページ(4) ~STS編~
[NLPのタスクを紹介するだけの簡単なページ(5) ~MRPC編~]
(https://qiita.com/MeguruMokke/items/962a76a3b6c9e4c99315)