LoginSignup
27
21

More than 5 years have passed since last update.

F値(F1/Fβ measure)のFの意味とは?

Posted at

今回扱わない話

すべてがFになる

「全てがFになる?」犀川が口に出したので、山根が画面を覗き込んできた。
「Fってなんのことだ?」と後ろに立っていた弓永医師が言った。

すべてがFになる P130

はじまり

友人とTwitterでこんな会話をした。

指標として使われるものには、偶にわけの分からん名前が付けられていることがあります。
統計的仮説検定に使われるP値(P-value)、バイオインフォマティクスの配列相同性検索の評価指標E-value、そして今回問題にする分類問題の評価指標F値(F-score/F-measure)もその一つ。

しかしP-valueはProbability valueの略だと書いてあるところありますし、なんとなく想像も付きます。原著のピアソンの論文には明言されていないので、もしかしたらPeason-valueというものが彼の頭にあったのでしょうか(ピアソン値というと、おそらく現代では相関係数のことを指しますが…)?

また、E-valueについてもNCBIにかかれています。これはExpect-valueだそうで。

しかしF1値についてはどうにもその略称がなんなのか、どこにも書いていません。
ちょっと調べてみました。

結果

Citing:The truth of the F-measure

現:豊田工大(2007時点:マンチェスター大)の佐々木先生よると、F値を提唱した原著論文は1992年のMUC-4(the Fourth Message Understanding Conference)のNancyらの論文に遡るそうです。また、F値がもともとE関数(Effectiveness)というものの一部であったことが、記されています。

Citing:MUC-4 EVALUATION METRICS

その論文はMUC-4という国際会議において、どんな評価指標を使おうか論じたようで、次のように書かれています。

These four measures of recall, precision, overgeneration, and fallout characterize different aspects of system
performance. The measures of recall and precision have been the central focus for analysis of the results . Overgeneration is a measure which should be kept under a certain value . Fallout was rarely used in the analyses done of the results. It is difficult to rank the systems since the measures of recall and precision are often equally important yet negatively correlated. In IR, a method was developed for combining the measures of recall and precision to get a single measure. In MUC-4, we use van Rijsbergen's F-measure [1, 2] for this purpose .

(拙訳)Recall, Precision, Overgeneration, falloutは異なる視点でシステムの性能を評価する。RecallとPrecisionは結果を評価するのに中心的な役割を持ち、Overgenerationは特定の値に保持されることを目的とする値。Falloutは殆ど使われない。これはRecallもPrecisionが両立しないながらも、共に重要だからである。
情報検索では、RecallとPrecisionが組み合わさった尺度が開発されていて、MUC-4ではこのvan RijsbergenのF値[1,2]を使う。

では引用されている論文をそれぞれ見てみましょう。

Citing:Information Retrieval: Data Structures & Algorithms

[1]はFrakesらによる論文です。目的のところが書かれているのは第一章のINTRODUCTION TO INFORMATION STORAGE AND RETRIEVAL SYSTEMSです。ここではIRの評価尺度としてVan RijsbergenらによってE値が定義されたことが書かれているのみです。

Citing:INFORMATION RETRIEVAL

[2]はここまでで話題に挙がっていたvan Rijsbergenの1979年の論文です。対象となるのは第七章のEvaluationです。この論文では評価尺度として求められるものを上げながら、次のような結論にたどり着きます。

Can we find a function satisfying all these conditions? If so, can we also interpret it in an
intuitively simple way? The answer to both these questions is yes. It involves:

\alpha  \big( \frac{1}{P} \big) +  \big(1- \alpha \big)   \frac{1}{R}   

The scale functions are therefore,

 \Phi _{1} \big(P\big) =  \alpha  \big(1/P\big)   

,and

 \Phi _{2} \big(R\big) =   \big(1- \alpha \big)  \big(1/R\big) 

The'combination' function F is now chosen to satisfy definition 6 without violating the additive independence. We get:

F \big(  \Phi _{1},  \Phi _{2} \big) =1- \frac{1}{\Phi _{1} \Phi _{2}} 

We now have the effectiveness measure. In terms of P and R it will be:

E=1- \frac{1}{ \alpha  \big( \frac{1}{P} \big)  + \big(1- \alpha \big)  \frac{1}{R}  } 

(拙訳)これらの条件を全て満たす関数を見つけられるだろうか?もし出来るとしたら、直感的なものになるだろうか?
その両方の答えはYesである。その尺度関数のφ1, φ2はほにゃほにゃということである。組み合わせ関数Fは独立従属を犯すこと無く、定義6を満足するように選ばれた。よってFが定まり、有効性の尺度としてPrecisionとRecallを用いてEが次にように得られる。

つまりF値のFはFunction(関数)の意味だったようです。これはなんというか…締まりませんね!

余談

最初友人と話していた時には

のように、FlexibilityのFだと思ったのですがvan Rijsbergenらの論文の存在を見逃していたので色々調べ直しました。
Fに大して意味が無いことが判明したので、深く考えること無く、積極的にF値と略していきたいと思います。

参考

27
21
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
27
21