tfidfの計算と各種ヒューリスティック
概要
- 文章検索などでよく用いられる重み付けの方法
- 頻出確率が低い単語ほど、意味があると仮定して重み付けする
- 感覚的には、レアリティが高いほど、情報量が増えるエントロピーに近い
各種計算方法
計算方法1(よくある定義)
\(tfidf = \log{\frac{termfreq_k}{docfreq_{ALL}}}\)
log
を取ることで一部の単語に重みが偏ることを防ぐ
計算方法2(2回ログにより情報量の尖り方を抑えた方法)
\(tfidf = \log \log{\frac{termfreq_k}{docfreq_{ALL}}}\)
計算方法3(ペナルティになる逆数にログを取り、情報量の尖り方を抑えた方法)
\(tfidf = \log{\frac{termfreq_k}{\log{docfreq_{ALL}}}}\)