• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

tfidf

date: 2022-06-18 excerpt: tfidfの計算と各種ヒューリスティック

tag: 機械学習tfidf


tfidfの計算と各種ヒューリスティック

概要

  • 文章検索などでよく用いられる重み付けの方法
    • 頻出確率が低い単語ほど、意味があると仮定して重み付けする
    • 感覚的には、レアリティが高いほど、情報量が増えるエントロピーに近い

各種計算方法

計算方法1(よくある定義)

\(tfidf = \log{\frac{termfreq_k}{docfreq_{ALL}}}\)

  • logを取ることで一部の単語に重みが偏ることを防ぐ

計算方法2(2回ログにより情報量の尖り方を抑えた方法)

\(tfidf = \log \log{\frac{termfreq_k}{docfreq_{ALL}}}\)

計算方法3(ペナルティになる逆数にログを取り、情報量の尖り方を抑えた方法)

\(tfidf = \log{\frac{termfreq_k}{\log{docfreq_{ALL}}}}\)

tfidfの評価

  • 定性的な評価
    • 感覚的に合う結果になるかどうか
  • 定量的な評価
    • /NDCG/
    • /MAP/


機械学習tfidf Share Tweet