BLEUスコアについて
概要
- もともとは機械翻訳が人間の翻訳文にどれだけ近いかを計算するスコア
BP
という値は機械翻訳が正解より短いときに小さくなる係数- 最大が1, 最小が0で大きいほど性能が良い
- 機械翻訳の評価以外にも、AIによるテキスト生成などの評価ができる
- 一般的に1 ~ 4gramで評価
数式
\[BLEU = BP × exp( \sum_{n=1}^N w_n log p_n )\]翻訳文が正解文より短い場合 \(BP = exp( 1 - r / c )\)
翻訳文が正解文より長い場合 \(BP = 1\)
\[p_n = \frac{count_n}{\sum_{\text{n-gram} \in \text{candidate}} count_\text{n-gram}}\]- \(r\); 翻訳文の長さ
- \(c\); 正解文の長さ
- \(w\); 一般的に \(1/N\)