llm as a judgeについて
概要
- 具体的な評価フローに関しては /laaj-frameworks/ を参照
- あるLLMが別のLLMの出力や人間の回答を評価する手法があり、チャットボットの品質評価や自動採点に応用されている
- ペアワイズ比較やスコアリング、理由付けを促すプロンプト設計により、正確さや一貫性を担保した評価が可能となる
- 評価作業の効率化や客観的な比較が実現され、膨大なデータに対して高速かつ安価な評価が可能
リスク
- 評価の安定性やバイアス、倫理的な問題、データ漏洩リスク、計算コストなど