llm as a judge

date: 2025-03-06 excerpt: llm as a judgeについて

llm as a judgeについて

具体的な評価フローに関しては /laaj-frameworks/ を参照
あるLLMが別のLLMの出力や人間の回答を評価する手法があり、チャットボットの品質評価や自動採点に応用されている
- ペアワイズ比較やスコアリング、理由付けを促すプロンプト設計により、正確さや一貫性を担保した評価が可能となる
評価作業の効率化や客観的な比較が実現され、膨大なデータに対して高速かつ安価な評価が可能