「RAGシステムを作ったが品質が良いかどうかわからない」——この状態から脱却するのがRAGASだ。検索品質・回答品質・ハルシネーション検出を数値化することで、改善サイクルを回せるようになる。
評価データセット(質問・正解・コンテキスト)を用意し、RAGASライブラリで各指標を計算する。評価スコアが0.7以上を目標値として設定し、週次でモニタリングすることを推奨する。
Faithfulnessが低い → プロンプトを強化(「コンテキストにない情報は答えないこと」を明示)。Context Recallが低い → チャンキング戦略見直し・埋め込みモデル変更。Answer Relevancyが低い → クエリ拡張・HyDE(Hypothetical Document Embeddings)の導入。