{/* Run Controls */}

Run Benchmark

Evaluate both pipelines on HotpotQA multi-hop questions

Samples

setSamples(+e.target.value)} className="w-28 accent-[#FF6B00]" /> {samples}

{demoMode && hasResults && (

📊 Pre-computed Demo Results Set an API key for live benchmark data

)}

{hasResults && ( <> {/* Hero Metrics */}

{[ { label: "GraphRAG F1", value: (data.graphrag.avgF1 * 100).toFixed(1) + "%", delta: `+${((data.graphrag.avgF1 - data.baseline.avgF1) * 100).toFixed(1)}%`, color: "#FF6B00", bg: "linear-gradient(135deg, #FFF4EB, #faf9f5)", }, { label: "Win Rate", value: (data.graphragF1WinRate * 100).toFixed(0) + "%", delta: "of queries", color: "#5db872", bg: "linear-gradient(135deg, #ecf7ef, #faf9f5)", }, { label: "Bridge F1 Gain", value: data.byType.bridge ? `+${((data.byType.bridge.graphragF1 - data.byType.bridge.baselineF1) * 100).toFixed(0)}%` : "N/A", delta: "vs baseline", color: "#0072CE", bg: "linear-gradient(135deg, #E6F4FF, #faf9f5)", }, { label: "Samples", value: data.numSamples.toString(), delta: "HotpotQA", color: "#002B49", bg: "linear-gradient(135deg, #f5f0e8, #faf9f5)", }, ].map((m, i) => (

{m.value}

{m.label}

{m.delta}

))}

{/* Charts Grid */}

{/* Radar */} {radarData.length > 0 && (

Multi-Metric Comparison

)} {/* F1 by Type */} {typeData.length > 0 && (

F1 Score by Question Type

)}

{/* Token Efficiency */}

Token Usage Breakdown

{/* Detailed Table */}

Full Comparison Table

{["Metric", "Baseline RAG", "GraphRAG", "Δ", "Winner"].map(h => ( ))} {[ { metric: "Average F1 Score", b: data.baseline.avgF1.toFixed(4), g: data.graphrag.avgF1.toFixed(4), delta: `+${((data.graphrag.avgF1 - data.baseline.avgF1) * 100).toFixed(1)}%`, winner: data.graphrag.avgF1 > data.baseline.avgF1 ? "graphrag" : "baseline", }, { metric: "Average Exact Match", b: data.baseline.avgEM.toFixed(4), g: data.graphrag.avgEM.toFixed(4), delta: `+${((data.graphrag.avgEM - data.baseline.avgEM) * 100).toFixed(1)}%`, winner: data.graphrag.avgEM > data.baseline.avgEM ? "graphrag" : "baseline", }, { metric: "Avg Tokens/Query", b: data.baseline.avgTokens.toLocaleString(), g: data.graphrag.avgTokens.toLocaleString(), delta: `${(data.graphrag.avgTokens / data.baseline.avgTokens).toFixed(1)}×`, winner: data.baseline.avgTokens < data.graphrag.avgTokens ? "baseline" : "graphrag", }, { metric: "Avg Cost/Query", b: "$" + data.baseline.avgCost.toFixed(6), g: "$" + data.graphrag.avgCost.toFixed(6), delta: `${(data.graphrag.avgCost / data.baseline.avgCost).toFixed(1)}×`, winner: data.baseline.avgCost < data.graphrag.avgCost ? "baseline" : "graphrag", }, { metric: "Avg Latency", b: data.baseline.avgLatency + "ms", g: data.graphrag.avgLatency + "ms", delta: `${(data.graphrag.avgLatency / data.baseline.avgLatency).toFixed(1)}×`, winner: data.baseline.avgLatency < data.graphrag.avgLatency ? "baseline" : "graphrag", }, { metric: "F1 Win Rate", b: ((1 - data.graphragF1WinRate) * 100).toFixed(0) + "%", g: (data.graphragF1WinRate * 100).toFixed(0) + "%", delta: "", winner: data.graphragF1WinRate > 0.5 ? "graphrag" : "baseline", }, ].map((row, i) => ( ))}

{h}
{row.metric}	{row.b}	{row.g}	{row.delta}	{row.winner === "graphrag" ? "GraphRAG ✓" : "Baseline ✓"}

{/* Insight */}

💡 Key Finding

GraphRAG achieves +{((data.graphrag.avgF1 - data.baseline.avgF1) * 100).toFixed(0)}% higher F1 on multi-hop questions, with the biggest gains on bridge queries where graph traversal connects entities through shared relationships.

The Adaptive Router can eliminate the token overhead for simple queries by routing them to Baseline RAG — achieving the best of both worlds.

)} {/* Report */} {report && (

benchmark_report.txt

            {report}

)}

); }