Skip to main content

Graph Value Assessment — 2026-02-23 09:04 UTC

Label: graph-value-assessment

Abstract

This assessment uses LLM-as-judge (GPT-4.1) to evaluate answer quality dimensions that entity recall cannot capture: relationship accuracy, completeness, navigational utility, factual grounding, and information structure. Each question is scored independently with randomized A/B assignment to prevent position bias.

Summary

MetricGraph ONGraph OFFDelta
Overall quality4.6094.676-0.067
Judge prefers21 (23%)55 (61%)
Ties14 (16%)
Questions evaluated9090

Per-Dimension Comparison

DimensionGraph ONGraph OFFDeltaWinner
Relationship Accuracy4.774.82-0.06Graph OFF
Completeness4.534.71-0.18Graph OFF
Navigational Utility4.144.17-0.02Tie
Factual Grounding4.814.84-0.03Tie
Information Structure4.794.83-0.04Tie

Per-Category Analysis

CategorynAvg ONAvg OFFDeltaPref ONPref OFFTies
ambiguous_symptom54.564.88-0.32221
condition_department194.734.85-0.133115
doctor_department64.574.47+0.10222
entity_disambiguation84.454.38+0.08071
followup_chain64.474.63-0.17141
multi_hop_graph174.544.60-0.064121
snomed_terminology144.804.79+0.01761
taxonomy_alias74.804.91-0.11160
treatment_info84.304.38-0.08152

Questions Most Improved by Knowledge Graph

IDCategoryQuestionON AvgOFF AvgDeltaJudge Notes
GQ-088multi_hop_graphWelke behandelingen biedt de Cardiologie aan voor hartfalen?4.82.0+2.8Dit antwoord noemt de juiste dienst en aandoening, en specificeert meerdere rele
GQ-078entity_disambiguationBiedt ZOL revalidatie aan op Sint-Jan?4.84.0+0.8Geeft een volledig overzicht van revalidatie op beide campussen, benoemt explici
GQ-067followup_chainIk heb last van rugpijn5.04.4+0.6Noemt alle relevante diensten (Revalidatie en Fysische Geneeskunde, Pijncentrum,
GQ-068followup_chainKan ik daar zonder verwijsbrief terecht?5.04.4+0.6Uitstekend specifiek antwoord: noemt het Gendercentrum, hormoontherapie, intake,
GQ-172snomed_terminologyMijn moeder heeft osteoporose5.04.4+0.6Answer A accurately describes the relationships between osteoporose and the rele
GQ-108treatment_infoWat is logopedie en voor welke aandoeningen helpt het?4.03.6+0.4Eveneens goed gestructureerd en volledig, met een extra vermelding dat familiele
GQ-002doctor_departmentWelke cardiologen werken bij ZOL?4.84.4+0.4Answer B provides the same specific list of cardiologists, explicitly states the
GQ-101multi_hop_graphWelke behandelingen bestaan er voor een beroerte?4.84.4+0.4Answer B provides a comprehensive and well-structured overview, explicitly menti
GQ-004doctor_departmentBij welke afdeling werkt Dr. Rik Houben?4.03.8+0.2Answer A correctly states the relationship between Dr. Rik Houben and the Neurol
GQ-064followup_chainWelke artsen werken bij de Cardiologie?5.04.8+0.2Answer B is also comprehensive and well-structured, listing the main cardiologis
GQ-097taxonomy_aliasMijn kind heeft waterpokken5.04.8+0.2Answer B also accurately connects waterpokken in children to Kindergeneeskunde,
GQ-104treatment_infoWelke afdelingen bieden revalidatie aan na een beroerte?4.84.6+0.2Answer B covers all relevant departments and adds detail about the multidiscipli
GQ-121multi_hop_graphWelke dokter behandelt diabetes en op welke campus kan ik bi5.04.8+0.2Answer B also accurately connects diabetes to the dienst Endocrinologie, lists t
GQ-128condition_departmentIk heb hepatitis B, bij welke dienst kan ik terecht voor beh4.24.0+0.2Sterk gestructureerd en duidelijk, noemt de juiste afdeling (Gastro-enterologie)
GQ-129entity_disambiguationIk wil een neuscorrectie laten doen bij ZOL, kan dat?4.44.2+0.2Benoemt NKO en het Gendercentrum, maar noemt Plastische Heelkunde niet, wat een

Questions Regressed with Knowledge Graph

IDCategoryQuestionON AvgOFF AvgDeltaJudge Notes
GQ-008condition_departmentBij welke dienst moet ik zijn voor rugpijn?4.64.8-0.2Uitstekend antwoord dat alle relevante diensten noemt (inclusief samenwerking me
GQ-010condition_departmentWelke afdeling helpt bij longproblemen?4.64.8-0.2Answer A provides a comprehensive overview of all relevant departments and their
GQ-022treatment_infoHoe verloopt een bloedafname bij ZOL?4.85.0-0.2Answer B is also highly accurate and complete, covering all relevant relationshi
GQ-040condition_departmentMijn kind heeft oorpijn, welke dokter moet ik raadplegen?4.85.0-0.2Answer B also correctly links oorpijn in children to the KNO department at ZOL,
GQ-072ambiguous_symptomIk heb al weken last van hoofdpijn4.85.0-0.2Answer B also accurately describes the relationships (huisarts, dienst Neurologi
GQ-073ambiguous_symptomIk voel een knobbeltje in mijn hals4.85.0-0.2Answer A clearly identifies KNO as the relevant department, explains what condit
GQ-092multi_hop_graphWelke onderzoeken doet de dienst Cardiologie?4.24.4-0.2Alle relevante onderzoeken worden genoemd, inclusief Holter-monitoring en beide
GQ-095taxonomy_aliasIk zoek een hartdokter4.85.0-0.2Uitstekende relatiebeschrijving: koppelt cardiologen aan dienst Cardiologie, ben
GQ-099taxonomy_aliasWaar kan ik een hartfilmpje laten maken?4.85.0-0.2Answer B noemt alle relevante afdelingen (Cardiologie, Medium Care), legt uit da
GQ-105condition_departmentWelke dokter kan mij helpen met artrose?4.85.0-0.2Answer B also accurately links artrose to the correct departments and doctors, a

Response Time Comparison

MetricGraph ONGraph OFFDelta
Mean14819 ms29448 ms-14629 ms
Median8220 ms11169 ms-2948 ms

Entity Recall vs Quality Score Comparison

This section demonstrates why entity recall alone is insufficient.

MetricGraph ONGraph OFFDelta
Entity recall (crude)0.9400.963-0.023
Quality score (LLM judge)4.6094.676-0.067

The knowledge graph's quality improvement (-0.067) is larger the entity recall difference (-0.023), suggesting the graph does not provide quality gains beyond entity mention.

Methodology

  • Judge model: GPT-4.1 (temperature 0.0 for determinism)
  • Position bias mitigation: A/B assignment randomized per question
  • Scoring: 5-point Likert scale per dimension, averaged for overall quality
  • Categories evaluated: Questions from categories most likely to benefit from graph context
  • Categories: ambiguous_symptom, condition_department, doctor_department, entity_disambiguation, followup_chain, multi_hop_graph, snomed_terminology, taxonomy_alias, treatment_info