TREC 2025 Proceedings

Retrieval-Augmented Generation Relevance Judgment subtask Appendix

Runtag Org kappa_val agreement_frac disagreement_frac tie_frac
gpt-oss-120b-sn-med (qrel_eval)  coordinators 0.21 0.37 0.59 0.14
gpt_4_1-sub-narr-2 (qrel_eval)  coordinators 0.19 0.23 0.60 0.28
ensemble_umbrela1 (qrel_eval)  coordinators 0.18 0.30 0.61 0.20
gpt-oss-120b-sn-low (qrel_eval)  coordinators 0.17 0.34 0.62 0.14
gpt-oss-120b-med (qrel_eval)  coordinators 0.16 0.33 0.63 0.14
gemini_2_5_pro (qrel_eval)  coordinators 0.15 0.32 0.61 0.17
gpt_4-1 (qrel_eval)  coordinators 0.15 0.19 0.62 0.29
gpt_4-1-sub-narr (qrel_eval)  coordinators 0.14 0.20 0.61 0.29
gpt-oss-120b-high (qrel_eval)  coordinators 0.14 0.32 0.63 0.14
nugget_cnt (qrel_eval)  (paper) GenAIus 0.13 0.31 0.63 0.16
Qwen3-30BThink-sn (qrel_eval)  coordinators 0.13 0.32 0.63 0.15
gpt-oss-120b-low (qrel_eval)  coordinators 0.13 0.31 0.63 0.16
gpt-oss-20b-high (qrel_eval)  coordinators 0.12 0.34 0.62 0.14
gpt-oss-120b-sn-high (qrel_eval)  coordinators 0.12 0.34 0.63 0.12
Qwen3-30B-Think (qrel_eval)  coordinators 0.12 0.29 0.67 0.14
Qwen3-30B-Instruct (qrel_eval)  coordinators 0.11 0.25 0.63 0.22
gpt_5-sub-narr (qrel_eval)  coordinators 0.10 0.32 0.63 0.15
gpt-oss-20b-medium (qrel_eval)  coordinators 0.10 0.31 0.66 0.12
gpt-oss-20b-sn-low (qrel_eval)  coordinators 0.10 0.33 0.65 0.11
cluster_cnt (qrel_eval)  (paper) GenAIus 0.09 0.31 0.65 0.14
gpt-oss-20b-low (qrel_eval)  coordinators 0.09 0.31 0.65 0.14
gpt-oss-20b-sn-high (qrel_eval)  coordinators 0.09 0.32 0.67 0.11
gpt-oss-20b-sn-med (qrel_eval)  coordinators 0.08 0.31 0.67 0.12
unique_cluster_cnt (qrel_eval)  (paper) GenAIus 0.07 0.31 0.64 0.15
citation_cnt (qrel_eval)  (paper) GenAIus 0.07 0.31 0.66 0.14
norm_nugget_cnt (qrel_eval)  (paper) GenAIus 0.06 0.29 0.66 0.15
NITA-Qrels (qrel_eval)  (paper) NIT Agartala 0.06 0.21 0.69 0.20
duth.hybrid.qwencon (qrel_eval)  (paper) DUTH 0.05 0.25 0.73 0.12
Qwen3-30BInstruct-sn (qrel_eval)  coordinators 0.05 0.25 0.66 0.20
duth.hybrid.qwen.cal (qrel_eval)  (paper) DUTH 0.04 0.26 0.73 0.11
jcru-ablR (qrel_eval)  (paper) HLTCOE 0.01 0.32 0.66 0.04
jcru-ansR (qrel_eval)  (paper) HLTCOE 0.00 0.34 0.67 0.04
jcru-ansR-all (qrel_eval)  (paper) HLTCOE -0.00 0.35 0.72 0.03
jcru-ablR-all (qrel_eval)  (paper) HLTCOE -0.00 0.35 0.71 0.03
duth_stablelm2_rj_v1 (qrel_eval)  (paper) DUTH 0.00 0.02 0.66 0.42
duth.hybrid.stableri (qrel_eval)  (paper) DUTH -0.01 0.24 0.70 0.15
hybrid.stable.loose2 (qrel_eval)  (paper) DUTH -0.01 0.24 0.70 0.16