Stability of Laboratory Tests

Similar results held for
- different query sets
- different evaluation measures
- different assessor types
- single opinion vs. group opinion judgments

Mean Kendall t between system rankings produced from different qrel sets: .938