ground truth는 옳다고 인정되는 기준 데이터로, 머신러닝 모델을 학습시키고 성능을 측정하는 데 쓰입니다. 보통 라벨이 붙은 예시, 전문가 주석, 또는 잘 정리된 벤치마크 셋의 형태를 띱니다.
예를 들어 의료 영상 팀은 영상의학과 전문의가 확인한 진단을 ground truth로 삼고, 모델의 예측이 그 라벨과 얼마나 자주 일치하는지로 점수를 매깁니다.
모든 평가의 신뢰도는 그 뒤에 있는 ground truth에 달려 있습니다. 기준 셋이 기록 없이 바뀌면 정확도 점수가 아무도 추적할 수 없는 이유로 흔들립니다. ground truth를 버전이 관리되는 재현 가능한 데이터 상태로 다루면 여러 실행과 시간에 걸쳐 평가를 일관되게 비교할 수 있습니다.