모델 평가(model evaluation)는 AI·머신러닝 모델이 얼마나 잘 동작하는지를 지표·벤치마크·테스트셋으로 측정해 정확도·견고성·과제 적합성을 판단하는 과정입니다. 모델을 출시해도 될지, 어떤 변경이 실제로 개선이었는지를 이걸로 결정합니다.
평가는 그 아래 데이터가 안정적이라고 전제합니다. 같은 모델을 매번 다른 데이터 상태에서 채점하면 지표가 흔들렸을 때 원인을 귀속할 수 없습니다. 모델 때문인지, 프롬프트 때문인지, 입력 상태가 조용히 움직인 탓인지 알 수 없습니다.
그래서 신뢰할 만한 평가에는 지표보다 앞서는 전제가 있습니다. 모델이 돌았던 데이터 상태가 재현 가능해야, 과거 결과와 같은 조건에서 비교할 수 있고 추측에 기대지 않게 됩니다.