Model Drift란?

Model drift는 머신러닝 모델의 정확도가 시간이 지나면서 점차 떨어지는 현상입니다. 운영 환경에서 모델이 실제로 마주하는 데이터가 학습 당시의 데이터와 달라지면서 생깁니다.

운영 중에는 고객 행동, 이상거래 패턴, 가격, 언어 같은 것이 계속 변합니다. 하지만 모델은 학습 시점의 스냅샷에 멈춰 있습니다. 출시 때 정확했던 예측이 오류나 경고도 없이 서서히 나빠지고, 비즈니스 지표가 흔들리고 나서야 원인을 찾는 일이 많습니다.

Model drift는 근본 원인이라기보다 증상일 때가 많습니다. 모델이 “낡았다”고 보이는 상당수는 사실 상류의 입력 데이터가 조용히 바뀐 결과입니다. 그래서 가장 오래 효과를 내는 대응은 모델 재학습만이 아니라 데이터 레이어에 있습니다. AI가 쓰는 데이터를 쓸 수 있고·추적 가능하고·재현 가능한 상태로 유지하는 것입니다. 이는 같은 모델과 데이터가 실행 환경이나 데이터 상태 변화로 다른 결과를 내는 execution drift와는 구분됩니다.

자주 묻는 질문

Model drift와 data drift의 차이는 무엇인가요?

Data drift는 입력 데이터의 분포가 변하는 것이고, model drift는 그로 인해 모델의 예측 정확도가 시간이 지나며 떨어지는 것입니다. data drift가 원인, model drift가 증상인 경우가 많습니다.

Model drift와 concept drift의 차이는 무엇인가요?

Concept drift는 입력과 정답(타깃) 사이의 관계 자체가 바뀌는 것이고, model drift는 그 결과로 나타나는 모델 성능 저하를 가리킵니다.

Model drift는 어떻게 대응하나요?

모니터링으로 감지하고 재학습으로 보정하지만, 재학습만으로는 일시적입니다. 입력 데이터의 상태를 추적·재현 가능하게 관리하면 드리프트의 원인이 데이터인지 모델인지 구분해 더 오래가는 대응을 할 수 있습니다.