Data Drift란?

데이터 드리프트(Data Drift)는 프로덕션 AI 시스템에 들어가는 데이터가 시간이 지나며 바뀌어, 모델 코드는 그대로인데 입력이 처음 만들고 검증할 때와 더는 맞지 않게 되는 현상입니다. 피처 분포, 스키마, 값 범위, 상류 파이프라인 어디서든 일어날 수 있고, 하류 영향이 드러나기 전까지 정확도를 조용히 떨어뜨립니다.

실행마다 뒤에 있는 데이터 상태가 고정돼 있지 않으면 드리프트는 대응하기 어렵습니다. 실시간 데이터를 릴리스된 AI-Ready 기준선과 비교할 수 있으면, 어떤 필드와 분포가 움직였는지 정확히 보고 이전 상태를 재현해 원인을 확인할 수 있습니다.

자주 묻는 질문

데이터 드리프트는 왜 생기나요?

상류 데이터 소스 변경, 파이프라인 업데이트, 스키마 수정, 사용자 행동 변화, 새 데이터 구간 때문입니다. 모델은 그대로인데 입력이 움직이는 것입니다.

데이터 드리프트는 어떻게 감지하나요?

현재 운영 데이터를 고정된 릴리스 기준 상태와 비교해, 어떤 필드·분포·스키마가 바뀌었는지 드러내면 됩니다.

데이터 드리프트와 컨셉 드리프트는 무엇이 다른가요?

데이터 드리프트는 입력 데이터 분포의 변화이고, 컨셉 드리프트는 입력과 모델이 예측하는 목표 사이 관계의 변화입니다.