데이터 품질은 데이터셋이 의도한 용도에 얼마나 잘 맞는지를 정확성, 완전성, 일관성, 유효성, 고유성, 적시성 같은 차원으로 평가한 정도를 뜻합니다. 실무에서는 컬럼을 프로파일링하고 검증 규칙을 적용하며 오류율을 추적해 측정합니다.
예를 들어 은행에서는 중복 레코드를 제거하고 필수 항목을 채운 뒤 고객 테이블을 품질이 높다고 판단합니다. 검증 규칙을 두면 잘못된 값이 보고서나 모델에 들어가기 전에 걸러집니다.
높은 데이터 품질은 분석과 AI에 꼭 필요하지만, AI 실행을 위한 준비 상태와 같지는 않습니다. 어떤 데이터셋은 모든 품질 검사를 통과하고도 결과를 만들어 낸 상태를 그대로 재현할 수 없으면 프로덕션에서 모델이 깨집니다. AI-ready data는 여기에 데이터 상태의 재현성과 추적성을 더해, 결과를 나중에 다시 실행하고 감사할 수 있게 합니다.