Data Quality란?

데이터 품질은 데이터셋이 의도한 용도에 얼마나 잘 맞는지를 정확성, 완전성, 일관성, 유효성, 고유성, 적시성 같은 차원으로 평가한 정도를 뜻합니다. 실무에서는 컬럼을 프로파일링하고 검증 규칙을 적용하며 오류율을 추적해 측정합니다.

예를 들어 은행에서는 중복 레코드를 제거하고 필수 항목을 채운 뒤 고객 테이블을 품질이 높다고 판단합니다. 검증 규칙을 두면 잘못된 값이 보고서나 모델에 들어가기 전에 걸러집니다.

높은 데이터 품질은 분석과 AI에 꼭 필요하지만, AI 실행을 위한 준비 상태와 같지는 않습니다. 어떤 데이터셋은 모든 품질 검사를 통과하고도 결과를 만들어 낸 상태를 그대로 재현할 수 없으면 프로덕션에서 모델이 깨집니다. AI-ready data는 여기에 데이터 상태의 재현성과 추적성을 더해, 결과를 나중에 다시 실행하고 감사할 수 있게 합니다.

자주 묻는 질문

데이터 품질과 AI-ready data는 같은가요?

아닙니다. 데이터 품질은 특정 용도에 대한 정확성과 일관성을 측정합니다. AI-ready data는 데이터 상태의 재현성과 추적성을 더해 AI 결과를 다시 실행하고 검증할 수 있게 합니다.

데이터 품질의 주요 차원은 무엇인가요?

정확성, 완전성, 일관성, 유효성, 고유성, 적시성이 대표적입니다.

데이터 품질은 어떻게 측정하나요?

데이터셋을 프로파일링하고 검증 규칙을 적용하며 오류율을 모니터링합니다. 데이터 품질 도구나 옵저버빌리티 도구를 함께 쓰기도 합니다.