데이터 부채(data debt)는 데이터를 AI가 사용하고 추적하고 재현할 수 있는 상태로 만들어 두지 않아 조직이 떠안게 되는, 대체로 눈에 보이지 않는 누적 비용입니다. 기술 부채(technical debt)에서 빌려온 개념으로, 빠르게 넘긴 지름길이 나중에 이자를 부르듯 데이터에서도 같은 일이 일어납니다. 데모용 표본에서는 깔끔해 보이던 데이터에, 맥락이 빠져 있거나 상태가 기록되지 않았거나 어떤 버전이 그 결과를 냈는지 남아 있지 않은 비용이 숨어 있다가, 모델이 프로덕션에 올라가는 순간 그 비용을 한꺼번에 치르게 됩니다.
데이터 부채는 저장의 문제가 아니며, 데이터 품질이 낮은 것과도 다릅니다. 데이터가 잘 저장되어 있고 대체로 정확하더라도 특정 AI 실행에서는 그대로 쓰지 못하거나 재현되지 않습니다. 실행할 때마다 결과가 달라지는데 이전 결과가 어떤 데이터에서 나왔는지 아무도 말하지 못할 때, 또는 어떤 데이터가 어떤 결과를 냈는지 감사에서 물었는데 그 기록이 없을 때 데이터 부채가 드러납니다.
데이터 부채를 줄인다는 것은 데이터를 AI-ready 상태로 옮기고 실행마다 재현·추적 가능하게 유지하는 일입니다. 실행이 사용한 정확한 데이터 상태를 포착하고, 이를 버전으로 보관하며, 다시 재생해 같은 결과를 재현하는 것입니다.