Data lineage는 데이터가 어디에서 와서 어떻게 이동하고 시스템을 거치며 어떻게 변환되는지에 대한 기록입니다. 원천에서 출발해 모든 변환 단계를 거쳐, 최종적으로 그 데이터를 사용하는 테이블이나 모델에 이르기까지를 담습니다.
숫자가 이상해 보이거나 모델 성능이 떨어지기 시작할 때, lineage가 있으면 변경이 일어난 정확한 상류 단계까지 거슬러 추적할 수 있습니다. Lineage가 없으면 데이터 문제를 디버깅하는 일은 추측에 가까워지고, 원인을 찾는 시간이 고치는 시간보다 길어지곤 합니다.
AI 관점에서 lineage는 모든 운영 장애가 결국 던지는 질문에 답합니다. “어떤 데이터가, 어떤 상태에서 이 결과를 만들었는가?” 이 질문이 바로 재현성의 토대입니다.
Lineage는 데이터가 지나온 경로를 알려 줍니다. CUBIG의 AI-ready execution 플랫폼은 콘텐츠 해시, diff, run binding으로 릴리스된 상태 자체를 포착해, AI 결과를 추적할 수 있을 뿐 아니라 재현할 수 있게 합니다. Syntitan이 Release State, Diff, Reproduce로 하는 일이 바로 이것입니다.