Data lineage(데이터 계보)는 데이터가 어디에서 와서 어떻게 이동하고 변환되는지를 원천부터 그것을 사용하는 테이블·모델까지 기록한 것입니다.

Data Lineage

Data lineage는 데이터가 어디에서 와서 어떻게 이동하고 시스템을 거치며 어떻게 변환되는지에 대한 기록입니다. 원천에서 출발해 모든 변환 단계를 거쳐, 최종적으로 그 데이터를 사용하는 테이블이나 모델에 이르기까지를 담습니다.

숫자가 이상해 보이거나 모델 성능이 떨어지기 시작할 때, lineage가 있으면 변경이 일어난 정확한 상류 단계까지 거슬러 추적할 수 있습니다. Lineage가 없으면 데이터 문제를 디버깅하는 일은 추측에 가까워지고, 원인을 찾는 시간이 고치는 시간보다 길어지곤 합니다.

AI 관점에서 lineage는 모든 운영 장애가 결국 던지는 질문에 답합니다. “어떤 데이터가, 어떤 상태에서 이 결과를 만들었는가?” 이 질문이 바로 재현성의 토대입니다.

Lineage는 데이터가 지나온 경로를 알려 줍니다. CUBIG의 AI-ready execution 플랫폼은 콘텐츠 해시, diff, run binding으로 릴리스된 상태 자체를 포착해, AI 결과를 추적할 수 있을 뿐 아니라 재현할 수 있게 합니다. Syntitan이 Release State, Diff, Reproduce로 하는 일이 바로 이것입니다.

자주 묻는 질문

Data lineage와 data provenance는 어떻게 다른가요?

겹치는 개념입니다. Provenance는 출처와 소유를 강조하고, lineage는 데이터가 거쳐 온 변환 경로 전체를 강조합니다.

Data lineage가 있으면 재현성이 보장되나요?

경로는 보여 주지만 정확한 상태까지 항상 보장하지는 않습니다. 결과를 재현하려면 경로뿐 아니라 데이터 상태 자체가 포착되어 있어야 합니다.

Syntitan

T-Challenge 2026 준우승

2026 Gartner Agentic AI 리포트 2건에 인정

AI Insights

배호

Data Lineage란?

자주 묻는 질문