Data contract는 데이터를 생산하는 팀과 소비하는 팀 사이의 명시적이고 강제되는 합의입니다. 스키마, 의미, 품질 기대치, 소유 주체를 규정해, 상류의 변경이 하류 파이프라인을 조용히 깨뜨리지 못하게 합니다.
전통적으로 데이터 생산자는 필요할 때마다 테이블을 바꿨고, 소비자는 운영 환경에서 무언가 깨진 뒤에야 그 사실을 알았습니다. Data contract는 그 합의를 앞단으로 옮겨, 위반을 배포 전에 감지할 수 있게 합니다. 필드 타입뿐 아니라 합의된 의미까지 못 박는 부분을 가리켜 semantic contract라고 부르기도 합니다.
AI 파이프라인은 상류의 조용한 변경에 특히 취약합니다. 필드 이름이 바뀌거나 분포가 이동하면, 아무런 오류 메시지 없이도 모델 성능이 저하될 수 있습니다. Data contract는 그 변경을 실행에 도달하기 전, 경계 지점에서 잡아냅니다.
Data contract는 경계 지점의 합의를 관리합니다. CUBIG의 AI-ready execution 플랫폼은 한 걸음 더 나아가, 실행 시점의 실제 데이터 상태를 포착합니다. 계약이 지켜졌는지뿐 아니라, 특정 AI 결과를 다시 만들어 낼 수 있는지까지 확인할 수 있습니다.