Data Pipeline란?

데이터 파이프라인은 데이터를 소스에서 목적지로 옮기면서 그 과정에서 변환하는 단계들의 묶음입니다. 배치나 스트리밍 방식으로 동작하며, 보통 각 단계를 예약하고 재시도하는 오케스트레이션 도구가 조율합니다.

예를 들어 한 소매업체는 매일 밤 판매 기록을 끌어와 정리·집계한 뒤 보고용 웨어하우스에 적재하는 파이프라인을 돌립니다.

정해진 시간에 데이터를 전달하는 것이 곧 AI에 맞게 준비됐다는 뜻은 아닙니다. 파이프라인이 레코드를 안정적으로 옮기면서도 나중에 모델 결과를 재현하는 데 필요한 계보(lineage)와 상태를 빠뜨릴 수 있습니다. AI-ready transformation은 그 추적성을 그대로 유지해, 결과를 전달만 하는 게 아니라 다시 실행할 수 있게 합니다.

자주 묻는 질문

데이터 파이프라인의 단계는 무엇인가요?

소스에서의 수집, 변환, 목적지 적재가 대표적이며 배치나 스트리밍으로 동작합니다.

데이터 파이프라인은 ETL과 같은가요?

ETL(추출·변환·적재)은 흔한 파이프라인 패턴 중 하나입니다. 파이프라인에는 스트리밍과 ELT 방식도 있습니다.

파이프라인 출력이 자동으로 AI-ready가 아닌 이유는 무엇인가요?

파이프라인이 데이터를 제때 전달해도 AI 결과를 재현하는 데 필요한 계보와 데이터 상태를 빠뜨릴 수 있기 때문입니다.