Data Ingestion란?

Data ingestion(데이터 적재)은 데이터를 원본 소스에서 저장·처리·분석할 수 있는 시스템으로 옮기는 과정입니다. 정해진 주기로 데이터가 들어오는 배치 적재와, 끊김 없이 흘러드는 스트리밍 적재를 모두 포함합니다. 예를 들어 매출 기록은 매일 밤 배치로 적재되고, 카드 거래는 끊임없는 스트림으로 적재됩니다. 적재는 데이터를 처음 확보하는 일인 data acquisition(데이터 획득)과 혼동되곤 하지만, 적재는 그 데이터를 목적지 시스템으로 들여와 쓸 수 있는 형태로 만드는 단계입니다. AI에서 흔히 놓치는 부분은 상태입니다. 적재되는 순간 데이터의 정확한 상태, 즉 스키마와 분포, 변환 내역이 곧 모델이 실제로 돌아가는 대상이므로, 그 적재 시점의 상태를 가정하지 않고 포착해 두어야 나중에 결과를 재현할 수 있습니다.

자주 묻는 질문

Data ingestion이란 무엇입니까?

데이터를 원본 소스에서 저장·처리·분석할 수 있는 시스템으로 옮기는 과정으로, 배치와 스트리밍 방식을 모두 포함합니다.

데이터 획득(acquisition)과 무엇이 다릅니까?

획득은 데이터를 처음 확보하는 일이고, 적재는 그 데이터를 목적지 시스템으로 들여와 쓸 수 있게 만드는 단계입니다.

AI에 데이터 적재가 왜 중요합니까?

모델은 적재 시점의 데이터 상태 위에서 돌아가므로, 그 상태를 가정하지 않고 포착해 두어야 결과를 재현할 수 있습니다.