Synthetic Data란?

합성 데이터(Synthetic Data)는 실제 데이터의 통계적 특성을 유지하면서 통계 모델·생성 AI로 인공적으로 생성한 데이터입니다. 프라이버시 보호, 데이터 희소성 극복, 클래스 불균형 해소, AI 학습 데이터 확보, 시뮬레이션에 활용됩니다. GAN·확산 모델·LLM 등을 이용하며, 개인정보를 직접 노출하지 않고도 데이터의 가치를 공유·활용할 수 있게 해 엔터프라이즈 AI의 핵심 요소로 부상했습니다.

자주 묻는 질문

합성 데이터는 어디에 쓰나요?

희소 사례의 커버리지를 넓히고, 치우친 데이터셋의 균형을 맞추며, 제한되거나 너무 적은 데이터로도 실제 기록을 노출하지 않고 AI 작업을 가능하게 합니다.

합성 데이터는 안전한가요?

차등 프라이버시로 생성하면, 합성 출력에서 어떤 개인 기록도 역추적할 수 없다는 수학적 보장이 따라옵니다.

합성 데이터는 어떻게 생성되나요?

모델이 원본 데이터의 통계 구조를 학습해 그 패턴을 유지하는 새 기록을 만들고, 생성 과정에 적용된 차등 프라이버시가 출력을 프라이버시 안전하게 유지합니다.