합성 데이터 생성(Synthetic Data Generation)은 실제 데이터의 통계적 특성·관계·분포를 유지하면서 새로운 인공 데이터를 만드는 기술입니다. GAN, 확산 모델, VAE, 시뮬레이션, 통계적 샘플링이 활용되며, 프라이버시 보호, 데이터 증강, 레어 케이스 생성, 규제 준수 환경에서 AI 학습 데이터 확보에 사용됩니다. 품질 평가는 충실도(통계적 유사성)와 프라이버시 보호 수준의 균형이 관건입니다.
자주 묻는 질문
합성 데이터 생성이란?
실제 개인을 복사하지 않고 실데이터의 통계 구조를 보존하는 새 기록을 만들어, AI가 실제 개인정보 없이 현실적인 데이터로 학습하게 하는 것입니다.
합성 데이터 생성은 프라이버시를 어떻게 보존하나요?
생성 과정에 차등 프라이버시를 적용하면, 출력에서 어떤 개인 기록도 복원할 수 없다는 수학적 보장이 따라옵니다.
합성 데이터 생성은 언제 쓰나요?
실데이터가 제한되거나, 불균형하거나, 너무 적을 때 커버리지를 넓혀 원본 노출 없이 AI 작업을 풀어줍니다.