DTS는 CUBIG의 AI-ready 데이터 전환 엔진입니다. 차등 프라이버시로 프라이버시 안전 데이터셋을 생성해 클래스 불균형 보정, 커버리지 공백 보완, 학습 데이터 확장, 제한·접근 불가 데이터 대체를 합니다. 독립형 엔진으로 실행하거나 Syntitan 플랫폼과 연동할 수 있습니다.
쓸 수 없는 데이터를
AI-ready 데이터셋으로 재구성.
대부분의 기업 데이터는 그대로 AI에 쓸 수 없습니다. DTS가 제한되거나 불균형하거나 부족한 데이터를 실제로 쓸 수 있는 AI-ready 데이터셋으로 재구성합니다.
제한된 데이터는 프라이버시 안전 데이터로 대체하고, 불균형한 데이터셋은 증강으로 바로잡으며, 부족한 커버리지는 새 AI-ready 데이터를 생성해 채웁니다.
세 가지 데이터 문제, 하나의 엔진.
공유할 수 없는 데이터, 쓸 수 없는 데이터, 접근할 수 없는 데이터. DTS가 셋 다 해결합니다.
프라이버시 안전 합성데이터, 하나의 역량으로.
DTS는 실제 데이터가 제한되거나 불완전할 때 커버리지를 넓히고 불균형을 보정하기 위해 프라이버시 안전 합성데이터 생성을 포함합니다. 합성데이터는 DTS 안의 한 가지 역량이지, DTS의 정체성이 아닙니다. 차등 프라이버시를 수학적 토대로 삼아, 원본 학습 데이터를 노출하지 않고 규제 산업을 위한 AI-ready 데이터셋을 만듭니다.
설계 단계부터 형식적 프라이버시 경계.
차등 프라이버시란
차등 프라이버시(DP)는 한 개인의 데이터가 합성 출력에 미치는 영향을 수학적으로 제한하는 프레임워크입니다. 그래서 공격자가 무엇을 알고 있든 개인을 재식별할 수 없습니다.
DTS는 사후 비식별화 단계가 아니라 생성 과정 자체에 DP를 적용합니다. 프라이버시 속성이 마스킹·필드 제거에 의존하지 않고 구조적으로 보장되는 방식입니다.
마스킹·삭제처럼 '최선의 노력'이 아니라, 수학적으로 증명 가능한 경계입니다.
합성 데이터셋에서 특정 개인을 추론할 확률은 외부 지식과 무관하게 수학적으로 정의된 엡실론(ε)으로 제한됩니다.
DTS가 합성데이터를 만드는 방식
원본 레코드를 저장하지 않고 실제 데이터셋의 통계 특성(분포·상관·주변분포)을 분석합니다.
DP 경계에 따라 보정된 노이즈를 통계 모델에 주입해, 개별 데이터 포인트를 수학적으로 식별 불가능하게 만듭니다.
DP로 보호된 모델에서 새 레코드를 샘플링합니다. 출력은 통계적으로 대표성이 있되 실제 개인정보를 포함하지 않습니다.
생성 데이터를 원본 분포와 대조 검증합니다. 품질·활용성 지표로 학습·검증 적합성을 확인합니다.
독립형 또는 Syntitan 연동.
DTS Standalone
Syntitan 없이 데이터 소스에 직접 DTS를 씁니다. 엔터프라이즈 조달을 위해 AWS Marketplace에서 제공됩니다. AI 학습 데이터 품질을 해결합니다. 빠진 데이터를 실데이터에 손대지 않고 대규모로 생성합니다.
- 클래스 불균형 보정: 분포 충실도를 유지한 채 소수 클래스 오버샘플링
- 희소 데이터셋을 프로덕션급 규모로 증강
- 엣지 케이스·희소 이벤트 샘플 생성
- 결측값을 통계적으로 유효한 값으로 대체
DTS + Syntitan
프라이버시·컴플라이언스가 병목일 때(모델에 닿을 수 없는 규제 데이터), DTS가 Syntitan 안에서 실행되어 프라이버시 안전 대체본을 생성합니다. DTS는 데이터를 만들고, Syntitan이 그 상태를 운영합니다.
- GDPR·PIPA·HIPAA 제한 데이터 대체: 원본은 경계 밖으로 나가지 않음(DTS)
- Syntitan이 합성 데이터셋을 Release State에 버전·바인딩
- Syntitan이 데이터 생성부터 AI 실행까지 변경 이력에 추적
AI 탐지율 97.6% · 79개 패턴 → 1,000 레코드
사기·거래 패턴을 DP 안전 합성 레코드로 확장. PIPA 준수, 실제 고객 데이터 반출 0건.
이탈 모델 F1 0.92 · 277,249 합성 레코드
6개월 보존 정책에 막혀 있던 교보의 이탈 AI. DTS가 과거 데이터에서 DP 안전 레코드를 복원해 삭제 후에도 합법적으로 활용.
트렌드 리서치 시간 90%↓ · 비용 70%↓
연간 소비자 트렌드 설문을 합성 행동 데이터로 학습한 AI 페르소나 에이전트로 대체. 인사이트를 한 달이 아니라 1~2일에.
데이터 반출 0 · 기밀 영상 → AI-ready
망분리된 기밀 환경에 온프레미스 배포. 원본 영상이 경계를 벗어나지 않은 채, 기밀 데이터가 보안 등급 요건 안에서 AI-ready 합성 데이터셋으로 전환.
DTS vs. 제한 데이터에 대한 다른 접근들.
| 역량 | DTS | 마스킹 / 비식별화 | 데이터 샘플링 | 수작업 라벨링 |
|---|---|---|---|---|
| 프라이버시 경계 | ✓ 형식적 DP 경계 (ε) | △ 재식별 위험 잔존 | ✗ 없음 | ✗ |
| 커버리지 확장 | ✓ 임의 규모 생성 | ✗ 새 데이터 생성 불가 | △ 실데이터 양에 한정 | △ 비싸고 느림 |
| 희소 클래스 증강 | ✓ 표적 생성 | ✗ | ✗ 희소 이벤트 생성 불가 | △ 매우 높은 비용 |
| 분포 충실도 | ✓ 실통계 대조 검증 | △ 마스킹으로 왜곡 | △ 샘플링 편향 위험 | △ 라벨러 편차 |
| 국경 간·외부 활용 | ✓ 실데이터 미이동 | ✗ 잔여 위험 | ✗ | ✗ |
| Syntitan 연동 | ✓ 네이티브 버전 관리·바인딩 | ✗ | ✗ | ✗ |
데이터가 AI를 막고 있다는 다섯 신호.
엔터프라이즈 AI 프로젝트는 데이터 조건이 학습·검증·안전한 배포를 막을 때 멈춥니다. 아래 신호 중 하나라도 해당된다면, 데이터가 이미 AI를 막고 있는 것입니다. DTS는 바로 이런 상황을 위해 만들어졌습니다.
GDPR·PIPA·HIPAA나 내부 보존 정책이 데이터가 모델에 닿는 것을 막습니다. DTS는 프라이버시 안전 합성 대체본을 생성합니다. 통계적으로 정확하고, 합법적으로 쓸 수 있고, 실제 레코드 노출 0건.
희소 클래스가 과소대표되고 사기 패턴이 너무 적고 엣지 케이스가 학습에 안 나와, 모델이 잡으려던 바로 그 조건에서 실패합니다. DTS는 클래스 분포를 보정하고 표적 희소 클래스 커버리지를 생성합니다.
과거 데이터가 보존 정책에 따라 삭제돼, 이전 모델을 학습시킨 패턴이 더는 존재하지 않습니다. DTS는 남아 있는 통계 패턴에서 합성 등가물을 생성합니다.
기밀·환자·고객 데이터는 내부에서조차 AI 학습용으로 반출할 수 없습니다. DTS의 제로 액세스 아키텍처는 통계 특성을 현장에서 학습하고, DP로 보호된 출력만 경계를 넘습니다.
원본 데이터셋이 견고한 모델을 학습하기엔 너무 작고, 더 모으는 데 몇 달이 걸립니다. DTS는 통계 충실도를 유지하며 기존 데이터셋을 프로덕션급 규모로 증강합니다.
프로덕션에서 검증되었습니다.
Gartner® Emerging Tech: Provider Differentiation Strategy–Trends for Hyper-Synthetic Data (2025)에 대표 벤더(Representative Vendor)로 등재.Gartner는 자사 리서치 발행물에 표시된 어떤 벤더·제품·서비스도 보증하지 않습니다. GARTNER는 Gartner, Inc. 및/또는 그 계열사의 등록상표입니다.
자주 묻는 질문
차등 프라이버시(DP)는 한 개인의 데이터가 합성 출력에 미치는 영향을 제한하는 수학적 프레임워크입니다. 그래서 공격자가 무엇을 알든 개인을 재식별할 수 없습니다. DTS는 생성 과정에 DP를 적용해, 통계적으로 대표성은 있되 실제 개인정보가 없는 데이터셋을 만듭니다.
네. DTS는 완전한 독립형 엔터프라이즈 엔진이라 단독 배포가 가능합니다. Syntitan과 함께 쓰면 DTS가 생성한 데이터셋이 버전 관리되고 Release State에 바인딩되어 완전한 실행 추적이 됩니다.
세 가지입니다. 프라이버시·컴플라이언스 규정으로 공유할 수 없는 제한 데이터, 커버리지 공백이나 클래스 불균형으로 모델을 불안정하게 하는 데이터, 그리고 존재하지만 학습 파이프라인에 닿지 못하는 접근 불가 데이터.
제로 액세스 아키텍처는 원본 데이터가 고객 환경을 절대 벗어나지 않는다는 뜻입니다. DTS는 통계 특성을 현장에서 분석하고 DP로 보호된 합성 모델을 생성하며, 다운스트림에는 합성 출력만 씁니다. 원본은 외부로 이동·접근되지 않아 기밀·규제·망분리 환경에 적합합니다.
Syntitan은 실행 안정성의 일환으로 데이터 품질을 개선합니다. Syntitan은 프라이버시 안전 합성데이터가 필요할 때 DTS 역량의 일부를 쓸 수 있고, DTS는 완전한 독립형 AI-ready 데이터 전환 엔진입니다.
제한된 데이터. 쓸 수 있는 AI.
DTS는 제한되고, 쓸 수 없고, 접근 불가한 기업 데이터를 원본을 옮기지 않고 프라이버시 안전 합성 데이터셋으로 바꿉니다. GS 인증. KISA 인증.