DTS · AI-ready 데이터 전환 엔진

쓸 수 없는 데이터를
AI-ready 데이터셋으로 재구성.

대부분의 기업 데이터는 그대로 AI에 쓸 수 없습니다. DTS가 제한되거나 불균형하거나 부족한 데이터를 실제로 쓸 수 있는 AI-ready 데이터셋으로 재구성합니다.

제한된 데이터는 프라이버시 안전 데이터로 대체하고, 불균형한 데이터셋은 증강으로 바로잡으며, 부족한 커버리지는 새 AI-ready 데이터를 생성해 채웁니다.

데이터 문제

세 가지 데이터 문제, 하나의 엔진.

공유할 수 없는 데이터, 쓸 수 없는 데이터, 접근할 수 없는 데이터. DTS가 셋 다 해결합니다.

제한된 데이터

프라이버시 안전 대체. 규제로 막힌 민감 데이터를 실제 개인정보 없는 합성 데이터셋으로 대체합니다.

  • 규제 데이터(GDPR·HIPAA 등)를 DP 안전 합성본으로 대체
  • 모든 출력에 형식적 ε 경계 적용
  • 팀·국경·외부 공유에 안전

사용 불가 데이터

커버리지·균형 확장. 희소 클래스·불균형·부족한 양을 증강으로 채워 학습 가능한 데이터로 만듭니다.

  • 과소대표 클래스 대규모 증강
  • 과적합 없이 불균형 보정
  • 소규모 데이터셋을 프로덕션 규모로 확장

접근 불가 데이터

안전한 데이터셋 생성. 사일로에 갇혀 파이프라인에 닿지 못하는 데이터를 안전한 대체본으로 생성합니다.

  • 접근 불가 소스의 안전한 대체본 생성
  • 멈춰 있던 검증·테스트 워크플로우 해제
  • 데이터 이동 없이 통계 특성 유지
역량

프라이버시 안전 합성데이터, 하나의 역량으로.

DTS는 실제 데이터가 제한되거나 불완전할 때 커버리지를 넓히고 불균형을 보정하기 위해 프라이버시 안전 합성데이터 생성을 포함합니다. 합성데이터는 DTS 안의 한 가지 역량이지, DTS의 정체성이 아닙니다. 차등 프라이버시를 수학적 토대로 삼아, 원본 학습 데이터를 노출하지 않고 규제 산업을 위한 AI-ready 데이터셋을 만듭니다.

차등 프라이버시

설계 단계부터 형식적 프라이버시 경계.

차등 프라이버시란

차등 프라이버시(DP)는 한 개인의 데이터가 합성 출력에 미치는 영향을 수학적으로 제한하는 프레임워크입니다. 그래서 공격자가 무엇을 알고 있든 개인을 재식별할 수 없습니다.

DTS는 사후 비식별화 단계가 아니라 생성 과정 자체에 DP를 적용합니다. 프라이버시 속성이 마스킹·필드 제거에 의존하지 않고 구조적으로 보장되는 방식입니다.

마스킹·삭제처럼 '최선의 노력'이 아니라, 수학적으로 증명 가능한 경계입니다.

경계

합성 데이터셋에서 특정 개인을 추론할 확률은 외부 지식과 무관하게 수학적으로 정의된 엡실론(ε)으로 제한됩니다.

DTS가 합성데이터를 만드는 방식

01
통계 프로파일링

원본 레코드를 저장하지 않고 실제 데이터셋의 통계 특성(분포·상관·주변분포)을 분석합니다.

02
DP 노이즈 주입

DP 경계에 따라 보정된 노이즈를 통계 모델에 주입해, 개별 데이터 포인트를 수학적으로 식별 불가능하게 만듭니다.

03
합성 생성

DP로 보호된 모델에서 새 레코드를 샘플링합니다. 출력은 통계적으로 대표성이 있되 실제 개인정보를 포함하지 않습니다.

04
충실도 검증

생성 데이터를 원본 분포와 대조 검증합니다. 품질·활용성 지표로 학습·검증 적합성을 확인합니다.

배포

독립형 또는 Syntitan 연동.

Mode A · 독립형

DTS Standalone

Syntitan 없이 데이터 소스에 직접 DTS를 씁니다. 엔터프라이즈 조달을 위해 AWS Marketplace에서 제공됩니다. AI 학습 데이터 품질을 해결합니다. 빠진 데이터를 실데이터에 손대지 않고 대규모로 생성합니다.

  • 클래스 불균형 보정: 분포 충실도를 유지한 채 소수 클래스 오버샘플링
  • 희소 데이터셋을 프로덕션급 규모로 증강
  • 엣지 케이스·희소 이벤트 샘플 생성
  • 결측값을 통계적으로 유효한 값으로 대체
Mode B · 연동형

DTS + Syntitan

프라이버시·컴플라이언스가 병목일 때(모델에 닿을 수 없는 규제 데이터), DTS가 Syntitan 안에서 실행되어 프라이버시 안전 대체본을 생성합니다. DTS는 데이터를 만들고, Syntitan이 그 상태를 운영합니다.

  • GDPR·PIPA·HIPAA 제한 데이터 대체: 원본은 경계 밖으로 나가지 않음(DTS)
  • Syntitan이 합성 데이터셋을 Release State에 버전·바인딩
  • Syntitan이 데이터 생성부터 AI 실행까지 변경 이력에 추적
도입 사례
금융 · IBK 기업은행

AI 탐지율 97.6% · 79개 패턴 → 1,000 레코드

사기·거래 패턴을 DP 안전 합성 레코드로 확장. PIPA 준수, 실제 고객 데이터 반출 0건.

금융 · 교보생명

이탈 모델 F1 0.92 · 277,249 합성 레코드

6개월 보존 정책에 막혀 있던 교보의 이탈 AI. DTS가 과거 데이터에서 DP 안전 레코드를 복원해 삭제 후에도 합법적으로 활용.

마케팅 / 세일즈

트렌드 리서치 시간 90%↓ · 비용 70%↓

연간 소비자 트렌드 설문을 합성 행동 데이터로 학습한 AI 페르소나 에이전트로 대체. 인사이트를 한 달이 아니라 1~2일에.

국방 · 국방부

데이터 반출 0 · 기밀 영상 → AI-ready

망분리된 기밀 환경에 온프레미스 배포. 원본 영상이 경계를 벗어나지 않은 채, 기밀 데이터가 보안 등급 요건 안에서 AI-ready 합성 데이터셋으로 전환.

비교

DTS vs. 제한 데이터에 대한 다른 접근들.

역량DTS마스킹 / 비식별화데이터 샘플링수작업 라벨링
프라이버시 경계 형식적 DP 경계 (ε)△ 재식별 위험 잔존 없음
커버리지 확장 임의 규모 생성 새 데이터 생성 불가△ 실데이터 양에 한정△ 비싸고 느림
희소 클래스 증강 표적 생성 희소 이벤트 생성 불가△ 매우 높은 비용
분포 충실도 실통계 대조 검증△ 마스킹으로 왜곡△ 샘플링 편향 위험△ 라벨러 편차
국경 간·외부 활용 실데이터 미이동 잔여 위험
Syntitan 연동 네이티브 버전 관리·바인딩
도입 신호

데이터가 AI를 막고 있다는 다섯 신호.

엔터프라이즈 AI 프로젝트는 데이터 조건이 학습·검증·안전한 배포를 막을 때 멈춥니다. 아래 신호 중 하나라도 해당된다면, 데이터가 이미 AI를 막고 있는 것입니다. DTS는 바로 이런 상황을 위해 만들어졌습니다.

제한된 데이터
데이터는 있는데 컴플라이언스가 AI 접근을 막는다.

GDPR·PIPA·HIPAA나 내부 보존 정책이 데이터가 모델에 닿는 것을 막습니다. DTS는 프라이버시 안전 합성 대체본을 생성합니다. 통계적으로 정확하고, 합법적으로 쓸 수 있고, 실제 레코드 노출 0건.

사용 불가 데이터
불균형 데이터셋·커버리지 공백이 모델을 왜곡한다.

희소 클래스가 과소대표되고 사기 패턴이 너무 적고 엣지 케이스가 학습에 안 나와, 모델이 잡으려던 바로 그 조건에서 실패합니다. DTS는 클래스 분포를 보정하고 표적 희소 클래스 커버리지를 생성합니다.

사용 불가 데이터
보존 정책이 AI에 필요한 데이터를 삭제한다.

과거 데이터가 보존 정책에 따라 삭제돼, 이전 모델을 학습시킨 패턴이 더는 존재하지 않습니다. DTS는 남아 있는 통계 패턴에서 합성 등가물을 생성합니다.

제한된 데이터
민감 레코드가 보안 경계를 벗어날 수 없다.

기밀·환자·고객 데이터는 내부에서조차 AI 학습용으로 반출할 수 없습니다. DTS의 제로 액세스 아키텍처는 통계 특성을 현장에서 학습하고, DP로 보호된 출력만 경계를 넘습니다.

사용 불가 데이터
학습 데이터 양이 신뢰할 AI에 너무 적다.

원본 데이터셋이 견고한 모델을 학습하기엔 너무 작고, 더 모으는 데 몇 달이 걸립니다. DTS는 통계 충실도를 유지하며 기존 데이터셋을 프로덕션급 규모로 증강합니다.

결과

어느 경우든 DTS는 제한되거나 쓸 수 없는 데이터를 실제 레코드 노출 없이 AI-ready 데이터셋으로 바꿉니다.

내 데이터에 DTS가 맞는지 확인
검증

프로덕션에서 검증되었습니다.

아마존 AWS
NVIDIA
네이버 클라우드
SK텔레콤
교보
대한민국 육군
대한민국 공군
국가데이터처
IBK
우리은행
국가유산청
이화여대 목동병원
Intellyx Digital Innovator Award 2026 NextRise Global Innovator 2024 Information Security Innovation Award 2024 KISA Fast Track 2024 GS Certified Grade 1, CUBIG 2025 Startup World Cup Finalist 2024 ISO/IEC 27001:2022 Information Security ISO/IEC 42001:2023 AI Management Emerging AI+X Top 100 2026 (AIIA) AI Medical Innovation Award, AI EXPO KOREA 2025
+30pp
F1 점수 상승
58.55% → 88.55%
−90%
배포 시간 단축
4주 → 1일
97.6%
AI 탐지율
IBK 기업은행
277K+
합성 레코드
교보생명

Gartner® Emerging Tech: Provider Differentiation Strategy–Trends for Hyper-Synthetic Data (2025)에 대표 벤더(Representative Vendor)로 등재.Gartner는 자사 리서치 발행물에 표시된 어떤 벤더·제품·서비스도 보증하지 않습니다. GARTNER는 Gartner, Inc. 및/또는 그 계열사의 등록상표입니다.

FAQ

자주 묻는 질문

DTS는 CUBIG의 AI-ready 데이터 전환 엔진입니다. 차등 프라이버시로 프라이버시 안전 데이터셋을 생성해 클래스 불균형 보정, 커버리지 공백 보완, 학습 데이터 확장, 제한·접근 불가 데이터 대체를 합니다. 독립형 엔진으로 실행하거나 Syntitan 플랫폼과 연동할 수 있습니다.

차등 프라이버시(DP)는 한 개인의 데이터가 합성 출력에 미치는 영향을 제한하는 수학적 프레임워크입니다. 그래서 공격자가 무엇을 알든 개인을 재식별할 수 없습니다. DTS는 생성 과정에 DP를 적용해, 통계적으로 대표성은 있되 실제 개인정보가 없는 데이터셋을 만듭니다.

네. DTS는 완전한 독립형 엔터프라이즈 엔진이라 단독 배포가 가능합니다. Syntitan과 함께 쓰면 DTS가 생성한 데이터셋이 버전 관리되고 Release State에 바인딩되어 완전한 실행 추적이 됩니다.

세 가지입니다. 프라이버시·컴플라이언스 규정으로 공유할 수 없는 제한 데이터, 커버리지 공백이나 클래스 불균형으로 모델을 불안정하게 하는 데이터, 그리고 존재하지만 학습 파이프라인에 닿지 못하는 접근 불가 데이터.

제로 액세스 아키텍처는 원본 데이터가 고객 환경을 절대 벗어나지 않는다는 뜻입니다. DTS는 통계 특성을 현장에서 분석하고 DP로 보호된 합성 모델을 생성하며, 다운스트림에는 합성 출력만 씁니다. 원본은 외부로 이동·접근되지 않아 기밀·규제·망분리 환경에 적합합니다.

Syntitan은 실행 안정성의 일환으로 데이터 품질을 개선합니다. Syntitan은 프라이버시 안전 합성데이터가 필요할 때 DTS 역량의 일부를 쓸 수 있고, DTS는 완전한 독립형 AI-ready 데이터 전환 엔진입니다.

제한된 데이터. 쓸 수 있는 AI.

DTS는 제한되고, 쓸 수 없고, 접근 불가한 기업 데이터를 원본을 옮기지 않고 프라이버시 안전 합성 데이터셋으로 바꿉니다. GS 인증. KISA 인증.