DTS · AI-ready 데이터 전환 엔진

쓸 수 없는 데이터를
AI-ready 데이터셋으로 재구성.

대부분의 기업 데이터는 그대로 AI에 쓸 수 없습니다. DTS가 제한되거나 불균형하거나 부족한 데이터를 실제로 쓸 수 있는 AI-ready 데이터셋으로 재구성합니다.

제한된 데이터는 프라이버시 안전 데이터로 대체하고, 불균형한 데이터셋은 추가 데이터를 생성해 바로잡으며, 데이터가 다루지 못하는 빈 곳은 새 AI-ready 데이터로 채웁니다.

아키텍처 리뷰 신청 Syntitan 살펴보기

사용 가능 AWS Marketplace NCP Marketplace

데이터 문제

세 가지 데이터 문제, 하나의 엔진.

공유할 수 없는 데이터, 쓸 수 없는 데이터, 접근할 수 없는 데이터. DTS가 셋 다 해결합니다.

제한된 데이터

프라이버시 안전 대체. 규제로 막힌 민감 데이터를 실제 개인정보 없는 합성 데이터셋으로 대체합니다.

규제 데이터(GDPR·HIPAA 등)를 프라이버시 안전 합성 데이터로 대체
모든 출력에 형식적 ε 경계 적용
팀·국경·외부 공유에 안전

사용 불가 데이터

커버리지·균형 확장. 희소 클래스·불균형·부족한 양을 추가 데이터 생성으로 채워 학습 가능한 데이터로 만듭니다.

과소대표 클래스 대규모 증강
과적합 없이 클래스 불균형(희소 사례의 예시가 너무 적은 상태) 보정
소규모 데이터셋을 프로덕션 규모로 확장

접근 불가 데이터

안전한 데이터셋 생성. 서로 다른 시스템에 갇혀 파이프라인에 닿지 못하는 데이터를 안전한 대체본으로 생성합니다.

접근 불가 소스의 안전한 대체본 생성
멈춰 있던 검증·테스트 워크플로우 해제
데이터 이동 없이 통계 특성 유지

역량

프라이버시 안전 합성데이터, 하나의 역량으로.

합성데이터는 DTS 안의 한 가지 역량이지, DTS의 정체성이 아닙니다. DTS는 차등 프라이버시를 토대로 이 역량을 활용해, 실제 데이터를 쓸 수 없을 때 커버리지를 넓히고 불균형을 보정합니다.

차등 프라이버시

설계 단계부터 형식적 프라이버시 경계.

차등 프라이버시란

차등 프라이버시(DP)는 한 개인의 데이터가 합성 출력에 미치는 영향을 수학적으로 제한하는 프레임워크입니다. 누군가 어떤 외부 정보를 결합하더라도 개인을 재식별할 수 없습니다.

DTS는 사후 비식별화 단계가 아니라 생성 과정 자체에 DP를 적용합니다. 프라이버시 속성이 마스킹·필드 제거에 의존하지 않고 구조적으로 확보되는 방식으로, '최선의 노력' 수준의 마스킹이 아니라 증명 가능한 경계입니다. 이 형식적 프라이버시 경계는 자체 연구(MPGAN, BMVC 2022)와 등록 특허로 뒷받침됩니다.

경계

합성 데이터셋에서 특정 개인을 식별할 확률은 외부 지식과 무관하게 정의된 값인 엡실론(ε)을 넘지 않습니다.

DTS가 합성데이터를 만드는 방식

통계 프로파일링

원본 레코드를 저장하지 않고 실제 데이터셋의 통계 특성(분포·상관관계를 비롯한 통계 패턴)을 분석합니다.

DP 노이즈 주입

DP 경계에 따라 보정된 노이즈를 통계 모델에 주입해, 개별 데이터 포인트를 수학적으로 식별 불가능하게 만듭니다.

합성 생성

DP로 보호된 모델에서 새 레코드를 샘플링합니다. 출력은 통계적으로 대표성이 있되 실제 개인정보를 포함하지 않습니다.

충실도 검증

생성 데이터를 원본 분포와 대조 검증합니다. 품질·활용성 지표로 학습·검증 적합성을 확인합니다.

배포

DTS로 시작해서, Syntitan으로 확장.

Mode A · 직접 도입

DTS 단독 시작

DTS는 Syntitan의 핵심 역량으로, 데이터 소스에 바로 붙여 먼저 시작할 수 있습니다. AI 학습 데이터 품질을 해결합니다. 빠진 데이터를 실데이터에 손대지 않고 대규모로 생성합니다.

클래스 불균형 보정: 분포 충실도를 유지한 채 희소 클래스 예시를 추가 생성
희소 데이터셋을 프로덕션급 규모로 증강
엣지 케이스·희소 이벤트 샘플 생성

Mode B · 연동형

DTS + Syntitan

컴플라이언스가 데이터가 모델에 닿는 것을 막을 때, DTS가 Syntitan 안에서 실행되어 프라이버시 안전 대체본을 생성합니다. DTS는 데이터를 만들고, Syntitan이 버전을 관리하고 추적합니다.

GDPR·PIPA·HIPAA 제한 데이터 대체: 원본 데이터는 고객 환경 밖으로 나가지 않음
Syntitan이 합성 데이터셋을 Release State에 버전·바인딩
Syntitan이 데이터 생성부터 AI 실행까지 변경 이력에 추적

도입 사례

금융 · IBK 기업은행

사기 탐지 정확도 97.6%(AI 모델) · 79개 패턴 → 1,000 레코드

사기·거래 패턴을 DP 안전 합성 레코드로 확장. PIPA 준수, 실제 고객 데이터 반출 0건.

금융 · 교보생명

이탈 모델 F1 0.92 · 277,249 합성 레코드

6개월 보존 정책에 막혀 있던 교보의 이탈 AI. DTS가 과거 데이터에서 DP 안전 레코드를 복원해 삭제 후에도 합법적으로 활용.

마케팅 / 세일즈

트렌드 리서치 시간 90%↓ · 비용 70%↓

연간 소비자 트렌드 설문을 합성 행동 데이터로 학습한 AI 페르소나 에이전트로 대체. 인사이트를 한 달이 아니라 1~2일에.

국방 · 국방부

데이터 반출 0 · 기밀 영상 → AI-ready

망분리된 기밀 환경에 온프레미스 배포. 기밀 데이터가 보안 등급 요건 안에서 AI-ready 합성 데이터셋으로 전환.

비교

DTS vs. 제한 데이터에 대한 다른 접근들.

역량	DTS	마스킹 / 비식별화	데이터 샘플링	수작업 라벨링
프라이버시 경계	✓ 형식적 DP 경계 (ε)	△ 재식별 위험 잔존	✗ 없음	✗
커버리지 확장	✓ 임의 규모 생성	✗ 새 데이터 생성 불가	△ 실데이터 양에 한정	△ 비싸고 느림
희소 클래스 증강	✓ 표적 생성	✗	✗ 희소 이벤트 생성 불가	△ 매우 높은 비용
분포 충실도	✓ 실통계 대조 검증	△ 마스킹으로 왜곡	△ 샘플링 편향 위험	△ 라벨러 편차
국경 간·외부 활용	✓ 실데이터 미이동	✗ 잔여 위험	✗	✗
Syntitan 연동	✓ 네이티브 버전 관리·바인딩	✗	✗	✗

도입 신호

데이터가 AI를 막고 있다는 다섯 신호.

엔터프라이즈 AI 프로젝트는 데이터 조건이 학습·검증·안전한 배포를 막을 때 멈춥니다. DTS는 이런 상황을 위해 만들어졌습니다.

제한된 데이터

데이터는 있는데 컴플라이언스가 AI 접근을 막는다.

GDPR·PIPA·HIPAA나 내부 보존 정책이 데이터가 모델에 닿는 것을 막습니다.

사용 불가 데이터

불균형 데이터셋·커버리지 공백이 모델을 왜곡한다.

희소 클래스가 과소대표되고 사기 패턴이 너무 적고 엣지 케이스가 학습 데이터에 나타나지 않습니다.

사용 불가 데이터

보존 정책이 AI에 필요한 데이터를 삭제한다.

과거 데이터가 보존 정책에 따라 삭제돼, 이전 모델을 학습시킨 패턴이 더는 존재하지 않습니다.

제한된 데이터

민감 레코드가 고객 환경을 벗어날 수 없다.

기밀·환자·고객 데이터는 내부에서조차 AI 학습용으로 반출할 수 없습니다.

사용 불가 데이터

학습 데이터 양이 신뢰할 AI에 너무 적다.

원본 데이터셋이 견고한 모델을 학습하기엔 너무 작고, 더 모으는 데 몇 달이 걸립니다.

결과

어느 경우든 DTS는 제한되거나 쓸 수 없는 데이터를 실제 레코드 노출 없이 AI-ready 데이터셋으로 바꿉니다.

내 데이터에 DTS가 맞는지 확인

검증

프로덕션에서 검증되었습니다.

Information Security Innovation Award 2024

AI Medical Innovation Award, AI EXPO KOREA 2025

+30pp

F1 점수 상승

58.55% → 88.55%

−90%

배포 시간 단축

4주 → 1일

97.6%

사기 탐지 정확도 (AI 모델)

IBK 기업은행

277K+

합성 레코드

교보생명

Gartner® 대표 벤더 조달청 혁신장터 AWS Marketplace NCP Marketplace

Gartner® Emerging Tech: Provider Differentiation Strategy–Trends for Hyper-Synthetic Data (2025)에 대표 벤더(Representative Vendor)로 등재.Gartner는 자사 리서치 발행물에 표시된 어떤 벤더·제품·서비스도 보증하지 않습니다. GARTNER는 Gartner, Inc. 및/또는 그 계열사의 등록상표입니다.

FAQ

자주 묻는 질문

DTS란 무엇인가요?

DTS는 CUBIG의 AI-ready 데이터 전환 엔진입니다. 차등 프라이버시로 DP 보호 데이터셋을 생성해 클래스 불균형 보정, 커버리지 공백 보완, 학습 데이터 확장, 제한·접근 불가 데이터 대체를 합니다. 데이터 전환 작업에는 단독 배포도 가능하지만, Syntitan 플랫폼의 핵심 역량으로 동작합니다.

DTS의 차등 프라이버시란?

차등 프라이버시(DP)는 한 개인의 데이터가 합성 출력에 미치는 영향을 제한하는 수학적 프레임워크입니다. 그래서 공격자가 무엇을 알든 개인 데이터가 결과에 미치는 영향이 수학적으로 제한되어 재식별 위험이 낮게 유지됩니다. DTS는 생성 과정에 DP를 적용해, 통계적으로 대표성은 있되 실제 개인정보가 없는 데이터셋을 만듭니다.

Syntitan 없이 DTS만 쓸 수 있나요?

네. 전환 워크로드에는 DTS 단독 배포도 가능합니다. Syntitan의 일부로 쓰면 DTS가 생성한 데이터셋이 버전 관리되고 Release State에 바인딩됩니다.

DTS는 어떤 데이터 문제를 해결하나요?

세 가지입니다. 프라이버시·컴플라이언스 규정으로 공유할 수 없는 제한 데이터, 커버리지 공백이나 클래스 불균형으로 모델을 불안정하게 하는 데이터, 그리고 존재하지만 학습 파이프라인에 닿지 못하는 접근 불가 데이터.

제로 액세스 아키텍처란?

원본 데이터는 고객 환경 안에 머뭅니다. DTS는 통계 특성을 현장에서 분석하고, 밖으로는 DP로 보호된 합성 출력만 전달합니다. 원본 레코드는 외부로 이동하지 않습니다. 그래서 데이터를 밖으로 옮길 수 없는 기밀·규제 환경까지 커버합니다.

DTS와 Syntitan은 어떻게 다른가요?

DTS는 전환 엔진이고, Syntitan은 그 엔진이 움직이는 플랫폼입니다. Syntitan은 실행 안정성의 일환으로 데이터 품질을 개선하며, DP 보호 합성데이터가 필요할 때 DTS 역량의 일부를 씁니다. DTS는 플랫폼의 완전한 AI-ready 데이터 전환 엔진이며, 단독 배포도 가능합니다.

제한된 데이터. 쓸 수 있는 AI.

지금 AI가 쓸 수 없는 데이터를, 내일 학습할 수 있는 데이터셋으로 DTS가 재구성합니다. GS 인증. KISA 인증.

아키텍처 리뷰 신청 Syntitan 살펴보기

사용 가능 AWS Marketplace NCP Marketplace

Syntitan

T-Challenge 2026 준우승

2026 Gartner Agentic AI 리포트 2건에 인정

AI Insights

배호

쓸 수 없는 데이터를
AI-ready 데이터셋으로 재구성.