01 / 03
개인정보가 안전한 대체 데이터
민감하거나 제약된 데이터에 대한 접근없이도, DTS는 통계적으로 유의미한 합성데이터를 생성합니다.
- ✓GDPR, PIPA, HIPAA 또는 CCPA에 의해 제한된 데이터를 차등정보보호기술을 통해 안전한 합성 데이터로 교체하세요.
- ✓모든 합성 데이터에 대한 차등정보보호 보장
- ✓팀을 넘어, 제약을 넘어 외부에서도 안전하게 이용할 수 있습니다.
- ✓데이터셋의 분포 충실도가 유지됩니다.
당신의 AI는 학습용 데이터 수준만큼만 향상됩니다. 대부분의 기업 데이터는 AI-Ready 상태가 아닙니다. DTS는 AI를 위한 사용 불가능한 데이터를 사용 가능하게 만듭니다: 개인정보보호 규제로 제한되었거나, 불균형이 있거나, 모델에 필요한 만큼 데이터셋이 부족한 경우를 모두 커버합니다. DTS로는 실제로 사용할 수 있는 AI-Ready 데이터셋을 만들어 모델 성능을 개선합니다.
진정한 AI-Ready 데이터는 이렇게 정의됩니다. 사용 가능한, 개인정보보호, 그리고 운영 환경에서도 안정적인.
DTS는 데이터가 제한되거나, 결측값이 있을 때 그것의 커버리지를 확대하고 불균형을 수정해, 개인정보가 안전하게 보호된 합성데이터를 생성합니다.
합성 데이터 생성 기술은 DTS 기능 중 하나이며, 큐빅의 모든 것을 대표하지는 않습니다. DTS는 수학적 기반으로 차등 프라이버시를 적용해, 합성된 산출물이 식별 가능하도록 역추적될 수 없도록 보장합니다. 이에 따라 DTS는 원천 학습용 데이터를 외부에 노출하지 않고 AI-Ready 데이터셋이 필요한 규제 산업에 적합합니다.
DTS는 큐빅의 AI-Ready 데이터 인프라 내의 기능 중 하나로, 기업 데이터가 사용 가능하고, 안전하게 개인 정보를 보호하며, 실 운영 환경에서 AI를 안정적으로 실행할 수 있도록 하는 인프라 레이어입니다. DTS는 특히 제한된 데이터 및 사용할 수 없는 데이터적인 제약을 해결합니다.
Databricks는 귀사의 데이터를 저장 관리하고, 마스킹 규칙은 데이터를 제거해 AI 학습 성능을 저하시킵니다. 그러나 DTS는 데이터를 외부 노출하거나 제거하지 않고 AI-Ready 상태로 만듭니다.
| Capability | DTS | Masking | Sampling | Manual |
|---|---|---|---|---|
| 프라이버시 보장 | ✓ Mathematical DP bound | △ Re-identification risk remains | ✕ No privacy guarantee | ✕ |
| 커버리지 확장 | ✓ Generate at any scale | ✕ Can't create new data | △ Bounded by real data volume | △ Expensive & slow |
| 희소 클래스 증강 | ✓ Targeted generation | ✕ | ✕ Can't create rare events | △ Very high cost |
| 분포 충실도 | ✓ Validated against real stats | △ Distorted by masking | △ Sampling bias risk | △ Annotator variance |
| 국경 간 / 외부 사용 | ✓ No real data transferred | ✕ Residual risk | ✕ | ✕ |
| SynTitan 통합 | ✓ Native versioning & binding | ✕ | ✕ | ✕ |
사용 불가 데이터, 공유 불가 데이터, 희소한 데이터 — DTS는 이 세 가지 문제를 해결합니다.
01 / 03
민감하거나 제약된 데이터에 대한 접근없이도, DTS는 통계적으로 유의미한 합성데이터를 생성합니다.
02 / 03
데이터는 존재하지만 AI에 활용하기에 적합하지 않습니다 — 희귀 클래스가 누락되었거나, 편향된 분포, 또는 모델 학습을 위한 양이 부족합니다.
03 / 03
데이터는 사일로에 갇혀있습니다. 접근 제어, 제3자 계약 또는 지리적 규제에 의해 제한되고 있으며, 모델 학습 파이프라인에 들어갈 수 없습니다.
귀사의 사내 망에서, 데이터소스에 직접 연결해 DTS를 독립적으로 사용할 수 있습니다. AWS marketplace에서도 이용이 가능합니다.
개인정보 보호 규정에 의해 가로막혔을 때, AI모델에 사용할 수 없는 규제된 데이터를 SynTitan 내의 DTS에서 실행해 원본 데이터의 안전한 대체품을 생성합니다. 합성 데이터 세트는 자동으로 버전 관리되며, 릴리스 상태에 연결시키고, 변경 이력을 추적할 수 있습니다.
차등정보보호 기술(DP)은 공격자가 이미 알고 있는 정보와 관계없이 어떤 개별 데이터도 합성된 결과에서 식별될 수 없도록 보장하는 수학적 프레임워크입니다.
DTS는 실제 데이터셋의 통계적 속성인 분포, 상관관계, marginal 분포를 분석하되 원본에 대한 기록은 저장하지 않습니다.
보정된 Noise가 차등정보보호 bound에 따라 통계 모델에 주입됩니다. 이에 따라 개별 데이터들은 수학적으로 식별할 수 없게 됩니다.
새로운 데이터가 DP 모델에서 샘플링됩니다. 산출물은 통계적으로 유효하지만, 실제 개인 정보는 포함되어 있지 않습니다.
생성된 합성데이터와 원본 데이터의 유사도를 검증할 수 있습니다. 품질 및 유용성 지표가 학습 및 검증 용도에 적합한지 확인할 수 있습니다. 본 항목은 개인정보보호위원회의 합성데이터 품질 평가 가이드라인 지표로 구성되어 있습니다.
기업의 AI 프로젝트는 학습, 검증 또는 배포가 데이터의 상태나 조건의 미흡한 상황일 때 중단됩니다. DTS는 바로 이러한 상황을 위해 만들어졌습니다.
GDPR, PIPA, HIPAA 또는 사내 보유 정책이 데이터가 모델에 도달하는 것을 막습니다. DTS는 개인정보가 안전한 합성 대체 데이터를 생성합니다 — 통계적으로 정확하고, 법적으로 사용 가능하며, 실제 기록 노출이 없습니다.
희귀 클래스는 과소 대표됩니다. 사기 패턴은 학습하기에 너무 희소합니다. 엣지 케이스는 학습 데이터에 나타나지 않습니다. DTS는 클래스 분포를 수정하고 타깃 희소 클래스 커버리지를 생성합니다.
보유 정책에 따라 과거 데이터가 삭제되었습니다. DTS는 남아있는 통계 패턴으로부터 합성 등가물을 생성합니다 — 원본 데이터가 여전히 존재할 필요 없이.
기밀, 환자 또는 고객 데이터는 AI 학습을 위해 내보낼 수 없습니다. DTS의 비접근 아키텍처는 현장에서 통계적 속성을 학습합니다. DP로 보호된 합성 출력만 경계를 넘습니다.
견고한 AI 모델을 훈련하기에는 원본 데이터셋의 양이 너무 작습니다. DTS는 기존 데이터셋을 통계적 충실도를 유지하면서도 운영 수준의 양으로 증강시킬 수 있습니다.
DTS는 원본 데이터셋을 외부에 노출하지 않으면서도 제한되거나 사용할 수 없는 데이터를 AI-Ready 데이터 세트로 변환합니다.
공격자가 이미 알고 있는 정보와 관계없이 어떤 개별 데이터도 합성된 결과에서 식별될 수 없도록 보장하는 수학적 프레임워크입니다. DTS는 생성 중에 DP를 적용해 통계적으로 대표성을 가지면서도 실제 개인 정보를 포함하지 않는 데이터셋을 생성합니다.
원본 데이터는 고객사의 내부망을 벗어나지 않습니다. DTS는 기업 망 내에서 통계적 속성을 분석해 차등정보보호된 합성 모델을 생성하며, 그 이후 산출된 데이터셋만 이용이 가능하게 구성되어 있습니다. 원본 데이터는 접근할 필요가 없고, 외부로 전송되지 않습니다 — 기밀 사항이나 규제된 데이터를 다루는 환경에 적합합니다.
DTS는 큐빅의 엔터프라이즈 합성 데이터 엔진입니다. 차등정보보호를 사용해 클래스 불균형 해결, 커버리지 격차 보완, 학습 데이터 확장, 제한되거나 접근 불가능한 데이터 대체를 위한 개인정보 안전 데이터셋을 생성합니다. DTS는 독립 엔진으로 실행하거나 SynTitan 플랫폼과 통합할 수 있습니다.
Trusted by enterprise & government
Gartner
네이버 클라우드
SK텔레콤
교보
대한민국 육군
대한민국 공군
이화여대 목동병원
도이치 텔레콤
클래로티
국가유산청
국가데이터처
기업의 AI 프로젝트는 학습, 검증 또는 배포가 데이터의 상태나 조건의 미흡한 상황일 때 중단됩니다. DTS는 바로 이러한 상황을 위해 만들어졌습니다.
국방
드론 공격 데이터 증강
금융
이상 거래 탐지
의료
희귀 질환 데이터 증강
폐렴 X-ray — 원본 vs 합성
뇌종양 & 동맥류 CT — 원본 vs 합성
당뇨 망막병증 — 원본 vs 합성
DTS는 활용에 제약이 있는 기업의 원본 데이터를 민감정보가 안전한 방식으로 합성 전환합니다. GS 인증. KISA 승인. AWS 마켓플레이스에서 이용 가능.
영업 없는 30분 비대면 미팅