AI-Ready Data, Syntitan

1조 5천억 달러짜리 문제: 데이터는 깨끗합니다. 그런데도 AI는 그걸 쓰지 못합니다.

안녕하세요, 엔터프라이즈 AI를 위한 AI-ready 데이터 플랫폼 Syntitan을 만드는 CUBIG입니다. 💎

데이터 리더들 사이에서 계속 회자되는 한 문장이, 그들이 분기 리뷰에서 이미 체감하던 무언가에 숫자를 붙여줍니다. AI의 1조 5천억 달러짜리 문제는 대부분 기업의 데이터가 준비되어 있지 않다는 것입니다. 딱 떨어지는 과장된 숫자라 눈을 흘기게 되는 종류죠. 그러다 조직의 63%가 AI를 뒷받침할 데이터 관리 역량이 없거나, 자신들에게 그 역량이 있는지조차 모른다는 가트너의 2025년 조사를 읽으면 흘기던 눈이 멈춥니다. 이 숫자는 예산 부족을 말하는 게 아닙니다. 돈이 엉뚱한 곳으로 가고 있다는 것을 말합니다.

지난 주 이 시리즈에서는 파이프라인 입구에서 아무도 데이터를 점검하지 않을 때 무슨 일이 벌어지는지 살펴봤습니다. 그 결과가 모델 붕괴(model collapse), 즉 저품질 입력이 매 학습 라운드에 공급되면서 서서히 진행되는 성능 저하입니다. 입구의 품질 게이트가 이를 막습니다. 이번 글은 그 품질 게이트가 결코 건드리지 못하는 실패, 데이터가 이미 깨끗해진 다음에 나타나는 실패에 관한 것입니다.

바로 그 지점이 예산 논의를 탈선시킵니다. 데이터는 대개 깨끗합니다. 모든 검증을 통과했고, 거버넌스를 거쳤고, 감사를 만족시켰습니다. 그런데도 모델은 여전히 기대에 못 미칩니다. 그런 일이 생기면 반사적으로 모델이 문제라고 가정하게 되고, 그래서 다음 발주서는 더 큰 모델이나 더 많은 컴퓨팅을 향합니다. 정작 문제가 모델이었던 적은 거의 없습니다.

image 7

이사회는 파일럿만 보고, 프로덕션은 보지 못한다

어느 CDO의 분기 발표 자료를 열어 보면 “AI 투자 ROI” 같은 제목의 슬라이드가 흔히 있습니다. 거기에는 진행 중인 파일럿 세 개, 그리고 프로덕션은 제로입니다. 이 패턴은 산업을 가리지 않고 반복되며, 설명도 매번 같습니다. 팀은 데이터를 정제하고, 거버넌스를 적용하고, 컴플라이언스를 만족시켰는데, 그다음 모델이 출시할 만큼 성능을 내지 못한 것입니다.

어려운 부분은 그다음에 이어지는 대화입니다. 데이터 리더가 데이터에 대한 추가 투자를 주장하면, 돌아오는 답은 “이미 데이터 레이크에 수천만 달러를 썼잖아”의 변주입니다. 두 사람 다 옳고, 서로 엇갈린 이야기를 하고 있습니다. 데이터를 저장하고 정제하는 것은 하나의 일입니다. 모델이 필요로 하는 맥락을 그 정제 과정 내내 유지하는 것은 완전히 다른 일이며, 두 번째 일은 아무도 이름 붙이지 않았기에 결코 예산이 배정되지 않았습니다. 데이터 리더는 그 격차를 숫자로 보여주고 싶지만, 그런 숫자를 만들어낼 도구가 스택 안에 존재하지 않습니다.

도구는 다 샀다. 빠진 건 계층이다.

여기에 진짜 돈을 써본 기업 거의 어디를 들어가 봐도 스택은 익숙한 모습입니다. 웨어하우스로는 Snowflake나 BigQuery. 레이크하우스로는 Databricks. 그 아래에 데이터 레이크, 그리고 카탈로깅, 접근 제어, 거버넌스. 저장, 이동, 컴플라이언스는 처리되어 있고, 벤더에게는 비용을 지불했고, 아키텍처 다이어그램은 빈틈이 없습니다.

그 스택이 잘하는 일은 데이터를 정돈되고 안전하게 만드는 것입니다. 그 스택이 애초에 하도록 설계되지 않은 일은 모델이 학습하는 정보를 보존하는 것입니다. 둘은 서로 다른 목표이고, 그 둘 사이의 거리가 바로 그 1조 5천억 달러의 상당 부분이 사라지는 곳입니다.

흔한 패턴이 메달리온 아키텍처입니다. 원본을 위한 브론즈, 정제·정합된 데이터를 위한 실버, 큐레이션되어 비즈니스에 바로 쓸 수 있는 골드. 단계가 올라갈 때마다 데이터는 더 깨끗하고, 더 일관되고, 더 컴플라이언트해집니다. 그런데 단계가 올라갈 때마다 모델이 의존하던 신호도 함께 깎여 나갑니다. 데이터가 골드에 도달할 즈음이면 대시보드용으로는 훌륭한 상태이고 모델용으로는 형편없는 상태입니다. 두 소비자가 정반대의 것을 원하기 때문입니다. 리포트를 읽는 사람은 깔끔한 범주와 억제된 이상치를 원합니다. 모델은 사람이라면 잡음이라 치워버릴 부분까지 포함한 전체 분포를 원합니다.

정제가 맥락을 제거하는 세 가지 방식

이 손실은 추상적인 것이 아닙니다. 모든 팀이 돌리는 구체적인 변환 단계에서 발생하며, 각 단계는 그 자체로는 정당합니다.

image 8

삭제된 빈칸에는 이유가 있었다

한 필드가 비어 있어서 그 행을 버리거나 값을 열 평균으로 대치합니다. 표준적인 정제입니다. 하지만 빈칸이 순수한 부재인 경우는 드뭅니다. 임상 데이터셋에서 누락된 검사 수치는 검사가 애초에 처방되지 않았거나, 환자가 거부했거나, 규제상 보류로 결과가 보류되었거나, 장비가 오프라인이었다는 뜻일 수 있습니다. 각각이 의미를 담고 있으며, 검사가 처방되지 않았다는 사실 자체가 하나의 임상 신호입니다. 행을 버리면 모델에게 거기엔 아무것도 없었다고 말하는 셈입니다. 평균으로 대치하면 거짓을 말해주는 셈입니다.

모델은 “이 필드는 비어 있다”와 “이 필드는, 당신이 예측하려는 결과와 상관관계가 있는 어떤 이유로 비어 있다”를 구분하지 못합니다. 수많은 실제 문제에서 바로 그 구분이 곧 예측입니다. 그것을 제거하면 모델은 모든 부재가 똑같아 보이는 납작해진 세계로부터 학습합니다.

비식별화는 열 사이의 연결을 끊는다

컴플라이언스는 이름, 정확한 날짜, 정밀한 위치를 익명화할 것을 요구하며, 그것을 할지 말지에 대해서는 논쟁의 여지가 없습니다. 어려운 점은 비식별화가 각 열을 개별적으로 보호하는 반면, 모델이 뽑아내는 가치는 보통 열과 열 사이에 있다는 것입니다. 환자의 나이와 진단까지의 간격 사이의 관계. 좁은 지역과 구매 빈도 사이의 연결. 여러 필드에 걸쳐, 함께 모여 하나의 행동을 묘사하는 결합 패턴.

나이를 10년 단위 구간으로 일반화하고, 날짜를 분기로 뭉뚱그리고, 지역을 가리면 모든 필드가 개별적으로는 프라이버시 검증을 통과합니다. 정작 모델이 학습하던 결합 구조는 사라졌고, 파이프라인 안의 그 무엇도 그것이 떠났다고 손을 들어 알려주지 않습니다.

표준화는 데이터의 형태를 지운다

특성을 [0,1] 범위로 정규화하면 비교 가능하고 다루기 좋아집니다. 동시에 그 분포를 잃습니다. “여기에는 서로 다른 두 집단이 존재한다”고 모델에게 말해주던 이봉형(bimodal) 열은 매끄러운 경사로 변합니다. 드물지만 중대한 사건을 표시하던 두꺼운 꼬리(heavy tail)는 몸통 안으로 압축됩니다. 그러면 모델은 데이터가 아니라 데이터의 실루엣을 학습합니다.

이 단계들 중 어느 것도 실수가 아닙니다. 어느 하나라도 건너뛰면 그 자체로 컴플라이언스와 품질 문제가 생깁니다. 문제는 이 단계들이 제거하는 정보가 어디에도 기록되지 않는다는 점입니다. 그것은 그냥 사라지고, 그 사라짐은 잔여물로 학습된 모델이 프로덕션에서 실패하기 전까지 보이지 않은 채로 남습니다.

같은 이야기의 실무자 버전

온라인에 널리 공유된 어느 트레이딩 팀의 사례는, 프리미엄 과거 시장 데이터를 사서 모델에 넣었더니 그들이 쓰레기라 부른 결과가 돌아왔다고 전합니다. 댓글들은 뻔한 설명, 즉 데이터 품질이 낮았을 것이라는 쪽으로 손을 뻗었습니다. 아니었습니다. 그 데이터는 깨끗했고, 완전했고, 비쌌습니다.

그 데이터가 하지 못한 일은, 어떤 가격이 특정 국면에서 왜 특정 범위에 머물렀는지, 또는 어떤 조건이 주어진 패턴을 만들어냈는지를 모델에게 알려주는 것이었습니다. 인간 분석가가 경험에서 끌어오는 맥락이 벤더와 모델 사이 어딘가에서 제거되어 있었습니다. 그 팀은 깨끗한 데이터에 비용을 지불했고 정확히 그것을 받았습니다. 그것을 쓸 만하게 만들어줬을 주변 정보는 하나도 없이 말이죠. 한 팀, 하나의 데이터셋, 그리고 축소판으로 본 1조 5천억 달러짜리 문제입니다. 그 실패는 모델 또는 데이터 품질 문제로 읽혔습니다. 사실은 맥락 보존(context-preservation) 문제였습니다.

학계 버전이 지금 도착하고 있다

합성 데이터(“Synthics”)에 관한 2026년 6월 arXiv 논문은 바로 이 요건을 중심으로 방법론을 세웁니다. 생성된 데이터가 실제 관측의 구조를 충실히 반영하고, 그것이 특성별로 검증되어야 한다는 것입니다. 교훈은 양방향으로 흐릅니다. 합성 생성이 그 구조를 보존하지 못하면, 동일한 맥락 손실을 앞으로 끌고 가게 되고, 그것으로 학습된 모델은 존재한 적 없는 분포를 배웁니다.

연결은 직접적입니다. 팀들이 합성 생성에 손을 뻗는 이유는 흔히, 공격적인 정제가 만들어내는 프라이버시와 희소성 문제에서 벗어나기 위해서입니다. 생성 단계가 원본 구조를 앞으로 가져가지 못하면, 같은 맥락 손실을 한 층 위에서 반복하는 셈이고, 이번에는 잡아내기 더 어렵게 만드는 통계적 그럴듯함의 막에 싸여 있습니다. 실제 데이터를 정제하든 합성 데이터를 생성하든, 결정적인 질문은 동일합니다. 그 구조와, 그 뒤에 있는 설명이 변환을 견디고 살아남는가?

빠진 계층이 실제로 담아야 하는 것

정제가 맥락을 제거하는 원인이라면, 답은 더 조심스럽게 정제하는 것일 수 없습니다. 정제 자체가 원인이기 때문입니다. 답은 정제가 덜어내는 것을, 모델과 감사자가 모두 읽을 수 있는 형태로 보존하는 것입니다. 두 가지가 데이터와 함께 움직여야 합니다.

첫째는 메타데이터로 실린 맥락입니다. 필드가 비어 있을 때 그 레코드는 왜 비었는지도 함께 실어야 합니다. 규제상 보류, 거부, 해당 없음, 장비 오프라인 등. 값이 변환될 때 레코드는 원래 범위와 사용된 방법을 실어야 합니다. 분포가 재구성될 때 레코드는 그 이전 모습을 실어야 합니다. 이것은 사후에 사람을 위해 작성하는 문서 페이지가 아닙니다. 데이터 자체에 결합된 구조화된 정보이며, 그래서 모델이 값과 함께 그 설명을 받습니다.

둘째는 계보(lineage)와 무결성입니다. 이 레코드는 어디서 왔고, 어떤 파이프라인을 거쳤고, 몇 번의 변환을 지났으며, 그 사슬을 주장이 아니라 검증할 수 있는가? 규제 환경에서는 이것이 더 이상 편의 사항이 아닙니다. 한 조각의 데이터가 학습 세트에 어떻게 도달했는지 입증할 수 없다면, 그것이 아무리 깨끗하더라도 AI에 아예 쓰지 못하는 경우가 많습니다. 출처를 증명하지 못하는 무능 자체가 하나의 차단 요인이며, 그것은 모델이 내리는 어떤 결정보다도 앞에 놓여 있습니다.

이 둘을 합치면 “데이터는 깨끗하다”가 “데이터는 깨끗하고, 여기 그것에 무엇을 왜 했는지 전부 있다”로 바뀝니다. 두 번째 문장이야말로 모델이 쓸 수 있고 이사회가 방어할 수 있는 문장입니다.

숫자들은 한 방향을 가리킨다

이 주장을 단 하나의 통계가 떠받치지는 않습니다. 무게는 얼마나 많은 독립적인 측정이 같은 지점에 떨어지는가에서 나옵니다.

image 9

가트너는 2026년까지 AI 프로젝트의 60%가 폐기될 것으로 전망합니다. 그 뒤의 데이터가 AI-ready가 아니기 때문입니다. 같은 기관은 조직의 63%가 AI를 위한 적절한 데이터 관리 역량이 없거나 있는지 확신하지 못한다는 것을 발견했습니다.

맥킨지는 조직의 51%가 최소 한 가지 부정적 AI 결과를 겪고 있다고 보고하며, 전체 조직의 거의 3분의 1이 특히 부정확성을 지목합니다.

Stack Overflow의 2025년 개발자 설문에서는 개발자의 33%만이 AI 출력의 정확성을 신뢰하고, 46%는 적극적으로 불신합니다. 널리 인용되는 IBM의 추정치는 미국에서 낮은 데이터 품질의 비용을 연간 3조 1천억 달러로 잡습니다. 그리고 파이프라인이 실제로 망가졌을 때, Monte Carlo의 데이터 품질 현황 설문은 팀의 68%가 그것을 감지하는 데만 네 시간 이상 걸린다는 것을 보여줍니다. 모델이 맥락이 벗겨진 데이터 위에서 근무일의 대부분을 돌아가도 아무도 눈치채지 못할 만큼 긴 시간입니다.

서로 다른 기관, 서로 다른 방법, 서로 다른 정의. 그런데 결론은 계속 반복됩니다. 엔터프라이즈 AI의 제약은 모델 역량이나 컴퓨팅이 아닙니다. 모델에 도달하는 데이터에서 그것이 필요로 하던 맥락이 정제로 벗겨져 나갔고, 표준 스택의 그 무엇도 그 맥락을 지키는 책임을 진 적이 없다는 것입니다.

데이터 리더는 어디에 서게 되는가

이 일에 자금을 대는 사람에게 불편한 함의는, 다음 투자가 더 나은 모델이나 더 큰 클러스터로 가서는 아마 안 된다는 것입니다.

그 투자는 대부분의 조직이 한 번도 만들지 않은 깨끗함과 AI-ready 사이의 계층으로 가야 합니다. 어떤 벤더도 그것을 항목으로 팔지 않았고, 어떤 아키텍처 다이어그램에도 그것을 위한 상자가 없었기 때문입니다.

그 계층의 직무 기술서는 단순합니다. 모든 변환을 거치는 내내 설명을 데이터에 붙여두고, 출처를 처음부터 끝까지 검증 가능하게 유지하는 것.

그것을 구축하면 저장, 거버넌스, 도구에 이미 쓴 돈이 제값을 하기 시작합니다. 깨끗한 데이터가 마침내 의미를 온전히 지닌 채 모델에 도달하기 때문입니다.

이 실패 너머에 기다리는 또 하나의 실패가 있습니다. 맥락을 잘 보존했고 모델이 성능을 낸다고 합시다. 얼마 뒤, 그 아래에서 데이터가 이동해버린 상태로 같은 변환이 돌아가며 다른 결과를 내기 시작하는데, 스택의 그 무엇도 무엇이 언제 움직였는지 알려주지 않습니다. 그것이 이 시리즈 다음 글의 주제입니다.

지금으로서는, 다음 기획 회의에 들고 갈 만한 질문은 “우리에게 더 나은 AI가 필요한가”보다 더 좁고 더 유용합니다. 이것입니다. 당신의 골드 테이블에서, 특정 필드가 왜 비어 있는지 여전히 말할 수 있는가? 답이 아니오라면 맥락은 이미 사라진 것이고, 아무리 더 정제해도 그것을 되돌리지 못합니다.

당신의 데이터는 깨끗한가요, 아니면 AI-ready한가요? 5분짜리 무료 진단이 어느 쪽인지 알려드립니다.

image 10

자주 묻는 질문

깨끗하게 정제하고 거버넌스를 거친 데이터인데도 AI 모델에 넣으면 왜 실패하나요?

정제가 모델에 필요한 맥락까지 함께 없애기 때문입니다. 빈 행을 지우면 그 값이 비어 있던 이유도 함께 사라지고, 컴플라이언스를 위해 필드를 일반화하면 컬럼 사이의 관계가 끊기며, 표준화는 모델이 학습하던 분포를 평탄하게 만듭니다. 데이터는 모든 품질·컴플라이언스 점검을 통과하고도, 쓸모를 만들던 부분이 빠진 채 모델에 도착합니다.

클린 데이터와 AI-ready 데이터는 어떻게 다른가요?

클린 데이터는 품질·컴플라이언스 점검을 통과한 상태입니다. 형식이 표준화되고, 식별 정보가 정리되고, 허용되지 않는 결측값이 없는 상태죠. AI-ready 데이터는 한 걸음 더 갑니다. 각 값 뒤의 맥락과 필드 사이의 관계가 변환 과정에서도 살아남고, 데이터가 거쳐 온 경로를 검증할 수 있습니다. 클린이 위생 기준이라면, AI-ready는 남은 데이터로 모델이 여전히 학습할 수 있는가의 기준입니다.

브론즈-실버-골드(메달리온) 파이프라인은 왜 AI-ready 데이터를 만들지 못하나요?

브론즈에서 골드로 갈수록 데이터는 더 깨끗하고 일관되고 컴플라이언스에 맞춰지지만, 각 단계마다 신호도 함께 깎여 나갑니다. 골드에 도착할 무렵이면 데이터는 전체 분포를 원하는 모델보다, 깔끔한 범주를 원하는 대시보드에 더 맞는 형태가 됩니다. 메달리온 패턴은 모델이 학습할 내용을 보존하기 위해서가 아니라 리포팅을 위해 설계됐습니다.

합성데이터가 맥락 손실 문제를 해결하나요?

생성 과정이 원본의 구조를 보존할 때만 그렇습니다. 2026년 6월 arXiv 논문 Synthics는 바로 그 점을 중심에 두고, 실제 관측의 구조를 피처 단위로 맞춰 데이터를 생성합니다. 그 구조를 놓친 합성데이터는 통계적으로 그럴듯한 겉모습만 덧입힌 채, 같은 맥락 손실을 한 단계 위에서 되풀이합니다.

데이터를 AI-ready로 만들려면 무엇이 필요한가요?

두 가지가 데이터와 함께 따라가야 합니다. 첫째, 정제가 없애는 맥락을 메타데이터로 실어 나릅니다. 어떤 필드가 왜 비어 있는지, 값이 어떤 변환을 거쳤는지, 변환 전 분포가 어땠는지입니다. 둘째, 계보와 무결성입니다. 데이터가 거쳐 온 경로를 주장이 아니라 검증으로 보일 수 있어야 합니다. 이 둘이 함께 있어야 모델은 데이터를 쓰고, 팀은 그 데이터가 어떻게 나왔는지 설명할 수 있습니다.