How is a ‘verifiable data state’ different from just versioning datasets in S3 or a feature store?

Versioning datasets is a great first step, but it only tracks the data itself. A verifiable data state goes further by creating an immutable, cryptographically-bound link between a specific data “Release State” and every single operational run that uses it. This means you have a complete, auditable record of not just what the data looked like, but precisely which version of the data was used by which model for which decision, making true root-cause analysis possible.

We’re seeing our AI agents ‘hallucinate’ business logic, not just facts. How does fixing data solve that?

This is a classic symptom of fragmented context. The agent isn’t “making things up” so much as it’s operating on an incomplete or contradictory understanding of your business reality drawn from siloed data. By creating a unified, usable data layer where “customer” or “active project” is defined consistently, you eliminate these contradictions at the source. The AI then operates from a single source of truth, drastically reducing these kinds of contextual errors and improving its reliability.

My team is already swamped. Isn’t an ‘AI-Ready Data Platform’ just more complexity?

It’s a shift from reactive complexity to proactive simplicity. Your team is swamped fighting fires.debugging pipelines, manually cleaning data for each project, and responding to compliance audits. A platform like Syntitan automates the creation of clean, usable data states. This front-loads the work into a repeatable, policy-driven system, which reduces the downstream chaos and frees up your top engineers from doing remedial data work to focus on building actual AI value for the business.

What’s the first practical step our data team can take towards AI data readiness without a huge investment?

Start by changing your documentation mindset. Don’t just catalog your data sources by where they live (e.g., “Salesforce DB,” “Marketo API”). Instead, start a new catalog that defines data sources by their intended AI use case (e.g., “Data for Churn Prediction Model,” “Data for Supply Chain Optimization Agent”). This small shift forces your team to think about data from the perspective of the AI consumer, immediately highlighting inconsistencies and gaps in your current approach.

기업 AI 프로젝트의 60%를 멈춰 세우는 AI 데이터 준비도 위기

Table of Contents

요약

모든 CDO가 잠 못 이루게 만들 만한 수치가 있습니다. 가트너(Gartner)는 2026년까지 AI 프로젝트의 60%가 폐기될 것으로 전망합니다. GPU 성능이 부족해서도, 알고리즘에 결함이 있어서도 아닙니다. 신뢰할 수 있고 AI에 최적화된, 실제로 사용 가능한 데이터를 확보하지 못했기 때문입니다. 우리는 이런 장면을 수없이 봐 왔습니다. 데이터 사이언스 팀이 선보인 훌륭한 PoC가 기립 박수를 받지만, 정작 어수선한 운영 데이터 스트림이라는 현실과 마주하는 순간 시들어 사라지고 맙니다. 팀이 사용 가능한 데이터셋을 끼워 맞추는 데에만 시간의 80%를 쏟는 상황에서 “어디서나 AI”라는 경영진의 지시는 공허하게 울립니다.

핵심 문제는 모델이나 인프라가 아닙니다. 우리는 비포장 흙길 위에서 포뮬러 1 경주차를 몰려 하고 있는 것입니다. 우리의 데이터 환경은 전혀 다른 시대를 위해, 즉 사람이 개입하는 리포팅과 과거 데이터 분석의 시대를 위해 구축되었습니다. AI 에이전트가 요구하는 연속적이고 자율적인 추론을 위해 설계된 것이 결코 아닙니다. 이로 인해 AI 데이터 준비도에 근본적인 공백이 생겨, 혁신은 조용히 죽어 가고 수십억 달러의 투자가 낭비되고 있습니다.

우리는 끊임없이 MLOps와 모델 거버넌스를 이야기하면서도 정작 모든 AI 시스템의 소스 코드, 즉 데이터 그 자체는 외면하고 있습니다. 단순한 데이터 정제를 넘어 AI 시스템이 실행 기반으로 삼을 수 있는, 검증 가능하고 재현 가능하며 진정으로 사용 가능한 데이터 상태를 만드는 쪽으로 초점을 옮기지 않는 한, 우리는 프로젝트의 무덤만 계속 늘려 가게 될 것입니다.

PoC의 무덤과 AI 준비도라는 신화

Section 1: The PoC Graveyard and the Myth of AI Readiness

제가 아는 모든 데이터 리더에게는 “탄탄했던 데모”에 얽힌 이야기가 하나씩 있습니다. 정성껏 큐레이션하고 손수 정제한 데이터셋에서 모델이 놀라운 정확도로 고객 이탈을 예측하거나 공급망 이상을 잡아내던 그 데모 말입니다. 모두가 흥분합니다. 예산이 승인됩니다. 그리고 프로젝트가 운영 단계로 넘어갑니다.

바로 그때 모든 것이 무너집니다.

데이터 스트림은 누구도 인정하지 않았던 것보다 훨씬 더 지저분합니다. 컴플라이언스 팀은 절반에 달하는 피처가 너무 민감해 쓸 수 없다고 표시합니다. 지연(latency) 문제로 실시간 추론은 불가능해집니다. S&P 글로벌(S&P Global)의 2025년 보고에 따르면, AI 개념 증명(PoC)의 46%가 운영에 도달하기도 전에 폐기됩니다. 미국 기업의 42%는 대부분의 AI 이니셔티브를 아예 통째로 접어 버렸습니다. 이는 비전의 실패가 아니라 토대의 실패입니다. AI 데이터 준비도의 실패입니다.

우리는 “AI 준비된 인프라”라는 개념을 중심으로 하나의 거대한 산업을 만들어 냈고, 벤더들은 기꺼이 더 빠른 칩과 더 큰 클러스터를 팔아 댑니다. 그러나 최근 CBTS와 HPE의 발표가 보여 주듯, 초점은 흔히 하드웨어에 쏠려 있습니다. 이는 핵심을 완전히 놓친 것입니다. 세상에서 가장 화려한 서버 랙도 그것에 공급되는 데이터가 쓸 수 없는 것이라면 값비싼 전기난로에 지나지 않습니다.

현장에서는 이 괴리를 절실히 체감합니다. 한 데이터 엔지니어는 레딧(Reddit)에서 이를 솔직하게 표현했는데, “CSV 하나로 훌륭한 모델을 만든 다음, 그 데이터를 만들어 낸 15개의 레거시 파이프라인을 재구축하는 데 실패하며 이후 여섯 달을 보낸다”는 끝없는 악순환을 묘사했습니다. 바로 그 현실의 간극에서 프로젝트들이 죽어 갑니다. 우리는 PoC라는 단거리 스프린트에는 환호하지만, 곧 데이터 통합과 정비라는 마라톤에 발이 묶이고, 거의 이기는 법이 없는 경주에 들어섭니다.

당신의 데이터 환경은 AI에 실패하도록 설계되었다

Section 2: Your Data Estate Was Built to Fail AI

솔직해집시다. 우리 기업의 데이터 아키텍처는 과거의 유물들이 모인 집합체입니다. 속도에 최적화된 트랜잭션 데이터베이스, 분기 보고서를 위해 구축된 데이터 웨어하우스, 그리고 사실상 스키마-온-리드(schema-on-read) 방식의 적재 창고에 불과한 클라우드 데이터 레이크가 있습니다. 이 중 어느 것도 지금 우리가 요구하는 일을 위해 설계되지 않았습니다.

마이크로소프트(Microsoft)의 Azure 데이터 부문 사장인 아룬 울라그(Arun Ulag)는 최근 포브스(Forbes) 기고에서 이를 정확히 짚었습니다. 그는 이렇게 말했습니다. “대부분의 데이터 환경은 리포팅, 트랜잭션, 그리고 사람의 의사결정을 위해 설계되었지, 비즈니스 내부에서 작동하는 연속적 추론이나 자율 시스템을 위해 설계되지 않았다.” 이것이 바로 AI 도입 위기의 한복판에 있는 아키텍처의 불일치입니다. 사람 분석가는 서로 다른 시스템에서 나온 약간 다른 두 고객 레코드를 보고, 맥락을 활용해 둘이 같은 사람임을 알아챌 수 있습니다. AI 에이전트는 그러지 못합니다. 그것은 두 개의 서로 다른 현실을 보며, 그 파편화된 시각에 근거해 결정을 내립니다.

이는 이론상의 문제가 아닙니다. 마이크로소프트의 자체 보고에 따르면, 에이전트형 AI 프로젝트의 약 50%가 다름 아닌 파편화된 데이터 때문에 파일럿 단계에 멈춰 있습니다. 에이전트는 자신이 자동화해야 할 시스템으로부터 명확한 답조차 얻지 못합니다. 그들은 모래 위의 토대에서, 한 벤처비트(VentureBeat) 기사가 표현한 “서로 다른 버전의 현실” 위에서 작동하고 있습니다. 재고 관리를 담당하는 에이전트가 “재고 있음”의 정의를 물류를 담당하는 에이전트와 다르게 갖고 있을 때, 비즈니스 프로세스 전체가 무너집니다.

우리는 끊임없는 인간의 번역과 개입을 요구하는 데이터 아키텍처 위에서 자율 시스템을 구축하려 하고 있습니다. 그것은 실패의 지름길입니다. 문제는 데이터가 부족한 것이 아닙니다. 가트너는 기업 데이터의 단 12%만이 실제로 활용된다고 지적한 바 있습니다. 나머지는 품질 문제, 규제 제약, 또는 레거시 포맷 탓에 사용할 수 없는 채로 갇혀 있습니다. 그 88%는 활용되지 못한 가치의 거대한 저수지이지만, 현재의 도구와 파이프라인으로는 그것을 AI에 쓸 수 있도록 활성화하지 못합니다.

우리 시스템의 설계 그 자체가 이처럼 낮은 AI 데이터 준비도 상태를 영속화하며, 모든 신규 프로젝트를 반복 가능한 절차가 아니라 매번 영웅적인 맞춤형 엔지니어링 사투로 만들어 버립니다.

📃Microsoft Expands Fabric For Enterprise AI, Deepens Nvidia Partnership

파편화된 조직, 파편화된 AI 현실

Section 3: Fragmented Teams, Fragmented AI Reality

데이터 파편화 문제는 단지 기술적인 것이 아니라 조직적인 것입니다. 마케팅 부서는 “리드(lead)”를 한 가지 방식으로 정의합니다. 영업은 또 다른 방식으로 정의합니다. 재무는 매출 인식에 대해 세 번째 정의를 갖고 있습니다. 수십 년 동안 우리는 스프레드시트와 수작업 대사(reconciliation) 회의로 이 차이를 임시방편으로 덮어 왔습니다. 사람이 최종 시맨틱 레이어 역할을 한 것입니다.

AI 에이전트에게는 그런 여유가 없습니다. 2026년 3월 벤처비트(VentureBeat) 분석이 지적했듯, “서로 다른 플랫폼에서 서로 다른 팀이 만든 에이전트들은 비즈니스가 실제로 어떻게 돌아가는지에 대한 공통된 이해를 공유하지 못한다”는 것입니다. 그 결과 끊임없이 서로 의견이 엇갈리는 AI 에이전트 인력이 만들어지고, 혼란스럽고 신뢰할 수 없는 결과로 이어집니다. 이것이 많은 이들이 “비즈니스 로직 환각(business logic hallucination)”이라 부르는 현상의 근본 원인입니다. 이때 AI는 사실을 지어내는 것이 아니라, 일관성 없는 현실에 기반해 학습한 탓에 잘못된 비즈니스 맥락을 적용하는 것입니다.

이는 제가 실무자들로부터 끊임없이 듣는 고충입니다. 해커 뉴스(Hacker News) 토론에서 반복되는 주제는, 다구간 항공편 예약처럼 겉보기엔 단순해 보이는 작업조차 AI 에이전트에게 시키기가 얼마나 어려운가 하는 것입니다. 항공사, 호텔 예약 시스템, 그리고 회사 경비 정책에서 나온 데이터를 서로 조율하지 못하기 때문입니다. 각 시스템은 진실의 한 조각씩만 제공할 뿐, 어느 단일 출처도 자율적 실행에 필요한 완전하고 사용 가능한 맥락을 제공하지 못합니다. 이는 서로 다른 세 가지 설명서로 제품 하나를 조립하려는 것의 디지털 판이라 할 수 있습니다.

이러한 조직적 혼란은 진정한 AI 데이터 준비도를 달성하는 우리의 능력에 직접적인 영향을 미칩니다. 각 사일로 안에서는 세상에서 가장 깨끗한 데이터를 가질 수 있지만, 사일로끼리 같은 언어를 쓰지 않는다면 그 데이터는 어떤 부서 간 AI 이니셔티브에서도 쓸 수 없는 상태로 남습니다. 목표는 단지 데이터를 정제하는 것이어서는 안 됩니다. 모든 에이전트가 실행 기반으로 삼을 수 있는, 단일하고 공유되며 검증 가능한 데이터 현실을 만들어 내는 것이어야 합니다. 그것 없이는 우리는 그저 내부의 혼란을 자동화하는 데 그칠 뿐입니다.

📃Enterprise AI agents keep operating from different versions of reality . Microsoft says Fabric IQ is the fix

파이프라인을 넘어서: AI가 필요로 하는 데이터 실행 아키텍처

Section 4: Beyond Pipelines: The Data Execution Architecture AI Needs

지난 10년 동안 우리가 모든 데이터 문제에 내놓은 해법은 또 하나의 파이프라인을 만드는 것이었습니다. ETL 파이프라인, 리버스 ETL 파이프라인, 그리고 깨지기 쉽고 유지보수가 어려우며 디버깅은 거의 불가능한 복잡한 데이터 변환의 거미줄이 그것입니다. 이처럼 파이프라인 중심의 세계관이 우리의 발목을 잡고 있습니다.

AI는 단지 데이터를 전달받는 것만으로는 충분하지 않습니다. AI는 실행 시점에 일관되고 신뢰할 수 있으며 검증 가능한 상태(state)의 데이터를 필요로 합니다. 컴파일된 프로그램을 떠올려 보십시오. 소스 코드와 라이브러리 뭉치를 고객에게 보내고 알아서 빌드하기를 바라지는 않습니다. 매번 예측 가능하게 실행되는 컴파일된 바이너리를 전달합니다. AI를 위한 우리의 데이터도 똑같이 다뤄져야 합니다.

이를 위해서는 데이터 파이프라인에서 데이터 실행 아키텍처로의 사고 전환이 필요합니다. 목표는 단지 데이터를 옮기는 것이 아니라, 가공되지 않은 사용 불가능한 데이터를 고정되고, 버전이 매겨지며, 특정 AI 모델 실행에 결속된 인증된 AI 준비 상태로 변환하는 것입니다. 이것이 재현성을 보장하는 유일한 방법입니다. 모델이 본 데이터 상태를 정확히 재구성해 모델의 잘못된 결정을 디버깅할 수 있는 유일한 방법이기도 합니다. 그리고 서로 다른 두 AI 에이전트가 같은 버전의 현실에서 작동하도록 보장하는 유일한 방법입니다.

이 접근법은 단순한 데이터 품질 점검을 뛰어넘습니다. 규제 제약을 처리하고, 수집할 수 없는 데이터의 공백을 메우며, 전사적으로 정의를 표준화하는 체계적인 데이터 재구조화 과정을 포함합니다. 이는 모든 AI 운영의 기반이 되는, 확정적이고 사용 가능한 데이터셋, 즉 원본을 대체하는 데이터셋을 만들어 내는 일입니다. 이것이 바로 진정한 AI 데이터 준비도를 매 신규 프로젝트의 전처리 단계로만 취급하지 않고, 조직의 근간에 내재시키는 일의 본질입니다.

CUBIG의 해법

데이터를 쓸 수 없게 만드는 문제, 그리고 안정적인 데이터 상태에 대한 필요야말로 우리가 Syntitan을 만든 이유입니다. Syntitan은 또 하나의 파이프라인 도구나 데이터 품질 대시보드가 아닙니다. Syntitan은 기업용 AI를 위한 신뢰할 수 있는 데이터 실행 아키텍처를 만들도록 설계된 AI 준비 데이터 플랫폼(AI-Ready Data Platform)입니다.

그 과정은 데이터 거버넌스 게이트(Data governance Gate)에서 시작됩니다. 이 첫 번째 계층은 우리의 DTS 엔진과 LLM Capsule 전처리를 활용해 규제 친화적인 데이터 재구조화를 수행합니다. 민감 정보와 PII를 단순히 제거하는 것이 아니라, 사용 가능하고 구조가 보존된 형식으로 변환하여, 제한된 원본 데이터를 노출하지 않고도 모델이 패턴을 학습할 수 있도록 합니다.

이후 데이터는 데이터 품질 및 표준화(Data Quality & Standardization)와 AI 준비 변환(AI-Ready Transformation) 계층을 거칩니다. 바로 여기서 Syntitan은 대부분의 AI 프로젝트를 좌초시키는 고된 작업을 자동화합니다. 결측치, 편향, 불균형 같은 문제를 체계적으로 치유하여, 갇혀 있고 망가진 데이터를 깨끗하고 최적화된 상태로 변환합니다. 이는 일회성 수작업 수정이 아닙니다. 일관성을 보장하는, 반복 가능하고 정책 기반의 프로세스입니다.

마지막이자 가장 핵심적인 계층은 검증 가능한 데이터 상태(Verifiable Data State)로, 우리는 이를 스테이트하우스(Statehouse)라 부릅니다. 여기서 Syntitan은 준비된 데이터를 고유 ID가 부여된 불변의 “릴리스 상태(Release State)”로 고정합니다. 이후 모든 AI 학습 실행이나 추론 호출은 특정 `release_id`에 결속됩니다. 이로써 끊어지지 않는 감사 추적(audit trail)이 만들어집니다. 만약 6개월 뒤 모델이 예기치 못하게 동작한다면, 실행 간 데이터 상태를 즉시 비교(diff)하여 문제를 일으킨 정확한 조건을 재현할 수 있습니다. 이는 우리를 추측에서 확신으로 옮겨 줍니다.

이 아키텍처는 하나의 핵심 신념 위에 세워졌습니다. AI 시스템이 운영 환경에서 실패하는 것은 모델 때문이 아니라 실행 시점의 데이터 상태 때문이라는 것입니다. 그 상태가 검증 가능하고, 깨끗하며, 일관되도록 보장함으로써 Syntitan은 기업용 AI가 그동안 놓쳐 온 안정적인 토대를 제공합니다.

Section 5: Syntitan: AI-Ready Data Platform

자주 묻는 질문

‘검증 가능한 데이터 상태’는 S3나 피처 스토어에서 데이터셋의 버전을 관리하는 것과 어떻게 다른가요?

데이터셋 버전 관리는 훌륭한 첫걸음이지만, 데이터 자체만 추적할 뿐입니다. 검증 가능한 데이터 상태는 여기서 한발 더 나아가, 특정 데이터 “릴리스 상태(Release State)”와 그것을 사용하는 모든 개별 운영 실행 사이에 불변이며 암호학적으로 결속된 연결을 만들어 냅니다. 즉, 데이터가 어떤 모습이었는지뿐 아니라, 어느 버전의 데이터가 어떤 모델에 의해 어떤 결정에 정확히 사용되었는지에 대한 완전하고 감사 가능한 기록을 갖게 되어, 진정한 근본 원인 분석이 가능해집니다.

우리 AI 에이전트가 단순한 사실이 아니라 비즈니스 로직을 ‘환각’하고 있습니다. 데이터를 고치는 것이 어떻게 그 문제를 해결하나요?

이는 파편화된 맥락의 전형적인 증상입니다. 에이전트가 무언가를 “지어내는”것이라기보다, 사일로화된 데이터에서 끌어온 불완전하거나 모순된 비즈니스 현실 이해 위에서 작동하고 있는 것입니다. “고객”이나 “진행 중인 프로젝트”가 일관되게 정의된, 통합되고 사용 가능한 데이터 계층을 만들면 이러한 모순을 발생 지점에서 제거할 수 있습니다. 그러면 AI는 단일 진실 공급원(single source of truth)에서 작동하게 되어, 이런 종류의 맥락적 오류가 크게 줄고 신뢰성이 향상됩니다.

우리 팀은 이미 일에 파묻혀 있습니다. ‘AI 준비 데이터 플랫폼’은 그저 복잡함만 더하는 것 아닌가요?

이는 반응적 복잡성에서 선제적 단순성으로의 전환입니다. 지금 당신의 팀은 불을 끄느라 정신이 없습니다. 파이프라인을 디버깅하고, 프로젝트마다 데이터를 수작업으로 정제하며, 컴플라이언스 감사에 대응하면서 말이죠. Syntitan 같은 플랫폼은 깨끗하고 사용 가능한 데이터 상태의 생성을 자동화합니다. 이는 작업을 반복 가능하고 정책 기반인 시스템으로 앞당겨 처리함으로써 다운스트림의 혼란을 줄이고, 최고의 엔지니어들이 임시방편적 데이터 작업에서 벗어나 비즈니스를 위한 실질적인 AI 가치를 구축하는 데 집중하도록 해 줍니다.

막대한 투자 없이 우리 데이터 팀이 AI 데이터 준비도를 향해 내디딜 수 있는 첫 번째 실천 단계는 무엇인가요?

문서화에 대한 사고방식을 바꾸는 것부터 시작하십시오. 데이터 출처를 그것이 어디에 있는지(예: “Salesforce DB”, “Marketo API”)로만 분류하지 마십시오. 대신, 데이터 출처를 의도한 AI 활용 사례(예: “이탈 예측 모델용 데이터”, “공급망 최적화 에이전트용 데이터”)로 정의하는 새로운 카탈로그를 시작하십시오. 이 작은 전환은 팀이 AI 소비자의 관점에서 데이터를 바라보게 만들어, 현재 접근 방식의 불일치와 공백을 즉시 드러내 줍니다.

Syntitan

T-Challenge 2026 준우승

2026 Gartner Agentic AI 리포트 2건에 인정

AI Insights

배호