EDB Lab

HOME
블로그
EDB Lab
WarehousePG가 단일 클러스터로 처리하는 작업을 타 분석 DB는 여러 클러스터로 처리해야 하는 이유

2026-04-02 / Last updated : 2026-04-02 Grace EDB Lab

WarehousePG가 단일 클러스터로 처리하는 작업을 타 분석 DB는 여러 클러스터로 처리해야 하는 이유

작성자: Dave Stone

작성일: 2026년 3월 31일 (본 포스트는 Jack Christie와 Dave Stone이 공동 작성했으며, 2026년 3월 31일 최신 인사이트를 반영하여 업데이트되었습니다.)

비즈니스 데이터 조회가 예산 초과를 초래할 때

“50TB 규모의 클라우드 데이터 웨어하우스를 조회하는 데 드는 막대한 비용 때문에 골머리를 앓고 있습니다.”

이는 교보문고(Kyobo Book Centre) 정흥식 IT 지원팀장의 말입니다. 최근 기업들 사이에서 이와 유사한 문제가 자주 발생하고 있습니다. 클라우드 데이터 웨어하우스의 종량제(Consumption-based) 과금 모델은 데이터 엔지니어링에 매우 매력적입니다.

하지만 고도화된 동시성 BI 워크로드를 만나면 상황이 달라집니다. 수백 명의 비즈니스 사용자가 동시에 대시보드를 새로고침합니다. 리포트를 심층 분석하고 실시간 쿼리를 실행합니다. 이때 전혀 예측 불가능한 비용이 발생하게 됩니다.

교보문고의 비즈니스 데이터는 50TB를 넘었고 계속 증가 중이었습니다. 소규모 분석팀이 Tableau 사용자들을 지원하고 있었습니다. 게다가 기존 클라우드 데이터 웨어하우스(CDW) 계약도 수년이 남아 있었습니다. 문제는 대시보드 새로고침마다 요금이 부과된다는 점입니다. 분석가의 쿼리 하나하나가 모두 청구서에 추가되었습니다.

성능 유지를 위해 끊임없는 최적화가 필요했습니다. 결국 팀은 인사이트 도출보다 비용 관리에 더 많은 시간을 쏟아야 했습니다. 계약 제약으로 인해 당장 마이그레이션을 할 수도 없었습니다. 그렇다고 종량제 모델을 계속 유지할 수도 없었습니다. 높은 동시성 워크로드를 감당하기엔 비용 부담이 너무 컸기 때문입니다. 말 그대로 진퇴양난이었습니다.

동시성의 과제: BI 워크로드는 왜 확장 방식이 다를까?

클라우드 데이터 웨어하우스는 본래 대규모 데이터 엔지니어링과 예약된 분석 워크로드에 탁월합니다. 주기적인 ETL 작업이나 머신러닝(ML) 학습에는 종량제 모델이 합리적입니다. 리소스를 사용한 뒤 다시 축소할 수 있기 때문입니다.

모던 비즈니스 인텔리전스(BI)의 속도

하지만 최신 분석 환경은 다릅니다. 비즈니스 사용자는 하루 종일 대시보드를 새로고침합니다. 데이터 과학자는 탐색적 쿼리를 실행하고, 재무 분석가는 리포트를 생성합니다. 여기에 AI 에이전트까지 대화형 분석을 위해 쿼리를 발생시킵니다. 이 모든 작업이 동시에 일어납니다.

이 지점에서 최신 클라우드 플랫폼의 아키텍처가 과제를 만듭니다. Nick Akincilar 수석 아키텍트가 이를 분석했습니다. 수십억 개 행의 데이터셋을 대상으로 다수의 BI 사용자가 쿼리를 동시 실행하는 환경을 테스트했습니다. 그 결과, 플랫폼별 동시성 관리 방식에 극명한 차이가 나타났습니다.

리소스 확장: 동일 워크로드에 대해 플랫폼마다 2개에서 5개까지 클러스터 가동 수가 달랐습니다.
대기 시간: 리소스 할당 과정에서 대기 시간이 즉시 실행부터 30초 이상까지 다양했습니다.
쿼리 실패율: 연결 관리 문제로 인해 실패율이 4%에 육박하는 플랫폼도 있었습니다.
비용 차이: 자동 확장 방식의 차이만으로 동일 워크로드에서 비용이 73%나 차이 났습니다.

Akincilar 수석 아키텍트는 지적합니다. “데이터 엔지니어링 비용 1달러를 아끼려다 리소스에 4달러를 더 쓰게 됩니다. 게다가 현업 부서의 대시보드 성능 불만까지 듣게 되는 최악의 상황이 발생합니다.”

AI 시대, 동시성(Concurrency)이 그 어느 때보다 중요한 이유

최신 분석 트렌드의 핵심은 단연 에이전틱 분석(Agentic analytics)입니다. 자율 AI 에이전트가 사람처럼 분석 데이터베이스에 쿼리를 수행합니다. 이는 단순한 사용자 증가를 넘어섭니다. 웨어하우스에 훨씬 막대한 동시성 부하를 가져옵니다.

AI 에이전트가 가져온 압도적인 트래픽

각 에이전트를 ‘초인적인 사용자’로 생각해 보십시오. 수초 만에 수백 개의 쿼리를 작성하고 실행합니다. 그 후 추가 쿼리가 필요한지 스스로 평가합니다. 클라우드 데이터 웨어하우스가 이 속도를 따라가더라도 예산이 먼저 바닥날 것입니다.

이 문제는 NVIDIA GTC 2026에서도 핵심 이슈였습니다. 기반이 되는 데이터 인프라가 기업의 AI 스케일업을 결정짓는다는 공감대가 형성되었습니다. EDB의 자체 연구에 따르면, 프로덕션 규모의 에이전틱 배포를 달성한 기업은 13%에 불과합니다. 하지만 이들은 5배 더 높은 ROI를 거두고 있습니다. 비즈니스 프로세스당 에이전트 밀도도 2배나 높습니다. 병목 현상의 원인은 AI 모델이 아닙니다. 바로 데이터입니다.

아키텍처가 동시성 워크로드에 미치는 영향

최신 클라우드 데이터 웨어하우스는 탄력적 워크로드를 위해 구축되었습니다. 갑작스러운 수요 급증 시 추가 클러스터를 가동하여 대응합니다. 그리고 사용한 만큼만 비용을 청구합니다.

새벽 2시의 배치 작업이나 매주 진행되는 ML 학습에는 이 방식이 완벽합니다. 변동성이 큰 작업에는 변동 요금제가 당연히 적합합니다.

예측 가능한 BI와 탄력적 요금제의 불일치

하지만 BI 워크로드는 변동성이 크지 않습니다. 에이전트를 도입하더라도 전반적인 패턴은 매우 예측 가능합니다. 업무 시간 동안 대략 몇 명이 데이터를 조회할지 알 수 있습니다. 탄력적 요금제는 일시적이고 거대한 수요 급증에 최적화되어 있습니다. 반면 AI 에이전트의 트래픽은 기본 동시성의 예측 가능하고 지속적인 증가를 의미합니다.

핵심 문제는 여기서 발생합니다. 변동성 워크로드용 플랫폼이 예측 가능한 동시성 패턴을 만나면 예측 불가능한 비용이 됩니다. 실제 사용 패턴은 변하지 않았습니다. 단순히 동시 접속자가 많을 뿐입니다. 그럼에도 클러스터가 늘어나 청구서 금액이 치솟습니다.

McKnight Consulting Group의 2026년 2월 벤치마크가 이를 수치로 증명합니다. 최고 동시성 처리를 위해 Snowflake를 3개의 멀티 클러스터로 확장했습니다. 이때 연간 비용은 $351,953에 달했습니다. 동일한 분석 워크로드를 처리한 WarehousePG($222,886)보다 58%나 높은 금액입니다.

원리는 간단합니다. 탄력적 인프라는 탄력적 비용을 창출합니다. 탄력적이지 않은 워크로드에 이를 적용하는 것은 근본적인 불일치입니다.

Figure 1: Snowflake 멀티 클러스터 비용은 주당 20시간의 과부하 상태를 가정했습니다. 3개의 웨어하우스로 확장(연간 1,040시간)하고, 10TB의 원시 데이터를 압축한 환경입니다. EMR Hive + Trino 조합은 동시성 워크로드 테스트를 완료하지 못해 비용 스냅샷에서 제외되었습니다.

Postgres의 대안: 예측 가능한 성능과 비용

Postgres 기반 데이터 웨어하우스는 접근 방식이 근본적으로 다릅니다. MPP(대규모 병렬 처리) 아키텍처를 기반으로 합니다. 다중 클러스터 오케스트레이션 없이도 동시성 워크로드를 원활하게 처리합니다.

Figure 2: MPP 아키텍처는 여러 독립적인 세그먼트 호스트에 데이터와 작업을 분배하여 성능을 확장합니다. 세그먼트 코디네이터가 최적의 실행 계획을 수립합니다. 각 세그먼트는 할당된 데이터를 동시에 처리합니다(예: 16개 세그먼트가 각각 100만 행 처리).

업계 표준 벤치마크 테스트 결과

McKnight Consulting Group은 2026년 2월 벤치마크 테스트를 진행했습니다. 10TB TPC-DS 데이터셋을 사용했습니다. WarehousePG를 Snowflake, Databricks, Redshift, Hive on Apache Iceberg와 비교했습니다.

결과는 매우 인상적이었습니다. 동시성 부문에서 WarehousePG는 가장 낮은 성능 저하율(2.7배)을 기록했습니다. 1명에서 5명의 동시 사용자로 확장할 때의 결과입니다. 반면 Snowflake는 3.9배, Redshift는 4.0배, Databricks는 4.1배의 성능 저하를 보였습니다. 둔화율이 낮다는 것은 분석가와 에이전트가 증가해도 사용자 경험이 일관됨을 의미합니다.

Figure 3: 테스트된 클라우드 플랫폼은 모두 유사한 엔터프라이즈급 구성으로 진행되었습니다. Hive on Iceberg는 메모리 오류로 실패하여 동시성 테스트에서 제외되었습니다.

미션 크리티컬 오퍼레이션에서는 이러한 안정성이 매우 중요합니다. 대형 커넥티드 TV 광고 기술 플랫폼 MNTN이 그 예입니다. 이들은 페타바이트 규모의 데이터를 관리하며 오랜 기간 Postgres 기반 데이터 웨어하우스를 사용해 왔습니다. 오픈소스 대안과 엔터프라이즈 파트너가 필요했던 이들은 EDB Postgres AI for WarehousePG를 선택했습니다.

MNTN 데이터 부문 총괄 Greg Spiegelberg는 이렇게 평가합니다. “성능도 뛰어나고 안정성도 높습니다. 기술 지원도 매우 즉각적입니다. 한밤중에 장애를 복구하느라 홀로 오픈소스를 고치지 않아도 된다는 점이 정말 만족스럽습니다.”

알려진 워크로드에는 단순함이 정답입니다

매일 반복되는 대시보드 새로고침과 정기적인 리포팅이 있습니다. 이처럼 일관된 BI 워크로드가 보장된다면 리스크가 큰 인프라 교체가 필요 없습니다. 가장 중요한 차이는 바로 ‘예측 가능성’입니다.

종량제 vs 용량 기반 요금제

종량제 플랫폼: 변동 워크로드에 최적화되어 있습니다. 사용량에 따라 과금되지만 숨겨진 변수가 많습니다. 자동 확장 공격성, 대기 시간, 생성되는 클러스터 수에 따라 요금이 널뜁니다.
용량 기반 플랫폼: 알려진 워크로드에 최적화되어 있습니다. 동시성 요구에 맞춰 코어를 프로비저닝합니다. 쿼리 수에 상관없이 항상 동일한 비용을 지불합니다. 피크타임에 타 플랫폼이 추가 클러스터를 가동할 때도 비용은 평탄하게 유지됩니다.

유연성 세금(Flexibility Tax)의 함정

McKnight 보고서는 이를 “유연성 세금”이라고 칭합니다. 기업이 세분화된 Best-of-breed 스택을 유지할 때 발생하는 비용입니다. 점차 이 비용이 데이터에서 얻는 인사이트 가치를 압도하게 됩니다.

에이전틱 워크로드가 늘어날수록 이 세금도 눈덩이처럼 불어납니다. AI 에이전트의 확장이 단순히 청구서 금액만 높이는 것이 아닙니다. 비용 폭탄을 피하기 위해 현업의 데이터 분석 자체를 제한하게 됩니다. 보고서는 이를 “고장난 계량기” 효과라고 꼬집었습니다.

무중단 마이그레이션과 데이터 통제권

전환한다고 해서 기존 인프라를 완전히 갈아엎을 필요는 없습니다. WarehousePG는 Postgres 기반입니다. 기존 팀의 SQL 기술을 즉시 활용할 수 있습니다. 이미 Greenplum을 운영 중이라면 몇 시간 만에 무중단 바이너리 교체(Zero-migration binary swap)가 가능합니다.

유럽의 대형 시장 인프라 기업 Euronext FX도 벤더 종속을 없애기 위해 이 방식을 택했습니다. 전 세계 4개 데이터 센터에서 원활한 시스템 스왑을 완료했습니다. 데이터 통제권과 엔터프라이즈 지원을 동시에 확보했습니다.

데이터 레지던시 규제가 엄격해지는 현대 비즈니스에서 통제권은 필수입니다. 성능 희생 없이 데이터의 정확한 위치와 접근 권한을 파악해야 합니다.

나아가 대규모 BI 워크로드도 확신을 갖고 실행할 수 있습니다. 워크로드 관리 기능이 핵심 쿼리를 항상 우선 처리합니다. pgvector를 통해 데이터 이동 없이 AI 모델을 직접 학습시킵니다. 데이터 레이크 연합 쿼리로 복잡한 ETL 없이도 데이터 사일로를 허물 수 있습니다.

성공적인 전환을 위한 향후 방향

동시성이 높은 BI 환경에서 예측할 수 없는 비용 문제로 고심 중이신가요? 여러분만의 문제가 아닙니다. 데이터 엔지니어링에 매력적이었던 종량제 모델이 BI 환경에서는 전혀 다른 경제성을 만들어냅니다.

이제 세 가지 선택지가 있습니다.

현재 플랫폼 최적화 (워크로드 관리, 자동 확장 정책 조정 등)
변동 비용 수용 (클라우드 유연성에 대한 대가 지불)
용량 기반 요금제 도입 (검증된 아키텍처로 예측 가능성 확보)

교보문고는 세 번째 길을 선택했습니다. 이들은 데이터 주권 유지를 위해 데이터는 기존 클라우드(VPC)에 그대로 두었습니다. 대신 분석 쿼리만 코어당 요금제인 EDB Postgres AI for WarehousePG를 거치도록 라우팅했습니다.

결과적으로 비용은 철저히 예측 가능해졌습니다. 소규모 팀의 운영은 단순해졌고, Tableau 직접 연결로 성능도 크게 높아졌습니다. AI 기반 고객 경험 서비스로 확장할 수 있는 탄탄한 인프라도 갖추게 되었습니다.

최신 클라우드 플랫폼의 확장성은 의심할 여지가 없습니다. 진짜 질문은 이것입니다. ‘예측 가능한 성능과 비용이 필요한 상황에서, 굳이 여러 클러스터에 대한 탄력적 확장 비용을 지불해야 하는가?’

벤치마크 결과가 증명하듯 해답은 하이브리드입니다. 대규모 데이터 과학과 탐색적 분석은 클라우드 네이티브로 처리하십시오. 하지만 일상적인 상시 가동형 고동시성 BI 워크로드는 WarehousePG에 맡기는 것이 기업을 위한 최적의 선택입니다.

Postgres 기반 분석이 고동시성 워크로드를 어떻게 처리하는지 더 자세히 알아보십시오. EDB 전문가 팀에 워크로드 진단을 직접 문의해 보셔도 좋습니다.

메일: salesinquiry@enterprisedb.com

02-501-5113

문의 하기

Visited 9 times, 1 visit(s) today

카테고리: EDB Lab

Tags: BI워크로드 EDB MPP아키텍처 PostgreSQL warehousepg 데이터웨어하우스 비용최적화

Technical Blog

2026-03-30