EDB Postgres AI와 Greenplum 호환성을 통한 데이터 웨어하우스 현대화
Dunith Danushka
2025년 4월 10일
이 블로그는 두니스 다누쉬카(Dunith Danushka)와 오크 바렛(Oak Barrett)이 공동 작성했습니다.
EDB Postgres AI – Support for Greenplum Workloads와 WarehousePG를 활용한 Postgres 기반 데이터 웨어하우스 현대화 기술 가이드
최근 EDB는 Greenplum Database의 새로운 Apache 라이선스 기반 포크(fork)인 WarehousePG와 함께 EDB Postgres AI – Support for Greenplum Workloads를 공식 출시했습니다. Greenplum이 소스 폐쇄 모델로 전환됨에 따라 신뢰할 수 있는 대안을 찾고 있는 기업들에게 EDB Postgres AI – Support for Greenplum Workloads와 WarehousePG는 기존 투자를 보호하면서 리스크를 최소화할 수 있는 최적의 솔루션입니다.
이번 블로그에서는 EDB의 데이터 웨어하우스 현대화 솔루션의 기반이 되는 Greenplum의 역사와 새로운 오픈소스 포크인 WarehousePG에 대해 기술적으로 깊이 있게 살펴봅니다. 또한 Greenplum과 WarehousePG의 기술 아키텍처, 대규모 병렬 처리(MPP), Postgres 호환성 등 핵심 개념을 통해 왜 EDB Postgres AI – Support for Greenplum Workloads가 기존 Greenplum 투자 자산을 보호하면서도 오픈소스 혁신을 수용할 수 있는 최적의 대안인지 설명합니다. 이를 통해 기업들은 벤더 종속 리스크를 줄이고, 기존 Greenplum 인프라와 역량을 그대로 활용하면서 총소유비용(TCO)을 낮출 수 있습니다.
Greenplum Database란 무엇이며, 어떻게 발전해왔는가?
Greenplum은 엔터프라이즈 데이터 웨어하우스 시장에서 대규모 분석 워크로드 처리 방식을 혁신적으로 변화시켜온 대표적인 MPP 기반 Postgres 데이터베이스 시스템입니다. 페타바이트 규모의 방대한 데이터를 처리·분석하는 방식에 새로운 기준을 제시하며, Postgres 아키텍처를 기반으로 분산 데이터베이스 시스템의 성능과 확장성을 크게 향상시켜왔습니다.
Greenplum의 개발 주체 변화는 제품의 발전과 배포 방식에도 큰 전환점을 가져왔습니다. 초기에는 Greenplum Corporation이 개발하였고, 2010년 EMC Corporation이 이를 인수했습니다. 이후 2012년 EMC와 VMware가 합작하여 Pivotal을 설립하면서 Greenplum은 오픈소스 프로젝트로서 본격적인 혁신과 커뮤니티 협업이 이루어졌습니다.
2020년 VMware가 Pivotal과 Greenplum을 인수한 이후에도 오픈소스 프로젝트로서의 전통은 이어졌으나, 2023년 Broadcom이 VMware를 인수하면서 Greenplum은 소스 폐쇄 모델로 전환될 예정임을 발표하게 됩니다.
Greenplum 주요 변화 이력

시기 | 주요 이벤트 |
---|---|
2010 | EMC가 Greenplum 인수 |
2012 | EMC와 VMware, Pivotal 설립, Greenplum 오픈소스 프로젝트로 성장 |
2020 | VMware가 Pivotal 및 Greenplum 인수 |
2023 | Broadcom이 VMware 인수 후 Greenplum 소스 폐쇄 전환 계획 발표 |
Greenplum 소스 폐쇄 전환이 가져온 주요 과제
이번 소스 폐쇄 전환은 기존 Greenplum 사용자들에게 여러 가지 심각한 과제를 안겨주었습니다.
- 기술 수명 종료(EOL) 리스크: 기존 오픈소스 버전 사용 시 보안 취약점 및 호환성 문제가 누적될 가능성
- 벤더 종속(Vendor Lock-in) 리스크: 새로운 폐쇄형 소스 모델 도입 시 예상치 못한 지원 정책 변화 및 비용 증가 리스크 발생
- 비즈니스 연속성 리스크: 어떤 선택을 하더라도 비즈니스 크리티컬 시스템과 기존 Greenplum 투자 자산에 대한 리스크 존재
- 혁신 한계: 폐쇄형 모델 도입으로 커스터마이징 및 커뮤니티 기여가 제한되며, 최적화 및 기능 개발 한계 발생
- 데이터 마이그레이션 압박: 기존 사용자들은 새로운 조건을 수용하거나 비용 부담이 큰 대체 솔루션 전환을 강요받게 됨
이러한 과제들로 인해 많은 기업들이 데이터 웨어하우스 전략을 재검토하고 있으며, 예측 가능한 비용 구조와 데이터 인프라에 대한 더 큰 통제력을 제공하는 대안을 찾고 있습니다.
바로 이러한 환경에서 EDB Postgres AI – Support for Greenplum Workloads는 보안성과 Greenplum 호환성을 갖춘 오픈소스 대안으로 주목받고 있습니다.
EDB Postgres AI – Support for Greenplum Workloads가 최적의 대안인 이유
EDB Postgres AI – Support for Greenplum Workloads는 기존 Greenplum 고객이 WarehousePG로 무중단 전환할 수 있도록 지원하는 솔루션입니다. Greenplum 6.x 및 7.x 버전과의 바이너리 호환성 덕분에 별도의 리스킬링이나 애플리케이션 리팩토링 없이 데이터 웨어하우스 현대화를 빠르게 추진할 수 있습니다.
또한 EDB는 24×7 장애 조치 지원, 보안 취약점(CVE) 패치, EDB 서명 패키지를 제공하여 안전한 오픈소스 공급망을 보장합니다.
WarehousePG는 기존 Greenplum에서 제공하지 않았던 고급 분석 및 AI 활용 기능, Postgres 확장성과 같은 혁신적인 기능을 제공하여 데이터 기반 비즈니스 혁신을 가속화할 수 있도록 지원합니다.
기술 심층 분석: WarehousePG와 Greenplum 아키텍처 및 핵심 기능
MPP(Massively Parallel Processing) 아키텍처와 분산 쿼리 처리 방식
MPP는 여러 프로세서가 동시에 하나의 프로그램을 실행하는 구조로, 데이터베이스 시스템에서는 대용량 데이터를 여러 독립 노드에 분산 처리하여 성능과 확장성을 극대화하는 방식입니다.
Greenplum은 바로 이러한 MPP 아키텍처 기반으로 설계된 데이터베이스이며, WarehousePG 역시 Greenplum을 기반으로 포크(fork)된 오픈소스 제품으로 동일한 아키텍처를 따릅니다. MPP는 대규모 데이터 분석 처리를 위해 최적화된 구조로, Coordinator 노드와 여러 Segment 노드로 구성됩니다.
- Coordinator 노드는 클라이언트 연결 진입점이며, 쿼리 실행 계획 수립 및 분산 처리 작업을 총괄하는 역할을 합니다. 또한 시스템 메타데이터를 관리하며 쿼리 제출 및 결과 집계를 처리합니다.
- Segment 노드는 실질적인 데이터 처리와 저장을 담당하며, 각 노드는 독립적인 Postgres 데이터베이스로 동작합니다. 일반적으로 서버 사양에 따라 하나의 Segment 노드에는 2개 이상의 Segment 프로세스가 실행됩니다.
사용자가 쿼리를 제출하면 Coordinator 노드는 최적화된 실행 계획을 수립하여 전체 Segment에 작업을 분배하고, 각 Segment는 자신에게 할당된 데이터를 병렬로 처리한 후 그 결과를 Coordinator 노드로 다시 집계해 반환합니다.
이러한 병렬 처리 구조 덕분에 WarehousePG는 페타바이트 규모의 방대한 데이터를 효율적으로 처리할 수 있습니다. 최적의 성능 확보를 위해 모든 Segment 노드는 동일한 하드웨어 스펙으로 구성하는 것이 권장됩니다.

장애 대응 및 고가용성 아키텍처
Coordinator 노드 장애 시 동작 방식
WarehousePG는 고가용성을 보장하기 위해 Standby Coordinator 노드를 통한 자동 장애 조치(failover) 기능을 제공합니다. Standby Coordinator는 Primary Coordinator의 데이터와 메타데이터를 Write-Ahead Logging(WAL) 스트리밍 복제를 통해 실시간 동기화하며, Primary Coordinator 장애 발생 시 자동으로 주 노드로 승격됩니다. 이러한 Warm Standby 방식은 시스템 성능 저하 없이 안정적인 장애 복구를 제공합니다.

Segment 노드 장애 시 동작 방식
Segment 레벨에서도 미러링(mirroring) 기능을 통해 장애 대응이 가능합니다. 각 Primary Segment에는 동일한 데이터를 보유한 Mirror Segment가 별도의 호스트에 구성되어 있어 Primary Segment 장애 발생 시 자동으로 Mirror Segment로 장애 조치가 이루어집니다.
Greenplum과 WarehousePG는 다음 두 가지 미러링 구성 옵션을 지원합니다.
- Group Mirroring: Mirror Segment를 하나의 백업 호스트에 집중 배치
- Spread Mirroring: Mirror Segment를 여러 호스트에 분산 배치해 가용성 강화

고속 네트워크 통신 구조
Coordinator와 Segment 간의 빠르고 안정적인 통신은 대규모 병렬 처리 쿼리의 성능에 핵심적인 역할을 합니다. WarehousePG는 Greenplum Interconnect라는 네트워크 계층을 통해 노드 간 통신과 데이터 분산, 쿼리 결과 집계 작업을 처리합니다. Interconnect는 MPP 아키텍처의 신경망과 같은 역할을 수행하며, 전체 클러스터 내 데이터 흐름을 최적화합니다.
Postgres 호환성
WarehousePG는 Postgres와 높은 수준의 바이너리 호환성을 제공합니다. 이는 단순히 SQL 문법을 지원하는 수준을 넘어 다음과 같은 주요 Postgres 기능들을 그대로 사용할 수 있음을 의미합니다.
- CTE(Common Table Expressions)
- 윈도우 함수(Window Functions)
- 고급 인덱싱 기능
- Postgres 확장(Extension) 사용
이를 통해 기존에 사용하던 Postgres 클라이언트 툴(psql, pgcli 등)을 그대로 활용할 수 있으며, 다음과 같은 명령어로 WarehousePG에 접속할 수 있습니다.
psql -h hostname -p 5432 -d database -U username
Postgres의 방대한 생태계와 확장 기능을 그대로 활용할 수 있으며, 특화된 워크로드를 위한 커스텀 확장 개발도 지원합니다.
대표적인 확장 모듈
확장 모듈 | 설명 |
---|---|
PL/R | R 언어 기반 데이터베이스 함수 작성 및 R 패키지 활용 |
PL/Java | Java 메서드를 데이터베이스 함수로 작성 및 실행 |
MADlib | Apache 오픈소스 기반의 머신러닝·딥러닝 분석 라이브러리 |
PXF | 외부 데이터를 WarehousePG 테이블 정의에 매핑하여 접근 가능 |
WarehousePG는 이러한 친숙한 Postgres 인터페이스 덕분에 개발자와 DBA들이 별도의 재학습 없이 기존 Postgres 기술 역량을 그대로 활용할 수 있는 장점이 있습니다.
추가 패키지 및 엔터프라이즈 지원
WarehousePG는 Greenplum의 상용 모듈들을 대체할 수 있는 새로운 개발 기능, 파트너 솔루션, EDB Postgres AI와의 통합 기능 등을 제공합니다. EDB는 글로벌 24×7 기술 지원 서비스를 통해 안정적인 운영을 보장합니다.
Greenplum에서 WarehousePG로 전환하는 방법
WarehousePG는 기존 인프라를 그대로 유지하면서 Greenplum 환경을 안전하게 현대화할 수 있도록 설계되었습니다. 데이터 마이그레이션에 따른 리스크나 비용 없이 빠르게 전환할 수 있으며, 전환 절차도 매우 간단합니다.
- 기존 Greenplum 프로세스 중지
- 기존 패키지 제거
- WarehousePG 패키지 설치
- 데이터베이스 재시작
포트 설정, 기존 AI/BI/DBA 툴셋, 정기적인 관리 작업 등 기존 시스템 구성 변경 없이 바로 적용할 수 있습니다.
또한 Greenplum 6.x와 같은 구버전 사용 고객은 EDB 프로페셔널 서비스의 업그레이드 지원을 통해 바이너리 교체 후 WarehousePG 7.x로 손쉽게 전환할 수 있습니다. 이를 통해 Postgres 호환성과 고급 기능을 강화하면서 비즈니스 연속성을 유지할 수 있습니다.

결론
이번 기술 심층 분석을 통해 Greenplum이 엔터프라이즈 데이터 웨어하우스 솔루션으로서 어떻게 발전해왔는지 살펴보았으며, EDB Postgres AI – Support for Greenplum Workloads가 기존 Greenplum 사용자에게 가장 적합한 대안이 될 수 있는 이유를 소개했습니다. 특히 Apache 라이선스 기반의 WarehousePG로 손쉽게 전환할 수 있다는 점에서 그 가치를 확인할 수 있습니다.
WarehousePG는 MPP(Massively Parallel Processing) 아키텍처를 기반으로 대규모 데이터셋을 효율적으로 병렬 처리할 수 있도록 설계되었습니다. 또한 강력한 Postgres 호환성을 제공해 기존 데이터베이스 도구나 워크플로우와의 통합이 용이하며, 다양한 Postgres 확장 기능을 그대로 활용할 수 있습니다.
여기에 EDB의 엔터프라이즈급 기술 지원 및 보안 역량이 더해지면 EDB Postgres AI – Support for Greenplum Workloads는 현대적 데이터 분석 환경을 위한 종합적이고 신뢰할 수 있는 솔루션이 됩니다.
Greenplum에서 WarehousePG로의 전환 방법에 대해 더 자세히 알아보고 싶다면 EDB Postgres AI – Support for Greenplum Workloads 제품 페이지를 방문하거나 GitHub 저장소를 참고해 보세요.
기술 전문가와 상담하고 무상 워크로드 진단을 받아보고 싶다면 언제든지 문의해 주시기 바랍니다.
안내사항
Greenplum®은 Broadcom Inc.의 등록 상표입니다. EDB 및 EDB Postgres AI는 Broadcom Inc.와 아무런 제휴, 후원 또는 승인 관계가 없습니다. 본 문서에서 Greenplum에 대한 언급은 비교, 교육, 상호운용성 목적을 위한 것입니다.
원문:Data warehouse modernization with EDB Postgres AI and Greenplum compatibility