데이터·AI 기업 데이터브릭스(Databricks)가 실시간 분석 기능을 레이크하우스 환경에서 직접 구현할 수 있는 ‘Lakehouse//RT(Real-time)’를 공개했다. 데이터브릭스는 기업이 별도의 실시간 서빙 시스템을 구축하지 않고도 델타 레이크(Delta Lake)와 아파치 아이스버그(Apache Iceberg) 기반 데이터에서 실시간 분석을 수행할 수 있도록 지원하는 Lakehouse//RT를 발표했다.
이번에 공개된 Lakehouse//RT는 데이터브릭스가 새롭게 개발한 실시간 컴퓨팅 엔진 ‘레이든(Reyden)’을 기반으로 동작한다. 수만 명의 동시 사용자와 AI 에이전트 환경을 지원하도록 설계됐으며 밀리초 단위 응답 속도를 제공하는 것이 특징이다.
데이터브릭스, ‘LakehouseRT’ 로고 (자료 제공: 데이터브릭스)
AI 에이전트 시대 겨냥한 실시간 레이크하우스
그동안 기업들은 실시간 분석을 구현하기 위해 레이크하우스 외에 별도의 서빙 레이어를 구축해야 했다. 하지만 이 과정에서 데이터 복제와 동기화, CDC(Change Data Capture) 파이프라인 구축, 별도 권한 관리, 벤더 종속성 등 다양한 문제가 발생했다. 특히 AI 에이전트가 기업 데이터를 실시간으로 활용해야 하는 환경에서는 이러한 구조가 성능과 운영 측면 모두에서 한계로 지적돼 왔다.
데이터브릭스는 Lakehouse//RT를 통해 이러한 복잡성을 제거하고 거버넌스가 적용된 데이터에 직접 실시간 접근할 수 있도록 설계했다고 설명했다. 사용자는 데이터를 별도로 이동하거나 복제하지 않고도 최신 데이터에 접근할 수 있으며, 모든 쿼리는 유니티 카탈로그(Unity Catalog)의 거버넌스 체계 안에서 실행된다.
데이터브릭스에 따르면 Lakehouse//RT는 표준 분석 벤치마크 환경에서 초당 1만2천 건의 쿼리를 처리하면서도 100밀리초 미만의 응답 시간을 기록했다. 고객사 테스트에서는 기존 실시간 서빙 스택 대비 최대 16배 향상된 성능을 확인했다.
Lakehouse//RT의 핵심은 레이든 엔진이다. 레이든은 완전 비동기식 실행 구조를 적용해 소규모 데이터 세트에서는 최저 10밀리초 수준의 응답 속도를 구현하고, 대규모 데이터 세트에서도 100밀리초 이하의 지연 시간을 유지한다. 또한 단순 조회성 워크로드뿐 아니라 복잡한 분석 작업까지 지원할 수 있도록 설계됐다.
데이터브릭스 공동창업자이자 CEO인 알리 고드시는 “지난 10년 동안 데이터 엔지니어링과 데이터 사이언스, 데이터 웨어하우징을 단일 개방형 플랫폼으로 통합해 왔다”며 “Lakehouse//RT는 여기에 밀리초 단위 속도 계층을 추가하며 레이크하우스의 진화를 완성하는 기술”이라고 말했다. 이어 “데이터 웨어하우스의 미래가 레이크하우스였던 것처럼 실시간 분석 엔진의 미래 역시 레이크하우스가 될 것”이라고 강조했다.
실제 고객사들도 성능 개선 효과를 확인하고 있다. 시스코는 위협 탐지 분석 환경에서 기존 대비 최대 5배 빠른 응답 속도를 경험했으며, 매그나이트는 주요 대시보드 쿼리를 200밀리초 이하로 유지하면서 데이터 파이프라인 운영 복잡성을 크게 줄였다고 밝혔다.
한편 Lakehouse//RT는 현재 베타 버전으로 제공되고 있으며, 데이터브릭스는 향후 AI 에이전트와 실시간 데이터 활용이 확대되는 환경에서 핵심 인프라로 자리 잡을 것으로 기대하고 있다.
The post 실시간 분석도 레이크하우스에서…데이터브릭스, ‘Lakehouse//RT’ 공개 appeared first on 벤처스퀘어.