GPU 독주 흔든다…모레, 텐스토렌트 기반 LLM 추론 성능 ‘DGX급’ 입증 성공

AI 인프라 기업 모레가 텐스토렌트 기반 시스템에서 대형언어모델(LLM) 추론 성능을 입증하며 GPU 중심 구조에 대한 대안 가능성을 제시했다. 성능과 비용 효율을 동시에 확보했다는 점에서 의미가 크다.

모레는 텐스토렌트 ‘갤럭시 웜홀’ 시스템에 자사 ‘MoAI 추론 프레임워크’를 적용해 GPT-OSS, Qwen, GLM, DeepSeek 등 최신 MoE 모델 기준 테스트에서 엔비디아 DGX A100급 이상의 성능을 달성했다고 밝혔다. 이는 기존 GPU 기반 인프라와 경쟁 가능한 수준으로 평가된다.

TT-Deploy 행사 현장 (사진 제공: 모레)
GPU·NPU 혼합 구조로 비용 낮춘 ‘이종 분산 서빙’ 전략
이번 성과의 핵심은 GPU와 텐스토렌트 칩을 결합한 ‘이종 분산 서빙’ 구조다. 모레는 텐스토렌트 칩을 입력 처리(prefill) 전용 가속기로 활용해 고비용 HBM 사용을 줄이고 전체 인프라 비용을 절감했다.

해당 기술은 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사 ‘TT-Deploy’에서 처음 공개됐으며, 현장 데모를 통해 실제 데이터센터 환경에서의 적용 가능성도 확인했다. 모레는 AMD GPU 운영 경험을 기반으로 프로덕션 수준의 LLM 추론 환경을 구현했다고 설명했다.

MoAI 프레임워크는 엔비디아, AMD, 텐스토렌트 등 다양한 GPU·NPU를 단일 클러스터에서 통합 운영할 수 있는 구조로, 특정 벤더에 종속되지 않는 유연한 AI 인프라 구축을 지원한다.

조강원 대표는 “이번 성과는 텐스토렌트 기반에서도 실서비스 수준의 성능과 안정성을 확보했다는 데 의미가 있다”며 향후 이종 GPU 간 최적화와 NPU 통합을 통해 추가 성능 개선을 추진하겠다고 밝혔다.

The post GPU 독주 흔든다…모레, 텐스토렌트 기반 LLM 추론 성능 ‘DGX급’ 입증 성공 appeared first on 벤처스퀘어.