💡 스타트업·투자 💰 지원사업 🚀 K-Startup 🏦 정책자금 🏛 나라장터 📰 보도자료 📋 정책뉴스
💡 스타트업·투자
F5-엔비디아, AI 추론 인프라 고도화… ‘토큰 경제’ 최적화 본격화

F5-엔비디아, AI 추론 인프라 고도화… ‘토큰 경제’ 최적화 본격화

F5와 엔비디아가 협력해 AI 추론 인프라 성능을 높이고 토큰 처리 효율을 개선하는 기능을 공개했다. GPU 활용도를 극대화해 비용을 낮추고 AI 서비스 수익성을 강화하는 데 초점을 맞췄다. The post F5-엔비디아, AI 추론 인프라 고도화… ‘토큰 경제’ 최적화 본격화 appeared first on 벤처스퀘어.
#스타트업뉴스 #벤처스퀘어

-블루필드-3 DPU 결합… 토큰 처리량 최대 40%↑·지연 시간 단축

-GPU 활용도 극대화로 비용 절감… 멀티테넌트 AI 인프라 구현 지원

글로벌 애플리케이션 전송·보안 기업 F5 로고 (자료 제공: F5)
글로벌 애플리케이션 전송·보안 기업 F5가 엔비디아와 협력해 AI 추론 인프라 성능과 효율을 강화하는 기능을 공개했다.

이번 협업은 F5의 ‘BIG-IP Next for Kubernetes’와 엔비디아 ‘블루필드-3 DPU’를 결합한 형태로, GPU 자원 활용도를 높이고 토큰 처리 효율을 개선하는 데 초점을 맞췄다. 이를 통해 AI 서비스 운영에서 핵심 지표로 떠오른 토큰 처리량과 비용 구조를 동시에 최적화한다는 전략이다.

토큰 처리 최적화로 ‘AI 수익성’ 직접 개선
AI 인프라 경쟁은 단순한 GPU 확장 수준을 넘어 ‘토큰 경제’ 중심으로 재편되고 있다. 토큰 생성 속도와 처리량, 최초 응답 시간, 토큰당 비용 등이 실제 서비스 수익성과 직결되기 때문이다.

F5와 엔비디아의 통합 솔루션은 텔레메트리 기반 데이터를 활용해 워크로드를 실시간으로 최적의 가속기에 배치하고, 추론 성능을 사전에 반영한 지능형 라우팅을 수행한다. 이를 통해 지연 시간을 줄이고 재처리를 최소화하는 구조를 구현했다.

실제 테스트에서도 성능 개선이 확인됐다. 블루필드-3 DPU 기반 환경에서 토큰 처리량은 최대 40% 증가했고, 최초 토큰 생성 시간은 61% 단축됐으며, 응답 지연 시간 역시 34% 감소했다.

이러한 구조는 네트워크 처리, 보안, 트래픽 관리 기능을 DPU로 분산함으로써 GPU가 추론 작업에 집중할 수 있도록 설계된 것이 특징이다. 결과적으로 동일 인프라에서도 더 높은 처리량과 낮은 비용 구조를 구현할 수 있다.

또한 멀티테넌트 환경에서도 안정적인 운영이 가능하도록 네트워크 수준의 격리와 보안 기능을 강화했으며, 에이전트 기반 AI 워크플로우에 대응하는 지능형 트래픽 제어 기능도 함께 제공된다.

양사는 이번 기술을 통해 AI 인프라를 단순 실행 환경이 아닌 ‘수익을 창출하는 플랫폼’으로 전환하는 데 기여하겠다는 입장이다.

The post F5-엔비디아, AI 추론 인프라 고도화… ‘토큰 경제’ 최적화 본격화 appeared first on 벤처스퀘어.

🔗 원문 공고 바로가기

외부 기관의 공식 페이지로 이동합니다. 최신 정보는 원문을 확인하세요.

← 목록으로
🔗 링크가 복사되었습니다