본문으로 건너뛰기

"클라우드" 태그로 연결된 2개 게시물개의 게시물이 있습니다.

모든 태그 보기

최대 432GB 메모리, PRO5000 GPU서버 출시

· 약 7분

compute분류 신규상품

NVIDIA 최신 아키텍처 기반의 PRO5000 GPU서버를 출시했습니다.
단일 GPU당 14,080개의 CUDA 코어와 48GB의 차세대 GDDR7-ECC 메모리를 탑재했습니다.
이를 통해 Gemma, GPT-OSS 등 최신 오픈소스 추론 모델은 물론, 대규모 파라미터의 모델까지 안정적이고 빠른 속도로 서빙할 수 있습니다.


PRO5000 서버 라인업

PRO5000 시리즈는 고성능 Blackwell 아키텍처 GPU를 기반으로 사용자의 워크로드 규모에 맞춰 세 가지 플랜을 제공합니다.

상품명GPURAM(DRAM + VRAM)vCPUMemoryStorage(OS)Traffic가격(부가세 별도)
PRO50.0.G11108GB (DRAM 60GB + VRAM 48GB)8 vCPU60GB100GB620GB/월25,750원/일 (695,000원/월)
PRO50.0.G22216GB (DRAM 120GB + VRAM 96GB)16 vCPU120GB100GB620GB/월51,500원/일 (1,390,000원/월)
PRO50.0.G44432GB (DRAM 240GB + VRAM 192GB)32 vCPU240GB100GB620GB/월103,000원/일 (2,780,000원/월)

최대 864GB 메모리, PRO6000 GPU서버 출시

· 약 5분

GPU상품 출시 docs배너

iwinv가 고속 LLM 프레임워크 vLLM 운용에 최적화된 GPU 가상 서버를 출시했습니다.
NVIDIA Blackwell 기반 PRO6000 GPU 서버는 최대 864GB 메모리(GDDR7-ECC & DDR5)로
Gemma 3, Phi-4, DeepSeek-R1은 물론 GPT-OSS 120B 규모의 대형 모델까지 안정적으로 운용할 수 있습니다.

vLLM이란?

vLLM은 *Paged Attention 기술을 활용하여 GPU 메모리 내 KV 캐시(Key-Value cache)를 효율적으로 관리하는 오픈소스 프레임워크(LLM 추론 엔진)입니다. 한정된 GPU 자원으로도 응답 속도를 극대화하여 원활한 AI 구동을 지원합니다.

*Paged Attention: LLM 추론 시 KV 캐시를 고정 크기 블록으로 나누어 관리하는 메모리 최적화 기법. 메모리 단편화를 줄이고 GPU 메모리 효율을 크게 개선함.

PRO6000 GPU 서버 강점

GPU 성능 차세대 NVIDIA Blackwell 기반의 PRO6000은 기존 6000Ada 대비 VRAM 용량이 약 2배 증가했습니다.

대용량 메모리 최대 864GB 메모리(GDDR7-ECC & DDR5 기반)를 지원하여 대규모 LLM 운영 환경에서 더욱 안정적입니다.

vLLM 최적화 가상 환경에서도 vLLM 기반의 빠른 토큰 응답을 보장하여 실시간 AI 서비스에 최적화되어 있습니다.

검증된 성능 자체 테스트 결과 GPT-OSS 120B 모델 기준 초당 181.42 Token의 높은 처리 성능을 확인하였습니다
(PRO6000 GPU 1개 기준).