본문으로 건너뛰기

최대 432GB 메모리, PRO5000 GPU서버 출시

· 약 7분

compute분류 신규상품

NVIDIA 최신 아키텍처 기반의 PRO5000 GPU서버를 출시했습니다.
단일 GPU당 14,080개의 CUDA 코어와 48GB의 차세대 GDDR7-ECC 메모리를 탑재했습니다.
이를 통해 Gemma, GPT-OSS 등 최신 오픈소스 추론 모델은 물론, 대규모 파라미터의 모델까지 안정적이고 빠른 속도로 서빙할 수 있습니다.


PRO5000 서버 라인업

PRO5000 시리즈는 고성능 Blackwell 아키텍처 GPU를 기반으로 사용자의 워크로드 규모에 맞춰 세 가지 플랜을 제공합니다.

상품명GPURAM(DRAM + VRAM)vCPUMemoryStorage(OS)Traffic가격(부가세 별도)
PRO50.0.G11108GB (DRAM 60GB + VRAM 48GB)8 vCPU60GB100GB620GB/월25,750원/일 (695,000원/월)
PRO50.0.G22216GB (DRAM 120GB + VRAM 96GB)16 vCPU120GB100GB620GB/월51,500원/일 (1,390,000원/월)
PRO50.0.G44432GB (DRAM 240GB + VRAM 192GB)32 vCPU240GB100GB620GB/월103,000원/일 (2,780,000원/월)

vLLM 벤치마크 결과

실제 PRO5000.G1 서버에서 주요 LLM 모델들을 구동했을 때의 성능 지표입니다.
vLLM 프레임워크를 통해 최적화된 속도를 확인하실 수 있습니다.

매개변수크기DRAM 사용량VRAM 사용량출력 Token/s
Gemma3 12B23GB27.9GB44671MB227.42
Gemma3 27B (2GPU)52GB66.9GB45259MB * 2158.84
DeepSeek-R1 7B15GB28GB44441MB346.22
DeepSeek-R1 14B (2GPU)28GB46.9GB44857MB * 2200.86
DeepSeek-R1 32B (4GPU)62GB82.8GB46667MB * 4242.08
Phi4 14B28GB33.8GB44511MB164.24
gpt-oss 20B26GB32.7GB44777MB173.08
gpt-oss 120B (4GPU)122GB144.8GB46547MB * 4260.14

vLLM이란?

vLLM은 *Paged Attention 기술을 활용하여 GPU 메모리 내 KV 캐시(Key-Value cache)를 효율적으로 관리하는 오픈소스 프레임워크(LLM 추론 엔진)입니다.
한정된 GPU 자원으로도 응답 속도를 극대화하여 원활한 AI 구동을 지원합니다.

Paged Attention: LLM 추론 시 KV 캐시를 고정 크기 블록으로 나누어 관리하는 메모리 최적화 기법. 메모리 단편화를 줄이고 GPU 메모리 효율을 크게 개선함.

정보
  • 벤치마크 테스트는 NGC 공식 컨테이너 nvcr.io/nvidia/pytorch:25.06-py3 환경에서
    수행되었으며 본 결과 공개는 NVIDIA의 “Deep Learning Containers – Benchmarking” 문서에 따른 예외 조항에 근거합니다.
  • 테스트 결과는 자사가 직접 실험한 수치로, NVIDIA의 공식 성능과 무관하며, 미세한 환경 차이에 따라 결과는 다를 수 있으니 참고용 데이터로 활용하시기 바랍니다.

PRO5000 GPU 서버 특징

  • 차세대 GDDR7-ECC 메모리 탑재 PRO5000은 업계 최신 규격인 GDDR7 메모리를 채택하여 이전 세대 대비 매우 넓은 대역폭을 제공합니다. 특히 ECC(Error Correction Code) 기능이 적용되어 장시간 지속되는 대규모 연산 시에도 데이터 무결성을 보장하며 시스템 다운 타임을 최소화합니다.

  • 최대 192GB의 VRAM LLM 추론 시 가장 큰 병목 현상은 GPU 메모리 부족으로 인해 발생합니다. PRO5000은 GPU 한 장당 48GB의 넉넉한 메모리를 제공하여, 대규모 LLM 모델도 단일 GPU 또는 GPU 조합을 통해 보다 경제적으로 운용할 수 있습니다.

  • 14,080개의 CUDA 코어, 압도적 연산 성능 메모리 용량 뿐만 아니라 14,080개의 CUDA 코어는 복잡한 행렬 연산을 신속하게 처리합니다. vLLM과 같은 고성능 프레임워크와 결합했을 때 극대화된 토큰 생성 속도(Token/s)를 보여줍니다.


적합한 워크로드

  • 최신 LLM 실시간 추론 : Gemma, GPT-OSS 등 최신 모델을 vLLM 프레임워크를 통해 실시간으로 서빙하고자 하는 경우.

  • 고성능 RAG 시스템 : 방대한 문서 데이터를 기반으로 답변을 생성하는 RAG 환경에서 빠른 임베딩 및 연산이 필요할 때.

  • 멀티 GPU 분산 처리 : FP8/INT8 양자화 모델을 넘어, 더 높은 정밀도의 대형 모델(120B급 이상)을 분산 환경에서 구동할 때.

  • AI 이미지/비디오 생성 : 다량의 VRAM을 소모하는 Stable Diffusion이나 동영상 생성 AI 모델의 배치(Batch) 처리 등.

서비스 활용 안내

이번에 출시된 PRO5000 GPU 서버는 강력한 연산 성능과 넉넉한 VRAM을 바탕으로 기업용 AI 챗봇 구축, 연구용 모델 미세 조정(Fine-tuning), 대규모 추론 API 서비스 등 다양한 분야에 활용할 수 있습니다.
상세 신청 방법은 아래 링크를 통해 확인해 주세요 😀

iwinv GPU서버 바로가기