vllm (가상서버)
KR1-Z07에서 제공되는 가상서버에서 사용할 수 있는 vllm은 GPU의 VRAM을 사용하여 LLM 추론 모델을 효율적으로 작동 시킬 수 있습니다.
팁
정보
- 고성능 챗봇, 문서 요약, RAG 기반 질의응답 시스템
- 엔터프라이즈 AI 백엔드 서버
- LLM 기반 SaaS 기능(API 제공형 서비스)
- 멀티 유저 환경의 실시간 응답 시스템
- reference 매뉴얼을 통한 손쉬운 설치 및 사용 방법 제안
상품 사양 정보 및 LLM 모델 벤치마크
A6000
제원 : CUDA 10,752, 48GB(GDDR6-ECC)
| 상품명 | GPU | GPU memory | vCPU | Memory | Storage(OS) | Traffic | 가격(부가세 별도) |
|---|---|---|---|---|---|---|---|
A6000.G1 | 1 | 48GB | 8vCPU | 60GB | 100GB | 620GB/월 | 18,200원/일 490,000/월 |
A6000.G2 | 2 | 96GB | 16vCPU | 120GB | 100GB | 620GB/월 | 36,300원/일 980,000/월 |
A6000.G4 | 4 | 192GB | 32vCPU | 140GB | 100GB | 620GB/월 | 72,600원/일 1,960,000/월 |
A6000.G1 기준 벤치마크 자료
| 매개변수 | 크기 | DRAM 사용량 | VRAM 사용량 | 출력 Token/s |
|---|---|---|---|---|
| Gemma3 12B | 23GB | 27GB | 44983MB | 168.38 |
| Gemma3 27B(2CPU) | 52GB | 61GB | 45875MB x 2 | 130.26 |
| DeepSeek-R1 7B | 15GB | 17GB | 44667MB | 197.52 |
| DeepSeek-R1 14B | 28GB | 31GB | 44861MB | 213.34 |
| DeepSeek-R1 32B(2GPU) | 62GB | 70GB | 45617MB x 2 | 226.8 |
| DeepSeek-R1 32B(4GPU) | 62GB | 75GB | 45715MB x 4 | 229.26 |
| DeepSeek-R1 70B(4GPU) | 132GB | 145GB | 45937MB x 4 | 152.18 |
| Phi4 14B | 28GB | 31GB | 44797MB | 160.92 |
4000Ada
제원 : CUDA 6144, 20GB(GDDR6-ECC)
| 상품명 | GPU | GPU memory | vCPU | Memory | Storage(OS) | Traffic | 가격(부가세 별도) |
|---|---|---|---|---|---|---|---|
4000Ada.G1 | 1 | 20GB | 8vCPU | 60GB | 100GB | 620GB/월 | 9,200원/일 248,500/월 |
4000Ada.G2 | 2 | 40GB | 16vCPU | 120GB | 100GB | 620GB/월 | 18,400원/일 495,000/월 |
4000Ada.G4 | 4 | 80GB | 32vCPU | 140GB | 100GB | 620GB/월 | 36,700원/일 990,000/월 |
4000Ada.G1 기준 동작 권장 사양
정보
4000Ada에서 작동을 권장하는 LLM 모델 사양
- 7B 미만 :
4000Ada.G1 - 14B 미만 :
4000Ada.G2
Tesla T4
제원 : CUDA 2,560, 16GB(GDDR6)
| 상품명 | GPU | GPU memory | vCPU | Memory | Storage(OS) | Traffic | 가격(부가세 별도) |
|---|---|---|---|---|---|---|---|
T4.G1 | 1 | 16GB | 6vCPU | 30GB | 100GB | 620GB/월 | 6,260원/일 169,000원/월 |
T4.G2 | 2 | 32GB | 12vCPU | 60GB | 100GB | 620GB/월 | 12,520원/일 338,000원/월 |
T4.G4 | 4 | 64GB | 24vCPU | 120GB | 100GB | 620GB/월 | 25,040원/일 676,000원/월 |
T4.G1 기준 동작 권장 사양
정보
T4에서 작동을 권장하는 LLM 모델 사양
- 7B 미만 :
T4.G1 - 14B 미만 :
T4.G4
PRO6000
제원 : 24,064, 96GB(GDDR7-ECC)
| 상품명 | GPU | GPU memory | vCPU | Memory | Storage(OS) | Traffic | 가격(부가세 별도) |
|---|---|---|---|---|---|---|---|
PRO6000.G1 | 1 | 96GB | 8vCPU | 120GB | 100GB | 620GB/월 | 55,200원/일 1,490,000원/월 |
PRO6000.G2 | 2 | 192GB | 16vCPU | 240GB | 100GB | 620GB/월 | 110,400원/일 2,980,000원/월 |
PRO6000.G4 | 4 | 384GB | 32vCPU | 480GB | 100GB | 620GB/월 | 220,800원/일 5,960,000원/월 |
PRO6000.G1 기준 벤치마크 자료
| 매개변수 | 크기 | DRAM 사용량 | VRAM 사용량 | 출력 Token/s |
|---|---|---|---|---|
| Gemma3 12B | 23GB | 40GB | 87339MB | 226.28 |
| Gemma3 27B(2CPU) | 52GB | 70GB | 86829MB | 185.98 |
| DeepSeek-R1 7B | 15GB | 28GB | 88911MB | 230.76 |
| DeepSeek-R1 14B | 28GB | 31GB | 89125MB | 203.88 |
| DeepSeek-R1 32B(4GPU) | 62GB | 75GB | 91141MB * 4 | 260.65 |
| Phi4 14B | 28GB | 31GB | 44797MB | 160.92 |
| gpt-oss 20B | 26GB | 40GB | 89711MB | 200.22 |
| gpt-oss 120B | 122GB | 112GB | 89615MB | 202.2 |
경고
- PRO6000 상품에 드라이버 설치 시 NVIDIA 사이트에서 580.82.09 버전 이상의 run 드라이버가 필요하며 설치 방법은 해당 드라이버의 추가 정보를 참고 해주시기 바랍니다.
-
- apt, snap, dnf, yum 등으로 nvidia-driver, cuda를 설치 할 경우 GPU가 인식 되지 않을 가능성이 있습니다.
- NVIDIA 그래픽카드가 장착된 GPU Server를 사용 전 반드시 NVIDIA 소프트웨어 고객 사용 라이선스를 확인하시기 바라며 라이선스에 대한 조치 위반 및 NVIDIA 소프트웨어 무단 사용으로 인한 법적 책임은 스마일서브에 물을 수 없습니다.
상품 가격은 변동될 수 있으며 2025년 10월 기준 작성되었습니다.
정확한 내용은 홈페이지 소개 페이지를 참고하시기 바랍니다.
정보
- 벤치마크 테스트는 NGC 공식 컨테이너 nvcr.io/nvidia/pytorch:25.06-py3 환경에서 수행되었으며 본 결과 공개는 NVIDIA의 “Deep Learning Containers – Benchmarking” 문서에 따른 예외 조항에 근거합니다.
- 테스트 결과는 자사가 직접 실험한 수치로, NVIDIA의 공식 성능과 무관하며, 미세한 환경 차이에 따라 결과는 다를 수 있으니 참고용 데이터로 활용하시기 바랍니다.