vllm (가상서버)

KR1-Z07에서 제공되는 가상서버에서 사용할 수 있는 vllm은 GPU의 VRAM을 사용하여 LLM 추론 모델을 효율적으로 작동 시킬 수 있습니다.

팁

상품이 활성화가 되어있지 않은 경우는 온라인 기술지원에 해당 내용을 남겨주시면 담당자 확인후 서비스 신청 가능여부를 재확인해 드리겠습니다.
상품 신청 및 사용 가이드는 가상서버 가이드를 참고 해주시기 바랍니다.
리얼 서버(베어메탈, 맞춤형 서버) 기반의 GPU 상품은 cloudv에서 주문하실 수 있습니다.

정보

고성능 챗봇, 문서 요약, RAG 기반 질의응답 시스템
엔터프라이즈 AI 백엔드 서버
LLM 기반 SaaS 기능(API 제공형 서비스)
멀티 유저 환경의 실시간 응답 시스템
reference 매뉴얼을 통한 손쉬운 설치 및 사용 방법 제안

상품 사양 정보 및 LLM 모델 벤치마크

A6000

제원 : CUDA 10,752, 48GB(GDDR6-ECC)

상품명	GPU	GPU memory	vCPU	Memory	Storage(OS)	Traffic	가격(부가세 별도)
`A6000.G1`	1	48GB	8vCPU	60GB	100GB	620GB/월	18,200원/일 490,000/월
`A6000.G2`	2	96GB	16vCPU	120GB	100GB	620GB/월	36,300원/일 980,000/월
`A6000.G4`	4	192GB	32vCPU	140GB	100GB	620GB/월	72,600원/일 1,960,000/월

`A6000.G1` 기준 벤치마크 자료

매개변수	크기	DRAM 사용량	VRAM 사용량	출력 Token/s
Gemma3 12B	23GB	27GB	44983MB	168.38
Gemma3 27B(2CPU)	52GB	61GB	45875MB x 2	130.26
DeepSeek-R1 7B	15GB	17GB	44667MB	197.52
DeepSeek-R1 14B	28GB	31GB	44861MB	213.34
DeepSeek-R1 32B(2GPU)	62GB	70GB	45617MB x 2	226.8
DeepSeek-R1 32B(4GPU)	62GB	75GB	45715MB x 4	229.26
DeepSeek-R1 70B(4GPU)	132GB	145GB	45937MB x 4	152.18
Phi4 14B	28GB	31GB	44797MB	160.92

4000Ada

제원 : CUDA 6144, 20GB(GDDR6-ECC)

상품명	GPU	GPU memory	vCPU	Memory	Storage(OS)	Traffic	가격(부가세 별도)
`4000Ada.G1`	1	20GB	8vCPU	60GB	100GB	620GB/월	9,200원/일 248,500/월
`4000Ada.G2`	2	40GB	16vCPU	120GB	100GB	620GB/월	18,400원/일 495,000/월
`4000Ada.G4`	4	80GB	32vCPU	140GB	100GB	620GB/월	36,700원/일 990,000/월

`4000Ada.G1` 기준 동작 권장 사양

정보

4000Ada에서 작동을 권장하는 LLM 모델 사양

7B 미만 : 4000Ada.G1
14B 미만 : 4000Ada.G2

Tesla T4

제원 : CUDA 2,560, 16GB(GDDR6)

상품명	GPU	GPU memory	vCPU	Memory	Storage(OS)	Traffic	가격(부가세 별도)
`T4.G1`	1	16GB	6vCPU	30GB	100GB	620GB/월	6,260원/일 169,000원/월
`T4.G2`	2	32GB	12vCPU	60GB	100GB	620GB/월	12,520원/일 338,000원/월
`T4.G4`	4	64GB	24vCPU	120GB	100GB	620GB/월	25,040원/일 676,000원/월

`T4.G1` 기준 동작 권장 사양

정보

T4에서 작동을 권장하는 LLM 모델 사양

7B 미만 : T4.G1
14B 미만 : T4.G4

PRO6000

제원 : 24,064, 96GB(GDDR7-ECC)

상품명	GPU	GPU memory	vCPU	Memory	Storage(OS)	Traffic	가격(부가세 별도)
`PRO6000.G1`	1	96GB	8vCPU	120GB	100GB	620GB/월	55,200원/일 1,490,000원/월
`PRO6000.G2`	2	192GB	16vCPU	240GB	100GB	620GB/월	110,400원/일 2,980,000원/월
`PRO6000.G4`	4	384GB	32vCPU	480GB	100GB	620GB/월	220,800원/일 5,960,000원/월

`PRO6000.G1` 기준 벤치마크 자료

매개변수	크기	DRAM 사용량	VRAM 사용량	출력 Token/s
Gemma3 12B	23GB	40GB	87339MB	226.28
Gemma3 27B(2CPU)	52GB	70GB	86829MB	185.98
DeepSeek-R1 7B	15GB	28GB	88911MB	230.76
DeepSeek-R1 14B	28GB	31GB	89125MB	203.88
DeepSeek-R1 32B(4GPU)	62GB	75GB	91141MB * 4	260.65
Phi4 14B	28GB	31GB	44797MB	160.92
gpt-oss 20B	26GB	40GB	89711MB	200.22
gpt-oss 120B	122GB	112GB	89615MB	202.2

경고

PRO6000 상품에 드라이버 설치 시 NVIDIA 사이트에서 580.82.09 버전 이상의 run 드라이버가 필요하며 설치 방법은 해당 드라이버의 추가 정보를 참고 해주시기 바랍니다.
- apt, snap, dnf, yum 등으로 nvidia-driver, cuda를 설치 할 경우 GPU가 인식 되지 않을 가능성이 있습니다.
NVIDIA 그래픽카드가 장착된 GPU Server를 사용 전 반드시 NVIDIA 소프트웨어 고객 사용 라이선스를 확인하시기 바라며 라이선스에 대한 조치 위반 및 NVIDIA 소프트웨어 무단 사용으로 인한 법적 책임은 스마일서브에 물을 수 없습니다.

상품 가격은 변동될 수 있으며 2025년 10월 기준 작성되었습니다.
정확한 내용은 홈페이지 소개 페이지를 참고하시기 바랍니다.

정보

벤치마크 테스트는 NGC 공식 컨테이너 nvcr.io/nvidia/pytorch:25.06-py3 환경에서 수행되었으며 본 결과 공개는 NVIDIA의 “Deep Learning Containers – Benchmarking” 문서에 따른 예외 조항에 근거합니다.
테스트 결과는 자사가 직접 실험한 수치로, NVIDIA의 공식 성능과 무관하며, 미세한 환경 차이에 따라 결과는 다를 수 있으니 참고용 데이터로 활용하시기 바랍니다.

상품 사양 정보 및 LLM 모델 벤치마크​

A6000​

A6000.G1 기준 벤치마크 자료​

4000Ada​

4000Ada.G1 기준 동작 권장 사양​

Tesla T4​

T4.G1 기준 동작 권장 사양​

PRO6000​

PRO6000.G1 기준 벤치마크 자료​