본문으로 건너뛰기

"LLM" 태그로 연결된 2개 게시물개의 게시물이 있습니다.

모든 태그 보기

최대 864GB 메모리, PRO6000 GPU서버 출시

· 약 5분

GPU상품 출시 docs배너

iwinv가 고속 LLM 프레임워크 vLLM 운용에 최적화된 GPU 가상 서버를 출시했습니다.
NVIDIA Blackwell 기반 PRO6000 GPU 서버는 최대 864GB 메모리(GDDR7-ECC & DDR5)로
Gemma 3, Phi-4, DeepSeek-R1은 물론 GPT-OSS 120B 규모의 대형 모델까지 안정적으로 운용할 수 있습니다.

vLLM이란?

vLLM은 *Paged Attention 기술을 활용하여 GPU 메모리 내 KV 캐시(Key-Value cache)를 효율적으로 관리하는 오픈소스 프레임워크(LLM 추론 엔진)입니다. 한정된 GPU 자원으로도 응답 속도를 극대화하여 원활한 AI 구동을 지원합니다.

*Paged Attention: LLM 추론 시 KV 캐시를 고정 크기 블록으로 나누어 관리하는 메모리 최적화 기법. 메모리 단편화를 줄이고 GPU 메모리 효율을 크게 개선함.

PRO6000 GPU 서버 강점

GPU 성능 차세대 NVIDIA Blackwell 기반의 PRO6000은 기존 6000Ada 대비 VRAM 용량이 약 2배 증가했습니다.

대용량 메모리 최대 864GB 메모리(GDDR7-ECC & DDR5 기반)를 지원하여 대규모 LLM 운영 환경에서 더욱 안정적입니다.

vLLM 최적화 가상 환경에서도 vLLM 기반의 빠른 토큰 응답을 보장하여 실시간 AI 서비스에 최적화되어 있습니다.

검증된 성능 자체 테스트 결과 GPT-OSS 120B 모델 기준 초당 181.42 Token의 높은 처리 성능을 확인하였습니다
(PRO6000 GPU 1개 기준).

LLM 최적화, GPU서버 출시

· 약 7분

SSD Block Standard 출시

“비싼 HBM GPU 없어도 OK!”
“보급형 GPU의 수평 확장을 통해 합리적 비용으로 많은 VRAM을 확보하세요!
“소규모 기업도 부담 없이 LLM 개발에 도전할 수 있습니다”

서버 비용 허리 휠 때, 반값서버! 스마일서브입니다.

LLM을 도입하고 싶지만, 서버 비용, 성능, 안정성 이슈로 망설이셨던 분들을 위해 준비했습니다.
우선 Ollama는 NVIDIA뿐 아니라 AMD 등 다양한 하드웨어를 지원하는 유연한 프레임워크입니다.
VRAM이 부족한 경우 CPU와 DRAM을 보조 자원으로 활용하여, 소형~초대형까지 다양한 LLM 서비스를 구동할 수 있습니다.
소형 LLM이라면 내장 GPU만으로도 운용이 가능할 만큼 실용적입니다. 이러한 흐름에 맞춰 Ollama, vLLM 등의 프레임워크에 최적화된 GPU 서버를 새롭게 출시했습니다.
또한 기존 GPU 서버들도 일부 리뉴얼하여 더 나은 성능과 효율을 제공합니다.
어떤 변화가 있었는지 지금 확인해 보세요!