본문으로 건너뛰기

개요

LLM&GPU는 CPU+GPU를 사용하여 가성비를 높힌 Ollama 상품과 속도와 Multi-GPU를 위주로 하는 vLLM 상품을 사용할 수 있도록 하드웨어 또는 가상 서버를 제공하는 상품입니다. 쉽고 빠른 설치 방법과 사용 방법에 관한 매뉴얼을 제공하여 초심자도 손쉽게 나만의 챗봇을 만들 수 있습니다.

Ollama, vLLM 특징

특징	설명
고성능 LLM 지원(Ollama)	경량화한 고성능 LLM을 원하는대로 튜닝/학습 가능한 소프트웨어 지원
고성능 LLM 지원(vLLM)	Meta, Google 등 주요 오픈소스 모델에 최적화된 추론 프레임워크에서 실행
비용 효율성	오픈 소스 LLM에 최적화 기본 사양 및 고객 맞춤 사양 제공
전문 기술 제공	LLM 및 응용 소프트웨어 기술적 지원 시스템 상시 기술지원
높은 보안성	사용자 데이터 프라이버시 보호를 위한 분리된 서버 시스템 제공

GPU 성능 비교

모델	제조사	아키텍처	GPU 메모리	GPU 메모리 대역폭	CUDA	FP32	TDP
A6000	NVIDIA	Ampere	48GB (GDDR6 ECC)	768 GB/s	10,752	38.7 TFLOPS	300W
4000Ada	NVIDIA	Ada Lovelace	20GB (GDDR6)	448 GB/s	6,144	30 TFLOPS	130W
6000Ada	NVIDIA	Ada Lovelace	48GB (GDDR6 ECC)	960 GB/s	18,716	91.1 TFLOPS	300W
Tesla T4	NVIDIA	Turing	16GB (GDDR6)	320 GB/s	2,560	8.1 TFLOPS	70W
W6800	AMD	AMD RDNA™ 2	32GB (GDDR6 ECC)	512 GB/s	3,840	17.83 TFLOPS	250W
W7800	AMD	AMD RDNA™ 3	32GB (GDDR6 ECC)	576 GB/s	4,480	45.2 TFLOPS	260W

Ollama, vLLM 특징
GPU 성능 비교