개요
LLM&GPU는 CPU+GPU를 사용하여 가성비를 높힌 Ollama
상품과 속도와 Multi-GPU를 위주로 하는 vLLM
상품을 사용할 수 있도록 하드웨어 또는 가상 서버를 제공하는 상 품입니다. 쉽고 빠른 설치 방법과 사용 방법에 관한 매뉴얼을 제공하여 초심자도 손쉽게 나만의 챗봇을 만들 수 있습니다.
Ollama, vLLM 특징
특징 | 설명 |
---|---|
고성능 LLM 지원(Ollama) | 경량화한 고성능 LLM을 원하는대로 튜닝/학습 가능한 소프트웨어 지원 |
고성능 LLM 지원(vLLM) | Meta, Google 등 주요 오픈소스 모델에 최적화된 추론 프레임워크에서 실행 |
비용 효율성 | 오픈 소스 LLM에 최적화 기본 사양 및 고객 맞춤 사양 제공 |
전문 기술 제공 | LLM 및 응용 소프트웨어 기술적 지원 시스템 상시 기술지원 |
높은 보안성 | 사용자 데이터 프라이버시 보호를 위한 분리된 서버 시스템 제공 |
GPU 성능 비교
모델 | 제조사 | 아키텍처 | GPU 메모리 | GPU 메모리 대역폭 | CUDA | FP32 | TDP |
---|---|---|---|---|---|---|---|
A6000 | NVIDIA | Ampere | 48GB (GDDR6 ECC) | 768 GB/s | 10,752 | 38.7 TFLOPS | 300W |
4000Ada | NVIDIA | Ada Lovelace | 20GB (GDDR6) | 448 GB/s | 6,144 | 30 TFLOPS | 130W |
6000Ada | NVIDIA | Ada Lovelace | 48GB (GDDR6 ECC) | 960 GB/s | 18,716 | 91.1 TFLOPS | 300W |
Tesla T4 | NVIDIA | Turing | 16GB (GDDR6) | 320 GB/s | 2,560 | 8.1 TFLOPS | 70W |
W6800 | AMD | AMD RDNA™ 2 | 32GB (GDDR6 ECC) | 512 GB/s | 3,840 | 17.83 TFLOPS | 250W |
W7800 | AMD | AMD RDNA™ 3 | 32GB (GDDR6 ECC) | 576 GB/s | 4,480 | 45.2 TFLOPS | 260W |