📄️ Ollama (가상서버)
GPU Server (가상서버)에서 사용할 수 있는 Ollama는 CPU 및 GPU을 혼합해서 사용 할 수 있는 경량 플랫폼으로 전용 리포지토리를 통해 양자화 모델을 작동 할 수 있습니다.
📄️ vllm (가상서버)
GPU Server (가상서버)에서 사용할 수 있는 vllm은 GPU의 VRAM을 사용하여 LLM 추론 모델을 효율적으로 작동 시킬 수 있습니다.
📄️ GPU Server (가상서버)
고용량 ECC 메모리를 자유롭게 확장할 수 있는 강력한 성능의 컴퓨팅이 제공되며 GPU 기종에 따라 Pass-through를 통해 최대 4개까지 장착할 수 있습니다.