Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Ollama vs vLLM

14. 03. 2024 1 Min. Lesezeit intermediate

Ollama ist der einfachste Weg zu lokalen LLMs. vLLM ist für Produktions-Serving optimiert.

Ollama

  • Einfache Installation (curl + ollama run)
  • Modellverwaltung (pull, list, rm)
  • REST API kompatibel mit OpenAI
  • Ideal für Entwicklung und Experimente
  • macOS, Linux, Windows

ollama pull llama3.2 ollama run llama3.2 ‘Erkläre Docker’ curl http://localhost:11434/api/generate -d ‘{“model”:”llama3.2”,”prompt”:”Hello”}’

vLLM

  • PagedAttention — effizientes GPU-Speichermanagement
  • Continuous Batching — hoher Durchsatz
  • OpenAI-kompatibles API-Server
  • Tensor Parallelism (Multi-GPU)
  • Optimiert für Produktion

pip install vllm python -m vllm.entrypoints.openai.api_server \ –model meta-llama/Llama-3-8B-Instruct

Vergleich

  • Einfachheit: Ollama >> vLLM
  • Durchsatz: vLLM >> Ollama (2-5x)
  • GPU-Auslastung: vLLM besser
  • Modellformat: Ollama = GGUF, vLLM = HuggingFace
  • CPU-Inferenz: Ollama OK, vLLM nur GPU

Ollama für Entwicklung, vLLM für Produktion

Ollama für lokale Entwicklung und Experimente. vLLM für Produktions-Serving mit hohem Durchsatz.

ollamavllmllmaiinference
Teilen:

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.