Ollama ist der einfachste Weg zu lokalen LLMs. vLLM ist für Produktions-Serving optimiert.
Ollama¶
- Einfache Installation (curl + ollama run)
- Modellverwaltung (pull, list, rm)
- REST API kompatibel mit OpenAI
- Ideal für Entwicklung und Experimente
- macOS, Linux, Windows
ollama pull llama3.2 ollama run llama3.2 ‘Erkläre Docker’ curl http://localhost:11434/api/generate -d ‘{“model”:”llama3.2”,”prompt”:”Hello”}’
vLLM¶
- PagedAttention — effizientes GPU-Speichermanagement
- Continuous Batching — hoher Durchsatz
- OpenAI-kompatibles API-Server
- Tensor Parallelism (Multi-GPU)
- Optimiert für Produktion
pip install vllm python -m vllm.entrypoints.openai.api_server \ –model meta-llama/Llama-3-8B-Instruct
Vergleich¶
- Einfachheit: Ollama >> vLLM
- Durchsatz: vLLM >> Ollama (2-5x)
- GPU-Auslastung: vLLM besser
- Modellformat: Ollama = GGUF, vLLM = HuggingFace
- CPU-Inferenz: Ollama OK, vLLM nur GPU
Ollama für Entwicklung, vLLM für Produktion¶
Ollama für lokale Entwicklung und Experimente. vLLM für Produktions-Serving mit hohem Durchsatz.
ollamavllmllmaiinference