Leistungen

KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte

Branchen

Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme

Referenzen Technologien

Lab

Blog Know-how Tools

Über uns Zusammenarbeit Karriere

CS EN DE

Lassen Sie uns sprechen

Ollama vs vLLM

14. 03. 2024 1 Min. Lesezeit intermediate

Ollama ist der einfachste Weg zu lokalen LLMs. vLLM ist für Produktions-Serving optimiert.

Ollama¶

Einfache Installation (curl + ollama run)
Modellverwaltung (pull, list, rm)
REST API kompatibel mit OpenAI
Ideal für Entwicklung und Experimente
macOS, Linux, Windows

ollama pull llama3.2 ollama run llama3.2 ‘Erkläre Docker’ curl http://localhost:11434/api/generate -d ‘{“model”:”llama3.2”,”prompt”:”Hello”}’

vLLM¶

PagedAttention — effizientes GPU-Speichermanagement
Continuous Batching — hoher Durchsatz
OpenAI-kompatibles API-Server
Tensor Parallelism (Multi-GPU)
Optimiert für Produktion

pip install vllm python -m vllm.entrypoints.openai.api_server \ –model meta-llama/Llama-3-8B-Instruct

Vergleich¶

Einfachheit: Ollama >> vLLM
Durchsatz: vLLM >> Ollama (2-5x)
GPU-Auslastung: vLLM besser
Modellformat: Ollama = GGUF, vLLM = HuggingFace
CPU-Inferenz: Ollama OK, vLLM nur GPU

Ollama für Entwicklung, vLLM für Produktion¶

Ollama für lokale Entwicklung und Experimente. vLLM für Produktions-Serving mit hohem Durchsatz.

ollamavllmllmaiinference

Teilen:

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Alle Artikel

Mehr Know-how

Der vollstaendige Leitfaden zu Ollama + lokale KI

Ollama -- lokale KI-Modelle, Installation, API, Modelle, Integration.

ChatGPT im Unternehmen — Erste Eindrücke und praktische Erfahrungen

Wie wir begonnen haben, mit ChatGPT in internen Prozessen zu experimentieren. Was funktioniert, was nicht, und wo...

Prompt Engineering — Die Kunst der Kommunikation mit KI-Modellen

Ein praktischer Leitfaden für Prompt Engineering. Techniken, Muster und Anti-Patterns für effektive LLM-Interaktion.