Lokale KI ist in vielen IT-Unternehmen gerade dabei, von „Spielwiese“ zur Infrastruktur-Entscheidung zu werden: Datenschutz/Compliance, IP-Schutz, Kostenkontrolle und kurze Latenzen sprechen dafür – aber nur, wenn Setup, Betrieb und Governance sauber geplant sind.
Dieser Guide zeigt dir Ollama, LM Studio und das Ökosystem rund um Open WebUI, RAG und MCP (Tool-Use) – mit einer klaren Entscheidungshilfe für Marketing- und Tech-Teams.
Entscheidung auf einen Blick: Wann Ollama, wann LM Studio?
| Situation | Empfehlung | Warum |
|---|---|---|
| Schnelle Tests, Demos, Enablement im Fachbereich | LM Studio | GUI-first, schnell startklar, offline nutzbar (LM Studio) |
| Entwickler bauen Integrationen / interne Apps | Ollama | CLI + stabile REST API + Embeddings/RAG-freundlich (Ollama Dokumentation) |
| Team-Rollout (mehrere Nutzer, zentraler GPU-Host) | Ollama + Open WebUI | Service-Pattern + WebUI, Ollama-Protokoll (Port 11434) (Open WebUI) |
| Tool-Use / „Agent“-Workflows (z. B. interne Tools anbinden) | LM Studio (MCP) | MCP Host in der App + MCP via API (Versionen beachten) (LM Studio) |
Was ist Ollama?
Ollama ist ein lokaler LLM-Runner mit CLI und HTTP REST API. Es ist darauf ausgelegt, Modelle lokal auszuführen, per API anzusprechen und in Toolchains einzubetten (z. B. RAG, Embeddings, Automationen). (Ollama Dokumentation)
Wichtig für IT-Teams: Das Ollama-Repository steht unter MIT-Lizenz. (GitHub)
Was ist LM Studio?
LM Studio ist eine Desktop-App zum Entdecken, Laden und Ausführen lokaler Modelle – mit Fokus auf Bedienbarkeit. Zusätzlich kann LM Studio als lokaler API-Server laufen (localhost oder im Netzwerk) und bietet u. a. OpenAI-kompatible sowie Anthropic-kompatible Endpoints. (LM Studio)
Offline-Betrieb: LM Studio kann „komplett offline“ laufen, sobald Modelle vorhanden sind – inklusive Chat, Dokumenten-Chat und lokalem Server. (LM Studio)
Kosten: Seit 08.07.2025 ist LM Studio laut Anbieter „free to use at work“ (Details in den aktualisierten Terms). (LM Studio)
Betriebsmodelle, die in Unternehmen funktionieren
1) Laptop-only (PoC / persönlicher Copilot)
- LM Studio: ideal für schnelle Demo, Parameter-Tuning, Prompting, „Chat with Documents“
- Ollama: ideal, wenn du parallel schon API-Integration mitdenken willst
2) „LLM als interner Service“ (ein Host, viele Nutzer)
Typisches Pattern:
- 1× leistungsstarker Rechner (GPU/Unified Memory)
- Clients (Marketing, CS, Dev) greifen per WebUI oder API zu
- Vorteil: zentrale Updates, einheitliche Modelle, Logging/Policies
Wichtig: Sobald du „im Netzwerk“ anbietest, brauchst du Auth/Netzsegmentierung/Firewall (mehr dazu im Security-Abschnitt). (LM Studio)
3) Docker/Docker Compose (Standardisierung & Rollout)
Für reproduzierbare Deployments ist Docker oft der Weg.
Ollama Docker Image
- Offizielles Image:
ollama/ollama - AMD-GPU via
:rocmTag möglich (Ollama Dokumentation) - Vulkan ist im Image gebündelt; in der Ollama-Doku gibt es Beispiele inkl.
OLLAMA_VULKAN=1(Ollama Dokumentation)
Modelle lokal managen: „ollama models“ & LM Studio Praxis
Ollama: wichtigste Kommandos (Modelle laden, listen, löschen)
Ollama hat für den Alltag sehr klare CLI-Commands: (Ollama Dokumentation)
# Modell starten (zieht es bei Bedarf automatisch)
ollama run gemma3
# Modell herunterladen
ollama pull gemma3
# Modelle auflisten
ollama ls
# Modell entfernen / delete / remove
ollama rm gemma3
Custom Models mit Modelfile
Ein Modelfile ist die „Blueprint“-Datei, um Modelle zu konfigurieren/anzu-passen und zu teilen. (Ollama Dokumentation)
FROM gemma3
SYSTEM """Du bist ein präziser Assistent für IT-Marketing."""
Dann:
ollama create -f Modelfile
Ollama Model Location / Modellverzeichnis ändern
Unter Windows ist das offiziell dokumentiert: Setze OLLAMA_MODELS, um den Speicherort der heruntergeladenen Modelle zu ändern. (Ollama Dokumentation)
(Praktisch, wenn Modelle nicht auf der Systemplatte liegen sollen.)
LM Studio: Modellverwaltung & Offline Mode
- Modelle werden in der App geladen/verwaltet (GUI-first).
- Offline-Modus ist explizit unterstützt – wichtig für Datenschutz/air-gapped Workflows. (LM Studio)
APIs & Integrationen: Von „lokal chatten“ zu „lokal liefern“
Ollama API (Endpoints)
Ollama bietet u. a. /api/generate und liefert Streaming-Antworten; Beispiele sind in der offiziellen Doku/Repo dokumentiert. (Ollama Dokumentation)
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Gib mir 5 Blogtitel-Ideen zu lokaler KI im B2B."
}'
Embeddings lokal (für Semantic Search & RAG)
Ollama hat eine Embeddings-Fähigkeit, die explizit für Retrieval/RAG gedacht ist (Vektor-Längen hängen vom Modell ab). (Ollama Dokumentation)
LM Studio API / Server
LM Studio kann als lokaler LLM API Server laufen – auf localhost oder im Netzwerk. Dazu gibt es REST API, SDKs (JS/Python) und „Compatibility Endpoints“ (OpenAI-/Anthropic-kompatibel). (LM Studio)
RAG lokal: So wird aus dem Modell ein Wissenssystem
LM Studio RAG („Chat with Documents“)
LM Studio nutzt bei langen Dokumenten RAG-Mechanismen, um relevante Stellen zu „fischen“ und dem Modell als Kontext zu geben – offline. (LM Studio)
RAG-Blueprint (tool-agnostisch)
Wenn du RAG produktiv einsetzen willst (z. B. Produktdokus, Case Studies, Sales Enablement), brauchst du typischerweise:
- Ingestion: Dokumente → Text → Chunks
- Embeddings: Chunks → Vektoren (z. B. Ollama Embeddings) (Ollama Dokumentation)
- Vector Store: Suche nach Top-k relevanten Chunks
- Prompting: relevante Chunks + Frage → Antwort
- Evaluation: Trefferqualität + Halluzinations-Rate messen
Marketing-ROI-Hinweis: RAG ist oft der schnellste Pfad zu messbarem Nutzen (Support-Deflection, schnellere Content-Recherche, konsistente Produktantworten) – aber nur, wenn Retrieval-Qualität getestet wird.
Web UI: Open WebUI als „Frontdoor“ für lokale Modelle
Wenn du eine „ChatGPT-ähnliche“ Oberfläche für Ollama brauchst, ist Open WebUI ein gängiges Pattern:
- designed to operate entirely offline
- verbindet sich mit Ollama (Ollama API Protocol, typischerweise Port 11434) (Open WebUI)
- unterstützt auch OpenAI-kompatible APIs (praktisch bei gemischten Backends) (GitHub)
MCP: Tool-Use/Automatisierung ohne Vendor-Lock-in
LM Studio MCP (Host + API)
- Ab LM Studio 0.3.17 kann die App als MCP Host fungieren (LM Studio)
- MCP via API ist ebenfalls dokumentiert (Hinweis: Anforderungen/Versionen beachten) (LM Studio)
- LM Studio warnt explizit: MCP-Server können „arbitrary code“ ausführen/auf Dateien zugreifen – nur vertrauenswürdige Quellen nutzen. (LM Studio)
Ollama MCP Client (Community)
Für Ollama gibt es Community-Clients, die lokale Modelle mit MCP-Servern verbinden (z. B. „MCP Client for Ollama“). (GitHub)
Sicherheit, Compliance & Governance: Der Teil, der Projekte rettet
Das reale Risiko: Exponierte Ollama-Server im Internet
Ende Januar 2026 wurde berichtet, dass >175.000 Ollama-Instanzen durch Fehlkonfiguration öffentlich erreichbar waren (u. a. ohne Passwortschutz) und für Missbrauch genutzt werden können.
Konsequenz für Teams: Sobald du Ollama/LM Studio/Open WebUI „im Netzwerk“ betreibst:
- nicht direkt ins Internet exposen
- lieber: VPN / Zero-Trust / Reverse Proxy + Auth, Netzwerksegmentierung, Firewall-Regeln
- Logging & Zugriffskontrolle definieren (wer darf welche Modelle nutzen?)
Modell-Lizenzen
Auch wenn Tooling open source ist: Modelle haben eigene Lizenzen. Wenn ihr Inhalte extern nutzt (Marketing Assets, Knowledge Bots), gehört ein Lizenz-Check in eure Definition of Done.
Fazit: 3 Empfehlungen nach Szenario
- Enablement & schnelle Tests im Marketing/RevOps → LM Studio (GUI, offline, schneller Proof) (LM Studio)
- App-/Workflow-Integration (z. B. interne Tools, Automationen, RAG) → Ollama (API + Embeddings + Modelfile) (Ollama Dokumentation)
- Team-Rollout → Ollama + Open WebUI + Security/Governance (WebUI + Service-Pattern, aber sauber absichern) (Open WebUI)