Lokale KI ist in vielen IT-Unternehmen gerade dabei, von „Spielwiese“ zur Infrastruktur-Entscheidung zu werden: Datenschutz/Compliance, IP-Schutz, Kostenkontrolle und kurze Latenzen sprechen dafür – aber nur, wenn Setup, Betrieb und Governance sauber geplant sind.

Dieser Guide zeigt dir Ollama, LM Studio und das Ökosystem rund um Open WebUI, RAG und MCP (Tool-Use) – mit einer klaren Entscheidungshilfe für Marketing- und Tech-Teams.

Entscheidung auf einen Blick: Wann Ollama, wann LM Studio?

Situation Empfehlung Warum
Schnelle Tests, Demos, Enablement im Fachbereich LM Studio GUI-first, schnell startklar, offline nutzbar (LM Studio)
Entwickler bauen Integrationen / interne Apps Ollama CLI + stabile REST API + Embeddings/RAG-freundlich (Ollama Dokumentation)
Team-Rollout (mehrere Nutzer, zentraler GPU-Host) Ollama + Open WebUI Service-Pattern + WebUI, Ollama-Protokoll (Port 11434) (Open WebUI)
Tool-Use / „Agent“-Workflows (z. B. interne Tools anbinden) LM Studio (MCP) MCP Host in der App + MCP via API (Versionen beachten) (LM Studio)

Was ist Ollama?

Ollama ist ein lokaler LLM-Runner mit CLI und HTTP REST API. Es ist darauf ausgelegt, Modelle lokal auszuführen, per API anzusprechen und in Toolchains einzubetten (z. B. RAG, Embeddings, Automationen). (Ollama Dokumentation)

Wichtig für IT-Teams: Das Ollama-Repository steht unter MIT-Lizenz. (GitHub)

Was ist LM Studio?

LM Studio ist eine Desktop-App zum Entdecken, Laden und Ausführen lokaler Modelle – mit Fokus auf Bedienbarkeit. Zusätzlich kann LM Studio als lokaler API-Server laufen (localhost oder im Netzwerk) und bietet u. a. OpenAI-kompatible sowie Anthropic-kompatible Endpoints. (LM Studio)

Offline-Betrieb: LM Studio kann „komplett offline“ laufen, sobald Modelle vorhanden sind – inklusive Chat, Dokumenten-Chat und lokalem Server. (LM Studio)

Kosten: Seit 08.07.2025 ist LM Studio laut Anbieter „free to use at work“ (Details in den aktualisierten Terms). (LM Studio)

Betriebsmodelle, die in Unternehmen funktionieren

1) Laptop-only (PoC / persönlicher Copilot)

  • LM Studio: ideal für schnelle Demo, Parameter-Tuning, Prompting, „Chat with Documents“
  • Ollama: ideal, wenn du parallel schon API-Integration mitdenken willst

2) „LLM als interner Service“ (ein Host, viele Nutzer)

Typisches Pattern:

  • 1× leistungsstarker Rechner (GPU/Unified Memory)
  • Clients (Marketing, CS, Dev) greifen per WebUI oder API zu
  • Vorteil: zentrale Updates, einheitliche Modelle, Logging/Policies

Wichtig: Sobald du „im Netzwerk“ anbietest, brauchst du Auth/Netzsegmentierung/Firewall (mehr dazu im Security-Abschnitt). (LM Studio)

3) Docker/Docker Compose (Standardisierung & Rollout)

Für reproduzierbare Deployments ist Docker oft der Weg.

Ollama Docker Image

  • Offizielles Image: ollama/ollama
  • AMD-GPU via :rocm Tag möglich (Ollama Dokumentation)
  • Vulkan ist im Image gebündelt; in der Ollama-Doku gibt es Beispiele inkl. OLLAMA_VULKAN=1 (Ollama Dokumentation)

Modelle lokal managen: „ollama models“ & LM Studio Praxis

Ollama: wichtigste Kommandos (Modelle laden, listen, löschen)

Ollama hat für den Alltag sehr klare CLI-Commands: (Ollama Dokumentation)

# Modell starten (zieht es bei Bedarf automatisch)
ollama run gemma3

# Modell herunterladen
ollama pull gemma3

# Modelle auflisten
ollama ls

# Modell entfernen / delete / remove
ollama rm gemma3

Custom Models mit Modelfile
Ein Modelfile ist die „Blueprint“-Datei, um Modelle zu konfigurieren/anzu-passen und zu teilen. (Ollama Dokumentation)

FROM gemma3
SYSTEM """Du bist ein präziser Assistent für IT-Marketing."""

Dann:

ollama create -f Modelfile

(Ollama Dokumentation)

Ollama Model Location / Modellverzeichnis ändern

Unter Windows ist das offiziell dokumentiert: Setze OLLAMA_MODELS, um den Speicherort der heruntergeladenen Modelle zu ändern. (Ollama Dokumentation)
(Praktisch, wenn Modelle nicht auf der Systemplatte liegen sollen.)

LM Studio: Modellverwaltung & Offline Mode

  • Modelle werden in der App geladen/verwaltet (GUI-first).
  • Offline-Modus ist explizit unterstützt – wichtig für Datenschutz/air-gapped Workflows. (LM Studio)

APIs & Integrationen: Von „lokal chatten“ zu „lokal liefern“

Ollama API (Endpoints)

Ollama bietet u. a. /api/generate und liefert Streaming-Antworten; Beispiele sind in der offiziellen Doku/Repo dokumentiert. (Ollama Dokumentation)

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Gib mir 5 Blogtitel-Ideen zu lokaler KI im B2B."
}'

Embeddings lokal (für Semantic Search & RAG)

Ollama hat eine Embeddings-Fähigkeit, die explizit für Retrieval/RAG gedacht ist (Vektor-Längen hängen vom Modell ab). (Ollama Dokumentation)

LM Studio API / Server

LM Studio kann als lokaler LLM API Server laufen – auf localhost oder im Netzwerk. Dazu gibt es REST API, SDKs (JS/Python) und „Compatibility Endpoints“ (OpenAI-/Anthropic-kompatibel). (LM Studio)

RAG lokal: So wird aus dem Modell ein Wissenssystem

LM Studio RAG („Chat with Documents“)

LM Studio nutzt bei langen Dokumenten RAG-Mechanismen, um relevante Stellen zu „fischen“ und dem Modell als Kontext zu geben – offline. (LM Studio)

RAG-Blueprint (tool-agnostisch)

Wenn du RAG produktiv einsetzen willst (z. B. Produktdokus, Case Studies, Sales Enablement), brauchst du typischerweise:

  • Ingestion: Dokumente → Text → Chunks
  • Embeddings: Chunks → Vektoren (z. B. Ollama Embeddings) (Ollama Dokumentation)
  • Vector Store: Suche nach Top-k relevanten Chunks
  • Prompting: relevante Chunks + Frage → Antwort
  • Evaluation: Trefferqualität + Halluzinations-Rate messen

Marketing-ROI-Hinweis: RAG ist oft der schnellste Pfad zu messbarem Nutzen (Support-Deflection, schnellere Content-Recherche, konsistente Produktantworten) – aber nur, wenn Retrieval-Qualität getestet wird.

Web UI: Open WebUI als „Frontdoor“ für lokale Modelle

Wenn du eine „ChatGPT-ähnliche“ Oberfläche für Ollama brauchst, ist Open WebUI ein gängiges Pattern:

  • designed to operate entirely offline
  • verbindet sich mit Ollama (Ollama API Protocol, typischerweise Port 11434) (Open WebUI)
  • unterstützt auch OpenAI-kompatible APIs (praktisch bei gemischten Backends) (GitHub)

MCP: Tool-Use/Automatisierung ohne Vendor-Lock-in

LM Studio MCP (Host + API)

  • Ab LM Studio 0.3.17 kann die App als MCP Host fungieren (LM Studio)
  • MCP via API ist ebenfalls dokumentiert (Hinweis: Anforderungen/Versionen beachten) (LM Studio)
  • LM Studio warnt explizit: MCP-Server können „arbitrary code“ ausführen/auf Dateien zugreifen – nur vertrauenswürdige Quellen nutzen. (LM Studio)

Ollama MCP Client (Community)

Für Ollama gibt es Community-Clients, die lokale Modelle mit MCP-Servern verbinden (z. B. „MCP Client for Ollama“). (GitHub)

Sicherheit, Compliance & Governance: Der Teil, der Projekte rettet

Das reale Risiko: Exponierte Ollama-Server im Internet

Ende Januar 2026 wurde berichtet, dass >175.000 Ollama-Instanzen durch Fehlkonfiguration öffentlich erreichbar waren (u. a. ohne Passwortschutz) und für Missbrauch genutzt werden können.

Konsequenz für Teams: Sobald du Ollama/LM Studio/Open WebUI „im Netzwerk“ betreibst:

  • nicht direkt ins Internet exposen
  • lieber: VPN / Zero-Trust / Reverse Proxy + Auth, Netzwerksegmentierung, Firewall-Regeln
  • Logging & Zugriffskontrolle definieren (wer darf welche Modelle nutzen?)

Modell-Lizenzen

Auch wenn Tooling open source ist: Modelle haben eigene Lizenzen. Wenn ihr Inhalte extern nutzt (Marketing Assets, Knowledge Bots), gehört ein Lizenz-Check in eure Definition of Done.

Fazit: 3 Empfehlungen nach Szenario

  1. Enablement & schnelle Tests im Marketing/RevOpsLM Studio (GUI, offline, schneller Proof) (LM Studio)
  2. App-/Workflow-Integration (z. B. interne Tools, Automationen, RAG)Ollama (API + Embeddings + Modelfile) (Ollama Dokumentation)
  3. Team-RolloutOllama + Open WebUI + Security/Governance (WebUI + Service-Pattern, aber sauber absichern) (Open WebUI)

Hendrik Schrandt


Sharing is caring