LLM Self-Hosting für Enterprise - Azure, GCP, On-Premise
Sprachmodelle Self-Hosted betreiben: DeepSeek, Llama, Mistral. Deployment auf Azure, GCP, On-Premise oder Hybrid. Entscheidungshilfe für CTOs
Warum Self-Hosting?
Für viele Enterprise-Kunden ist die Frage nicht ob KI eingesetzt wird, sondern wo die Daten verarbeitet werden. Bei der Nutzung von Cloud-APIs (OpenAI, Anthropic, Google) verlassen Daten die eigene Infrastruktur. Für regulierte Branchen - Finance, Healthcare, öffentlicher Sektor - kann das ein Ausschlusskriterium sein.
Auf einen Blick - LLM Self-Hosting für Enterprise
- Self-Hosting hält alle Daten im Unternehmensnetzwerk - kein Drittanbieter-Processing, volle Kontrolle über Modell, Daten und Inferenz.
- Open-Source-Modelle (Llama, Mistral, DeepSeek, gpt-oss) können auf Azure ML, GCP Vertex AI, eigenen GPU-Servern oder hybrid betrieben werden.
- GPU-Sizing ist der primäre Kostentreiber: Ein 7B-Modell läuft auf einer GPU, ein 70B-Modell braucht mehrere GPUs oder Quantisierung.
- Modell-agnostisches Routing erlaubt Agenten, Self-Hosted-Modelle für sensible Daten und Cloud-APIs für unkritische Aufgaben zu nutzen.
- Gartner (2024) prognostiziert, dass 45 % der KI-Deployments in regulierten Branchen bis 2027 auf eigener Infrastruktur laufen werden - gegenüber 20 % in 2023.
Self-Hosting bedeutet: Das Sprachmodell läuft in der Infrastruktur des Kunden. Keine Daten verlassen das Unternehmensnetzwerk, was volle Data Residency garantiert. Kein Drittanbieter verarbeitet die Anfragen. Volle Kontrolle über Modell, Daten und Verarbeitung.
Welche Modelle kann man Self-Hosted betreiben?
Open-Source-Modelle können in der eigenen Infrastruktur betrieben werden:
Llama (Meta): Verschiedene Größen (8B, 70B, 405B Parameter). Leistungsfähig, gut dokumentiert, große Community.
Mistral: Europäisches Modell. Mistral 7B, Mixtral 8x7B. Gutes Preis-Leistungs-Verhältnis, effizient.
DeepSeek: Verschiedene Varianten inkl. DeepSeek-R1 für Reasoning-Aufgaben. Besonders gutes Preis-Leistungs-Verhältnis.
gpt-oss (OpenAI): Erstes Open-Source-Modell von OpenAI unter Apache 2.0. gpt-oss-120b (117B Parameter, MoE, läuft auf einer einzelnen 80-GB-GPU) und gpt-oss-20b für Edge-Szenarien.
Proprietäre Modelle (Claude, ChatGPT, Gemini) sind nicht Self-Hosted verfügbar, können aber über API mit EU-Processing genutzt werden.
In der modell-agnostischen Architektur kann ein Agent mehrere Modelle nutzen: Self-Hosted für sensible Daten, Cloud-API für unkritische Aufgaben. Das Routing ist regelbasiert und im Decision Layer konfiguriert.
Deployment-Optionen
Azure: LLMs können auf Azure ML deployed oder auf dedizierten GPU-VMs (NC-Series, ND-Series) betrieben werden. Integration mit Azure Entra ID für Authentifizierung und Zugriffskontrolle. Verarbeitung in EU-Rechenzentren (West Europe, North Europe).
GCP: Deployment über Vertex AI oder auf dedizierten GPU-VMs (A2, G2). Integration mit Google Cloud IAM. Verarbeitung in EU-Rechenzentren (europe-west1, europe-west4).
On-Premise: Eigene Server mit NVIDIA GPUs (A100, H100, RTX 4000 Ada). Betrieb in TÜV-zertifizierten Rechenzentren in Deutschland. Maximale Kontrolle, keine Cloud-Abhängigkeit.
Hybrid: Kombination aus Self-Hosted und Cloud. Sensible Workloads lokal, unkritische in der Cloud. Einheitliche Governance über beide Umgebungen.
| Kriterium | Self-Hosted | Cloud API |
|---|---|---|
| Data Residency | Volle Kontrolle, Daten bleiben On-Premise | Anbieterabhängig, EU-Regionen verfügbar |
| Modellauswahl | Nur Open Source (Llama, Mistral, DeepSeek) | Proprietär + Open Source via API |
| Kosten bei Skalierung | Niedriger (fixe GPU-Kosten, keine Token-Gebühren) | Höher (Token-Preise skalieren linear) |
| Betriebsaufwand | Hoch (GPU-Management, Updates, HA) | Niedrig (vom Anbieter verwaltet) |
| Latenz | Niedrig (lokales Netzwerk) | Variabel (netzwerkabhängig) |
Kostenloses eBook: AI Infrastructure
Build, Buy, Hybrid - EU AI Act-konforme Infrastruktur mit B/B/H-Framework und 7-Layer Reference Architecture.
Jetzt kostenlos herunterladenArchitekturüberlegungen
GPU-Sizing: Die Modellgröße bestimmt den GPU-Bedarf. Ein 7B-Modell läuft auf einer einzelnen GPU. Ein 70B-Modell braucht mehrere GPUs oder Quantisierung. Die richtige Dimensionierung hängt vom Anwendungsfall ab.
Inference-Optimierung: Techniken wie Quantisierung (4-bit, 8-bit), Batching und KV-Cache-Optimierung reduzieren den Ressourcenbedarf bei akzeptablem Qualitätsverlust.
Hochverfügbarkeit: Für produktive Systeme: Redundante GPU-Server, Load Balancing, automatisches Failover. Kein Single Point of Failure.
Modell-Updates: Neue Modellversionen müssen getestet werden, bevor sie in Produktion gehen. Ein Staging-Environment für Modell-Tests ist Teil der Infrastruktur.
Mehr dazu: KI-Infrastruktur
Termin vereinbaren - Wir zeigen Ihnen die optimale Hosting-Strategie für Ihre Anforderungen.

Bert Gogolin
Geschäftsführer, Gosign
AI Governance Briefing
Enterprise AI, Regulierung und Infrastruktur - einmal im Monat, direkt von mir.