Wo kann man LLMs Self-Hosted betreiben?

In Azure (über Azure ML oder eigene VMs), in GCP (über Vertex AI oder eigene VMs), auf eigenen Servern (On-Premise in TÜV-zertifizierten Rechenzentren) oder hybrid.

Was kostet LLM Self-Hosting?

Die Kosten hängen vom Modell, der Hardware und dem Nutzungsvolumen ab. GPU-Server (NVIDIA A100/H100) sind der größte Kostenfaktor. Bei hohem Nutzungsvolumen ist Self-Hosting oft günstiger als API-basierte Nutzung.

LLM Self-Hosting für Enterprise - Azure, GCP, On-Premise

Q: Welche Sprachmodelle kann man selbst hosten?

Open-Source-Modelle wie Llama (Meta), Mistral, DeepSeek, gpt-oss und ihre Ableitungen können in der eigenen Infrastruktur betrieben werden. Proprietäre Modelle wie Claude (Anthropic) und ChatGPT (OpenAI) sind nur über API verfügbar.

Warum Self-Hosting?

Für viele Enterprise-Kunden ist die Frage nicht ob KI eingesetzt wird, sondern wo die Daten verarbeitet werden. Bei der Nutzung von Cloud-APIs (OpenAI, Anthropic, Google) verlassen Daten die eigene Infrastruktur. Für regulierte Branchen - Finance, Healthcare, öffentlicher Sektor - kann das ein Ausschlusskriterium sein.

Auf einen Blick - LLM Self-Hosting für Enterprise

Self-Hosting hält alle Daten im Unternehmensnetzwerk - kein Drittanbieter-Processing, volle Kontrolle über Modell, Daten und Inferenz.
Open-Source-Modelle (Llama, Mistral, DeepSeek, gpt-oss) können auf Azure ML, GCP Vertex AI, eigenen GPU-Servern oder hybrid betrieben werden.
GPU-Sizing ist der primäre Kostentreiber: Ein 7B-Modell läuft auf einer GPU, ein 70B-Modell braucht mehrere GPUs oder Quantisierung.
Modell-agnostisches Routing erlaubt Agenten, Self-Hosted-Modelle für sensible Daten und Cloud-APIs für unkritische Aufgaben zu nutzen.
Gartner (2024) prognostiziert, dass 45 % der KI-Deployments in regulierten Branchen bis 2027 auf eigener Infrastruktur laufen werden - gegenüber 20 % in 2023.

Self-Hosting bedeutet: Das Sprachmodell läuft in der Infrastruktur des Kunden. Keine Daten verlassen das Unternehmensnetzwerk, was volle Data Residency garantiert. Kein Drittanbieter verarbeitet die Anfragen. Volle Kontrolle über Modell, Daten und Verarbeitung.

Welche Modelle kann man Self-Hosted betreiben?

Open-Source-Modelle können in der eigenen Infrastruktur betrieben werden:

Llama (Meta): Verschiedene Größen (8B, 70B, 405B Parameter). Leistungsfähig, gut dokumentiert, große Community.

Mistral: Europäisches Modell. Mistral 7B, Mixtral 8x7B. Gutes Preis-Leistungs-Verhältnis, effizient.

DeepSeek: Verschiedene Varianten inkl. DeepSeek-R1 für Reasoning-Aufgaben. Besonders gutes Preis-Leistungs-Verhältnis.

gpt-oss (OpenAI): Erstes Open-Source-Modell von OpenAI unter Apache 2.0. gpt-oss-120b (117B Parameter, MoE, läuft auf einer einzelnen 80-GB-GPU) und gpt-oss-20b für Edge-Szenarien.

Proprietäre Modelle (Claude, ChatGPT, Gemini) sind nicht Self-Hosted verfügbar, können aber über API mit EU-Processing genutzt werden.

In der modell-agnostischen Architektur kann ein Agent mehrere Modelle nutzen: Self-Hosted für sensible Daten, Cloud-API für unkritische Aufgaben. Das Routing ist regelbasiert und im Decision Layer konfiguriert.

Deployment-Optionen

Azure: LLMs können auf Azure ML deployed oder auf dedizierten GPU-VMs (NC-Series, ND-Series) betrieben werden. Integration mit Azure Entra ID für Authentifizierung und Zugriffskontrolle. Verarbeitung in EU-Rechenzentren (West Europe, North Europe).

GCP: Deployment über Vertex AI oder auf dedizierten GPU-VMs (A2, G2). Integration mit Google Cloud IAM. Verarbeitung in EU-Rechenzentren (europe-west1, europe-west4).

On-Premise: Eigene Server mit NVIDIA GPUs (A100, H100, RTX 4000 Ada). Betrieb in TÜV-zertifizierten Rechenzentren in Deutschland. Maximale Kontrolle, keine Cloud-Abhängigkeit.

Hybrid: Kombination aus Self-Hosted und Cloud. Sensible Workloads lokal, unkritische in der Cloud. Einheitliche Governance über beide Umgebungen.

Kriterium	Self-Hosted	Cloud API
Data Residency	Volle Kontrolle, Daten bleiben On-Premise	Anbieterabhängig, EU-Regionen verfügbar
Modellauswahl	Nur Open Source (Llama, Mistral, DeepSeek)	Proprietär + Open Source via API
Kosten bei Skalierung	Niedriger (fixe GPU-Kosten, keine Token-Gebühren)	Höher (Token-Preise skalieren linear)
Betriebsaufwand	Hoch (GPU-Management, Updates, HA)	Niedrig (vom Anbieter verwaltet)
Latenz	Niedrig (lokales Netzwerk)	Variabel (netzwerkabhängig)

Kostenloses eBook: AI Infrastructure

Build, Buy, Hybrid - EU AI Act-konforme Infrastruktur mit B/B/H-Framework und 7-Layer Reference Architecture.

Jetzt kostenlos herunterladen

Architekturüberlegungen

GPU-Sizing: Die Modellgröße bestimmt den GPU-Bedarf. Ein 7B-Modell läuft auf einer einzelnen GPU. Ein 70B-Modell braucht mehrere GPUs oder Quantisierung. Die richtige Dimensionierung hängt vom Anwendungsfall ab.

Inference-Optimierung: Techniken wie Quantisierung (4-bit, 8-bit), Batching und KV-Cache-Optimierung reduzieren den Ressourcenbedarf bei akzeptablem Qualitätsverlust.

Hochverfügbarkeit: Für produktive Systeme: Redundante GPU-Server, Load Balancing, automatisches Failover. Kein Single Point of Failure.

Modell-Updates: Neue Modellversionen müssen getestet werden, bevor sie in Produktion gehen. Ein Staging-Environment für Modell-Tests ist Teil der Infrastruktur.

Mehr dazu: KI-Infrastruktur

Termin vereinbaren - Wir zeigen Ihnen die optimale Hosting-Strategie für Ihre Anforderungen.

Bert Gogolin

Geschäftsführer, Gosign

AI Governance Briefing

Enterprise AI, Regulierung und Infrastruktur - einmal im Monat, direkt von mir.