TCO von KI-Inferenz: Self-Hosting vs. EU-Cloud im Mittelstand

TCO von KI-Inferenz: Self-Hosting vs. EU-Cloud im Mittelstand

// von conceptmonkey // Lesezeit ~ 12 Min

KI-Kosten, Compliance- und Datenschutzaspekte und geopolitische Überlegungen führen manch einen in Europa zu der Überlegung, dass lokal oder auf eigenen Infrastrukturen gehostete KI-Modelle der optimale Ansatz sind. Modelle wie das NVidia Nemotron oder das OpenAI GPT-OSS und ebenso Modelle von Mistral haben dazu beigetragen, dass diese Option immer interessanter wurde. Vor kurzem wurde mit dem GLM-5.2 ein weiteres Modell veröffentlicht, das ebenfalls open weights verfügbar ist. Das Besondere ist, dass dieses Modell in der Frontier-Gewichtsklasse (~ 700 Milliarden Parameter) mitspielt und in einigen Berichten mit einem Opus von Anthropic verglichen wird.

Viele Entscheider lesen solche Schlagzeilen über open-weights Frontier-Modelle und kommen zu einem naheliegenden Schluss: Wenn das Modell quasi kostenlos verfügbar ist, sollten wir es selbst hosten — zugunsten der Unabhängigkeit von Anbietern, mit voller Datenkontrolle. Die Logik ist verständlich und absolut nachvollziehbar. Aber: Es ist wichtig, zuvor ein wenig Mathematik zu betreiben.

Dies ist Teil 2 einer dreiteiligen Mini-Serie zur KI-Souveränität für den Mittelstand. Teil 1 behandelt geopolitischen Aspekte mit Fable Un-plugged: Europa diskutiert / Teil 3 behandelt KI-Architektur als strategischer Imperativ .

Die Kosten für KI-Inferenz hängen von der Modellgröße ab: Cloud-APIs ermöglichen Pay-per-Use-Abrechnungen ab ca. 240 €/Monat für KMU. Der lokale Betrieb von Frontier-Modellen (700B+ Parameter) erfordert hingegen GPU-Cluster-Investitionen von 250.000–500.000 € CapEx — für über 90 % der Mittelständler wirtschaftlich nicht tragbar.

Szenario: GLM-5.2 Self-Hosting

Der Überblick: GLM-5.2 von Z.ai (Juni 2026):

  • MoE-Architektur (Mixture of Experts),
  • rund 744 Milliarden Gesamtparameter,
  • Kontextfenster bis 1 Million Token.

Laut manchen Tests und Benchmarks handelt es sich hiermit um ein Modell, das einige westliche (proprietäre) Modelle übertrifft und ebenso open weights verfügbar ist.

Was bedeutet das für einen produktiven Multi-User-Betrieb?

KomponenteAnnahmeVRAM-Bedarf
ModellgewichteFP8-Quantisierung~750 GB
ModellgewichteFP16 (volle Präzision)~1.500 GB
KV-Cache1M Token, wenige parallele Sessions+250–400 GB
Summe (FP8)>1 TB

Zum Verständnis: FP8-Quantisierung ist ein komprimiertes Zahlenformat, das den Speicherbedarf gegenüber 16-Bit-Gewichten halbiert — auf Kosten leicht reduzierter Präzision, die in den meisten Anwendungsfällen akzeptabel ist. Der KV-Cache ist der Arbeitsspeicher für laufende Konversationen. MoE (Mixture of Experts) bedeutet, dass pro Anfrage nur ein Teil der Parameter aktiv ist — was die Effizienz steigert, den Gesamt-VRAM-Bedarf aber nicht senkt.

VRAM-Bedarf von Frontier-LLMs berechnen

Um es sehr klar zu sagen: Für > 1TB VRAM reicht kein Büro-Server, sondern man muss einen GPU-Cluster zur Verfügung haben. Beispielsweise mehrere H200-Nodes à 8×80–141 GB. CapEx allein: 250.000 bis 500.000 Euro aufwärts, abhängig von der Ausstattung und Redundanz. Hinzu kommen Kühlung, Strom (was nicht unterschätzt werden sollte), Wartung und Personalkosten (ML-Ops).

Und: Obsoleszenz innerhalb von 18–24 Monaten, wenn die nächste Modellgeneration erscheint.

Für kleinere Unternehmen ist das keine wirtschaftliche Option — auch nicht als Souveränitätsstrategie.

Umgekehrt betrachtet: Was bekommt man z.B. für ~2.700 €/Monat?

Wenden wir den Blickwinkel von den Frontier-Modellen hin zur praktischen Mittelstands-Perspektive: Was ist realistisch, wenn man nicht 250.000 € Investitionssumme in die Hand nimmt, sondern ein dediziertes GPU-Mietmodell nutzt?

Ein konkretes Beispiel: Hetzner bietet (Stand Juni 2026) mit dem GEX131 einen dedizierten GPU-Server an — ausgestattet mit einer NVIDIA RTX PRO 6000 Blackwell Max-Q (96 GB GDDR7 VRAM), Intel Xeon Gold 5412U, bis 768 GB DDR5 ECC RAM und 4× 3,84 TB NVMe. Der Preis liegt bei rund 2.736 €/Monat in der größten Ausbaustufe — inklusive vollem Root-Zugriff, deutschem Vertragspartner und DSGVO-konformem AV-Vertrag.

Welche Modelle lassen sich in einen 96 GB großen VRAM tatsächlich laden?

ModellParameterVRAM (FP8)VRAM (FP16)Passt auf GEX131?
Llama 3 70B70B~72 GB~140 GBFP8: ja (knapp) · FP16: nein
Qwen 2.5 72B72B~74 GB~144 GBFP8: ja (knapp) · FP16: nein
Mistral Large 2123B~126 GB~246 GBNein
DeepSeek V3671B (MoE)~700 GB~1.350 GBNein (7× zu wenig)
GLM-5.2744B (MoE)~750 GB~1.500 GBNein (8× zu wenig)

Was den VRAM betrifft, liegt die Grenze somit bei Modellen der ~70B Parameter-Klasse in FP8 — das sind dann schon gute Modelle, die für einige Use-Cases ausreichen. Frontier-Modelle wie GLM-5.2 bleiben jedoch völlig außer Reichweite: Man bräuchte 8–10× diesen Server mit NVLink-Interconnect in einem Cluster — spricht dann von ~22.000–27.000 €/Monat, und keinesfalls von 2.736 €.

Hinweis: Der 768 GB System-RAM ist kein Ersatz für VRAM. Modellgewichte lassen sich zwar auf RAM auslagern (offloading), aber dann läuft die Inferenz über PCIe (~128 GB/s) statt über GDDR7 (~1.800 GB/s). Bei einem 700B-Modell bedeutet das Minuten pro Token, nicht Tokens pro Sekunde. Parallelzugriffe noch nichtmal betrachtet. Hinzu kommt bei MoE-Modellen wie GLM-5.2 ein weiterer Flaschenhals: Nicht nur die reine VRAM-Größe ist entscheidend, sondern die Speicherbandbreite. Selbst wenn man das Modell auf viele langsame Karten verteilt, wird die Inferenz quälend langsam — die Expert-Routing-Logik erfordert ständigen Speicherzugriff, den Consumer-GPUs nicht liefern können.

Die Überlegungen zeigen die praktischen Grenzen des Self-Hosting für den Mittelstand: Dedizierte EU-GPU-Server sind eine realistische Option für Modelle bis 70B — für Frontier-Modelle bleibt externe Inferenz die einzige wirtschaftlich vertretbare Alternative. Vielleicht wird es in Zukunft günstigere Optionen geben, aber wenn aktuell große Modelle schnell antworten sollen, ist das nicht der Fall.

TCO-Vergleich: Lokale KI vs. Cloud-API — wann amortisiert sich eigener Server?

Ein TCO-Vergleich von ai-prices.eu macht die Rechnung konkret — am Beispiel Llama 3.3 70B bei typischer Mittelstands-Workload (Mo–Fr 9–18 Uhr, ca. 45 h/Woche):

SetupUpfront-CostMonatliche KostenAnmerkung
Cloud-API (STACKIT, IONOS, AWS Bedrock)0 €~240 €Pay-per-use, nur was verbraucht wird
Lokal (2× H100 PCIe, On-Premises)~55.000–70.000 €~1.840 €2× H100 PCIe (~23.000 €/Stück) + PCIe-Server-Chassis (10.000–25.000 €); monatlich: Strom + Wartung + Amortisation
Dedicated GPU-Leasing (z. B. Hetzner GEX131)0 €~2.736 €Fixkosten, 96 GB VRAM, 70B in FP8; inkl. Strom, Wartung, Rechenzentrum

Upfront-Costs für das lokale Setup beinhalten GPUs und Server-Chassis. Nicht eingerechnet: Rack-Infrastruktur, Kühlung, Stromanschluss — je nach vorhandener Infrastruktur können weitere 10.000–50.000 € anfallen (Quelle: H100-Preisführer 2026 ).

Break-Even für lokales Hosting entsteht erst bei ≥ 70 % Auslastung (24/7) — nach 12–18 Monaten. Bei typischer Büro-Workload (15–25 % Auslastung über 24/7) gewinnt die Cloud fast immer. Der ai-prices.eu-Rechner liefert detaillierte Szenarien inklusive Strom, Amortisation und Auslastungsprofil.

Pragmatischster Weg für viele Mittelständler: Hybrid — sensible Daten auf lokaler GPU (z. B. GEX131 mit 70B-Modell), unkritische Workloads über Cloud-API. Die GPU-Investition bleibt überschaubar, die Cloud-Kosten reduziert. Wichtig ist die Analyse des konkreten Anforderungsprofils. Kleine Modelle (z.B. Qwen3.5 ) können z.B. via Ollama auf dem individuellen Rechner laufen. Auf diesem Wege kann für einige Anwendungsfälle bereits eine lokale Grafikkarte ausreichen. Das macht auch deshalb häufig Sinn, da parallele Requests hier nicht auftreten (im Vergleich zu einem Produktiv-Szenario für ein Team). Sobald die Arbeit aber komplexe Datenszenarien und parallele Zugriffe betrifft, dabei die Qualität der Antworten kritisch ist, muss eine professionelle Lösung her.

TIPP: Es lohnt sich, die unterschiedlichen Bedarfe und Anwendungen im Unternehmen aufzuschlüsseln, und die Eignung hybrider Ansätze zu prüfen.

Offene Frontier-LLMs und strategische Komplexität

Es geht aus europäischer Unternehmenssicht nicht mehr alleine um die Wahl zwischen „US oder China?“. Wenn Modelle wie GLM-5.2 existieren und theoretisch betrieben werden können, geht es um die Abwägung, ob und wie ein Unternehmen die Inferenz-Kapazität von der es sich abhängig macht, überhaupt kontrollieren sollte — und damit kaufen, mieten oder selbst betreiben. Das Vorhandensein solcher Modelle (als On-Premise-Option) erhöht also den Druck für die strategische Ableitung. Die Kontrolle über Inferenz-Kapazitäten wird zur geschäftskritischen Fragestellung.

API-Kosten im Vergleich: GLM-5.2 vs. Claude Opus 4.8 vs. GPT-5.5

Wenn Self-Hosting ausscheidet, bleibt die API-Option. Hier schlägt China mit dem GLM-5.2 mit einem völlig anderen Preisniveau als US-Anbieter auf:

ModellInput ($/M Tokens)Output ($/M Tokens)LizenzDSGVO-konform?
GLM-5.2 (Z.ai API)$1,40$4,40MIT (Open Weights)Nein — API läuft auf chinesischer/US-Infrastruktur, kein AVV
Claude Opus 4.8 (Anthropic)$5,00$25,00ProprietärBedingt — EU-Region via AWS Bedrock, aber US-Cloud-Act-Nexus
GPT-5.5 (OpenAI)$5,00$30,00ProprietärBedingt — EU DataZone-Region verfügbar, aber US-Cloud-Act-Nexus

GLM-5.2 ist bei Output-Tokens 5,7× günstiger als Claude Opus 4.8 und 6,8× günstiger als GPT-5.5. Bei 100 Mio. Output-Tokens kostet GLM-5.2 rund 440 $ — Claude Opus 4.8 schlägt mit 2.500 $ zu Buche (Quelle: it-rex.de ).

Die Benchmark-Lücke ist dabei schmal: Auf BenchLM liegt GLM-5.2 mit 94 Punkten knapp vor Claude Opus 4.8 (93 Punkte). Im Agentic-Bereich führt GLM-5.2, bei langen agentischen Workflows und regulierten Tasks bleibt Claude Opus 4.8 vorne.

Aber: Der Preisvorteil gilt nur für die Z.ai-API — und die läuft auf chinesischer Infrastruktur. Die Bedenken dabei liegen auf der Hand, was die Verarbeitung von unternehmenskritische oder sensible Daten betrifft. Für den DSGVO- und Compliance-konformen Produktivbetrieb müsste GLM-5.2 selbst gehostet werden (siehe oben: >1 TB VRAM, 250.000–500.000 € CapEx). Und das ist genau die Zwickmühle: Das günstigste Frontier-Modell ist nur günstig, wenn man es nicht selbst hosten muss — und nur dann, wenn man die Risiken der chinesischen API in Kauf nimmt. Die reinen Token-Kosten sind zudem trügerisch: Ein einziger DSGVO-Verstoß oder ein Fall von IP-Diebstahl über die chinesische API kann die eingesparten Token-Kosten um ein Vielfaches übersteigen.

Ein theoretischer Ausweg bieten Third-Party-Provider wie OpenRouter, Together.ai oder Lambda Cloud, die GLM-5.2 auf US-Infrastruktur anbieten — aber auch hier gilt: US-Nexus bedeutet Cloud-Act-Zugriffsrisiko und inzwischen Ausfallrisiken aufgrund von Policy-Änderungen. Eigentlich wird klar, dass Europa hier die eigene Inferenz-Grundversorgung benötigt, die Skaleneffekte erlaubt und die rechtlichen Rahmenbedingungen sowie Datensouveränität gewährleistet.

Allerdings: Das bedeutet noch nicht, dass wenn dieses gelingt, alles automatisch besser wird. Es braucht noch eine Strategie, wie man diese Kapazität effizient nutzt. Wie Lieferketten optimiert werden und die Energiefrage geklärt ist. Zudem würde eine europäische Inferenz-Infrastruktur noch nicht bedeuten, dass Europa nun auch ein Big Player in dem Training von leistungsfähigen Modellen würde.

Unterscheidung: Training vs. Inferenz

“Compute”: Zwei konzeptuell verschiedene Workloads werden oft verwechselt:

Training-Compute ist das einmalige oder periodische Lernen: Ein Modell verarbeitet riesige Datensätze und optimiert Milliarden von Gewichten. Gemessen in FLOP — GPT-3 benötigte schätzungsweise 3.640 Petaflop-Tage. Hardware-Anforderungen: extrem hoch, dauerhaft über Wochen. Für den Mittelstand weitgehend irrelevant — Training von Frontier-Modellen ist Hyperscaler- und Forschungsdomäne.

Inferenz-Compute ist das laufende Ausführen: Ein Modell beantwortet Anfragen, generiert Texte, verarbeitet Dokumente. Gemessen in Tokens pro Sekunde und Latenz. Hier liegt der operative Alltag des Mittelstands. Und hier liegt auch aus Sicht vieler Experten der strategisch sinnvolle Fokus für europäische Infrastruktur-Investitionen.

Die europäische Infrastruktur-Landschaft

Was klar sein muss: Kein EU-Anbieter repliziert die Skala der US-Hyperscaler. Der einzig nennenswerte Modell-Provider (Sprachmodelle) aus Europa ist Mistral. Doch wie sieht es ansonsten aus? Die folgende Übersicht ist exemplarisch, nicht vollständig (!) und fokussiert auf DACH (Stand: Juni 2026).

Infrastruktur- / Server-Anbieter

  • STACKIT (Schwarz Gruppe, DE) — Souveräne Cloud mit Fokus auf deutsche/EU-Compliance, KRITIS-Nähe und Mittelstand. GPU-Angebote zielen darauf, Inferenz ohne Eigen-Cluster zu ermöglichen.
  • OVHcloud (FR) — Europas größter Cloud-Anbieter mit eigenen NVIDIA-Cluster-Investitionen; strikte EU-Souveränität, starke Open-Source-Verankerung.
  • Scaleway (FR) — Cloud-Anbieter mit dedizierten AI-Instanzen und GPU-Verfügbarkeit unter EU-Jurisdiktion.
  • IONOS (DE) — BSI-C5-zertifizierter Enterprise-Cloud-Anbieter mit Fokus auf deutsche Compliance und KMU-Segment.
  • Hetzner (DE) — Bare-Metal- und Cloud-Anbieter mit starkem Preis-Leistungs-Verhältnis; verbreitet für Entwickler-Workloads und ML-Ops-Deployments.
  • Mittwald (DE) — Deutscher Webhosting-Anbieter mit dediziertem AI Hosting: OpenAI-kompatibler API-Endpunkt, Rechenzentrum in Espelkamp, kein Datentransfer in die USA, kein Training auf Kundendaten.

AI Plattformen / KI-Hubs (Applikationsschicht)

Diese Kategorie ist konzeptuell von Infrastruktur-Anbietern zu trennen: Sie stellen keine GPU-Kapazität bereit, sondern Orchestrierungs- und Governance-Schichten über mehrere Modelle hinweg — mit EU-Datenhaltung und Compliance-Fokus. Zu nennen etwa:

  • Langdock (DE, Berlin) — Enterprise AI Hub mit Zugang zu 40+ LLMs über eine einzige DSGVO-konforme Oberfläche. ISO 27001 + SOC 2 Type II zertifiziert; alle Daten ausschließlich auf EU-Infrastruktur. Contractual No-Training-Guarantee auch gegenüber upstream Modell-Anbietern. 1.500+ Enterprise-Kunden (Stand 2026).
  • neuland.ai (DE) — KI-Management- und Orchestrierungsplattform mit Forschungskooperation mit dem Forschungszentrum Jülich (Exascale-Supercomputer). EU-Hosting oder On-Premises; Abdeckung DSGVO, DORA, BRAO.

Pragmatische Brückenbauer (Sovereign Clouds)

  • T-Systems Sovereign Cloud / Delos Cloud — Konstrukte, bei denen europäische Provider die Technologie der US-Hyperscaler (Google Cloud, Microsoft) als Treuhänder oder in isolierten Umgebungen betreiben — mit deutschem Vertragspartner und rechtlichem Schutzschild.

Europäische Modell-Anbieter

Das einzig relevante Pferd im Stall ist Mistral, wenn es um Sprachmodelle mit verschiedenen Ausprägungen geht.

  • Mistral (FR) — Europäischer Anbieter von General-Purpose-LLMs mit Open-Weights-Linie und La Plateforme API; gut integriert in europäische Cloud-Infrastrukturen.

Im Kontext von Modell-Entwicklung gibt es aber auch weitere Akteure, bekannt etwa:

  • Aleph Alpha (DE) — Nach Strategiewechsel Anfang 2026 und dem Einstieg von Cohere Orchestrierungs- und Compliance-Plattform für B2B- und Behördensektor.
  • DeepL (DE) — Spezialisiert auf B2B-Sprach-KI (NLP, Übersetzung) mit striktem Datenschutz-Ansatz.
  • Black Forest Labs (DE) — FLUX-Modellfamilie für visuelle KI (Bildgenerierung, Video); Open-Weights-Varianten verfügbar.

Hardware-Souveränität: ein tiefergreifendes Problem

Die Hardware-Souveränität ist ein tiefergreifendes Problem, die bei der Diskussion über Rechenzentren vielleicht häufig übersehen wird.

Halbleiter-Produktion

Die Politik feiert europäische Halbleiter-Werke wie die ESMC (TSMC-Tochter) in Dresden. Für die gesamte KI-Infrastruktur ergibt sich daraus jedoch leider keine Lösung.

Das Dresdner Werk fertigt 12–28 Nanometer — relevant für Automotive, IoT, Maschinenbau. KI-Beschleuniger der Spitzenklasse erfordern 3–5-nm-Fertigung sowie hochkomplexes Advanced Packaging (CoWoS). Diese Kapazitäten existieren fast ausschließlich in Taiwan. Auch 2026 gibt es keine europäische Fabrik, die KI-Chips der Spitzenklasse herstellen kann.

Das ASML-Paradoxon

Das niederländische Unternehmen hält ein weltweites Monopol auf EUV-Lithographie-Maschinen. Ohne diese Maschinen kann keine Spitzen-KI-Chipfabrik operieren — weder TSMC noch sonst jemand. Europa besitzt also einen entscheidenden Produktionshebel der globalen Chip-Lieferkette, aber gleichzeitig keine eigene Spitzenfertigung.

–> Geopolitischer Hebel auf der Makro-Ebene, operative Ohnmacht auf Mikro-Ebene.

Rationaler Ansatz: Mieten statt kaufen

Aus TCO-Sicht ist für die meisten Mittelständler die Miete dedizierter GPU-Kapazitäten rationaler als Investitionsausgaben für eigene H100-Racks.

Die Vorteile von Miete:

  • Obsoleszenz liegt beim Provider
  • Skalierung ist elastisch
  • CapEx wird zu kontrollierbarem OpEx
  • Geringere Personalkosten (ML-Ops)
  • Compliance-Zertifizierung liegt beim Anbieter

Die kritische Einschränkung in diesem Zusammenhang: Kein EU-Anbieter löst derzeit das strukturelle Compute-Defizit gegenüber den USA. Es gibt Initiativen zum Aufbau von Kapazitäten, doch Höhenflüge sind hier noch nicht zu erwarten.

Nüchterne Vision: Mindestkapazitäten schaffen

Bei KI-Trainings-Kapazitäten mit den Hyperscalern gleichzuziehen ist weder wirtschaftlich noch zeitlich realistisch, kurzum illusorisch. Die EU-Gigafactory-Initiative im Rahmen des AI Continent Action Plans setzt deshalb nicht auf eine direkte Konkurrenz, sondern auf strategische Mindestkapazitäten. Die Frage dahinter lautet, ob Europa genügend Inferenz-Kapazität unter EU-Jurisdiktion bereitstellen kann, um kritische Prozesse im Krisenfall priorisiert zu versorgen.

Diese Frage hängt nicht nur an ein paar Rechenzentren, sondern ebenso an Lieferketten (Vgl. TSMC-Chip-Abhängigkeit), der Energieinfrastruktur und langfristigen Investitionsprioritäten. Auf EU-Ebene muss hier strategisch und entschlossen zusammengearbeitet werden.

Der Mittelstand kann hier nicht auf Parität (EU vs. US vs. China) setzen, aber immerhin auf Planbarkeit: Welche Workloads laufen bei welchem Szenario wo und zu welchem Preis und Risiko?

Nüchtern bedeutet die Situation aber auch, dass sich Europa im KI-Wettstreit auf der Ebene der besten KI-Modelle nicht kompetitiv positionieren können wird. Denn noch geht es darum, die eigene Inferenz-Infrastruktur sicherzustellen.

Dass diese Planbarkeit nicht optional ist, zeigt übrigens auch der regulatorische Druck: Ab dem 2. August 2026 gelten erste EU-AI-Act-Auflagen — Inventur aller KI-Anwendungen, Risikoanalysen, Kontrollstrukturen. Wer seine KI-Infrastruktur nicht lückenlos dokumentieren kann, fällt beim NIS2-Audit durch. Regulatorische Rahmenbedingungen und Umsetzungsfragen behandelt auch Teil 3 dieser Mini-Serie .


Teil 3 dieser Mini-Serie behandelt die konkreten Architektur-Ansätze für den Mittelstand — für CTOs und Enterprise Architekten: KI-Architektur als strategischer Imperativ .

Die vollständige Analyse findet sich im Überblicksartikel zur KI-Souveränität 2026 .