Artikel ‧ Juli 2025
Die sich wandelnde Landschaft der LLM-Inference-Services
Wie Inferenz, Multi-Provider-Routing und mehrschichtige Märkte die Rechenlandschaft neu gestalten
Einführung
Seit Anfang 2024 hat sich die Nachfrage nach LLM-Diensten (Large Language Model) von isolierten Tests zu einer kontinuierlichen, volumenstarken Nutzung in Produktionsumgebungen verlagert. Diese Verlagerung zeigt sich insbesondere darin, wie Unternehmen Inferenz (den Prozess der Generierung von Antworten unter Verwendung eines trainierten Modells) durchführen.
Zwei technische und wirtschaftliche Faktoren erklären diese Veränderung. Erstens unterscheiden sich Training und Inferenz in ihrer Funktionsweise: Training ist ein kapitalintensiver Batch-Prozess zum Erstellen von Modellen, während Inferenz eine latenzempfindliche, wiederholbare Aufgabe ist, die millionenfach pro Tag ausgeführt wird. Diese beiden Prozesse erfordern unterschiedliche Infrastrukturen und wirtschaftliche Rahmenbedingungen. Zweitens ist eine neue Ebene von Dienstleistern entstanden, die sich mit der Bereitstellung von Inferenz befassen. Diese Anbieter betreiben keine eigene physische Infrastruktur.
Stattdessen erwerben sie Rechenzeit von Cloud-Plattformen und stellen diese über vereinfachte Zugangspunkte zur Verfügung. Dies hat zu einer mehrschichtigen Marktstruktur geführt, in der der Wert zunehmend nicht mehr davon abhängt, wem die Server gehören, sondern wer den Zugang zu den Modellen kontrolliert. Diese Struktur lässt sich anhand von vier Ebenen verstehen: Chipherstellung, Cloud-Infrastruktur, Modell-Serving-APIs und Integrationsplattformen.
Technischer Kontext
Der Aufbau eines LLM beginnt mit dem Training: Milliarden von Tokens werden über Tage oder Wochen hinweg durch Cluster spezialisierter Prozessoren – Nvidia H100, Google TPU v5e oder ähnliche – geschleust, bis die Parameter des Modells konvergieren. Diese Phase ist sequenziell, kapitalintensiv und wird nach der Festlegung einer Modellfamilie selten wiederholt.
Die Inferenz folgt: Das fertige Modell wird in den Speicher geladen, erhält eine Eingabeaufforderung und generiert innerhalb von wenigen Millisekunden eine Antwort. Da dieser Schritt möglicherweise millionenfach pro Stunde ausgeführt wird, hängt seine Wirtschaftlichkeit von vorhersehbarer Latenz, niedrigen Kosten pro Anfrage und kontinuierlicher Hardwareverfügbarkeit ab. Jede Verzögerung oder jeder Kostenanstieg auf der Inferenzebene wirkt sich direkt auf die Benutzererfahrung und die Marge aus.
Um Inferenz in großem Maßstab zu ermöglichen, hat sich der Markt zu vier funktionalen Ebenen entwickelt, von der Siliziumproduktion bis hin zu Integrationswerkzeugen. Am wichtigsten ist nicht mehr der Besitz der Server, sondern die Kontrolle über den Zugangspunkt, der jede Anfrage an die richtige Hardware und das richtige Modell weiterleitet.
| Layer | Primäre Rolle | Repräsentative Akteuter | |
|---|---|---|---|
| L0 | Silizium | Herstellung KI-Beschleuniger | Nvidia (H100), Google (TPU v5e), GroqChip |
| L1 | Cloud Fabric | Leasing von beschleunigten Clustern | AWS, Azure, Google Cloud, CoreWeave |
| L2 | Modell-APIs | Bereitstellung proprietärer oder offener Modelle | OpenAI, Anthropic, Google Gemini |
| L3 | Integration Hubs | Bündeln von Routing, Kostenkontrolle und Entwicklertools | Perplexity, Together.ai, Replicate |
Diese Schichtung erklärt, warum Unternehmen ohne physische Rechenzentren dennoch den Datenverkehr und die Einnahmen dominieren können. Indem sie die Komplexität der Hardware hinter stabilen Preisen und einfachen Schnittstellen abstrahieren, erfassen sie die entscheidende Verbindung zwischen der Nachfrage der Endnutzer und der reinen Rechenleistung – und überlassen es den Infrastrukturbesitzern, sich im Wettbewerb um Durchsatz und Preis zu behaupten, anstatt um direkte Kundenbeziehungen.
Ressourcenverteilung und die Verlagerung hin zur Nutzung mehrerer Anbieter
Der Zugang zu Hochleistungsprozessoren ist nach wie vor ungleich verteilt. Googles TPU v5e ist auf Google Cloud beschränkt; Amazon betreibt eine der weltweit größten öffentlichen Flotten von Nvidia H100-Chips, doch seine Pay-as-you-go-Preise sehen separate Gebühren für Datenübertragung und Token-Abrechnung vor, die die Gesamtkosten erhöhen.
Groq vermarktet einen proprietären Inferenzchip mit einer mittleren Reaktionszeit von unter 10 ms und hat Präsenzpunkte in Nordamerika und Europa eingerichtet. CoreWeave, ein unabhängiger Infrastrukturanbieter, plant bis 2026 mehr als 600.000 GPUs und liefert bereits Kapazitäten an mehrere Modell-Hosting-Plattformen.
Da kein einzelner Anbieter niedrige Stückkosten, kurze Latenzzeiten und garantierte Verfügbarkeit überall kombiniert, verteilen viele Unternehmen ihre Inferenzanfragen auf mehrere Quellen. Eine Eingabeaufforderung kann je nach lokaler Warteschlangenlänge, Hardwaretyp und Vertragstarif zunächst auf TPUs in Council Bluffs, dann auf H100s in Frankfurt und anschließend auf GroqChips in Amsterdam ausgeführt werden.
Große Clouds mieten weiterhin die zugrunde liegenden Prozessoren, aber die Entscheidungsmaschine, die jede Anfrage weiterleitet, befindet sich nun eine Ebene höher – innerhalb der Modell-API oder Integrationsplattform. Diese Weiterleitungslogik ermöglicht es OpenAI, die Kapazität über Google Cloud zu erweitern, Anthropic, Infrastrukturpartner zu kombinieren, und Open-Weight-Anbietern wie Mistral, Modelle über Together.ai oder Replicate bereitzustellen, ohne selbst Hardware zu besitzen. Die Kontrolle über die Platzierung wandert somit von der Cloud-Struktur zur Service-Schnittstelle, die sie vermittelt.
Marktveränderungen und strategische Entwicklungen
Im Mai 2025 begann OpenAI mit der Anmietung von Google TPU v5e-Kapazitäten und beendete damit eine Phase der ausschließlichen Abhängigkeit von Microsoft Azure. Dieser Schritt verdeutlicht, dass selbst der etablierteste Modellanbieter seine Infrastruktur nun pragmatisch auswählt und dabei ein Gleichgewicht zwischen Hardware-Leistung und Kosten herstellt. Die im letzten Jahr gesammelten Nutzungstrends bestätigen dasselbe Muster in großem Maßstab: Die Nachfrage nach Google Cloud-Inferenzendpunkten, Anthropics Claude-Familie und Groqs Hardware-Diensten mit geringer Latenz steigt, während die Nutzung der nativen KI-Plattformen von Amazon und Microsoft stagniert oder zurückgegangen ist. Die Umverteilung wird durch drei unmittelbare Faktoren vorangetrieben:
Der exklusive oder frühzeitige Zugang zu TPU v5e, großen H100-Clustern oder GroqChip führt zu messbaren Verbesserungen bei der Geschwindigkeit pro Token und dem Preis pro Million Token.
Turnkey-APIs bieten einen einheitlichen Preis für die generierte Ausgabe, wodurch separate Posten für Verarbeitungszeit und Datenübertragung entfallen.
Häufige Releases (Gemini 1.5 Pro, Claude 3, GPT-4o) verschaffen Anbietern einen sichtbaren Vorsprung und ziehen Entwicklungsteams zu den am aktivsten aktualisierten Ökosystemen.
Diese Elemente begünstigen Anbieter, die einzigartige Siliziumchips, transparente Preise und schnelle Upgrade-Zyklen kombinieren. Dennoch gewinnen offene Modelle wie Mistral und Meta's LLaMA, die über Together.ai oder Replicate geleitet werden, an Bedeutung in der Forschung und in der Leichtbauproduktion, wodurch sich die Wettbewerbsbasis des Marktes erweitert und die Verlagerung hin zu Multi-Provider-Routing verstärkt wird. Der strategische Hebel verlagert sich somit auf Service-Ebenen, die Modellkataloge aggregieren, Anfragen an die optimale Hardware weiterleiten und die Kosten in einer einzigen vorhersehbaren Metrik darstellen, während Cloud-Infrastrukturanbieter hauptsächlich im Bereich der Rohprozessorversorgung und der regionalen Abdeckung konkurrieren.
Fazit
Die Bereitstellung von Inferenzlösungen verläuft derzeit entlang zweier paralleler Pfade.
AWS, Azure und Google bieten jeweils eigene LLM-Endpunkte an. Google ist hier führend, da es exklusive TPU v5e-Kapazitäten mit einem breiten, leistungsstarken Modellkatalog kombiniert und so zusätzlichen Datenverkehr über Hardware-, Plattform- und Modellschichten hinweg erfasst.
- Große Modellanbieter: OpenAI erweitert seine langjährige Präsenz auf Azure um die Infrastruktur von Google; Anthropic verteilt Anfragen auf mehrere Clouds, um Preis und Latenz zu optimieren.
- Integrationsplattformen: Perplexity, Together.ai, Replicate und ähnliche Dienste mieten Rechenleistung aus mehreren Clouds und stellen sie über eine einzige Schnittstelle zur Verfügung. Ihre Routing-Software vergleicht kontinuierlich die Warteschlangentiefe, die regionale Latenz und die angegebenen Kosten pro Token und leitet dann jede Anfrage an den ersten Standort weiter (TPU v5e in Iowa, H100-Cluster in Frankfurt, GroqChips in Helsinki) der die vordefinierten wirtschaftlichen und leistungsbezogenen Schwellenwerte erfüllt. Auf diese Weise verlagern sie die Preisgestaltungsmacht von der physischen Infrastruktur auf die Koordinationsschicht.
Physische Assetts legen nach wie vor die Obergrenze für den Durchsatz fest, doch der strategische Einfluss liegt nun bei der Software, die Anfrage für Anfrage zuweist, wo der Computer läuft und wie die Nutzung abgerechnet wird. Solange nicht ein Anbieter sowohl über unübertroffene Hardware als auch über die fortschrittlichsten Modelle verfügt, wird der Markt weiterhin zwischen dominanten Single-Cloud-Diensten und dynamisch gerouteten Multi-Cloud-Pfaden balancieren.