Hardware 13. Mai 2026 · 8 Min. Lesezeit

Ein praktischer GPU-Kaufratgeber für On-Premise-KI

VRAM, Durchsatz, Leistung und Budget: Wie man beim ersten Mal die richtigen GPUs kauft.

GPUs für On-Premise-KI zu kaufen ist eine der folgenreichsten Infrastrukturentscheidungen, die eine Organisation treffen kann. Richtig gemacht haben Sie eine selbsttragende, kosteneffiziente Inferenz- und Fine-Tuning-Plattform, die mit der Zeit an Wert gewinnt. Falsch gemacht verbringen Sie Monate in GPU-Rückgabe-Warteschlangen oder, schlimmer noch, betreiben Modelle, die zu groß sind, um in den Speicher zu passen. Dieser Leitfaden geht durch jede Dimension, die Sie bewerten müssen - VRAM, Durchsatz, Leistung, Kühlung und Total Cost of Ownership -, damit Sie beim ersten Mal sicher wählen können.

VRAM ist die erste und härteste Einschränkung

Vor jeder anderen Spezifikation fragen Sie: Wie viele Gigabyte VRAM benötigt mein Zielmodell? Ein 7-Milliarden-Parameter-Modell in 16-Bit-Präzision belegt etwa 14 GB; ein 70-Milliarden-Parameter-Modell benötigt ungefähr 140 GB. Quantisierung auf 4-Bit kann diese Zahlen um 75% reduzieren, aber Quantisierung führt Qualitätskompromisse ein, die für Ihren Anwendungsfall validiert werden müssen. Die Grundregel ist einfach: Wenn das Modell nicht in den VRAM passt, wird die GPU auf System-RAM ausweichen und der Durchsatz bricht um ein bis zwei Größenordnungen ein. Dimensionieren Sie VRAM immer mit Spielraum - mindestens 20% frei - für den Key-Value-Cache, der mit der Kontextlänge wächst.

Vergleich von GPU-Modellen nach VRAM und Speicherbandbreite — VRAM-Kapazität und Speicherbandbreite für die wichtigsten GPU-Optionen in 2025-2026.

Consumer- vs. Rechenzentrum-GPUs

Der GPU-Markt teilt sich in Consumer-Karten und Rechenzentrum-Beschleuniger auf, und die Unterscheidung ist wichtig für On-Premise-KI. Consumer-GPUs wie die NVIDIA RTX 4090 bieten 24 GB GDDR6X bei außergewöhnlichem Preis-pro-VRAM-Verhältnis und können Modelle wie Llama 3 70B in 4-Bit auf einem Zwei-Karten-Setup betreiben. Sie sind ausgezeichnet für kleine Teams, F&E-Labs und budgetorientierte Deployments. Jedoch fehlen ihnen ECC-Speicher, sie sind nicht für 24/7-Rack-Betrieb ausgelegt und unterliegen in manchen Jurisdiktionen Einschränkungen für kommerzielle Inferenznutzung. Rechenzentrum-GPUs - L4, L40S, A100 und H100/H200 - sind für kontinuierliche Betriebszyklen ausgelegt, haben ECC-Speicher für numerische Integrität und werden von Enterprise-SLAs unterstützt. Der L4 (24 GB) ist kosteneffizient für Inferenz; der L40S (48 GB) verarbeitet mittelgroße Modelle gut; der A100 80 GB und H100/H200 (80 GB+) sind der Standard für Large-Model-Fine-Tuning und hochdurchsatz-Bereitstellung. Privonis entwirft Deployments um Rechenzentrum-GPUs genau deshalb, weil europäische Unternehmenskunden diese Zuverlässigkeitsgarantie benötigen.

RTX 4090 - 24 GB GDDR6X, ~1008 GB/s Bandbreite, bestes Preis-pro-VRAM für Entwicklungsworkloads.
L4 - 24 GB GDDR6, PCIe-Formfaktor, niedriger Verbrauch (72 W), ideal für Inferenz-Appliances.
L40S - 48 GB GDDR6, hoher FP8-Durchsatz, das Arbeitspferd für mittelgroße Modelle im Maßstab.
A100 80 GB - 80 GB HBM2e, NVLink-Unterstützung, der bewährte Produktionsstandard für große Modelle.
H100 / H200 - 80-141 GB HBM3/3e, Transformer-Engine mit FP8, maximaler verfügbarer Durchsatz.

Single-GPU vs. Multi-GPU-Strategien

Eine einzelne High-VRAM-GPU hält den Stack einfach: keine Tensor-Parallelismus-Konfiguration, kein NVLink-Fabric zu verwalten, geringere Fehleroberfläche. Beginnen Sie mit einer einzelnen GPU, wann immer das Modell passt und Ihr Durchsatzziel erreichbar ist. Wenn nicht - entweder weil das Modell zu groß ist oder weil Sie dutzende gleichzeitige Nutzer bedienen müssen - müssen Sie auf mehrere GPUs ausweichen. NVLink übertrifft PCIe bei der GPU-zu-GPU-Bandbreite dramatisch (900 GB/s vs. ~64 GB/s bidirektional auf PCIe 5.0), was für Tensor-Parallelismus kritisch ist. Wenn Ihr Budget nur PCIe-basiertes Multi-GPU erlaubt, bevorzugen Sie Pipeline-Parallelismus über Tensor-Parallelismus, um grenzüberschreitenden Traffic zu minimieren.

Leistung, Kühlung und Rack-Planung

Rechenzentrum-GPUs ziehen zwischen 72 W (L4) und 700 W (H100 SXM5). Ein Acht-H100-DGX-System kann unter anhaltender Last 10 kW aus der Steckdose ziehen. Bestätigen Sie vor der Hardware-Bestellung, dass Ihr Rechenzentrum oder Serverraum die erforderlichen Stromkreise liefern und ausreichende Kühlung bereitstellen kann - typischerweise 12-15 °C Zuluft oder Direktflüssigkeitskühlung für die dichtesten Konfigurationen. Übersehen von Leistungsdichte ist die häufigste Ursache für Deployment-Verzögerungen in On-Premise-KI-Projekten.

Total-Cost-of-Ownership-Kurven: On-Premise vs. Cloud-GPU-Miete über Zeit — TCO Break-even-Analyse: On-Premise-GPU-Besitz wird für die meisten Inferenz-Workloads zwischen 12 und 18 Monaten günstiger als Cloud-Miete.

Kaufen vs. Mieten: die TCO-Berechnung

Cloud-GPU-Miete ist operativ praktisch, aber im Maßstab teuer. Eine H100-Instanz bei einem großen Cloud-Anbieter kostet etwa 3-4 Euro pro GPU-Stunde, was bei kontinuierlicher Auslastung auf über 26.000 Euro pro GPU und Jahr hinausläuft. Dieselbe GPU direkt gekauft kostet 25.000-35.000 Euro und hat typischerweise eine drei-bis-fünf-jährige Nutzungsdauer. Der Break-even-Punkt für hochausgelastete Workloads liegt zwischen zwölf und achtzehn Monaten - danach ist On-Premise streng günstiger. Privonis hilft Kunden, dieses TCO-Modell zu erstellen, bevor sie sich für einen der Wege entscheiden, weil die richtige Antwort von Auslastungsrate, Abschreibungszeitraum und dem Wert der Datensouveränität für das Unternehmen abhängt.

Die GPU, die Sie sich leisten können kontinuierlich zu betreiben, wird immer die GPU übertreffen, die Sie sporadisch mieten. Auslastung ist der wahre Leistungsmultiplikator.

Praktische Kauf-Checkliste

Definieren Sie Ihr größtes Zielmodell und berechnen Sie den VRAM-Bedarf bei Ihrer gewünschten Präzision.
Fügen Sie 20% VRAM-Spielraum für den KV-Cache und zukünftige Modell-Updates hinzu.
Überprüfen Sie Stromkreiskapazität und Kühlung, bevor Sie die GPU-Anzahl festlegen.
Bevorzugen Sie ECC-Rechenzentrum-GPUs für 24/7-Produktion; Consumer-Karten sind für F&E akzeptabel.
Modellieren Sie Multi-GPU-Interconnect (NVLink vs. PCIe), bevor Sie sich für eine Parallelismus-Strategie entscheiden.
Erstellen Sie eine 24-Monats-TCO, die Kauf, Abschreibung, Strom und Wartung im Vergleich zur Cloud-Miete vergleicht.
Beauftragen Sie einen Anbieter - wie Privonis -, der den vollständigen Stack validieren kann: GPU, Server, OS, Inferenz-Runtime und Monitoring.

GPU-Beschaffung ist kein einmaliger Kauf; es ist die Grundlage Ihrer KI-Infrastruktur-Roadmap. Die Zeit zu investieren, VRAM-Anforderungen, Leistungseinschränkungen und Total Cost of Ownership vor dem Kauf zu modellieren, spart Monate an Nacharbeit und Zehntausende von Euro. Wenn Sie eine kostenlose Architekturüberprüfung für Ihr On-Premise-KI-Projekt wünschen, ist das Privonis-Team bereit zu helfen.

Sprechen wir über Ihr KI-Projekt

Termin buchen