Technologie 28. Mai 2026 · 7 Min. Lesezeit

Wie man das richtige Open-Source-Modell und die richtige Hardware wählt

Parametergröße auf Anwendungsfall und Budget abstimmen - und die GPU, die es gut betreibt.

Das Deployment eines privaten LLMs beginnt mit zwei Entscheidungen, die tief miteinander verknüpft sind: welches Modell man ausführt und auf welcher Hardware. Wenn die Kombination falsch ist, gibt man entweder zu viel für Leistung aus, die man nicht nutzt, oder man unterschätzt die Rechenleistung, die der Anwendungsfall tatsächlich benötigt. Die gute Nachricht ist, dass das Open-Source-Ökosystem so gereift ist, dass es für fast jedes Budget und jede Aufgabe ein bewährtes Modell gibt - wenn man weiß, wie man sie zusammenführt.

Ein GPU-Chip, der die Hardware-Auswahl für KI-Inferenz darstellt — Die richtige GPU zu wählen ist genauso wichtig wie die Wahl des richtigen Modells - sie müssen gemeinsam dimensioniert werden.

Vom Anwendungsfall ausgehen, nicht vom Benchmark

Der häufigste Fehler bei der Modellauswahl ist, mit Benchmark-Scores statt mit Aufgabenanforderungen zu beginnen. Ein Modell, das auf einem Coding-Benchmark Spitzenergebnisse erzielt, kann für die Zusammenfassung von Support-Tickets überdimensioniert sein und eine Latenz einführen, die es für Echtzeitanwendungen ungeeignet macht. Bevor Sie eine Modellgröße wählen, definieren Sie Ihren Anwendungsfall genau: Wie lang ist die durchschnittliche Eingabe in Token? Erfordert die Aufgabe mehrstufiges Denken oder handelt es sich primär um Klassifikation und Extraktion? Wie viele gleichzeitige Nutzer wird das System bedienen? Welche akzeptable Antwortlatenz gilt? Welche Sprachen muss das Modell fließend beherrschen? Diese Fragen schränken Ihren Suchraum weit nützlicher ein als jede Rangliste.

Modellgrößen-Tiers: 7-8B, 32-70B und 405B+

Die Open-Source-Modelllandschaft hat sich um drei praktische Größen-Tiers konsolidiert. Modelle im 7-8B-Parameterbereich - wie Mistral 7B, Llama 3.1 8B und Qwen2.5 7B - sind für fokussierte Aufgaben bemerkenswert leistungsfähig: Dokumentenklassifikation, Extraktion, Zusammenfassung und FAQ-artige Fragen über ein Retrieval-Corpus. Sie laufen komfortabel auf einer einzelnen Consumer- oder Prosumer-GPU und liefern auch ohne aufwändige Optimierung niedrige Latenz. Der 32-70B-Tier - Llama 3.3 70B, Qwen2.5 32B, Mixtral 8x7B - ist der Bereich, in dem allgemeines Denkvermögen, mehrsprachige Kompetenz und Qualität der Instruktionsbefolgung deutlich besser werden. Diese Modelle können komplexe analytische Aufgaben, längere Kontexte und nuanciertere Generierung handhaben. Sie benötigen professionelle GPUs, bleiben aber für ein Single-Server-Deployment erreichbar. Über 70B bieten Modelle wie Llama 3.1 405B Frontier-Leistung, erfordern aber Multi-GPU-Setups und sorgfältige Infrastrukturplanung; sie sind am besten für Anwendungsfälle reserviert, bei denen Qualität die primäre Einschränkung ist und Budget keine Rolle spielt.

7-8B-Modelle: am besten für fokussierte, hochdurchsatz-Aufgaben - Klassifikation, Extraktion, RAG über strukturierte Daten. Eine GPU, niedrigste Kosten.
32-70B-Modelle: starkes allgemeines Denkvermögen, mehrsprachige Unterstützung, längere Kontexte. Einzelne High-End-GPU oder kleiner Multi-GPU-Node.
405B+-Modelle: Frontier-Qualität für anspruchsvollste Aufgaben. Multi-GPU erforderlich; Infrastruktur sorgfältig planen.
Mixture-of-Experts-(MoE-)Architekturen (z.B. Mixtral) können 70B-Klasse-Qualität bei näherer 13B aktiv-Parameter-Kosten liefern - es lohnt sich zu evaluieren, wenn Durchsatz wichtig ist.

Modelle auf GPUs abstimmen: VRAM ist die bindende Einschränkung

GPU-VRAM ist die primäre Einschränkung, die bestimmt, welche Modelle Sie ausführen können und mit welcher Geschwindigkeit. Ein Modell muss in den VRAM passen, damit Inferenz möglich ist - mit zusätzlichem Spielraum für den KV-Cache, der mit Kontextlänge und Batchgröße wächst. Als grobe Orientierung: Ein 7-8B-Modell in 16-Bit-Präzision benötigt etwa 14-16 GB VRAM; ein 32B-Modell benötigt ungefähr 64 GB; ein 70B-Modell etwa 140 GB. Deshalb ist eine einzelne 24-GB-GPU (wie die NVIDIA RTX 3090 oder 4090) die natürliche Heimat für 7-8B-Modelle, eine 48-GB-Karte (RTX 6000 Ada) oder 80-GB-A100/H100 deckt den 32-70B-Bereich auf einer Karte ab, und alles darüber hinaus erfordert Multi-GPU-Konfigurationen mit NVLink- oder InfiniBand-Verbindungen.

Quantisierung: über Ihr VRAM-Budget hinausgehen

Quantisierung reduziert die Präzision der Modellgewichte - von 16-Bit-Floats auf 8-Bit-Ganzzahlen (INT8) oder 4-Bit (GPTQ, AWQ, GGUF Q4) - und senkt den VRAM-Bedarf dramatisch. Ein 70B-Modell, das auf 4-Bit quantisiert wird, passt in etwa 35-40 GB VRAM und ist damit auf einem Dual-24-GB-GPU-Setup zugänglich. Der Qualitätskompromiss hängt von der Quantisierungsmethode und der Aufgabe ab: Für die meisten Produktionsanwendungen ist INT8 nahezu verlustfrei, und gut implementierte 4-Bit-Quantisierung bewahrt den Großteil der Modellqualität für Aufgaben, die nicht sehr empfindlich auf subtile Denkfehler reagieren. Quantisierung ist kein Workaround - es ist eine erstklassige Deployment-Strategie, die Privonis routinemäßig einsetzt, um die Leistung pro Euro Hardwarebudget zu maximieren.

Die richtige Frage lautet nicht "Welches Modell ist das beste?", sondern "Welches Modell reicht für diese Aufgabe, auf dem verfügbaren Hardwarebudget aus?" Quantisierung schließt die Lücke zwischen beiden Antworten mehr, als die meisten Teams erwarten.

Eine Waage, die Modellleistung und Hardwarekosten balanciert — Modellgröße, Quantisierung und Hardwarekosten in Einklang zu bringen ist die zentrale Ingenieursaufgabe beim Deployment privater KI.

Benchmarking vor dem Kauf: der Evaluierungs-zuerst-Ansatz

Kein Benchmark ersetzt die Evaluierung eines Modells auf Ihren tatsächlichen Daten und Aufgaben. Vor der Hardwarebeschaffung empfiehlt Privonis eine strukturierte Evaluierung: Definieren Sie einen repräsentativen Satz von Eingaben aus Ihrem Produktionsanwendungsfall, legen Sie Qualitätskriterien fest (Genauigkeit, Formateinhaltung, Latenz bei Ihrer Zielbatchgröße) und testen Sie zwei oder drei Kandidatenmodelle auf gemieteten Cloud-GPU-Instanzen. Das kostet ein paar hundert Euro und dauert typischerweise ein oder zwei Tage. Das Ergebnis ist eine evidenzbasierte Hardwarespezifikation statt einer Schätzung - und es zeigt oft, dass ein kleineres, schnelleres Modell Ihre Anforderungen erfüllt und erhebliche Kapitalausgaben einspart.

Definieren Sie Evaluierungseingaben aus echten Produktionsdaten, bevor Sie ein Modell wählen.
Testen Sie zuerst auf gemieteter GPU-Kapazität - Cloud-Instanzen für die Evaluierung, On-Premise für die Produktion.
Messen Sie, was wichtig ist: Aufgabengenauigkeit, p95-Latenz, Token pro Sekunde bei Ihrer erwarteten Batchgröße.
Erwägen Sie das Fine-Tuning eines kleineren Modells, bevor Sie auf ein größeres skalieren - ein fein-abgestimmtes 7B übertrifft oft ein generisches 70B bei engen Aufgaben.
Planen Sie für den KV-Cache: Längere Kontexte verbrauchen VRAM schnell; führen Sie Benchmarks bei maximaler erwarteter Kontextlänge durch.

Wie Privonis den Auswahlprozess steuert

Die richtige Modell-Hardware-Kombination zu wählen ist eine der wirkungsvollsten Entscheidungen bei einem privaten KI-Deployment. Ein gut abgestimmter Stack liefert die Qualität, die Sie benötigen, zu Kosten, die das Geschäftsmodell klar machen; ein schlecht abgestimmter gibt entweder zu viel für ungenutzte Rechenleistung aus oder liefert bei wichtigen Aufgaben zu schlechte Ergebnisse. Privonis bringt praktische Erfahrung in der Auswahl, Quantisierung, dem Fine-Tuning und Benchmarking von Open-Source-LLMs für eine Reihe europäischer Unternehmensanwendungsfälle mit. Wir helfen Ihnen, den teuren Versuch-und-Irrtum-Zyklus zu vermeiden und von Anfang an zu einer Deployment-Konfiguration zu gelangen, die richtig dimensioniert ist - und die wartbar bleibt, wenn sich Modelle und Anwendungsfälle weiterentwickeln.

Sprechen wir über Ihr KI-Projekt

Termin buchen