Technologie 28. května 2026 · 7 min čtení

Jak vybrat správný open-source model a hardware

Přiřazení velikosti parametrů k vašemu případu použití a rozpočtu — a GPU, které jej dobře zvládne.

Nasazení privátního LLM začíná dvěma rozhodnutími, která jsou hluboce provázána: který model spustit a na jakém hardwaru. Pokud se toto párování nepovede, buď přeplácíte za schopnosti, které nevyužijete, nebo nedostatečně zajišťujete výpočetní výkon, který váš případ použití skutečně vyžaduje. Dobrá zpráva je, že open-source ekosystém dozrál do té míry, že existuje dobře otestovaný model pro téměř každý rozpočet a úkol — pokud víte, jak je spárovat.

Čip GPU představující výběr hardwaru pro AI inferenci — Výběr správného GPU je stejně důležitý jako výběr správného modelu — musí být dimenzovány společně.

Začněte od případu použití, ne od benchmarku

Nejčastější chybou při výběru modelu je začínat od výsledků benchmarků spíše než od požadavků na úkol. Model dosahující nejlepších výsledků v benchmarku pro kódování může být zbytečně robustní pro sumarizaci podpůrných tiketů a může vnést latenci, která jej činí nevhodným pro použití v reálném čase. Před výběrem velikosti modelu přesně definujte svůj případ použití: Jaká je průměrná délka vstupu v tokenech? Vyžaduje úkol víceúrovňové uvažování, nebo jde primárně o klasifikaci a extrakci? Kolik souběžných uživatelů bude systém obsluhovat? Jaká je přijatelná latence odezvy? Jakými jazyky musí model plynně vládnout? Tyto otázky omezují váš vyhledávací prostor mnohem užitečněji než jakýkoli žebříček.

Velikostní kategorie modelů: 7–8 mld., 32–70 mld. a 405 mld.+

Krajina open-source modelů se konsolidovala kolem tří praktických velikostních kategorií. Modely v rozsahu 7–8 miliard parametrů — jako Mistral 7B, Llama 3.1 8B a Qwen2.5 7B — jsou pozoruhodně schopné pro soustředěné úkoly: klasifikaci dokumentů, extrakci, sumarizaci a otázky z oblasti FAQ nad korpusem vyhledávání. Pohodlně běží na jediném spotřebitelském nebo profesionálním GPU a poskytují nízkou latenci i bez intenzivní optimalizace. V kategorii 32–70 miliard — Llama 3.3 70B, Qwen2.5 32B, Mixtral 8x7B — se výrazně zlepšuje obecné uvažování, vícejazyčná plynnost a kvalita dodržování instrukcí. Tyto modely zvládají složité analytické úkoly, delší kontexty a jemnější generování. Vyžadují profesionální GPU, ale zůstávají dosažitelné pro nasazení na jednom serveru. Nad 70 miliardami parametrů poskytují modely jako Llama 3.1 405B schopnosti na hranici možností, ale vyžadují víceGPU konfiguraci a pečlivé plánování infrastruktury; jsou nejlépe vyhrazeny pro případy použití, kde je kvalita primárním omezením a rozpočet nikoli.

Modely 7–8 mld.: nejlepší pro soustředěné, vysoce výkonné úkoly — klasifikace, extrakce, RAG nad strukturovanými daty. Jedno GPU, nejnižší náklady.
Modely 32–70 mld.: silné obecné uvažování, vícejazyčná podpora, delší kontexty. Jedno vysoce výkonné GPU nebo malý víceGPU uzel.
Modely 405 mld.+: hraničí kvalita pro nejnáročnější úkoly. Vyžaduje více GPU; pečlivě plánujte infrastrukturu.
Architektury směsi expertů (MoE) (např. Mixtral) mohou dosáhnout kvality modelů 70 mld. při nákladech blíže k modelům s 13 mld. aktivními parametry — stojí za zvážení, pokud záleží na výkonnosti.

Přiřazení modelů k GPU: VRAM je klíčové omezení

VRAM GPU je primárním omezením, které určuje, které modely můžete spouštět a při jaké rychlosti. Model musí být umístěn do VRAM pro inferenci — s dodatečným prostorem pro KV cache, která roste s délkou kontextu a velikostí dávky. Jako hrubé vodítko: model 7–8 mld. v 16-bitové přesnosti vyžaduje přibližně 14–16 GB VRAM; model 32 mld. potřebuje přibližně 64 GB; model 70 mld. potřebuje přibližně 140 GB. Proto je jedno 24 GB GPU (jako NVIDIA RTX 3090 nebo 4090) přirozeným domovem pro modely 7–8 mld., karta 48 GB (RTX 6000 Ada) nebo 80 GB A100/H100 pokrývá rozsah 32–70 mld. na jedné kartě a cokoli většího vyžaduje víceGPU konfigurace s NVLink nebo InfiniBand propoji.

Kvantizace: přesáhnutí vašeho rozpočtu VRAM

Kvantizace snižuje přesnost vah modelu — z 16-bitových floatů na 8-bitová celá čísla (INT8) nebo 4-bitová (GPTQ, AWQ, GGUF Q4) — což dramaticky snižuje požadavky na VRAM. Model 70 mld. kvantizovaný na 4-bity se vejde do přibližně 35–40 GB VRAM, čímž se stane dostupným na duálním 24 GB GPU. Kompromis kvality závisí na metodě kvantizace a úkolu: pro většinu produkčních případů použití je INT8 téměř bezeztrátový a dobře implementovaná 4-bitová kvantizace zachovává většinu kvality modelu pro úkoly, které nejsou vysoce citlivé na jemné chyby v uvažování. Kvantizace není obcházení problému — je to prvotřídní strategie nasazení, kterou Privonis rutinně používá k maximalizaci schopností za každé euro hardwarového rozpočtu.

Správná otázka nezní "který model je nejlepší?" ale "který model je pro tento úkol dostatečný, v rámci hardwarového rozpočtu, který máme?" Kvantizace uzavírá mezeru mezi oběma odpověďmi více, než většina týmů očekává.

Váhy vyvažující schopnosti modelu a náklady na hardware — Vyvážení velikosti modelu, kvantizace a nákladů na hardware je klíčovou inženýrskou výzvou nasazení privátní AI.

Benchmarking před nákupem: přístup zaměřený na hodnocení

Žádný benchmark nenahradí hodnocení modelu na vašich skutečných datech a úkolech. Před závazkem k hardwaru Privonis doporučuje provést strukturované hodnocení: definovat reprezentativní sadu vstupů z vašeho produkčního případu použití, stanovit kritéria kvality (přesnost, dodržování formátu, latence při vaší cílové velikosti dávky) a otestovat dva nebo tři kandidátní modely na pronajatých cloudových GPU instancích. To stojí několik set eur a typicky trvá jeden nebo dva dny. Výsledkem je specifikace hardwaru založená na důkazech spíše než na odhadech — a často se ukáže, že menší, rychlejší model splňuje vaše potřeby, čímž se ušetří značné kapitálové výdaje.

Definujte hodnotící vstupy ze skutečných produkčních dat před výběrem modelu.
Nejprve testujte na pronajaté GPU kapacitě — cloudové instance pro hodnocení, on-premise pro produkci.
Měřte to, na čem záleží: přesnost úkolu, latenci p95, tokeny za sekundu při očekávané velikosti dávky.
Zvažte doladění menšího modelu před škálováním na větší — doladěný model 7 mld. often překonává generický model 70 mld. na úzkých úkolech.
Plánujte KV cache: delší kontexty rychle spotřebovávají VRAM; benchmarkujte při maximální očekávané délce kontextu.

Jak Privonis vede proces výběru

Výběr správné kombinace modelu a hardwaru je jedním z rozhodnutí s nejvyšší pákou v privátním nasazení AI. Dobře přizpůsobený zásobník poskytuje kvalitu, kterou potřebujete, za cenu, která dělá obchodní případ jasným; špatně přizpůsobený buď přeplácí nečinný výpočetní výkon, nebo podává slabý výkon u úkolů, na nichž záleží. Privonis přináší praktické zkušenosti s výběrem, kvantizací, doladěním a benchmarkingem open-source LLM napříč řadou evropských podnikových případů použití. Pomáháme vám vyhnout se nákladnému cyklu pokus-omyl a dospět k nasazovací konfiguraci, která je od začátku správně dimenzována — a která zůstane udržovatelná s vývojem modelů a vašich případů použití.

Promluvme si o vašem AI projektu

Rezervovat hovor