Technológia 28. mája 2026 · 7 min čítania

Ako vybrať správny open-source model a hardvér

Prispôsobenie veľkosti parametrov vášmu prípadu použitia a rozpočtu — a GPU, ktoré ho dobre prevádzkuje.

Nasadenie súkromného LLM začína dvoma rozhodnutiami, ktoré sú hlboko prepojené: ktorý model spustiť a na akom hardvéri ho spustiť. Ak je párovanie nesprávne, buď preplácate za schopnosti, ktoré nevyužívate, alebo nedostatočne zásobujete výpočtový výkon, ktorý váš prípad použitia skutočne potrebuje. Dobrou správou je, že open-source ekosystém dozrel do bodu, kde existuje dobre otestovaný model pre takmer každý rozpočet a úlohu — ak viete, ako ich spárovať.

Čip GPU predstavujúci výber hardvéru pre inferenciu AI — Výber správneho GPU je rovnako dôležitý ako výber správneho modelu — musia byť dimenzované spoločne.

Začnite od prípadu použitia, nie od benchmarku

Najčastejšou chybou pri výbere modelu je vedenie s výsledkami benchmarkov namiesto požiadaviek na úlohu. Model, ktorý dosahuje najlepšie výsledky v benchmarku kódovania, môže byť prebytočný na sumarizáciu požiadaviek podpory a môže zaviesť latenciu, ktorá ho robí nevhodným pre použitie v reálnom čase. Pred výberom veľkosti modelu presne definujte svoj prípad použitia: Aká je priemerná dĺžka vstupu v tokenoch? Vyžaduje úloha viacstupňové uvažovanie alebo ide primárne o klasifikáciu a extrakciu? Koľko súbežných používateľov bude systém obsluhovať? Aká je prijateľná latencia odozvy? Aké jazyky musí model plynulo zvládnuť? Tieto otázky obmedzujú váš priestor na vyhľadávanie oveľa užitočnejšie ako akýkoľvek rebríček.

Veľkostné úrovne modelu: 7–8 mld., 32–70 mld. a 405 mld.+

Krajina open-source modelov sa skonsolidovala okolo troch praktických veľkostných úrovní. Modely v rozsahu 7–8 miliárd parametrov — ako Mistral 7B, Llama 3.1 8B a Qwen2.5 7B — sú pozoruhodne schopné pre zamerané úlohy: klasifikácia dokumentov, extrakcia, sumarizácia a odpovedanie na otázky v štýle FAQ nad korpusom načítavania. Pohodlne bežia na jednom spotrebiteľskom alebo prosumer GPU a dosahujú nízku latenciu aj bez ťažkej optimalizácie. Úroveň 32–70 miliárd — Llama 3.3 70B, Qwen2.5 32B, Mixtral 8x7B — je miestom, kde sa výrazne zlepšuje všeobecné uvažovanie, viacjazyčná plynulosť a kvalita sledovania pokynov. Tieto modely zvládajú komplexné analytické úlohy, dlhšie kontexty a jemnejšie generovanie. Vyžadujú profesionálne GPU, ale zostávajú dosiahnuteľné pre nasadenie na jednom serveri. Nad 70 miliardami modely ako Llama 3.1 405B poskytujú frontovú úroveň schopností, ale vyžadujú viac-GPU nastavenia a starostlivé plánovanie infraštruktúry; najlepšie sa rezervujú pre prípady použitia, kde je kvalita primárnym obmedzením a nie rozpočet.

Modely 7–8 mld.: najlepšie pre zamerané, vysokopriepustnostné úlohy — klasifikácia, extrakcia, RAG nad štruktúrovanými dátami. Jedno GPU, najnižšie náklady.
Modely 32–70 mld.: silné všeobecné uvažovanie, viacjazyčná podpora, dlhšie kontexty. Jedno high-end GPU alebo malý viac-GPU uzol.
Modely 405 mld.+: frontová kvalita pre najnáročnejšie úlohy. Vyžaduje viac GPU; infraštruktúru starostlivo naplánujte.
Architektúry Mixture-of-experts (MoE) (napr. Mixtral) môžu dodávať kvalitu triedy 70 miliárd pri nákladoch bližšie k 13 miliardam aktívnych parametrov — stojí za vyhodnotenie, ak záleží na priepustnosti.

Párovanie modelov s GPU: VRAM je záväzné obmedzenie

GPU VRAM je primárnym obmedzením, ktoré určuje, ktoré modely môžete spustiť a akú rýchlosťou. Model musí byť nasadený do VRAM pre inferenciu — s dodatočným priestorom pre KV cache, ktorý rastie s dĺžkou kontextu a veľkosťou dávky. Ako hrubé vodítko: model 7–8 miliárd v 16-bitovej presnosti vyžaduje okolo 14–16 GB VRAM; model s 32 miliardami potrebuje asi 64 GB; model s 70 miliardami potrebuje okolo 140 GB. Preto je jedno 24 GB GPU (ako NVIDIA RTX 3090 alebo 4090) prirodzeným domovom pre modely 7–8 miliárd, 48 GB karta (RTX 6000 Ada) alebo 80 GB A100/H100 pokrýva rozsah 32–70 miliárd na jednej karte a čokoľvek väčšie vyžaduje viac-GPU konfigurácie s NVLink alebo InfiniBand prepojeniami.

Kvantovania: dosiahnuť za hranice vášho VRAM rozpočtu

Kvantovanie znižuje presnosť váh modelu — z 16-bitových floatov na 8-bitové celé čísla (INT8) alebo 4-bitové (GPTQ, AWQ, GGUF Q4) — čo dramaticky znižuje požiadavky na VRAM. Model s 70 miliardami kvantovaný na 4 bity sa zmestí do približne 35–40 GB VRAM, čím bude prístupný na nastavení dvoch 24 GB GPU. Kompromis kvality závisí od metódy kvantovania a úlohy: pre väčšinu produkčných prípadov použitia je INT8 takmer bezstratové a dobre implementované 4-bitové kvantovanie zachováva väčšinu kvality modelu pre úlohy, ktoré nie sú vysoko citlivé na jemné chyby uvažovania. Kvantovanie nie je obídenie — je to prvotriedna stratégia nasadenia, ktorú Privonis bežne používa na maximalizáciu schopností za euro hardvérového rozpočtu.

Správna otázka nie je "ktorý model je najlepší?" ale "ktorý model je dostatočný pre túto úlohu, s hardvérovým rozpočtom, ktorý máme?" Kvantovanie uzatvára medzeru medzi dvoma odpoveďami viac, ako väčšina tímov očakáva.

Váhy balansujúce schopnosti modelu a náklady na hardvér — Balansovanie veľkosti modelu, kvantovania a nákladov na hardvér je základnou inžinierskou výzvou súkromného nasadenia AI.

Benchmarking pred nákupom: prístup zameraný na hodnotenie

Žiadny benchmark nenahrádza hodnotenie modelu na vašich skutočných dátach a úlohách. Pred záväzkom k hardvéru Privonis odporúča vykonať štruktúrované hodnotenie: definovať reprezentatívnu sadu vstupov z vášho produkčného prípadu použitia, stanoviť kritériá kvality (presnosť, dodržiavanie formátu, latencia pri cieľovej veľkosti dávky) a testovať dva alebo tri kandidátske modely na prenajatých cloudových GPU inštanciách. To stojí niekoľko stoviek eur a typicky trvá deň alebo dva. Výsledkom je hardvérová špecifikácia založená na dôkazoch, nie odhad — a často odhaľuje, že menší, rýchlejší model spĺňa vaše potreby, čím ušetrí významné kapitálové výdavky.

Definujte vstupy hodnotenia z reálnych produkčných dát pred výberom modelu.
Najprv testujte na prenajatej GPU kapacite — cloudové inštancie pre hodnotenie, on-premise pre produkciu.
Merajte to, na čom záleží: presnosť úlohy, latencia p95, tokeny za sekundu pri očakávanej veľkosti dávky.
Zvážte doladenie menšieho modelu pred škálovaním na väčší — doladený 7B model často prekoná generický 70B model pri úzkych úlohách.
Plánujte pre KV cache: dlhšie kontexty spotrebúvajú VRAM rýchlo; benchmarkujte pri maximálnej očakávanej dĺžke kontextu.

Ako Privonis vedie proces výberu

Výber správnej kombinácie modelu a hardvéru je jedným z rozhodnutí s najvyššou pákou pri súkromnom nasadení AI. Dobre prispôsobený zásobník poskytuje kvalitu, ktorú potrebujete, za cenu, ktorá objasňuje obchodnú situáciu; zle prispôsobený buď prehráva na nečinnom výpočte alebo podvykonáva pri úlohách, na ktorých záleží. Privonis prináša praktické skúsenosti s výberom, kvantovaním, ladením a benchmarkingom open-source LLM naprieč rôznymi prípadmi použitia európskych podnikov. Pomáhame vám vyhnúť sa nákladnému cyklu pokusov a omylov a dosiahnuť konfiguráciu nasadenia, ktorá je správne dimenzovaná od začiatku — a zostáva udržiavateľná, keď sa modely a vaše prípady použitia vyvíjajú.

Porozprávajme sa o vašom AI projekte

Rezervovať hovor