Teknologi 28. maj 2026 · 7 min læsning

Sådan vælger du den rigtige open source-model og hardware

Matching af parameterstørrelse til dit brugstilfælde og budget – og den GPU, der kører det godt.

Implementering af en privat LLM starter med to beslutninger, der er dybt sammenvævet: hvilken model der skal køres, og hvilken hardware den skal køres på. Gå galt med parringen, og du overbrugerer enten på kapacitet, du ikke bruger, eller underforsyner den beregning, dit brugstilfælde faktisk har brug for. Den gode nyhed er, at open source-økosystemet er modnet til det punkt, hvor der er en velafprøvet model til næsten ethvert budget og opgave – hvis du ved, hvordan du matcher dem.

En GPU-chip der repræsenterer hardwarevalg til AI-inferens — At vælge den rigtige GPU er lige så vigtigt som at vælge den rigtige model – de skal dimensioneres sammen.

Start fra brugstilfældet, ikke benchmarken

Den mest almindelige fejl ved modelvalg er at starte med benchmarkscorer frem for opgavekrav. En model, der opnår state-of-the-art resultater på en kodningsbenchmark, kan være overkill til opsummering af supporthenvendelser og kan introducere latenstid, der gør den uegnet til realtidsbrug. Inden du vælger en modelstørrelse, definér dit brugstilfælde præcist: Hvad er den gennemsnitlige inputlængde i tokens? Kræver opgaven flertrins-ræsonnering, eller er den primært klassificering og ekstraktion? Hvor mange samtidige brugere vil systemet betjene? Hvad er den acceptable svarlatenstid? Hvilke sprog skal modellen håndtere flydende? Disse spørgsmål begrænser dit søgerum langt mere nyttigt end enhver leaderboard.

Modelstørrelsesniveauer: 7-8B, 32-70B og 405B+

Open source-modellandskabet har konsolideret sig omkring tre praktiske størrelsesniveauer. Modeller i 7-8B-parametersintervallet – såsom Mistral 7B, Llama 3.1 8B og Qwen2.5 7B – er bemærkelsesværdigt kompetente til fokuserede opgaver: dokumentklassificering, ekstraktion, opsummering og FAQ-stil spørgsmål og svar over et retrieval-korpus. De kører komfortabelt på en enkelt forbruger- eller prosumer-GPU og leverer lav latenstid selv uden kraftig optimering. 32-70B-niveauet – Llama 3.3 70B, Qwen2.5 32B, Mixtral 8x7B – er, hvor generelt formål-ræsonnering, flersproglig flydende tale og instruktionsfølgningskvalitet forbedres væsentligt. Disse modeller kan håndtere komplekse analytiske opgaver, længere kontekster og mere nuanceret generering. De kræver professionelle GPU'er, men forbliver opnåelige for en enkelt-server-implementering. Over 70B leverer modeller som Llama 3.1 405B frontier-niveau kapacitet, men kræver multi-GPU-opsætninger og omhyggelig infrastrukturplanlægning; de er bedst reserveret til brugstilfælde, hvor kvalitet er den primære begrænsning og budget ikke er det.

7-8B-modeller: bedst til fokuserede, højtgennemstrømmende opgaver – klassificering, ekstraktion, RAG over strukturerede data. Enkelt GPU, laveste omkostning.
32-70B-modeller: stærk generel ræsonnering, flersproget support, længere kontekster. Enkelt high-end GPU eller lille multi-GPU-node.
405B+-modeller: frontier-kvalitet til de mest krævende opgaver. Multi-GPU krævet; planlæg infrastruktur omhyggeligt.
Mixture-of-experts (MoE)-arkitekturer (f.eks. Mixtral) kan levere 70B-klasse kvalitet til tættere på 13B aktiv-parameter-omkostning – værd at evaluere, hvis gennemstrømning har betydning.

Matching af modeller til GPU'er: VRAM er den bindende begrænsning

GPU VRAM er den primære begrænsning, der bestemmer, hvilke modeller du kan køre og med hvilken hastighed. En model skal passe i VRAM til inferens – med yderligere plads til KV-cachen, der vokser med kontekstlængde og batchstørrelse. Som en grov vejledning: en 7-8B-model i 16-bit præcision kræver ca. 14-16 GB VRAM; en 32B-model kræver ca. 64 GB; en 70B-model kræver ca. 140 GB. Det er derfor en enkelt 24 GB GPU (såsom NVIDIA RTX 3090 eller 4090) er det naturlige hjem for 7-8B-modeller, et 48 GB-kort (RTX 6000 Ada) eller 80 GB A100/H100 dækker 32-70B-intervallet på et enkelt kort, og alt større kræver multi-GPU-konfigurationer med NVLink eller InfiniBand-forbindelser.

Kvantisering: at nå ud over dit VRAM-budget

Kvantisering reducerer modelvægtpræcision – fra 16-bit float til 8-bit integers (INT8) eller 4-bit (GPTQ, AWQ, GGUF Q4) – og reducerer dramatisk VRAM-kravene. En 70B-model kvantiseret til 4-bit kan passe i ca. 35-40 GB VRAM, hvilket gør den tilgængelig på en dual 24 GB GPU-opsætning. Kvalitetsafvejningen afhænger af kvantiseringsmetoden og opgaven: for de fleste produktionsbrugssager er INT8 næsten tabsfri, og velimplementeret 4-bit kvantisering bevarer størstedelen af modelkvaliteten til opgaver, der ikke er meget følsomme over for subtile ræsonneringsfejl. Kvantisering er ikke en løsning – det er en first-class implementeringsstrategi, som Privonis rutinemæssigt bruger til at maksimere kapaciteten pr. euro af hardwarebudget.

Det rigtige spørgsmål er ikke "hvilken model er bedst?" men "hvilken model er tilstrækkelig til denne opgave, på det hardwarebudget vi har?" Kvantisering lukker kløften mellem de to svar mere end de fleste teams forventer.

En vægt der balancerer modelkapacitet og hardwareomkostning — At balancere modelstørrelse, kvantisering og hardwareomkostning er den centrale ingeniørmæssige udfordring ved privat AI-implementering.

Benchmarking inden køb: den evaluering-først tilgang

Ingen benchmark erstatter evaluering af en model på dine faktiske data og opgaver. Inden du forpligter dig til hardware, anbefaler Privonis at køre en struktureret evaluering: definer et repræsentativt sæt inputs fra dit produktionsbrugssager, fastlæg kvalitetskriterier (nøjagtighed, formatoverholdelse, latenstid ved din målbatchstørrelse) og test to eller tre kandidatmodeller på lejede cloud GPU-instanser. Dette koster et par hundrede euro og tager typisk en dag eller to. Resultatet er en evidensbaseret hardwarespecifikation frem for et gæt – og det afslører ofte, at en mindre, hurtigere model opfylder dine behov, hvilket sparer betydelige kapitaludgifter.

Definer evalueringsinputs fra rigtige produktionsdata inden du vælger en model.
Test på lejet GPU-kapacitet først – cloud-instanser til evaluering, on-premise til produktion.
Mål det, der har betydning: opgavenøjagtighed, p95-latenstid, tokens pr. sekund ved din forventede batchstørrelse.
Overvej finjustering af en mindre model inden skalering til en større – en finjusteret 7B overgår ofte en generisk 70B på snævre opgaver.
Planlæg for KV-cachen: længere kontekster forbruger VRAM hurtigt; benchmark ved maksimal forventet kontekstlængde.

Sådan vejleder Privonis i udvælgelsesprocessen

At vælge den rigtige model- og hardwarekombination er en af de beslutninger med højest gearing i en privat AI-implementering. En velmatched stak leverer den kvalitet, du har brug for, til en pris, der gør forretningscasen klar; en dårligt matchet enten overforbruger på inaktiv beregning eller underpræsterer på opgaver, der har betydning. Privonis bringer praktisk erfaring med at vælge, kvantisere, finjustere og benchmarke open source-LLM'er på tværs af en række europæiske enterprise-brugssager. Vi hjælper dig med at undgå den dyre prøv-og-fejl-cyklus og nå frem til en implementeringskonfiguration, der er rigtig dimensioneret fra starten – og som forbliver vedligeholdelig, efterhånden som modeller og dine brugstilfælde udvikler sig.

Lad os tale om dit AI-projekt

Book et opkald