Toepassingen 25 mei 2026 · 7 min lezen

Bouw een privé-kennisassistent met RAG

Zet uw documenten om in een privé-assistent die antwoorden geeft met bronvermelding — zonder iets naar de cloud te sturen.

Stelt u zich voor dat u een vraag stelt en een antwoord krijgt dat de exacte alinea citeert uit uw interne beleid, uw productspecificatie of het auditrapport van vorig kwartaal — allemaal zonder dat er een enkele byte uw serverruimte verlaat. Dat is de belofte van Retrieval-Augmented Generation (RAG), en met Privonis dat volledig on-premises draait, is het nu binnen bereik van elk Europees bedrijf dat gegevenssoevereiniteit serieus neemt.

Wat is RAG en waarom is het belangrijk?

Grote taalmodellen zijn krachtige redeneerders, maar ze weten alleen wat ze zijn getraind op. RAG lost dat op door relevante passages uit uw eigen documentopslag op te halen op het moment van de query en ze aan het model te geven als context. Het model antwoordt vervolgens gegrond in die passages, waarbij bronnen worden geciteerd in plaats van feiten te hallucineren. Het resultaat is een kennisassistent die zowel nauwkeurig als controleerbaar is — twee eigenschappen die enorm van belang zijn in gereguleerde sectoren.

RAG-pipelinediagram met de fasen ingestie, opdeling, insluiting, vectorindex, ophaling en generatie — De volledige RAG-pipeline: van ruwe documenten naar een gegrond, geciteerd antwoord.

De RAG-pipeline stap voor stap

Een productie-RAG-systeem omvat zes fasen. Inzicht in elk ervan helpt u de meest voorkomende faalwijzen te vermijden.

Ingestie: laad documenten uit PDF's, Word-bestanden, Confluence-pagina's, SharePoint of elke gestructureerde bron die uw organisatie gebruikt.
Opdeling: splits documenten in segmenten — doorgaans 200 tot 500 tokens — die klein genoeg zijn om in het contextvenster van het model te passen maar groot genoeg om betekenis te dragen.
Insluiting: converteer elk segment naar een dense vector met behulp van een lokaal insluitingsmodel zoals BGE-M3 of E5-multilingual. Geen cloudaanroep vereist.
Vectorindex: sla insluitingen op in een vectordatabase (Qdrant, Chroma, pgvector) die op uw eigen infrastructuur draait.
Ophaling: sluit de gebruikersvraag in op het moment van de query en zoek de top-k dichtstbijzijnde segmenten op cosinus-gelijkenis, optioneel gecombineerd met BM25-trefwoordzoeken (hybride ophaling).
Generatie: geef de opgehaalde segmenten plus de vraag door aan uw on-premise LLM (Llama 3, Mistral, Qwen of een ander open-gewicht model geserveerd via Ollama of vLLM) en produceer een geciteerd antwoord.

Privé houden met Privonis

Elke stap van deze pipeline draait binnen uw infrastructuur wanneer u implementeert met Privonis. Het insluitingsmodel, de vectordatabase, de LLM-inferentieserver en de orkestatielaag zijn allemaal zelf gehost. Uw documenten verlaten uw netwerk nooit. Dit is niet alleen een privacyvoorkeur — voor bedrijven die onderworpen zijn aan de AVG, de NIS2-richtlijn of sectorspecifieke regels in financiën en gezondheidszorg is het bewaren van gegevens on-premises vaak een compliance-vereiste, geen optie.

Schildpictogram dat on-premise gegevensbescherming en soevereiniteit vertegenwoordigt — On-premise implementatie betekent dat uw gegevens nooit externe servers raken.

Tips voor opdeling en ophalkwaliteit

De kwaliteit van uw RAG-systeem staat of valt bij de opdeel- en ophaalfasen. Een paar praktijken die consistent resultaten verbeteren: gebruik semantische opdeling in plaats van vaste tokentellingen waar mogelijk; laat segmenten 10 tot 15% overlappen om te voorkomen dat context op grenzen wordt afgeknipt; sla documentmetadata (bron, datum, sectiekopregel) op naast elk segment zodat het model nauwkeurig kan citeren; en experimenteer met het herordenen van de opgehaalde passages met een cross-encoder model voordat ze naar de generator worden gestuurd.

Het antwoord is slechts zo goed als de ophaling. Investeer in opdelingstrategie en hybride zoeken voordat u investeert in een groter model.

Uw kennisassistent evalueren

Evaluatie wordt vaak overgeslagen in vroege RAG-projecten en later betreurd. Bouw een gouden dataset van 50 tot 100 vraag-antwoordparen van domeinexperts. Meet ophaalherinnering (verscheen het juiste segment in de top-k resultaten?), antwoordgetrouwheid (blijft het antwoord bij wat de opgehaalde tekst zegt?) en antwoordrelevantie (behandelt het daadwerkelijk de vraag?). Open-source frameworks zoals RAGAS of DeepEval kunnen veel van deze scoring automatiseren en integreren in een CI-pipeline zodat regressies worden gevangen voordat ze worden uitgerold.

Veelvoorkomende valkuilen om te vermijden

De meest voorkomende fouten die we zien wanneer we bedrijven helpen kennisassistenten te bouwen: het insluiten van documenten van lage kwaliteit of dubbele documenten zonder ze eerst op te schonen; het kiezen van een segmentgrootte die te groot is, waardoor het model de specifieke zin mist die de vraag beantwoordt; het negeren van meertalige documenten (BGE-M3 en E5-multilingual verwerken gemengde-taalcorpora goed); en het overslaan van toegangscontroles zodat een gebruiker in één afdeling documenten kan ophalen die hij niet zou mogen zien. Privonis-implementaties bevatten op rollen gebaseerde collectiepartitionering out-of-the-box om dat laatste punt aan te pakken. Bouw het van meet af aan goed en uw privé-kennisassistent zal een van de meest waardevolle tools zijn die uw organisatie ooit heeft uitgerold.

Laten we praten over uw AI-project

Gesprek inplannen