Anwendungen 25. Mai 2026 · 7 Min. Lesezeit

Einen privaten Wissensassistenten mit RAG aufbauen

Wandeln Sie Ihre Dokumente in einen privaten Assistenten um, der mit Quellenangaben antwortet - ohne etwas in die Cloud zu senden.

Stellen Sie sich vor, Sie stellen eine Frage und erhalten eine Antwort, die den genauen Absatz aus Ihrer internen Richtlinie, Ihrer Produktspezifikation oder dem Prüfbericht des letzten Quartals zitiert - alles ohne ein einziges Byte, das Ihren Serverraum verlässt. Das ist das Versprechen von Retrieval-Augmented Generation (RAG), und mit Privonis, das vollständig On-Premise läuft, ist es jetzt für jedes europäische Unternehmen erreichbar, das Datensouveränität ernst nimmt.

Was ist RAG und warum ist es wichtig?

Large Language Models sind leistungsstarke Denker, aber sie kennen nur, was sie während des Trainings gelernt haben. RAG behebt das, indem bei der Abfrage relevante Passagen aus Ihrem eigenen Dokumentenspeicher abgerufen und dem Modell als Kontext übergeben werden. Das Modell beantwortet dann Fragen auf Basis dieser Passagen und zitiert Quellen, statt Fakten zu halluzinieren. Das Ergebnis ist ein Wissensassistent, der sowohl präzise als auch nachvollziehbar ist - zwei Eigenschaften, die in regulierten Branchen enorm wichtig sind.

RAG-Pipeline-Diagramm mit Phasen: Ingest, Chunk, Embed, Vektorindex, Retrieve und Generate — Die vollständige RAG-Pipeline: von rohen Dokumenten zu einer fundierten, zitierten Antwort.

Die RAG-Pipeline Schritt für Schritt

Ein produktives RAG-System umfasst sechs Phasen. Das Verständnis jeder einzelnen hilft, die häufigsten Fehlermodi zu vermeiden.

Ingest: Dokumente aus PDFs, Word-Dateien, Confluence-Seiten, SharePoint oder anderen strukturierten Quellen laden, die Ihre Organisation verwendet.
Chunk: Dokumente in Segmente aufteilen - typischerweise 200-500 Token -, die klein genug sind, um in das Kontextfenster des Modells zu passen, aber groß genug, um Bedeutung zu tragen.
Embed: Jeden Chunk mit einem lokalen Embedding-Modell wie BGE-M3 oder E5-multilingual in einen dichten Vektor umwandeln. Kein Cloud-Aufruf erforderlich.
Vektorindex: Einbettungen in einer Vektordatenbank (Qdrant, Chroma, pgvector) speichern, die auf Ihrer eigenen Infrastruktur läuft.
Retrieve: Bei der Abfrage die Nutzerfrage einbetten und die Top-k nächsten Chunks durch Kosinus-Ähnlichkeit finden, optional kombiniert mit BM25-Schlüsselwortsuche (Hybrid-Retrieval).
Generate: Die abgerufenen Chunks plus die Frage an Ihr On-Premise-LLM übergeben (Llama 3, Mistral, Qwen oder ein anderes Open-Weight-Modell, das über Ollama oder vLLM bereitgestellt wird) und eine zitierte Antwort erzeugen.

Privat bleiben mit Privonis

Jede Stufe dieser Pipeline läuft innerhalb Ihrer Infrastruktur, wenn Sie mit Privonis deployen. Das Embedding-Modell, die Vektordatenbank, der LLM-Inferenz-Server und die Orchestrierungsschicht sind alle selbst gehostet. Ihre Dokumente verlassen nie Ihr Netzwerk. Das ist nicht nur eine Datenschutzpräferenz - für Unternehmen, die der DSGVO, der NIS2-Richtlinie oder branchenspezifischen Regeln in Finanzen und Gesundheitswesen unterliegen, ist das Speichern von Daten On-Premise oft eine Compliance-Anforderung, keine Option.

Schild-Symbol, das On-Premise-Datenschutz und Souveränität darstellt — On-Premise-Deployment bedeutet, dass Ihre Daten nie externe Server berühren.

Tipps zur Chunk- und Retrieval-Qualität

Die Qualität Ihres RAG-Systems steht und fällt mit den Chunking- und Retrieval-Phasen. Einige Praktiken, die Ergebnisse konsistent verbessern: Verwenden Sie wo möglich semantisches Chunking statt fixer Token-Anzahl; überlappen Sie Chunks um 10-15%, um zu vermeiden, dass Kontext an Grenzen abgeschnitten wird; speichern Sie Dokumentmetadaten (Quelle, Datum, Abschnittsüberschrift) neben jedem Chunk, damit das Modell präzise zitieren kann; und experimentieren Sie damit, die abgerufenen Passagen mit einem Cross-Encoder-Modell neu zu ordnen, bevor Sie sie an den Generator senden.

Die Antwort ist nur so gut wie das Retrieval. Investieren Sie in die Chunking-Strategie und die Hybridsuche, bevor Sie in ein größeres Modell investieren.

Ihren Wissensassistenten evaluieren

Evaluierung wird in frühen RAG-Projekten oft übersprungen und später bereut. Erstellen Sie einen Golden Dataset von 50-100 Frage-Antwort-Paaren von Domain-Experten. Messen Sie Retrieval-Recall (erschien der richtige Chunk in den Top-k-Ergebnissen?), Antwort-Treue (hält sich die Antwort an das, was der abgerufene Text sagt?) und Antwort-Relevanz (adressiert sie tatsächlich die Frage?). Open-Source-Frameworks wie RAGAS oder DeepEval können einen Großteil dieser Bewertung automatisieren und in eine CI-Pipeline integrieren, damit Regressionen vor dem Deployment erkannt werden.

Häufige Fallen, die man vermeiden sollte

Die häufigsten Fehler, die wir sehen, wenn wir Unternehmen beim Aufbau von Wissensassistenten helfen: Einbettung von minderwertigen oder duplizierten Dokumenten ohne vorherige Bereinigung; Wahl einer zu großen Chunk-Größe, die dazu führt, dass das Modell den spezifischen Satz, der die Frage beantwortet, verpasst; Ignorierung mehrsprachiger Dokumente (BGE-M3 und E5-multilingual verarbeiten gemischtsprachige Korpora gut); und Überspringen von Zugriffskontrollen, sodass ein Nutzer in einer Abteilung Dokumente abrufen kann, die er nicht sehen sollte. Privonis-Deployments umfassen rollenbasierte Collection-Partitionierung standardmäßig, um diesen letzten Punkt zu adressieren. Machen Sie es von Anfang an richtig, und Ihr privater Wissensassistent wird eines der wertvollsten Tools sein, die Ihre Organisation je eingesetzt hat.

Sprechen wir über Ihr KI-Projekt

Termin buchen