LLM und RAG in Dokuflex: Ihre Unternehmens-KI unter EU-DSGVO

Q: Was ist RAG und warum ist es für ein europäisches Unternehmen wichtig?

RAG (Retrieval-Augmented Generation) ist eine Architektur, bei der ein LLM auf Basis realer Dokumente Ihres Unternehmens antwortet, die in Echtzeit aus einer Vektordatenbank abgerufen werden. Statt zu erfinden, zitiert es. In Europa ist es wichtig, weil es KI nutzen lässt, ohne den gesamten Korpus an das Modell zu senden (DSGVO-Datenminimierung), und Nachvollziehbarkeit erhält: Jede Antwort verweist auf ihre Quelle – eine zentrale Anforderung für Audits und für den EU AI Act.

Q: Wo werden Daten und Embeddings gehostet?

In der Europäischen Union. Der Vector Store, die Originaldokumente, die Logs und die Embeddings liegen je nach Kunde in Rechenzentren in Spanien, Deutschland, Frankreich oder den Niederlanden. Es gibt keine Transfers in die USA, auch nicht im Rahmen des Data Privacy Framework: Dokuflex vermeidet das Schrems-III-Risiko, indem der gesamte Stack innerhalb der EU bleibt.

Q: Wie wird gesteuert, welche Dokumente das LLM sehen darf?

Das RAG von Dokuflex erbt die Berechtigungen des BPM: Das LLM ruft nur Fragmente von Dokumenten ab, die der Nutzer einsehen darf. Ein HR-Nutzer kann keine Antworten auf Basis kommerzieller Verträge erhalten, auch wenn er danach fragt. Die Autorisierung wird bei jeder Anfrage auf Chunk-Ebene ausgewertet, nicht auf Sammlungsebene.

Das Problem: ChatGPT kann Ihre Verträge nicht lesen

Öffentliche LLMs (ChatGPT, Gemini, Claude via claude.ai) sind leistungsstark, aber sie kennen Ihr Unternehmen nicht. Wenn Sie Dokumente zur Analyse hochladen, übertragen Sie personenbezogene Daten und Geschäftsgeheimnisse an einen Dritten – meist auf Servern außerhalb der EU.

Die Antwort ist nicht, KI zu verbieten – das verlagert das Problem nur in die Schatten-IT der Mitarbeitenden. Die Antwort ist, innerhalb Ihres BPM ein LLM anzubieten, das Ihre Dokumente kennt, Ihre Berechtigungen respektiert und eine auditierbare Spur hinterlässt.

Das ist das Versprechen von RAG (Retrieval-Augmented Generation), umgesetzt innerhalb von Dokuflex: Das LLM „weiß" nichts über Ihr Unternehmen, aber es sucht und zitiert Ihre Dokumente bei jeder Anfrage.

Was RAG ist, ohne Marketing

RAG = Retrieval-Augmented Generation. Statt vom LLM zu verlangen, Informationen aus seinem Training zu „erinnern" (wo es halluzinieren kann), geben wir ihm einen zweistufigen Prozess vor:

Retrieval (Abruf): Das System durchsucht eine Vektordatenbank nach den Dokumentfragmenten (Chunks), die für die Frage am relevantesten sind. Die Suche ist semantisch, nicht stichwortbasiert.
Generation (Erzeugung): Das LLM erhält die Frage des Nutzers plus die abgerufenen Fragmente als Kontext und erzeugt eine Antwort, die ausschließlich auf diesem Kontext basiert – mit Quellenangaben.

Der Effekt: Das LLM beantwortet Fragen zu Ihren Verträgen, Richtlinien und Vorgängen, ohne dass diese Dokumente Teil des Modelltrainings sind. Und wenn die Information nicht in der Vektordatenbank vorhanden ist, antwortet das System „Ich finde dazu keine Information", anstatt zu erfinden.

Für ein europäisches Unternehmen löst RAG drei Probleme auf einmal: Halluzinationen, Datensouveränität und Auditierbarkeit.

RAG-Architektur in Dokuflex

Dies sind die bereitgestellten Komponenten – alle in der EU, alle vom BPM gesteuert:

Schicht	Dokuflex-Komponente	Datenstandort
Dokumentenquelle	Dokuflex-Repository (Vorgänge, Verträge, PDFs).	EU (ES/DE/FR/NL)
Verarbeitung (OCR + Chunking)	Ingestion-Pipeline: OCR, semantische Segmentierung, optionale PII-Bereinigung.	EU
Embeddings	Europäisches Embedding-Modell (Mistral, E5-multilingual, BGE-m3).	EU
Vector Store	Dedizierte Vektordatenbank pro Kunde (pgvector, Qdrant, Weaviate).	EU
Abruf	Hybride Suche (semantisch + BM25), Filter nach ACL-Berechtigungen.	EU
LLM (Generierung)	Mistral Large, Llama 3.1 / 3.3, Claude (AWS Bedrock EU), Dokuflex-Modell on-premise.	EU
Orchestrierung	Dokuflex-BPM mit Human-in-the-Loop und Freigaben.	EU
Audit	Unveränderliches Log: Frage, abgerufene Quellen, Antwort, Nutzer, Zeitstempel.	EU

Der Kunde wählt das Rechenzentrum (Spanien, Deutschland, Frankreich, Niederlande) und das LLM. Kein Transit über die USA an irgendeinem Punkt der Pipeline.

Reale Anwendungsfälle in Dokuflex

Sechs Szenarien, in denen RAG sofortigen Mehrwert innerhalb eines BPM bringt:

Fall 1 · Recht

Vertragsassistent

„Welche Vertragsstrafenklauseln haben wir mit Lieferant X?" – Antwort basierend auf den unterzeichneten Verträgen mit Verweis auf das PDF und die konkrete Klausel.

Fall 2 · Kundenservice

Semantische Ticket-Suche

Der Agent beschreibt das Problem in natürlicher Sprache und das System ruft ähnliche zuvor gelöste Tickets mit ihrer Lösung und der durchschnittlichen Bearbeitungszeit ab.

Fall 3 · HR

Tarifvertrags-Assistent

Mitarbeitender fragt nach Sonderurlaubstagen für einen Umzug und erhält die genaue Antwort aus dem geltenden Tarifvertrag, mit Verweis auf den Artikel.

Fall 4 · Compliance

Suche in internen Richtlinien

„Was ist unsere Aufbewahrungsrichtlinie für Logs zu Finanzdaten?" – antwortet unter Zitat des aktuell gültigen Compliance-Handbuchs.

Fall 5 · Banken / Versicherungen

Vorgangsanalyse

Der Analyst fragt nach Risiken und Ausnahmen in einem Vorgang – das LLM fasst KYC-Unterlagen, Bilanzen und Vorgeschichte zusammen, mit Zitaten.

Fall 6 · Operations

Kontextbasiertes Verfassen

Juristischer Verfasser erstellt einen Schriftsatz auf Basis von Vorlage + interner Rechtsprechung + Vorgangsdaten, mit Human-in-the-Loop vor der Signatur.

DSGVO-Konformität: wie sie in der Praxis aussieht

Die DSGVO-Anforderungen für KI angewandt auf das RAG von Dokuflex:

Art. 5 · Datenminimierung: Das LLM erhält nur die abgerufenen Chunks, nicht den gesamten Korpus. Und ausschließlich die Chunks, die der Nutzer einsehen darf.
Art. 6 · Rechtsgrundlage: Verarbeitung auf Basis des berechtigten Interesses des Verantwortlichen (operative Effizienz) oder zur Vertragserfüllung, dokumentiert im Verarbeitungsverzeichnis (VVT).
Art. 22 · Automatisierte Entscheidungen: Dokuflex besteht auf Human-in-the-Loop für jede Entscheidung, die Personen betrifft (HR, Kreditscoring). Das LLM schlägt vor, ein Mensch entscheidet.
Art. 32 · Technische Sicherheit: Verschlüsselung im Ruhezustand (AES-256), während der Übertragung (TLS 1.3), vom BPM geerbte Berechtigungen, unveränderliche Logs.
Art. 44 · Internationale Datenübermittlungen: by design vermieden. Kein Schrems-II- oder Schrems-III-Risiko: Der Stack lebt in der EU.
Art. 35 · Datenschutz-Folgenabschätzung (DSFA): Wir stellen eine DSFA-Vorlage speziell für den Einsatz von RAG auf personenbezogenen Daten bereit.
Art. 15-22 · Rechte der Betroffenen: Auskunfts-, Berichtigungs- und Löschrecht werden zum Vector Store propagiert: Wenn Sie ein Dokument im BPM löschen, verschwinden seine Chunks aus Index und Cache.

EU AI Act: Klassifizierung und Pflichten

Die Verordnung (EU) 2024/1689 klassifiziert KI-Systeme in vier Stufen. Die meisten typischen Dokuflex-Anwendungsfälle fallen in die Kategorie begrenztes Risiko oder minimales Risiko:

Dokumentenassistent, Suche, Zusammenfassung, unterstütztes Verfassen: begrenztes Risiko → Transparenzpflicht (den Nutzer informieren, dass er mit KI interagiert).
Dokumentenklassifizierung, Datenextraktion: minimales Risiko → Best Practices, keine spezifischen Pflichten.
Entscheidungen, die Personen betreffen (HR, Kredit): hohes Risiko → Human-in-the-Loop, Modellregister, DSFA, menschliche Aufsicht.

Dokuflex dokumentiert bei jedem Deployment, welches Modell verwendet wird, welcher Anbieter, welche Version, welche Daten verarbeitet wurden und zu welchem Zweck. Diese Dokumentation deckt die Anforderung des KI-Systemregisters ab, die schrittweise 2026-2027 in Kraft tritt.

Dokuflex RAG vs ChatGPT Enterprise / Microsoft Copilot

Es ersetzt nicht das allgemeine ChatGPT. Es deckt jedoch die sensiblen Fälle ab, die Sie nicht an ein externes LLM senden sollten:

Dimension	Dokuflex LLM/RAG	ChatGPT Enterprise / Copilot
Datenstandort	EU (ES/DE/FR/NL)	USA / EU je nach Vertrag (mit DPF)
Training mit Ihren Daten	Nein, vertraglich	Nein, vertraglich
EU-Herkunft des Modells	Ja (Mistral, Llama via Azure EU)	Nein (OpenAI USA, Anthropic USA)
BPM-Berechtigungen geerbt	Ja, auf Chunk-Ebene	Nur auf SharePoint-/Drive-Ebene
Quellenangaben	Verpflichtend, mit PDF-Link	Optional, nicht immer verlässlich
Vollständiges Audit	Unveränderliches Log, ins SIEM exportierbar	Auf den Tenant beschränkt
Workflow-Integration	Nativ: Freigaben, Signatur, Archivierung	Extern über API

Praktische Regel: ChatGPT für allgemeines Wissen, Dokuflex RAG für Ihre sensiblen Dokumente.

So setzen wir es in Ihrer Organisation um

Discovery (1 Woche): Wir identifizieren 2-3 priorisierte Anwendungsfälle und den relevanten Dokumentenkorpus. Wir validieren die Rechtsgrundlage (VVT, DSFA falls erforderlich).
Pilot-Ingestion (1 Woche): Wir indizieren 1.000-5.000 Kundendokumente in einem dedizierten Vector Store. OCR + Chunking + Embeddings.
Expertenvalidierung (1 Woche): Echte Nutzer testen das LLM mit echten Fragen, validieren Genauigkeit und Zitate. Tuning von Prompt und Filtern.
Progressives Rollout (2-4 Wochen): Skalierung auf den restlichen Korpus, Integration in BPM-Abläufe, Teamschulung, Adoptions-Metriken.
Kontinuierliche Governance: monatliche Überprüfung von Adoption, Antwortqualität, abgelehnten Fällen, Modell- und Prompt-Evolution.

Gesamtzeit bis zum ersten produktiven Anwendungsfall: 4 bis 8 Wochen. Ohne Migration Ihres BPM oder Neuschreiben von Prozessen.

Häufig gestellte Fragen

Was ist RAG und warum ist es für ein europäisches Unternehmen wichtig? +

RAG (Retrieval-Augmented Generation) ist die Architektur, bei der ein LLM auf Basis realer Dokumente antwortet, die in Echtzeit aus einer Vektordatenbank abgerufen werden. Statt zu erfinden, zitiert es. In Europa ist es wichtig, weil es KI nutzen lässt, ohne den gesamten Korpus an das Modell zu senden (DSGVO-Datenminimierung), und Nachvollziehbarkeit erhält: Jede Antwort verweist auf ihre Quelle – eine zentrale Anforderung für Audits und für den EU AI Act.

Werden meine Daten zum Training externer Modelle verwendet? +

Nein. In Dokuflex wird das LLM im Inferenzmodus über Ihre vektorisierten Dokumente aufgerufen, die Daten werden jedoch niemals zum Trainieren oder Nachtrainieren des Basismodells verwendet. Die Vereinbarungen mit den Modell-Anbietern (Mistral, Llama via Azure EU, Claude via AWS Bedrock EU, Dokuflex-Modell on-premise) schließen das Nachtrainieren auf Kundendaten ausdrücklich aus.

Wo werden Daten und Embeddings gehostet? +

In der Europäischen Union. Der Vector Store, die Originaldokumente, die Logs und die Embeddings liegen je nach Kunde in Rechenzentren in Spanien, Deutschland, Frankreich oder den Niederlanden. Es gibt keine Transfers in die USA, auch nicht im Rahmen des Data Privacy Framework: Dokuflex vermeidet das Schrems-III-Risiko, indem der gesamte Stack innerhalb der EU bleibt.

Wie wird gesteuert, welche Dokumente das LLM sehen darf? +

Das RAG von Dokuflex erbt die Berechtigungen des BPM: Das LLM ruft nur Fragmente von Dokumenten ab, die der Nutzer einsehen darf. Ein HR-Nutzer kann keine Antworten auf Basis kommerzieller Verträge erhalten, auch wenn er danach fragt. Die Autorisierung wird bei jeder Anfrage auf Chunk-Ebene ausgewertet, nicht auf Sammlungsebene.

Ist dies konform mit dem EU AI Act? +

Ja, für die typischen Dokuflex-Anwendungsfälle (Dokumentenassistent, Klassifizierung, Extraktion, unterstütztes Verfassen), die als begrenztes oder minimales Risiko gelten. Wir umfassen die geforderten Maßnahmen: Transparenz, Nachvollziehbarkeit mit Zitat, Human-in-the-Loop sowie Modell- und Anbieterregister. Für Hochrisiko-Fälle gilt zusätzliche dokumentierte Governance.

Brauche ich GPUs oder teure Server? +

Nein. Dokuflex bietet das LLM und den Vector Store als Managed Service in der EU an: Der Kunde zahlt nur für Anfragen und indizierte Dokumente. Für Kunden mit On-Premise-Anforderungen (Verteidigung, öffentliches Gesundheitswesen, Tier-1-Banken) gibt es eine installierbare Version mit offenen Modellen (Llama 3.1, Mistral) auf Kundeninfrastruktur.