München • Berlin • Lissabon

Eigene Kanzlei-Daten sicher in der KI nutzen: So funktioniert Retrieval Augmented Generation (RAG)

Die Integration von Künstlicher Intelligenz in den Kanzleialltag wirft oft eine zentrale Frage auf: Wie kommen meine Akten, Online-PDFs und Mandat:innendaten in die KI, ohne dass sie öffentlich werden?

Viele Anwält:innen sorgen sich zu Recht um die Vertraulichkeit sensibler Informationen. Die Lösung liegt in einer Technologie, die wir bei PyleHound – wie auch andere seriöse Anbieter – standardmäßig einsetzen: Retrieval Augmented Generation (RAG). Doch was bedeutet das konkret für Ihre juristische Arbeit?

Key Takeaways

  • Kein Training auf Mandat:innendaten: Ihre Daten werden nicht genutzt, um das KI-Modell dauerhaft zu trainieren.
  • Kontext-Injektion: Durch Retrieval Augmented Generation (RAG) werden Akteninhalte nur temporär für die spezifische Antwort verarbeitet.
  • Datenhoheit: Nach der Bearbeitung „vergisst“ die KI die Informationen sofort wieder – vergleichbar mit dem Schreddern von Notizen.

Wie gelangen eigene Daten in die KI, ohne das Modell zu trainieren?

Eigene Daten gelangen durch Retrieval Augmented Generation (RAG) in die KI, indem Informationen aus Ihren Dokumenten in lesbaren Text umgewandelt und temporär der Anfrage hinzugefügt werden, anstatt das Modell damit dauerhaft zu füttern.

Der Prozess läuft technisch wie folgt ab:

  1. Extraktion: Zum Zeitpunkt Ihrer Anfrage werden Ihre tausenden Dokumente (PDFs, Scans, E-Mails) analysiert.
  2. Umwandlung: Die Software wandelt diese Daten in für die KI lesbare Informationen um. Dabei werden beispielsweise auch Bilder (z. B. von einem Büro) mittels Texterkennung beschrieben („Hier ist ein Bild von einem Büro“), um den Kontext zu wahren.
  3. Verarbeitung: Die KI arbeitet nun auf diesem extrahierten Text, als hätten Sie ihr eine Zusammenfassung zum Lesen gegeben.

Das Entscheidende dabei: Wir müssen die KI nicht auf Ihren Daten trainieren. Ihre Mandat:innendaten werden lediglich als Kontext für die spezifische Antwort genutzt.

Was ist Retrieval Augmented Generation (RAG) im juristischen Kontext?

RAG ist eine Methode, bei der eine KI fehlendes spezifisches Wissen (z. B. den Inhalt einer Klageschrift) extern abruft („Retrieval“), um darauf basierend eine fundierte Antwort zu generieren („Generation“), anstatt zu halluzinieren oder nur auf Allgemeinwissen zurückzugreifen.

Man kann sich PyleHound oder die KI hier wie einen „AI-Associate“ vorstellen:

  • Sie geben dem Associate eine Aufgabe: „Fasse diesen Sachverhalt zusammen.“
  • Sie übergeben ihm dafür 100 Dokumente.
  • Der Associate muss diese Dokumente nicht schon im Jurastudium (dem „Pre-Training“ der KI) auswendig gelernt haben.
  • Stattdessen liest er die Dokumente genau in dem Moment, in dem er die Aufgabe erledigt, extrahiert die relevanten Informationen und liefert das Ergebnis.

Warum landen Mandat:innendaten nicht im öffentlichen KI-Modell?

Mandat:innendaten landen nicht im Modell, weil die Informationen nach der Bearbeitung der Anfrage technisch gesehen sofort wieder verworfen werden und nicht in den Langzeitspeicher (die Gewichte) des neuronalen Netzes eingehen.

Um im Bild des AI-Associates zu bleiben: Sobald der Associate die Informationen extrahiert und die Antwort an Sie geliefert hat, schreddert er die 100 Dokumente sofort wieder. Er hat das Wissen genutzt, aber nicht dauerhaft „memoriert“.

Der Vorteil für Ihre Kanzlei:

  • Höchste Datensicherheit.
  • Keine Gefahr, dass Informationen aus Fall A plötzlich in einer Antwort für eine völlig andere Kanzlei auftauchen.
  • Die KI muss nicht für jeden neuen Fall neu trainiert werden, sondern ist sofort einsatzbereit.

Mit diesem Ansatz ermöglicht PyleHound eine effiziente Aktenbearbeitung, die juristische Präzision mit modernstem Datenschutz vereint.

Transkript des Videos:

Wie kommen jetzt meine eigenen Daten in die KI rein? Aus meiner Akte, aus irgendwie meinen Online-PDFs, aus meinen Suchmaschinen, von meinen Mandanten? Wie klappt das? Und da nutzen wir etwas, das nennt sich Retrieval Augmented Generation. Das ist jetzt nichts, was PyleHound erfunden hat, das werden die Konkurrenztools vermutlich genauso benutzen. Und was da quasi passiert ist: Zum Zeitpunkt, wenn die Anfrage an die KI geht, wandeln wir diese ganzen Informationen, die ganzen Daten, die tausenden von Dokumenten, um in lesbare Informationen für die KI. Das bedeutet vor allem, dass Bilder quasi Texte extrahiert werden, beschrieben werden. Also zum Beispiel auch so was: Ein Bild von einem Büro wird da beschrieben: 'Hey, hier ist ein Bild von einem Büro', damit die KI auch diesen Kontext hat. Bekommt zusätzlich eben halt dann auch alle Scans von irgendwelchen eingescannten Dokumenten und so mit und kann dann auf diesem Text arbeiten. Dadurch muss ich nicht auf meinen Daten trainieren. Also diese Daten, auch die juristischen Informationen, kommen quasi dann da mit rein und werden da quasi mit hinzugefügt, ohne dass ich darauf trainieren muss. Dadurch landen meine Mandatendaten auch nicht irgendwie aus Versehen irgendwann in dem Modell, sondern sind quasi nur in dieser Anfrage mit dabei. Das kann man sich so ein bisschen vorstellen – also weiß man ja eh, ich mag ganz gerne dieses Beispiel, dass man KI oder gerade eben auch PyleHound wie so einen AI-Associate quasi sieht, dem ich Arbeit abgebe. Jetzt kann ich halt sagen: 'Hey hier, mach mal das und das', einfach nur eine Anfrage, und es passiert dann irgendwie halt irgendwas. Der Associate muss sich selber irgendwie alles raussuchen. Oder was er irgendwie halt schon gelernt hat, irgendein Wissen. Oder ich mach bei dem Associate auch Retrieval Augmented Generation. Ich sag: 'Hey hier sind 100 Dokumente. Ich will, dass du auf diesen Dokumenten folgende Informationen extrahierst. Und wenn du fertig bist, dann schredderst du die ganzen Dokumente auch wieder weg.' Und dadurch hat man quasi zum Zeitpunkt, wenn man mit der KI arbeitet, mehr Informationen mit drin, hat seine eigenen Informationen mit drin, ohne dass man das vorher gelernt haben muss. Eben, der Associate muss nicht in der Uni ganz speziell diesen einen Fachbereich gelernt haben, der quasi da jetzt für Sie bearbeiten soll, sondern hat dann quasi zum Zeitpunkt die Möglichkeit, auf den Informationen, die Sie mitgeben, direkt zu lernen. Und genau so ist es bei KI auch. Das kann man sich wirklich genau gleich vorstellen, wenn Sie diesen Begriff sehen: R-A-G, Retrieval Augmented Generation, das ist das, was dahinter steckt.

Dieser Artikel wurde mit Hilfe von KI erstellt