Nie wieder abtippen: Wie KI-basierte OCR selbst unleserliche Akten digitalisiert
Kennen Sie das? Sie erhalten gescannte Dokumente von der Gegenseite oder aus Behördenakten, und die Qualität ist – um es direkt zu sagen – mangelhaft. Seiten sind verdreht, die Schrift ist unscharf, und der Kontrast lässt zu wünschen übrig. Für Anwält:innen bedeutet das oft: mühsames Entziffern oder manuelles Abtippen, da herkömmliche Suchfunktionen versagen.
Wir bei PyleHound haben uns diesem alltäglichen Ärgernis angenommen. Das Ergebnis unserer neuesten KI-Integration hat uns selbst überrascht.
Key Takeaways
- Das Problem: Herkömmliche OCR-Software stößt bei schlechter Scan-Qualität (schief, unscharf, fleckig) an ihre Grenzen, da sie rein formbasiert arbeitet.
- Die Lösung: Multimodale KI-Modelle verstehen nicht nur Buchstabenformen, sondern den semantischen Kontext des Satzes.
- Das Ergebnis: PyleHound extrahiert Texte aus Anwaltsakten mit einer Präzision, die digital erstellten Dokumenten gleicht – selbst wenn das Original für das menschliche Auge kaum lesbar ist.
Warum scheitert herkömmliche OCR oft an gescannten Gerichtsakten?
Herkömmliche Texterkennung (Optical Character Recognition, OCR) liefert oft fehlerhafte Ergebnisse, weil sie isoliert arbeitet und keinen semantischen Kontext besitzt.
Frühere Softwaregenerationen arbeiteten nach einem simplen Prinzip, vergleichbar mit einem Kleinkinderspiel, bei dem Formen in die passenden Öffnungen sortiert werden müssen:
- Die Software scannt ein visuelles Muster.
- Sie vergleicht das Muster mit einer Datenbank (z. B. „Sieht aus wie ein C“).
- Sie gibt den Buchstaben aus.
Bei schlechter Bildqualität („Kraut und Rüben“) führt dies zwangsläufig zu Fehlern. Ein fleckiges „I“ wird zur „1“, ein unscharfes „e“ zum „c“. Das Resultat sind Texte, die zwar digitalisiert, aber kaum durchsuchbar oder weiterverarbeitbar sind.
Wie verbessert multimodale KI die Texterkennung bei PyleHound?
Die KI-Software von PyleHound nutzt multimodale Modelle, die den Textinhalt bereits während des Leseprozesses intellektuell erfassen und antizipieren.
Der technische Sprung der letzten Jahre, und speziell unserer Implementierung, liegt im Kontextverständnis. Die KI schaut sich nicht mehr nur Pixelhaufen an. Sie liest den Text wie ein intelligenter Mensch:
- Satzverständnis: Die KI erkennt: „Hier beginnt ein Satz.“
- Prädiktion: Wenn der Satzanfang „Der Hund ist“ lautet und darauf Buchstaben folgen, die visuell schwer zu erkennen sind, aber die Struktur B-R-?-U-N haben, schlussfolgert das Modell mit extrem hoher Wahrscheinlichkeit: „braun“.
- Abgleich: Sie mappt die visuellen Fragmente (Pixel) gegen die semantische Erwartung (Wortbedeutung).
Dadurch ist es nicht mehr notwendig, dass jeder Buchstabe perfekt scharf abgebildet ist. Die KI füllt die Lücken durch logisches Sprachverständnis.
Welchen konkreten Vorteil bietet dies für die juristische Arbeit?
Durch den Einsatz kontextbasierter KI werden selbst qualitativ minderwertige Scans vollständig digital durchsuchbar und bearbeitbar, was die Effizienz in der Mandatsbearbeitung signifikant steigert.
In unseren Tests konnten wir Dokumente, die für das menschliche Auge fast unleserlich waren, so extrahieren, als wären sie digital erstellt worden. Zeichen für Zeichen wird korrekt erkannt und digitalisiert. Für Sie als Anwält:in bedeutet das:
- Volltextsuche: Sie finden Schlüsselbegriffe auch in den schlechtesten Scans.
- Zeitersparnis: Kein manuelles Abtippen von Zitaten mehr.
- Zuverlässigkeit: Die Fehlerquote sinkt drastisch, da Verwechslungen (z.B. l vs. 1) durch den Kontext ausgeschlossen werden.
Fazit: Die Technologie hat sich in den letzten zehn Jahren massiv weiterentwickelt. Was früher frustrierende Handarbeit war, löst PyleHound heute im Hintergrund – damit Sie sich auf die juristische Strategie konzentrieren können, nicht auf die Entzifferung von Pixeln.
Möchten Sie sehen, wie PyleHound Ihre Aktenberge in strukturierte Daten verwandelt? Testen Sie unsere KI-Anwaltssoftware.
Transkript des Videos:
Ich möchte ganz kurz von einem coolen Anwendungsfall unserer Anwaltssoftware, unserer KI-Anwaltssoftware berichten, wo es... also das hat mich einfach wirklich selber erstaunt. Weil es darum ging, dass wir quasi gescannte Dokumente bekommen haben und diese gescannten Dokumente wirklich, also 'Kraut und Rüben' trifft es glaube ich ganz gut, also wirklich schon für mich als Menschen fast nicht mehr lesbar waren. Und wir haben das dann mit unserem KI-Tool – heißt PyleHound, können Sie sich irgendwie anschauen, darum soll es auch gar nicht gehen – eingescannt. Und die KI hat wirklich Zeile für Zeile, irgendwie Character für Character, das Ganze so gut rausextrahiert, so gut den Text extrahiert, dass es wäre, als wäre das wirklich komplett scharf geschrieben. Als hätte ich es einfach komplett digital gemacht. Das war wirklich sehr beeindruckend zu sehen, was die Technologie da kann. Also auch wir natürlich, auch in der Technik, wir schauen den ganzen Tag: Was geht überhaupt? Was ist überhaupt machbar? Damit natürlich auch Sie das nicht machen müssen und wir das einfach in das Produkt einbauen und dann zack, irgendwie ein cooles neues Feature mit dazu geben. Aber wie gut diese Texterkennung mittlerweile ist, das ist wirklich krass. Da hat sich eh viel getan in den letzten zehn Jahren, im Vergleich zu vorher ging gar nichts. Aber auch dieser große Schritt... also was jetzt der große Unterschied ist: Vorher war es so, es gab dann diese speziellen Texterkennungssoftware, die dann so drüber gelaufen sind und ein bisschen geschaut haben, okay, wie schaut... also wir haben irgendwie hier sowas... ah okay, schaut aus wie ein C ungefähr. So quasi Formen aufeinander gemixt haben. Wie man das bei einem Kinderspiel kennt, wo ich sage, ich muss irgendwie, keine Ahnung, jetzt habe ich hier ein rundes Ding und muss quasi irgendwie was Rundes in was Rundes stecken. So hat früher quasi OCR funktioniert. Aber ohne groß hinten und vorne Informationen zu haben. Was das krasse Neue ist, mit diesen multimodalen Modellen, die wir da auch einsetzen, ist es so, dass quasi während des OCR-Steps das Modell selber schon Kontext versteht. Das heißt eben, es ist nicht mehr jeder Buchstabe einzeln – dann ist es das C, dann muss das nächste erkannt werden und dann kommen Wörter raus, die wirklich ganz krude aussehen, weil irgendwie halt eine 1 als I erkannt wurde und so weiter. So ist es nicht mehr. Nein, jetzt ist es so, dass quasi währenddessen das Modell erkennt: Ah okay, hier kommt ein Satz. „Der Hund ist...“ und dann gibt es irgendwie, keine Ahnung, einen neuen Absatz... ah okay, B, R... ah okay, dann kommt vermutlich „Braun“ raus. Aber schaut quasi noch weiter. Okay, kommt dann A, kommt dann U, kommt dann N. Und dadurch ist dieses Erkennen dieser Texte so viel besser geworden. Einfach weil natürlich schon der Kontext mit drin ist, wo auch schon klar ist: Okay, ich erwarte diese Buchstaben. Dann ist dieses Aufeinanderlegen, dieses Mappen des erwarteten Buchstaben sehr viel einfacher. Das ist wirklich krass. Das war wirklich sehr beeindruckend zu sehen, was da möglich ist. Ich werde auch in den nächsten Tagen nochmal ein Video dazu irgendwie posten, wie genau das ist, was ich eben da für ein Dokument hatte und so. Aber das wollte ich nur so berichten aus unserem Alltag. Was mich da auch einmal selbst als Techniker irgendwie, also was ich spannend fand, dass das möglich ist. Und einfach gerade wenn man als Anwalt bekommt man den ganzen Tag irgendwelche Dokumente, die irgendwie schlecht eingescannt sind und irgendwie gedreht und so weiter und so fort, auf denen man arbeiten muss. Und das geht jetzt.
Dieser Artikel wurde mit Hilfe von KI erstellt