Seit der Veröffentlichung von ChatGPT durch OpenAI Ende 2022 erfahren Large Language Models große Aufmerksamkeit in der Öffentlichkeit. Auch wenn die Entwicklung und die dazugehörige Diskussion in Fachkreisen schon länger zurückreicht – GPT-3, auf dem ChatGPT basiert, gibt es etwa bereits seit Mitte 2020, die vorangehende Entwicklung reicht noch weit länger zurück – wurde die allgemeine Debatte erst durch ChatGPT angefacht. In nahezu allen Gesellschaftsbereichen wird der Einsatz solcher Systeme diskutiert, darunter im Rechtswesen und speziell in der Justiz, etwa im Rechtsausschuss des Landtags Nordrhein-Westfalen im Juni 2023.[1] Ein direkter Einsatz von ChatGPT in der Justiz ist zwar schon aufgrund der datenschutz- und urheberrechtlichen Probleme nicht möglich,[2] jedoch erscheint es sinnvoll, denkbare Einsatzszenarien, etwa nach Entwicklung eigener Sprachmodelle, zu diskutieren und zu erforschen. In einem gemeinsamen Forschungsprojekt von Bayern und Nordrhein-Westfalen gibt es bereits erste Bemühungen, ein generatives Large Language Model für die Justiz aufzubauen.[3]
Während ich mich zuletzt mit den derzeit bestehenden Einsatzbereichen von Künstlicher Intelligenz in der Justiz am Beispiel aktueller Pilotprojekte befasst habe,[4] soll es hier darum gehen, welche grundsätzlichen Möglichkeiten des Einsatzes von Large Language Models in der Justiz vorstellbar sind und worin ein möglicher Nutzen bestehen könnte.
1. Large Language Models: Fähigkeiten und Grenzen
Large Language Models basieren auf Konzepten künstlicher neuronaler Netze, die ihrerseits bereits seit den 1940er-Jahren Gegenstand der Forschung sind. Nach der Entstehung von Deep-Learning-Verfahren, die in den 1990er-Jahren begann, setzte darauf aufbauend vor etwa zehn Jahren die Entwicklung der aktuellen großen Sprachmodelle bzw. Large Language Models ein.[5]
Diese Modelle beruhen auf statistischen Verfahren. Die bekannteste Modellserie GPT (generative pretrained transformer – vortrainiertes generatives Transformermodell) stammt von der US-Firma OpenAI. Die Trainingsläufe erfolgten mit weiten Teilen des World Wide Web und seinen Inhalten (z. B. Wikipedia) sowie mit verfügbaren Sammlungen elektronischer Texte, wobei für die neuen Varianten (GPT-4 mit einer erneuten Größensteigerung auf mehrere Billionen Knoten im Modell) die Trainingsdaten nicht mehr offengelegt werden. Die Trainingszyklen der aktuellen großen Modelle sind lang (bis zu sechs Monate) und kostspielig, bis zu mehreren Millionen Euro für einzelne Trainingsläufe; der Betrieb des Systems soll pro Tag mehrere 100.000 Euro kosten.[6] Bei der Entwicklung der Modelle kommt zudem in erheblichem Umfang menschliches Wissen zum Einsatz.[7]
Wichtig ist, sich vor Augen zu halten, dass Large Language Models kein explizites Wissensmodell haben. Die Fähigkeit dieser Systeme, plausible und sprachlich korrekte Texte zu produzieren, beruht darauf, dass es gelingt, die wahrscheinlichsten oder besten Nachfolger eines Wortes vorherzusagen bzw. auszuwählen. Dabei tritt eine Reihe von Fehlern auf, etwas das Erfinden von Fakten oder nicht existenten wissenschaftlichen Quellen („Halluzinieren“). Eine aktuelle Studie der Universität Stanford ergab eine sehr hohe Rate (zwischen 69 und 88 Prozent je nach untersuchtem Sprachmodell) an erfundenen rechtlichen Zusammenhängen auf Rechtsfragen unterschiedlicher Komplexität. Dabei stellte sich heraus, dass die Leistung umso schlechter wird, je schwieriger die rechtlichen Fragen sind. Bei sehr komplexen Fragen lassen sich die Ergebnisse kaum von zufälligem Raten unterscheiden.[8] Ein anderes Problem ist die Reproduktion von Texten, mit denen sie trainiert wurden, in nahezu identischer Form („regurgitation“ – „Auskotzen“).[9] Zudem ergeben Studien, dass Aufgaben wie das Multiplizieren von Zahlen nur dann von solchen Sprachmodellen gelöst werden können, wenn die richtigen Antworten Teil des Trainingsmaterials gewesen sind. Die Möglichkeit zum eigenständigen „Nachdenken“ (reasoning) ist also nicht vorhanden, was die Einsatzszenarien von vornherein beschränkt.
2. Einsatzmöglichkeiten von Large Language Models in der Justiz
Eine ausführliche Befassung mit dem möglichen Einsatz im Justizbereich erfolgte im Juni 2023 vor dem Rechtsausschuss des Landtags Nordrhein-Westfalen durch Anhörung verschiedener Sachverständiger.[10] Dabei wurde ein bunter Strauß an denkbarer Hilfe durch solche Systeme in der Justiz genannt. Grundsätzlich einig ist man sich, dass ein den Richter oder die Richterin ersetzender Einsatz von generativen Sprachmodellen von vornherein ausscheidet, sondern lediglich ein Einsatz im Assistenzbereich in Betracht kommt.[11] Auch datenschutzrechtliche Vorgaben dürften einem direkten Einsatz der bisher bestehenden Systeme entgegenstehen.[12] Eine Lösung der Problematik erhofft man sich durch den Aufbau eines justizeigenen generativen Sprachmodells, bei dem die Trainingsdaten kontrolliert und so urheberrechtliche Probleme vermieden werden können. Gleichzeitig könnte dies zu einer besseren Ausrichtung auf das deutsche Recht u. a. durch Einbeziehung von Fachdatenbanken führen.[13] Allerdings stehen Verfahren, die aktuellen sehr großen Transformer-Modelle mit kleinen Datenbeständen nachzutrainieren, noch am Anfang.[14]
Die genannten Möglichkeiten zum Einsatz von generativen Sprachmodellen in der Justiz betreffen auch die Hilfe bei der Extrahierung von Metadaten oder die Anonymisierung von Akten. Sie reichen vom Einsatz für die tabellarische Aufbereitung von Dokumentinhalten über das Erkennen von Zusammenhängen und das Erstellen von Textvergleichen ebenso wie über die Visualisierung von Sachverhalten, eine mögliche Hilfe bei der Berechnung von Prozesskostenhilfe oder der Bestimmung von Schmerzensgeld sowie die Glättung von Texten, das Verfassen von Texten aus Daten in strukturierter Form, die Zusammenfassung von Texten oder die Übersetzung in einfache Sprache oder Gebärdensprache.[15]
Bislang gibt es wenig Auseinandersetzung damit, ob und welcher Bedarf für die einzelnen Einsatzgebiete besteht, und noch weniger damit, ob die Systeme überhaupt in der Lage sind, eine sinnvolle Hilfestellung für den Einsatz in der Justiz zu geben. Dies soll hier zumindest beispielhaft erfolgen, ohne die rechtlichen Probleme sowie die weiteren Gefahren beim Einsatz solcher Sprachmodelle näher aufzugreifen. Die Möglichkeiten, die sie bei der Entwicklung von Software-Systemen der Justiz spielen können, z. B. durch Assistenz beim Programmieren wie mit dem Github Copilot oder bei der Erstellung von Testszenarien, sollen an dieser Stelle ebenfalls nicht vertieft werden.
Ordnet man die verschiedenen Einsatzszenarien, die für die Justiz diskutiert werden, stehen insgesamt drei Bereiche im Vordergrund: Zum einen der Einsatz als Analysetool, das für die Aktenaufbereitung in vielfältiger Weise in Betracht kommt, zum anderen der Bereich der Textgenerierung, in dem die großen Large Language Models ihre Stärke haben. Eine weitere Möglichkeit besteht in der Rechtsvisualisierung.
2.1 Einsatz als Analysetool
Darunter fällt der Einsatz bei der Extrahierung von Metadaten oder bei der Anonymisierung von Verfahrensdaten.[16] Beide Bereiche sind typische Anwendungsfelder bereits bestehender Vorhaben in der Justiz, etwa seit 2019 SMART/IMJ, das zum Ziel hat, die zur E-Akte eingehenden PDF-Dokumente mittels KI-Einsatzes weitgehend automatisiert zu kategorisieren, Dokumentaufteilungen, vorzunehmen oder Metadaten wie die Beteiligtennamen, die Klageart oder den Streitwert zu extrahieren.[17] Ein anderes Projekt ist FRIDA (für Frankfurter Regelbasierte Intelligente Dokumentenerstellungs-Assistenz), das anhand fester Suchkriterien relevante Daten aus den Akten auslesen und automatisiert Entwürfe von Protokollen, Urteilen und Beschlüssen erstellen kann.[18]
Die Anonymisierung von Gerichtsentscheidungen ist ebenfalls Gegenstand einer Reihe von Projekten, u. a., um durch eine automatisierte Anonymisierung zu einer höheren Veröffentlichungsrate von Entscheidungen (derzeit geht man von einer Veröffentlichungsquote von ein bis fünf Prozent aus) beizutragen. In einem gemeinsamen Projekt des bayerischen Justizministeriums und der Friedrich-Alexander-Universität Erlangen-Nürnberg wird auf der Grundlage des Deep-Learning-Sprachmodells GOTTBERT ein Anonymisierungstool entwickelt, das einen so hohen Grad an Korrektheit anstrebt, dass eine Nachbearbeitung unnötig ist.[19] Auch in Baden-Württemberg und Hessen gibt es ein Anonymisierungsprojekt: Der Prototyp JANO macht Vorschläge zur Anonymisierung personenbezogener Daten, die anschließend von Justizbeschäftigten geprüft werden.[20]
Inwiefern sich hier durch den Einsatz von ChatGPT und Co. ein Vorteil ergibt, erscheint derzeit offen und ist nicht unbedingt naheliegend. Soweit ersichtlich, findet dazu bislang wenig Diskussion statt, geschweige denn eine nähere Erforschung oder gar Evaluierung. Dies gilt in gleicher Weise für die Bereiche, in denen in den Pilotprojekten FRAUKE und OLGA Falldaten aus Verfahren zu den Fluggastrechten und den Dieselverfahren extrahiert werden.[21] Unklar ist weiterhin, inwieweit das Erkennen von Zusammenhängen oder das Erstellen von Textvergleichen[22] sowie eine mögliche Hilfe bei der Berechnung von Prozesskostenhilfe oder der Bestimmung von Schmerzensgeld[23] durch Large Language Models tatsächlich und in einer so zuverlässigen Weise geleistet werden kann, dass sich ein Mehrwert für die Nutzer und Nutzerinnen ergibt, wobei auf die schwierigen rechtlichen Implikationen hier gar nicht eingegangen werden soll.
Wenig Zeit für Digitalisierung?
Einmal im Monat erhalten Sie in unserem Newsletter Legal Tech-News, Praxistipps für die Digitalisierung und Tooltipps direkt in ihre Inbox.
2.2 Unterstützung bei der Textgenerierung
Die wesentliche Stärke von generativen Sprachmodellen sind ihre beeindruckenden sprachlichen Fähigkeiten. Insoweit liegt es nahe, vor allem in diesem Bereich Einsatzmöglichkeiten in der Justiz zu erörtern.
Generieren von Textzusammenfassungen
Die Fähigkeit generativer Sprachmodelle, Texte zusammenzufassen, wird meist als besonders gut eingeschätzt. Denkbar ist der Einsatz zur Zusammenfassung von juristischen Fachtexten, um sich schneller in ein rechtliches Problem einzuarbeiten. Ein anderes Szenario sieht eine Nutzung zur einfacheren Durchdringung von Verfahrensakten bzw. allgemein des durch Richterinnen und Richter zu beurteilenden Sachverhalts vor. Bei beiden Einsatzmöglichkeiten ist bislang offen, wie gut die Qualität der ausgegebenen Zusammenfassung ist. Wenn man diese in jedem Fall überprüfen muss, erscheint der Gewinn fraglich.
Hinzu kommt die Problematik, dass der Anspruch auf rechtliches Gehör grundsätzlich gebietet, dass der gesamte Akteninhalt zur Kenntnis genommen wird. Ein selbstständiges Erstellen etwa von Relationstabellen dürfte schon deshalb von vornherein ausscheiden. Insofern kommt nur ein unterstützender Einsatz in Betracht, wobei bisher unklar ist, wie hoch eine mögliche Effizienz- bzw. Effektivitätssteigerung ist. Dies gilt in gleicher Weise für die Zusammenfassung von juristischen Fachtexten. Möglich erscheint hier der Einsatz, um sich einen ersten Überblick zu verschaffen. In jedem Fall ist eine gewissenhafte Überprüfung notwendig. Dafür ist die Kenntnis der Restriktionen solcher Systeme notwendig, auch um das von allen Sachverständigen des Rechtsausschusses des Landtags in Nordrhein-Westfalen geäußerte Problem des Automation Bias zu reduzieren: Es besteht die ernst zu nehmende Gefahr, dass die Nutzer und Nutzerinnen zu großes Vertrauen in die Ergebnisse des Systems haben und diese zu wenig hinterfragen.[24] Dagegen hilft das Verständnis der Wirkungsweise solcher Systeme, ebenso die ausdrückliche Kennzeichnung etwa als „unverbindlicher Vorschlag“. Selbst das Einbauen von absichtlichen Fehlern wird diskutiert.[25]
Verfassen (einfacher) juristischer Texte
Während die Nutzung für das Erstellen komplexerer Dokumente wie Beschluss- oder Urteilsentwürfe beim derzeitigen Stand der Technik als zu unzuverlässig angesehen und daher abgelehnt wird, kommt das Generieren von einfachen Schreiben (Ladungen, Anforderungen von Akten etc.) als Einsatzgebiet in Betracht.[26] Da die Justiz wie alle größeren Institutionen weitgehend mit sorgfältig geprüften Mustertexten bzw. Textbausteinen arbeitet,[27] ist der Nutzen vermutlich überschaubar. Anders könnte es bei der Übertragung von individuellen Verfügungen der Richterinnen und Richtern durch die Mitarbeiterinnen und Mitarbeiter der Geschäftsstellen aussehen.[28] Da diese oftmals recht knapp gefasst sind, bereitet die Umsetzung mitunter Schwierigkeiten. Hier könnte der Einsatz generativer Sprachmodelle Abhilfe schaffen.
Ein denkbarer Einsatz ist die Umwandlung von strukturierten Daten in Text, etwa im Bereich der Massen- bzw. Alltagskriminalität. Jedoch stellt sich die Frage, inwieweit ein generatives Sprachmodell Vorteile gegenüber einer leicht zu realisierenden regelbasierten Überführung strukturierter Daten (etwa Tatzeit, Tatort, Fahrzeugtyp, Grad der Alkoholisierung bei der Trunkenheit im Straßenverkehr gemäß § 316 StGB) in Text hat. Zu Recht wird hierzu festgestellt, dass es einer „genaueren wissenschaftlichen und praktischen Untersuchung“ bedarf, inwieweit der Einsatz von Large Language Models sinnvoller als der Einsatz regelbasierter Systeme oder intelligenter Abfragemasken ist.[29]
Generell müsste gerade bei diesem Szenario evaluiert werden, wie hilfreich der Einsatz für die Anwenderinnen und Anwender ist, wenn immer eine genaue inhaltliche Überprüfung der ausgegebenen Ergebnisse notwendig ist. Im Kernbereich der richterlichen Tätigkeit wird das stark angezweifelt.[30] Zutreffend dürfte die Einschätzung sein, dass eine geeignete Anwendung dann gegeben sei, wenn „es eine lange Zeit bräuchte, um ein Artefakt zu erschaffen, jedoch sehr wenig Zeit, um seine Korrektheit zu verifizieren“.[31]
Umformulierung von Texten
Die Fähigkeit generativer Sprachmodelle zur Umformulierung könnte in der Justiz dazu genutzt werden, Texte zu verbessern, etwa wenn diese aus Textbausteinen zusammengesetzt werden und sich dadurch „holprige“ Übergänge ergeben. Generell lassen sich durch geeignete Anweisungen (Prompts) ganz unterschiedliche stilistische Varianten erzeugen. Dabei spielt die bekannte Unzuverlässigkeit eine untergeordnete Rolle, da man sofort sieht, ob die Umformulierung eine Verbesserung erzielt hat.
Ein anderer Bereich ist der Einsatz zur Übertragung von Rechtstexten in einfache Sprache, in Gebärdensprache oder auch zur Bildbeschreibung. Damit könnten solche Systeme einen Beitrag zur Verbesserung der Barrierefreiheit leisten.[32] Erste exemplarische Untersuchungen hinsichtlich der Übertragung in einfache Sprache erkunden die Leistungsfähigkeit von ChatGPT 3.5 und ChatGPT 4 und zeigen das durchaus bestehende Potenzial, selbst wenn im Einzelnen noch erhebliche redaktionelle Nacharbeit erforderlich sein sollte, um die Ausgabe zu optimieren.[33] Hier kann man sich als Anwendungsszenario vorstellen, dass sich juristische Laien Urteile in einfacher Sprache anzeigen lassen können. Bei dieser Einsatzart können Ungenauigkeiten bei der Übertragung ggf. hingenommen werden, da der (oftmals schwer zu verstehende) Originaltext gleichzeitig zur Verfügung steht.
2.3 Rechtsvisualisierung
Als mögliche Unterstützung im justiziellen Bereich wird die visuelle Aufbereitung von Informationen oder Texten genannt, etwa die tabellarische Darstellung einer Sachverhaltsschilderung[34] oder generell die Visualisierung von Informationen[35]. Durch die Möglichkeit, Bildgeneratoren wie Dall-E anzusteuern, lassen sich sehr leicht Bilder generieren, die ästhetisch ansprechend gestaltet sind. Fraglich bleibt aber, inwieweit sie über schmückendes Beiwerk (eye candy) hinausgehen und tatsächlich einen informationellen Mehrwert bieten. Erste Untersuchungen zeigen ein eher ernüchterndes Bild.[36]
3. Fazit
Das Potenzial des Einsatzes großer Sprachmodelle in der Justiz wird als sehr groß angesehen, die möglichen Anwendungsszenarien sind vielfältig. Bislang ist aber weitgehend offen, welche der Nutzungsarten besonders vielversprechend sind und einen Mehrwert zu den bisherigen Werkzeugen, etwa der Verwendung von Mustertexten und Textbausteinen, bieten. Die Auseinandersetzung damit befindet sich noch ganz am Anfang und eine Evaluierung steht noch aus. Da die große Stärke der Systeme ihre sprachlichen Fähigkeiten darstellen, sollte hierin der Fokus liegen. Gleichzeitig ist zu hinterfragen, bei welchen Einsatzgebieten die bekannte Unzuverlässigkeit dieser Systeme am ehesten hingenommen werden kann. Vielversprechend erscheint beispielsweise die Übertragung von Rechtstexten in einfache Sprache als Beitrag zur Verbesserung der Barrierefreiheit der Justiz und damit auch zu einem erleichterten access to justice.

Mehr zum Thema Legal Tech im aktuellen Legal Tech-Magazin
„Ein Jahr ChatGPT: Hintergründe und Einsatzmöglichkeiten in Kanzleien, Justiz und Studium“
Dr. jur. Bettina Mielke, M.A. ist Präsidentin des Landgerichts Ingolstadt und lehrt an der Universität Regensburg sowohl im Staatsexamensstudiengang als auch in den Studiengängen LL.M. Legal Tech und LL.B. Digital Law zu den Themen Digitalisierung und Recht, Logik sowie Legal Tech. Aufbauend auf ihrem Zweitstudium der Informationswissenschaft und Germanistik ist sie seit vielen Jahren im Bereich der Rechtsinformatik wissenschaftlich tätig. Sie war und ist zudem an Konzeption und Durchführung der Angebote zu Legal Tech / Digitalisierung und Recht im Referendariat in Bayern beteiligt.