Der KI-Rechtsberater

Projektübersicht

Anzahl Studierende	1
Art	Studienprojekt (interdisziplinär, fachbereichsübergreifend; enge Anbindung an geförderte Projekte)
Projektverantwortung	Prof. Dr. W. Schenck, Prof. Dr. D. Hötte, N. Migenda, M.Eng. und D. Pelkmann, B.Eng.
Projektkontext	Das Projekt findet in enger Zusammenarbeit mit dem Center for Applied Data Science (CfADS) Gütersloh und dem Fachbereich Wirtschaft und Gesundheit (Arbeits- gruppe „Legal Tech Education“) statt.
Projektdurchführung	Christoph Hoppe

Kurzbeschreibung

Künstliche Intelligenz (KI) verspricht, viele Bereiche aus Wirtschaft und Gesellschaft grundlegend zu verändern. Dazu gehört auch das Rechtswesen. In diesem Gebiet bestehen große Chancen, mit Hilfe von KI-Techniken neue und verbesserte Dienstleistungen anzubieten – sowohl für den juristischen Laien als auch für den professionell Tätigen. Das Spannende ist dabei, dass dieses Feld aktuell noch weitgehend unerschlossen ist und man sich als ForschungspionierIn auf den Weg machen kann.

Die Erfolge der KI in den letzten zehn Jahren beruhen nicht unwesentlich auf der Menge der inzwischen

verfügbaren Daten, die für das Training sogenannter maschinell gelernter Modelle zur Verfügung stehen. Die großen Internetkonzerne mit ihrer einfachen Zugangsmöglichkeit zu den Texten, Fotos, Filmen und Soundclips von Milliarden von Benutzern haben davon umfassend profitiert, um KI-basierte Dienstleistungen und Anwendungen zu entwickeln (man denke an Sprachassistenten, Bildersuche, Empfehlungssysteme u.ä.). Im Rechtswesen gibt es einen ähnlichen Datenschatz: Die öffentlich verfügbaren Urteile auf verschiedensten Ebenen, vom Amtsgericht bishin zum europäischen Gerichtshof. Der Inhalt dieser Urteilsbegründungen ist für den Juristen von sehr großer Wichtigkeit, um Rechtsfragen erfolgreich bearbeiten und Gesetzestexte zeitgemäß interpretieren zu können. Aktuellgibt es aber eine große Hürde: Für die Suche in diesem großen Korpus von Texten gibt es keine hinreichend komfortablen Suchalgorithmen und -anwendungen, die Urteilstexte automatisch nach ihrer Relevanz für die Suchanfrage bewerten können.

Genau an dieser Stelle kommt die künstliche Intelligenz ins Spiel: Was benötigt wird, ist ein intelligentesSuchverfahren, dass die Bewertung von Urteilstexten bzgl. ihrer Relevanz automatisch durchführt. Die Entwicklung eines solchen Suchverfahrens mit Hilfe von KI ist der Kern dieses Projekts. Um dieses Ziel zu erreichen, gibt es inzwischen ein großes Repertoire an KI-Methoden, vor allem aus den Bereichen des maschinellen Lernens (ML) und des „Natural Language Processing“ (NLP), der computergestützten Verarbeitung natürlicher gesprochener und geschriebener Sprache (dazu gehören z.B. Computerprogramme und Algorithmen, die Texte einordnen und „verstehen“ können).

Sobald eine solche intelligente Suchfunktion auf juristischen Daten zur Verfügung stünde, könnten sowohl Laien zumindest bei einfacheren Sachverhalten auf die Schnelle herausfinden, wie eine bestimmte Situation rechtlich grobeinzuschätzen ist, als auch „Profis“ wesentlich effizienter arbeiten. Als krönender Abschluss des Projekts ist die Kombination der Suchfunktion mit einem Chatbot (einem textbasierten Dialogsystem) geplant, und schon wären wir beim „KI-Rechtsberater“, der rund um die Uhr hilfreich zur Seite steht.

Aufgabenstellung

Entwicklung einer KI-gestützten Suchfunktion für umfassende Datenbestände mit juristischen Urteilen/Integration der Suchfunktion mit einem Chatbot zum KI-Rechtsberater

Problemstellung und Ziele
Der/die Studierende soll im Rahmen des Projekts die verschiedenen Implementierungsschritte hin zum KI-Rechtsberater konzeptionell erarbeiten und praktisch durchführen. Dazu gehört zum einen die Erschließung dernotwendigen Daten (vor allem im Internet öffentlich verfügbare Gerichtsurteile), deren Integration in eine zentrale Datenbankstruktur, die Entwicklung von Algorithmen aus dem Bereich ML/NLP für die intelligenteDokumentensuche und die Integration der Suche in einen Chatbot. Begleitend können auf den gesammelten Datenverschiedenste ML-Verfahren getestet werden, um dem/der Studierenden eine große Menge an praktischerErfahrung zu vermitteln, z.B. aus dem Bereich generativer Modelle, die eigenständig neue Texte erstellen (vergleichbare Ansätze auf visuellen Daten: www.thispersondoesnotexist.com). Die Projekt-Meilensteineentsprechen den Prüfungsleistungen der einzelnen Semester.

Grundlage für die geplanten Arbeiten ist die Einarbeitung in mehrere umfangreiche Themenbereiche: MaschinellesLernen, Natural Language Processing und Big-Data-Technologien (vor allem ihre Nutzung auf dem Data-Analytics-Cluster des CfADS). In enger Zusammenarbeit mit dem CfADS-Team und der Arbeitsgruppe „Legal Tech Education“ soll ein konkreter Workflow erstellt werden. Der/die Studierende soll in diesem Zusammenhang das Sammeln und Verarbeiten von „Big Data“ erlernen. Mit den erfassten Datenmengen sollen zur Realisierung derintelligenten Suchfunktion Word-Embeddings und ML-Modelle erstellt werden. Das Erlernen einer großen Spannbreite an ML- und NLP-Verfahren steht dabei im Vordergrund. Der/die Studierende soll in den ersten drei Semestern einen umfangreichen Einblick in die Vielfalt der aufgeführten Methoden erhalten. Abschließend soll der/die Studierende in der Masterarbeit den angestrebten Suchalgorithmus bis zur Prototypenreife entwickeln undmit einem Chatbot integrieren. Begleitend können beispielsweise generative ML-Algorithmen getestet werden, um fiktive Urteilstexte zu erstellen.

Bezug zum Thema Data Science
Das Projekt hat in jeder Hinsicht einen sehr engen Bezug zum Thema Data Science: Von der Datensammlung über die Datenintegration bis hin zur Datenanalyse mit aktuellen ML- und NLP-Verfahren.

Verfügbare Ressourcen

Der Data-Analytics-Cluster des CfADS steht über die Projektlaufzeit zur Verfügung.
Gerichtsurteile sind in großem Umfang öffentlich im Internet verfügbar.
Die Betreuung durch das Team der Ansprechpartner ist über die Projektlaufzeit gewährleistet.

Projektplan
Erstes Semester:
Ziele des ersten Semesters sind, sich mit dem Data-Analytics-Cluster des CfADS vertraut zu machen und den juristischen Hintergrund und das Konzept eines KI-Rechtsberaters nachzuvollziehen. Zudem ist eine Einarbeitung in die Themenbereiche ML und NLP vorgesehen. Die Prüfungsleistung ist das Er- stellen eines Forschungsexposés auf Englisch und ein dazugehöriges Kolloquium.

Zweites Semester:
Viele Behörden (beispielsweise der Europäische Gerichtshof) stellen alle in den letzten 20 Jahren gefällten Gerichtsurteile frei zur Verfügung. Aufgabe dieses Semesters ist es, solche Datenquellen zu identifizieren und zucharakterisieren. Außerdem gilt es, diese Quellen auszulesen, die Inhalte (Urteils- texte) auf dem Data-Analytics-Cluster abzulegen und erste Aufbereitungsschritte durchzuführen. Die Prüfungsleistung ist eine umfangreicheDokumentation zur Datenerfassung und -aufbereitung mit da- zugehörigem Kolloquium.

Drittes Semester:
Auf Basis der gesammelten Daten wird eine umfassende Daten-Exploration durchgeführt. Damit ML- Verfahren dieTexte/Dokumente verarbeiten können, ist ein Word-Embedding aus ihnen zu generieren (Anmerkung: Word Embeddings sind Codes, die Wörter oder ganze Texte in einfache Zahlenfolgen übersetzen und dabei wichtige Bedeutungszusammenhänge erhalten). Hierfür müssen verschiedene Word-Embedding-Techniken untereinander theoretisch und praktisch verglichen werden. Für diesen Vergleich sind ggf. individuelle Bewertungs-Richtlinien zuentwickeln. Es wird ein Konzept für die intelligente Suchfunktion entwickelt, und erste Tests dazu werden durchgeführt. Die Prüfungsleistung ist eine umfangreiche Dokumentation zum Thema Word-Embedding mit dazugehörigem Kolloquium.

Viertes Semester:
Nachdem die Daten gesammelt und die Word-Embeddings erstellt worden sind, soll ein funktionsfähiger Prototyp für die intelligente Suchfunktion erstellt werden. Diese wird, sobald das Prototypenstadium erreicht ist, in einen Chatbot eingebettet. Als zusätzliches Unterthema können generative Modelle zum Erstellen von fiktiven juristischen Texten getestet werden. Wünschenswert ist das abschließende Präsentieren der Ergebnisse auf einer Studierendenkonferenz.

Eignungskriterien
Zwingend:

Bachelorabschluss in einer einschlägigen Fachrichtung (Informatik, Kognitionswissenschaft, Jura verbunden mit umfassenden Informatikkenntnissen, o.ä.)
Umfassende Programmierkenntnisse in mindestens einer objektorientierten Programmier- sprache
Fließendes Englisch in Wort und Schrift

Optional:

Programmierkenntnisse in Python
Grundkenntnisse in Spark / Hadoop
Grundkenntnisse in Hbase

Erwerbbare Kompetenzen
Der/die Studierende ist nach Abschluss des Projekts in der Lage,

einen Big-Data-Workflow für juristische Anwendungen aufzusetzen (Datenerfassung, -speicherung und -aufbereitung),
die für die Verarbeitung von Texten relevanten ML- und NLP-Verfahren zielgerichtet anzuwenden und anwendungsbezogen anzupassen und ggf. weiterzuentwickeln,
die theoretischen Anforderungen von ML-Verfahren mit den Erfordernissen der Praxis in Ein- klang zu bringen,
textbasierte Dialogsysteme anzuwenden,
die eigenen Forschungsergebnisse vor einem Fachpublikum zu präsentieren
und wissenschaftliche Texte zu verfassen.

Kontakt

Prof. Dr.-Ing. Wolfram Schenck

+49.521.106-70337

wolfram.schenck@hsbi.de