Entwicklung einer KI-gestützten Suchfunktion für umfassende Datenbestände mit juristischen Urteilen/Integration der Suchfunktion mit einem Chatbot zum KI-Rechtsberater
Problemstellung und Ziele
Der/die Studierende soll im Rahmen des Projekts die verschiedenen Implementierungsschritte hin zum KI-Rechtsberater konzeptionell erarbeiten und praktisch durchführen. Dazu gehört zum einen die Erschließung dernotwendigen Daten (vor allem im Internet öffentlich verfügbare Gerichtsurteile), deren Integration in eine zentrale Datenbankstruktur, die Entwicklung von Algorithmen aus dem Bereich ML/NLP für die intelligenteDokumentensuche und die Integration der Suche in einen Chatbot. Begleitend können auf den gesammelten Datenverschiedenste ML-Verfahren getestet werden, um dem/der Studierenden eine große Menge an praktischerErfahrung zu vermitteln, z.B. aus dem Bereich generativer Modelle, die eigenständig neue Texte erstellen (vergleichbare Ansätze auf visuellen Daten: www.thispersondoesnotexist.com). Die Projekt-Meilensteineentsprechen den Prüfungsleistungen der einzelnen Semester.
Grundlage für die geplanten Arbeiten ist die Einarbeitung in mehrere umfangreiche Themenbereiche: MaschinellesLernen, Natural Language Processing und Big-Data-Technologien (vor allem ihre Nutzung auf dem Data-Analytics-Cluster des CfADS). In enger Zusammenarbeit mit dem CfADS-Team und der Arbeitsgruppe „Legal Tech Education“ soll ein konkreter Workflow erstellt werden. Der/die Studierende soll in diesem Zusammenhang das Sammeln und Verarbeiten von „Big Data“ erlernen. Mit den erfassten Datenmengen sollen zur Realisierung derintelligenten Suchfunktion Word-Embeddings und ML-Modelle erstellt werden. Das Erlernen einer großen Spannbreite an ML- und NLP-Verfahren steht dabei im Vordergrund. Der/die Studierende soll in den ersten drei Semestern einen umfangreichen Einblick in die Vielfalt der aufgeführten Methoden erhalten. Abschließend soll der/die Studierende in der Masterarbeit den angestrebten Suchalgorithmus bis zur Prototypenreife entwickeln undmit einem Chatbot integrieren. Begleitend können beispielsweise generative ML-Algorithmen getestet werden, um fiktive Urteilstexte zu erstellen.
Bezug zum Thema Data Science
Das Projekt hat in jeder Hinsicht einen sehr engen Bezug zum Thema Data Science: Von der Datensammlung über die Datenintegration bis hin zur Datenanalyse mit aktuellen ML- und NLP-Verfahren.
Verfügbare Ressourcen
- Der Data-Analytics-Cluster des CfADS steht über die Projektlaufzeit zur Verfügung.
- Gerichtsurteile sind in großem Umfang öffentlich im Internet verfügbar.
- Die Betreuung durch das Team der Ansprechpartner ist über die Projektlaufzeit gewährleistet.
Projektplan
Erstes Semester:
Ziele des ersten Semesters sind, sich mit dem Data-Analytics-Cluster des CfADS vertraut zu machen und den juristischen Hintergrund und das Konzept eines KI-Rechtsberaters nachzuvollziehen. Zudem ist eine Einarbeitung in die Themenbereiche ML und NLP vorgesehen. Die Prüfungsleistung ist das Er- stellen eines Forschungsexposés auf Englisch und ein dazugehöriges Kolloquium.
Zweites Semester:
Viele Behörden (beispielsweise der Europäische Gerichtshof) stellen alle in den letzten 20 Jahren gefällten Gerichtsurteile frei zur Verfügung. Aufgabe dieses Semesters ist es, solche Datenquellen zu identifizieren und zucharakterisieren. Außerdem gilt es, diese Quellen auszulesen, die Inhalte (Urteils- texte) auf dem Data-Analytics-Cluster abzulegen und erste Aufbereitungsschritte durchzuführen. Die Prüfungsleistung ist eine umfangreicheDokumentation zur Datenerfassung und -aufbereitung mit da- zugehörigem Kolloquium.
Drittes Semester:
Auf Basis der gesammelten Daten wird eine umfassende Daten-Exploration durchgeführt. Damit ML- Verfahren dieTexte/Dokumente verarbeiten können, ist ein Word-Embedding aus ihnen zu generieren (Anmerkung: Word Embeddings sind Codes, die Wörter oder ganze Texte in einfache Zahlenfolgen übersetzen und dabei wichtige Bedeutungszusammenhänge erhalten). Hierfür müssen verschiedene Word-Embedding-Techniken untereinander theoretisch und praktisch verglichen werden. Für diesen Vergleich sind ggf. individuelle Bewertungs-Richtlinien zuentwickeln. Es wird ein Konzept für die intelligente Suchfunktion entwickelt, und erste Tests dazu werden durchgeführt. Die Prüfungsleistung ist eine umfangreiche Dokumentation zum Thema Word-Embedding mit dazugehörigem Kolloquium.
Viertes Semester:
Nachdem die Daten gesammelt und die Word-Embeddings erstellt worden sind, soll ein funktionsfähiger Prototyp für die intelligente Suchfunktion erstellt werden. Diese wird, sobald das Prototypenstadium erreicht ist, in einen Chatbot eingebettet. Als zusätzliches Unterthema können generative Modelle zum Erstellen von fiktiven juristischen Texten getestet werden. Wünschenswert ist das abschließende Präsentieren der Ergebnisse auf einer Studierendenkonferenz.
Eignungskriterien
Zwingend:
- Bachelorabschluss in einer einschlägigen Fachrichtung (Informatik, Kognitionswissenschaft, Jura verbunden mit umfassenden Informatikkenntnissen, o.ä.)
- Umfassende Programmierkenntnisse in mindestens einer objektorientierten Programmier- sprache
- Fließendes Englisch in Wort und Schrift
Optional:
- Programmierkenntnisse in Python
- Grundkenntnisse in Spark / Hadoop
- Grundkenntnisse in Hbase
Erwerbbare Kompetenzen
Der/die Studierende ist nach Abschluss des Projekts in der Lage,
- einen Big-Data-Workflow für juristische Anwendungen aufzusetzen (Datenerfassung, -speicherung und -aufbereitung),
- die für die Verarbeitung von Texten relevanten ML- und NLP-Verfahren zielgerichtet anzuwenden und anwendungsbezogen anzupassen und ggf. weiterzuentwickeln,
- die theoretischen Anforderungen von ML-Verfahren mit den Erfordernissen der Praxis in Ein- klang zu bringen,
- textbasierte Dialogsysteme anzuwenden,
- die eigenen Forschungsergebnisse vor einem Fachpublikum zu präsentieren
- und wissenschaftliche Texte zu verfassen.