Interpretierbarkeit des Transfers in Multilingual Models
Dieses Projekt wurde von der VENI-Förderlinie unterstützt, die vom niederländischen Forschungsrat (NWO) finanziert wird.
Übersicht
Wenn wir eine neue Sprache lernen, versuchen wir, bestehende konzeptuelle Repräsentationen auf neue Wörter und Strukturen zu übertragen. Wir profitieren von unserem sprachlichen Vorwissen und verlassen uns auf den sprachenübergreifenden Transfer, um Defizite in der Fremdsprache zu überwinden. Wenn wir in der Lage wären, diesen Prozess computerbasiert zu modellieren, könnten wir das menschliche Lernverhalten prognostizieren und Lernschwierigkeiten wie Interferenzeffekte aufgrund von „False Friends“ vorhersehen. Multilinguale Modelle, die auf typologische Unterschiede reagieren, könnten Lernende mit unterschiedlichem Sprachhintergrund individuell unterstützen.
Aktuelle multilinguale Modelle sind als neuronale Netze implementiert, die komplexe Matrixtransformationen durchführen, um mehrere Sprachen gemeinsam in einem hochdimensionalen Vektorraum darzustellen. Sie werden aus einer technischen Perspektive heraus entwickelt und sind für Aufgaben wie die mehrsprachige Informationsbeschaffung oder die maschinelle Übersetzung optimiert. Überraschenderweise weisen die Modelle, die die größten Erfolge erzielen, ein sprachunabhängiges Trainingsverfahren für gemischte Trainingsdaten aus mehreren Sprachen auf. Es bleibt eine offene Frage, ob die resultierenden mehrsprachigen Repräsentationen in der Lage sind, sprachübergreifende Transfereffekte des Menschen zu erkennen und vorherzusagen oder ob sie lediglich oberflächliche lexikalische Parallelen in den Trainingsdaten ausnutzen.
In diesem interdisziplinären Projekt möchte ich Wissen über menschliche Wahrnehmung und Sprachwissenschaft kombinieren, um zu untersuchen, wie sich der sprachenübergreifende Transfer in computergestützten multilingualen Modellen abbildet. Der Informationsfluss und die zwischenliegenden sprachlichen Repräsentationen in neuronalen Modellen bleiben für menschliche Nutzer normalerweise undurchsichtig, aber neu entwickelte Interpretationsmethoden wie gradient-based Saliency [36] oder influence functions [30] eröffnen neue Analyseperspektiven. Die Experimente werden durch eine sprachübergreifende Analyse von Eye-Tracking-Daten angetrieben und im Hinblick auf typologische Merkmale interpretiert. Basierend auf den Ergebnissen wird ein neuer diagnostischer Datensatz entwickelt, um zu analysieren, wie computergestützte Variablen den sprachübergreifenden Transfer in mehrsprachigen Modellen erleichtern oder behindern. Das Projekt fügt dem Bereich der multilingualen Modellierung eine wichtige menschenzentrierte Perspektive hinzu und sieht die Entwicklung besserer computergestützter Modelle für das Erlernen von Sprachen vor.
Kooperationspartner
Yuval Pinter, Charlotte Pouw, Wondimagegnhue Tufa
↪ Zurück zu Forschung Übersicht.