Korpus- und Computerlinguistik interkulturell (Linguistik)

Third party funded individual grant

Acronym: Linguistik

Start date : 01.03.2020

End date : 31.08.2020

Extension date: 31.08.2021

Overview

Project details

Short description

In Sri Lanka ist die Muttersprache der singhalesischen Bevölkerungsmehrheit – zugleich eine der beiden Amtssprachen des Landes – computerlinguistisch noch kaum erschlossen. Erst in den letzten Jahren wurden am National Languages Processing Centre (NLPC) und am Language Technology Research Laboratory (LTRL) computerlinguistische Werkzeuge, annotierte Korpora und Sprachressourcen geschaffen, die eine Grundvoraussetzung für moderne Sprachtechnologie wie auch für korpuslinguistische Studien in den digitalen Geistes- und Sozialwissenschaften sind.

Überraschenderweise befindet sich die deutsche Korpus- und Computerlinguistik in einer analogen Situation. Trotz zahlreicher Werkzeuge und Ressourcen sowie großer Fortschritte durch den Einsatz von Deep Learning-Methoden ist die Qualität automatischer Korpusanalysen und -annotation in vielen Fällen noch völlig unzureichend: (i) auf allen nicht standardnahen Textsorten (z.B. Webseiten, soziale Medien, gesprochene Sprache); (ii) wenn eine linguistisch sinnvolle und präzise Kategorisierung nötig ist (statt grober Vereinfachungen wie etwa dem UD-Tagset); (iii) für alle Anwendungen, bei denen menschliches Verstehen im Mittelpunkt steht (im Gegensatz zu End-to-End-Systemen, die eine bestimmte Anwendungsaufgabe in völlig intransparenter Weise lösen).

Angesichts dieser Parallelen drängt sich eine wissenschaftliche Kooperation geradezu auf, um Synergien freizusetzen für die Entwicklung möglichst hochwertiger computerlinguistischer Werkzeuge und Ressourcen bei knapper Personalausstattung und Finanzierung.

Involved:

Stephanie Evert Project Leader

Contributing FAU Organisations:

Lehrstuhl für Korpus- und Computerlinguistik

Funding Source

Bayerische Forschungsallianz (BayFOR)