Third party funded individual grant
Acronym: Linguistik
Start date : 01.03.2020
End date : 31.08.2020
Extension date: 31.08.2021
In Sri Lanka ist die Muttersprache der
singhalesischen Bevölkerungsmehrheit – zugleich eine der beiden
Amtssprachen des Landes – computerlinguistisch noch kaum erschlossen.
Erst in den letzten Jahren wurden am National Languages Processing
Centre (NLPC) und am Language Technology Research Laboratory (LTRL)
computerlinguistische Werkzeuge, annotierte Korpora und Sprachressourcen
geschaffen, die eine Grundvoraussetzung für moderne Sprachtechnologie
wie auch für korpuslinguistische Studien in den digitalen Geistes- und
Sozialwissenschaften sind.
Überraschenderweise befindet sich die
deutsche Korpus- und Computerlinguistik in einer analogen Situation.
Trotz zahlreicher Werkzeuge und Ressourcen sowie großer Fortschritte
durch den Einsatz von Deep Learning-Methoden ist die Qualität
automatischer Korpusanalysen und -annotation in vielen Fällen noch
völlig unzureichend: (i) auf allen nicht standardnahen Textsorten (z.B.
Webseiten, soziale Medien, gesprochene Sprache); (ii) wenn eine
linguistisch sinnvolle und präzise Kategorisierung nötig ist (statt
grober Vereinfachungen wie etwa dem UD-Tagset); (iii) für alle
Anwendungen, bei denen menschliches Verstehen im Mittelpunkt steht (im
Gegensatz zu End-to-End-Systemen, die eine bestimmte Anwendungsaufgabe
in völlig intransparenter Weise lösen).
Angesichts dieser
Parallelen drängt sich eine wissenschaftliche Kooperation geradezu auf,
um Synergien freizusetzen für die Entwicklung möglichst hochwertiger
computerlinguistischer Werkzeuge und Ressourcen bei knapper
Personalausstattung und Finanzierung.