Nach positiver Absolvierung der Lehrveranstaltung sind Studierende in der Lage, Strukturen aus natürlichsprachlichen Daten zu extrahieren, indem sie Standardmethoden zur Textsegmentierung, Wort- und Sequenzmarkierung oder syntaktischen Analyse anwenden. Sie erhalten auf hohem Niveau einen Überblick über die wichtigsten regelbasierten und lernbasierten Ansätze und die Standardmethoden zu deren Evaluierung. Die Studierenden erwerben ein grundlegendes Verständnis von künstlichen neuronalen Netzen und Lernmethoden, mit besonderem Schwerpunkt auf Architekturen zur Verarbeitung sequentieller Daten, die es ihnen ermöglichen, eine Vielzahl von NLP-Aufgaben mit Deep Learning zu lösen. Es wird ein Überblick über Informationsextraktionsaufgaben gegeben, der es den Studierenden ermöglicht, verschiedene Probleme der Extraktion strukturierter Informationen aus unstrukturierten Textdaten anzugehen. Es wird auch ein Überblick über gängige spezialisierte IE-Aufgaben gegeben, der die Studierenden mit einigen der gängigsten NLP-Anwendungen vertraut macht.
- Grundlagen der Textverarbeitung: Segmentierung, Tokenization, Decompounding, Stemming, Lemmatization; Regular Expressions
- N-gram Sprachmodellierung, einfache Klassifikationsaufgaben in NLP
- Part-of-speech tagging, named entity recognition, und shallow parsing mit Hidden Markov Models
- Syntactic representations und syntactic parsing
- Grundlagen von natural language semantics
- Grundlagen von neuronalen Netzwerken. Feed forward networks und recurrent neural networks
- Sequence modeling und sequence-to-sequence models.
- Neural language modeling. Word vectors und contextualized language models.
- Information Extraction Aufgaben: entity recognition, relation extraction, knowledge base population
- Information Extraction Anwendungen: summarization, question answering, chatbots