Korpuslinguistik in den Digitalen Geisteswissenschaften. Einführung in Methoden und Werkzeuge

Der Kurs verlangt keine besonderen Vorkenntnisse.

Korpora, also Sammlungen sprachlicher Daten (Texte oder Gespräche), sind grundlegend für die sprachbezogene Forschung in den digitalen Geisteswissenschaften. Eine sehr häufige Aufgabe für Geisteswissenschaftler*innen ist, sprachliche Aspekte zu untersuchen:

  • Welche Formen des Verbs sein kommen in einem gegebenen Text vor?
  • Auf welche Weise bezieht man sich häufig auf bestimmte Entitäten wie Könige oder Prominente?
  • Kommt es oft vor, dass Zahlwörtern Artikel vorangehen? Kommen ausführliche Zahlwörter (zweitausenddreihundertvier) oder Zahlen (12449223) überhaupt in Texten vor?
  • Welche Arten von Phrasen kommen als Akkusativobjekte in philosophischen Texten vor?
  • Welche Arten von Ellipsen kommen in Kapitel-Überschriften vor?
  • Welche Sprechakte kommen in gegenwartssprachlichen Gesprächen vor?
  • Sind Texte, die von Frauen geschrieben werden, länger (oder kürzer) als von Männern geschriebene?

Um solche Fragen beantworten zu können, müssen Daten ausgewählt und vorbereitet werden. Wir werden verschiedene Ansätze der Erstellung und Annotation von Korpora besprechen. Die Methodik stammt eigentlich aus der Computer- und Korpuslingustik, aber sie wird in vielen Bereichen der digitalen Geisteswissenschaften verwendet, in denen sprachliche Daten verwendet werden.

Fragen wie die oben skizzierten können nur angegangen werden, wenn eine adäquate Textauswahl vorliegt. Zum Beispiel wird man nicht viele Erkenntnisse zum Verhalten in Gesprächen aus Parlamentsreden oder mathematischen Aufsätzen ableiten können. Daher werden wir uns zunächst mit Kriterien zur Korpuserstellung beschäftigen: der Auswahl von Texten nach außer- und innersprachlichen Kriterien, einschließlich Urheberrecht.

Darüberhinaus müssen sprachliche Daten durch Metadaten beschrieben sein, sodass man zum Beispiel in informellem Kontext getätigte Äußerungen weiblicher Sprecherinnen süddeutscher Varietäten in der zweiten Hälfte des zwanzigsten Jahrhunderts über politische Entwickungen finden kann. Wir werden verschiedene Herangehensweisen an Metadaten besprechen.

Es ist oft auch sinnvoll, sprachliche Daten bezüglich folgender Aspekte zu annotieren: pragmatische Strukturen wie Sprechakte oder rhetorische Relationen; semantische Elemente wie named entities, z.B. alle König*innen Europas oder ihre republikanischen Gegenstücke; linguistische Informationen wie Dependenzen, Wortklassen oder Lemmatisierung (von ging zu gehen). Außerdem kann es nützlich sein, textstrukturelle oder layoutbezogene Strukturen zu annotieren, z.B. Text in Überschriften, Fußzeilen/-noten, Kursivierungen oder Fettdrucken.

Abhängig davon, wie Texte verarbeitet oder annotiert werden sollen, sind Fragen wie die oben angesprochenen leichter oder schwerer zu beantworten, da es sehr leicht oder sehr schwer sein kann, die entsprechenden Daten zu finden und zu zählen. Dieser Kurs wird grundlegende Techniken vorstellen, wie man in Korpora suchen kann, nämlich:

  • Suchen nach einzelnen Wortformen,
  • Suchen mit Platzhaltern oder Abstandsoperatoren,
  • Suchen nach ähnlichen Wortformen mithilfe regulärer Ausdrücke,
  • Suchen nach syntaktischen oder semantischen Konfigurationen in hierarchischer Annotation.

Sie werden verschiedene Abfragesprachen kennenlernen, die zur Suche in Korpora verwendet werden, und, sofern die Zeit es erlaubt, auch einfache statistische Auswertungen.

Der Kurs wird sich vornehmlich mit textuellen Korpora befassen, ist aber auch für Forscher*innen interessant, die mit Audiokorpora oder multimodalen Korpora arbeiten, da die Suche dort üblicherweise auf der Ebene der Transkription und Annotation erfolgt.

Die Themen des Kurses sind also:

  • Korpuszusammenstellung und -annotationion der ersten Woche und
  • Korpussuche und -auswertung in der zweiten Woche.