Digitale Annotation und Analyse literarischer Texte mit CATMA 6

Ziele des Workshops

Der Workshop bietet Studierenden der Literaturwissenschaft eine Einführung in CATMA 6.0 (Computer Assistet Text Markup and Analysis; www.catma.de), ein open-source-Tool, entwickelt und gehostet an der Universität Hamburg seit 2008. CATMA wird derzeit von über 60 Forschungsprojekten weltweit genutzt. Die neue Version 6.0 ist ein Teil des DFG-Projektes forTEXT (www.fortext.net) und bietet eine einzigartige Kombination dreier Komponenten:

  1. CATMA unterstützt kollaborative Annotation und Analyse – ein Text oder ein Textkorpus kann individuell oder auch von einer Gruppe Studierender oder Forscher gemeinsam erforscht werden.
  2. CATMA unterstützt eine explorative, non-deterministische Praxis der Textannotation – ein diskursiver, diskursorientierter Ansatz zur Textannotation, der auf Forschungspraktiken hermeneutischer Disziplinen basiert, bildet das grundlegende konzeptionelle Modell.
  3. CATMA integriert Textannotation und -analyse in einer webbasierten Arbeitsumgebung – wodurch es möglich wird, die Identifikation textueller Phänomene mit ihrer Erforschung iterativ und nahtlos zu kombinieren.

Was CATMA von anderen digitalen Annotationsmethoden unterscheidet, ist sein ‘undogmatischer’ Ansatz: Das System schreibt weder vordefinierte Annotationsschemata oder -regeln vor, noch zwingt es die Nutzer*innen starre ja / nein-, richtig / falsch-Taxonomien auf Texte anzuwenden (auch wenn es präskriptivere Schemata ebenfalls ermöglicht). Mit anderen Worten lädt CATMAs Logik Nutzer*innen ein, die Vielfältigkeit und Facettenreichheit textlicher Phänomene in Bezug auf ihre individuellen Bedürfnisse zu explorieren: Sie können eigene individuelle Tagsets erzeugen, erweitern und kontinuierlich modifizieren. Wenn also eine Textpassage mehr als eine Interpretation zulässt, gibt es nichts, dass multiple oder sogar widersprüchliche Annotationen verhindert.

Trotz seiner Flexibilität erzeugt CATMA keine ideosynkratischen Annotationen: Sämtliche Markup-Daten können im TEI/XML-Format exportiert und in anderen Texten weiterverwendet werden. Weil CATMA ein sehr intuitives Tool ist, bietet es sich vor allem für Geisteswissenschaftler*innen mit wenig technischem Vorwissen an: Das GUI erlaubt einen schnellen Start und CATMAs Query Builder (eine dialogbasierte Schritt-für-Schritt-Vorrichtung) hilft, komplexe Informationen aus Texten zu filtern, ohne dass man eine Query-Language erlernen muss. Zudem werden CATMAs leicht nutzbare Distant-Reading-Funktionen kontinuierlich weiterentwickelt – die aktuelle Version 6.0 bietet beispielsweise eine Anzahl automatischer Annotationsroutinen, darunter die Identifikation grundlegender narrativer Eigenschaften.

In unserem Workshop werden wir die grundlegenden Annotations- und Analysefunktionalitäten von CATMA vorstellen und zeigen, wie diese mit dem automatischen Erzeugen von Annotationen kombiniert werden können. In Woche 1 werden die Teilnehmer*innen in einem hands-on-Ansatz Schritt für Schritt durch den gesamten Ablauf der CATMA-basierten Texterforschung geführt, wobei sie an ihren eigenen Texten / Projekten arbeiten können:

  1. Vom Textupload zur grundlegenden Texterforschung,
  2. dann zur Annotation und Spezifikation von Annotationskategorien,
  3. von dort zu kombinierten Abfragen von Textdaten und Annotationen
  4. und schließlich zur visuellen Darstellung der Analyseergebnisse.

Teilnehmer*innen werden das Tool praktisch erproben können: Sie werden ihre eigenen Texte annotieren, ihre eigenen Tagsets erstellen, Tags definieren und Annotationsguidelines erstellen. Wir möchten außerdem gerne zu einer kritischen Diskussion von CATMAs Designkomponenten sowie genereller Bedarfe, die aus den jeweiligen Interessensfeldern an Textanalysetools gestellt werden, einladen. In Woche 2 werden wir die Arbeit in CATMA mit anderen Methoden und Tools für die digitale Textanalyse (wie Named Entity Recognition und (Soziale) Netzwerk Analyse) in zwei Schritten kombinieren. Beginnen werden wir mit der visuellen Erforschung und Verfeinerung der Annotationen, die in der ersten Woche erstellt wurden. Zweitens werden wir spezifische Möglichkeiten eruieren, wie CATMA in den Projekten der einzelnen Teilnehmer*innen zur Anwendung kommen kann: Was sind die Ergebnisse der CATMA-basierten Annotation und Analyse der Texte sowie der Erstellung von genuin projektspezifischen Tagsets? Alle Teilnehmer*innen werden eine kurze Präsentation ihres Projektes mit anschließender Diskussion geben.

Zielgruppe des Workshops

Primär wird CATMA von Literaturwissenschaftler*innen und Studierenden der Literaturwissenschaft genutzt. Zudem kann der Workshop für folgende Gruppen von Interesse sein:

  1. Geisteswissenschaftler*innen aller Disziplinen, die sich mit Textanalyse beschäftigen (mit und ohne Erfahrung in der digitalen Textanalyse)
  2. Softwareentwickler*innen in den Geisteswissenschaften, die sich für non-deterministische Textanalyse und automatische Annotation interessieren.

Teilnehmer*innen brauchen kein Vorwissen über digitale Textannotation und können mit ihren eigenen Laptops und ihren eigenen digitalisierten Texten arbeiten. CATMA läuft auf Laptops und PCs (Windows, Unix, MacOS) mit aktuellen Webbrowsern (MS Explorer oder Edge, Firefox, Chrome, Safari) mit einer Maus oder einem Touchpad. Touchscreen-Geräte werden derzeit noch nicht unterstützt.

Agenda

Woche 1 CATMA

Tag 1

  1. CATMA Koncept
    1. undogmatisches, hermeneutisches Annotieren für Literaturwissenschaftler*innen
    2. Distant, Close und Scalable Reading
  2. CATMA Demo
    1. Einführung in die CATMA-Systemarchitektur und beispielhafter Workflow
    2. Funktionen und Module in CATMA
  3. Projekt Präsentationen der Teilnehmer*innen Teil 1

Tag 2

  1. Projekt Präsentationen der Teilnehmer*innen Teil 2
  2. Texte aus dem eigenen Forschungsbereich annotieren

Tag 3

  1. Präsentation beispielhafter Tagsets und Tagsets anlegen 
  2. Eigene Tagsets gestalten
  3. Die Nutzung von Guidelines für kollaboratives Annotieren -> interannotator-agreements und interannotator-disagreements
  4. Welche Tagkategorien können für die Teilnehmer*innen-Projekte sinnvoll sein? 

Tag 4

  1. Demonstration des Analyze-Moduls 
  2. Analyse der eigenen Annotationen
  3. Demonstration des Visualize-Moduls
  4. Visualisierung des eigenen Textes und der eigenen Annotationen 

Tag 5

  1. Korpus-Functionen in CATMA
  2. Analysiere und visualisiere dein eigenes Korpus
  3. Automatisierungsfunktionen in CATMA
  4. Was ist nötig, um das eigene Korpus automatisiert zu annotieren?

Week 2 CATMA plus

Tag 1

  1. Analysiere deine Annotationen mit Hilfe der Visualisierungsfunktionen in Stereoscope
  2. Verfeinere deine Annotationen und erarbeite Interpretationshypothesen mit Stereoscope

Tag 2 (3 x 1 ½ hours)

  1. Named Entity Recognition als Methode
  2. Nutze den Stanford Named Entity Recognizer um Orte, Namen und Organisationen in deinen Texten zu finden
  3. Wie du die Ergebnisse des Stanford NER-Tools in CATMA importierst
  4. Analysiere und bewerte deine NER-Annotationen und trainiere dein eigenes NER-Modell
  5. Wie können die Visualisierungen aus Stereoscope und die Ergebnisse der NER helfen, tiefer in deinen Text einzutauchen?

Tag 3 (1 ½ hours)

  1. Wie du mit Hilfe von (sozialer) Netzwerkanalyse deine CATMA-Annotaionen weiter untersuchen kannst 
  2. Gestalte dein eigenes semantisches Netzwerk mit Gephi

Tag 4

  1. Vorbereitung methodenspezifischer Präsentationen in Kleingruppen 
  2. Präsentationen: (Wie) Können die im Workshop vermittelten Methoden dein Forschungsprojekt voran bringen? 
  3. Individuelles Feedback und Diskussion

Tag 5

  1. Fragen & Vertiefen
  2. Wie können die vorgestellten Methoden sinnvoll verbunden werden? 
  3. Feedback und Evaluation des Workshops
  4. Wishlist für weitere Methoden und Tools