Distant Reading in R. Analizza i testi e visualizza i dati

1.0 Il Workshop

Il distant reading è uno degli approcci metodologici più noti che recentemente si è progressivamente affermato nelle digital humanities, fin dalla sua formalizzazione nell’articolo del 2000 di Franco Moretti dal titolo Conjectures on World Literature. Il distant reading trae grande beneficio dall’uso di strumenti computazionali. Per questo motivo ci sembre importante proporre un corso basato sull’uso di R, uno dei linguaggi di programmazione più utilizzati oggi dalla comunità scientifica.

Il corso è pensato per coloro che che vogliano iniziare una formazione nelle digital humanities con una panoramica completa di alcuni degli strumenti più comunemente utilizzati nel distant reading.

La filosofia del corso è analizzare il testo & visualizzare i dati e il corso è strutturato in base a questa dicotomia.

L’obiettivo del corso è quello di fornire ai partecipanti strumenti metodologici e pratici da utilizzare per le proprie ricerche. Al termine delle due settimane, i partecipanti sapranno utilizzare R e RStudio per applicare analisi semantiche, stilometriche e cartografiche. I risultati delle analisi svolte da R possono essere facilmente presentati attraverso rappresentazioni visuali come grafici, alberi o mappe. Di conseguenza una parte del corso sarà dedicata all’approfondimento di programmi open source come Gephi, Gimp e Inkscape, specifici per la rielaborazione di file immagine e vettoriali.

2.0 Il programma

Il corso si svolge nell’arco di due settimane per consentire ai partecipanti di scegliere se frequentare una o entrambe le parti. Tuttavia, si consiglia vivamente di partecipare a tutto il corso. 

La prima settimana è dedicata ai tre metodi più comuni utilizzati per la lettura a distanza: la sentiment analysis, il topic modelling e la stilometria. L’obiettivo di questa prima settimana è quello di fornire una comprensione teorica e metodologica di base delle tecniche tipiche del distant reading attraverso gli strumenti pratici per l’analisi dei testi in ambiente R.

La seconda settimana è dedicata alla visualizzazione dei dati. In questo modulo i partecipanti si concentreranno sulla cartografia, la network analysis e la grafica. L’obiettivo di questa settimana è quello di fornire ai partecipanti gli strumenti per organizzare la visualizzazione grafica dei dati con un’attenzione particolare agli aspetti cronologici e spaziali. Se un partecipante è interessato solo alla seconda settimana, daremo per per scontato che abbia una conoscenza più che basilare del linguaggio di programmazione R.

Settimana 1: Analizzare il testoSettimana 2: Visualizzare i dati
Giorno 1Giorno 2Giorno 3Giorno 4Giorno 5Giorno 6Giorno 7Giorno 8Giorno 9Giorno 10
1st
hour
Introduzione al corsoSentiment analysisTopic modellingStilometriaSentiment analysis

Topic modelling
Network analysis
(Gephi)
Network analysis
(Data scrapping)
Named-entity RecognitionMappingMapping
2nd
hour
Introduzione a R e RStudioSentiment analysisTopic modellingStilometriaStilometria

Hands On
Network analysis
(Gephi)
Network analysis
(Data scrapping)
Named-entity RecognitionMappingMapping
3rd 
hour
Introduzione a R e RStudioSentiment analysisTopic modellingStilometriaProgettiNetwork analysis
(Gephi)
Inkscape
&
Gimp
Mapping
(Coordinate)
MappingProgetti
4th 
hour
Introduzione a R e RStudioSentiment analysisTopic modellingStilometriaProgettiNetwork analysis
(Gephi)
Inkscape
&
Gimp
Mapping
(Coordinate)
MappingProgetti

All’inizio del corso, i responsabili del workshop divideranno la classe in due gruppi in base agli interessi di ricerca. Ogni gruppo preparerà un piccolo lavoro di ricerca da presentare l’ultimo giorno del workshop, utilizzando una delle metodologie introdotte durante la settimana.

3.0 Requisiti tecnici

  • I partecipanti devono avere un computer con almeno 5-10GB di spazio libero.
  • Sistemi operativo: Windows (preferibilmente 7+), Linux or Mac OSX.
  • Java 8 per il loro sistema operativo. Potrebbe essere necessario avere un account Oracle per scaricare Java 8.
  • Programmi Zip/unzip (si tratta di programmi che normalmente si hanno di default nel computer, come 7-Zip o WinZip per Windows, e servono per gestire le cartelle compresse).
  • Browser: Mozilla Firefox e Google Chrome.
  • Editor di testi semplici (per txt e csv) come Sublime Text Editor 3 per Windows, Linux e Mac.
  • Account Google 
  • R version 3.5.1 (2018-07-02) — „Feather Spray“
  • RStudio e Xquartz (quest’ultimo per chi possiede un Mac)
  • Openoffice
  • Gephi
  • Inkscape
  • Gimp