Stylometry

Stylometria, czyli analiza statystyczna języka tekstów (literackich), zazwyczaj jest kojarzona z atrybucją autorską czy też z polowaniem na plagiatorów. Ostatnie badania pokazują jednak, że te same metody, które pomagają atrybuować jakiś tekst Platona albo zamknąć jakiegoś plagiatora do kozy za podszywanie się pod Szekspira, mogą zostać użyte w szeroko rozumianych badaniach literackich. Podobieństwa i różnice stylometryczne dają świeże spojrzenie na relacje między różnymi książkami tego samego autora, między książkami różnych autorów, między autorami tworzącymi w różnych epokach — to wszytko pozwala na nowy ogląd dzieł, które zostały już, jak się zdawało, przebadane z każdej możliwej strony.

Warsztat, podzielony na dwa bloki po 18 godzin, będzie starał się podjąć niektóre z poniższych pytań badawczych: co jest wspólne w języku, a co zależy od kontekstu kulturowego czy też od indywidualności twórczej autora? Na które elementy stylu wpływ mają epoka literacka, uprawiany gatunek, podjęta tematyka? Co jest podświadomie przeniesione przez autora z kulturowego kontekstu, w jakim tworzy, wykształcenia, płci, postawy religijnej, warunków społecznych i historycznych? Wreszcie, które cechy tekstu pisanego zdradzają osobę bez względu na wspomniany kontekst kulturowy i estetyczny?

Pierwsza część warsztatu, zatytułowana Od niczego do sieci, wprowadzi uczestników w tematykę języka R i pakietu stylometrycznego ’stylo‘, a następnie programu Gephi do wizualizacji i analizy sieci.

Druga część, zatytułowana Od sieci do skurczonych centroid, będzie wprowadzeniem do zaawansowanej tematyki klasyfikacji, walidacji i uczenia maszynowego, a także do kilku dalszych metod stylometrycznych.

Oba bloki będą się ogniskowały na języku programowania R oraz na narzędziach stworzonych w tym języku, zaopatrzonych wszelako w proste interfejsy graficzne, żadna tedy wiedza na temat R czy na temat programowania jako takiego nie będzie wymagana, przynajmniej w pierwszej części warsztatu. Prowadzący zajęcia zapewniają dostęp do korpusów i baz tekstowych, uczestnicy są jednak zachęcani do przyniesienia własnych tekstów. Używane na zajęciach teksty będą przede wszystkim literackie, obejmujące kilka języków, w przekładzie i w oryginale. Blok 2 będzie bazował na wiedzy wypracowanej w bloku 1, ale uczestnicy wyłącznie drugiej części nie zostaną zostawieni samym sobie: prowadzący planują przeznaczyć dodatkową godzinę na wyjaśnienie podstaw języka R i programu Gephi.