Wersja pdf do ściągnięcia stąd. Wersja elektroniczna znajduje się tutaj (epub) oraz tutaj (kindle). Ilustracje do książki do znalezienia tutaj, a dane użyte w obliczeniach umieściliśmy tutaj.

Górski R.L., Król, M. & Eder, M. (2019). Zmiana w języku. Studia kwantytatywno-korpusowe. Kraków: IJP PAN.

Ze Wstępu

Niniejsza praca stawia sobie za cel przybliżenie czytelnikowi wybranych metod korpusowych i kwantytatywnych przyjętych w językoznawstwie historycznym i omówienie możliwych zastosowań tych metod do opisu historii języka polskiego. Książka stanowi pokłosie prac prowadzonych w ramach projektu Przebiegi zmian gramatycznych i leksykalnych w historii języka polskiego – metody korpusowe i kwantytatywne w językoznawstwie diachronicznym, finansowanego przez Narodowe Centrum Nauki (nr UMO-2013/11/B/HS2/02795).

Pierwszy rozdział przybliża osiągnięcia metod korpusowych i kwantytatywnych w językoznawstwie historycznym, głównie anglistycznym, jako że – zgodnie z naszą wiedzą – badania nad przeszłością tego właśnie języka z użyciem metod ilościowych są najbardziej zaawansowane. Przyczynia się do tego nie tylko prestiż języka angielskiego, ale także jego długa, udokumentowana bogatym piśmiennictwem historia.

W rozdziale drugim opisujemy sam korpus, który stanowił materiał empiryczny, oraz proces jego tworzenia. Trzeba tu zaznaczyć, że nie jest to za każdym razem dokładnie ten sam korpus. W zależności od założeń konkretnego eksperymentu niekiedy wybiegaliśmy poza połowę XIX wieku, niekiedy też sięgaliśmy do danych staropolskich, innym razem – gdy istotne było wykorzystanie pisowni nieznormalizowanej – tworzyliśmy podkorpus tekstów spełniających ten warunek. Ponadto cały dostępny korpus był rozmaicie dzielony na odcinki czasu następujące kolejno po sobie.

Rozdział trzeci poświęcamy modelowaniu przebiegu zmiany językowej. Od pewnego czasu w literaturze przedmiotu pojawia się teza, że zastępowanie formy recesywnej formą innowacyjną można opisać za pomocą regresji logistycznej, czyli pewnego matematycznego modelu opisującego fazową zmianę różnych zjawisk. Choć koncepcja tego rodzaju modelowania powstała dobrych kilka dekad temu, to jednak wciąż jest ona poznawczo atrakcyjna dzięki dostępności coraz obfitszych danych empirycznych. Jakkolwiek takie podejście wydaje się głęboko uzasadnione, trzeba jednocześnie pamiętać, że zmiana językowa jest procesem społecznym, którego przebieg może być zakłócany przez różne czynniki, a przede wszystkim procesem, który może zachodzić z różną prędkością w obrębie grupy społecznej lub na określonym obszarze. Wszystko to zaburza modelowy przebieg takiej zmiany, a w konsekwencji matematyczna idealizacja może stać się dość odległa od świadectwa tekstów. W rozdziale trzecim badamy przebieg kilku współbieżnych zmian językowych, przy czym niekiedy nie chodzi tu ściśle o zmianę językową, ale o konkurencję dwu wyrazów o odmiennej etymologii, z których w końcu jeden wypiera drugi. Dla językoznawcy zapewne ciekawsze od samej regresji logistycznej będzie to, co omawiane podejście mówi o dynamice zmian językowych, a więc zarówno i ich współbieżności, jak i też o rozmaitym tempie przebiegu.

Kolejny rozdział jest poświęcony metodom odnajdywania momentu największej dynamiki zmian w dziejach języka. Mimo że język ewoluuje, a zmiany, które w nim zachodzą, w przeważającej większości tworzą continnum, językoznawcy często poszukują najbardziej adekwatnej periodyzacji dziejów języka na potrzeby opisu strukturalnego zachodzących w nim przekształceń. Proponujemy pewną metodę odnajdowania takich momentów w długotrwałych procesach rozwojowych, które wskazują punkt największej zmiany. Oczywiście tam, gdzie chodzi o ewolucję systemu, takim naturalnym momentem jest zakończenie istotnej zmiany językowej. Gdy jednak dochodzimy do podziałów o większej ziarnistości, to zazwyczaj sam system jest dość stabilny, natomiast intuicja językoznawcy podpowiada, że teksty powstałe przed jakąś datą i po niej są jednak odmienne. Proponowana przez nas metoda ma za zadanie zobiektywizować tę intuicję, wskazując datę, która dzieli chronologicznie uporządkowany zbiór tekstów na dwa najbardziej odmienne podzbiory.

Ostatni rozdział poświęcony jest zagadnieniu zmian w produktywności pewnej formy gramatycznej. Imiesłów uprzedni – bo o nim mowa – jest formą fleksyjną, której frekwencja ulegała bardzo dużym wahaniom. Zrazu bardzo rzadka, forma ta zyskała niezwykłą popularność w XVII w., by później zanotować znaczący spadek liczby wystąpień. Ów spadek osiągnął najniższy punkt na przełomie wieków XVIII i XIX, następnie imiesłowy uprzednie zaczęły (częściowo) odzyskiwać utraconą pozycję. Rodzi się więc pytanie, czym były spowodowane zarówno wzrost, jak i spadek. Nasuwają się tu dwa przypuszczenia: albo mamy do czynienia z czymś, co można by nazwać językową modą, albo też ze zmianami w produktywności. W pierwszym wypadku oznaczałoby to, że użytkownicy języka wciąż posługiwali się podobnym zasobem słów, lecz używali ich z różną częstotliwością; w drugim – że zasób wyrazów zwiększył się znacząco, przypuszczalnie dlatego, że pewnemu rozluźnieniu uległy ograniczenia (zapewne przede wszystkim semantyczne) nakładane na czasowniki, które przyjmują tę formę. Zagadnienie to badamy za pomocą narzędzi wypracowanych w synchronicznym językoznawstwie korpusowym, porównując produktywność imiesłowów uprzednich w poszczególnych podkorpusach. Przy tym miary produktywności oparte są jedynie na kryteriach ilościowych.

Ilustracje (wybór)

Komplet ilustracji (oryginalne pliki) znajduje się tutaj; poniżej zamieszczamy kilka wybranych przykładów.

Rys. 2.1. Chronologiczny rozkład tekstów w korpusie diachronicznym 1380–1850: liczba wyrazów przypadająca na poszczególne lata.

Rys. 3.1. Przebieg zmiany więtszy > większy (z uwzględnieniem form fleksyjnych). Punkty ukazują proporcję między formą recesywną i innowacyjną (dane empiryczne), linia ciągła przedstawia model logistyczny.

Rys. 3.3. Przebieg zmiany barzo > bardzo obliczony osobno dla stopnia równego i (naj)wyższego.

Rys. 4.1. Skalowanie wielowymiarowe 76 powieści polskich (250 najczęstszych słów). Obie osie wykresu odpowiadają odległości w przeskalowanej przestrzeni MDS.

Rys. 4.6. Sieć podobieństw 333 tekstów angielskich.

Rys. 4.7. Skuteczność klasyfikacji do grupy ante i post dla danego roku na podstawie trigramów kategorii gramatycznych.

Rys. 4.11. Przyspieszenia zmian leksykalnych w historii angielszczyzny amerykańskiej w latach 1835–1985, na podstawie Corpus of Historical American English. Punkt na wykresie oznacza uśrednioną skuteczność atrybucji, kreseczki przecinające punkt oznaczają 1 standardowe odchylenie w górę i w dół dla danego punktu.

Rys. 4.14. Siła dyskryminacyjna wyrazów ’s oraz of w korpusie języka amerykańskiego COHA.

Rys. 5.2. Liczba wyrazów zanotowanych do danego roku (linia niebieska) i po raz ostatni w danym roku (linia zielona) w latach 1380–1939.