Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams
Straipsniai
Jurgita Kapočiūtė-Dzikienė
Andrius Utka
Ligita Šarkutė
Publikuota 2016-03-30
https://doi.org/10.15388/Klbt.2014.7674
PDF in Lithuanian

Reikšminiai žodžiai

Seimo posėdžių stenogramos
autorystės nustatymo tekstynas
stilometrija
individualių autorių autorystės nustatymas
autorių profilio nustatymas

Kaip cituoti

Kapočiūtė-Dzikienė, J., Utka, A. and Šarkutė, L. (2016) “Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams”, Kalbotyra, 66, pp. 27–45. doi:10.15388/Klbt.2014.7674.

Santrauka

Straipsnyje pristatome Seimo posėdžių stenogramų tekstyną, parengtą specialiu formatu, tinkančiu įvairiems autorystės nustatymo tyrimams. Tekstyną sudaro apie 111 tūkstančių tekstų (24 milijonai žodžių), kurių kiekvienas atitinka vieną parlamentaro pasisakymą eilinės sesijos posėdžio metu bei apima 7 Lietuvos Respublikos Seimo kadencijas: nuo 1990 metų kovo 10 dienos iki 2013 metų gruodžio 23 dienos. Pasisakymų tekstai sugrupuoti pagal autorius į 147 grupes, todėl tinka individualių autorių autorystės nustatymo tyrimams; jie suskirstyti pagal autorių amžiaus grupes, lytį ar politines pažiūras, todėl tinka autorių profilio sudarymo tyrimams. Trumpas tekstas neatskleidžia jo autoriaus kalbėjimo stiliaus, yra daugiaprasmiškas kitų autorių atžvilgiu, todėl į tekstyną įtraukti ne trumpesni nei 100 žodžių tekstai. Kiekvieną autorių atitinkantis tekstų rinkinys turi būti išsamus ir reprezentatyvus, todėl įtraukti autoriai, pasisakę ne mažiau kaip 200 kartų. Visi tekstai automatiškai lemuoti, morfologiškai bei sintaksiškai anotuoti, suskaidyti simbolių n-gramomis, surinkta statistinė informacija. Straipsnyje pademonstruota, kaip sukurtas tekstynas gali būti panaudotas individualių autorių autorystės nustatymo bei autorių profilio sudarymo tyrimams, naudojant prižiūrimo mašininio mokymo metodus. Tekstyno struktūra taip pat leidžia taikyti neprižiūrimo Ligita Šarkutė Viešosios politikos ir administravimo institutas Kauno technologijos universitetas K. Donelaičio g. 20-217 LT-44239 Kaunas, Lietuva El. paštas: ligita.sarkute@ktu.lt 28 mašininio mokymo metodus, patogi taisyklinių-loginių metodų kūrimui bei įvairioms lingvistinėms analizėms.

PDF in Lithuanian

Atsisiuntimai

Nėra atsisiuntimų.