Žodžių dažnių pasiskirstymo analizė skirtingų žanrų lietuvių kalbos tekstuose
Straipsniai
Neringa Bružaitė
Vilnius Gediminas Technical University, Lithuania
Tomas Rekašius
Vilnius Gediminas Technical University, Lithuania
Publikuota 2016-12-20
https://doi.org/10.15388/LJS.2016.13868
PDF

Reikšminiai žodžiai

žodžių dažniai
struktūrinis skirstinys
Zipfo dėsnis
hierarchinis klasterizavimas
Jaccardo atstumas
Wardo metodas

Kaip cituoti

Bružaitė, N. and Rekašius, T. (2016) “Žodžių dažnių pasiskirstymo analizė skirtingų žanrų lietuvių kalbos tekstuose”, Lietuvos statistikos darbai, 55(1), pp. 61–69. doi:10.15388/LJS.2016.13868.

Santrauka

Darbe nagrinėjami skirtingų autorių ir skirtingų žanrų tekstai, parašyti lietuvių kalba. Pagrindinės mus dominančios tekstų savybės – žodžių skaičius, teksto žodyną sudarančių skirtingų žodžių skaičius ir žodžių dažniai. Žodžių dažnių pasiskirstymui tekste aprašyti taikomas struktūrinis skirstinys ir Zipfo dėsnis. Akivaizdu, kad bet kokio teksto leksinę įvairovę nusako jame vartojamų žodžių žodynas. Pademonstruota, kad redukuotame žodyne esančios informacijos užtenka darbe nagrinėtiems tekstams suskirstyti į grupes pagal žanrus ir autorius naudojant hierarchinio klasterizavimo metodą. Šiuo atveju atstumai tarp klasterių matuojami naudojant Jaccardo atstumo matą, o klasteriai apjungiami naudojant Wardo metodą.

PDF

Atsisiuntimai

Nėra atsisiuntimų.