Esmalt laadi endale alla kaust digihum_26nov2019.zip, mis sisaldab tänaseks tunniks vajalikke faile:
- suulise keele korpuse tekst SKK_sõnad.txt;
- suulise keele korpuse lemmatiseeritud tekst SKK_lemmad.txt, kus kõik sõnavormid on muudetud lemmadeks ehk on viidud nende algkujule (nii, nagu need oleks esitatud sõnaraamatus, nt olime, olen, olla esinevad kõik kujul olema). Lemmatiseerimiseks on kasutatud EstNLTK Pythoni teeke;
- eesti keele stoppsõnade lemmade loend stoppsonade_lemmad.txt, mis sisaldab keeles kõige sagedamini esinevaid sõnu, mis teksti analüüsimisel aga ütlevad selle sisu kohta vähe. Stoppsõnadeks peetakse tekstikaeve ja keeletehnoloogia töös enamasti niisiis sidesõnu (ja, kui, aga, sest), asesõnu (tema, mina, see), mõndasid grammatilisema tähendusega tegusõnu (olema, hakkama), määrsõnu (siis, nii, pärast), kaassõnu (taga, üle, peale) jne;
- Anton Hansen Tammsaare raamatu “Tõde ja õigus” 1. osa lemmatiseeritud (st algkujule viidud sõnavormidega) teksti Tartu Linnaraamatukogu e-raamatute lemmatiseeritud tekstifailide kogust;
- August Kitzbergi “Libahundi” teksti samast kogust.
Kausta salvestamiseks, vali kas :
- Open with 7-Zip File Manager (default) ja sikuta kaust Desktopile või
- Save File (salvesta Desktopile) ja paki alla laaditud zip-fail lahti, tehes kaustal paremkliki -> 7-Zip -> Extract to "digihum_26nov2019".
Kasutame lihtsaks tekstianalüüsiks vabavaralist tööriista Voyant Tools.
- Laadime tööriista faili SKK_sõnad.txt. Mida märkad?
- Avame sama tööriista uues aknas või uuel vahekaardil ja laadime tööriista faili SKK_lemmad.txt. Mis on erinevat? Kui hea ülevaate tekstist saab?
- Lisame tööriista stoppsõnad, mida teksti analüüsil ei arvestata. Mis muutus? Millistest teemadest tekstis räägitakse? Millistes teksti osades? Millega seoses?
- Avame sama tööriista uues aknas või uuel vahekaardil ja laadime tööriista faili Anton_Hansen_Tammsaare_Tode_ja_oigus_I_lemmad.txt ning lisame stoppsõnade nimekirja. Mida märkad?
- Kuidas muutub teoses tegelaste mainimise sagedus? Millest see kõneleb?
- Kas teoses on rohkem tõde või õigust? Millises kontekstis nendest mõistetest räägitakse? Kuidas on lood töö ja vaevaga?
- Kui erinev on Tammsaare tekst sisuliselt ja vormiliselt Kitzbergi “Libahundist”?