Sõnapilv

… on kõige lihtsam viis saada ülevaade mingi teksti sisust, kui seda õigesti kasutada. Selle tööpõhimõte on väga lihtne: sagedamini esinevad sõnad on suuremad, harvemini esinevad sõnad väiksemad.

Lemmatiseerimine

N-ö toore, töötlemata teksti puhul loeb sõnapilve tööriist ühe sõna iga vormi eraldi sõnaks (nt sõna olema vormid olin, oleks, olevat jne esitatakse kõik kui erinevad sõnad, ehkki sisuliselt on tegu sama sõnaga). Selleks, et saaksime vaadelda kõiki ühe sõna vorme koos (selle algkujul), tuleb tekst lemmatiseerida ehk viia selle algkujule. Sõna algkuju ehk lemma on vorm, mille leiaksid sõnaraamatust: tegusõnade puhul eesti keeles ma-tegevusnimi (nt hüppama), nimisõnade puhul ainsuse nimetav kääne (nt kool).

Kõige sagedamini esinevad tekstides enamasti sõnad, mis teksti sisu analüüsimisel ütlevad selle sisu kohta vähe. Need sõnad on enamasti nt sidesõnad (ja, kui, aga, sest), asesõnad (tema, mina, see), mõned grammatilisema tähendusega tegusõnad (olema, hakkama), määrsõnad (siis, nii, pärast), kaassõnad (taga, üle, peale) jne. Selliseid sõnu nimetatakse keeletehnoloogia ja tekstikaeve töös stoppsõnadeks. Kui anda analüsaatorile ette stoppsõnade nimekiri, jäetakse need sõnad analüüsist välja.