lexfr
Korpuspäringusüsteem Sketch Engine keeleõppes (prantsuse keele näitel)
Kõige lihtsama ülevaate sellest, mida võimaldab Sketch Engine, annab selle süsteemi didaktiline rakendus Skell (Sketch Engine for Language Learning). Rakendus on olemas ka eesti keele kohta: etSkELL (Sketch Engine for Estonian Language Learning)
Näited: kui otsid sõna või fraasi, saad vastuseks 40 lühikest näitelauset, mis illustreerivad otsitava sõna või fraasi tavapärast kasutust.
Naabersõnad on loendid sõnadest, mis esinevad tekstis sageli koos otsitava sõnaga.
Sarnased sõnad on sõnad, mida kasutatakse tihti otsitava sõnaga sarnastes kontekstides. Sarnased sõnad on esitatud sõnapilvena. (etSkELL)
< Mõistmaks erinevust näidete, naabersõnade ja sarnaste sõnade vahel, proovi etSkELLis näiteks otsisõna “tere”, „prantsuse“, “kõnelema” vm
Taolist didaktilist rakendust pole aga seni veel prantsuse keele kohta.
Korpuspäringusüsteem Sketch Engine ise annab uurija käsutusse suurel hulgal keeleotsingute tarvis vormindatud autentset materjali, mille põhjal ülalnäidatud ja veel mitmesuguseid otsinguid teha. Platvormile on koondatud sadu tekstikorpusi eri keeltest (hetkel umbes 400 korpust rohkem kui 90 keele kohta). On automaatselt loodud veebikorpusi (WAC ja TenTen korpused), taskaalukorpusi (British National Corpus, Corpus de référence du francais contemporain CRFC), paralleelkorpusi (OPUS, EUROPAL, DGT – Translation Memory EU seadusandl.dok.korpus), õpikorpusi, diakroonilisi muutusi leida võimaldavad korpused jne. Kõigis keeltes kõik funktsioonid ja korpusetüübid esindatud pole, kuid nii prantsuse, inglise kui ka eesti keele kohta on süsteemis suured korpused lemmatiseeritud ja grammatiliselt märgendatud, võimalikud on igasugused otsingud.
Hea prantsuskeelne juhend otsingute kohta videopildi jm-ga on leitav siit, olemas on mõistagi ka ingliskeelsed juhendid, aga olgu siinkohal lühijuhatusena ka mõned suunavad juhised eesti keeli.
Keskkonda saab sisse logida Tartu ülikooli kasutajatunnuse ja parooliga. Selleks valige Sketch Engine login lehel Institutional login < avanevast nimekirjast University of Tartu < sisestage oma ut-kasutajanimi ja parool. (30 päevaks saab tasuta konto teha tegelikutl ka mistahes muu addressiga.)
1. Alustuseks vali keel. Prantsuse keel tuleb välja, kui trükkida “more languages” kasti “French.”
2. Korpuse saab valida väikeses aknas kõige ülal avanevast ribamenüüst. Ka järgnevates otsingutes jääb see aken nähtavaks, kui soovid näiteks mõne otsingu puhul korpusi varieerida. Põhivalikud:
– Frantext – suuresti 18-20.saj ilukirjandusel põhinev Prantsuse riigi juba 1960ndatest alguse saanud digitaalne kultuurikorpus, mis võimaldab keelelisi ja temaatilisi otsinguid kultuuriliselt valitud tekstidest. Tänaseks on selle korpuse suurus tervikuna 270 miljonit sõnet (dets 2023, Accueil Frantext), lisatud on ka 21.sajandi tekste. Prantsusmaa riikliku keelelabori l’ATILF (Analyse et Traitement Informatique de la Langue Française) Frantexti tutvustaval lehel on katsetamiseks tasuta kättesaadav selle korpuse 40 tekstist koosnev demoversioon, SketchEngine keskkonnas on Frantextist kättesaadav 1/10 (veidi üle 26 miljoni (26,265,698) sõne).
– TenTen korpused on üldkasutatavast veebist automaatselt kogutud suured korpused (ca 1010 ehk soovitavalt vähemasti 10 miljardit sõna sisaldavad korpused), mis on puhastatud meta- jm mittekeelelisest infost. SketchEngine keskkonnas on see materjal keeleliselt märgendatud ja võimaldab seega saada mahukat ülevaadet tavakasutusest. Suurim korpus prantsuse keele kohta on hetkel FrenchWeb2023 (frTenTen23) üle 27 miljardi (27,878,396,026) sõne.
– Nagu inglise keeles British National Corpus, on ka pr k koostamisel ja juba kasutatav nn “tasakaalukorpus” Corpus de référence du francais contemporain CRFC. See pole automaatselt kogutud, vaid selle koostamisel on püütud võimalikult taskaalustatud proportsioonides veebi materjali kõrval kasutada ka muid tekstimaterjale ja -zanre, samuti on suulist kõnet esindavaid materjale (filmi- ja telesaadete üleskirjutused). Korpust saab kasutada, kui võtta ühendust selle koostajatega (D.Siepman, Ch. Bürgel, S.Diwersy). Suurus ca 320 miljonit sõnet.
– vt ka SketchEngine teisi pr k korpusi: French Drama Corpus, Open Subtitle corpus, Parlamint corpus jm
< uuri nende korpuste suurusi jm metaandmeid korpuse nime kõrvalt avanevast infoaknast (i)
< rohkemate prantsuse keele keelekorpuste kohta leiad üldist infot CORLI konsortsiumi lehelt ning rikkaliku kataloogi kogutud korpustest keeleressursside kogu ORTOLANG lehelt
Keeleõppes kasulikud peamised lihtsamad otsingud:
– Word Sketch (3.ruuduke vasakmenüüs – ‘sõna ja selle kombineerumine teiste sõnadega’) annab kompleksse ülevaate sõna naabersõnadest jm kombinatsioonidest süntaksis: millist verbi, iseloomustavat omadussõna nimisõnaga tüüpiliselt kasutada? Pigem määrav või umbmäärane artikkel ? millist eessõna teiste lauseliikmetega sidumisel kasutada?
2. Spontaanselt oleks kasutanud “attention à.. “, aga Concordance näidetes on palju hoopis “attention sur”. Kumb on õige?
– Liikudes tagasi Word Sketch tulpade juurde, saab tulbast “prepositional phrases” valida Concordance-näiteid ( vajuta “…”) nii “attention + à ” kui “attention + sur” kohta. KOmbinatsioonile endale vajutades näitab Multiword Sketch ka kõige sagedasemaid kasutuskombinatsioone.
3. Kuidas intensiivistada väljendit (palju, erilist tähelepanu pöörama)? Vastuse annab tulp “modifiers of “attention””
– Word Sketch Difference (4. ruuduke vasakmenüüs, millel on kaks sõnatäpikest oma ümbruskonnaga) annab võimaluse ülaltoodud Word Sketchi parameetreid võrrelda kaht sõna kõrvutades.
– Thesaurus (5.ruuduke, kus sõna kõrval on palju uusi kriipsu-ideid – nagu ütleb prantsusekeelne juhend: Kui sul on puudus sõnadest, mida varieerida, kasuta Thesaurust! ja tõsi, ka esimesed võimalikult palju sõnu koondavad sõnaraamatud olid Thesaurused (vt Robert Estienne’i Latine LIngue Thesaurus, aga attention!… Kui sisestada siia otsingusse oma otsisõna, tuleb tõepoolest vastuseks palju uusi sõnu ja tundub, nagu võiks need olla otsisõna sünonüümid. Kuid NB! tegemist pole tingimata tähenduse poolest sarnaste sõnadega, vaid sünatktilises kontekstis sarnases positsioonis esinevate sõnadega.
Seega, et veendumusele jõuda, kas Thesauruse pakutavad variatsioonid sobivad kasutada teie silmaspeetud kontekstis, tuleks sobivust kontrollida kas eelnevat tüüpi otsingutega või täpsustada järgneva otsinguga:
– Lausekonteksti otsing (Concordance – millised teised sõnad ümbritsevad otsitavat iga lineaarse kasutuse puhul?) võimaldab testida ja analüüsida sõna või väljendi tekstilisi kasutuskontekste. Millisel kujul täpsemalt väljend esineb? MIllistes tähendus- ja lausekontekstides? SQL võimaldab koostada vägagi täpseid päringuid.
– “autrice” ja auteure” otsimisel soovitan varieerida korpust – vaadake ka Frantextist…
– Kuna Concordance otsing võimaldab otsida ka rohkem kui üht sõna, siis Simple otsingu asemel Advanced valikust “phrase” valides saame uurida, kas ja kuipalju esineb korpustes versioone “la professeur”, “la professeure” ja isegi vormi “professeuse”
Seega, kuna Concordance otsing võimaldab otsida ka rohkem kui üht sõna, siis näiteks ka juba valides Simple otsingu asemel Advanced valiku “phrase“, leiame üles väljendid “finit par” tüüpilise kasutuse ains 3.pöördes.
Kõik verbivormid (või nimisõna puhul ainsuse/mitmuse jm vormid) leiame üles, kui valime Advanced otsingus “lemma”, kuid siis ei saa me lisada eessõna “par”. Seepärast on täpsemate otsingute tarvis
koodpäringud (SQL) Tundub keeruline, kuid kui kasutada kohe päringurea alla tekkivat SQL bilderit, jõuame avaldiseni
[lemma=”finir”]+[lemma=”par”]
mis annab meile analüüsimiseks kõik verbivormid sõnast “finir”, millele korpuses järgneb eessõna “par”
Sketch Engine platvorm võimaldab tegelikult ka omaenda automaatseid korpusi koostada (Recently used corpora < New Corpus), neid iseloomustada märksõnade (keywords) ja korduvate segmentide kaudu (N-grams), aga nendest võimalustest lähemalt edaspidi (leksikomeetriast rääkides).
Keeleõppe seisukohast on väärtus see, et sõnade googeldamise asemel on võimalik palju süsteemsemalt ja efektiivsemalt üles leida põhisõnade naabersõnu – kollokaate – , analüüsida neid tekstikontekstis ning koostada ka päringuid, mida Google ei tunne 🙂
Õppevahendi “Korpuspäringusüsteem Sketch Engine keeleõppes” on koostanud Marge Käsper. Õppevahend on loodud HITSA projektis “IKT-alase võimekuse suurendamine ning digihumanitaaria arendamine Tartu Ülikooli humanitaarteaduste ja kunstide valdkonnas”.
Tänusõnad ka CRFC korpuse koodinaatorile ja tutvustajale Christophe Bürgelile !