Korpuspäringusüsteem Sketch Engine keeleõppes (prantsuse keele näitel)

 

Kõige lihtsama ülevaate sellest, mida võimaldab Sketch Engine, annab selle süsteemi didaktiline rakendus Skell (Sketch Engine for Language Learning). Rakendus on olemas ka eesti keele kohta: etSkELL (Sketch Engine for Estonian Language Learning)

Kui suur on ja mida sisaldab etSkELL?

etSkELL on automaatselt loodud keeleõppekeskkond, mille aluseks on spetsiaalne eesti keele õppijate jaoks loodud Eesti keele õppekorpus (2018). Korpus sisaldab umbes 25 miljonit lauset ja 250 miljonit sõna. Laused on pärit erinevatest meedia-, ilukirjandus-, teadustekstidest, eestikeelsest Wikipediast ja eesti keele õpikutest. etSkELL on arendatud koostöös Eesti Keele Instituudiga. (etSkELL)

Mida võimaldab otsida etSkELL?

Näited: kui otsid sõna või fraasi, saad vastuseks 40 lühikest näitelauset, mis illustreerivad otsitava sõna või fraasi tavapärast kasutust.

Naabersõnad on loendid sõnadest, mis esinevad tekstis sageli koos otsitava sõnaga.

Sarnased sõnad on sõnad, mida kasutatakse tihti otsitava sõnaga sarnastes kontekstides. Sarnased sõnad on esitatud sõnapilvena. (etSkELL)

< Mõistmaks erinevust näidete, naabersõnade ja sarnaste sõnade vahel, proovi etSkELLis näiteks otsisõna „prantsuse“

Taolist didaktilist rakendust pole aga seni veel prantsuse keele kohta.

 

Korpuspäringusüsteem Sketch Engine ise annab uurija käsutusse suurel hulgal keeleotsingute tarvis vormindatud autentset materjali, mille põhjal ülalnäidatud ja veel mitmesuguseid otsinguid teha. Platvormile on koondatud sadu tekstikorpusi eri keeltest (hetkel umbes 400 korpust rohkem kui 90 keele kohta, kuni 20 miljardit sõna igas korpuses). On automaatselt loodud veebikorpusi (WAC ja TenTen korpused), taskaalukorpusi (British National Corpus, Corpus de référence du francais contemporain CRFC), paralleelkorpusi (OPUS, EUROPAL), õpikorpusi, diakroonilisi muutusi leida võimaldavad korpused jne. Kõigis keeltes kõik funktsioonid ja korpusetüübid esindatud pole, kuid nii prantsuse, inglise kui ka eesti keele kohta on süsteemis suured korpused lemmatiseeritud ja grammatiliselt märgendatud, võimalikud on igasugused otsingud.

Hea prantsuskeelne juhend otsingute kohta videopildi jm-ga on leitav siit, olemas on mõistagi ka ingliskeelsed juhendid, aga olgu siinkohal lühijuhatusena ka mõned suunavad juhised eesti keeli. 

 

Sisselogimine

Keskkonda saab sisse logida Tartu ülikooli kasutajatunnuse ja parooliga. Selleks valige Sketch Engine login lehel Institutional login < avanevast nimekirjast University of Tartu < sisestage oma ut-kasutajanimi ja parool. (30 päevaks saab tasuta konto teha tegelikutl ka mistahes muu addressiga.)

Korpusetüübid prantsuse keelele (2. ruuduke vasakmenüüs)

1. Alustuseks vali keel. Prantsuse keel tuleb välja, kui trükkida "more languages" kasti "French."

2. Korpuse saab valida väikeses aknas kõige ülal avanevast ribamenüüst. Ka järgnevates otsingutes jääb see aken nähtavaks, kui soovid näiteks mõne otsingu puhul korpusi varieerida. Põhivalikud:

TenTen korpused on üldkasutatavast veebist automaatselt kogutud suured korpused (ca 1010 miljardit sõna) mis on puhastatud meta- jm mittekeelelisest infost. SketchEngine keskkonnas on see materjal keeleliselt märgendatud ja võimaldab seega saada mahukat ülevaadet tavakasutusest. Suurim korpus prantsuse keele kohta on hetkel FrenchWeb2012 (frTenTen12), mis sisldab ca  9,800 000 000 sõnet. Uuem versioon FrenchWeb2017(frTenTen17) sisaldab ca 5,700 000 000 sõnet.

Nagu inglise keeles British National Corpus, on ka pr k koostamisel ja juba kasutatav nn "tasakaalukorpus" Corpus de référence du francais contemporain CRFC. See pole automaatselt kogutud, vaid selle koostamisel on püütud võimalikult taskaalustatud proportsioonides veebi materjali kõrval kasutada ka muid tekstimaterjale ja -zanre, samuti on suulist kõnet esindavaid materjale (filmi- ja telesaadete üleskirjutused). Korpust saab kasutada, kui võtta ühendust selle koostajatega (D.Siepman, Ch. Bürgel, S.Diwersy). Suurus ca 320 miljonit sõnet.

Frantext - suuresti 18-20.saj ilukirjandusel põhinev Prantsuse riigi juba 1960ndatest alguse saanud digitaalne kultuurikorpus, mis võimaldab keelelisi ja temaatilisi otsinguid kultuuriliselt valitud tekstidest. Suurus 15,5 miljonit sõnet.  

 

Keeleõppes kasulikud peamised lihtsamad otsingud:

– Word Sketch (3.ruuduke vasakmenüüs  'sõna ja mis on selle ümber') annab kompleksse ülevaate sõna naabersõnadest jm kombinatsioonidest süntaksis: millist verbi, iseloomustavat omadussõna nimisõnaga tüüpiliselt kasutada? Pigem määrav või umbmäärane artikkel ? millist eessõna teiste lauseliikmetega sidumisel kasutada?

< nt Kuidas väljendada prantsuse keeles mõtet 'palju tähelepanu osutama'? milline verb? kuidas intensiivistada mõtet? jne

1. otsing Word Sketch annab esimese tulbana verbid, mille sihitiseks (object) on 'attention' (attirer, ... ). Vajutades kolmele punktile ning valides attirer+attention saab näha ka kasutusnäiteid (Concordances).

2. Spontaanselt oleks kasutanud "attention à.. ", aga Concordance näidetes on palju hoopis "attention sur". Kumb on õige?

Liikudes tagasi Word Sketch tulpade juurde, saab tulbast "prepositional phrases" valida Concordance-näiteid ( vajuta "...") nii "attention + à " kui "attention + sur" kohta. KOmbinatsioonile endale vajutades näitab Multiword Sketch ka kõige sagedasemaid kasutuskombinatsioone.

3. Kuidas intensiivistada väljendit (palju, erilist tähelepanu pöörama)? Vastuse annab tulp "modifiers of "attention""

 

Word Sketch Difference (4. ruuduke vasakmenüüs, millel on kaks sõnatäpikest oma ümbruskonnaga) annab võimaluse ülaltoodud Word Sketchi paramaatreid võrrelda kaht sõna kõrvutades.

< nt kui 'tähelepanu' asemel kasutada vahepeal 'tähtsus', kas siis sobivad samad verbid jm konstruktsioonid ?

Värvidesse jagatud tulbad annavad vastuse, et "attention" (rohelised väljad)  kõige sagedasim kollokatiivne verb on "attier", "importance" (punased väljad) sagedasim kollokaatverb on aga "accorder"

< Uuri kõrvutuse põhjal, kas ja milline on erinevus nimisõnade "jour" ja "journée" kasutusel

Vihje: Kumba nimisõnaga on pigem kasutatavad täiendina või noun-modifierina numbrid, kellaajad ja kuupäevad? 

 

– Thesaurus (5.ruuduke, kus sõna kõrval on palju uusi kriipsu-ideid  nagu ütleb prantsusekeelne juhend: Kui sul on puudus sõnadest, mida varieerida, kasuta Thesaurust! ja tõsi, ka esimesed võimalikult palju sõnu koondavad sõnaraamatud olid Thesaurused (vt Robert Estienne'i Latine LIngue Thesaurus, aga attention!... Kui sisestada siia otsingusse oma otsisõna, tuleb tõepoolest vastuseks palju uusi sõnu ja tundub, nagu võiks need olla otsisõna sünonüümid. Kuid NB! tegemist pole tingimata tähenduse poolest sarnaste sõnadega, vaid sünatktilises kontekstis sarnases positsioonis esinevate sõnadega.

< kas "attention" ja "réponse" on sünonüümid?  

Need kõige suurema sagedusega märgitud sõnad esinevad sarnaselt väljendis "faire ..." (faire attention/ faire part ...), aga on tähenduse poolest mõistagi erinevad.

Seega, et veendumusele jõuda, kas Thesauruse pakutavad variatsioonid sobivad kasutada teie silmaspeetud kontekstis, tuleks sobivust kontrollida kas eelnevat tüüpi otsingutega või täpsustada järgneva otsinguga:

 

Lausekonteksti otsing (Concordance  millised teised sõnad ümbritsevad otsitavat?) võimaldab testida ja analüüsida sõna või väljendi tekstilisi kasutuskontekste. Millisel kujul täpsemalt väljend esineb? MIllistes tähendus- ja lausekontekstides? SQL võimaldab koostada vägagi täpseid päringuid. 

< kas korpustes leidub vähekasutatavaid naissoo vorme autrice / auteure ; kuidas otsida le/la professeur(e) ?

 "autrice" ja auteure" otsimisel soovitan varieerida korpust - vaadake ka Frantextist...

Kuna Concordance otsing võimaldab otsida ka rohkem kui üht sõna, siis Simple otsingu asemel Advanced valikust "phrase" valides saame uurida, kas ja kuipalju esineb korpustes versioone "la professeur", "la professeure" ja isegi vormi "professeuse"

< kuidas mõista ja kasutada verbikonstruktsiooni "finir par" ?

Seega, kuna Concordance otsing võimaldab otsida ka rohkem kui üht sõna, siis näiteks ka juba valides Simple otsingu asemel Advanced valiku "phrase", leiame üles väljendid "finit par" tüüpilise kasutuse ains 3.pöördes.

Kõik verbivormid (või nimisõna puhul ainsuse/mitmuse jm vormid) leiame üles, kui valime Advanced otsingus "lemma", kuid siis ei saa me lisada eessõna "par".  Seepärast on täpsemate otsingute tarvis

koodpäringud (SQL) Tundub keeruline, kuid kui kasutada kohe päringurea alla tekkivat SQL bilderit,  jõuame avaldiseni

[lemma="finir"]+[lemma="par"]

mis annab meile analüüsimiseks kõik verbivormid sõnast "finir", millele korpuses järgneb eessõna "par"

 

Sketch Engine platvorm võimaldab tegelikult ka omaenda automaatseid korpusi koostada (Recently used corpora < New Corpus), neid iseloomustada märksõnade (keywords) ja korduvate segmentide kaudu (N-grams), aga nendest võimalustest lähemalt edaspidi (leksikomeetriast rääkides).  
Keeleõppe seisukohast on väärtus see, et sõnade googeldamise asemel on võimalik palju süsteemsemalt ja efektiivsemalt üles leida põhisõnade naabersõnu  kollokaate  , analüüsida neid tekstikontekstis ning koostada ka päringuid, mida Google ei tunne :)   

 

Õppevahendi "Korpuspäringusüsteem Sketch Engine keeleõppes" on koostanud Marge Käsper. Õppevahend on loodud HITSA projektis "IKT-alase võimekuse suurendamine ning digihumanitaaria arendamine Tartu Ülikooli humanitaarteaduste ja kunstide valdkonnas".

  • hitsa_logo_pdf.png