Päringute keel DWDSi tekstikorpustes

 

Tekstikorpuseks nimetatakse korrastatud elektroonilist tekstikogu, mis on analüüsiks ja töötlemiseks juba ette valmistatud (märgendatud e annoteeritud). Tekstikorpus annab keeleõppijale ja -kasutajale vajalikku infot süstemaatilisel kujul, metaandmeid tekstide päritolu, autorite jms kohta (vrd Muischnek / Lindström 2020, 308).

DWDSi eesmärgiks on saksa keel kogu tema rikkuses digivahendite abil uuritavaks teha. Võimalik on kasutada mitmeid erinevaid ajaloolisi ja kaasaegseid tekstikorpusi nt Politische Reden (1982 - 2020). "Tekstide eelis muude andmeallikate ees on see, et nad kajastavad eelkõige keelekasutaja loomulikke keelelisi valikuid". (Muischnek / Lindström 2020, 307)

Kui huvipakkuv korpus on välja valitud, on võimalik korpuspäringute abil kasutusnäiteid leida. Järgnev tabel annab ülevaate tähtsaimatest pärigutest.

Kasutatud sümbolid  Märkus Näited 
Haus lemmapõhine otsing HausHausesHäuserHäusern, …
@Haus vormipõhine otsing Haus
Haus* eesliite põhine otsing HausHausmeister, …
*haus järelliite põhine otsing Elternhauszuhaus, …
*haus* tüvepõhine otsing hausfraulichVerlagshausSchauspiel, …
/ha[mu]s?t/ regulaaravaldis schautHochamtGoldhamster, …
[ha, millele järgneb m või u, seejärel võib olla s, siis t]
/weg/gi regulaaravaldis, mis ignoreerib läbivalt suur- ja väiketähti  wegweGwEgwEGWegWeGWEgWEG
weg|case kõik korpuses esinevad suure ja väikse algustähega variandid WEGWegweg
{Haus,Hof} sõnede hulk HausHäuserHöfen, …
Haus && Hof ja  laused, kus esinevad Haus ja Hof vormid
Haus || Hof või  laused, kus esinevad sõnade Haus või Hof vormid
Haus && !Hof välistamine laused, kus esineb sõna Haus aga mitte Hof 
"ein Haus" sõnarühm/fraas ein Hauseines Hauses, …
"ein #2 Haus" fraas, kus sõnede vahel on vahe (maksimaalselt 2) ein glückliches Hauseines der schönen Häuser, …
"ein #>2 Haus" fraas, kus sõnade vahe on rohkem kui kaks sõnet laused, kus ein-i  ja Haus-i vormide vahel on rohkem kui 2 sõnet
"ein #=2 Haus" fraas, kus sõnede vahe on täpselt 2 laused, kus  ein-i ja Haus-i  vahel on 2 sõnet
NEAR(gut,Beispiel,3) otsitavate sõnade järjekord pole kindlaks määratud bestes Beispiel,
[durch einige] Beispiele gut [belegt]
NEAR(Honig,Milch,fließen,5) otsitavate sõnade järjekord pole kindlaks määratud Land, wo Milch und Honig fließt;
Honig und Milch nur in Rinnsalen fließen
NEAR("wenn ich","werde ich",2) sõnarühmade põhine päring, järjekord pole kindlaks määratud Wie würde ich aussehen, wenn ich [...]
$p=PPOSS sõnaliigi põhine päring unserenmeinerdeinigen, …
Haus WITH $.=0 lause algus laused, mis algavad sõnaga Haus 
Haus WITH $.=-2 lause lõpp (Märkus: $.=-2 otsib eelviimase sõne järgi lauses, viimane sõne on enamasti kirjavahemärk) laused, mis lõppevad sõnaga Haus 

Allikas: https://www.dwds.de/d/korpussuche põhjal

Korpuspäringute koostamisel tuleb niisiis meeles pidada järgmist:

1. Kui sõnaraamatus esinevad sõnad lähtevormis (lemma) nt tegusõna ´sein´, siis korpuses on võimalik otsida lauseid

1) lemmapõhiselt nt sein,  st näidatakse otsitava sõna kõiki muutevorme (ist, war, wäre jne); 

2) muutevormide (sõne `token`) põhiselt nt ´war´. Selleks tuleb alustada päringut @märgiga  nt @war.

gAllikas: https://www.dwds.de/r/?q=%40war&corpus=politische_reden&date-start=1982&...

2. Otsida on võimalik ka mitu sõna korraga, kasutades && märki, nt war &&  riskant.

3. Hüümärgi kasutamine võimaldab välistada teatud sõnu lausetes nt Corona && !Verschwörung.

4. Kahe püstkriipsu kasutamine sõnade või fraaside vahel võimaldab otsida kas üht või teist sõna/fraasi nt Corona ist || Pandemie kam. 

5. Metaandmete päringu puhul kasutage operaatorit # HASH [VÄLI, TINGIMUS].

Rohkem infot siit.

Videojuhendid leiate siit ning siit.