Tekstikorpuseks nimetatakse korrastatud elektroonilist tekstikogu, mis on analüüsiks ja töötlemiseks juba ette valmistatud (märgendatud e annoteeritud). Tekstikorpus annab keeleõppijale ja -kasutajale vajalikku infot süstemaatilisel kujul, metaandmeid tekstide päritolu, autorite jms kohta (vrd Muischnek / Lindström 2020, 308).
DWDSi eesmärgiks on saksa keel kogu tema rikkuses digivahendite abil uuritavaks teha. Võimalik on kasutada mitmeid erinevaid ajaloolisi ja kaasaegseid tekstikorpusi nt Politische Reden (1982 - 2020). "Tekstide eelis muude andmeallikate ees on see, et nad kajastavad eelkõige keelekasutaja loomulikke keelelisi valikuid". (Muischnek / Lindström 2020, 307)
Kui huvipakkuv korpus on välja valitud, on võimalik korpuspäringute abil kasutusnäiteid leida. Järgnev tabel annab ülevaate tähtsaimatest pärigutest.
Kasutatud sümbolid | Märkus | Näited |
---|---|---|
Haus
|
lemmapõhine otsing | Haus, Hauses, Häuser, Häusern, … |
@Haus
|
vormipõhine otsing | Haus |
Haus*
|
eesliite põhine otsing | Haus, Hausmeister, … |
*haus
|
järelliite põhine otsing | Elternhaus, zuhaus, … |
*haus*
|
tüvepõhine otsing | hausfraulich, Verlagshaus, Schauspiel, … |
/ha[mu]s?t/
|
regulaaravaldis |
schaut, Hochamt, Goldhamster, … [ ha , millele järgneb m või u , seejärel võib olla s , siis t ]
|
/weg/gi
|
regulaaravaldis, mis ignoreerib läbivalt suur- ja väiketähti | weg, weG, wEg, wEG, Weg, WeG, WEg, WEG |
weg|case
|
kõik korpuses esinevad suure ja väikse algustähega variandid | WEG, Weg, weg |
{Haus,Hof}
|
sõnede hulk | Haus, Häuser, Höfen, … |
Haus && Hof
|
ja | laused, kus esinevad Haus ja Hof vormid |
Haus || Hof
|
või | laused, kus esinevad sõnade Haus või Hof vormid |
Haus && !Hof
|
välistamine | laused, kus esineb sõna Haus aga mitte Hof |
"ein Haus"
|
sõnarühm/fraas | ein Haus, eines Hauses, … |
"ein #2 Haus"
|
fraas, kus sõnede vahel on vahe (maksimaalselt 2) | ein glückliches Haus, eines der schönen Häuser, … |
"ein #>2 Haus"
|
fraas, kus sõnade vahe on rohkem kui kaks sõnet | laused, kus ein-i ja Haus-i vormide vahel on rohkem kui 2 sõnet |
"ein #=2 Haus"
|
fraas, kus sõnede vahe on täpselt 2 | laused, kus ein-i ja Haus-i vahel on 2 sõnet |
NEAR(gut,Beispiel,3)
|
otsitavate sõnade järjekord pole kindlaks määratud |
bestes Beispiel, [durch einige] Beispiele gut [belegt] |
NEAR(Honig,Milch,fließen,5)
|
otsitavate sõnade järjekord pole kindlaks määratud |
Land, wo Milch und Honig fließt; Honig und Milch nur in Rinnsalen fließen |
NEAR("wenn ich","werde ich",2)
|
sõnarühmade põhine päring, järjekord pole kindlaks määratud | Wie würde ich aussehen, wenn ich [...] |
$p=PPOSS
|
sõnaliigi põhine päring | unseren, meiner, deinigen, … |
Haus WITH $.=0
|
lause algus | laused, mis algavad sõnaga Haus |
Haus WITH $.=-2
|
lause lõpp (Märkus: $.=-2 otsib eelviimase sõne järgi lauses, viimane sõne on enamasti kirjavahemärk)
|
laused, mis lõppevad sõnaga Haus |
Allikas: https://www.dwds.de/d/korpussuche põhjal
Korpuspäringute koostamisel tuleb niisiis meeles pidada järgmist:
1. Kui sõnaraamatus esinevad sõnad lähtevormis (lemma) nt tegusõna ´sein´, siis korpuses on võimalik otsida lauseid
1) lemmapõhiselt nt sein, st näidatakse otsitava sõna kõiki muutevorme (ist, war, wäre jne);
2) muutevormide (sõne `token`) põhiselt nt ´war´. Selleks tuleb alustada päringut @märgiga nt @war.
Allikas: https://www.dwds.de/r/?q=%40war&corpus=politische_reden&date-start=1982&...
2. Otsida on võimalik ka mitu sõna korraga, kasutades && märki, nt war && riskant.
3. Hüümärgi kasutamine võimaldab välistada teatud sõnu lausetes nt Corona && !Verschwörung.
4. Kahe püstkriipsu kasutamine sõnade või fraaside vahel võimaldab otsida kas üht või teist sõna/fraasi nt Corona ist || Pandemie kam.
5. Metaandmete päringu puhul kasutage operaatorit # HASH [VÄLI, TINGIMUS].
Rohkem infot siit.
Videojuhendid leiate siit ning siit.