{"id":1094,"date":"2025-08-28T18:34:56","date_gmt":"2025-08-28T15:34:56","guid":{"rendered":"https:\/\/sisu.ut.ee\/samm\/?page_id=1094"},"modified":"2025-08-28T18:34:56","modified_gmt":"2025-08-28T15:34:56","slug":"andmete-kaalumine","status":"publish","type":"page","link":"https:\/\/sisu.ut.ee\/samm\/andmete-kaalumine\/","title":{"rendered":"Andmete kaalumine"},"content":{"rendered":"<p><\/p>\n\n\n\n<p class=\"has-text-align-right\"><strong>Indrek Soidla<br>2025<\/strong><\/p>\n\n\n\n<p>Peat\u00fcki aluseks olev repositoorium koos t\u00e4ieliku R-i koodi ja andmetega on leitav <a href=\"https:\/\/github.com\/indrekso\/samm_kaalumine.git\" target=\"_blank\" rel=\"noreferrer noopener\">siit<\/a>.<\/p>\n\n\n\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-69de8877909b4-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-69de8877909b4-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-69de8877909b4-collapse\"><a>Andmete kaalumise olemus ja eesm\u00e4rk<\/a><\/button>\n        <\/h2>\n        <div id=\"accordion-69de8877909b4-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-69de8877909b4-heading\">\n            <div class=\"accordion-body\">\n\n\n\n<p>Mida kujutab endast k\u00fcsitlusandmete kaalumine? K\u00f5ige \u00fcldisemalt v\u00f5iks \u00f6elda, et tegu on protseduuriga, millega korrigeeritakse uuritava kogumi iga \u00fcksikliikme m\u00f5jukust anal\u00fc\u00fcsis. Vaatame \u00fchte lihtsamat n\u00e4idet selle selgitamiseks.<\/p>\n\n\n\n<p>Eurostati andmetel varieerub inimeste osakaal, kes oskavad v\u00f5\u00f5rkeeli, Euroopas riigiti m\u00e4rgatavalt.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\" id=\"joonis-1\"><img loading=\"lazy\" decoding=\"async\" width=\"1344\" height=\"960\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis-1.png\" alt=\"\" class=\"wp-image-1771\" srcset=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis-1.png 1344w, https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis-1-300x214.png 300w, https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis-1-1024x731.png 1024w, https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis-1-768x549.png 768w\" sizes=\"auto, (max-width: 1344px) 100vw, 1344px\"><\/figure>\n\n\n\n<p>Joonis\u00a01. V\u00e4hemalt kolme v\u00f5\u00f5rkeelt oskavate elanike osakaal 18\u201364-aastaste vanusegrupis \u00a02022. aastal. Allikas: Eurostat<\/p>\n\n\n\n<p>Kui soovime teada saada, kui suur osa Euroopa elanikest (t\u00e4psemalt, uuritavate riikide elanikest) oskab v\u00e4hemalt kolme v\u00f5\u00f5rkeelt, kas saaksime selle arvutada <a href=\"#joonis-1\">joonisel\u00a01<\/a> olevate osakaalude aritmeetilise keskmisena? Ei saaks, tulemus ei oleks t\u00e4pne \u2013 selline tehe ei v\u00f5taks arvesse, et erinevates riikides on elanike arv erinev. Teisiti \u00f6eldes, k\u00e4sitleksime andmeid nii, nagu igas riigis oleks (18\u201364-aastaste \u00a0vanusegrupis) v\u00f5rdne arv elanikke. Sellisel juhul oleks osakaalude keskmine 18,6%. See \u00fclehindab v\u00e4hemalt kolme v\u00f5\u00f5rkeelt oskavate inimeste osakaalu Euroopas, sest v\u00e4iksemate riikide osakaalud panustavad aritmeetilisse keskmisesse ebaproportsionaalselt rohkem, kui nende elanike arv lubaks, sest v\u00e4iksemates riikides on reeglina mitme v\u00f5\u00f5rkeele oskajaid rohkem. Et saada teada, kui suur osa Euroopa elanikest v\u00e4hemalt kolme v\u00f5\u00f5rkeelt oskab, peaksime keskmise arvutamisel korrigeerima iga riigi osakaalu m\u00f5jukust vastavalt riigi elanike arvule 18\u201364-aastate vanusegrupis (<a href=\"#tabel-1\">Tabel\u00a01<\/a>). Tehniliselt \u00fctleksimegi, et kaalume andmed l\u00e4bi elanike arvuga, selle tulemusena saame kaalutud aritmeetilise keskmise.<\/p>\n\n\n\n<p>Tabel\u00a01. V\u00e4hemalt kolme v\u00f5\u00f5rkeelt oskavate elanike osakaal koos elanike arvuga vanusegrupis 18\u201364 aastat 2022. aastal.<\/p>\n\n\n\n<figure id=\"tabel-1\" class=\"wp-block-table is-style-stripes has-regular-font-size\"><table class=\"table table-hover\"><thead><tr><td>Riik<\/td><td class=\"has-text-align-right\" data-align=\"right\">Osakaal (%)<\/td><td class=\"has-text-align-right\" data-align=\"right\">Elanike arv<\/td><\/tr><\/thead><tbody><tr><td>Norra<\/td><td class=\"has-text-align-right\" data-align=\"right\">71,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">3519809<\/td><\/tr><tr><td>Luksemburg<\/td><td class=\"has-text-align-right\" data-align=\"right\">56,6<\/td><td class=\"has-text-align-right\" data-align=\"right\">447525<\/td><\/tr><tr><td>Sloveenia<\/td><td class=\"has-text-align-right\" data-align=\"right\">56,4<\/td><td class=\"has-text-align-right\" data-align=\"right\">1344499<\/td><\/tr><tr><td>Holland<\/td><td class=\"has-text-align-right\" data-align=\"right\">39,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">11352758<\/td><\/tr><tr><td>Island<\/td><td class=\"has-text-align-right\" data-align=\"right\">39,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">250078<\/td><\/tr><tr><td>Soome<\/td><td class=\"has-text-align-right\" data-align=\"right\">39,3<\/td><td class=\"has-text-align-right\" data-align=\"right\">3417411<\/td><\/tr><tr><td>Eesti<\/td><td class=\"has-text-align-right\" data-align=\"right\">32,4<\/td><td class=\"has-text-align-right\" data-align=\"right\">841851<\/td><\/tr><tr><td>Taani<\/td><td class=\"has-text-align-right\" data-align=\"right\">27,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">3732373<\/td><\/tr><tr><td>Belgia<\/td><td class=\"has-text-align-right\" data-align=\"right\">23,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">7416490<\/td><\/tr><tr><td>Slovakkia<\/td><td class=\"has-text-align-right\" data-align=\"right\">21,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">3616958<\/td><\/tr><tr><td>Saksamaa<\/td><td class=\"has-text-align-right\" data-align=\"right\">17,6<\/td><td class=\"has-text-align-right\" data-align=\"right\">53193690<\/td><\/tr><tr><td>L\u00e4ti<\/td><td class=\"has-text-align-right\" data-align=\"right\">16,4<\/td><td class=\"has-text-align-right\" data-align=\"right\">1184142<\/td><\/tr><tr><td>Prantsusmaa<\/td><td class=\"has-text-align-right\" data-align=\"right\">13,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">42003862<\/td><\/tr><tr><td>Portugal<\/td><td class=\"has-text-align-right\" data-align=\"right\">13,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">6601650<\/td><\/tr><tr><td>Rootsi<\/td><td class=\"has-text-align-right\" data-align=\"right\">12,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">6494457<\/td><\/tr><tr><td>Austria<\/td><td class=\"has-text-align-right\" data-align=\"right\">11,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">5941650<\/td><\/tr><tr><td>K\u00fcpros<\/td><td class=\"has-text-align-right\" data-align=\"right\">9,3<\/td><td class=\"has-text-align-right\" data-align=\"right\">609929<\/td><\/tr><tr><td>Leedu<\/td><td class=\"has-text-align-right\" data-align=\"right\">9,0<\/td><td class=\"has-text-align-right\" data-align=\"right\">1827984<\/td><\/tr><tr><td>Itaalia<\/td><td class=\"has-text-align-right\" data-align=\"right\">8,6<\/td><td class=\"has-text-align-right\" data-align=\"right\">37488934<\/td><\/tr><tr><td>Malta<\/td><td class=\"has-text-align-right\" data-align=\"right\">7,6<\/td><td class=\"has-text-align-right\" data-align=\"right\">354465<\/td><\/tr><tr><td>Iirimaa<\/td><td class=\"has-text-align-right\" data-align=\"right\">7,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">3368551<\/td><\/tr><tr><td>Serbia<\/td><td class=\"has-text-align-right\" data-align=\"right\">7,0<\/td><td class=\"has-text-align-right\" data-align=\"right\">4375357<\/td><\/tr><tr><td>T\u0161ehhi<\/td><td class=\"has-text-align-right\" data-align=\"right\">6,7<\/td><td class=\"has-text-align-right\" data-align=\"right\">6654190<\/td><\/tr><tr><td>Horvaatia<\/td><td class=\"has-text-align-right\" data-align=\"right\">6,1<\/td><td class=\"has-text-align-right\" data-align=\"right\">2441548<\/td><\/tr><tr><td>Hispaania<\/td><td class=\"has-text-align-right\" data-align=\"right\">5,9<\/td><td class=\"has-text-align-right\" data-align=\"right\">31417513<\/td><\/tr><tr><td>Poola<\/td><td class=\"has-text-align-right\" data-align=\"right\">5,2<\/td><td class=\"has-text-align-right\" data-align=\"right\">24014336<\/td><\/tr><tr><td>Ungari<\/td><td class=\"has-text-align-right\" data-align=\"right\">3,6<\/td><td class=\"has-text-align-right\" data-align=\"right\">6254101<\/td><\/tr><tr><td>Kreeka<\/td><td class=\"has-text-align-right\" data-align=\"right\">3,0<\/td><td class=\"has-text-align-right\" data-align=\"right\">6657643<\/td><\/tr><tr><td>Bulgaaria<\/td><td class=\"has-text-align-right\" data-align=\"right\">2,5<\/td><td class=\"has-text-align-right\" data-align=\"right\">4047300<\/td><\/tr><tr><td>Rumeenia<\/td><td class=\"has-text-align-right\" data-align=\"right\">1,3<\/td><td class=\"has-text-align-right\" data-align=\"right\">12247111<\/td><\/tr><tr><td>T\u00fcrgi<\/td><td class=\"has-text-align-right\" data-align=\"right\">1,2<\/td><td class=\"has-text-align-right\" data-align=\"right\">57459186<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p><em>Allikas: Eurostat<\/em><\/p>\n\n\n\n<p>Kui arvutaksime osakaaludest lihtsalt aritmeetilise keskmise, liidetaks osakaalud kokku ja jagataks riikide arvuga. R-s oleks vastav <strong>kaalumata<\/strong> keskmise arvutamise tehe j\u00e4rgmine:<\/p>\n\n\n\n<style>\n\/* Quarto-style code block *\/\n.quarto-code {\n  display: block;\n  background-color: #f1f3f5;\n  font-family: SFMono-Regular, Menlo, Monaco, Consolas, \"Liberation Mono\", \"Courier New\", monospace;\n  color: #003B4F;      \/* base text color *\/\n  padding: 0.75em;\n  border-radius: 4px;\n  line-height: 1.4;\n  font-size: 0.9em;\n  overflow-x: auto;\n}\n\n\/* Syntax highlighting tokens *\/\n.quarto-code .op { color: #5E5E5E; }   \/* operators, pipes, comments *\/\n.quarto-code .fu { color: #4758AB; }   \/* functions *\/\n.quarto-code .va { color: #657422; }   \/* variable \/ argument names *\/\n.quarto-code .dv { color: #AD0000; }   \/* numbers *\/\n.quarto-code .st { color: #20794D; }   \/* strings *\/\n.quarto-code .cn { color: #8f5902; }   \/* constants (TRUE, NULL, etc.) *\/\n\n\/* Output lines (tibble etc.) *\/\n.quarto-out {\n  display: block;\n  background-color: #ffffff;  \/* white background *\/\n  font-family: SFMono-Regular, Menlo, Monaco, Consolas, \"Liberation Mono\", \"Courier New\", monospace;\n  color: #003B4F;      \/* base text color *\/\n  margin: 0 -0.75em;\n  padding: 0 0.75em;\n  border-radius: 4px;\n  line-height: 1.4;\n  font-size: 0.9em;\n  overflow-x: auto;\n}\n\n\/* Inline code *\/\n.quarto-inline {\n  font-family: SFMono-Regular, Menlo, Monaco, Consolas, \"Liberation Mono\", \"Courier New\", monospace;\n  font-size: 0.9em;\n  color: #7d12ba;       \/* function text color *\/\n  background-color: #f8f9fa; \/* subtle background *\/\n  padding: 0.1em 0.2em; \/* slight spacing around text *\/\n  border-radius: 6px;   \/* rounded edges for readability *\/\n}\n<\/style>\n\n<code class=\"quarto-code\">\nlibrary(tidyverse) <span class=\"op\"># laeme andmet\u00f6\u00f6tlust h\u00f5lbustava paketi tidyverse<\/span><br><br>\nlang_pop <span class=\"op\">|&gt;<\/span>\u00a0\u00a0\u00a0\u00a0<span class=\"op\"># `lang_pop` on objekt, milles asuvad eelneva tabeli andmed<\/span><br>\n\u00a0\u00a0<span class=\"fu\">summarise<\/span>(<span class=\"va\">kaalumata_keskmine =<\/span> <span class=\"fu\">sum<\/span>(osakaal) \/ <span class=\"fu\">n<\/span>())\u00a0<span class=\"op\"># k\u00e4sk n() annab ridade arvu andmestikus (riikide arvu)<\/span><br>\n<\/code><br>\n\n<code class=\"quarto-out\">\n# A tibble: 1 \u00d7 1<br>\n\u00a0\u00a0kaalumata_keskmine<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;<br>\n<span class=\"dv\">1<\/span>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0<span class=\"dv\">18.6<\/span>\n<\/code>\n<br>\n\n\n\n<p>Elanike arvuga <strong>kaalutud<\/strong> aritmeetilise keskmise puhul korrutatakse iga riigi puhul osakaal elanike arvuga, need korrutised liidetakse ja jagatakse l\u00e4bi mitte riikide arvuga, vaid k\u00f5igi riikide elanike koguarvuga:<\/p>\n\n\n\n<code class=\"quarto-code\">\nlang_pop <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">summarise<\/span>(<span class=\"va\">kaalutud_keskmine =<\/span> <span class=\"fu\">sum<\/span>(osakaal <span class=\"op\">*<\/span> elanike_arv) <span class=\"op\">\/<\/span> <span class=\"fu\">sum<\/span>(elanike_arv))<br>\n<\/code><br>\n\n<code class=\"quarto-out\">\n# A tibble: 1 \u00d7 1<br>\n\u00a0\u00a0kaalutud_keskmine<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;<br>\n<span class=\"dv\">1<\/span>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0<span class=\"dv\">11.4<\/span>\n<\/code>\n<br>\n\n\n\n<p>Loomulikult on R-s ka kaalumata ja kaalutud keskmiste arvutamiseks omaette funktsioonid <span class=\"quarto-inline\">mean<\/span> ja <span class=\"quarto-inline\">weighted.mean<\/span>, mis annavad sama tulemuse.<\/p>\n\n\n\n<code class=\"quarto-code\">\nlang_pop <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">summarise<\/span>(<span class=\"va\">kaalumata_keskmine =<\/span> <span class=\"fu\">mean<\/span>(osakaal))<br>\n<\/code>\n\n\n\n<code class=\"quarto-out\">\n<span class=\"out\"><br># A tibble: 1 \u00d7 1<\/span><br>\n<span class=\"out\">\u00a0\u00a0kaalumata_keskmine<\/span><br>\n<span class=\"out\">\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;<\/span><br>\n<span class=\"out\">1\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a018.6<\/span>\n<\/code><br>\n\n\n\n<code class=\"quarto-code\">\nlang_pop <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">summarise<\/span>(<span class=\"va\">kaalutud_keskmine =<\/span> <span class=\"fu\">weighted.mean<\/span>(osakaal,<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0<span class=\"va\">w =<\/span> elanike_arv)) <span class=\"op\"># argumendile w tuleb omistada kaalutunnuse nimi andmestikus<\/span>\n<\/code><br>\n\n\n\n<code class=\"quarto-out\">\n<span class=\"out\"># A tibble: 1 \u00d7 1<\/span><br>\n<span class=\"out\">\u00a0\u00a0kaalutud_keskmine<\/span><br>\n<span class=\"out\">\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;<\/span><br>\n<span class=\"out\">1\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a011.4<\/span>\n<\/code><br>\n\n\n\n<p>Eelnevas n\u00e4ites olid meil riigi tasandile agregeeritud andmed ehk inimeste keeleoskuse andmete p\u00f5hjal olid arvutatud iga riigi kohta kokkuv\u00f5tlikud n\u00e4itajad. Anal\u00fc\u00fcsides k\u00fcsitlusandmeid, on enamasti tarvis kaaluda mitte agregeeritud, vaid indiviiditasandi andmeid ehk andmestikku, kus on iga vastaja kohta eraldi andmerida. J\u00e4rgnevalt vaatlemegi l\u00e4hemalt andmete kaalumist k\u00fcsitlusandmete kontekstis ehk juhul, kui anal\u00fc\u00fcsime valikuuringu indiviiditasandil andmeid ja soovime tulemusi \u00fcldistada populatsioonile.<\/p>\n\n\n\n<p>Laias laastus on k\u00fcsitlusandmete kaalumise eesm\u00e4rk arvutada v\u00f5imalikult t\u00e4psed hinnangud (\u00fcldisemalt \u00f6eldes statistilised n\u00e4itajad, olgu need aritmeetilised keskmised v\u00f5i protsentn\u00e4itajad v\u00f5i muud keerulisemad n\u00e4itajad) populatsiooni kohta. Iga indiviidi kaalutakse n-\u00f6 \u00fcles v\u00f5i alla, nii et ta esindaks kas suuremat v\u00f5i v\u00e4iksemat hulka populatsiooni liikmetest, vastavalt sellele, kas grupp, mida see indiviid esindab, on k\u00fcsitlusandmetes ala- v\u00f5i \u00fcleesindatud. Teisiti s\u00f5nastades on kaalumise eesm\u00e4rk t\u00f5sta k\u00fcsitlusandmete esinduslikkust populatsiooni suhtes.<\/p>\n\n\n\n<p>Eelnevast n\u00e4htub, et kuna esinduslikkust on tarvis t\u00f5sta, siis peitub siin varjatud eeldus, et k\u00fcsitlusandmed ei esinda populatsiooni piisavalt t\u00e4pselt, st vastajate kogum ei ole t\u00e4pne v\u00e4hendatud koopia populatsioonist. T\u00e4psemalt \u00f6eldes, kui uurida erinevate vastajaid kirjeldavate tunnuste jaotust vastajate seas ja populatsioonis (olgu need siis vanus, sugu, haridustase vms), siis esineb k\u00fcsitlusandmete puhul ka parimat praktikat j\u00e4rgides v\u00f5etud valimi korral nendes jaotustes suuremaid v\u00f5i v\u00e4iksemaid erinevusi. See on paratamatu, sel on erinevaid p\u00f5hjuseid ja seet\u00f5ttu on ka erinevaid v\u00f5tteid ja meetodeid andmete kaalumiseks. K\u00e4esolevas peat\u00fckis vaatlemegi neist m\u00f5ningaid, et selgitada, miks ja mis juhtudel on tarvis andmeid kaaluda ja kuidas seda teha.<\/p>\n\n\n\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n\n\n\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-69de8877909d7-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-69de8877909d7-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-69de8877909d7-collapse\"><a>Eri liiki kaalud, nende koostamine ja vajalikkus<\/a><\/button>\n        <\/h2>\n        <div id=\"accordion-69de8877909d7-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-69de8877909d7-heading\">\n            <div class=\"accordion-body\">\n\n\n\n<p>Vabalt kasutada olevates k\u00fcsitlusandmestikes on tavaliselt kaalutunnused, mille abil andmeid kaaluda, juba olemas, st kaale ei tule ise arvutada. Sellegipoolest eeldab ka olemasolevate kaalude kasutamine kursis olemist sellega, kuidas need andmed on kogutud, sh kuidas on koostatud k\u00fcsitluse aluseks olnud valim. J\u00e4rgnevalt k\u00e4sitlemegi eri liiki kaale, nende eesm\u00e4rke ja seda, kuidas kaalude valik on seotud valimiga. Selles orienteerumiseks on vaja tunda eri valimit\u00fc\u00fcpe ja nende erip\u00e4rasid \u2013 heaks v\u00f5imaluseks ennast nendega kurssi viia on l\u00e4bi t\u00f6\u00f6tada <a href=\"https:\/\/samm.ut.ee\/valimid\/\" target=\"_blank\" rel=\"noreferrer noopener\">SAMMu valimite peat\u00fckk<\/a>.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><a>Disainikaalude p\u00f5him\u00f5te ja eesm\u00e4rk<\/a><\/h4>\n\n\n\n<p>Lihtsa juhuvalimi puhul on k\u00f5igil populatsiooni liikmetel v\u00f5rdne t\u00f5en\u00e4osus valimisse sattuda. Kiht-, klaster- v\u00f5i mitmeastmelise valimi puhul v\u00f5ivad need t\u00f5en\u00e4osused \u2013 neid nimetatakse <strong>kaasamist\u00f5en\u00e4osusteks<\/strong> \u2013 aga erineda. Kihtvalimi puhul jaotatakse populatsioon valitud tunnus(t)e alusel kihtideks ja tehakse juhuvalik iga kihi sees eraldi, see t\u00f5stab valimi esinduslikkust populatsiooni suhtes. Proportsionaalse kihtvalimi puhul on kihtide proportsioonid valimis samad, mis populatsioonis. Vahel v\u00f5idakse aga otsustada mitteproportsionaalse kihtvalimi kasuks, kus m\u00f5ne grupi proportsioon valimis v\u00f5ib olla suurem v\u00f5i v\u00e4iksem kui populatsioonis. N\u00e4iteks Eesti Integratsiooni Monitooringu puhul kasutatakse valimit, kus eestlasi ja mitte-eestlasi on sama palju, olgugi et Eesti rahvastikus ehk populatsioonis on mitte-eestlasi oluliselt v\u00e4hem. Selle eesm\u00e4rk on k\u00fcsitlusandmete p\u00f5hjal neid kaht gruppi v\u00f5rreldes teha mitte-eestlaste kohta samav\u00f5rd t\u00e4pseid j\u00e4reldusi kui eestlaste kohta. Kui aga soovitakse neid kaht gruppi anal\u00fc\u00fcsida mitte v\u00f5rdlevalt, vaid koos (nt mitte arvutada mingi tunnuse aritmeetilised keskmised eestlaste ja mitte-eestlaste kohta eraldi, vaid hinnata selle tunnuse keskmist Eesti rahvastikus tervikuna), on tarvis andmeid kaaluda, et saada mitteproportsionaalse kihtvalimi andmed proportsionaalseks populatsiooniga. Sellisel juhul kasutatakse kaale, mida nimetatakse disainikaaludeks. <strong>Disainikaalude<\/strong> eesm\u00e4rk ongi t\u00f5sta k\u00fcsitlusandmete esinduslikkust populatsiooni suhtes, v\u00f5ttes arvesse valimiliikmete erinevaid kaasamist\u00f5en\u00e4osusi. Disainikaalud arvutatakse nii, et iga indiviidi disainikaalu v\u00e4\u00e4rtus on p\u00f6\u00f6rdv\u00f5rdeline selle indiviidi kaasamist\u00f5en\u00e4osusega valimisse. Selgitame seda konkreetse n\u00e4ite varal l\u00e4hemalt j\u00e4rgmises osas.<\/p>\n\n\n\n<p>Samamoodi on enamasti tarvis andmeid disainikaalude abil kaaluda, kui andmed on kogutud klaster- v\u00f5i mitmeastmelise valimi abil. Mitmeastmelise valimit\u00fc\u00fcbi puhul tehakse valik mitmel tasandil, n\u00e4iteks \u00f5pilaste k\u00fcsitlemise puhul lihtsustab k\u00fcsitlust\u00f6\u00f6d valim, kus esmalt valitakse koolid (esmane valikutasand on kool), seej\u00e4rel koolidest klassid (teisene valikutasand) ja klassidest kas k\u00f5ik \u00f5pilased v\u00f5i osa neist (kolmas valikutasand). Selliselt valimi koostamine k\u00fcll lihtsustab andmekogumist ja n\u00f5uab v\u00e4hem ressursse, kuid eri koolide ja klasside \u00f5pilasi tervikuna uurides tuleb arvestada, et \u00f5pilaste kaasamist\u00f5en\u00e4osused erinevad \u2013 teisiti \u00f6eldes, eri \u00f5pilaste t\u00f5en\u00e4osus valimisse sattuda on erinev, s\u00f5ltuvalt sellest, kui palju on koolis klasse ja kui palju on klassis \u00f5pilasi. Et teha kogu \u00f5pilaskonna ehk populatsiooni suhtes esinduslikke j\u00e4reldusi, tuleb andmeid kaaluda disainikaaludega, nii et \u00f5pilased, kellel oli v\u00e4iksem v\u00f5imalus valimisse sattuda, omandaksid anal\u00fc\u00fcsis suurema kaalu (n-\u00f6 esindaksid rohkem \u00f5pilasi), ja \u00f5pilased, kellel oli suurem v\u00f5imalus valimisse sattuda, omandaksid v\u00e4iksema kaalu.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Disainikaalude arvutamine<\/h4>\n\n\n\n<p>Selgitame disainikaalude arvutamist mitmeastmelise valimi puhul Dillmani jt (2014:87-88) n\u00e4ite varal. Uuringus, mille populatsiooniks on teatud regiooni elanikud, koostatakse kaheastmeline valim: esmasel valikutasandil valitakse 10 000 leibkonna seast juhuslikkuse alusel 1000 leibkonda, teisel valikutasandil valitakse igast leibkonnast juhuslikkuse alusel \u00fcks leibkonnaliige. Esimesel valikutasandil on iga leibkonna kaasamist\u00f5en\u00e4osus ehk t\u00f5en\u00e4osus sattuda valimisse 1\/10 ehk 0,1. Iga inimese kaasamist\u00f5en\u00e4osus seevastu s\u00f5ltub sellest, kui palju on tema leibkonnas liikmeid: kaheliikmelises leibkonnas on iga liikme t\u00f5en\u00e4osus sattuda valimisse 1\/10 (leibkonna kaasamist\u00f5en\u00e4osus) * 1\/2 (leibkonnaliikme kaasamist\u00f5en\u00e4osus) = 1\/20 ehk 0,05. Sellise indiviidi disainikaalu v\u00e4\u00e4rtus on p\u00f6\u00f6rdv\u00f5rdeline tema kaasamist\u00f5en\u00e4osusega ehk 1 \/ 0,05 = 20. Viieliikmelises leibkonnas on iga liikme kaasamist\u00f5en\u00e4osus 1\/10 * 1\/5 = 1\/50 ehk 0,02; sellise indiviidi disainikaal on 1 \/ 0,02 = 50.<\/p>\n\n\n\n<p>Tabel\u00a02. Disainikaalude arvutamine kaasamist\u00f5en\u00e4osuste p\u00f5hjal mitmeastmelise valimi n\u00e4itel<\/p>\n\n\n\n<figure id=\"tabel-2\" class=\"wp-block-table is-style-stripes\"><table class=\"table table-hover\"><thead><tr><td>Indiviid, kelle leibkonnas on\u2026<\/td><td class=\"has-text-align-right\" data-align=\"right\">Leibkonna kaasamist\u00f5en\u00e4osus<\/td><td class=\"has-text-align-right\" data-align=\"right\">Indiviidi kaasamist\u00f5en\u00e4osus leibkonnast<\/td><td class=\"has-text-align-right\" data-align=\"right\">Indiviidi kaasamist\u00f5en\u00e4osus populatsioonist<\/td><td class=\"has-text-align-right\" data-align=\"right\">Indiviidi disainikaal<\/td><\/tr><\/thead><tbody><tr><td>\u00fcks liige<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/10<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/1<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/10<\/td><td class=\"has-text-align-right\" data-align=\"right\">10<\/td><\/tr><tr><td>kaks liiget<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/10<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/2<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/20<\/td><td class=\"has-text-align-right\" data-align=\"right\">20<\/td><\/tr><tr><td>kolm liiget<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/10<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/3<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/30<\/td><td class=\"has-text-align-right\" data-align=\"right\">30<\/td><\/tr><tr><td>neli liiget<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/10<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/4<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/40<\/td><td class=\"has-text-align-right\" data-align=\"right\">40<\/td><\/tr><tr><td>viis liiget<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/10<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/5<\/td><td class=\"has-text-align-right\" data-align=\"right\">1\/50<\/td><td class=\"has-text-align-right\" data-align=\"right\">50<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p><em>Allikas: Dillman jt (2014: 88)<\/em><\/p>\n\n\n\n<p><a href=\"#tabel-2\">Tabelis\u00a02<\/a> arvutatud disainikaalud n\u00e4itavad, kui mitut populatsiooni liiget mingi valimiliige esindab. See t\u00e4hendab, et kui arvutaksime selles n\u00e4ites k\u00f5igile 1000 valimiliikmele disainikaalud, siis nende summa oleks sama, mis inimeste arv selles regioonis ehk populatsioonis. Praktikas v\u00f5ime andmestikes seevastu kohata disainikaale, kus suur osa kaalude v\u00e4\u00e4rtustest j\u00e4\u00e4b 1 ligidale. Sellisel juhul on eelneva n\u00e4ite kohaselt saadud disainikaalud (ehk kaasamist\u00f5en\u00e4osuste p\u00f6\u00f6rdv\u00e4\u00e4rtused) jagatud l\u00e4bi kaalude aritmeetilise keskmisega. Selle tulemusena on disainikaalude aritmeetiline keskmine 1 ning kaalude summa v\u00f5rdub indiviidide arvuga valimis. Kasutades selliselt arvutatud kaale anal\u00fc\u00fcsis, on kaalutud indiviidide arv v\u00f5rdne mitte indiviidide arvuga populatsioonis, vaid indiviidide arvuga valimis. Sellist l\u00e4henemist kasutatakse k\u00fcsitlusandmete kaalude arvutamisel \u00fcsna tihti ja sellisel kujul on kaalud ka n\u00e4iteks Euroopa Sotsiaaluuringu andmestikes.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><a>Millal on tarvis disainikaale kasutada?<\/a><\/h4>\n\n\n\n<p>Disainikaale on reeglina tarvis kasutada, kui andmed on kogutud t\u00f5en\u00e4osusliku valimi alusel, kasutades keerukamat valikut\u00fc\u00fcpi kui lihtne juhuvalim (st valik tehakse kihitatult v\u00f5i klastrite alusel). \u201cReeglina\u201d ei t\u00e4henda siin seda, et kaalumise vallas ennast mitte eriti kindlalt tundes saab otsustada j\u00e4tta andmed kaalumata, lootes, et ehk on mul tegu \u00fchega neist \u00fclej\u00e4\u00e4nud, ebareeglip\u00e4rastest juhtumitest. Otsus andmeid kaaluda v\u00f5i kaalumata j\u00e4tta peaks p\u00f5hinema konkreetsetel kaalutlustel, v\u00f5ttes lisaks valimi koostamise erip\u00e4radele arvesse, milline on anal\u00fc\u00fcsi\u00fchik ehk mis on konkreetses olukorras kogum, millele soovime anal\u00fc\u00fcsitulemusi \u00fcldistada.<\/p>\n\n\n\n<p>Disainikaalude arvutamise n\u00e4ites, kus valik tehti esmalt leibkondade vahel ja seej\u00e4rel leibkonnasiseselt, on andmeid kindlasti tarvis disainikaaludega kaaluda, kui soovime teha \u00fcldistusi selle regiooni <em>elanike<\/em> kohta (st kogum, millele soovime tulemusi \u00fcldistada, on regiooni elanikkond, mitte regiooni leibkonnad). Kui j\u00e4taksime sel juhul andmed disainikaaludega kaalumata, m\u00f5jutaksid v\u00e4iksematest leibkondadest p\u00e4rit vastajad tulemusi ebaproportsionaalselt rohkem. Kui aga soovime teha j\u00e4reldusi regiooni <em>leibkondade<\/em> kohta \u2013 n\u00e4iteks k\u00fcsiti k\u00fcsitluses andmeid ka leibkondade kohta, nagu leibkonna sissetulek \u2013, siis pole andmeid disainikaaludega kaaluda vaja, sest valimi koostamisel oli esimesel valikutasandil k\u00f5igil leibkondadel samasugune t\u00f5en\u00e4osus valimisse sattuda (sest esimesel valikutasandil oli tegu ainult lihtsa juhuvalikuga). Esimeses, Integratsiooni Monitooringu n\u00e4ites on vaja andmeid kaaluda, kui anal\u00fc\u00fcsime eestlaste ja mitte-eestlaste ehk erinevate mitteproportsionaalsete kihtide andmeid koos. K\u00fcll aga pole otsest vajadust andmeid kaaluda, kui anal\u00fc\u00fcsime eestlasi ja mitte-eestlasi v\u00f5rdlevalt, st erinevate kihtide andmeid eraldi.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><a>Kao kompenseerimine<\/a><\/h4>\n\n\n\n<p>Disainikaalud v\u00f5imaldavad elimineerida valimiv\u00f5tu erip\u00e4radest tulenevat esinduslikkuse kadu. Samas esineb valikk\u00fcsitluste puhul teisigi tegureid, mis v\u00f5ivad esinduslikkust populatsiooni suhtes v\u00e4hendada, mille t\u00f5ttu disainikaaludest ei pruugi kaalumisel piisata. \u00dcks neist teguritest on <strong>mittevastamine<\/strong> ehk valimiliikmete kadu \u2013 kaugeltki mitte k\u00f5ik valimiliikmed ei soovi v\u00f5i ei saa k\u00fcsitluses osaleda.<\/p>\n\n\n\n<p>Kui vastamism\u00e4\u00e4r on valimi eri gruppides samasugune, siis ei v\u00e4henda mittevastamine veel andmete esinduslikkust \u2013 vastajate hulk on sel juhul k\u00fcll mittevastamise t\u00f5ttu v\u00e4iksem ja seep\u00e4rast ei pruugi olla v\u00f5imalik n\u00f5rgemaid populatsioonis esinevaid tunnustevahelisi seoseid tuvastada, kuid andmete esinduslikkust see veel ei m\u00f5juta. Enamasti ei ole vastamism\u00e4\u00e4r valimi eri gruppides siiski \u00fchetaoline, vaid erineb teatud m\u00e4\u00e4ral. Kui vastamism\u00e4\u00e4r eri gruppides, st mingite tunnuste l\u00f5ikes, erineb (nt on vastamism\u00e4\u00e4r nooremates vanusegruppides madalam), saab kannatada esinduslikkus nende tunnuste suhtes ja lisaks selliste tunnuste suhtes, mis on omakorda nende tunnustega seotud. Sellest j\u00e4reldub, et vanuse n\u00e4ites ei tekiks esinduslikkuse probleemi juhul, kui m\u00f5\u00f5daksime k\u00fcsitlusega mingeid v\u00e4\u00e4rtushinnanguid, mis ei s\u00f5ltu vanusest. \u00dcldiselt ei ole see aga realistlik \u2013 v\u00e4\u00e4rtushinnangud, olgu need poliitilised, \u00fchiskondlikud, religioossed v\u00f5i muud, ikkagi varieeruvad vanuse l\u00f5ikes teatud m\u00e4\u00e4ral. Kui vastamism\u00e4\u00e4r valimi eri gruppides varieerub, ei saa reeglina eeldada, et see tulemuste esinduslikkust ei m\u00f5juta, mist\u00f5ttu v\u00f5ib olla vaja kaalumisel lisaks arvesse v\u00f5tta mittevastamisest tulenevat esinduslikkuse kadu.<\/p>\n\n\n\n<p>Selle jaoks on erinevaid v\u00f5imalusi. \u00dcks v\u00f5imalus mittevastamise ehk <strong>kao kompenseerimiseks<\/strong> on leida tunnused, mille l\u00f5ikes vastamism\u00e4\u00e4r erineb ja mis on seotud muude tunnustega andmestikus, ja nende gruppides leida vastamist\u00f5en\u00e4osused ehk arvutada igas grupis<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>respondentide (ehk uuringus osalenud valimiliikmete) disainikaalude summa,<\/li>\n\n\n\n<li>valimiliikmete (ehk uuringus osalenud ja mitteosalenud liikmete) disainikaalude summa,<\/li>\n\n\n\n<li>ja leida nende summade suhe ehk jagatis.<\/li>\n<\/ul>\n\n\n\n<p>Iga respondendi disainikaal tuleb seej\u00e4rel l\u00e4bi korrutada eelnevalt kirjeldatud jagatise p\u00f6\u00f6rdv\u00e4\u00e4rtusega. (Lihtsa juhuvalimi puhul, kus k\u00f5igi valimiliikmete valimisse kaasamise t\u00f5en\u00e4osused on samad, saab nimetatud jagatise asemel kasutada lihtsalt vastamism\u00e4\u00e4ra grupis.) <a href=\"#tabel-3\">Tabeli\u00a03<\/a> n\u00e4ites t\u00e4hendaks see, et k\u00f5igi 15\u201324-aastaste respondentide disainikaal tuleks l\u00e4bi korrutada 1,622-ga.<\/p>\n\n\n\n<p>Tabel\u00a03. Disainikaalude kalibreerimine vastamist\u00f5en\u00e4osuste alusel<\/p>\n\n\n\n<figure id=\"tabel-3\" class=\"wp-block-table is-style-stripes\"><table class=\"table table-hover\"><thead><tr><td>\u00a0<\/td><td class=\"has-text-align-right\" data-align=\"right\">15\u201324<\/td><td class=\"has-text-align-right\" data-align=\"right\">25\u201334<\/td><td class=\"has-text-align-right\" data-align=\"right\">35\u201344<\/td><td class=\"has-text-align-right\" data-align=\"right\">45\u201364<\/td><td class=\"has-text-align-right\" data-align=\"right\">65+<\/td><td class=\"has-text-align-right\" data-align=\"right\">Kokku<\/td><\/tr><\/thead><tbody><tr><td>Valimimaht<\/td><td class=\"has-text-align-right\" data-align=\"right\">202<\/td><td class=\"has-text-align-right\" data-align=\"right\">220<\/td><td class=\"has-text-align-right\" data-align=\"right\">180<\/td><td class=\"has-text-align-right\" data-align=\"right\">195<\/td><td class=\"has-text-align-right\" data-align=\"right\">203<\/td><td class=\"has-text-align-right\" data-align=\"right\">1000<\/td><\/tr><tr><td>Vastajate arv<\/td><td class=\"has-text-align-right\" data-align=\"right\">124<\/td><td class=\"has-text-align-right\" data-align=\"right\">187<\/td><td class=\"has-text-align-right\" data-align=\"right\">162<\/td><td class=\"has-text-align-right\" data-align=\"right\">187<\/td><td class=\"has-text-align-right\" data-align=\"right\">203<\/td><td class=\"has-text-align-right\" data-align=\"right\">863<\/td><\/tr><tr><td>Disainikaalude summa valimis<\/td><td class=\"has-text-align-right\" data-align=\"right\">30322<\/td><td class=\"has-text-align-right\" data-align=\"right\">33013<\/td><td class=\"has-text-align-right\" data-align=\"right\">27046<\/td><td class=\"has-text-align-right\" data-align=\"right\">29272<\/td><td class=\"has-text-align-right\" data-align=\"right\">30451<\/td><td class=\"has-text-align-right\" data-align=\"right\">150104<\/td><\/tr><tr><td>Disainikaalude summa vastajate seas<\/td><td class=\"has-text-align-right\" data-align=\"right\">18693<\/td><td class=\"has-text-align-right\" data-align=\"right\">28143<\/td><td class=\"has-text-align-right\" data-align=\"right\">24371<\/td><td class=\"has-text-align-right\" data-align=\"right\">28138<\/td><td class=\"has-text-align-right\" data-align=\"right\">30451<\/td><td class=\"has-text-align-right\" data-align=\"right\">\u00a0<\/td><\/tr><tr><td>Vastamist\u00f5en\u00e4osus<\/td><td class=\"has-text-align-right\" data-align=\"right\">0,6165<\/td><td class=\"has-text-align-right\" data-align=\"right\">0,8525<\/td><td class=\"has-text-align-right\" data-align=\"right\">0,9011<\/td><td class=\"has-text-align-right\" data-align=\"right\">0,9613<\/td><td class=\"has-text-align-right\" data-align=\"right\">1,0000<\/td><td class=\"has-text-align-right\" data-align=\"right\">\u00a0<\/td><\/tr><tr><td>Vastamist\u00f5en\u00e4osuse p\u00f6\u00f6rdv\u00e4\u00e4rtus<\/td><td class=\"has-text-align-right\" data-align=\"right\">1,622<\/td><td class=\"has-text-align-right\" data-align=\"right\">1,173<\/td><td class=\"has-text-align-right\" data-align=\"right\">1,110<\/td><td class=\"has-text-align-right\" data-align=\"right\">1,040<\/td><td class=\"has-text-align-right\" data-align=\"right\">1,000<\/td><td class=\"has-text-align-right\" data-align=\"right\">\u00a0<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p><em>Allikas: Lohr (2019: 341)<\/em><\/p>\n\n\n\n<p>Eelnevalt kirjeldatud meetodil saame kohandada disainikaale nii, et andmete kaalumine v\u00e4hendaks ka mittevastamisest tulenevat esinduslikkuse kadu (inglise keeles kutsutakse seda meetodit <em>weighting class adjustment<\/em>). Selle eeldus on, et gruppides, mille kohta vastamist\u00f5en\u00e4osused leiti, vastamist\u00f5en\u00e4osus ei varieeru. See t\u00e4hendab, et kui disainikaalude kohandamiseks kasutatakse ainult vanusegrupiti arvutatud vastamist\u00f5en\u00e4osusi, siis vanusegrupi sees ei tohiks erineda n\u00e4iteks meeste ja naiste vastamist\u00f5en\u00e4osused v\u00f5i vastamist\u00f5en\u00e4osused haridustasemeti vms. See on tugev eeldus, mida p\u00fc\u00fctakse rahuldada vastamist\u00f5en\u00e4osuste arvutamisega rohkem kui \u00fche tunnuse l\u00f5ikes, st rohkemates gruppides. Siiski ei saa gruppe olla \u00fclem\u00e4\u00e4ra palju, sest osasse gruppidesse j\u00e4\u00e4ks siis liiga v\u00e4he vastajaid, mille t\u00f5ttu v\u00f5ivad osa indiviidide kaalud olla v\u00e4ga suured, mis omakorda muudaks kaalutud anal\u00fc\u00fcsitulemused n-\u00f6 ebastabiilseks.<\/p>\n\n\n\n<p>Silmas tuleb pidada ka seda, et grupikuuluvus peab olema teada k\u00f5igi valimiliikmete kohta, st ka nende kohta, kes olid valimis, aga ei osalenud uuringus. See piirab kohandamiseks kasutatavate tunnuste hulka oluliselt, praktikas on nende tunnuste hulk piiratud valikuraamis olevate andmetega.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><a>J\u00e4relkihitamine<\/a><\/h4>\n\n\n\n<p>Eelnevalt kirjeldatud kao kompenseerimise meetod ongi lihtsasti rakendatav juhul, kui meil on ligip\u00e4\u00e4s andmetele ka mittevastanute kohta (st kogu valimi andmetele), enamasti on see ligip\u00e4\u00e4s vaid uuringu korraldajatel. Kui kasutada on ainult k\u00fcsitlusandmed ehk andmed k\u00fcsitletute kohta, on lihtsam kohandada disainikaale <strong>j\u00e4relkihitamise<\/strong> meetodil. See ei eelda andmete olemasolu mittevastanute kohta, k\u00fcll aga eeldab j\u00e4relkihitamise aluseks olevate (enamasti sotsiaaldemograafiliste) tunnuste \u00fchisjaotuste olemasolu vastanute ja populatsiooni kohta. Vastanute kohta on v\u00f5imalik need \u00fchisjaotused arvutada k\u00fcsitlusandmete p\u00f5hjal, populatsiooni kohta v\u00f5ivad (s\u00f5ltuvalt populatsiooni ja tunnuste spetsiifilisusest) \u00fchisjaotused leiduda muudes allikates, n\u00e4iteks riiklikus statistikas. J\u00e4relkihitamise meetodil disainikaalude kohandamine toimub analoogselt eespool kirjeldatud kao kompenseerimisega, ainuke erinevus on see, et arvutustes kasutatakse <em>valimiliikmete<\/em> disainikaalude summa asemel indiviidide arvu vastavas grupis <em>populatsioonis.<\/em> See muidugi eeldab, et respondentide disainikaalude summa p\u00f5hineb disainikaaludel, mis ei ole l\u00e4bi jagatud disainikaalude keskmisega, nagu k\u00fcsitlusandmestikes v\u00f5ib disainikaalude puhul olla tehtud.<\/p>\n\n\n\n<p>Erinevalt eelnevalt kirjeldatud kao kompenseerimise meetodist v\u00f5imaldab j\u00e4relkihitamine kompenseerida nii mittevastamisest kui kaetuse veast tulenevat esinduslikkuse kadu. Kaetuse viga tuleneb sellest, et valikuraam ehk loend populatsiooni liikmetest, mida kasutatakse valimi v\u00f5tmisel, ei kata t\u00e4pselt populatsiooni (nt v\u00f5ib valikuraamis esineda isikuid, kes on n\u00fc\u00fcdseks surnud, v\u00f5i v\u00f5ivad m\u00f5ne isiku andmed esineda topelt).<\/p>\n\n\n\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n\n\n\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-69de8877909f7-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-69de8877909f7-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-69de8877909f7-collapse\"><a>Andmete kaalumine ei ole imerohi<\/a><\/button>\n        <\/h2>\n        <div id=\"accordion-69de8877909f7-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-69de8877909f7-heading\">\n            <div class=\"accordion-body\">\n\n\n\n<p>Enne kaalumise praktilise osa juurde minekut v\u00e4\u00e4rib t\u00e4helepanu veel m\u00f5ni t\u00f5siasi. Kuigi kaalumine \u00fcldjuhul v\u00f5imaldab t\u00f5sta andmete esinduslikkust ja saada populatsiooni kohta t\u00e4psemad hinnangud, ei saa kaalumist pidada mingiks imerohuks, mis muudab andmed t\u00e4iesti esinduslikuks populatsiooni suhtes ja k\u00f5rvaldab andmetest k\u00f5ik vead. Eelk\u00f5ige k\u00e4ib see just kaalumismeetodite kohta, mis p\u00fc\u00fcavad lahendada mittevastamisest tulenevaid probleeme (nagu varem kirjeldatud kao kompenseerimine ja j\u00e4relkihitamine). Miks on see hoiatus oluline?<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Nagu juba \u00f6eldud, on neil kaalumismeetoditel \u00fcsna tugevad eeldused, mida t\u00e4ielikult rahuldada on keeruline, kui mitte v\u00f5imatu.<\/li>\n\n\n\n<li>Pealegi on nende meetodite rakendamises alati teatud m\u00e4\u00e4ral subjektiivsust, n\u00e4iteks kaalumise aluseks olevate tunnuste valikul.<\/li>\n\n\n\n<li>Mil m\u00e4\u00e4ral disainikaalude kohandamise meetodid mittevastamisest ja muudest uuringuvigadest tulenevaid probleeme konkreetsel juhul lahendavad ja andmete esinduslikkust parandavad, s\u00f5ltub paljuski sellest, kas tegu on juhuslike v\u00f5i s\u00fcstemaatiliste vigadega (juhuslikku ja s\u00fcstemaatilist viga aitab m\u00f5testada uuringu koguvea kontseptsioon, mille kohta on \u00fclevaatlikuks sissejuhatuseks nt Fuchs (2008)). Mittevastamise puhul t\u00e4hendab see laias laastus seda, kas uuringus osalenud valimiliikmete kogum (respondendid) ja mitteosalenud valimiliikmete kogum (mittevastanud) on m\u00f5\u00f5detavate tunnuste poolest samasugused v\u00f5i mitte.\n<ul class=\"wp-block-list\">\n<li>Kui on samasugused, t\u00f6\u00f6tavad disainikaalude kohandamise meetodid h\u00e4sti (\u00f5ieti pole neid otseselt vaja rakendadagi, sest sel juhul on vastanute kogum juba esinduslik ka populatsiooni suhtes). See on paraku ideaaljuhtum, mida esineb harva.<\/li>\n\n\n\n<li>Kui ei ole samasugused, s\u00f5ltub kaalumise edukus sellest, kuiv\u00f5rd on need erinevused seletatavad kaalumise aluseks olevate tunnustega. N\u00e4iteks v\u00f5ib juhtuda, et vastanud ja mittevastanud erinevad mingite m\u00f5\u00f5detud v\u00e4\u00e4rtushinnangute poolest. Kui kohandame sellisel juhul disainikaale, kompenseerides mittevastamist n\u00e4iteks vanuse, soo ja elukoha alusel, aga m\u00f5\u00f5detud v\u00e4\u00e4rtushinnangud on nimetatud tunnustega seotud ainult n\u00f5rgalt, ei paranda see v\u00e4\u00e4rtushinnangute anal\u00fc\u00fcsil saadavate tulemuste esinduslikkust kuigiv\u00f5rd. Ka juhul, kui kaalumise aluseks olevad tunnused on m\u00f5\u00f5detavate tunnustega seotud, ei ole need seosed \u00fcks\u00fchesed; k\u00f5ik m\u00f5\u00f5detavad tunnused ei ole kaalumise aluseks olevate tunnustega \u00fchtmoodi ja samav\u00f5rd tugevalt seotud, osa m\u00f5\u00f5detavaid tunnuseid ei pruugi nendega \u00fcldse seotud olla.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li>Kui tegu on s\u00fcstemaatiliste vigadega, v\u00f5ib andmete kaalumine teatud juhtudel tulemuste esinduslikkust isegi halvendada. N\u00e4iteks on t\u00e4nap\u00e4eval telefonik\u00fcsitlustes raskem vastama saada nooremaealisi. V\u00f5ib eeldada, et need noored, kes v\u00f5\u00f5rale numbrile vastavad, on \u00fcldiselt usaldavamad kui nende eakaaslased \u00fcldiselt. Seega, kui uuringuk\u00fcsimustega m\u00f5\u00f5detakse n\u00e4iteks usaldustaset \u00fchiskonnas, on k\u00fcsitletute seas alaesindatud madalama usaldustasemega vastajad ning kaalumata tulemused n\u00e4itavad usaldustaset k\u00f5rgemana, kui see tegelikult on. Kui sel juhul andmeid veel vanuse alusel kaaluda, st \u00fcles kaaluda nooremaid vastajaid, kes on niigi k\u00f5rgema usaldustasemega, n\u00e4itaksid anal\u00fc\u00fcsitulemused usaldustaset ekslikult veelgi k\u00f5rgemana. Seega on disainikaalude kohandamise jaoks tunnuste valikul (ja kohandatud kaalude kasutamisel) oluline arvesse v\u00f5tta mitte ainult seda, millised tunnused on seotud mittevastamise ja teiste m\u00f5\u00f5detavate tunnustega, vaid ka seda, millised need seosed on.<\/li>\n\n\n\n<li>Kaalud arvutatakse kompenseerima n-\u00f6 objekti kadu ehk nende valimiliikmete kadu, kes uuringus \u00fcldse ei osalenud. Samas esineb k\u00fcsitlusandmetes ka k\u00fcsimusele mittevastamist, kus muidu koost\u00f6\u00f6aldis respondent ei soovi v\u00f5i ei oska mingile konkreetsele ankeedik\u00fcsimusele vastust anda. Olenevalt k\u00fcsimusest v\u00f5ib selline andmete kadu olla m\u00e4rkimisv\u00e4\u00e4rne \u2013 sellist kadu kaalumine ei kompenseeri (kui soovime, et kompenseeriks, tuleks arvutada uued, konkreetse k\u00fcsimuse mittevastamist arvestavad kaalud).<\/li>\n<\/ul>\n\n\n\n<p>Seega tuleks igasugustesse v\u00e4idetesse, mis k\u00e4sitlevad kaalutud andmeid kui esinduslike ja kallutamata tulemuste garantiid, suhtuda eluterve skepsisega. \u00dcldjuhul kehtib reegel, et kehva v\u00f5i olematu metoodikaga kogutud andmete puhul ei aita ka kaalumine esinduslikkust parandada. Usaldusv\u00e4\u00e4rse uuringuraporti puhul peaks kaalumise l\u00e4bipaistvuse tagamiseks olema v\u00e4lja toodud, kas ja kuidas andmeid kaaluti, kuidas olid kaalud koostatud, sh milliseid tunnuseid kaalude arvutamisel kasutati ja millistest allikatest saadi andmed populatsiooni kohta (nt j\u00e4relkihitamise jaoks) (AAPOR, 2025).<\/p>\n\n\n\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n\n\n\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-69de887790a30-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-69de887790a30-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-69de887790a30-collapse\"><a>Andmete kaalumine: praktilised n\u00e4ited R-is<\/a><\/button>\n        <\/h2>\n        <div id=\"accordion-69de887790a30-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-69de887790a30-heading\">\n            <div class=\"accordion-body\">\n\n\n\n<p>Vaatame Euroopa Sotsiaaluuringu (ESS) n\u00e4itel, kuidas kaaluda andmeid R-is (R Core Team, 2025). ESS-i andmestikes on disainikaalud tunnuses <span class=\"quarto-inline\">dweight<\/span>, n-\u00f6 j\u00e4relkihituskaalud ehk j\u00e4relkihitamise alusel kohandatud disainikaalud on tunnuses <span class=\"quarto-inline\">pspwght<\/span>. ESS-i andmeid anal\u00fc\u00fcsides soovitatakse kasutada kaale, mis on j\u00e4relkihitamisega kohandatud, sest need v\u00f5imaldavad korrigeerida mittevastamisest jm vigadest tulenevaid nihkeid (European Social Survey, 2023). J\u00e4rgnevates n\u00e4idetes ongi kasutatud kaalumiseks tunnust <span class=\"quarto-inline\">pspwght<\/span>.<\/p>\n\n\n\n<p>Avame R-is ESS-i 10. k\u00fcsitluslaine ehk 2020\/21. aasta andmestiku, mis on alla laetud <a href=\"https:\/\/ess.sikt.no\/en\/\">ESS-i andmeportaalist<\/a>. V\u00f5tame n\u00e4ite aluseks andmed \u00fche riigi kohta, kus kasutati mitmetasemelist valikuskeemi (mitmetasemelise valimi puhul on kaalumise m\u00f5ju tulemustele reeglina suurem). Meie n\u00e4ites on selliseks riigiks Kreeka, kus kasutati kolmeastmelist valimit (esimesel astmel valiku\u00fchikuks rahvaloenduse piirkond, teisel astmel sisuliselt leibkond, kolmandal leibkonnaliige) ning esimesel astmel kasutati ka kihitamist. See taustainfo on leitav ESS-i andmeportaali <a href=\"https:\/\/ess.sikt.no\/en\/study\/172ac431-2a06-41df-9dab-c1fd8f3877e7\">10. k\u00fcsitluslaine lehek\u00fcljelt<\/a> (<em>Country documentation<\/em> =&gt; <em>Greece<\/em>).<\/p>\n\n\n\n<p>Loome uue andmeobjekti <span class=\"quarto-inline\">ess10<\/span> ja omistame sellele ESS-i 10. laine andmestiku, mille laeme R-i paketi <span class=\"quarto-inline\">haven<\/span> funktsiooni <span class=\"quarto-inline\">read_sav<\/span> abil.<\/p>\n\n\n\n<code class=\"quarto-code\">\ness10 <span class=\"op\">&lt;-<\/span> haven::<span class=\"fu\">read_sav<\/span>(<span class=\"st\">\"data\/ess10.sav\"<\/span>)<br><br>\n\ngr10 <span class=\"op\">&lt;-<\/span> ess10 <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">filter<\/span>(cntry <span class=\"op\">==<\/span> <span class=\"st\">\"GR\"<\/span>) <span class=\"op\"># filtreerime tunnuse cntry alusel Kreeka andmed<\/span><br>\n<\/code><br>\n\n\n\n<h4 class=\"wp-block-heading\">Andmete kaalumine kirjeldavas anal\u00fc\u00fcsis<\/h4>\n\n\n\n<p><strong>Kuidas arvutada R-is kirjeldavaid kaalutud n\u00e4itajaid, st punkthinnanguid,<\/strong> nagu kaalutud aritmeetiline keskmine, kaalutud standardh\u00e4lve v\u00f5i tunnuse kaalutud jaotus? Selleks saab kasutada R-i sisseehitatud pakettide (n-\u00f6 <em>base<\/em> R), paketi <span class=\"quarto-inline\">dplyr<\/span> v\u00f5i muude pakettide v\u00f5imalusi. J\u00e4rgnevalt ongi toodud m\u00f5ned punkthinnangute arvutamise n\u00e4ited.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">Tunnuse kaalutud sagedusjaotuse arvutamine<\/h5>\n\n\n\n<p>Arvutame tunnuse <span class=\"quarto-inline\">netusoft<\/span> (vastaja internetikasutuse sagedus) jaotuse funktsiooniga <span class=\"quarto-inline\">dplyr::count<\/span>. Kui soovime kaalutud jaotust, tuleb k\u00e4sku lisada argument <span class=\"quarto-inline\">wt<\/span>, mille v\u00e4\u00e4rtuseks on kaalutunnus. Siinses n\u00e4ites arvutataksegi tunnuse <span class=\"quarto-inline\">netusoft<\/span> kaalutud jaotus, mis esitatakse v\u00e4ljundtabelis veerus <span class=\"quarto-inline\">n<\/span>; selle veeru v\u00e4\u00e4rtuste alusel arvutatakse funktsiooni mutate abil ka suhteline kaalutud jaotus ehk kaalutud protsentn\u00e4itajad. Pakett <span class=\"quarto-inline\">dplyr<\/span> on osa <span class=\"quarto-inline\">tidyverse<\/span>\u2019ist (Wickham jt, 2019), mille laadisime alguses <span class=\"quarto-inline\">library<\/span>-k\u00e4suga m\u00e4llu, seet\u00f5ttu pole tarvis <span class=\"quarto-inline\">dplyr<\/span>\u2019it eraldi laadida.<\/p>\n\n\n\n<code class=\"quarto-code\">\ngr10 <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">count<\/span>(netusoft, <span class=\"va\">wt<\/span> <span class=\"op\">=<\/span> pspwght) <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">mutate<\/span>(<span class=\"va\">protsent<\/span> <span class=\"op\">=<\/span> n <span class=\"op\">\/<\/span> <span class=\"fu\">sum<\/span>(n) <span class=\"op\">*<\/span> <span class=\"dv\">100<\/span>)\n<\/code><br>\n\n<code class=\"quarto-out\">\n# A tibble: 6 \u00d7 3<br>\n\u00a0\u00a0netusoft\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0n protsent<br>\n\u00a0\u00a0&lt;dbl+lbl&gt;\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;<br>\n1\u00a0\u00a01 [Never]\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0514.\u00a0\u00a0\u00a0\u00a0\u00a018.4<br>\n2\u00a0\u00a02 [Only occasionally]\u00a0\u00a0\u00a0117.\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.18<br>\n3\u00a0\u00a03 [A few times a week]\u00a0\u00a0177.\u00a0\u00a0\u00a0\u00a0\u00a0\u00a06.31<br>\n4\u00a0\u00a04 [Most days]\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0309.\u00a0\u00a0\u00a0\u00a0\u00a011.0<br>\n5\u00a0\u00a05 [Every day]\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a01676.\u00a0\u00a0\u00a0\u00a0\u00a059.9<br>\n6\u00a0\u00a0NA\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a05.55\u00a0\u00a0\u00a0\u00a00.198\n<\/code><br>\n\n\n\n<h5 class=\"wp-block-heading\">Kaalutud aritmeetilise keskmise arvutamine<\/h5>\n\n\n\n<p>Funktsioonil <span class=\"quarto-inline\">mean<\/span>, millega saab R-is arvutada aritmeetilise keskmise, seevastu pole kaalumiseks eraldi argumenti (k\u00e4ivita funktsiooni nimi koos k\u00fcsim\u00e4rgiga nime ees, et n\u00e4ha, milliseid argumente funktsioon v\u00f5imaldab kasutada). R-i p\u00f5hipaketis on kaalutud keskmise arvutamiseks eraldi funktsioon <span class=\"quarto-inline\">weighted.mean<\/span>, millel on andmete kaalumiseks argument <span class=\"quarto-inline\">w<\/span>. J\u00e4rgnevas n\u00e4ites arvutatakse tervishoius\u00fcsteemiga rahulolu (tunnus <span class=\"quarto-inline\">stfhlth<\/span>) kaalutud keskmine, v\u00f5ttes abiks funktsiooni <span class=\"quarto-inline\">dplyr::summarise<\/span>.<\/p>\n\n\n\n<code class=\"quarto-code\">\ngr10 <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">summarise<\/span>(<span class=\"va\">stfhlth_kesk<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">weighted.mean<\/span>(stfhlth, <span class=\"va\">w<\/span> <span class=\"op\">=<\/span> pspwght, <span class=\"va\">na.rm<\/span> <span class=\"op\">=<\/span> TRUE))<span class=\"op\">\u00a0\u00a0\u00a0\u00a0\u00a0# funktsioon weighted.mean n\u00f5uab argumenti na.rm = TRUE, et arvutusest j\u00e4etaks v\u00e4lja indiviidid, kellel esineb tunnuses stfhlth andmel\u00fcnk<\/span>\n<\/code><br>\n\n<code class=\"quarto-out\">\n# A tibble: 1 \u00d7 1<br>\n\u00a0\u00a0stfhlth_kesk<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;<br>\n1\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.43\n<\/code><br>\n\n\n\n<h3 class=\"wp-block-heading\"><a>Muude kaalutud jaotusparameetrite arvutamine<\/a><\/h3>\n\n\n\n<p>Mitmeid erinevaid jaotusparameetreid saab arvutada n\u00e4iteks paketis TAM olevate funktsioonide abil (vt l\u00e4hemalt k\u00e4suga <span class=\"quarto-inline\">?TAM::weighted_mean<\/span>)<\/p>\n\n\n\n<code class=\"quarto-code\">\n<span class=\"fu\">library<\/span>(TAM)<br><br>\n\ngr10 <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">summarise<\/span>(<span class=\"va\">stfhlth_kesk<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">weighted_mean<\/span>(stfhlth, <span class=\"va\">w<\/span> <span class=\"op\">=<\/span> pspwght),<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0<span class=\"va\">stfhlth_sth\u00e4lve<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">weighted_sd<\/span>(stfhlth, <span class=\"va\">w<\/span> <span class=\"op\">=<\/span> pspwght),<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0<span class=\"va\">stfhlth_as\u00fcmmeetria<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">weighted_skewness<\/span>(stfhlth, <span class=\"va\">w<\/span> <span class=\"op\">=<\/span> pspwght),<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0<span class=\"va\">stfhlth_j\u00e4rskus<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">weighted_kurtosis<\/span>(stfhlth, <span class=\"va\">w<\/span> <span class=\"op\">=<\/span> pspwght))\n<\/code><br>\n\n<code class=\"quarto-out\">\n# A tibble: 1 \u00d7 4<br>\n\u00a0\u00a0stfhlth_kesk stfhlth_sth\u00e4lve stfhlth_as\u00fcmmeetria stfhlth_j\u00e4rskus<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;<br>\n1\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.43\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a02.31\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0-0.00704\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0-0.989\n<\/code><br>\n\n\n\n<h4 class=\"wp-block-heading\">Andmete kaalumine j\u00e4reldavas anal\u00fc\u00fcsis<\/h4>\n\n\n\n<p>Eelnevad andmete kaalumise n\u00e4ited olid punkthinnangute kohta. Tulenevalt asjaolust, et anal\u00fc\u00fcsime valimi andmeid, mitte kogu populatsiooni, ei pruugi punkthinnang siiski populatsiooni t\u00e4pselt kirjeldada (ka kaalumisest hoolimata). Ka parimate valimi koostamise ja kaalumise praktikate puhul esineb enamasti teatud viga selle t\u00f5ttu, et juhuslikkuse alusel v\u00f5etud valim v\u00f5ib populatsioonist m\u00f5nev\u00f5rra erineda \u2013 indiviidide jaotus (nt sotsiaaldemografiliste v\u00f5i mis tahes muude tunnuste alusel) v\u00f5ib valimis teatud m\u00e4\u00e4ral erineda jaotusest populatsioonis. Et saada populatsiooni kohta t\u00e4psemad hinnangud, peaksime kasutama lisaks kirjeldavatele n\u00e4itajatele ka <strong>j\u00e4reldavat anal\u00fc\u00fcsi<\/strong>, n\u00e4iteks arvutama lisaks punkthinnangutele ka vahemikhinnangud (usalduspiirid) ja seoste v\u00f5i erinevuste esinemise hindamiseks populatsioonis l\u00e4bi viima statistilisi teste.<\/p>\n\n\n\n<p><strong>Kuidas kaaluda R-is andmeid j\u00e4reldavas anal\u00fc\u00fcsis?<\/strong> R-is on erinevates pakettides funktsioone statistiliste testide jaoks, mis v\u00f5imaldavad andmeid kaalutunnuse alusel kaaluda, nt <span class=\"quarto-inline\">weights::wtd.t.test<\/span> kaalutud <em>t<\/em>-testi jaoks. Selline, ainult kaalutunnuse arvestamine andmete kaalumisel, on j\u00e4reldavas anal\u00fc\u00fcsis adekvaatne l\u00e4henemine juhul, kui andmed on saadud lihtsa juhuvaliku alusel. Kui aga on kasutatud keerukamat t\u00f5en\u00e4osuslikku valimit (ja tihtilugu on k\u00fcsitlusuuringutes seda tehtud), ei pruugi lihtsalt kaalutunnusega kaalumisest j\u00e4reldaval anal\u00fc\u00fcsil t\u00e4psete tulemuste saamiseks piisata \u2013 siin on kaalumisel tarvis t\u00e4psemalt arvesse v\u00f5tta ka valimiv\u00f5tu erip\u00e4rasid ehk valikudisaini, mida on valimi koostamisel kasutatud. Lihtsustatult \u00f6eldes t\u00e4hendab see mitte ainult kaasamist\u00f5en\u00e4osuste erinevuste arvesse v\u00f5tmist, vaid ka selle arvestamist, millised indiviidid asuvad millistes kihtides ja\/v\u00f5i klastrites.<\/p>\n\n\n\n<p>Miks piisab j\u00e4reldavas anal\u00fc\u00fcsis lihtsa juhuvalimi korral pelgalt kaalumisest, aga keerulisema valikuskeemi puhul tuleb arvestada valikudisainiga? Kihtvalimi puhul jaotatakse populatsioon kihtideks ja juhuslik valik tehakse kihtide sees. See v\u00e4hendab valimi hajuvust ning reeglina parandab valimi esinduslikkust populatsiooni suhtes, mille t\u00f5ttu on n\u00e4iteks punkthinnangute standardvead m\u00f5nev\u00f5rra v\u00e4iksemad, kui tavalised, lihtsa juhuvalimi jaoks m\u00f5eldud standardvea arvutamise meetodid v\u00f5imaldaksid j\u00e4reldada. Klastrite puhul ei ole valimiliikmed \u00fcksteisest s\u00f5ltumatud \u2013 kuna klastrid moodustatakse mingi tunnuse alusel, on see siis elukoht v\u00f5i \u00f5ppimine mingis koolis ja klassis, on \u00fches klastris olevad liikmed \u00fcksteisega enamasti m\u00f5nev\u00f5rra sarnasemad kui muude klastrite liikmetega. See suurendab m\u00f5\u00f5detavate tunnuste hajuvust ja omakorda punkthinnangute standardvigu. Andmete kaalumisel seda klastritesisest homogeensust ja klastritevahelist heterogeensust ehk valikudisaini arvestamata j\u00e4ttes hindaksime j\u00e4reldaval anal\u00fc\u00fcsil andmete t\u00e4psust \u00fcle ehk saaksime n\u00e4iteks punkthinnangutele kitsamad usaldusvahemikud, kui oleks tegelikult kohane.<\/p>\n\n\n\n<p>R-is v\u00f5imaldavad andmete kaalumisel valikudisaini arvestada n\u00e4iteks paketid <span class=\"quarto-inline\">survey<\/span> (Lumley, 2010) ja selle p\u00f5hjal koostatud pakett <span class=\"quarto-inline\">srvyr<\/span> (Freedman Ellis ja Schneider, 2024). Pakett <span class=\"quarto-inline\">survey<\/span> on vanem ja t\u00e4ielikum, samas on <span class=\"quarto-inline\">srvyr<\/span> lihtsam kasutada neile, kes on R-is harjunud <span class=\"quarto-inline\">tidyverse<\/span>\u2019i s\u00fcntaksiga, ja v\u00f5imaldab k\u00e4skudesse integreerida <span class=\"quarto-inline\">dplyr<\/span>\u2019i funktsioone.<\/p>\n\n\n\n<p>M\u00f5lema paketi v\u00f5imaluste kasutamiseks tuleb esmalt seadistada andmete kaalumine ja valikudisain, paketis <span class=\"quarto-inline\">srvyr<\/span> on selleks funktsioon <span class=\"quarto-inline\">as_survey_design<\/span>. Selle funktsiooni p\u00f5hilised argumendid on<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><span class=\"quarto-inline\">.data<\/span> ehk andmestik;<\/li>\n\n\n\n<li><span class=\"quarto-inline\">ids<\/span>; selle v\u00e4\u00e4rtuseks tuleb omistada andmestikust tunnus(ed), mis sisaldab\/-vad infot selle kohta, millisesse klastrisse vastaval andmereal olev indiviid kuulub. ESS-i andmestikes on taoline info tunnuses <span class=\"quarto-inline\">psu<\/span>;<\/li>\n\n\n\n<li><span class=\"quarto-inline\">strata<\/span>, mille v\u00e4\u00e4rtuseks saab antud n\u00e4ites <span class=\"quarto-inline\">stratum<\/span> ehk andmestikust tunnus, milles on kirjas, millisesse valikukihti mingi indiviid kuulus (juhul, kui valimi v\u00f5tmisel kasutati kihte ehk populatsioon jaotati kihtideks).<\/li>\n\n\n\n<li><span class=\"quarto-inline\">weights<\/span> ehk kaalutunnus.<\/li>\n<\/ul>\n\n\n\n<p>Paketid <span class=\"quarto-inline\">survey<\/span> ja <span class=\"quarto-inline\">srvyr<\/span> eeldavad vaikimisi, et andmeid kaalutakse disainikaaludega. Et j\u00e4relkihitamist v\u00f5i muud disainikaalude kohandamist j\u00e4reldaval anal\u00fc\u00fcsil t\u00e4pselt arvesse v\u00f5tta, tuleks kohandatud kaalud uuesti kalibreerida. See on v\u00f5imalik (vt t\u00e4psemalt <a href=\"https:\/\/cran.r-project.org\/web\/packages\/survey\/vignettes\/precalibrated.pdf\">siit<\/a>), aga ESS-i andmete puhul keerulisem, sest ESS-i andmestikes on kaalud kujul, kus kaalude summa on ligikaudu v\u00f5rdne indiviidide arvuga andmestikus, mitte indiviidide arvuga populatsioonis. Alternatiiv, mida praktikas tihtipeale kasutatakse, on k\u00e4sitleda kohandatud kaale, justkui oleks tegu tavaliste disainikaaludega, mis uuesti kalibreerimist ei n\u00f5ua. Sellega saadakse k\u00fcll m\u00f5nev\u00f5rra konservatiivsemad hinnangud (nt m\u00f5nev\u00f5rra laiemad usaldusvahemikud kui j\u00e4relkihitatud disainikaalud tegelikult eeldaks), aga erinevus ei ole enamasti suur (Lumley, 2021). Ka ESS-i andmete kaalumise juhend pakub v\u00e4lja sellise l\u00e4henemise, seda on ka j\u00e4rgnevas k\u00e4sus kasutatud, kus argumendi <span class=\"quarto-inline\">weights<\/span> v\u00e4\u00e4rtuseks on <span class=\"quarto-inline\">pspwght<\/span>.<\/p>\n\n\n\n<code class=\"quarto-code\">\n<span class=\"fu\">library<\/span>(srvyr)<br><br>\n\ngr10w <span class=\"op\">&lt;-<\/span> <span class=\"fu\">as_survey_design<\/span>(<span class=\"va\">.data<\/span> <span class=\"op\">=<\/span> gr10, <span class=\"va\">ids<\/span> <span class=\"op\">=<\/span> psu, <span class=\"va\">strata<\/span> <span class=\"op\">=<\/span> stratum, <span class=\"va\">weights<\/span> <span class=\"op\">=<\/span> pspwght)\n<\/code><br>\n\n\n\n<h5 class=\"wp-block-heading\">Usalduspiiride arvutamine kaalutud andmetega<\/h5>\n\n\n\n<p>Valikudisaini objekti <span class=\"quarto-inline\">ee10w<\/span> ehk objekti, kus on koos k\u00fcsitlusandmestik koos valikudisaini ja kaalumise seadistusega, saab kasutada sisendina j\u00e4reldavas anal\u00fc\u00fcsis, n\u00e4iteks standardvigade\/usalduspiiride arvutamiseks v\u00f5i statistiliste testide jaoks. Selle jaoks tuleb kasutada vastavaid <span class=\"quarto-inline\">srvyr<\/span> v\u00f5i <span class=\"quarto-inline\">survey<\/span> pakettide funktsioone, n\u00e4iteks aritmeetilise keskmise ja selle standardvea\/usalduspiiride arvutamiseks ei saa kasutada lihtsalt funktsiooni <span class=\"quarto-inline\">weighted.mean<\/span> vms, vaid tuleb kasutada funktsioone <span class=\"quarto-inline\">srvyr::survey_mean<\/span> v\u00f5i <span class=\"quarto-inline\">survey::svymean<\/span>. Siinkohal on toodud kaalutud keskmiste arvutamise n\u00e4ide neist esimesega; argumendiga <span class=\"quarto-inline\">vartype<\/span> saab selle funktsiooni puhul seadistada usalduspiiride v\u00f5i muude n\u00e4itajate arvutamise (<code><span class=\"quarto-inline\">\"ci\"<\/span><\/code>), vaikeseadena arvutatakse muidu ainult keskmise standardviga (<code><span class=\"quarto-inline\">\"se\"<\/span><\/code>). Allolevas n\u00e4ites arvutatakse keskmine rahulolu tervishoius\u00fcsteemiga ja selle standardviga ja usalduspiirid tervisehinnangu l\u00f5ikes (eelnevalt kodeeritakse v\u00e4ga halva tervisehinnanguga vastajad, keda on v\u00e4ga v\u00e4he, kokku halva tervisehinnanguga vastajatega), lisaks arvutatakse <span class=\"quarto-inline\">summarise<\/span>-k\u00e4sus kaalutud vastajate arv (esitatakse v\u00e4ljundtabeli veerus <span class=\"quarto-inline\">n<\/span>). Usalduspiirid arvutatakse vaikimisi usaldusnivool 95%, vajadusel saab seda muuta <span class=\"quarto-inline\">survey_mean<\/span> argumendi <span class=\"quarto-inline\">level<\/span> abil (k\u00f5igi argumentide vaikeseadeid ja v\u00f5imalike s\u00e4tteid saab uurida k\u00e4suga <span class=\"quarto-inline\">?survey_mean<\/span>).<\/p>\n\n\n\n<code class=\"quarto-code\">\ngr10w <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">mutate<\/span>(<span class=\"va\">health4<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">case_match<\/span>(health,<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0<span class=\"dv\">5<\/span> <span class=\"op\">~<\/span> <span class=\"dv\">4<\/span>,<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0<span class=\"va\">.default<\/span> <span class=\"op\">=<\/span> health)) <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">group_by<\/span>(health4) <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">summarise<\/span>(<span class=\"va\">stfhlth_kesk<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">survey_mean<\/span>(stfhlth, <span class=\"va\">na.rm<\/span> <span class=\"op\">=<\/span> <span class=\"op\">TRUE<\/span>, <span class=\"va\">vartype<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">c<\/span>(<span class=\"st\">\"se\"<\/span>, <span class=\"st\">\"ci\"<\/span>)),<br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0<span class=\"va\">n<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">sum<\/span>(pspwght))\n<\/code><br>\n\n<code class=\"quarto-out\">\n# A tibble: 5 \u00d7 6<br>\n\u00a0\u00a0health4\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0stfhlth_kesk stfhlth_kesk_se stfhlth_kesk_low stfhlth_kesk_upp\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0n<br>\n\u00a0\u00a0&lt;dbl+lbl&gt;\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0&lt;dbl&gt;<br>\n1\u00a0\u00a01 [Very good]\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.35\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a00.142\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.07\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.63\u00a0\u00a01250.<br>\n2\u00a0\u00a02 [Good]\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.64\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a00.168\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.30\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.97\u00a0\u00a0\u00a0999.<br>\n3\u00a0\u00a03 [Fair]\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.47\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a00.198\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.08\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.86\u00a0\u00a0\u00a0431.<br>\n4\u00a0\u00a04 [Bad]\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a03.48\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a00.334\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a02.82\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.14\u00a0\u00a0\u00a0115.<br>\n5\u00a0\u00a0NA\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a01\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a00\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a01\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a01\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a04.00\n<\/code><br>\n\n\n\n<p>Funktsiooniga <span class=\"quarto-inline\">srvyr::survey_prop<\/span> saab arvutada tunnuse kaalutud jaotuse, grupeerides eelnevalt andmestiku selle tunnuse alusel, mille jaotust soovime saada. Arvutame siinkohal internetikasutuse sageduse kaalutud jaotuse ning osakaalude standardvead ja usalduspiirid.<\/p>\n\n\n\n<code class=\"quarto-code\">\ngr10w <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">group_by<\/span>(netusoft) <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">summarise<\/span>(<span class=\"va\">prop<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">survey_prop<\/span>(<span class=\"va\">vartype<\/span> <span class=\"op\">=<\/span> <span class=\"fu\">c<\/span>(<span class=\"st\">\"se\"<\/span>, <span class=\"st\">\"ci\"<\/span>)))\n<\/code><br>\n\n<code class=\"quarto-out\">\n# A tibble: 6 \u00d7 5<br>\n\u00a0\u00a0netusoft\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0prop prop_se prop_low prop_upp<br>\n\u00a0\u00a0&lt;dbl+lbl&gt;\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;\u00a0\u00a0\u00a0\u00a0&lt;dbl&gt;<br>\n1\u00a0\u00a01 [Never]\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a00.184\u00a0\u00a0\u00a00.0128\u00a0\u00a00.160\u00a0\u00a0\u00a0\u00a0\u00a00.210<br>\n2\u00a0\u00a02 [Only occasionally]\u00a0\u00a00.0418\u00a0\u00a00.00595\u00a00.0315\u00a0\u00a0\u00a0\u00a00.0552<br>\n3\u00a0\u00a03 [A few times a week]\u00a00.0631\u00a0\u00a00.0102\u00a0\u00a00.0458\u00a0\u00a0\u00a0\u00a00.0865<br>\n4\u00a0\u00a04 [Most days]\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a00.110\u00a0\u00a0\u00a00.0118\u00a0\u00a00.0891\u00a0\u00a0\u00a0\u00a00.136<br>\n5\u00a0\u00a05 [Every day]\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a00.599\u00a0\u00a0\u00a00.0229\u00a0\u00a00.553\u00a0\u00a0\u00a0\u00a0\u00a00.643<br>\n6\u00a0\u00a0NA\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a00.00198\u00a00.00102\u00a00.000717\u00a0\u00a00.00548\n<\/code><br>\n\n\n\n<p>J\u00e4rgnev n\u00e4ide ilmestab andmete kaalumise ja valikudisaini arvesse v\u00f5tmise m\u00f5ju anal\u00fc\u00fcsitulemustele. Arvutatakse tunnuse <span class=\"quarto-inline\">netusoft<\/span> kaalutud jaotus ja osakaalude usalduspiirid usaldusnivool 95%, kasutades erinevaid kaalumise seadeid. <a href=\"#joonis-2\">Joonisel\u00a02<\/a> esitatakse suurima osakaalu (internetti igap\u00e4evaselt kasutavate inimeste protsent) punkt- ja vahemikhinnang (usaldusnivool 95%) eri kaalumise seadete korral.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\" id=\"joonis-2\"><img loading=\"lazy\" decoding=\"async\" width=\"1344\" height=\"960\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis-2.png\" alt=\"\" class=\"wp-image-1770\" style=\"object-fit:cover\" srcset=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis-2.png 1344w, https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis-2-300x214.png 300w, https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis-2-1024x731.png 1024w, https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis-2-768x549.png 768w\" sizes=\"auto, (max-width: 1344px) 100vw, 1344px\"><\/figure>\n\n\n\n<p>Joonis\u00a02. Kreekas internetti igap\u00e4evaselt kasutavate inimeste osakaalu punkt- ja vahemikhinnang (usaldusnivool 95%) eri kaalumise seadete korral. Allikas: ESS 10. k\u00fcsitluslaine<\/p>\n\n\n\n<p><a href=\"#joonis-2\">Jooniselt\u00a02<\/a> ilmneb, et kui kasutada osakaalu arvutamisel ainult disainikaale, on punkthinnang antud juhul paari protsendipunkti v\u00f5rra k\u00f5rgem ja selle usaldusvahemik natuke laiem, kui andmed kaalumata j\u00e4ttes. \u00dcldjuhul ongi nii, et kaalumisel v\u00f5ib usaldusvahemik muutuda m\u00f5nev\u00f5rra laiemaks, sest kaalumine suurendab variatiivsust andmetes. Kui lisaks disainikaaludega kaalumisele v\u00f5tta arvesse ka valikudisaini, j\u00e4\u00e4b punkthinnang v\u00f5rreldes ainult kaalumisega samaks, ent m\u00e4rkimisv\u00e4\u00e4rselt suureneb usaldusvahemik. See tuleneb asjaolust, et n\u00fc\u00fcd arvestatakse usalduspiiride arvutamisel ka valimi v\u00f5tmisel kasutatud mitmeastmelise valikuga (\u00fches piirkonnas asuvad leibkonnad on keskmiselt \u00fcksteisega sarnasemad kui teiste piirkondade leibkondadega).<\/p>\n\n\n\n<p>Samalaadseid erinevusi v\u00f5rreldes kaalumata andmetelt tehtud arvutustega n\u00e4eme ka juhul, kui disainikaale on kohandatud j\u00e4relkihitamise alusel. P\u00f5hjus, miks punkthinnangud sel juhul eelnevaga v\u00f5rreldes erinevad, tuleneb erinevast vastamism\u00e4\u00e4rast eri interneti kasutamise sagedusega valimiliikmete seas (t\u00e4psemalt \u00f6eldes k\u00fcll sellest, kuidas interneti kasutamise sagedus on seotud j\u00e4relkihitamise aluseks olevate tunnustega ja vastamism\u00e4\u00e4rast nende tunnuste l\u00f5ikes).<\/p>\n\n\n\n<p><strong>Olulised j\u00e4reldused <\/strong><a href=\"#joonis-2\"><strong>jooniselt\u00a02<\/strong><\/a> on, et andmeid kaalumata v\u00f5ime eksida punkthinnangutes (ja sellest tulenevalt ka usalduspiiride v\u00e4\u00e4rtustes), valikudisaini arvestamata j\u00e4ttes v\u00f5ime alahinnata vahemikhinnangute laiust ehk m\u00e4\u00e4ramatust valimi alusel leitavates hinnangutes. Kasutades disainikaale ilma j\u00e4relkihitamiseta, saame k\u00fcll arvutada n\u00e4itajad, mis arvestavad valimiv\u00f5tu erip\u00e4radega, ent ei arvesta mittevastamisest l\u00e4htuva esinduslikkuse v\u00e4henemisega. Seega, eeldusel, et j\u00e4relkihitamisel on kasutatud sobivaid tunnuseid, mis on seotud mittevastamise mustrite ja anal\u00fc\u00fcsitavate tunnustega, v\u00f5imaldab j\u00e4relkihitamisega kohandatud disainikaalude rakendamine koos valikudisaini arvesse v\u00f5tmisega leida t\u00e4psemad hinnangud.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">Statistiliste testide l\u00e4biviimine kaalutud andmetega<\/h5>\n\n\n\n<p>Paketid <span class=\"quarto-inline\">srvyr<\/span> ja <span class=\"quarto-inline\">survey<\/span> v\u00f5imaldavad kaalutud andmetega l\u00e4bi viia ka statistilisi teste. Need paketid t\u00f6\u00f6tavad koos: n\u00e4iteks funktsioon <span class=\"quarto-inline\">svyttest<\/span>, millega saab teha <em>t<\/em>-testi, on paketis <span class=\"quarto-inline\">survey<\/span>, kuid selle sisendiks sobib meie varasemalt <span class=\"quarto-inline\">srvyr<\/span>-i abil koostatud valikudisaini objekt <span class=\"quarto-inline\">gr10w<\/span>.<\/p>\n\n\n\n<p>Testime n\u00e4itena, kas meeste ja naiste keskmine rahulolutase tervishoius\u00fcsteemiga erineb. Funktsioon <span class=\"quarto-inline\">svyttest<\/span> n\u00f5uab argumendi <span class=\"quarto-inline\">formula<\/span> v\u00e4\u00e4rtusena testitavat mudelit valemi kujul, kus tildest ehk <span class=\"quarto-inline\">~<\/span>-m\u00e4rgist vasakul pool on <em>t<\/em>-testi puhul arvuline tunnus, mille keskmisi v\u00f5rreldakse (antud juhul rahulolu tervishoius\u00fcsteemiga) ja paremal pool kategoriaalne tunnus (siin sugu). Argumendi <span class=\"quarto-inline\">design<\/span> v\u00e4\u00e4rtuseks peab olema valikudisaini objekt, mis meil on juba eelnevalt defineeritud <span class=\"quarto-inline\">gr10w<\/span>.<\/p>\n\n\n\n<code class=\"quarto-code\">\n<span class=\"fu\">library<\/span>(survey)<br><br>\n\n<span class=\"fu\">svyttest<\/span>(<span class=\"va\">formula<\/span> <span class=\"op\">=<\/span> stfhlth <span class=\"op\">~<\/span> gndr, <span class=\"va\">design<\/span> <span class=\"op\">=<\/span> gr10w)\n<\/code><br>\n\n<code class=\"quarto-out\">\n\u00a0\u00a0\u00a0\u00a0Design-based t-test<br><br>\n\ndata:  stfhlth ~ gndr<br>\nt = -0.035822, df = 175, p-value = 0.9715<br>\nalternative hypothesis: true difference in mean is not equal to 0<br>\n95 percent confidence interval:<br>\n -0.2228339  0.2148890<br>\nsample estimates:<br>\ndifference in mean <br>\n\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0-0.003972449\n<\/code><br>\n\n\n\n<p>Kaalutud <em>t<\/em>-testi tulemuste t\u00f5lgendus j\u00e4rgib sama loogikat, mida kasutatakse kaalumata andmete puhul. Antud juhul n\u00e4itavad tulemused, et pole alust v\u00e4ita meeste ja naiste keskmise rahulolutaseme erinevust: <em>t<\/em>-statistiku olulisuse t\u00f5en\u00e4osus on k\u00f5rge (<em>p<\/em> = 0,972) ja ka keskmiste erinevuse usalduspiirid on nullile l\u00e4hedal.<\/p>\n\n\n\n<p>Paketi <span class=\"quarto-inline\">survey<\/span> abil saab kaalutud andmete p\u00f5hjal koostada ka \u00fcldistatud lineaarseid regressioonimudeleid, Coxi regressioonimudeleid ja loglineaarseid mudeleid ning kasutada muid anal\u00fc\u00fcsimeetodeid. Vt l\u00e4hemat infot paketi (Lumley, 2024) veebilehelt.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Populatsioonikaaludega kaalumine Euroopa Sotsiaaluuringu andmetes<\/h4>\n\n\n\n<p>Euroopa Sotsiaaluuringu andmete kaalumise kohta olgu veel \u00f6eldud, et andmestikus on lisaks kaalutunnus <span class=\"quarto-inline\">pweight<\/span>. Tegu on populatsioonikaaludega, mis v\u00f5tavad arvesse asjaolu, et elanike arv erineb riigiti kordades, samas kui vastajate arv on riigiti samas suurusj\u00e4rgus. Populatsioonikaale oleks tarvis kasutada juhul, kui anal\u00fc\u00fcsitakse mitme riigi andmeid koos, st kogum, millele tulemusi soovitakse \u00fcldistada, pole \u00fche riigi elanikkond, vaid mitme riigi elanikkond tervikuna. See t\u00e4hendab, et soovime teha j\u00e4reldusi riikide\u00fclese regiooni kui terviku kohta, n\u00e4iteks soovime teada, milline on \u00fcldistatud usalduse tase Baltikumis tervikuna v\u00f5i milline on seos sisser\u00e4ndesse suhtumise ja vanuse vahel P\u00f5hjala regioonis \u00fcldiselt. Ilma populatsioonikaale kasutamata oleksid v\u00e4iksemate riikide vastajad tulemustes \u00fcleesindatud.<\/p>\n\n\n\n<p>Kui soovime populatsioonikaale kasutada, ei tohiks andmeid lihtsalt kaaluda tunnusega <span class=\"quarto-inline\">pweight<\/span>, vaid arvestada tuleks ka disainikaale ja nende j\u00e4relkihitamisega kohandamist. Seet\u00f5ttu tuleks populatsioonikaalud l\u00e4bi korrutada j\u00e4relkihitamisega kohandatud disainikaaludega ja kaaluda andmestikku saadud korrutiste alusel:<\/p>\n\n\n\n<code class=\"quarto-code\">\ngr10 <span class=\"op\">&lt;-<\/span> gr10 <span class=\"op\">|&gt;<\/span><br>\n\u00a0\u00a0<span class=\"fu\">mutate<\/span>(<span class=\"va\">anweight<\/span> <span class=\"op\">=<\/span> pspwght <span class=\"op\">*<\/span> pweight)\n<\/code><br>\n\n\n\n<p>Alates 9. k\u00fcsitluslainest on see tehe juba andmete kasutaja eest \u00e4ra tehtud, st nende lainete andmestikes on juba ka tunnus <span class=\"quarto-inline\">anweight<\/span>. ESS-i kaalumise juhendites (European Social Survey, 2025) \u00fcldiselt soovitataksegi igasugustes anal\u00fc\u00fcsides kasutada seda kaalutunnust. K\u00e4esolevas SAMM-u peat\u00fckis, kus tegeletakse ainult \u00fche riigi andmete anal\u00fc\u00fcsiga, on siiski l\u00e4bivalt kasutatud kaalumiseks tunnust <span class=\"quarto-inline\">pspwght<\/span>. Selle eelis on, et \u00fche riigi andmeid (v\u00f5i riike v\u00f5rdlevalt, eri kogumitena) anal\u00fc\u00fcsides on indiviidide kaalutud koguarv sama, mis indiviidide koguarv kaalumata andmestikus. See v\u00f5imaldab andmetes paremini orienteeruda \u2013 tunnusega <span class=\"quarto-inline\">anweight<\/span> andmeid kaaludes oleks n\u00e4iteks Eesti vastajate kaalutud koguarv saja-paarisaja ringis, mis on informatiivne ainult juhul, kui anal\u00fc\u00fcsime eri riikide andmeid \u00fche tervikuna.<\/p>\n\n\n\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n\n\n\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-69de887790a57-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-69de887790a57-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-69de887790a57-collapse\"><a>Kasutatud kirjandus<\/a><\/button>\n        <\/h2>\n        <div id=\"accordion-69de887790a57-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-69de887790a57-heading\">\n            <div class=\"accordion-body\">\n\n\n\n<p><a><\/a><a>AAPOR. (2025). <em>Disclosure Standards<\/em>. <\/a><a href=\"https:\/\/aapor.org\/standards-and-ethics\/disclosure-standards\/\">https:\/\/aapor.org\/standards-and-ethics\/disclosure-standards\/<\/a>.<\/p>\n\n\n\n<p><a>Dillman, D. A., Smyth, J. D., &amp; Christian, L. M. (2014). <em>Internet, phone, mail, and mixed-mode surveys: The tailored design method<\/em>. John Wiley &amp; Sons.<\/a><\/p>\n\n\n\n<p><a>European Social Survey. (2023). <em>ESS Weighting Data<\/em>. <\/a><a href=\"https:\/\/www.europeansocialsurvey.org\/sites\/default\/files\/2023-06\/ESS_weighting_data_1_1.pdf\">https:\/\/www.europeansocialsurvey.org\/sites\/default\/files\/2023-06\/ESS_weighting_data_1_1.pdf<\/a>.<\/p>\n\n\n\n<p><a>European Social Survey. (2025). <em>ESS Methodology: Data Processing and Archiving \u2013 Weighting<\/em>. <\/a><a href=\"https:\/\/www.europeansocialsurvey.org\/methodology\/ess-methodology\/data-processing-and-archiving\/weighting\">https:\/\/www.europeansocialsurvey.org\/methodology\/ess-methodology\/data-processing-and-archiving\/weighting<\/a>.<\/p>\n\n\n\n<p><a>Freedman Ellis, G., &amp; Schneider, B. (2024). <em>srvyr: \u2019dplyr\u2019-Like Syntax for Summary Statistics of Survey Data<\/em>. <\/a><a href=\"http:\/\/gdfe.co\/srvyr\/\">http:\/\/gdfe.co\/srvyr\/<\/a><\/p>\n\n\n\n<p>Fuchs, M. (2008). Total Survey Error (TSE). P. J. Lavrakas (Toim), <em>Encyclopedia of Survey Research Methods<\/em> (lk 897\u2013902). Sage Publications. <a href=\"https:\/\/doi.org\/10.4135\/9781412963947.n585\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/doi.org\/10.4135\/9781412963947.n585<\/a><\/p>\n\n\n\n<p><a>Lohr, S. L. (2019). <em>Sampling: design and analysis<\/em>. Chapman; Hall\/CRC.<\/a><\/p>\n\n\n\n<p><a>Lumley, T. (2010). <em>Complex Surveys: A Guide to Analysis Using R: A Guide to Analysis Using R<\/em>. John Wiley; Sons.<\/a><\/p>\n\n\n\n<p><a>Lumley, T. (2021). <em>Using post-stratification weights in R survey package<\/em>. Cross Validated. <\/a><a href=\"https:\/\/stats.stackexchange.com\/q\/540570\">https:\/\/stats.stackexchange.com\/q\/540570<\/a><\/p>\n\n\n\n<p><a>Lumley, T. (2024). <em>survey: analysis of complex survey samples<\/em>.<\/a><\/p>\n\n\n\n<p>R Core Team (2024). <em>R: A Language and Environment for Statistical Computing.<\/em> R Foundation for Statistical Computing, Vienna, Austria. https:\/\/www.R-project.org\/.<\/p>\n\n\n\n<p>Wickham et al., (2019). Welcome to the tidyverse. <em>Journal of Open Source Software<\/em>, 4(43), 1686, https:\/\/doi.org\/10.21105\/joss.01686<\/p>\n\n\n\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Indrek Soidla2025 Peat\u00fcki aluseks olev repositoorium koos t\u00e4ieliku R-i koodi ja andmetega on leitav siit. Andmete kaalumise olemus ja eesm\u00e4rk Mida kujutab endast k\u00fcsitlusandmete kaalumine? K\u00f5ige \u00fcldisemalt v\u00f5iks \u00f6elda, et tegu on protseduuriga, millega korrigeeritakse uuritava kogumi iga \u00fcksikliikme m\u00f5jukust &#8230;<\/p>\n","protected":false},"author":45,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"class_list":["post-1094","page","type-page","status-publish","hentry"],"acf":[],"_links":{"self":[{"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/pages\/1094","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/users\/45"}],"replies":[{"embeddable":true,"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/comments?post=1094"}],"version-history":[{"count":30,"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/pages\/1094\/revisions"}],"predecessor-version":[{"id":1788,"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/pages\/1094\/revisions\/1788"}],"wp:attachment":[{"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/media?parent=1094"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}