{"id":47,"date":"2024-04-04T00:12:03","date_gmt":"2024-04-03T21:12:03","guid":{"rendered":"https:\/\/sisu.ut.ee\/samm\/regressioonanalyys\/"},"modified":"2025-09-18T14:55:33","modified_gmt":"2025-09-18T11:55:33","slug":"regressioonanalyys","status":"publish","type":"page","link":"https:\/\/sisu.ut.ee\/samm\/regressioonanalyys\/","title":{"rendered":"Regressioonimudelid"},"content":{"rendered":"<p style=\"text-align: right;\"><span style=\"font-size: medium;\"><strong>Liina-Mai Tooding<\/strong><\/span><br>\n<span style=\"font-size: medium;\"><strong>2014<\/strong><\/span><\/p>\n<p>Regressioonanal\u00fc\u00fcs on t\u00e4nap\u00e4evase andmeanal\u00fc\u00fcsi v\u00e4ltimatu osa. Selle meetodi poole p\u00f6\u00f6rdub uurija siis, kui on vaja vaadelda mitut tunnust korraga ja arvestada j\u00e4reldustes nende omavahelisi seoseid. Ajalooliselt on areng kulgenud \u00fcksikute mudelit\u00fc\u00fcpide l\u00e4henemise poole ja j\u00f5udnud praeguseks praktiliselt \u00fche \u00fcldise lineaarse regressioonimudeli algoritmini, milles erijuhtudena on realiseeritud suur mitmepalgeliste regressioonimudelite varu. Areng \u00fcldisuse suunas t\u00e4hendab matemaatiliselt keerukamaid arendusi, aga \u00fchtlasi liikumist suurema andmete kohta k\u00e4ivate eelduste vabaduse poole.<\/p>\n<p>Kui klassikaline lineaarne regressioonimudel eeldas normaaljaotuse t\u00fc\u00fcpi juhuslikkust andmeis, siis t\u00e4nap\u00e4evased \u00fcldistatud lineaarsed mudelid on rakendatavad v\u00e4ga avara t\u00f5en\u00e4osusjaotuste \u2013 eksponentsiaalsete jaotuste \u2013 pere korral. \u00dchine on \u00fcldskeem: s\u00f5ltuva tunnuse <em>Y<\/em> variatiivsus avaldub mudeli<\/p>\n<p style=\"text-align: center;\"><em>\u00dd\u00a0= b<sub>0<\/sub> + b<sub>1<\/sub>X<sub>1<\/sub> + b<sub>2<\/sub>X<sub>2<\/sub> + \u2026 + b<sub>m<\/sub>X<sub>m<\/sub><\/em><\/p>\n<p>kohaselt keskmiselt \u00f5igesti teatud seletavate tunnuste <em>X<sub>1<\/sub> , X<sub>2<\/sub>,\u2026 X<sub>m <\/sub><\/em>kaudu. Konkreetse indiviidi korral rakendatuna lisandub sellele avaldisele individuaalne viga (j\u00e4\u00e4k). J\u00e4\u00e4kide kaudu m\u00e4\u00e4rataksegi mudeli t\u00f5en\u00e4osuslik iseloom, p\u00fcstitades selle jaotuse kohta eeltingimusi. Terminoloogiliselt: s\u00f5ltuv tunnus ja funktsioontunnus on s\u00fcnon\u00fc\u00fcmid, nagu ka seletav tunnus, s\u00f5ltumatu tunnus, prediktor, argument ja argumenttunnus.<\/p>\n<p>T\u00e4htis on silmas pidada, et s\u00f5ltuvate ja seletavate tunnuste valiku aluseks on aineteoreetiline kontseptsioon, uurija loominguline m\u00f5te. Tehnilised kitsendused, millele osutame, on seejuures \u00fcksnes abiks. Mitte \u00fckski regressioonimudel ei tohiks tekkida ainult andmetele tuginedes, eelneva erialase m\u00f5tteta. Lisame sissejuhatuseks praktikas sagedamini kasutatavate regressioonimudelite teatava kokkuleppelise liigituse (vt <a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"tabel 1\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Tabel 1.&lt;\/strong&gt; Praktikas sagedamini kasutatavate regressioonimudelite liigitus&lt;\/p&gt;\n&lt;p&gt;Allj\u00e4rgnevat liigitust tuleks k\u00e4sitleda loovalt, mitte retseptina. Aluseks on v\u00f5etud uuritavate &lt;a href=\"https:\/\/sisu.ut.ee\/samm\/tunnused-ja-nende-tyybid\" target=\"_blank\" rel=\"noopener\"&gt;tunnuste &lt;\/a&gt;skaalat\u00fc\u00fcp, mis on suures osas ka subjektiivne, loominguline valik. Samuti on loominguline tunnuste rollivalik: mis v\u00f5tta s\u00f5ltuvaks tunnuseks ja mis seletavateks tunnusteks.&lt;\/p&gt;\n&lt;p&gt;&lt;img class=\"alignnone wp-image-420\" title=\"tt1.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/tt1.png\" alt=\"tt1.png\" \/&gt;&lt;\/p&gt;\n&lt;p&gt;'>tabel 1<\/a>).<\/p>\n<p>K\u00e4esolevas peat\u00fckis k\u00e4sitleme regressioonimudelite praktika k\u00f5ige sagedasemat erijuhtu \u2014 mitmest lineaarset regressioonimudelit. Eeldatakse, et lugeja on tuttav andmeanal\u00fc\u00fcsi p\u00f5him\u00f5istetega, sest oma uurimist\u00f6\u00f6s regressioonimudelite kasutamiseni j\u00f5udes nii see enamasti on.<\/p>\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-6a65946393417-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-6a65946393417-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-6a65946393417-collapse\">Klassikaline paarisregressiooni mudel<\/button>\n        <\/h2>\n        <div id=\"accordion-6a65946393417-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-6a65946393417-heading\">\n            <div class=\"accordion-body pt-0\">\n<p>Regressioonanal\u00fc\u00fcsi p\u00f5hiideid on mugav enesele selgeks teha paarisregressiooni juhul, mil vaatluse all on \u00fcks s\u00f5ltuv ja \u00fcks seletav tunnus (nt inimese kaalu \u201eseletamine\u201c pikkuse alusel). Regressioonanal\u00fc\u00fcs l\u00e4htub seosest s\u00f5ltuva ja seletava tunnuse vahel. Kahe arvulise tunnuse vahel kasutame selle iseloomustamiseks enamasti Pearsoni korrelatsioonikordajat ja teame, et korrelatsioonikordaja m\u00f5\u00f5dab l\u00e4hedusastet sirgjoonelisele <a href=\"https:\/\/sisu.ut.ee\/samm\/seoste-analyysimine\" target=\"_blank\" rel=\"noopener\">(lineaarsele) seosele<\/a>. Kuidas leida seda sirget? Otsitakse parimat lineaarset v\u00f5rrandit s\u00f5ltuva tunnuse <em>Y<\/em> ligikaudseks esituseks s\u00f5ltumatu tunnuse ehk argumenttunnuse <em>X<\/em> kaudu j\u00e4rgmise skeemi kohaselt:<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" width=\"132\" height=\"40\" class=\"wp-image-417 aligncenter\" title=\"regressioon0.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/regressioon0.png\" alt=\"regressioon0.png\"><\/p>\n<p>kus on prognostiline ehk mudelip\u00e4rane s\u00f5ltuva tunnuse v\u00e4\u00e4rtus ning regressioonikordaja <em>b<\/em> (ingl <em>regression coefficient<\/em>) ja vabaliige <em>a<\/em> (konstant, ingl <em>intercept<\/em>) m\u00e4\u00e4ratakse andmete p\u00f5hjal teataval parimal viisil. Indiviidi <em>i, i = <\/em>1, 2, \u2026, <em>N<\/em> korral t\u00e4hendab see mudel seost:<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" width=\"164\" height=\"34\" class=\"wp-image-415 aligncenter\" title=\"regressioon2.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/regressioon2.png\" alt=\"regressioon2.png\"><\/p>\n<p>kus <em>e<sub>i<\/sub><\/em> on mudeli viga ehk prognoosij\u00e4\u00e4k, mis eeldatakse keskmiselt v\u00f5rduvat nulliga (mudel on keskmiselt \u00f5ige), ning<em> X<sub>i<\/sub><\/em> ja <em>Y<sub>i<\/sub><\/em> on vastavalt s\u00f5ltuva ja seletava tunnuse v\u00e4\u00e4rtused selle indiviidi korral. Prognoositakse keskmiselt, statistilise suundumusena, keskeltl\u00e4bi. Vea kohta tehakse hilisemate statistiliste otsustuste saamiseks teatud eeldusi: normaaljaotuse n\u00f5ue, vea dispersiooni \u00fchetaolisuse n\u00f5ue. T\u00e4nap\u00e4evaste \u00fcldistatud lineaarsete mudelite korral on neid n\u00f5udeid ka oluliselt leevendatud.<\/p>\n<p>Kordajate <em>a<\/em> ja <em>b<\/em> leidmine v\u00e4himruutude meetodil (ingl <em>least squares<\/em>) on \u00fcks sageli kasutatavaid v\u00f5imalusi \u201eparima\u201c mudelini j\u00f5udmiseks. Kordajad <em>a<\/em> ja <em>b<\/em> leitakse nii, et s\u00f5ltuva tunnuse mudelip\u00e4rase v\u00e4\u00e4rtuse h\u00e4lbed tegelikust v\u00e4\u00e4rtusest ehk vead oleksid summaarselt minimaalsed:<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" width=\"218\" height=\"50\" class=\"wp-image-416 aligncenter\" title=\"regressioon3.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/regressioon3.png\" alt=\"regressioon3.png\"><\/p>\n<p>Arusaadavalt ei saa k\u00f5igi indiviidide vigu korraga minimeerida, sest regressiooniprognoos on n-\u00f6 kirik keset k\u00fcla ehk k\u00f5igile korraga parim v\u00f5imalik lahend, aga v\u00f5ib-olla mitte kellelegi eraldi parim. Tulemuseks on kordajate j\u00e4rgmised arvutusvalemid:<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" width=\"232\" height=\"63\" class=\"wp-image-418 aligncenter\" title=\"regressioon4.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/regressioon4.png\" alt=\"regressioon4.png\"><\/p>\n<p>kus <em>m<sub>X<\/sub><\/em> ja <em>m<sub>Y<\/sub><\/em> on vastavalt tunnuste <em>X<\/em> ja <em>Y<\/em> keskmised ning <em>s<sub>X<\/sub><\/em> ja <em>s<sub>Y<\/sub><\/em> standardh\u00e4lbed.<\/p>\n<p><a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"Joonisel 1\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;img class=\"alignnone wp-image-421\" title=\"jj1.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/jj1.png\" alt=\"jj1.png\" \/&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Joonis 1&lt;\/strong&gt;. Erisuguse tugevusega korrelatsioonseosele vastavad regressioonisirged&lt;\/p&gt;\n&lt;p&gt;'>Joonisel 1<\/a>\u00a0on toodud n\u00e4iteid erisugustest s\u00f5ltuvustest <a href=\"https:\/\/sisu.ut.ee\/samm\/seoste-analyysimine\" target=\"_blank\" rel=\"noopener\">hajuvusdiagrammina<\/a> ja kujutatud ka parim s\u00f5ltuvusjoon sirge kujul ning esitatud \u00e4sjaste valemite abil saadud regressioonimudelid (sirge v\u00f5rrandid). \u00dclemise rea skeemid vastavad positiivsele korrelatsioonile tunnuste vahel (s\u00f5ltuvusjoon n\u00e4itab trendi \u201ealt vasakult paremale \u00fcles\u201c) ja alumised negatiivsele (trend \u201evasakult \u00fclevalt paremale alla\u201c). Seose tugevus skeemidel v\u00e4heneb vasakult paremale. Osutatud on ka vastava korrelatsioonikordaja ruut, mis n\u00e4itab, kui suure osa \u00fche tunnuse muutlikkusest kirjeldab teine (vasakpoolseim skeem vastab perfektsele kirjeldusele).<\/p>\n<p>Regressioonikordaja ja vabaliikme lihtsatest valemitest saame teha m\u00f5ned p\u00f5him\u00f5ttelised j\u00e4reldused regressioonimudeli kohta. Kui tunnused on \u00fchesuguse standardh\u00e4lbega, siis regressioonikordaja v\u00f5rdub korrelatsioonikordajaga, mis t\u00e4hendab, et korrelatsioonikordaja on v\u00f5tmesuurus regressioonimudeli leidmisel. N\u00e4eme ka, et regressiooniv\u00f5rrand ei ole \u00fcldjuhul \u201ep\u00f6\u00f6ratav\u201c ja tunnuse <em>X<\/em> avaldamiseks tunnuse <em>Y<\/em> kaudu tuleks v\u00f5rrand koostada uuesti analoogiliselt \u00e4sjavaadelduga. Regressioonikordajate v\u00f5imalik erinevus kahes eri suunas leitud mudeleis tuleneb tunnuste <em>X<\/em> ja <em>Y<\/em> suurusj\u00e4rkude erinevustest.<\/p>\n<p>N\u00e4ide. Kaalu s\u00f5ltuvus pikkusest Eesti sotsiaaluuringu 2007 andmeil, 5378 mehe ja 5444 naise andmed (vt <a href=\"http:\/\/www.stat.ee\/77004\">http:\/\/www.stat.ee\/77004<\/a>).<\/p>\n<p>Leiame regressioonikordajad eeltoodud valemite alusel.<\/p>\n<p>Alusandmed meeste puhul (hajuvusdiagramm <a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"joonisel 2\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;img class=\"alignnone wp-image-422\" title=\"jj2.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/jj2.png\" alt=\"jj2.png\" \/&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Joonis 2&lt;\/strong&gt;. Eesti meeste pikkuse ja kaalu hajuvusdiagramm. &lt;em&gt;Allikas: Eesti sotsiaaluuring 2007&lt;\/em&gt;'>joonisel 2<\/a>):<\/p>\n<p>korrelatsioonikordaja <em>r<\/em> = 0,373,<br>\npikkuse keskmine ja standardh\u00e4lve: <em>m<sub>X<\/sub><\/em> = 178,2 cm, <em>s<sub>Y<\/sub><\/em> = 7,3 cm,<br>\nkaalu keskmine ja standardh\u00e4lve: <em>m<sub>Y<\/sub><\/em> = 81,3 kg,<em> s<sub>Y<\/sub><\/em> = 14,2 kg,<br>\nregressioonikordaja: <em>b<\/em> = 0,373 \u2219 (14,2:7,3) = 0,73,<br>\nvabaliige: <em>a<\/em> = 81,3 \u2013 0,73 \u2219 178,2 = 48,8.<\/p>\n<p>Kaal pikkuse kaudu avaldub statistiliselt regressiooniv\u00f5rrandiga:<br>\n<em>Kaal <\/em>= 0,73 <em>Pikkus<\/em> \u2013 49.<br>\nKui <em>X <\/em>= 178,2, siis keskmiselt <em>Y <\/em>= 0,73 \u2219 178,2 \u2013 48,8 = 81,3 = <em>m<sub>Y<\/sub><\/em>. N\u00e4eme, et mudel on keskmiselt t\u00e4pne, nagu peabki olema.<br>\nKui n\u00e4iteks <em>X<\/em> = 150 cm, siis <em>Y<\/em> prognoos on 0,73 \u2219 150 \u2013 49 = 60,5 kg.<br>\nKui n\u00e4iteks <em>X<\/em> = 190 cm, siis <em>Y<\/em> prognoos on 0,73 \u2219 190 \u2013 49 = 89,7 kg.<br>\nNB! Ettevaatust prognoosimisega! Mudel on empiiriline ja n\u00e4itab seadusp\u00e4ra tunnuste vahel \u00fcksnes andmeile vastavas skaalaosas. Prognoosimine sellest kaugele v\u00e4ljapoole (ekstrapoleerimine) v\u00f5ib anda vale tulemuse.<\/p>\n<p>Alusandmed naiste puhul:<br>\nkorrelatsioonikordaja <em>r<\/em> = 0,169,<br>\npikkuse keskmine ja standardh\u00e4lve: <em>m<sub>X<\/sub><\/em> = 164,8 cm, <em>s<sub>Y<\/sub><\/em> = 6,3 cm,<br>\nkaalu keskmine ja standardh\u00e4lve: <em>m<sub>Y<\/sub><\/em> = 68,9 kg,<em> s<sub>Y<\/sub><\/em> = 14,2<\/p>\n<p>Mudel naiste kaalu prognoosimiseks tuleb (arvutage ka ise):<br>\n<em>Kaal <\/em>= 0,38 <em>\u2219<\/em> <em>Pikkus<\/em> + 6,3.<\/p>\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-6a65946393424-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-6a65946393424-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-6a65946393424-collapse\">Regressioonikordajate t\u00e4hendus<\/button>\n        <\/h2>\n        <div id=\"accordion-6a65946393424-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-6a65946393424-heading\">\n            <div class=\"accordion-body pt-0\">\n<p>Millise sisu saab anda regressioonikordajale ja vabaliikmele? Regressioonikordaja <em>b<\/em> n\u00e4itab s\u00f5ltuva tunnuse muudu suurust keskmiselt, kui argument muutub \u00fchiku v\u00f5rra. T\u00f5epoolest, s\u00f5ltuva tunnuse muut argumendi muutumisel \u00fchiku v\u00f5rra on:<\/p>\n<p style=\"text-align: center;\">(<em>X<\/em>+1) \u2013 <em>Y<\/em>(<em>X<\/em>) = [<em>a<\/em> + <em>b<\/em> (<em>X<\/em> + 1)] \u2013 (<em>a <\/em>+ <em>b X<\/em>) = <em>b<\/em>.<\/p>\n<p>Meie n\u00e4ites t\u00e4hendab \u00fche sentimeetri suurune erinevus naiste puhul keskmiselt 0,4 kilo suurust vahet kaalus ja meeste puhul keskmiselt 0,7 kilo suurust vahet. Regressioonikordaja m\u00e4rk n\u00e4itab muudu suunda: plussm\u00e4rk s\u00f5ltuva tunnuse kasvu ja miinusm\u00e4rk kahanemist s\u00f5ltumatu muutuja kasvades. Kui regressioonikordaja on null, siis argumenttunnusel lineaarse mudeli alusel m\u00f5ju s\u00f5ltuvale tunnusele puudub. Kui korrelatsioonseos puudub, siis tuleb regressioonikordaja null.<\/p>\n<p>Vabaliige <em>a<\/em> v\u00f5rdub s\u00f5ltuva tunnuse mudelip\u00e4rase v\u00e4\u00e4rtusega, kui argument v\u00f5rdub nulliga. Geomeetriliselt (meenutage g\u00fcmnaasiumist sirge v\u00f5rrandit) see on l\u00f5ik p\u00fcstteljel nullpunktist regressioonisirge l\u00f5ikepunktini p\u00fcstteljega, kui seletav tunnus v\u00f5rdub nulliga. Meie n\u00e4ites <a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"joonisel 2\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;img class=\"alignnone wp-image-423\" title=\"jj2.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/jj2-1.png\" alt=\"jj2.png\" \/&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Joonis 2&lt;\/strong&gt;. Eesti meeste pikkuse ja kaalu hajuvusdiagramm. &lt;em&gt;Allikas: Eesti sotsiaaluuring 2007&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;'>joonisel 2<\/a> on l\u00f5ikepunktiks 49 kg. Vabaliige ei ole sisuliselt t\u00f5lgendatav, kui argumendi v\u00e4\u00e4rtuste seas ei ole nullv\u00e4\u00e4rtust (meie pikkuse-kaalu n\u00e4ide on just s\u00e4\u00e4rane ja vabaliige kujutab endast lihtsalt teatavat v\u00f5rrandi pooli tasakaalustavat tegurit). Vabaliikme t\u00f5lgenduse saavutamiseks andmed sageli eelnevalt tsentreeritakse (igast v\u00e4\u00e4rtusest lahutatakse maha kogumi keskmine).<\/p>\n<p>Kui mudel on koostatud valimi alusel (meie n\u00e4ites 11 000 juhuslikult valitud inimest \u2014 tavatult suur hulk, kuid siiski osa tervikust), siis tekib k\u00fcsimus, kuiv\u00f5rd usaldusv\u00e4\u00e4rselt saab kinnitada regressiooniseose kehtivust populatsioonil. Kas populatsioonil v\u00f5iks regressioonikordaja olla ka 0 ja seletava tunnuse ehk pikkuse muut ei tooks keskmiselt kaasa s\u00f5ltuva tunnuse ehk kaalu muutust leitud seadusp\u00e4ra kohaselt?<\/p>\n<p>\u00dcks v\u00f5imalusi regressioonikordaja statistilise usaldusv\u00e4\u00e4rsuse kontrolliks on vaadelda regressioonikordaja usaldusvahemikku. Kui regressioonikordaja <a href=\"https:\/\/sisu.ut.ee\/samm\/usaldusvahemik\" target=\"_blank\" rel=\"noopener\">usaldusvahemik <\/a>ei kata v\u00e4\u00e4rtust null, siis v\u00f5ime kasutatava usaldusnivoo kohaselt k\u00e4sitleda seletava tunnuse m\u00f5ju statistiliselt usaldusv\u00e4\u00e4rsena terve populatsiooni jaoks.<\/p>\n<p>Teine v\u00f5imalus on testida h\u00fcpoteesi \u201etunnuse regressioonikordaja populatsioonis v\u00f5rdub nulliga\u201c. Selle h\u00fcpoteesi kontrollimiseks kasutatakse ligikaudset tulemust, mille kohaselt kordaja nulliga v\u00f5rdumisel \u00fcldkogumis on kordaja ja selle standardh\u00e4lbe suhe ligikaudu normaaljaotusega (v\u00e4ikese valimi korral t-jaotusega). Kui see suhe on v\u00e4\u00e4rtuse poolest vastuolus normaal- v\u00f5i t-jaotusega, siis tuleb h\u00fcpotees kummutada ja kordaja lugeda nullist erinevaks.<\/p>\n<p>Regressioonimudeli statistilise usaldusv\u00e4\u00e4rsuse kontrollimiseks toetub tavauurija enamasti arvutist saadud tulemustele, mist\u00f5ttu pikkuse-kaalu n\u00e4itega isetehtud arvutuste varal me edasi ei l\u00e4he ja vaatleme seda k\u00fcsimust uuesti peat\u00fcki l\u00f5pun\u00e4ites.<\/p>\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-6a65946393431-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-6a65946393431-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-6a65946393431-collapse\">Kuidas hinnata saadud mudeli kvaliteeti? <\/button>\n        <\/h2>\n        <div id=\"accordion-6a65946393431-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-6a65946393431-heading\">\n            <div class=\"accordion-body pt-0\">\n<p>Mudeli sobivuse ja t\u00e4htsuse hindamisel on vaja arvesse v\u00f5tta mitut k\u00fclge ning eelk\u00f5ige silmas pidada, milleks mudel on koostatud. Kui oluline on prognoosi t\u00e4psus, siis tahaksime, et vead oleksid v\u00f5imalikult v\u00e4ikesed. Kui huvi on \u00fcldise m\u00f5ju laadi vastu, siis v\u00f5ime statistilises usaldusv\u00e4\u00e4rsuses j\u00e4rele anda jne. Seep\u00e4rast on t\u00e4htis mudeli formaalsete statistiliste parameetrite puhul enesele selgeks teha, mis k\u00fclge \u00fcks v\u00f5i teine neist peegeldab. K\u00f5ik mudeli kvaliteedi n\u00e4itajad on harva korraga head. Veel on t\u00e4htis aru saada, et mudeli p\u00f5hilisim omadus on t\u00f5lgendatavus. Kui formaalsed parameetrid on suurep\u00e4rased, aga meil ei \u00f5nnestu anda regressioonikordajatele m\u00f5tet ei teoreetilise mudeli ega ka terve m\u00f5istuse abil, siis on meil mudelina saadud ainult teatav statistiline konstrukt, ei muud.<\/p>\n<p>Regressioonikordajate (ja tervikmudeli) statistiline usaldusv\u00e4\u00e4rsus tuleb, nagu lubatud, veel kord k\u00f5neks allpool. Nagu \u00fcldiseltki statistilise j\u00e4relduse puhul, on ka regressioonimudeli puhul oluline eristada statistilist usaldusv\u00e4\u00e4rsust ja sisulist kaalu.<\/p>\n<p>Regressioonimudel luuakse selleks, et taandada s\u00f5ltuva tunnuse muutlikkus seletava tunnuse muutlikkuseks, v\u00e4ljendada \u00fcht dispersiooni teise kaudu. Mudeli kvaliteedi oluline m\u00f5\u00f5t on see, kui suure osa s\u00f5ltuva tunnuse dispersioonist saame seletada teise v\u00f5i teiste tunnuste kaudu. Teame, et korrelatsioonikordaja ruudus ehk determinatsioonikordaja v\u00e4ljendab seda, kui suure osa dispersioonist kirjeldavad tunnused vastastikku. Determinatsioonikordajat <em>R<\/em><sup>2 <\/sup>saab esitada veel teisiti (sobib ka meie k\u00e4sitluse hilisemaks juhuks, mil seletavaid tunnuseid tuleb mudelisse sisse mitu), nimelt kui regressioonisirgega \u201eseletatud\u201c dispersiooniosa suhet s\u00f5ltuva tunnuse kogudispersiooni:<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" width=\"181\" height=\"131\" class=\"wp-image-419 aligncenter\" title=\"mudel.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/mudel.png\" alt=\"mudel.png\"><\/p>\n<p>Selles avaldises (meenutage t\u00e4histusi eestpoolt, vt p<span style=\"background-color: #ffffff;\">aarisregressiooni mudel<\/span>) on murru lugejas kesksel kohal vahed , mis v\u00e4ljendavad seda, kui palju erineb mudelip\u00e4rane individuaalne prognoos s\u00f5ltuva tunnuse keskmisest. Seega n\u00e4itab vahe, kui palju \u201eseletas\u201c argumenttunnus t\u00e4iendavalt s\u00f5ltuva tunnuse variatiivsust ja parandas keskmist kui iga indiviidi jaoks k\u00f5ige lakoonilisemat prognoosi. Kui me ei tea indiviidist mitte midagi, siis parema puudumisel omistame talle t\u00f5epoolest s\u00f5ltuva tunnuse keskmise taseme. Kui aga teame lisaks m\u00f5nd t\u00e4iendavat tunnust, siis v\u00f5ime saada parema prognoosi. Kui palju parema, seda n\u00e4itabki k\u00f5nealune vahe. Determinatsioonikordaja on suhteline m\u00f5\u00f5t ja suhestab k\u00f5igi indiviidide poolt kokku \u201eseletatud\u201c variatiivsuse m\u00e4\u00e4ra s\u00f5ltuva tunnuse dispersiooniga (murru nimetajas olev ruutude summa). Miks ruudud? Meid ei huvita, kas vahed on pluss- v\u00f5i miinusm\u00e4rgiga, meid huvitab, kui tugev on k\u00f5rvalekalle keskmisest.<\/p>\n<p>Meie pikkuse-kaalu n\u00e4ites tuleb naiste puhul determinatsioonikordaja 3% ja meestel 14%. Mida sellest arvata, kuidas sisuliselt m\u00f5ista kirjeldusm\u00e4\u00e4ra?\u00a0<a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"Joonisel 3\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;img class=\"alignnone wp-image-424\" title=\"jj3.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/jj3.png\" alt=\"jj3.png\" \/&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Joonis 3&lt;\/strong&gt;. Meeste kaaluprognooside ja tegeliku kaalu jaotus. &lt;em&gt;Allikas: Eesti sotsiaaluuring 2007&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;T\u00f5lge: &lt;em&gt;mean&lt;\/em&gt; \u2013 keskmine, &lt;em&gt;std. dev \u2013 standard deviation&lt;\/em&gt; \u2013 standardh\u00e4lve, &lt;em&gt;frequency&lt;\/em&gt; \u2013 sagedus, &lt;em&gt;unstandardized predicted values&lt;\/em&gt; \u2013 standardiseerimata prognoosid'>Joonisel 3<\/a> on kujutatud vasakul mudelip\u00e4raste kaaluprognooside jaotust ja paremal tegelikku jaotust. Keskmine on m\u00f5lemal muutujal sama, aga standardh\u00e4lbed ehk hajuvuse m\u00e4\u00e4rad erinevad. Prognooside standardh\u00e4lve on peaaegu kolm korda v\u00e4iksem kui kaalutunnusel tegelikult, vastavalt 5,3 kg ja 14,1 kg. See ongi ainult 14% suuruse ehk mittet\u00e4ieliku kirjeldusm\u00e4\u00e4ra m\u00f5te \u2013 mudel ei suuda peegeldada s\u00f5ltuva tunnuse variatiivsust t\u00e4iel m\u00e4\u00e4ral ja n\u00e4idata mehi kaalu poolest sellise erip\u00e4raga, nagu nad on tegelikult. Naiste puhul on pilt veel teravam (vt <a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"joonis 4\" data-content='&lt;img class=\"alignnone wp-image-433\" title=\"joonis4.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/joonis4-1.png\" alt=\"joonis4.png\" \/&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Joonis 4&lt;\/strong&gt;. Naiste kaaluprognooside ja tegeliku kaalu jaotus. &lt;em&gt;Allikas: Eesti sotsiaaluuring 2007&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;T\u00f5lge: &lt;em&gt;mean&lt;\/em&gt; \u2013 keskmine; &lt;em&gt;std. dev \u2013 standard deviation&lt;\/em&gt; \u2013 standardh\u00e4lve; &lt;em&gt;frequency&lt;\/em&gt; \u2013 sagedus; &lt;em&gt;unstandardized predicted values&lt;\/em&gt; \u2013 standardiseerimata prognoosid.'>joonis 4<\/a>). Kui tegelikult varieerub naiste kaal silma j\u00e4rgi 40 ja 120 kilo vahel (standardh\u00e4lve 14,2 kg), siis 3% suuruse kirjeldusastmega mudel paigutab enamiku naistest 65 ja 75 kilo vahele (standardh\u00e4lve 2,4 kg).<\/p>\n<p>Regressioonimudeli kvaliteedi anal\u00fc\u00fcsimisel on olulisel kohal vead ehk prognoosij\u00e4\u00e4gid: funktsioontunnuse tegelik v\u00e4\u00e4rtus miinus mudelip\u00e4rane prognoos. J\u00e4\u00e4kide keskmine on null ja mida v\u00e4iksem on j\u00e4\u00e4kide standardh\u00e4lve, seda parem, seda v\u00e4hem erinevad j\u00e4\u00e4gid nullist ehk seda t\u00e4psem on prognoos. J\u00e4\u00e4gi m\u00e4rk miinus n\u00e4itab, et tegemist on \u00fclehindamisega (indiviidile prognoositakse suurem v\u00e4\u00e4rtus, kui on tegelikult), ja pluss viitab alahindamisele (prognoos on v\u00e4iksem kui v\u00e4\u00e4rtus tegelikult). Eriti t\u00e4htis on vaadelda suuri j\u00e4\u00e4ke, mis v\u00f5ivad anda teada kas vigadest andmeis (saime m\u00f5ttetult ebat\u00fc\u00fcpilise prognoosi) v\u00f5i ise\u00e4rastest indiviididest ehk erinditest (leidsime uunikumi). Regressioonimudelite korral segavad teistest tugevalt v\u00e4ljaulatuvad v\u00e4\u00e4rtused \u00fcldise keskmise trendi esiletoomist ja seet\u00f5ttu j\u00e4etakse nad mudelist tavaliselt k\u00f5rvale. Ettevaatust \u2013 mudelist k\u00f5rvalej\u00e4tmine ei muuda neid olematuks ja erindid v\u00f5ivad anda v\u00e4ga t\u00e4htsat lisainfot \u00fcksikanal\u00fc\u00fcsil.<\/p>\n<p><a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"Tabelis 2\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Tabel 2&lt;\/strong&gt;. J\u00e4\u00e4kide anal\u00fc\u00fcs kaalu prognoosimisel. &lt;em&gt;Allikas: Eesti sotsiaaluuring 2007&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;img class=\"alignnone wp-image-425\" title=\"tt2.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/tt2.png\" alt=\"tt2.png\" \/&gt;&lt;\/p&gt;\n&lt;p&gt;T\u00f5lge: &lt;em&gt;residual statistics&lt;\/em&gt; \u2013 j\u00e4\u00e4kide statistika; &lt;em&gt;predicted value&lt;\/em&gt; \u2013 prognoos, prognoositud v\u00e4\u00e4rtus; &lt;em&gt;residual&lt;\/em&gt; \u2013 j\u00e4\u00e4k; &lt;em&gt;std. predicted value \u2013 standardized predicted value&lt;\/em&gt; \u2013 standardiseeritud prognoos; &lt;em&gt;std. residual \u2013 standardized residual&lt;\/em&gt; \u2013 standardiseeritud j\u00e4\u00e4k;&lt;\/p&gt;\n&lt;p&gt;&lt;em&gt;mean&lt;\/em&gt; \u2013 keskmine; &lt;em&gt;std. deviation&lt;\/em&gt; \u2013 &lt;em&gt;standard deviation&lt;\/em&gt; \u2013 standardh\u00e4lve; &lt;em&gt;dependent variable&lt;\/em&gt; \u2013 s\u00f5ltuv tunnus; &lt;em&gt;N&lt;\/em&gt; \u2013 indiviidide arvu t\u00e4his.'>Tabelis 2<\/a>\u00a0on esitatud meie n\u00e4ite puhul tavap\u00e4rane mudeli prognoosij\u00e4\u00e4kide statistika eraldi meeste ja naiste jaoks. Prognoosid on keskmiselt \u00f5iged ja nende standardh\u00e4lve v\u00e4iksem kui s\u00f5ltuval tunnusel tegelikult (meestel 5,3 kg 14,2 kg k\u00f5rval, naistel 2,4 kg 14,2 kg k\u00f5rval). Prognoosij\u00e4\u00e4gid v\u00f5rduvad keskmiselt nulliga. N\u00e4eme, et vigade standardh\u00e4lve on naistel pisut suurem kui meestel (vastavalt 14,0 kg ja 13,1 kg) ehk prognoosid on naistel pisut ebat\u00e4psemad kui meestel.<\/p>\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-6a6594639343d-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-6a6594639343d-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-6a6594639343d-collapse\">Mitmene lineaarne regressiooniv\u00f5rrand<\/button>\n        <\/h2>\n        <div id=\"accordion-6a6594639343d-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-6a6594639343d-heading\">\n            <div class=\"accordion-body pt-0\">Kaalu prognoosid eespool vaadeldud kujul oma madala kirjeldusastmega vaevalt et kedagi huvitaksid. Vaja oleks arvesse v\u00f5tta veel paljusid k\u00f5rvaltegureid: t\u00f6\u00f6 iseloom, toitumisharjumused, elulaad jne. Selline samm \u00fcldistuse poole on regressioonimudeli kasutaja jaoks \u00f5nneks lihtsam kui matemaatiku jaoks, kes vastavat mudelit v\u00e4lja arendab. Korrates paljuski \u00e4sjar\u00e4\u00e4gitut, esitame allj\u00e4rgnevalt paarisregressiooni mudeli \u00fcldistuse enam kui kahe seletava tunnuse juhule ehk mitmese regressioonimudeli juhule.\n<p>Uurigem s\u00f5ltumatute tunnuste <em>X<sub>1<\/sub> , X<sub>2<\/sub>,\u2026 X<sub>m<\/sub> <\/em>m\u00f5ju s\u00f5ltuva tunnuse <em>Y<\/em> variatiivsuse kujunemisel mudeli<\/p>\n<p style=\"text-align: center;\" align=\"center\"><em>\u00a0= b<sub>0<\/sub> + b<sub>1<\/sub>X<sub>1<\/sub> + b<sub>2<\/sub>X<sub>2<\/sub> + \u2026 + b<sub>m<\/sub>X<sub>m<\/sub><\/em><\/p>\n<p>kohaselt. Mudeli vead eeldatakse olevat keskmiselt v\u00f5rdsed nulliga, normaaljaotuse kohased ja \u00fchetaolise dispersiooniga.<\/p>\n<p>Kordajad <em>b<\/em><sub>0<\/sub> , <em>b<\/em><sub>1<\/sub>, <em>b<\/em><sub>2<\/sub> , \u2026, <em>b<sub>m<\/sub><\/em> leitakse teatud optimaalsuse n\u00f5udest l\u00e4htuvalt. N\u00e4iteks v\u00e4himruutude meetodi korral seatakse eesm\u00e4rgiks minimeerida prognoosij\u00e4\u00e4kide ruutude summa.<\/p>\n<p>Regressioonimudeli koostamise aluseks on endiselt idee seletada v\u00f5imalikult suurt osa s\u00f5ltuva tunnuse variatiivsusest s\u00f5ltumatute tunnuste kaudu. Kirjelduse m\u00f5\u00f5duks on analoogiliselt paarisregressiooni juhuga determinatsioonikordaja, mis m\u00f5\u00f5dab, kui suurt osa s\u00f5ltuva tunnuse variatiivsusest katavad regressiooniprognoosid. Ruutjuurt determinatsioonikordajast tuntakse kui mitmest korrelatsioonikordajat (ingl <em>multiple correlation coefficient<\/em>; paarisregressiooni juhul: korrelatsioonikordajat). Mitmene korrelatsioonikordaja s\u00f5ltuva tunnuse ja seletavate tunnuste vahel on sisuliselt paariskorrelatsioonikordaja s\u00f5ltuva tunnuse ja s\u00f5ltuva tunnuse prognoosidest moodustatud tunnuse vahel. T\u00f5epoolest, prognoosides kajastub seletavate tunnuste variatiivsus. Mida parema prognoosi mudel annab, seda tugevamalt on omavahel korreleeritud prognoos ja prognoositav.<\/p>\n<p>Regressioonikordaja formaalne t\u00f5lgendus on analoogiline paarisregressiooniga: regressioonikordaja n\u00e4itab s\u00f5ltuva tunnuse keskmist muutu kordajale vastava s\u00f5ltumatu tunnuse \u00fchikulise muudu korral, kui \u00fclej\u00e4\u00e4nud s\u00f5ltumatud muutujad on p\u00fcsiva v\u00e4\u00e4rtusega. Vabaliige n\u00e4itab keskmist prognoosiv\u00e4\u00e4rtust k\u00f5igi argumentide nullkohas.<\/p>\n<p>Mitmese regressioonimudeli korral tekib vajadus v\u00f5rrelda seletavaid tunnuseid m\u00f5ju tugevuse poolest. Regressioonikordajate alusel ei ole see v\u00f5imalik, sest tunnused on tavaliselt erisuguse skaalaga ja erisuguse variatiivsusega. Sellele vastavalt on ka regressioonikordajad \u201ekalibreeritud\u201c erisuguselt, et l\u00f5ppkokkuv\u00f5ttes tuleks v\u00e4lja s\u00f5ltuva tunnuse suurusj\u00e4rku v\u00e4\u00e4rtus. Et v\u00f5rrelda \u00fche mudeli (andmestiku) piires seletavate tunnuste toimet, arvutatakse tavaliselt ka nn beeta-kordajad ehk standardiseeritud regressioonikordajad. Need leitakse andmestikul, mis saadakse mudelis osalevate tunnuste eelneva standardiseerimise teel, ehk olukorras, kus k\u00f5ik tunnused on \u00fchetaolisel skaalal keskmisega 0 ja standardh\u00e4lbega 1, seega v\u00f5rreldavate regressioonikordajatega. Standardiseerimine t\u00e4hendab v\u00e4\u00e4rtuste tsentreerimist tunnuse keskmise suhtes selles kogumis ja tsentreeritud v\u00e4\u00e4rtuse v\u00e4ljendamist tunnuse standardh\u00e4lbe \u00fchikutes.<\/p>\n<p>Matemaatiliselt asendub regressioonikordajate leidmisel mitmese regressioonimudeli puhul korrelatsioonikordaja osakorrelatsioonikordajaga (ingl <em>partial correlation<\/em>), \u00f5igemini pseudo-osakorrelatsioonikordajaga (ingl <em>part correlation<\/em>), mis peegeldab tunnuse \u201epuhast\u201c m\u00f5ju s\u00f5ltuva tunnuse variatiivsuse kirjeldamisel, elimineerides selle m\u00f5ju osa, mis toimib teiste mudelisse v\u00f5etud tunnuste kaudu (Tooding 2007, p 6.2.2 v\u00f5i viide [Seoste anal\u00fc\u00fcsimine]). V\u00f5ime ette kujutada, et ka seletavate tunnuste eneste seas peitub teatud v\u00f5imalus \u00fche statistiliseks v\u00e4ljendamiseks teiste kaudu. Regressioonikordajana tahame n\u00e4ha siiski arvu, mis n\u00e4itab selle tunnuse eriomast m\u00f5ju s\u00f5ltuva tunnuse variatiivsuse kirjeldamisel. Et hinnata tunnuse \u201eisiklikku\u201c panust mudelis, tuuakse m\u00f5nikord esile tunnuste tolerantsikordajad. Tolerantsikordaja (ingl <em>tolerance<\/em>) m\u00f5\u00f5dab, kui suur on seletava tunnuse dispersioonis selle tunnuse poolt kirjeldatud, kuid \u00fclej\u00e4\u00e4nud tunnuste poolt kirjeldamata osa. Mida k\u00f5rgem on tolerants, seda paremini sobib tunnus mudelisse (nagu tolerantne inimenegi seltskonda). K\u00f5igi tunnuste k\u00f5rge tolerants on tunnusm\u00e4rk, et tunnuste vahel ei valitse multikollineaarsust ehk \u00fche tunnuse ilmekat avaldumist teiste lineaarkombinatsioonina (teiste kaalutud summana).<\/p>\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-6a65946393443-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-6a65946393443-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-6a65946393443-collapse\">Kategoriaalse tunnuse k\u00e4sitlus regressioonimudelis<\/button>\n        <\/h2>\n        <div id=\"accordion-6a65946393443-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-6a65946393443-heading\">\n            <div class=\"accordion-body pt-0\">\n<p>T\u00e4iesti loomulik on, et sisuliselt v\u00f5ib olla tarvis kaasata seletavate tunnustena ka mittearvulisi tunnuseid (nt kaalu puhul elulaad, elukoht, amet). Selleks on mitmeid skeeme, mida k\u00f5iki \u00fchendab \u00fcks idee: lisada mudelisse kategoriaalse tunnuse asemel teatud hulk abitunnuseid, mis annavad edasi kategoriaalse tunnuse kogu informatsiooni. Teiste s\u00f5nadega, kategoriaalne tunnus kodeeritakse teatud viisil \u00fcmber. Vaatleme nn indikaatorkodeerimist, mil tekitatakse kategooriate arvust \u00fche v\u00f5rra v\u00e4hem dihhotoomseid <a href=\"https:\/\/sisu.ut.ee\/samm\/tunnused-ja-nende-tyybid\" target=\"_blank\" rel=\"noopener\">tunnuseid <\/a>(ingl <em>dummy variables<\/em>).<\/p>\n<p>N\u00e4iteks saab elukohta Eesti viiest piirkonnast koosneval skaalal edasi anda nelja dihhotoomse indikaatortunnuse abi1, \u2026, abi4 kaudu, mis v\u00e4\u00e4rtustatakse j\u00e4rgmiselt:<\/p>\n<p>abi1\u00a0\u00a0\u00a0\u00a0 abi2\u00a0\u00a0\u00a0\u00a0 abi3\u00a0\u00a0\u00a0\u00a0 abi4<\/p>\n<p>P\u00f5hja-Eesti\u00a0\u00a0\u00a0\u00a0\u00a0 \u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 1\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0<br>\nL\u00e4\u00e4ne-Eesti\u00a0\u00a0\u00a0\u00a0 \u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 1\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0<br>\nKesk-Eesti\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 1\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0<br>\nKirde-Eesti\u00a0\u00a0\u00a0\u00a0\u00a0 \u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 1<br>\nL\u00f5una-Eesti\u00a0\u00a0\u00a0\u00a0 \u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 0<\/p>\n<p>Abitunnuseid v\u00f5ib olla t\u00f5epoolest \u00fche v\u00f5rra v\u00e4hem, sest \u00fche (praegusel juhul viimase) kategooria tunneme \u00e4ra sellest, et k\u00f5ik indikaatortunnused v\u00f5rduvad nulliga. See on nn taustakategooria (ingl <em>reference category<\/em>) ja selle valik on \u00fcldiselt vaba. Valik tehakse t\u00e4henduse j\u00e4rgi, piisavalt suure indiviidide arvuga esindatuse jm kaalutlustel. Mudeli koostamise j\u00e4rel saadakse iga kategooria jaoks teada oma regressioonikordaja, mis on siinkirjeldatud abitunnuste kordajad regressioonimudelis. Taustakategooria jaoks v\u00f5etakse regressioonikordaja v\u00f5rdseks nulliga. Teisiti \u00f6eldes, tegemist on tunnuse kategooriatele vastavate regressioonikordajatega taustakategooria suhtes. Just nimelt seda \u2013 teatavat suhtelist meetrikat \u2013 meil vaja ongi, sest kategoriaalsel tunnusel ei ole ei nullpunkti ega muud suuruse m\u00f5\u00f5dupuud.<\/p>\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-6a6594639345e-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-6a6594639345e-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-6a6594639345e-collapse\">Mitmese regressioonimudeli n\u00e4ide<\/button>\n        <\/h2>\n        <div id=\"accordion-6a6594639345e-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-6a6594639345e-heading\">\n            <div class=\"accordion-body pt-0\">\n<p>N\u00e4ide p\u00f5hineb Euroopa sotsiaaluuringu 2010. aasta andmetel Eesti, Soome ja Venemaa kohta. \u00dclesandeks on uurida sisser\u00e4nde m\u00f5ju \u00fcldistatud hinnangute olenevust vanusest, elukohamaast, oma maa parlamendi ja Europarlamendi usaldusastmest. Tunnuste t\u00e4henduse ja andmetega on v\u00f5imalik tutvuda aadressilt <a href=\"http:\/\/www.yti.ut.ee\/et\/euroopa-sotsiaaluuring\">http:\/\/www.yti.ut.ee\/et\/euroopa-sotsiaaluuring<\/a> l\u00e4htudes.<\/p>\n<p>Sisser\u00e4nde hinnang on saadud kolme hinnangutunnuse keskmisena (tunnus <em>Immigration<\/em>): immigrantide arvatav m\u00f5ju majanduselule, kultuurielule ja elule \u00fcldiselt m\u00f5\u00f5detuna skaalal 0 kuni 10. Mida suurem v\u00e4\u00e4rtus, seda positiivsem m\u00f5ju arvatakse olevat. Ka parlamentide usaldushinnanguid m\u00f5\u00f5deti analoogilisel skaalal nullist k\u00fcmneni ehk usalduse t\u00e4ielikust puudumisest kuni t\u00e4ieliku usalduseni. <a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"Tabelis 3\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Tabel 3&lt;\/strong&gt;. Kasutatavate tunnuste keskmised ja standardh\u00e4lbed. &lt;em&gt;Allikas: Euroopa sotsiaaluuring 2010, Eesti, Soome ja Venemaa&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;img class=\"alignnone wp-image-426\" title=\"ta3.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/ta3.png\" alt=\"ta3.png\" \/&gt;&lt;\/p&gt;\n&lt;p&gt;T\u00f5lge: &lt;em&gt;mean&lt;\/em&gt; \u2013 keskmine; &lt;em&gt;std. deviation&lt;\/em&gt; \u2013 &lt;em&gt;standard deviation&lt;\/em&gt; \u2013 standardh\u00e4lve; &lt;em&gt;N&lt;\/em&gt; \u2013 indiviidide arvu t\u00e4his.'>Tabelis 3<\/a> on esitatud k\u00f5igi tunnuste \u00fclevaade keskmiste ja standardh\u00e4lvete kaudu (v\u00e4ltimatu osa regressioonimudeli koostamisel) ja <a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"tabelis 4\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Tabel 4&lt;\/strong&gt;. Tunnustevaheline korrelatsioonseos. &lt;em&gt;Allikas: Euroopa sotsiaaluuring 2010, Eesti, Soome ja Venemaa&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;em&gt;&lt;img class=\"alignnone wp-image-432\" title=\"t44.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/t44.png\" alt=\"t44.png\" \/&gt;&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;T\u00f5lge: &lt;em&gt;Pearson correlation&lt;\/em&gt; \u2013 Pearsoni korrelatsioonikordaja; &lt;em&gt;sig. \u2013 significance &lt;\/em&gt;\u2013 olulisuse t\u00f5en\u00e4osus&lt;\/p&gt;\n&lt;p&gt;'>tabelis 4<\/a>tunnustevahelised korrelatsioonikordajad. Maa tunnust kaasates eeldame allj\u00e4rgnevas mudelis, et s\u00f5ltuva tunnuse keskmine v\u00f5ib olla eri maades erisugune, kuid seletavate tunnuste m\u00f5ju mehhanism mitte (leitakse \u00fcks \u00fchine regressioonikordaja kolme maa jaoks; mudeli edasiarendamise v\u00f5imalus oleks nt maa ja teiste tunnuste interaktsioonide kaasamine, mis t\u00e4hendaks ka selle v\u00f5imaluse lubamist, et m\u00f5ju mehhanism on eri maades erisugune, vt Tooding, p 6.4.2). Regressioonikordaja v\u00e4ljaarvutamisel peetakse matemaatilises algoritmis korraga silmas k\u00f5iki tunnuseid, mis on mudelisse v\u00f5etud.<\/p>\n<p>Eestist p\u00e4rit vastajaid on vaadeldavate tunnuste korral 1926, Soomest 2089 ja Venemaalt 1734. Kasutati loetelup\u00f5hist andmel\u00fcnkadega indiviidide k\u00f5rvalej\u00e4tmist. Arvutused on tehtud paketiga SPSS.<\/p>\n<p>Sisser\u00e4nde m\u00f5ju hinnang on keskmiselt 5 punkti ehk skaala f\u00fc\u00fcsilises keskpunktis<span style=\"background-color: #ffffff;\"> (vt tabel 2),<\/span> parlamentide hinnangud on sellest pisut allpool. Nagu n\u00e4eme sisser\u00e4nde koondhinnangu histogrammilt <a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"jooniselt 5\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;img class=\"alignnone wp-image-427\" title=\"jj5.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/jj5.png\" alt=\"jj5.png\" \/&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Joonis 5&lt;\/strong&gt;. Sisser\u00e4nde koondhinnangu histogramm kolme maa peale kokku. &lt;em&gt;Allikas: Euroopa sotsiaaluuring 2010, Eesti, Soome ja Venemaa&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;T\u00f5lge: &lt;em&gt;frequency &lt;\/em&gt;\u2013 sagedus.'>jooniselt 5<\/a>, on hinnangutes \u00fcsna ohtralt kasutatud mugavusvastust \u201e5\u201c. Teine oluline t\u00e4helepanek \u2013 m\u00e4rkame pooleteisesaja ringis absoluutseid nullhinnanguid k\u00f5igi kolme sisser\u00e4nde m\u00f5ju \u00fcksikhinnangu alusel ja ka need ei ole n\u00e4htavasti v\u00e4ga asjakohased andmed, vaid peegeldavad pigem \u00fcldist vastuseisu sisser\u00e4ndele.<\/p>\n<p>Sisser\u00e4nde koondhinnangu korrelatsioonseos parlamentide usaldushinnangutega on m\u00f5\u00f5dukalt positiivne (<span style=\"background-color: #ffffff;\">vt tabel 4)<\/span>, kuid korrelatsioonseos vanusega on v\u00e4ga n\u00f5rk (seejuures negatiivne ja statistiliselt usaldusv\u00e4\u00e4rne olulisuse t\u00f5en\u00e4osuse 11% korral, \u00fclej\u00e4\u00e4nud korrelatsioonikordajate statistiline usaldusv\u00e4\u00e4rsus on k\u00f5rgem). V\u00f5ib kahtlustada, et maid eraldi vaadeldes v\u00f5iks seos vanusega olla maade kaupa ka erisugune, sest Soomes on sisser\u00e4nde kogemus pikaajaline, kahel \u00fclej\u00e4\u00e4nud maal peaaegu puudub. Seletavate tunnuste omavahelisest korrelatsioonseosest torkab silma meie mudeli suhtes kahtlust\u00e4ratav t\u00f5siasi: Euroopa parlamendi ja oma maa parlamendi hinnangute omavaheline korrelatsioon on 0,6 ringis, mida pole v\u00e4he. Kas v\u00f5ib olla tegemist olukorraga, kus \u00fcks hinnang on ennustatav teiste kaudu ja seega ei peegelda regressioonikordaja tunnuse ees selle tunnuse eriomast m\u00f5ju? Siiski l\u00e4hme oma lahendusega l\u00f5puni, et tolerantsikordajate abil ka sellele k\u00fcsimusele vastus saada.<\/p>\n<p>Lisame siia veel l\u00e4hteinfoks s\u00f5ltuva tunnuse ehk sisser\u00e4nde koondhinnangu keskmised kolmel maal (sulgudes standardh\u00e4lve): Eestis 5,1, (1,9), Soomes k\u00f5rgeim 6,1 (1,7) ja Venemaal madalaim 3,6 (2,1).<\/p>\n<p>Vaatleme esmalt, kui suurt osa sisser\u00e4nde hinnangute dispersioonist saab kirjeldada siin vaadeldavate seletavate tunnuste kaudu.\u00a0<a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"Tabel 5\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Tabel 5&lt;\/strong&gt;. Regressioonimudeli dispersioonanal\u00fc\u00fcsi tabel. &lt;em&gt;Allikas: Euroopa sotsiaaluuring 2010, Eesti, Soome ja Venemaa&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;em&gt;&lt;img class=\"alignnone wp-image-428\" title=\"tt5.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/tt5.png\" alt=\"tt5.png\" \/&gt;&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;T\u00f5lge: &lt;em&gt;ANOVA&lt;\/em&gt; \u2013 &lt;em&gt;Analysis of Variance&lt;\/em&gt; \u2013 dispersioonanal\u00fc\u00fcs; &lt;em&gt;sum of squares&lt;\/em&gt; \u2013 ruutude summa, summaarne ruuth\u00e4lve; &lt;em&gt;df&lt;\/em&gt; \u2013 &lt;em&gt;number of degrees of freedom&lt;\/em&gt; \u2013 vabadusastmete arv; &lt;em&gt;mean square&lt;\/em&gt; \u2013 ruutkeskmine h\u00e4lve; &lt;em&gt;F&lt;\/em&gt; \u2013 t\u00e4his F-suhte jaoks; &lt;em&gt;sig.&lt;\/em&gt; \u2013 &lt;em&gt;significance&lt;\/em&gt; \u2013 olulisuse t\u00f5en\u00e4osus; &lt;em&gt;regression&lt;\/em&gt; \u2013 regressioon, (siinkohal) regressioonist tingitud hajuvuse komponent; &lt;em&gt;residual&lt;\/em&gt; \u2013 j\u00e4\u00e4k, (siinkohal) j\u00e4\u00e4khajuvus; &lt;em&gt;predictor&lt;\/em&gt; \u2013 prediktor, seletav tunnus; &lt;em&gt;constant&lt;\/em&gt; \u2013 konstant, (siinkohal) vabaliige; &lt;em&gt;dependent variable&lt;\/em&gt; \u2013 s\u00f5ltuv tunnus.'>Tabel 5<\/a> on traditsioonikohase \u00fclesehitusega dispersioonanal\u00fc\u00fcsi tabel, millest selgub s\u00f5ltuva tunnuse dispersiooni jagunemine kaheks: \u00e4rakirjeldatud ja kirjeldamata osaks. Arvepidamine toimub keskmise suhtes leitud summaarsete ruuth\u00e4lvete kaudu. Reas \u201eregressioon\u201c on summaarse ruuth\u00e4lbe \u00e4rakirjeldatud osa (7897) ja reas \u201ej\u00e4\u00e4khajuvus\u201c kirjeldamata j\u00e4\u00e4nud osa. Kirjeldatud osa suhe summaarsesse ruuth\u00e4lbesse tervikuna (26 771) annabki mudeli kirjeldusm\u00e4\u00e4ra ehk determinatsioonikordaja, mis on praegu 29,5% ehk 0,295 = 7897 : 26771. Mitmene korrelatsioonikordaja ehk korrelatsioonikordaja s\u00f5ltuva tunnuse ja mudeli kohaste prognooside vahel on seega 0,54 \u2013 ei v\u00e4he ega palju, kui arvestada, et korrelatsioonikordaja miinimum on null ja maksimum 1.<\/p>\n<p>Dispersioonanal\u00fc\u00fcsi tabel v\u00f5imaldab testida ka saadud mudeli terviklikku statistilist usaldusv\u00e4\u00e4rsust ehk h\u00fcpoteesi: mudeli poolt \u00e4rakirjeldatud osa dispersioonist on t\u00fchine. Selleks leitakse summaarne ruuth\u00e4lve \u00fche vabadusastme kohta ehk ruutkeskmine h\u00e4lve. Vabadusastmete arvud on m\u00e4\u00e4ratud vastavalt hinnatavate regressioonikordajate arvu (kuus regressioonikordajat, k.a vabaliige) ja indiviidide arvu kaudu, lahutades kummastki \u00fche. Ruutkeskmist h\u00e4lvet v\u00f5ib m\u00f5ista kui keskmist seletatud osa \u00fche regressioonikordaja suhtes ja j\u00e4\u00e4khajuvust \u00fche indiviidi suhtes. Saab n\u00e4idata, et nende kahe arvu suhe ehk F-suhe on nimetatud h\u00fcpoteesi eeldusel ligikaudu teoreetilise F-jaotusega regressioonikomponendi ja j\u00e4\u00e4khajuvuse vastavate vabadusastmete arvude korral (praegu 5 ja 5745 puhul). H\u00fcpoteesi olulisuse t\u00f5en\u00e4osus on v\u00e4ga v\u00e4ike, kindlasti alla 0,0005 antud t\u00e4psuse korral (ei riskiks \u00f6elda, et 0, sest kaugemates komakohtades v\u00f5ib olla nullist erinevust). Seega on alust h\u00fcpotees kummutada ja lugeda mudeli kirjeldusv\u00f5ime statistiliselt usaldusv\u00e4\u00e4rseks olulisuse t\u00f5en\u00e4osuse korral, mis on alla 0,05%. Niisiis, on p\u00f5hjust minna mudelit uurima. Tegelikult tasub seda teha ka juhul, kui statistiline j\u00e4reldus ei oleks nii soodus, nt kui olulisuse t\u00f5en\u00e4osus on v\u00e4heldane, aga mitte v\u00e4ike. Mudelist v\u00f5ib saada m\u00f5tteid eba\u00f5nnestunud lahenduse parandamiseks v\u00f5i taibata, miks mudel, mis meie arvates peaks olema hea kirjeldusv\u00f5imega ja statistiliselt usaldusv\u00e4\u00e4rne, seda ei ole.<\/p>\n<p><a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"Tabelis 6\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Tabel 6&lt;\/strong&gt;. Regressioonikordajad. &lt;em&gt;Allikas: Euroopa sotsiaaluuring 2010, Eesti, Soome ja Venemaa&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;em&gt;&lt;img class=\"alignnone wp-image-429\" title=\"ta6.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/ta6.png\" alt=\"ta6.png\" \/&gt;&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;sup&gt;1&lt;\/sup&gt; Ei maksa kirjutada 0,000, vaid &amp;lt;0,0005, on kindlam.&lt;\/p&gt;\n&lt;p&gt;T\u00f5lge: &lt;em&gt;unstandardized coefficients&lt;\/em&gt; \u2013 regressioonikordajad, standardiseerimata regressiooni-kordajad;&lt;em&gt; B \u2013 &lt;\/em&gt;t\u00e4his regressioonikordaja jaoks;&lt;em&gt; std. error \u2013 standard error \u2013 &lt;\/em&gt;(regressioonikordaja) standardh\u00e4lve;&lt;em&gt; standardized coefficients \u2013 &lt;\/em&gt;standardiseeritud regressioonikordajad; &lt;em&gt;beta&lt;\/em&gt; \u2013 beetakordajad, standardiseeritud regressioonikordajad; &lt;em&gt;t&lt;\/em&gt; \u2013 t\u00e4his t-statistiku jaoks, &lt;em&gt;sig. \u2013 significance&lt;\/em&gt; \u2013 olulisuse t\u00f5en\u00e4osus; 95% &lt;em&gt;confidence interval for B&lt;\/em&gt; \u2013 (regressioonikordaja) B usaldusvahemik usaldusnivool 95%; &lt;em&gt;lower&lt;\/em&gt; \u2013 alumine usalduspiir; &lt;em&gt;upper&lt;\/em&gt; \u2013 \u00fclemine usalduspiir; &lt;em&gt;constant&lt;\/em&gt; \u2013 konstant, (siinkohal) vabaliige '>Tabelis 6<\/a> on sisser\u00e4nde mudeli t\u00f5lgendamiseks sobivad regressioonikordajad esitatud esimeses veerus (B). Nii n\u00e4iteks saame \u00f6elda, et \u00fche punkti v\u00f5rra k\u00f5rgem usaldus oma maa parlamendi suhtes t\u00f5stab sisser\u00e4nde m\u00f5ju hinnangut keskeltl\u00e4bi 0,15 punkti v\u00f5rra, kui teiste tunnuste v\u00e4\u00e4rtused on samad, st sama vana indiviid samast riigist sama usaldusastmega Euroopa parlamendi suhtes. (Tabelis on t\u00e4psusega veidi \u00fcle pingutatud, piisaks kahest v\u00f5i koguni \u00fchest k\u00fcmnendkohast, aga olgu pealegi). Vanuse regressioonikordaja m\u00e4rk on miinus, mis t\u00e4hendab, et iga lisanduv aasta, kui eri vanuses indiviide k\u00f5rvutada, langetab hinnangut immigrantidele keskmiselt 0,01 v\u00f5rra, kui teised tunnused on samade v\u00e4\u00e4rtustega (siiski v\u00e4ga v\u00e4ike vahe). Eesti regressioonikordaja 1,34 t\u00e4hendab seda, et Eestist p\u00e4rit vastaja hinnang on keskmiselt 1,34 punkti v\u00f5rra k\u00f5rgem kui praegu taustamaana kasutatavalt Venemaalt p\u00e4rit vastaja oma, seda juhul, kui teised tunnused on \u00fchetaoliste v\u00e4\u00e4rtustega. Soome vastaja prognostiline sisser\u00e4nde hinnang on keskmiselt ligi kaks punkti k\u00f5rgem kui Venemaal, kui muud tunnused on \u00fchel ja samal tasemel.<\/p>\n<p>Veerust \u201eBeetakordajad\u201c n\u00e4eme standardiseeritud regressioonikordajaid. Miks on vaja kasutada regressioonikordajaid ka veel standardiseeritud andmete kaudu? Veerust B saame k\u00fcll teada, kui suur s\u00f5ltuva tunnuse nihe kaasneb seletava tunnuse muuduga, aga ei oska \u00f6elda, kas see nihe on t\u00e4henduse poolest s\u00f5ltuvale tunnusele v\u00e4iksem v\u00f5i suurem kui m\u00f5ne teise tunnuse puhul tekkiv muutus, sest seletavad tunnused v\u00f5ivad olla erisuguse skaala ja suurusj\u00e4rguga. Teine lugu on standardiseeritud andmetega, mis on alati ja igatpidi suuruse poolest v\u00f5rreldavad. Sellest tulenevalt on ka standardiseeritud regressioonikordajad suuruse poolest v\u00f5rreldavad ja n\u00e4itavad samamoodi s\u00f5ltuva tunnuse keskmist muutu, aga ainult spetsiifilisel viisil \u2013 vastava tunnuse k\u00f5nealuses andmekogumis ilmneva standardh\u00e4lbe \u00fchikutes. Standardh\u00e4lbe suurune \u00fchik loob beetakordajate v\u00f5rdluse v\u00f5imaluse. Arve suuruse poolest v\u00f5rreldes selgub, et suurimad vahed sisser\u00e4nde m\u00f5ju hinnanguis tulenevad maadevahelistest erinevustest. Maa parlamendi usaldushinnang on seejuures praeguse pildi kohaselt tugevam m\u00f5jutegur kui Euroopa parlamendi hinnang. Vanuse m\u00f5ju on teiste tunnustega v\u00f5rreldes \u00f5hk\u00f5rn.<\/p>\n<p>N\u00e4gime eespool, et mudel tervikuna on statistiliselt k\u00f5rge usaldusv\u00e4\u00e4rsusega olulisuse t\u00f5en\u00e4osuse korral alla 0,05%. See ei t\u00e4henda automaatselt, et k\u00f5ik seletavad tunnused on statistiliselt usaldusv\u00e4\u00e4rse m\u00f5juga. Pilk olulisuse t\u00f5en\u00e4osuste veergu laseb siiski arvata, et k\u00e4esoleval juhul on k\u00fcll, seejuures sama v\u00e4ikese olulisuse t\u00f5en\u00e4osusega. Kuidas selle \u00fcle otsustati? Nagu eespool paarisregressiooni juures juba osutasime, kasutatakse siinkohal t-statistikut (regressioonikordaja jagatud kordaja standardh\u00e4lbega; arvutused tehti t\u00e4psemate arvudega, kui on tabelis n\u00e4ha). See peaks h\u00fcpoteesi \u201e<em>b<\/em> = 0\u201c korral ehk olukorras, kus seletav tunnus on mudelis populatsiooni korral m\u00f5juta, jaotuma t-jaotuse kohaselt. See h\u00fcpotees ei pea praegu ilmselgelt paika, sest iga tunnuse puhul on h\u00fcpoteesi olulisuse t\u00f5en\u00e4osus v\u00e4ga v\u00e4ike (kindlasti alla 0,05%). Siiski ei tasu pidada silmas ainu\u00fcksi k\u00f5rget statistilist usaldusv\u00e4\u00e4rsust, vaid l\u00e4htuda esmajoones ikkagi regressioonikordajast, mis annab k\u00e4egakatsutava ettekujutuse sellest, kui tugev on seletava tunnuse toime. Praegu on indiviidide arv niiv\u00f5rd suur, et iga v\u00e4himgi m\u00f5juke n\u00e4ib statistiliselt olulisena. Nii see paraku sageli ongi h\u00fcpoteeside kontrolli loogika kohaselt.<\/p>\n<p>Kindlasti tuleks vaadelda regressioonikordaja usaldusvahemikke, millest praegu mitte \u00fckski ei kata nullpunkti. Kui kataks, siis oleks nulliga v\u00f5rduv regressioonikordaja populatsioonis suure t\u00f5ep\u00e4rasusega v\u00f5imalik ja tunnuse statistiline m\u00f5ju s\u00f5ltuva tunnuse suhtes puuduks. Et usaldusnivooks on valitud 95%, siis sellise usaldusv\u00e4\u00e4rsusega saaksime praegu usaldusvahemike alusel igat tunnust eraldi k\u00e4sitledes kinnitada selle statistilist m\u00f5jukust. Miks \u201eeraldi k\u00e4sitledes\u201c? R\u00f5hutame seda nn Bonferroni efekti kartuses: \u00fcksikotsustuse usaldusv\u00e4\u00e4rsus ei taga mitmest otsustusest koosneva l\u00f5ppotsustuse sama k\u00f5rget usaldusv\u00e4\u00e4rsust, sest \u00fchel ja samal andmestikul p\u00f5hinedes v\u00f5ivad statistilised vead kuhjuda. Turvaline oleks \u00fcksikotsustused teha k\u00f5rgemal usaldusnivool, seda k\u00f5rgemal, mida enam otsustusi on korraga k\u00f5ne all. J\u00e4lgige ka usaldusvahemiku laiust (mida kitsam, seda konkreetsem hinnang) ja seda, kui \u201ekaugel\u201c on nullpunkt (ehk olematu m\u00f5ju punkt) usalduspiiridest.<\/p>\n<p>Tuleme n\u00fc\u00fcd tagasi eespool kripeldama j\u00e4\u00e4nud multikollineaarsuse teema juurde. Kui arvutada v\u00e4lja tolerantsikordajad (ei ole regressioonimudeli tabelis esitatud), siis leiavad kahtlused kinnitust: vanuse tolerantsiaste tuleb k\u00f5rge (97%), aga oma maa parlamendil ja Euroopa parlamendil madal (vastavalt 55% ja 63%). M\u00f5ned peavad 60% l\u00e4ve kriitiliseks, igatahes v\u00f5iks meie n\u00e4ites \u00fche parlamendi usaldushinnangutest k\u00f5rvale j\u00e4tta. Et oma maa parlamendi usaldusastme hinnanguis on vastustes l\u00fcnki v\u00e4hem, siis j\u00e4tame selle tunnuse mudelisse. Kaalutluseks v\u00f5iks olla veel muidugi sisuline k\u00fclg v\u00f5i ka tolerantsikordaja v\u00e4\u00e4rtus v\u00f5i tunnuse korrelatsioonikordaja s\u00f5ltuva tunnuse suhtes (Euroopa parlamendil madalam kui oma maa parlamendil, vt tabel 4).<\/p>\n<p>Koostame uue mudeli, milles ei osale Europarlamendi usaldushinnang (vt <a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"tabel 7\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Tabel 7&lt;\/strong&gt;. Regressioonikordajad uues mudelis. &lt;em&gt;Allikas: Euroopa sotsiaaluuring 2010, Eesti, Soome ja Venemaa&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;em&gt;&lt;img class=\"alignnone wp-image-430\" title=\"ta7.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/ta7.png\" alt=\"ta7.png\" \/&gt;&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;T\u00f5lge: &lt;em&gt;unstandardized coefficients&lt;\/em&gt; \u2013 regressioonikordajad, standardiseerimata regressiooni-kordajad&lt;em&gt;, B \u2013 &lt;\/em&gt;t\u00e4his regressioonikordaja jaoks;&lt;em&gt; std. error \u2013 standard error \u2013 &lt;\/em&gt;(regressioonikordaja) standardh\u00e4lve;&lt;em&gt; standardized coefficients \u2013 &lt;\/em&gt;standardiseeritud regressioonikordajad; &lt;em&gt;beta&lt;\/em&gt; \u2013 beetakordajad, standardiseeritud regressioonikordajad; &lt;em&gt;t&lt;\/em&gt; \u2013 t\u00e4his t-statistiku jaoks; &lt;em&gt;sig. \u2013 significance&lt;\/em&gt; \u2013 olulisuse t\u00f5en\u00e4osus; 95% &lt;em&gt;confidence interval for B&lt;\/em&gt; \u2013 (regressioonikordaja) B usaldusvahemik usaldusnivool 95%; &lt;em&gt;lower&lt;\/em&gt; &lt;em&gt;bound&lt;\/em&gt; \u2013 alumine usalduspiir; &lt;em&gt;upper&lt;\/em&gt; &lt;em&gt;bound&lt;\/em&gt;\u2013 \u00fclemine usalduspiir; &lt;em&gt;constant&lt;\/em&gt; \u2013 konstant, (siinkohal) vabaliige '>tabel 7<\/a>). Indiviidide arv suurenes, olles n\u00fc\u00fcd 6341. Mudeli kirjeldusv\u00f5ime alanes 28% tasemele, mis ei ole suur kadu (enne oli 29,5%). Mudel tervikuna ja k\u00f5ik \u00fcksikkomponendid (dispersioonitabelit ei ole selle mudeli jaoks esile toodud) j\u00e4id statistiliselt usaldusv\u00e4\u00e4rseiks olulisuse t\u00f5en\u00e4osuse korral alla 0,05%. \u00dchegi kordaja usaldusvahemik usaldusnivool 95% ei kata nullpunkti. K\u00f5igi seletavate tunnuste m\u00f5ju suund j\u00e4i samaks ja tugevus ligikaudu samaks, nagu oli enne. Oma maa parlamendi usaldusastme tolerantsikordaja v\u00e4\u00e4rtuseks osutus selles mudelis 82% ja selle mudeli juurde j\u00e4\u00e4megi.<\/p>\n<p>Formaalselt v\u00f5iksime v\u00e4lja kirjutada j\u00e4rgmised prognoosimudelid:<br>\nEesti jaoks:<br>\n<em>Immigratsiooni m\u00f5ju hinnang<\/em> = 3,44 + 0,21\u2219 parlamendi usaldushinne \u2013 0,01\u2219 vanus + 1,44<br>\nSoome jaoks:<br>\n<em>Immigratsiooni m\u00f5ju hinnang<\/em> = 3,44 + 0,21\u2219 parlamendi usaldushinne \u2013 0,01\u2219 vanus + 2,05<br>\nVenemaa jaoks:<br>\n<em>Immigratsiooni m\u00f5ju hinnang<\/em> = 3,44 + 0,21\u2219 parlamendi usaldushinne \u2013 0,01\u2219 vanus<\/p>\n<p>Erinevus maade vahel, nagu oli k\u00e4esoleva n\u00e4ite puhul kavandatudki, peitub keskmises tasemes, mitte m\u00f5ju mehhanismis, ja seletavate tunnuste kohta kasutame eri maades \u00fchtesid ja samu regressioonikordajaid.<\/p>\n<p>Vaatleme l\u00f5puks p\u00f5gusalt prognoosi t\u00e4psust prognoosij\u00e4\u00e4kide kujul. <a href=\"#\" data-bs-toggle=\"modal\" data-bs-target=\"#popup-modal\" data-title=\"Joonisel 6\" data-content='&lt;\/p&gt;\n&lt;p&gt;&lt;img class=\"alignnone wp-image-431\" title=\"jo3.png\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/110\/jo3.png\" alt=\"jo3.png\" \/&gt;&lt;\/p&gt;\n&lt;p&gt;&lt;strong&gt;Joonis 6&lt;\/strong&gt;. Uuendatud mudeli prognoosij\u00e4\u00e4kide histogramm. &lt;em&gt;Allikas: Euroopa sotsiaaluuring 2010, Eesti, Soome ja Venemaa&lt;\/em&gt;&lt;\/p&gt;\n&lt;p&gt;T\u00f5lge: &lt;em&gt;histogram&lt;\/em&gt; \u2013 histogramm; &lt;em&gt;frequency&lt;\/em&gt; \u2013 sagedus; &lt;em&gt;dependent variable&lt;\/em&gt; \u2013 s\u00f5ltuv tunnus; &lt;em&gt;regression standardized residual&lt;\/em&gt; \u2013 regressioonimudeli standardiseeritud j\u00e4\u00e4k; &lt;em&gt;mean&lt;\/em&gt; \u2013 keskmine; &lt;em&gt;std. dev. \u2013 standard deviation&lt;\/em&gt; \u2013 standardh\u00e4lve.'>Joonisel 6<\/a> on esitatud standardiseeritud prognoosij\u00e4\u00e4kide histogramm, millest n\u00e4eme \u00fcsna head koosk\u00f5la normaaljaotusega, v\u00e4hemalt palja silmaga (peen sujuva v\u00e4ljan\u00e4gemisega joon vastab ideaalsele normaaljaotusele keskmise 0 ja standardh\u00e4lbe 1 korral). Standardiseeritud kujul j\u00e4\u00e4vad vead selgelt \u20133 ja 3 vahele, mis normaaljaotuse korral juba g\u00fcmnaasiumist tuntud kolme sigma reegli alusel nii peabki olema.<\/p>\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-6a6594639347a-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-6a6594639347a-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-6a6594639347a-collapse\">Praktilist mitmese lineaarse regressioonimudeli koostamiseks<\/button>\n        <\/h2>\n        <div id=\"accordion-6a6594639347a-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-6a6594639347a-heading\">\n            <div class=\"accordion-body pt-0\">\n<p><strong>Formaalseid eeltingimusi<\/strong><\/p>\n<p>n\u00a0 Seletavad tunnused on korreleeritud s\u00f5ltuva tunnusega.<br>\nn\u00a0 Seletavate tunnuste seas ei ole omavahel tugevalt lineaarselt seotud tunnuseid (multikollineaarsuse v\u00e4listamine).<br>\nn\u00a0 Seletavate tunnuste m\u00f5ju s\u00f5ltuvale tunnusele on oma iseloomu poolest liituv ja lineaarne (seos v\u00e4ljendub sirgjoonega). Nt ruumi \u00fcmberm\u00f5\u00f5dule m\u00f5jub ruumi pikkus liituvalt ehk aditiivselt, aga pindalale mitte (m\u00f5jub korrutislikult ehk multiplikatiivselt).<br>\nn\u00a0 S\u00f5ltuv tunnus on fikseeritud arvulisel v\u00f5i arvuliselt t\u00f5lgendataval skaalal.<br>\nn\u00a0 Mudeli vea jaotus on l\u00e4hedane normaaljaotusele ja \u00fchetaolise dispersiooniga vaadeldavate tunnuste v\u00e4\u00e4rtuspiirkonnas.<\/p>\n<p><strong>Mitmese lineaarse regressioonimudeli koostamine: soovitatavalt hierarhiliselt<\/strong><\/p>\n<p>Algaja regressioonimudeli kasutaja armastab kaasata korraga palju seletavaid tunnuseid ja soovitatavalt k\u00f5ik korraga. K\u00f5ige hullemal juhul laseb ta siis arvutiprogrammil nn sammuviisilise protseduuriga (ingl <em>stepwise<\/em> <em>regression<\/em>) ise valida, mida v\u00f5tta, mida j\u00e4tta. Professionaal nii ei tee, sest selliselt on v\u00e4he lootust j\u00f5uda sisuliselt vettpidava mudelini. Soovitatav on k\u00f5igepealt pikemalt tegelda aineteoreetiliste kaalutlustega ja l\u00e4bi m\u00f5elda, millised seletavad tunnused v\u00f5iksid k\u00f5ne alla tulla. Seej\u00e4rel tuleks need l\u00e4bi uurida lihtsate statistiliste suuruste varal (keskmised, korrelatsioonid, jaotused, graafikud). V\u00e4ljas\u00f5elutud t\u00e4htsaid seletavaid tunnuseid oleks m\u00f5istlik l\u00fclitada mudelisse \u00fchekaupa, tekitades niiviisi j\u00e4rjest keerulisemaks muutuvate mudelite hierarhia. J\u00e4rjestikuste mudelite kirjeldusastmete v\u00f5rdlus annab olulist teavet mudelisse v\u00f5etud tegurite m\u00f5jukuse kohta. J\u00e4lgida tuleks ka regressioonikordajate stabiilsust: kui palju muutuvad seniste seletavate tunnuste regressioonikordajad, kui m\u00e4ngu tuleb uus m\u00f5ju.<\/p>\n<p><strong>Mitmese lineaarse regressioonimudeli t\u00f5lgendamisest<\/strong><\/p>\n<p>n\u00a0 Sotsiaalteaduslike andmete (mittekatseliste andmete) puhul on regressioonimudeli t\u00f5lgendus sageli pigem kvalitatiivne, seoste struktuuri kirjeldav kui kvantitatiivset prognoosi taotlev.<br>\nn\u00a0 Vaadelda tuleb<br>\nn seletava tunnuse m\u00f5ju suunda, kas selle kasv kahandab v\u00f5i kasvatab s\u00f5ltuvat tunnust,<br>\nn s\u00f5ltumatute tunnuste j\u00e4rjekorda m\u00f5ju tugevuse poolest (beetakordajad),<br>\nn m\u00f5jude sisulist m\u00f5istlikkust,<br>\nn mudelist h\u00e4lbivate indiviidide loetelu (suured j\u00e4\u00e4gid),<br>\nn mudeli \u00fcldist kirjeldusastet ja mitmest korrelatsioonikordajat.<\/p>\n<p>Reaalteaduslike uurimis\u00fclesannete korral on kohane ka mudeli t\u00f5lgendus prognoosimehhanismina.<\/p>\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-6a65946393480-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-6a65946393480-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-6a65946393480-collapse\">Mida esitada regressioonanal\u00fc\u00fcsi tulemustena? <\/button>\n        <\/h2>\n        <div id=\"accordion-6a65946393480-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-6a65946393480-heading\">\n            <div class=\"accordion-body pt-0\">\n<p>Regressioonimudeli koostamisel tekib hulk eritasemelisi statistilisi kokkuv\u00f5tteid, mille hulgast uurimist\u00f6\u00f6sse sobiva valimine on paras p\u00e4hkel. L\u00e4htuda tuleks, nagu mujalgi, uurimisk\u00fcsimusest ja auditooriumist. Allpool on n\u00e4ide v\u00f5imalikest valikutest.<\/p>\n<p>Populaarteadusliku loo puhul v\u00f5iks joonistada uurimisobjekti efektse sisendite-v\u00e4ljundite pildi, millest n\u00e4htuks ka sisendite statistiline kaalukus (j\u00e4medamad-peenemad nooled vms).<\/p>\n<p>Laiema akadeemilise auditooriumi jaoks tuleks anda \u00fclevaade andmetest (kompaktne keskmiste, standardh\u00e4lvete jm tabel) ja esitada regressioonimudel tabelina, milles miinimumversioonis on regressioonikordajad koos statistilise olulisusega v\u00f5i usaldusvahemikega mingil usaldusnivool. Beetakordajatest n\u00e4htuva j\u00e4rjekorra v\u00f5iks selgitada teksti sees, samuti mudeli \u00fcldise kirjeldusastme.<\/p>\n<p>Asjatundlikumale akadeemilisele auditooriumile v\u00f5ivad huvi pakkuda veel kordajate standardh\u00e4lbed, beetakordajad ka arvuliselt ja detailsemalt dispersioonitabel.<\/p>\n<p>Kindlalt tuleb meeles pidada seda, et \u00fchegi t\u00f6\u00f6 keskseks osaks ei ole mitte arvulised kokkuv\u00f5tted, vaid neist tulenev t\u00f5lgendus, arvude t\u00e4hendus.<\/p>\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n<p><\/p><div class=\"accordion mb-3\">\n        <div class=\"accordion-item accordion-item--white\">\n        <h2 class=\"accordion-header\" id=\"accordion-6a65946393483-heading\">\n            <button class=\"accordion-button collapsed\" type=\"button\" data-bs-toggle=\"collapse\" data-bs-target=\"#accordion-6a65946393483-collapse\" aria-expanded=\"true\" aria-controls=\"accordion-6a65946393483-collapse\">Lisalugemist<\/button>\n        <\/h2>\n        <div id=\"accordion-6a65946393483-collapse\" class=\"accordion-collapse collapse\" aria-labelledby=\"accordion-6a65946393483-heading\">\n            <div class=\"accordion-body pt-0\">\n<p>h<a href=\"http:\/\/www.ats.ucla.edu\/stat\/spss\/webbooks\/reg\/chapter1\/spssreg1.htm\">ttp:\/\/www.ats.ucla.edu\/stat\/spss\/webbooks\/reg\/chapter1\/spssreg1.htm<br>\n<\/a>Tooding, L.-M. (2007). Andmete anal\u00fc\u00fcs ja t\u00f5lgendamine sotsiaalteadustes. Tartu, Tartu \u00dclikooli Kirjastus. Ptk-d 5.3, 6.2.<\/p>\n<p><\/p><\/div>\n        <\/div>\n        <\/div>\n    <\/div>\n<p><strong>M\u00e4rks\u00f5nad<\/strong><\/p>\n<p>regressioonikordaja<br>\nbeetakordaja<br>\nregressioonimudel<br>\nvabaliige<br>\nkorrelatsioonikordaja<br>\nmitmene korrelatsioonikordaja<br>\nseletav tunnus<br>\ns\u00f5ltuv tunnus<br>\ndeterminatsioonikordaja<br>\ntolerants<br>\nmultikollineaarsus<br>\nprognoos<br>\nprognoosij\u00e4\u00e4k<br>\nmitmene regressioon<br>\npaarisregressioon<br>\nindikaatorkodeerimine<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Liina-Mai Tooding 2014 Regressioonanal\u00fc\u00fcs on t\u00e4nap\u00e4evase andmeanal\u00fc\u00fcsi v\u00e4ltimatu osa. Selle meetodi poole p\u00f6\u00f6rdub uurija siis, kui on vaja vaadelda mitut tunnust korraga ja arvestada j\u00e4reldustes nende omavahelisi seoseid. Ajalooliselt on areng kulgenud \u00fcksikute mudelit\u00fc\u00fcpide l\u00e4henemise poole ja j\u00f5udnud praeguseks praktiliselt &#8230;<\/p>\n","protected":false},"author":45,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"class_list":["post-47","page","type-page","status-publish","hentry"],"acf":[],"_links":{"self":[{"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/pages\/47","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/users\/45"}],"replies":[{"embeddable":true,"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/comments?post=47"}],"version-history":[{"count":5,"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/pages\/47\/revisions"}],"predecessor-version":[{"id":2178,"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/pages\/47\/revisions\/2178"}],"wp:attachment":[{"href":"https:\/\/sisu.ut.ee\/samm\/wp-json\/wp\/v2\/media?parent=47"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}