Koosmõjukomponentidega regressioonimudeli tõlgendamine

Koosmõjukomponentidega regressioonimudeli tõlgendamine                                                                       

Liina-Mai Tooding

Käsitletavad mudelid

Regressioonimudel koostatakse selleks, et kirjeldada, kuidas meie vaate kohaselt ühed, sõltumatud tunnused keskmiselt prognoosivad teist, neist sõltuvat tunnust (http://samm.ut.ee/regressioonanalyys). Sõltumatute tunnuste mitmest mõju käsitletakse sageli liituvana, iga tunnust mõjumas omaette, kuigi samaaegselt teistega, teisi regressioonikordaja leidmisel arvesse võttes. Tegelik sõltumatute tunnuste mõju võib olla aga tunduvalt keerulisem ja see on toonud esile sellised mõisted nagu kontrolli alla võetud tunnused (ligikaudu: tunnused, mille kohta ei ole uurimishüpoteese, aga arvutustes võetakse neid arvesse), vahendavad tunnused (kaudsete, kolmandate tunnuste kaudu tekkivate mõjude arvesse võtmiseks), moderaatorid (üks tunnus võib niihästi võimendada kui ka alla suruda teise mõju) jm. Sellekohase praktikas mitte väga üheselt kasutatava terminoloogia üksikasjade kohta vt nt http://davidakenny.net/cm/moderation.htm;  http://www.philender.com/courses/intro/notes/mediator.html.

Käesolevas kirjutises käsitleme sõltumatute tunnuste koosmõju ehk interaktsiooni.  Koosmõju on olukord, mil ühe sõltumatu tunnuse mõju sõltuvale tunnusele oleneb teise sõltumatu tunnuse (teiste sõltumatute tunnuste) väärtusest. Interaktsiooni puudumine tähendab seda, et ühe sõltumatu tunnuse mõju on üks ja sama teise sõltumatu tunnuse (teiste sõltumatute tunnuste) mis tahes väärtuse korral. Võiksime ka öelda, et interaktsioon väljendab koosmõju moodustavate sõltumatute tunnuste sünergiat sõltuva tunnuse suhtes. Oluline on mõista, et koosmõju ei tähenda tunnuste omavahelist vastastikust seost, vaid seost mõjuprotsessis sõltuva tunnuse suhtes. Koosmõjutegur on tehniliselt vastavate tunnuste korrutis.

Allpool vaatleme lihtsuse mõttes regressioonimudeleid, kus uurime kahe tunnuse koosmõju.  Enama kui kahe tunnuse koosmõju tõlgendamisel põhimõtteliselt uut ei lisandu, küll aga läheb seletus kiiresti väga keeruliseks. Tutvustame näidete alusel, kuidas tõlgendada interaktsioone, jättes kõrvale matemaatilise külje. Näidetes on kasutatud Euroopa sotsiaaluuringu 2014 andmeid Eesti kohta, mis on arvutuste kaasa tegemiseks vabalt kättesaadavad (http://www.europeansocialsurvey.org/.) Regressioonimudelid on koostatud IBM SPSS 24 üldistatud lineaarsete mudelite meetodiga (generalized linear models), kuid selles programmipaketis on ka mitmeid muid sobivaid võimalusi. Eeldatakse, et lugeja on üldjoontes kursis regressioonimudelite põhiideega või valmis osutatud viidete najal end sellega kurssi viima.

Kesksel kohal on koosmõjutegurit sisaldava mitmese lineaarse regressioonimudeli käsitlus arvulise iseloomuga sõltuva tunnuse jaoks (mudelid 1 ja 2 allpool). Selle kaudu seletame ära olulisemad koosmõjuteguri tõlgendamisega seotud mõtted. Osa on hädavajalik lugeda enne järgnevat kolme osa, mida võib pidada esimeses mudelis kirjeldatud  mõtete rakenduseks. Need kolm mudelit on:

logistiline regressioonimudel kategoriaalse

Kategoriaalsed ja pidevad tunnused 

Kategoriaalseks nimetame sellist tunnust, mille üksikväärtused on selgelt eristuvad ja me käsitleme neid iseseisva tähendusega. Nt elukohad: suurlinn, linn, asula, maakoht, aga samuti poliitikahuvi aste: väga huvitatud, küllaltki huvitatud, vaevalt huvitatud, ei tunne huvi. Samuti võib piiratud ulatusega arvtunnust mõnikord käsitleda kategoriaalsena, nt ajateenijate vanus täisaastates. Kategoriaalne tunnus võib olla kategooriate sisulise järjestusega (sel juhul kõneleme järjestusskaalast ehk ordinaalskaalast) või ilma (nominaal- ehk nimeskaala). Kategoriaalne tunnus on diskreetse (katkendliku) ehk mittepideva skaalaga tunnus.

Pidev on see tunnus, mis võib teatud arvtelje lõigul omandada mis tahes väärtuse. Piltlikult öeldes, pideva tunnuse iga kahe väärtuse vahel võib leida veel ühe väärtuse. Pideva tunnusena käsitleme aega (kuid muidugi teatava mõõtmistäpsusega, mille tõttu aega kirjeldame enamasti mittepidevana – aastates, kuudes, sekundites), teepikkust, kaalu jm füüsikalisi suurusi. Pidevat tunnust käsitletakse mõnikord klassifitseerituna ehk väärtusklassideks jaotatuna.

Regressioonimudelites osaleb pidev tunnus enamasti „naturaalsel“ kujul ehk oma tegelike väärtustega. Kategoriaalse tunnuse puhul kasutatakse teatud kodeerimisskeeme. Kui tunnusel on k võimalikku väärtust, siis moodustatakse k – 1 dihhotoomset indikaatorit iga kategooria tuvastamiseks ja võetakse kategoriaalse tunnuse asemel mudelisse need indikaatorid. Dihhotoomsed tunnused (i.k. dummy variables) kodeeritakse nii, et vastava kategooria indikaator omandab konkreetse indiviidi korral väärtuse 1, kui selle indiviidi korral on tunnuse väärtuseks vaadeldav kategooria, ja väärtuse 0, kui mõni muu kategooria. Indikaatoreid võib olla ühe võrra vähem kui kategooriaid, sest viimase kategooria indiviidid tunneme ära selle järgi, et neil on kõigi indikaatorite väärtuseks 0. Muidugi võib selle, nn taustakategooria osa täita peale viimase meie osutusel ka mõni teine tähenduse poolest sobiv kategooria. Regressioonimudeli koostamisel kasutatakse taustakategooriat nö arvestuse alusena ja selle regressioonikordaja loetakse võrdseks nulliga. 
  sõltuva tunnuse prognoosimiseks (mudel 3),

ordinaalne regressioonimudel järjestatavate väärtustega sõltuva tunnuse jaoks (mudel 4),

Poissoni regressioonimudel täisarvuliste, Poissoni jaotustPoissoni jaotus

Mittepidevate väärtustega 0, 1, 2, … tunnus on Poissoni jaotusega, kui selle jaotusseadus avaldub kujul kus λ on tunnuse keskmine ja dispersioon ning k = 0, 1, 2, … . Väikese keskmise korral on jaotus tugevalt ebasümmeetriline (väiksemaid väärtusi esineb rohkem kui suuremaid).  Jaotust nimetatakse mõnikord ka harvade sündmuste jaotuseks (vähesel arvul toimumine sagedane, suurel arvul toimumine harv), nt orkaanide arv aastas, laste arv peres, muuseumikülastuste arv aastas jt loendustulemused. 
  järgivate väärtustega sõltuva tunnuse jaoks (mudel 5).

Tõlgenduse erinevused lineaarse regressioonimudeliga võrreldes tulevad sellest, et nimetatud kolme mudeli puhul ei prognoosita vahetult mitte sõltuva tunnuse keskmist, vaid keskmist kindlal viisil teisendatud kujul. See toob kaasa regressioonikordajate tähenduse erisuguse sõnastuse, kui tahame tulemusi mõista esialgsete, teisendamata andmete kohta. Praktikas on levinuim koosmõjuteguritega mitmene lineaarne regressioonimudel, meie põhimudel.

Koosmõjutegur mitmeses lineaarses regressioonimudelis

Koosmõju sisaldav mudel sõltuva tunnuse Y prognoosimiseks sõltumatute tunnuste X1 ja X2 kaudu on järgmine:

Y = b0 + b1∙X1 + b2∙X2 + c∙X1X2         ← lisandub viga

kus b0, b1, b2 ja c on andmete põhjal hinnatavad regressioonikordajad ja viga loetakse keskmiselt nulliks (pluss lineaarse regressioonimudeli puhul tehtud teised tavapärased eeldused). Selles mudelis on lisaks vabaliikmele (tunnustega sidumata tegurile) kolm tegurit: X1, X2 ja nende koosmõju. Lihtsuse mõttes vaatleme ainult kahe koosmõjus oleva sõltumatu tunnusega mudelit, sest täiendavad koosmõju mitte moodustavad sõltumatud tunnused ei muudaks alljärgnevate tõlgenduste põhimõtet. Koosmõju tähendust selgitame esmalt üldisemalt ja hiljem korduvalt üle näidete varal. Regressioonikordajad b1 ja b2 määravad vastavalt sõltumatute tunnuste X1 ja X2 peamõju suuruse (i.k. main effect) ja regressioonikordaja c koosmõju ehk interaktsiooni (i.k. interaction) suuruse. Mõnikord jäetakse mõne sõltumatu tunnuse peamõju mudelist välja, mis tähendab, et selle tunnuse mõju nähtub tulemustest võimaliku peamõju ja koosmõju seguna, võimaluseta neid analüüsis eristada. Allpool käsitleme mudeleid, milles on lisaks koosmõjutegurile olemas kõik peamõjud, ja nii soovitame ka praktikas teha.

Meenutame kõigepealt, et ainult peamõjudega mudelis tähendab regressioonikordaja sõltuva tunnuse keskmist muutu sõltumatu tunnuse ühikulise muudu korral, kui ülejäänud sõltumatud tunnused on püsiva väärtusega (http://samm.ut.ee/regressioonanalyys). Koosmõjutegurit sisaldavas mudelis tõlgendus nii vahetu ei ole. Lisandub koosmõjus oleva teise tunnuse nulliga võrdumise tingimus, et koosmõjule vastav liige ei sisalduks prognoosis. Peamõju regressioonikordaja koosmõjudega mudelis on sõltuva tunnuse keskmine muut ühe sõltumatu tunnuse ühikusuuruse muudu korral teise sõltumatu tunnuse nullkohas, milleks on kategoriaalsel tunnusel  taustaväärtus ja pideval tunnusel nullpunkt. Kui teisel interaktsiooni kuuluval tunnusel nullväärtus puudub, siis peamõju regressioonikordajale sellist tõlgendust anda ei saa. Et tõlgendust saaks anda, selleks pidev seletav tunnus sageli tsentreeritakse või standardiseeritakse.

Standardiseerimine ja tsentreerimine

Olgu arvtunnuse X keskmine m ja standardhälve s. Tunnusele X vastavaks tsentreeritud tunnuseks W nimetatakse keskmise võrra nihutatud skaalaga tunnust: W = X – m. Tsentreeritud tunnuse keskmine on 0. Kui kaugust keskmisest väljendatakse esialgse tunnuse standardhälbe ühikutes, siis saadakse standardiseeritud tunnus ZZ = (X – m) / s.  Standardiseeritud tunnused on nullkeskmise ja ühikulise dispersiooni (ja standardhälbega). Tsentreerimine muudab tunnused ühetaoliseks keskmise seisukohalt (ühtlasi lisab tunnusele nullpunkti) ja standardiseerimine lisaks ka mastaabi poolest.

 .

Koosmõju regressioonikordaja seletamiseks sobib kasutada „erinevuste erinevuse“ väljendit.  Vaadeldakse, kui palju muutub sõltuva tunnuse mudeli kohane väärtus, kui ühe sõltumatu tunnuse  väärtust muuta ühiku võrra (suurendada)  ja teine sõltumatu tunnus jätta samaks. Nii tekib esimene „erinevus“. Seejärel muudetakse teise sõltumatu tunnuse väärtust ühiku võrra (suurendatakse) ja vaadeldakse, kui palju muutub nüüd sõltuva tunnuse mudeli kohane väärtus, kui esimese sõltumatu tunnuse  väärtust taas muuta ühiku võrra (suurendada). Nii tekib teine „erinevus“. „Erinevuste“ vahe moodustabki „erinevuste erinevuse“. Osutub, et koosmõjuteguri regressioonikordaja näitab „erinevuste erinevuse“ suurust. Teisisõnu, koosmõjuteguri kordaja näitab, kui palju ühe sõltumatu tunnuse ühikulise muutuse tõttu tekkinud sõltuva tunnuse keskmisest muutusest toob kaasa teise sõltuva tunnuse samaaegne ühikuline muut.

Vaatleme väikest väljamõeldud näidet. Mehed ja naised (sootunnuse taustakategooria „naine“) linnas ja maal (elukoha taustakategooria „maa“) avaldasid nõusolekut 1 kuni 10 punktiga. Mudeli koosmõjuteguri regressioonikordajaks tuleb 0,3. Siis võiksid nõusoleku rühmakeskmised olla järgmised:  naised maal 5,6; naised linnas 5,9; mehed maal 6,2; mehed linnas 6,8. Linnanaiste ja maanaiste keskmine erinevus on 5,9 – 5,6 = 0,3. Linnameeste ja maameeste keskmine erinevus on 6,8 – 6,2 = 0,6. Linna- ja maameeste erinevuse erinevus linna- ja maanaiste erinevusest on 0,6 – 0,3 = 0,3.

Üksikasjalikuma arutluse  kohta leiate aknast Erinevuste erinevus

Erinevuste erinevus

Kui X1 on väärtusega x1 ja X2 väärtusega x2, siis saame sõltuva tunnuse Y järgmise mudelikohase prognoosi (1):



Regressioonikordajate mõtte avamiseks suurendame mõlemat sõltumatut tunnust antud väärtusega võrreldes ühiku võrra ja vaatleme seejuures tekkivaid mudeli kohaseid sõltuva tunnuse muutusi. Erinevus sõltuva tunnuse prognoosis esimese sõltumatu tunnuse ühiku võrra antust suurema ja antud väärtuse x1 korral, kui teine sõltumatu tunnus on antud väärtusega x2, on järgmine (2):



Märgime möödaminnes, kui meil oleks koosmõjutegurita, st peamõjudega mudel, ja c = 0, siis saaksime avaldisest (2) regressioonikordaja b1 järgmise tähenduse: sõltuva tunnuse keskmine muut, kui sõltumatu tunnus suureneb ühiku võrra. Leiame veel ühe muudu. Erinevus sõltuva tunnuse prognoosis esimese tunnuse ühiku võrra antust suurema ja antud väärtuse x1 korral, kui teine sõltumatu tunnus on antud väärtusest x2 ühiku võrra suurem, on järgmine (3):



Näeme, et avaldiste (3) ja (2) vahe ehk „erinevuste erinevus“ võrdub koosmõju väljendava liikme regressioonikordajaga: 



Koosmõju regressioonikordaja näitab erinevust sõltuva tunnuse prognoosis ühe sõltumatu tunnuse antud väärtusest ühiku võrra suurema väärtuse korral ja antud väärtuse korral, kui teine tunnus on antud väärtusest ühiku võrra suurem, võrrelduna sama erinevusega sõltuva tunnuse prognoosis, kui teine sõltumatu tunnus on antud väärtusega. Eelneva arutluse oleksime võinud üles ehitada ka tunnusest X2 lähtudes. Koosmõju seletus on koosmõju komponentide seisukohalt sümmeetriline. Väljend „erinevuste erinevus“ käib regressioonimudeli tähendusest lähtudes muidugi mõista keskmise erinevuse kohta. Vahe D1 avaldistest (2) saame ka regressioonikordaja b1 tõlgenduse interaktsiooniga mudelis: peamõju regressioonikordaja on sõltuva tunnuse keskmine juurdekasv ühe sõltumatu tunnuse ühikusuuruse muudu korral teise sõltumatu tunnuse nullkohas (taustaväärtus või nullpunkt: x2 = 0). Analoogiliselt saaksime regressioonikordaja b2 tõlgenduse lähtudes vahest sõltumatu tunnuse X2 seisukohalt.

 .

Mudel 1. Vaatleme rahuloluhinnangut naistel ja meestel olenevalt hinnangust toimetulekule praeguse sissetuleku juures. Kasutame järgmisi tunnuseid:

sõltuv tunnus – üldine eluga rahulolu skaalal 0 kuni 10, mida suurem arv, seda suurem rahulolu;

seletavad tunnused – sugu (1 - mees, 2 - naine), toimetulek praeguse sissetuleku juures (1 - elame lahedalt ära, 2 - tuleme toime, 3 - on raskusi või suuri raskusi).

Huvi pakub, kuidas keskmiselt varieerub eluga rahulolu naistel ja meestel olenevalt hinnangust toimetulekule olemasoleva sissetuleku juures. Kuivõrd erineb keskmine rahulolu naistel ja meestel toimetuleku eri astmeil  (st, kas sugu mõjutab toimetuleku efekti rahulolu suhtes ehk kas rahulolu keskmine erinevus toimetuleku eri astmetel on naiste puhul sama mis meeste puhul)? Otsime vastust nendele küsimustele eluga rahulolu regressioonimudeli abil toimetulekuhinnangu ja sootunnuse kaudu, kaasates regressioonimudelisse ka nende koosmõju.

Regressioonimudelis on taustakategooriaks järjekorras viimane kategooria (sootunnusel naine ja toimetulekul on raskusi või suuri raskusi; nimetused on allpool lühendatud suupärasemaks). Andmed on 1900 inimese kohta, kellest 70% kinnitas toimetulekut oma sissetuleku juures, sh 13% lahedat äraelamist. Vastanuist 30% toimetulek on seotud raskuste või suurte raskustega. Mehi oli vastanute seas 41%. Meestest 26% ja naistest 32% kinnitab raskusi või suuri raskusi toimetulekus. Keskmine rahulolu on 6,5 standardhälbega 2,2. 

Mudel 1 on lineaarne järgmise skeemi kohaselt:

                        rahulolu = vabaliige + b1 sugu + b2 ∙ toimetulek + c (sugu toimetulek).                          

Andmeid analüüsides selgus, et mudeli alusel saab kirjeldada 17% sõltuva tunnuse variatiivsusest (vähe küll, aga mitte väga vähe). Et seletavad tunnused on kategoriaalsed, siis tuuakse esile iga kategooria regressioonikordaja (taustakategooria regressioonikordaja võetakse, nagu tavaliselt, võrdseks nulliga). Kui kasutada statistilise usaldusväärsuse kriteeriume, siis võiks mudelit pidada õnnestunuks: koosmõju regressioonikordajad erinevad nullist (olulisuse tõenäosused tulid vastavalt 0,052 ja 0,02), samuti toimetuleku tunnus peamõjuna (p < 0,0005). Tabelis 1  on esitatud regressioonikordajad koos usaldusvahemikega usaldusnivool 95% (http://samm.ut.ee/usaldusvahemik). Tabeli põhjal saame välja kirjutada kuus regressioonivõrrandit, kategooriate iga kombinatsiooni jaoks oma (kolm toimetulekuastet meestel ja kolm naistel).

Keskmiselt kujuneb rahulolu tabelis 1 esitatud regressioonimudeli põhjal järgmiselt:

lahedalt ära elavad mehed  →   5,45 – 0,51 + 2,61 + 0,59 = 8,14

lahedalt ära elavad naised →   5,45 + 2,61 = 8,06

toime tulevad mehed →   5,45 – 0,51 + 1,20 + 0,58 = 6,72

toime tulevad naised →   5,45 + 1,20 = 6,65

toimetulekuraskustega mehed→   5,45 – 0,51 = 4,94

toimetulekuraskustega naised →   5,45

Vabaliige näitab sõltuva tunnuse keskmist seletavate tunnuste nullväärtuse korral, st kategoriaalsete tunnuste taustakategooriate korral. Meie näites on selleks rühmaks toimetulekuraskustega naised. Näeme, et nende keskmine rahulolu on  5,45 usaldusvahemikuga 5,45±0,20 usaldusnivool 95%. Keskmine rahulolu selles rühmas on mõõdukas, jäädes ka alumise usalduspiiri 5,25 poolest siiski pisut kõrgemale kui skaala füüsiline keskpunkt.

Nagu eespool selgitatud, näitab koosmõjuga mudelis sõltumatu tunnuse peamõju sõltuva tunnuse keskmist, kui koosmõjus osalev teine sõltumatu tunnus on null, kategoriaalse tunnuse korral – taustakategooria. Meeste peamõju regressioonikordaja -0,51. Kui sellele liita vabaliige 5,45, siis saame teada toimetuleku raskustega meeste keskmise rahulolu. Kordaja näitab, kui palju erineb toimetulekuraskustega meeste keskmine rahulolu toimetulekuraskustega naiste keskmisest rahulolust. Miinusmärgiga kordaja näitab, et meeste hinnang on selles rühmas madalam kui naistel. Näeme ühtlasi, et see on madalaim vaadeldavas kuues rühmas.

Lahedalt ära elavate inimeste rühmale vastav  peamõju regressioonikordaja 2,61 näitab lahedalt ära elavate naiste ja toimetulekuraskustega naiste rahulolu keskmist erinevust.  Vabaliiget 5,45 lisades saame lahedalt ära elavate naiste keskmise rahulolu prognoosi 8,1, mis on väga kõrge rahuloluhinnang.  Toime tulevate inimeste rühmale vastav peamõju regressioonikordaja 1,2 ja see näitab, et toime tulevate naiste keskmine rahulolu on enam kui punkti võrra suurem kui toimetulekuraskustega naiste keskmine rahulolu. Vabaliiget lisades saame toime tulevate naiste keskmise rahulolu prognoosi 6,6, mis jääb alla lahedalt ära elavate naiste rahulolule, kuid on suurem kui toimetulekuraskustega naiste rahulolu.  

Asume nüüd peamise juurde. Koosmõju regressioonikordaja näitab „erinevuste erinevust“. Lahedalt ära elavate inimeste rühmas erineb meeste keskmise rahulolu erinevus naiste keskmisest rahulolust 0,59±0,60 võrra meeste ja naiste keskmise rahulolu erinevusest toimetulekuraskustega inimeste rühmas. (Paneme muidugi tähele seda, et usaldusvahemik usaldusnivool 95% katab vasakpoolse servaga riivamisi ka nullpunkti, seega võib üldkogumis kõnealune „erinevuste erinevus“ ka puududa.) Täpsemalt võiks öelda, et lahedalt ära elavate inimeste seas on keskmine erinevus naiste ja meeste rahulolus väiksem kui toimetulekuraskustega inimeste seas. Arvestada tuleb siin seda, et meeste peamõju on miinusmärgiga, kõik teised regressioonikordajad plussmärgiga ja plussmärgiga koosmõjutegur „tõstab“ meeste hinde naiste hindele lähemale. Lahedalt ära elavate inimeste rühmas on rahulolu soolised erinevused enam kui poole punkti võrra väiksemad kui toimetulekuraskustega inimeste rühmas. Analoogiliselt on toime tulijate rühmas on meeste ja naiste keskmine rahuloluhinnangute vahe 0,58±0,42 võrra väiksem  kui toimetulekuraskustega inimeste rühmas (siin ei kata usaldusvahemik nullpunkti). 

Sootunnuse ja toimetuleku koosmõju regressioonikordajad kahel esimesel toimetuleku astmel on seega praktiliselt võrdsed  (0,59 ja 0,58) mis tähendab seda, et naiste ja meeste keskmine rahulolu erinevus on nendes rühmades ühetaoline, sest need rühmad erinevad taustarühmast ühepalju. Muidugi ei tähenda see seda, et keskmine rahulolu oleks kahel esimesel toimetulekuastmel ühetaoline. Erinevuse eest „hoolitsevad“ mõlema toimetulekuastme peamõjud. Toimetulekuraskustega inimeste rühmas on meeste rahulolu keskmiselt 0,51 võrra madalam kui naistel ja see erinevus on märgatavalt suurem kui kahes esimeses toimetuleku rühmas, kus meeste ja naiste erinevus on vastavalt 0,59 – 0,51 = 0,08 ja 0,58 – 0,51 = 0,07. Kokkuvõtteks saame öelda, mida kehvem toimetulek, seda madalam eluga rahulolu, kuid toimetulekuraskused mõjutavad meeste puhul rahulolu langust tugevamalt kui naiste puhul. Toimetulekuraskuste negatiivne mõju rahulolule on meeste puhul teravam kui naiste puhul. Toimetulekuraskuste ilmnedes tuleb esile erinevus naiste ja meeste rahulolutasemes. Kahel esimesel toimetulekuastmel seda ei olnud. Rahulolutaseme kujunemine toimetuleku seisukohalt vaadates käib meestel ühtmoodi ja naistel teistmoodi. 

Võiksime kõnelda ka teisest koosmõju tunnusest – toimetulekust – lähtudes. Lahedalt ära elavate meeste ja toimetulekuraskustega meeste rahulolu keskmine erinevus on 0,59±0,60 võrra suurem kui sama erinevus naiste seas. Toime tulevate ja toimetulekuraskustega meeste rahulolu keskmine erinevus on 0,58±0,42 võrra suurem kui naistel.  See on seletus toimetulekuastmete vaheliste erinevuste kaudu, kõrvutades mehi ja naisi. Tulemus on sisuliselt muidugi sama, mis saame naiste ja meeste vaheliste erinevuste kaudu. Siin tuleb uurimisülesande ja sisulise ilmekuse järgi otsustada, kumbapidi seletus anda. Meie näites on see peaaegu ükskõik.

Joonisel 1  on kujutatud äsjavaadeldud mudeli alusel saadud rahulolu keskmine prognoos toimetuleku rühmiti naistel ja meestel. Näeme pilti, mille saime ka regressioonikordajate alusel: märgatav keskmise rahulolu erinevus naiste ja meeste vahel tuleb esile ainult toimetulekuraskustega rühmas.  Seda tüüpi jooniseid on koosmõju tõlgendamisel väga kasulik teha (iseäranis enne tõlgenduse juurde asumist, selleks tellida mudelit koostades ka mudeli kohaste keskmiste arvutus või diagramm).    

Milline tuleks rahulolu prognoos ainult peamõjusid sisalduvas mudelis? Tabelis 1a  on esitatud sellise mudeli regressioonikordajad. Ettearvatult hääbuvad statistilised soolised erinevused (sest need ilmnesid üksnes ühel toimetulekuastmel, joonis 1), kuid säilivad erinevused toimetulekurühmades. Lahedalt ära elavatel inimestel on rahulolu keskmiselt 2,8±0,3 punkti võrra kõrgem kui raskustes olijail, kui võrdleme meest mehega ja naist naisega, st teine sõltumatu tunnus on kindla väärtusega  (usaldusnivoo 95%). Toime tulijatel on rahulolu keskmiselt 1,4±0,2 võrra kõrgem kui raskustes olijail, kui võrdleme meest mehega ja naist naisega.

Joonisel 1a  on kujutatud koosmõjuta mudeli kohaseid prognostilisi keskmisi analoogiliselt joonisega 1. Näeme vaevumärgatavat ja ühesuurust erinevust naiste ja meeste keskmistes kõigil kolmel toimetulekuastmel. „Erinevuste erinevus“ on üks ja sama, sest me ei eelda mudelit koostades, et see võiks olla erisugune. Võrreldes koosmõju sisaldava mudeliga, on meie vaade rahulolu kujunemisele pealiskaudsem.

Meie lihtsa näite korral võib tekkida küsimus, miks murda hambaid „erinevuste erinevuse“ kallal, kui lihtne eraldi analüüs naistel ja meestel annaks sisu poolest samuti võimaluse vaadelda erinevusi. Tõsi, aga enama kui kahe väärtusega tunnuse koosmõju selgitamiseks tekiks eraldi mudeleid rohkem kui kaks ja pealegi on vähegi suuremate regressioonimudelite võrdlus üsna tülikas ülesanne. Interaktsioonitegur lisab analüüsi kompaktsust ja mõtlemise ökonoomiat.

Mudel 2. Jätkame rahuloluhinnangute prognoosimisega, kuid vaatleme sootunnuse asemel vanust täisaastates. Kui palju keskmiselt varieerub rahulolu eluga olenevalt hinnangust toimetulekule ja vanusest? Kuivõrd erinev on keskmine rahulolu eri vanuses inimestel toimetuleku eri astmeil?  Kas vanus mõjutab toimetuleku efekti rahulolu suhtes? Kui koosmõju on märgatav, siis tuleb ka välja tuua, milles see seisneb.

Tunnused:

sõltuv tunnus – rahulolu skaalal 0 kuni 10, mida suurem arv, seda suurem rahulolu; keskmine rahulolu on 6,5 standardhälbega 2,2.

seletavad tunnused – vanus standardiseeritult; keskmine vanus 50 aastat, standardhälbega 19 aastat (standardiseeritult on keskmine 0 ja standardhälve 1) ja toimetulek (1-elame lahedalt ära – 13%, 2-tuleme toime – 57%, 3-on raskusi või suuri raskusi – 30%).

Mudel 2 on lineaarne järgmise skeemi kohaselt:

                       rahulolu = vabaliige + b1 ∙ vanus + b2 ∙ toimetulek + c ∙ (vanus∙ toimetulek).                   

Mudeli kirjeldusastmeks tuli 18%. Analüüs näitas, et mudel toimib enamjaolt tänu peamõjudele (vanuse ja toimetuleku regressioonikordajate olulisuse tõenäosused on vastavalt p = 0,001 ja p < 0,05%), sest koosmõjule vastavad regressioonikordajad on nõrga statistilise usaldusväärsusega (toimetuleku esimese ja teise kategooriaga seotult vastavalt p = 0,053 ja p > 0,3). Tabelis 2  on esitatud mudeli regressioonikordajad ja nende usaldusvahemikud usaldusnivool 95%. Et vanust käsitleme pideval skaalal ja toimetulekut kategooriatena, siis saame koosmõjutegurile kaks regressioonikordajat (ühe võrra vähem kategooriate arvust, toimetuleku taustakategooria jaoks regressioonikordaja võrdub nulliga).

Tabelis 2 peituvad kolme toimetulekurühma järgmised regressioonimudelid:

lahedalt toime tulijad →   5,36 – 0,29 st vanus + 2,76 + 0,32 st vanus = 5,36 + 2,76 + 0,03 st vanus

toime tulijad →   5,36 – 0,29 st vanus + 1,31 + 0,01 st vanus = 5,36 +1,31 – 0,28 st vanus

toimetulekuraskustega inimesed →   5,36 – 0,29 st vanus

Vabaliige väljendab keskmises vanuses (standardiseeritult 0) ja toimetulekuraskustes inimese keskmist rahulolu, mis on keskmiselt 5,4 punkti (meenutame, et üldkeskmine rahulolu on 6,5).

Toimetuleku kategooriate regressioonikordajad peamõjudena näitavad keskmises vanuses lahedalt toime tuleva inimese keskmist rahulolu (kordaja 2,76 pluss vabaliige 5,36, st 8,1 punkti) ja praeguse sissetuleku juures toime tuleva keskmises vanuses inimese keskmist rahulolu (kordaja 1,31 pluss vabaliige 5,36, st 6,7 punkti). Seega keskmises vanuses inimese keskmine rahulolu vaadeldaval kolmel toimetulekuastmel on vastavalt 8,1, 6,7 ja 5,4.

Meenutame, et vanuse standardhälve on 19 aastat. Vanuse peamõju näitab, et vanuse ühe standardhälbe ehk 19 aasta suurune vahe muudab toimetulekuraskustes inimeste (teise sõltumatu tunnuse taustarühm) rahuloluhinnet keskmiselt 0,29 punkti võrra, nimelt vanemal inimesel madalama rahulolu poole. Siin lisame praktilise näpunäite: mõistlikum olnuks vanus tsentreerida (nihutada nullpunkt keskpunkti), mitte standardiseerida (muuta tunnuse mastaapi ja ühikut), sest siis saaksime regressioonikordajat tõlgendada otse vanuse aastates toimuvate muutuste kaudu (mitte standardhälbe „ühikutes“, nagu nüüd).

Koosmõjuteguri kordajaid on jälle kaks: lahedalt ära elavate inimeste rühma jaoks ja toime tulevate inimeste rühma jaoks toimetulekuraskustes inimeste rühma kui taustarühma suhtes. Regressioonikordaja 0,32 lahedalt ära elavate inimeste puhul näitab, et iga täiendav „ühik“ vanust tähendab 0,32 võrra suuremat keskmise rahulolu muutust rahulolu suurenemise poole kui toimetulekuraskustes inimeste korral (usaldusvahemik usaldusnivool 95% jääb suures osas siiski positiivsele poolele, kuigi katab servapidi ka nulli). Koosmõjuteguri panus regressioonivõrrandis vähendab tõhusalt vanuse negatiivset mõju rahuloluhinnangule võrreldes toimetulekuraskustes inimeste rühmaga.

Regressioonikordaja 0,01 toime tulevate inimeste rühma puhul näitab, et iga täiendav „ühik“ vanust suurendab keskmist rahulolu vaid 0,01 võrra enam kui toimetulekuraskustes  inimeste korral, st praktiliselt ühel ja samal määral. Teiste sõnadega, toime tulevate inimeste ja toimetulekuraskustes inimeste puhul on vanuseline sõltuvus sarnane. Vanuse peamõju arvestades tähendab see standardhälbe suuruse vanusevahe korral vanemal inimesel keskmiselt 0,28-0,29 võrra  madalamat rahulolu. Võiksime öelda, et vanus võimendab toimetulekuraskuste negatiivset mõju eluga rahulolu suhtes, välja arvatud lahedalt ära elavate inimeste puhul.

Joonisel 2   on kujutatud vanusest olenevalt (horisontaalteljel on vanus aastates) mudeli 2 alusel prognoositud keskmisi rahuloluhinnanguid kolmes toimetulekurühmas. See, et keskmiste kulg vanuse seisukohalt on sirgjoon, ei tohiks üllatada, sest kasutame üht ja sama regressioonikordajat vanuse kogu ulatuses. Näeme selgelt ka seda, millest kõneles praktiliselt nulliga võrduv toime tulevate inimeste rühma koosmõjutegur: selles rühmas on vanuseline sõltuvus sama mis toimetulekuraskustes inimeste rühmas. Ainsana on lahedalt ära elavate inimeste rühm see, kus rahuloluhinnang ei olene sellest, kui vana keegi on. Mida eakam on lahedalt ära elav inimene, seda enam lahkneb tema rahuloluhinnang kahes ülejäänud rühmas samas vanuses inimese rahulolust (on sellest suurem), muidugi keskelt läbi kõneldes.

Tabelis 2a  on esitatud äsjavaadeldud mudeli 2 analoog ilma koosmõjutegurita. Et koosmõju oli nõrk, siis ei ole peamõjudes tabelites 2 ja 2a suurt vahet, kuid vanuse negatiivne mõju kõigi toimetulekurühmade peale kokku on siiski väheke nõrgem kui koosmõjuga mudelis. Nii peakski olema, sest lahedalt ära elavate inimeste rühmas oleneb rahulolu vanusest vähem kui ülejäänud rühmade puhul. 

Koosmõjutegur logistilises regressioonimudelis

Soovitan kõigepealt tutvuda arutlustega logistilise regressioonimudeli tõlgendamise kohta, mis on üles kerkinud nn varjatud heterogeensuse probleemidest, lihtsustatult öeldes: mudelisse kaasamata oluliste  mõjutegurite tõttu (vt nt https://gupea.ub.gu.se/bitstream/2077/44762/1/gupea_2077_44762_1.pdf ; http://www.maartenbuis.nl/wp/uh_logistic.pdf ; Mood, C. (2010). Logistic regression: Why we cannot do what we think we can do, and what we can do about it. European sociological review, 26(1), 67-82;). Alljärgnevaid seletusi tuleks võtta nendest tekstidest tulenevate hoiatuste valguses.

Vaatleme regressioonimudelit, mille abil saab prognoosida teatava oleku või sündmuse tõenäosust. Et tõenäosus on tõkestatud arvude 0 ja 1 vahel, siis on otsene matemaatiline prognoos keeruline ja tõenäosuse asemel vaadeldakse mitmeid selle teisendusi. Üks nendest on logitteisendus, mil regressioonimudeli alusel prognoositakse keskmise asemel logaritmskaalal väljendatud suhtelist tõenäosust antud sündmuse toimumiseks mingi taustsündmuse toimumise tõenäosuse suhtes (Tooding, 2015, ptk 8.1; täistekst TÜ arvutivõrgus http://site.ebrary.com/lib/tartuuniversity/detail.action?docID=11150294). Kui lihtsustuseks vaadelda taustsündmusena vastandsündmust (vaadeldava sündmuse mittetoimumist) ja piirduda kahe sõltumatu tunnusega, siis saame logistilise regressiooni mudeli:

Y = ln [p / (1 - p) ] = b0 + b1∙X1 + b2∙X2 + c ∙X1X2     ← lisandub viga,

kus p on vaadeldava sündmuse tõenäosus. Suhe o = p / (1 – p) väljendab šansse (suhtelist tõenäosust) sündmuse toimumiseks mittetoimumise suhtes (kasutame tähistust o ingliskeelse nimetuse odds järgi). Šansse  käsitleme logaritmskaalal, kus prognoositav suurus võib katta kogu arvtelje esialgse 0…1 lõigu asemel.

Regressioonikordajaid võib logistilises regressioonimudelis lahti mõtestada mitmel eri viisil. Esiteks, regressioonikordajaid võib tõlgendada nagu mudelites 1 ja 2, st kõnelda logitsuhte keskmistest muutustest ehk logaritmilise suhtelise tõenäosuse keskmistest muutustest sõltumatute tunnuste muutude korral (koosmõjuteguri seletus „erinevuste erinevuse“ võtmes). Et logaritmskaalal on intuitiivselt raske mõelda, siis püütakse regressioonikordajate tähendust enamjaolt avada ka suhtelise tõenäosuse seisukohalt või esitada mudelit hoopis mudeli alusel prognoositud tõenäosuste kaudu.

Teise tõlgendusviisi seletamiseks meenutame kõigepealt, et ainult peamõjusid sisaldavas logistilise regressiooni mudelis on peamõju regressioonikordaja eksponentastmel võrdne sündmuse  šansside suhtega arvutatuna sõltumatu tunnuse antud astmest ühiku võrra suuremal astmel antud astme suhtes, kui teised sõltumatud tunnused on püsival tasemel. Peamõju regressioonikordaja tõlgendus koosmõjuteguriga mudelis on analoogiline selle ja mitmese lineaarse regressioonimudeli puhul öelduga: eksponentastmele võetuna näitab peamõju regressioonikordaja sündmuse toimumise šansside suhet teise sõltuva tunnuse nullkohas (taustakategooria korral). 

Koosmõjuteguri regressioonikordaja näitab, kui mitme kordselt muutub ühe sõltumatu tunnuse šansside suhe selle tunnuse antud väärtusest suurema ja antud väärtuse vahel teise sõltumatu tunnuse ühikusuuruse muutuse korral. Tegemist on kahekordse suhtelisusega: sündmuse toimumise šansside suhe ühe sõltuva tunnuse muudu korral suhestatuna šansside suhtega teise sõltuva tunnuse muudu seisukohalt.  Kui eelmises osas kõnelesime sõltuva tunnuse keskmisest „erinevuste erinevusest“, siis logistilise regressioonimudeli puhul „šansside suhete suhtest“ eri tasemete vahel. Üksikasjalikumat  põhjendust vt siit

Šansside suhete suhe

Koosmõjuteguri tõlgendamiseks meenutame kordaja c tähendust osast 1 ja arvutame vahe c = D2 – D1, arvestades sõltuva tunnuse tähendust selles mudelis:



kus OR tähistab šansside suhet (i.k. odds ratio) ühe sõltumatu tunnuse antud väärtusest ühiku võrra suurema ja antud väärtuse vahel ja püstkriipsu taga on märgitud teise sõltumatu tunnuse väärtus. Seega on šansside suhete suhe võrdne eksponentastmele võetud koosmõjuteguri kordajaga:



Koosmõjuteguri regressioonikordaja näitab, kui mitme kordselt muutub ühe sõltumatu tunnuse šansside suhe antud väärtusest ühiku võrra suurema ja antud väärtuse vahel teise sõltumatu tunnuse ühikusuuruse muutuse korral. Kui eelmises osas kõnelesime sõltuva tunnuse keskmisest „erinevuste erinevusest“, siis selles osas – „šansside suhete suhtest“ eri tasemete vahel.

 .

Kolmas võimalus regressioonimudeli seletamiseks seisneb mudelikohaste prognooside kasutamises – mudeli puhul eritletud rühmade keskmise tõenäosuse esiletoomises. Lihtne algebraline teisendus näitab, et meie mudeli korral tuleb tõenäosuse prognoosiks

Varieerides sõltumatute tunnuste väärtusi saame selle valemi abil tuletada huvipakkuvaid prognostilisi tõenäosusi ja neid omavahel kõrvutada.

Vaatleme Euroopa sotsiaaluuringu 2014 andmeil Eesti vähemalt 21 aasta vanuseid inimesi. Poliitikahuvi väljendati algselt neljaastmelisel skaalal: 1-väga huvitatud, 2-küllaltki huvitatud, 3-vaevalt huvitatud ja 4-üldse ei ole huvitatud. Teisendasime skaala kaheväärtuseliseks, ühendades kaks esimest (lühidalt: on poliitikahuvi) ja kaks viimast kategooriat (poliitikahuvi ei ole). Poliitikahuvi poolel on 46% küsitletuist. Naisi on vastajate seas 60% ja lähedase erakonna leidnuid 53%. Küsitletuid oli üle 1700. Selles mudelis kasutame statistilist usaldusnivood 90%, mis sobib hästi kokku poliitikahuvi skaala subjektiivse loomusega. Mõlemat sõltumatut tunnust käsitleme dihhotoomsena skaalal 1 ja 0, taustakategooriateks vastavalt „naine“ ja vaadetelt lähedase erakonna puudumine. Lähedase erakonna leidumine ei pruugi tähendada selle liikmeks olekut.

Mudel 3. Otsime koosmõjuteguriga logistilise regressioonimudeli abil vastuseid järgmistele küsimustele. Kuivõrd kinnitavad oma poliitikahuvi naised ja kuivõrd mehed, kuivõrd endale lähedaste põhimõtetega erakonna leidnud inimesed ja kuivõrd lähedast erakonda mitteleidnud inimesed? Kuivõrd erineb naiste ja meeste poliitikahuvi sellest  olenevalt, et on leitud endale lähedaste vaadetega erakond?

Koostasime järgmise skeemi kohase mudeli 3 poliitikahuvi tõenäosuse prognoosimiseks:

       Y = ln [p / (1 - p)] = b0 + b1∙sugu + b2∙erakonna olemasolu + c∙ sugu erakonna olemasolu + viga.       

Mudel õnnestus statistilise usaldusväärsuse mõttes: üldtesti hii-ruut-statistik võrreldes ainult vabaliiget sisaldava mudeliga (nö konstantse mudeliga) on 147 vabadusastmete arvuga 3 (p < 0,0005), mõlemad peamõjud ja koosmõjutegur on usaldusväärsed vähemalt usaldusnivool 90%.  

Regressioonikordajad on esitatud tabelis 3 .  Kõneleme mudelist kõigepealt logitsuhte seisukohalt, logaritmilise suhtelise tõenäosuse kaudu. Vabaliige tähendab logitsuhte väärtust naistel, kes ei ole leidnud lähedaste põhimõtetega erakonda, ja see on vähim logitsuhte väärtus (vähim poliitikahuvi tõenäosus) vaadeldavas neljas rühmas, mida meie näites saab moodustada sõltumatute tunnuste kategooriatest. Poliitikahuvi logaritmiline suhteline tõenäosus on naistel lähedase erakonna leidudes 0,87 võrra suurem (usaldusvahemik 0,66 kuni 1,09 usaldusnivool 90%) kui lähedase erakonna puudumise korral (lähedase erakonna tunnuse peamõju tähendus). Samuti võime öelda, et poliitikahuvi logaritmiline suhteline tõenäosus on lähedase erakonna puududes meestel keskmiselt 0,29 võrra suurem kui naistel (usaldusvahemik 0,04 kuni 0,54 usaldusnivool 90%; sootunnuse peamõju). Poliitikahuvi logaritmilise suhtelise tõenäosuse erinevus meestel ja naistel on vaadetelt lähedase erakonna olemasolul 0,47 võrra suurem (usaldusvahemik 0,13 kuni 0,81 usaldusnivool 90%) kui meeste ja naiste poliitikahuvi logaritmilise suhtelise tõenäosuse erinevus vaadetelt lähedase erakonna puudumise korral (koosmõju). „Logaritmiline suhteline tõenäosus“ ja tõenäosus muutuvad sõltumatute tunnuste seisukohalt küll sarnaste seaduspärade järgi, kuid sellist mudelit on raske mõista.

Seepärast anname nüüd seletuse ka suhtelise tõenäosuse (šansside) kaudu, kasutades regressioonikordajaid eksponentastmel. Vabaliikme alusel saame öelda, et šansid leida meie üldkogumist juhuslikult valitud naise näol poliitikahuviline, kui ta ei kinnita vaadetelt lähedase erakonna olemasolu, on 0,43. Šansid saada poliitikahuviline on alla poole – pigem saaksime mitte-poliitikahuvilise kui poliitikahuvilise naisisiku (usaldusvahemik usaldusnivool 90% ulatub napilt üle poole: 0,37…0,51).

Näeme ka, et naistel (taustakategooria) on suhteline tõenäosus olla poliitikahuviline lähedase erakonna olemasolul 2,40 korda suurem kui lähedase erakonna puudumisel (erakonna olemasolu peamõju, šansside suhe 2,40 usaldusvahemikuga 1,93 kuni 2,97 usaldusnivool 90%).

Kui lähedast erakonda ei ole, siis on meeste suhteline tõenäosus olla poliitikahuviline 1,34 korda suurem kui naistel (sootunnuse peamõju, šansside suhe 1,34 usaldusvahemikuga 1,04 kuni 1,72 usaldusnivool 90%).

Koosmõju tegurist näeme, et šansside suhe olla poliitikahuviline meestel naiste suhtes on vaadetelt lähedase erakonna olemasolul 1,60 korda suurem kui olukorras, kus lähedast erakonda ei ole (sootunnuse ja lähedase erakonna olemasolu koosmõjutegur, šansside suhete suhe 1,6 usaldusvahemikuga 1,14 kuni 2,25 usaldusnivool 90%). Meeste puhul ületavad šansid leida poliitikahuviline lähedase erakonna olemasolul šansse leida poliitikahuviline lähedase erakonna puudumisel tugevamalt kui naiste seas.  Lähedase erakonna leidumine kallutab mehi poliitikahuvi poole tugevamalt kui naisi.

Kui sõltumatu tunnus on pidev, siis vaadeldakse tõlgenduses šansside suhteid sõltumatu tunnuse ühiku võrra suurema ja antud väärtuse vahel. Lisame ka, et šanssidest on mõnikord kohmakas ja kunstlik kõnelda, mõnikord aga sugugi mitte, nt šansid võita kaotamise vastu. Oluline on silmas pidada mitmekordset suhtelisust: suhteline tõenäosus ehk šansid (peegeldab sõltuvat tunnust), šansside suhted (sõltumatu tunnuse peamõju regressioonikordajad), šansside suhete suhted (koosmõjuteguri regressioonikordaja). Võib nõustuda, et logistilise interaktsioonidega regressioonimudeli tõlgendus ja järelduste sõnastus ei ole lihtne.  

Kui suur konkreetselt tuleb poliitikahuvi tõenäosus vaadeldavas neljas sõltumatute tunnuste kategooriate kombineerimisel tekkivas rühmas? Arvutame tõenäosuse prognoosid, kasutades eespoolnimetatud kolmandat teed regressioonimudeli sisulise tähenduse seletamiseks.

Tabel 3 määrab neli mudelit logitsuhte jaoks järgmiste tõenäosuse prognoosidega (e astmed ja muud arvutused võib teha Exceli abil või lasta marginaalkeskmised marginal means arvutada otse mudeli koostamise ajal, enamasti leidub selleks võimalus):

lähedase erakonna leidnud mehed → -0,837 + 0,873 + 0,291 + 0,469 = 0,796 →  p = 0,69 (lähedase erakonna leidnud mehe poliitikahuvi tõenäosus, ei ole mingit pistmist olulisuse tõenäosusega, sama allpool),

lähedase erakonna leidnud naised → -0,837 + 0,873 = 0,036 → p = 0,51 (lähedase erakonna leidnud naise poliitikahuvi tõenäosus),

lähedase erakonnata mehed → -0,837 + 0,291 = -0,546 → p= 0,37 (lähedase erakonda mitteleidnud mehe poliitikahuvi tõenäosus),

lähedase erakonnata naised → -0,837 → p = 0,30 (lähedast erakonda mitteleidnud naise poliitikahuvi tõenäosus).

Selline tõenäosuste prognoos võimaldab keskmiselt iseloomustada eri rühmi ja on hästi arusaadav tulemuste kirjeldamise viis. Seletus šansside suhete ja logaritmiliste šansside kaudu kipub jääma abstraktseks, kuid sobib üldiste mõjusuundade kirjeldamiseks. Loomulikult on tulemused heas kooskõlas. Saadud neli tõenäosust on suuruse poolest just sellises järjekorras, nagu nägime pea- ja koosmõjude kaudu: vähim lootus leida poliitikahuviline on lähedast erakonda mitteleidnud naiste seas, järgnevad erakonda mitteleidnud mehed, lähedase erakonna leidnud naised ja suurim tõenäosus leida poliitikahuviline on lähedase erakonna leidnud meeste seas. Tõlgendus regressioonikordajate kaudu võimaldas võrrelda neid tõenäosusi ka suuruse poolest. Veendume selles.

Hindame nende tõenäosuste abil šansside suhteid (vrdl tabelis 3 veeruga exp(b)):

naised, erakonnaga versus erakonnata → (0,51:0,49) : (0,30:0,70) = 2,4 → tabelis 2,40,

erakonnata, mehed versus naised → (0,37:0,63) : (0,30:0,70) = 1,4 → tabelis 1,34,

mehed (erakonnaga versus erakonnata) versus naised (erakonnaga versus erakonnata) →

→ [(0,69:0,31) : (0,37: 0,63)] : [(0,51:0,49) : (0,30 : 0,70)] = 1,56 → tabelis 1,60.

Arvestades meie küllalt väikest arvutustäpsust, on kooskõla hea. Saime võib-olla tugevamalt jalad maha regressioonikordajate mõistmises.

Vaatame lõpuks üle ka analoogilise peamõjude mudeli. Osutub, et peamõjude mudeli korral üldtesti hii-ruut-statistik on väiksem interaktsiooniteguriga mudeli omast: vastavalt 142 kahe vabadusastmega ja 147 kolme vabadusastmega, mis tähendab statistilist erinevust 5 ühe vabadusastmega (p<0,05). Üldtesti kohaselt parandab interaktsioonitegur mudelit võrreldes ainult peamõjusid sisaldava mudeliga.

Tabelist 3a  näeme, et lähedase erakonna olemasolu tõstab keskelt läbi 2,9 korda šansse olla poliitikahuviline, kui võrrelda meest mehega ja naist naisega. Samuti võib öelda, et juhuslikult meeste seast valides on šansid poliitikahuvilist kohata 1,7 korda suuremad kui naiste seast valides (veerg exp(b)).  Võrreldes koosmõjutegurit sisaldava mudeliga (tabel 3) on need šansside suhted suuremad, kuid kaotsi läheb teadmine, et lähedase erakonna olemasolu aktiviseerib naiste poliitikahuvi nõrgemalt kui meestel.

Koosmõjutegur ordinaalses regressioonimudelis

Vaatleme nüüd logistilise regressioonimudeliga väga sarnast mudelit, mille korral sõltuv tunnus on küll kategoriaalne, aga toetume üksnes kategooriate järjestatusele, eritlemata üksikkategooriaid ühekaupa. Jutt käib ordinaalsest regressioonimudelist (Tooding, 2015, ptk 8.2; täistekst TÜ arvutivõrgus http://site.ebrary.com/lib/tartuuniversity/detail.action?docID=11150294), mil järjestusskaala teatud poolituspunktis püstitatakse ülesanne hinnata sõltuva tunnuse väärtuse kuulumise tõenäosust poolituspunktist ettepoole selle vastu, et kuuluda tahapoole. Mudel koostatakse nii, et ettepoole kaldumise tõenäosuse mõjuteguril on üks ja sama regressioonikordaja mis tahes poolituspunkti jaoks. Vaadatakse läbi kõik poolituspunktid: 1. ja 2. väärtuse vahel, 2. ja 3. väärtuse vahel jne kuni poolituspunktini viimase väärtuse eel. Iga poolituse korral koostatakse regressioonimudel selle poolituspunkti jaoks, kasutades erisugust vabaliiget, kuid ühtesid ja samu sõltumatute tunnuste regressioonikordajaid. Vabaliikmetele mudeli tõlgendamisel tavaliselt tähelepanu ei pöörata. Mudeli teiste liikmete tõlgendus on analoogiline logistilise regressioonimudeli tõlgendusele ja me rakendame seda kohe näitel, ilma üldise seletuseta. 

Mudel 4. Otsime ordinaalse koosmõjutegurit sisaldava regressioonimudeli abil vastust järgmistele küsimustele. Kuivõrd kinnitavad poliitikahuvi naised ja mehed, endale vaadetelt lähedaste põhimõtetega erakonna leidnud inimesed (mitte tingimata erakonnaliikmed) ja mitteleidnud? Kuivõrd erineb naiste ja meeste poliitikahuvi sellest  olenevalt, et on olemas endale lähedaste vaadetega erakond?

Vaatleme Euroopa sotsiaaluuringu 2014 Eesti andmeid (vastajad alates 16. eluaastast). Poliitikahuvi väljendati algselt neljaastmelisel järjestusskaalal: 1-väga huvitatud, 2-küllaltki huvitatud, 3-vaevalt huvitatud ja 4-üldse ei ole huvitatud. Teisendasime skaala kolmeväärtuseliseks, ühendades kaks viimast sisu poolest lähedast kategooriat (poliitikahuvi ei ole). Jaotus sellel skaalal on vastavalt 7%, 38% ja 55%. Naisi on vastajate seas 59% ja lähedase erakonna leidnuid 52%. Küsitletuid oli üle 1800.

Mõlemat seletavat tunnust käsitleti dihhotoomsena skaalal 0 ja 1 taustaväärtustega „naine“ ja „vaadetelt lähedase erakonna puudumine“. Sõltuva tunnuse puhul vaadeldi järgmisi poolitusi:

väga huvitatud versus küllaltki, vaevalt või üldse mitte huvitatud; tõenäosused vastavalt p1 ja 1 - p1.

väga või küllaltki huvitatud versus vaevalt või üldse mitte huvitatud; tõenäosused vastavalt p2 ja 1 - p2.

Koostasime järgmise skeemi kohase mudeli 4 poliitikahuvi tõenäosuse prognoosimiseks:

              Y = ln [pi / (1 - pi) = b0i + b1∙sugu + b2∙erakonna olemasolu + c∙ sugu erakonna olemasolu,     

kus i = 1, 2.

Mudel õnnestus statistilise usaldusväärsuse mõttes: üldtesti hii-ruut-statistik võrreldes vabaliiget sisaldava mudeliga on 165 vabadusastmete arvuga 3 (p<0,0005), mõlemad peamõjud ja koosmõjutegur on usaldusväärsed vähemalt usaldusnivool 95%. 

Regressioonikordajad on esitatud tabelis 4 . Seletus vahetult regressioonikordajate kaudu võimaldab ütelda, et lähedase erakonna olemasolu naistel tõstab logaritmilist suhtelist tõenäosust kalduda pigem suurema kui väiksema poliitikahuvi poole 0,88 võrra (usaldusvahemik usaldusnivool 90% on 0,67...1,09). Lähedase erakonna puudumisel on meestel logaritmiline suhteline tõenäosus kalduda suurema poliitikahuvi poole 0,20 võrra suurem kui naistel (usaldusvahemik  on -0,04...0,44 usaldusnivool 90%, st vahe võib ka puududa küllalt suure tõenäosusega). Koosmõjutegurist näeme, et logaritmilise suhtelise tõenäosuse vahe kalduda suurema poliitikahuvi poole on meeste ja naiste vahel lähedase erakonna leidudes 0,50 võrra suurem kui sellise erakonna puudumisel (usaldusvahemik 0,19...0,82 usaldusnivool 90%). Meestel on lähedane erakond tugevam poliitikahuvi poole kallutaja kui naistel.

Tabelis 4 esitatud tulemused on sisuliselt väga lähedased mudeli 3 põhjal tehtud järeldustele. Nii see peabki olema, vaatamata sellele, et muutsime pisut andmebaasi (alla 21-aasta vanused lisatud) ja võtsime kasutusele detailsema poliitikahuvi skaala (kolm astet kahe asemel). Mudeli 3 kohane seaduspära oli tugev ja jäi püsima.

Kõneleme nüüd samadest seaduspäradest suhteliste tõenäosuste keeles. Näeme, et naiste seas on lähedase erakonna olemasolul 2,4 korda (1,96 kuni 2,97 korda usaldusnivool 90%) suuremad šansid leida suurema poliitikahuvi poole kalduja võrreldes sellise erakonna puudumise juhuga (lähedase erakonna peamõju). Samuti näeme, et lähedase erakonnata inimeste seas on meeste  šansid kalduda suurema poliitikahuvi poole  1,2 korda (0,97 kuni 1,56 korda usaldusnivool 90%) suuremad kui naistel, kuid osutatud vahemik katab napilt ka väärtuse 1 ehk võrdsete šansside juhu (sootunnuse peamõju). Seega lähedast erakonda määratlemata naiste ja meeste paigutuses poliitikahuvi skaalal suuri erinevusi ei ilmne. Koosmõjutegur osutab, et meeste puhul on suurema poliitikahuvi poole kaldumise šansside suhe lähedase erakonna olemasolul selle puudumisega võrreldes 1,66 korda suurem kui vastav suhe naistel (usaldusvahemik 1,20...2,28 usaldusnivool 90%). See tähendab, et meeste puhul kallutab lähedase erakonna määratletus tugevamalt poliitikahuvi suunas kui naiste puhul.

Esitatud tõlgenduses mõeldakse „poliitikahuvi suunas kaldumise“ all üheaegselt mõlemat skaala poolitust, nii 1 versus 2+3 kui ka 1+2 versus 3. Kas üks ja sama regressioonikordaja sobib ka päriselt mõlemal juhul, see on küsimus, mille jaatava vastuse võtsime eelduseks (on olemas eraldi testid, nn paralleelsuse testid selle uurimiseks).

Vaatame lõpuks üle ka ainult peamõjusid sisaldava mudeli. Üldtesti hii-ruut-statistik võrdlemisel ainult vabaliiget sisaldava mudeliga on 158 kahe vabadusastmega, mis erineb 165 – 158 = 7 võrra ühe vabadusastme korral tabelis 4 esitatud mudeli kohasest hii-ruut-statistikust. See tähendab statistiliselt halvemat mudelit (p<0,05) ja tõendab koosmõjuteguri vajalikkust ka sobitusastme poolest lisaks sisulisele panusele. Tabelis 4a  on esitatud peamõjudega mudeli regressioonikordajad. Koosmõju sisaldava mudeliga võrreldes näeme tugevamaid peamõjusid, kuid kaotsi läheb nüanss, et lähedase erakonna olemasolu kujundab poliitikahuvi naistel ja meestel erisuguselt.

Koosmõjutegur Poissoni regressioonimudelis

Vaatleme veel üht regressioonimudeli tüüpi – Poissoni regressioonimudelit (populaarseks sissejuhatuseks, kui seni ei ole olnud kokkupuuteid, võiks sobida nt Wikipedia artikkel, põhjalikumalt vt nt  http://data.princeton.edu/wws509/notes/c4.pdf). Mudel on sageli abiks loendustulemuste prognoosimisel, kui sõltuv tunnus on ligikaudu Poissoni jaotusega Klikitav tekst Poissoni jaotus Analoogiliselt kahe eelneva osaga, kasutame ka siin prognoositava tunnuse keskmise teisendust, nimelt logaritmi kujul. Teatavasti on logaritmimine järjestust säilitav (monotoonne) tehe, kusjuures logaritmskaalal „surutakse kokku“ suured väärtused ja näidatakse üksteisest selgemalt erinevalt väikesi väärtusi. Väiksemad loendustulemused eristuvad logaritmskaalal võrreldes esialgse skaalaga üksteisest selgemalt kui suuremad.

Vaatleme sõltuva tunnuse W prognoosimudelit kujul:

Y = ln W  = b0 + b1∙X1 + b2∙X+ c∙ X1X2        ← lisandub viga

Osutub, et selle mudeli peamõju regressioonikordaja eksponentastmel näitab, kui mitme kordselt muutub ühe sõltumatu tunnuse ühikulise muudu korral sõltuva tunnuse prognoos teise sõltumatu tunnuse nullkohas. Koosmõjuteguri kordaja c eksponentastmel näitab, kui mitme kordne on ühe sõltumatu tunnuse ühikulise muudu tõttu tekkiv sõltuva tunnuse prognooside suhe teise sõltumatu tunnuse ühikulise muudu korral. Kui see suhe on 1, siis koosmõju kahe sõltumatu tunnuse vahel sõltuva tunnuse suhtes ei ole ja kummagi tunn]nuse efekt kujuneb teise väärtusest olenemata (st = 0). Kui see suhe ei ole 1, siis mõjutab üks sõltumatu tunnus teise sõltumatu tunnuse mõju sõltuva tunnuse suhtes ja täheldame koosmõju. Lähemalt vt siit.

Juurdekasvude suhe

„Erinevuste erinevus“ c taandub Poissoni mudeli korral järgmiseks avaldiseks:



Seega kehtib seos



Koosmõjuteguri kordaja näitab, kui mitme kordne on sõltumatu tunnuse ühikulise tõusu korral sõltuva tunnuse prognooside suhe teise sõltumatu tunnuse ühikulise kasvu korral. Kui see suhe on 1 (st = 0), siis interaktsiooni kahe sõltumatu tunnuse vahel ei ole ja kummagi tunnuse efekt kujuneb teise väärtusest olenemata. Kui see suhe ei ole 1, siis mõjutab ühe mõju sõltuva tunnuse suhtes teine.

Peamõju tõlgenduse saame, kui vaatleme sõltuva tunnuse väärtust sõltumatu tunnuse ühiku võrra suurema ja antud väärtuse korral teise sõltumatu tunnuse nullkohas:



Sellest saame, et  regressioonikordaja eksponentastmel näitab, kui mitme kordselt muutub ühe sõltumatu tunnuse ühikulise suurenemise korral sõltuva tunnuse keskmine prognoos teise sõltumatu tunnuse nullkohas. 

 

Vaatleme näitena Euroopa sotsiaaluuringu 2014 Eesti andmeil leibkonnaliikmete arvu, vastaja ise välja arvatud, st muutujat väärtustega, 0, 1, 2, … . Jaotusest joonisel 3  näeme, et veerand leibkondadest on üheliikmelised ja pisut üle kolmandiku kaheliikmelised. Viiest enama liikmega peresid on vähe. Keskmine liikmete arv on 1,51 dispersiooniga 1,61. Seega on tunnuse keskmine ja dispersioon lähedased, mis ehtsa Poissoni jaotuse puhul peakski nii olema.

Mudel 5. Otsime koosmõjutegurit sisaldava Poissoni mudeli abil vastust järgmistele küsimustele. Kuivõrd saaks leibkonnaliikmete arvu ennustada hinnangu kaudu oma toimetulekule praeguse sissetuleku juures, seejuures olenevalt sellest, kus keegi elab? Kuivõrd varieerub liikmete arv elukoha seisukohalt? Kuivõrd varieerub liikmete arv toimetuleku eri astmeil? Pereliikmete arvust on vastaja ise välja arvatud.

Elukohta iseloomustati asumi tüübi kaudu: suurlinn (Tallinn, 34%), suurlinna eeslinna (10%), linn või väikelinn (41%), maakoht või maa-asula (15%). Toimetuleku skaala on selles ülesandes kaheväärtuseline: elame ära lahedalt või tuleme toime (70%), on raskusi või suuri raskusi (30%). Indiviidide arv on 1900. Elukohatunnust kajastatakse mudelis kolme dihhotoomse indikaatoriga vastavalt suurlinna, suurlinna eeslinna ja väiksema linna jaoks (taustaks maakoht) ja toimetulek on samuti dihhotoomne (taustaks „on raskusi või suuri raskusi“).

 Koostasime järgmise skeemi kohase mudeli 5 leibkonna liikmete arvu prognoosimiseks:

         Y = ln W = b0 + b1∙elukoht + b2∙toimetuleku hinnang + c elukoht toimetuleku hinnang.          

Väljaarvutatud mudel osutub kirjeldusvõime poolest tagasihoidlikuks. Üldtesti hii-ruut-statistiku väärtus võrdlemisel ainult vabaliiget sisaldava mudeliga on 54 seitsme vabadusastme korral ja elupaiga mõju peamõjuna jääb allapoole praktikas mõeldavat statistilise usaldusväärsuse piiri. Toimetulek on siiski statistiliselt mõjus tegur (olulisuse tõenäosus alla 0,0005) ja päris tähelepanuta ei saa jätta ka koosmõju (olulisuse tõenäosus tervikuna 6% kanti, üksikkomponentides vähem). Siinkohal võiks küsida, miks kehva näidet üldse tuua. „Päris“ ülesannetes aga ongi nii, et tugevaid koosmõjutegureid tuleb küllalt harva ette. Selles mõttes on näide loomulik.

Mudelit määravad regressioonikordajad on esitatud tabelis 5 . Kõneleme esmalt logaritmskaalal. Näeme vabaliikmest, mille usaldusvahemik logaritmskaalal katab ka nullpunkti (servakesega usaldusnivool 90%), et maakohas toimetulekuraskustega elavate inimeste peres on keskmiselt üks liige või natuke üle selle (exp 0 =1). Vaatleme peamõjusid, millele saame – nagu eespoolgi korduvalt – tõlgenduse anda sõltumatute tunnuste nullpunktis. Maakohas (taustarühm) tõstab lahedalt ära elamine või toimetulek võrreldes toimetulekuraskustes elamisega keskmiselt 0,51 võrra vastaja pereliikmete logaritmitud arvu (logaritmtehte tähenduse tõttu mõjub seega suurendavalt ka pereliikmete arvu suhtes). Teiselt poolt kõneldes, raskustega toime tulijate seas (taustarühm) on suurlinna eeslinnas pereliikmete logaritmitud arv keskmiselt 0,33 võrra suurem kui maakohas, kusjuures suurlinnas ja väikelinnas vahet maakohaga ei ole (vt usaldusvahemikke nende puhul – nullpunkt kaetud, seejuures väikelinnas sügavamalt). Koosmõjuteguri kõik regressioonikordajad  on miinusmärgiga ja nullist erinevad (vt usaldusvahemikke usaldusnivool 90%, mis kõik on miinuspoolel). See tähendab, et kõigis elukohtades peegeldub toimetulekuerinevus pereliikmete arvus nõrgemalt kui maakohas („erinevuste erinevus“ on maakohas suurim). See paistab selgelt kätte mudeli alusel tehtud pereliikmete arvu keskmiste prognooside jooniselt 4 , kus juba palja silmaga on näha eri värvi tulpade märgatavalt suurem vahe maakohas võrreldes teiste elukohtadega. 

Mööname, et meie ülesanne on sisuliselt natuke äraspidine: eeldame, et teame, kuidas toime tullakse ning kus elatakse, ja püüame ära arvata leibkonna liikmete arvu. Mõte võiks käia ka vastupidi: pere suurusest ja elukohast tuletada toimetulek. Rõhutame, et sisulistest järeldustest tuleks meie väga lihtsustatud mudeli puhul hoiduda. Näiteks võib üheliikmeline pere tähendada nii vallalist edukat noort kui ka pensionärist leske. Vanuseline eristamine oleks siin hädavajalik ja kindlasti muugi peenhäälestus.

Kui seletada vaadeldava mudeli regressioonikordajaid juurdekasvude kaudu, siis võiksime öelda järgmist. Maakohas raskustega toime tuleva inimese kohta võib prognoosida, et ta elab kellegagi koos (vabaliige osutab ühele pereliikmele). Elukoha peamõjusid saaks tõlgendada toimetuleku taustakategooria korral ehk raskustega või suurte raskustega toime tulevate leibkondade liikmete arvuna eri elukohtades: suurlinnas, eeslinnas ja väiksemas linnas vastavalt 1,2, 1,4 ja 1,1 liiget. Näeme, et ükski elukoht peale suurlinna eeslinna ei eristu maakohast leibkonnaliikmete arvu poolest ja ilmselt ka mitte omavahel (vt exp (b) usaldusvahemikke, mis tugevalt kattuvad). Suurlinna eeslinnas on pisut suurem pere kui maakohas. Toimetuleku peamõju tähendab seda, kui mitu korda on maakohas lahedalt ära elavates leibkondades liikmete arv suurem kui toimetulekuraskuste korral, nimelt 1,7 korda (meenutame: ise välja arvatud). Siin taas ettevaatust kergekäelisel pere suuruse ja toimetuleku seostamisel: toimetulekuraskusi võib olla nii suurperes kui üksikul pensionäril. Võtkem meie näidet kui tehnilist harjutust.

Koosmõjuteguri regressioonikordajad on miinusmärgiga ja eksponentastmel seega alla 1. Maakohas on lahedalt ära elavate inimeste ja raskustega toimetulijate leibkonnaliikmete arvude suhe 1 : 1.  Suurlinnades on see suhe väiksem, nimelt 0,70, eeslinnades 0,67 ja väikelinnades 0,79 (kõige lähemal maakohale), mis tähendab, et nendes kohtades lahedalt ära elamine  ja raskustes elamine ei tee sisse nii suurt vahet leibkonnaliikmete arvus nagu maakohas. Loomulikult on see sama järeldus, mis logaritmilise perekonnaliikmete arvu alusel, aga võib-olla intuitiivselt selgem, sest näeme arvuliselt kordsuste suhet.

Vaatame üle ka peamõjude mudeli. Üldtesti hii-ruut-statistik on võrreldes ainult vabaliiget sisaldava mudeliga 54 – 46 =  8 võrra ühe vabadusastme korral väiksem kui koosmõjuteguriga mudelis, mis tähendab statistiliselt usaldusväärset vahet halvenemise suunas (p<0,05) ja põhjendab koosmõjuteguri kaasamist. Tabelist 5a  näeme, et selle mudeli järgi on maakohas toimetulekuraskustega inimestel pereliikmeid peale enda veel keskmiselt 1,4 (vt exp (b) usaldusvahemikku, mis on selgelt suurem kui 1). Lahedalt elamine või toimetulek praeguse sissetuleku juures näitab suuremat pereliikmete arvu kui on raskustes olijatel, kui võrrelda omavahel inimesi ühes ja samas elukohas (1,28 korda usalduspiiridega 1,19…1,37 usaldusnivool 90%). Maakoha ja suurlinna eeslinna vahet pereliikmete arvus ei ole, kui võrrelda ühesuguse toimetulekuga inimesi (usaldusvahemik 0,89…1,12 katab korduse 1). Suurlinnas ja väikelinnas on liikmete arv keskmiselt väiksem, moodustades maakoha arvust 87-89% (jääb usaldusnivool 0,9 alla 100%).

Toimetajad: Kadri Rootalu, Avo Trumm

Viimati muudetud: 21.06.2017

 

back