Sotsiaalse Analüüsi Meetodite ja Metodoloogia õpibaas

Risttabelid ja seosekordajad

Kadri Rootalu
2014

Risttabel ehk kahemõõtmeline sagedustabel

Risttabel on kahemõõtmeline sagedustabel, kus esitatakse vastajate sagedused lähtuvalt kahest vaatluse all olevast tunnusest (vt tabel 1).

Tabel 1. Risttabel: presidendikandidaadi eelistus sõltuvalt vastaja soost

	T. H. Ilves	A. Rüütel	Kokku
Mehed	30	10	40
Naised	25	35	60
Kokku	55	45	100

Risttabelis võivad olla esitatud vastajate arvud või osakaalud. Viimasel juhul võib eristada protsente sõltuvalt risttabeli elementidest, mille suhtes need võetud on.

Risttabeli elementideks on read, veerud ja lahtrid, mille järgi nimetatakse ka tabelisse märgitavaid protsente.

Rea protsendid näitavad, mitu protsenti selle rea inimestest kuulub ühte või teise veergu, nt tabelis 2 pooldab 75% meestest T. H. Ilvese kandidatuuri.

Tabel 2. Risttabel rea protsentidega

	T. H. Ilves	A. Rüütel	Kokku
Mehed	75%	25%	100%
Naised	25%	75%	100%
Kokku	45%	55%	100%

Veeru protsendid näitavad, mitu protsenti selle veeru inimestest kuulub ühte või teise ritta, nt tabelis 3 on T. H. Ilvese pooldajatest 55% mehed ja 45% naised.

Tabel 3. Risttabel veeru protsentidega

	T. H. Ilves	A. Rüütel	Kokku
Mehed	55%	22%	40%
Naised	45%	78%	60%
Kokku	100%	100%	100

Üldised protsendid näitavad, mitu protsenti selle tabeli inimestest kuulub ühte või teise lahtrisse, nt tabeli 4 puhul on näha, et A. Rüütli meessoost toetajad moodustasid kogu vastajaskonnast 10%.

Tabel 4. Risttabel üldprotsentidega

	T. H. Ilves	A. Rüütel	Kokku
Mehed	30%	10%	40%
Naised	25%	35%	60%
Kokku	55%	45%	100%

Risttabeli põhjal seoste kirjeldamine on tavalugejale kindlasti kõige arusaadavam tulemuste esituse viis. Soovides aga valimiuuringu korral teha järeldusi üldkogumi kohta, tuleks kasutada lisaks risttabelile ka seosekordajaid.

Seosekordajad

Seosekordajaid kasutatakse kahe nominaal- või järjestustunnuse vahelise seose uurimiseks, kuigi nende kasutamine tuleks kõne alla ka väikese väärtuste arvuga arvtunnuste puhul. Seosekordajate leidmisel tuginetakse risttabelile. Sagedamini kasutatavateks seosekordajateks on hii-ruut-statistik ja Crameri V.

Hii-ruut-statistik

Hii-ruut-statistiku puhul vaadatakse kahe tunnuse tegelikku ühist jaotust (nt vastajate arve risttabelis) ning võrreldakse seda jaotusega (nt risttabeliga) sellises olukorras, kus kahe tunnuse vahel seost poleks. Kui nende jaotuste erinevus on suur, siis on ka hii-ruut-statistiku väärtus suur. Kui need jaotused langevad täpselt kokku, siis on hii-ruut-statistiku väärtuseks 0 (vt valemit).

Hii-ruut-statistiku maksimaalne väärtus sõltub tabeli suurusest ja vastajate arvust. Seega ei saa erineva suurusega kogumite põhjal või erineva lahtrite arvuga tabelite põhjal leitud hii-ruut-statistikuid omavahel võrrelda.

Hii-ruut-statistikut on võimalik välja arvutada levinumate statistikaprogrammidega (SPSS, STATA jms), kuid selle arvutamiseks on olemas ka netikalkulaatoreid, nt SIIN ja SIIN.

Probleemid

Hii-ruut-statistikut ei ole hea kasutada siis, kui vaadeldavatel tunnustel on palju kategooriaid (vastusevariante). Sellisel juhul on oht, et hii-ruut-statistiku aluseks olevasse tabelisse jääb tühje lahtreid, mille suhtes statistik on tundlik. Võimalusel tasuks siis kategooriaid ümber kodeerida nii, et igas oleks piisavalt palju vastajaid [viide ümberkodeerimise teemale].

Crameri V

Crameri V on hii-ruut-statistikust edasi arendatud seosekordaja, mis arvestab ka vastajate arvu ning tabeli suurust (vt valemit).

Crameri V ei saa olla kunagi suurem kui 1 ning selle minimaalseks väärtuseks on 0. Erinevate tabelite põhjal välja arvutatud Crameri V kordajad on omavahel võrreldavad: kordaja väärtusega 0,4 viitab tugevamale seosele kui kordaja väärtusega 0,3.

Avage andmestik ess12eesti.sav

Risttabelid ehk mitmemõõtmelised sagedustabelid on paketi SPSS puhul tellitavad kirjeldava statistika alammenüüst (vt joonis 1)

Analyze – Descriptive Statistics – Crosstabs

Joonis 1. Risttabelite ja seosekordajate tellimine

Järgnevas tellimisaknas (joonis 2) saab tunnuseid saata järgmistesse akendesse:
„Row(s)“: reatunnus
„Column(s)“: veerutunnus
„Layer“: kihitunnus (eraldi tabelid)

Praeguses näites soovime vaadata vastajate peamist tegevusala nende soo lõikes. Seetõttu saadame reatunnuseks „Peamine tegevus …“ ning veerutunnuseks „Sugu“. Nupu alla „Layer“ tunnuseid lisades saaks tellida ka kolme- ja rohkemamõõtmelisi tabeleid.

Nupu alt „Cells“ saab määrata tabeli lahtrites näidatavat infot (vastajate arvud, protsendid jne, vt joonis 3).

Praeguses näites (joonis 3) valime vastajate arvu („Observed“) ning rea, veeru ja üldprotsendid („Percentage“ alt).
Reaprotsent („Row“): mitu protsenti selle rea inimestest kuulub ühte või teise veergu.
Veeruprotsent („Column“): mitu protsenti selle veeru inimestest kuulub ühte või teise ritta.
Üldprotsendid („Total“): mitu protsenti selle tabeli inimestest kuulub ühte või teise lahtrisse. Protsendi valik sõltub uurimisülesandest, tavaliselt pole tabelisse vaja rohkem kui ühte liiki protsenti.

Joonis 3. Risttabeli tellimise aken lahtrisisese info määramiseks

Nupu „Statistics“ alt (joonis 2) saab valida seosekordajaid.

Praeguses näites (joonis 4) valime hii-ruut-statistiku „Chi-square“ ja Crameri V saamiseks „Phi and Cramer’s V“

Väljundtabelis („Crosstabulation“, tabel 1) esitatud protsendid on ülevalt alla alati samas järjekorras kui tellimisaknas.

Seega, vastajate hulgas leidus 564 meest, kelle peamiseks tegevuseks oli tasustatud töö.
46,8% nendest, kelle peamiseks tegevuseks oli tasustatud töö, olid mehed.
Meestest 56,5%-l oli peamiseks tegevuseks tasustatud töö.
Üldse oli vastajate koguhulgas selliseid inimesi, kes olid mehed ja ühtlasi ka tasustatud tööl 23,7%.

Tabel 1. Risttabel peamise tegevuse ja soo tunnuste vahel

Risttabeli järel esitatakse tabelid seosekordajatega.

Tabelis 2 pealkirjaga „Chi-Square Tests“ on esimesel real antud hii-ruut-statistiku väärtus (82,927), vabadusastmete arv (8) ja olulisuse tõenäosus (0,000). Seega saab väita, et meeste ja naiste tegevusalade jaotuses on statistiliselt olulisi erinevusi. Millised need erinevused täpsemalt on, tuleb vaadata eelnevast risttabelist.

Märge „a“ hii-ruut-statistiku väärtuse juures näitab väikese vastajate arvuga lahtrite osakaalu. Analüüsitehniliselt oleks oluline, et hii-ruut-statistiku arvutamisel aluseks olevas tabelis ei oleks tühje või väga väikese vastajate arvuga lahtreid.

Tabel 2. Hii-ruut-statistik tabeli esimesel numbrireal

Viimases tabelis (tabel 3) pealkirjaga „Symmetric Measures“ esitatakse statistikute „Phi“ ja Crameri V väärtused (praegusel juhul mõlemad 0,187) ning olulisuse tõenäosus (0,000).

Tabel 3. Crameri V tabeli teisel numbrireal

Hii-ruut-statistiku ja seosekordajate väärtusi esitatakse sageli teksti sees, märgitakse ära hii-ruut-statistiku väärtus, vabadusastmete arv (df) ja olulisuse tõenäosus.

Näiteks selgus analüüsi käigus, et eri riikide vastajate suhtumine perekonna prioriteetsusesse on statistiliselt olulisel määral erinev, hii-ruut-statistiku väärtuseks on 119,5 (df=12, p=0,000)

Samas võib need lisada ka juba olemasoleva tabeli juurde kas eraldi ridadele või pealkirja/allkirja.

Tooding, L.-M. (2007). Andmete analüüs ja tõlgendamine sotsiaalteadustes. Tartu: Tartu Ülikooli Kirjastus.

Märksõnad: risttabel, protsent, rea protsent, veeru protsent, üldprotsent, hii-ruut-statistik, Crameri V

Sotsiaalse Analüüsi Meetodite ja Metodoloogia õpibaas

Risttabelid ja seosekordajad

Näide paketiga SPSS

Tulemuste esitlus

Soovitatav kirjandus