{"id":1008,"date":"2025-06-06T01:09:00","date_gmt":"2025-06-05T22:09:00","guid":{"rendered":"https:\/\/sisu.ut.ee\/ajakiri\/?p=1008"},"modified":"2025-06-06T02:22:12","modified_gmt":"2025-06-05T23:22:12","slug":"elumuutvad-toenaosusteooriad","status":"publish","type":"post","link":"https:\/\/sisu.ut.ee\/ajakiri\/elumuutvad-toenaosusteooriad\/","title":{"rendered":"Elumuutvad t\u00f5en\u00e4osusteooriad"},"content":{"rendered":"<p><strong>Iga statistiline anal\u00fc\u00fcs p\u00f5hineb mudelil ja mudelist s\u00f5ltub v\u00e4hemalt sama palju kui andmetest. Erinevad mudelid, mis kasutavad t\u00e4pselt samu andmeid, v\u00f5ivad anda miljoneid kordi erineva tulemuse\u00a0\u2013 mudeli valik v\u00f5ib m\u00f5nikord olla s\u00f5na otseses m\u00f5ttes elu ja surma k\u00fcsimus.<\/strong><\/p>\n\n\n\n<p>Selle sajandi alguses vapustas Hollandit k\u00f5muline kohtuasi. Meditsiini\u00f5de Lucia de Berk t\u00f6\u00f6tas sajandivahetuse paiku kolmes Hollandi haiglas ja tema kolleegid m\u00e4rkasid, et just Lucia vahetuste ajal suri harilikust rohkem patsiente. Asja hakati uurima ning 2002.\u00a0aastal esitati talle s\u00fc\u00fcdistus 13\u00a0patsiendi m\u00f5rvas ja viie patsiendi m\u00f5rva katses.<\/p>\n\n\n\n<p>Uurimise k\u00e4igus selgus, et Lucia oli v\u00f5ltsinud oma \u00f5ediplomit, tema p\u00e4eviku sissekandeid v\u00f5is t\u00f5lgendada kui kinnisideed surmast ning tema kodust leiti mitu kuulsaid m\u00f5rvu ja kohtuasju k\u00e4sitlevat raamatut, mis k\u00f5ik olid haiglast varastatud. Protsessi kaasati FBI kurjategijate profileerija ja kohtups\u00fchholoog, kes kirjeldasid kohtualust kui enesekeskset, isiksush\u00e4iretega agressiivset nartsissisti.<\/p>\n\n\n\n<p>Nende kaudsete t\u00f5endite k\u00f5rval sai kohtuasjas \u00fcheks otsustavaks teguriks matemaatika. Kohtusse kutsutud statistik tegi \u00fcsna elementaarse t\u00f5en\u00e4osusrehkenduse: ta v\u00f5ttis kokku k\u00f5ik vaadeldava aja \u00f5dede vahetused kolmes haiglas (1734) ning v\u00f5rdles neid Lucia vahetuste arvuga (201) ja nende vahetuste arvuga, mille ajal juhtusid nn intsidendid (27).<\/p>\n\n\n\n<p>Kui suur on t\u00f5en\u00e4osus, et t\u00e4iesti juhuslikult satub \u00fchele konkreetsele meditsiini\u00f5ele v\u00e4hemalt 14\u00a0surmajuhtumiga vahetust? Vastus: ligikaudu \u00fcks 3,8\u00a0miljonist. Kohus leidis, et nii v\u00e4ike t\u00f5en\u00e4osus v\u00e4listab kokkusattumused, ning 2003.\u00a0aastal m\u00f5isteti Lucia de Berk eluks ajaks vangi kui Hollandi k\u00f5igi aegade suurim sarim\u00f5rvar.<\/p>\n\n\n\n<p><strong>Kaheldav otsus<\/strong><\/p>\n\n\n\n<p>See kohtuprotsess tekitas \u00fchiskonnas palju vastukaja. P\u00e4rast otsuse v\u00e4ljakuulutamist leidsid mitmed matemaatikud ja statistikud, et kohut veennud arvutus p\u00f5hineb lihtsustatud eeldustel ega pruugi olla adekvaatne. Selle asemel et arvutada t\u00f5en\u00e4osust, et v\u00e4hemat 14\u00a0intsidenti satub konkreetsele \u00f5ele, oleks pidanud arvutama hoopis t\u00f5en\u00e4osuse, et v\u00e4hemalt 14\u00a0intsidenti satub mingile \u00f5ele; k\u00fcsitavusi oli teisigi.<\/p>\n\n\n\n<p>\u00dcks aktiivsemaid diskuteerijaid oli Utrechti ja hiljem Leideni \u00fclikooli statistikaprofessor Richard Gill, kes pakkus 2006.\u00a0aastal koos kolleegidega v\u00e4lja alternatiivse anal\u00fc\u00fcsi. Nad loobusid lihtsustatud eeldusest, et k\u00f5ikidel \u00f5dedel on \u00fcks ja sama t\u00f5en\u00e4osus olla t\u00f6\u00f6l selles vahetuses, kus juhtub intsident.<\/p>\n\n\n\n<p>Gilli mudelis see t\u00f5en\u00e4osus varieerub, s\u00f5ltudes \u00f5e haridusest, iseloomust, kogemustest ja paljust muust; suurem t\u00f5en\u00e4osus ei pruugi ilmtingimata t\u00e4hendada \u00f5e ebaprofessionaalsust ega pahatahtlikkust. Seega leidsid Gill ja tema kolleegid m\u00f5nev\u00f5rra eeldusi muutes, kuid samu andmeid kasutades, et t\u00f5en\u00e4osus, et 201\u00a0vahetuse jooksul toimub v\u00e4hemalt 14\u00a0intsidenti, on ligikaudu 1\/49. Arvestades \u00f5dede hulka, v\u00f5ib selliseid olukordi elus ette tulla k\u00fcll.<\/p>\n\n\n\n<p>Suuresti just professor Gilli eestvedamisel algatati 2007.\u00a0aastal petitsioon Lucia de Berki kohtuasja taasavamiseks. 2009.\u00a0aastal vaadatigi l\u00f5puks uued t\u00f5endid ja statistilised argumendid l\u00e4bi ning 2010.\u00a0aastal vabastati de Berk k\u00f5igist s\u00fc\u00fcdistustest. K\u00f5igi aegade suurimast sarim\u00f5rvarist sai Hollandi \u00f5igusajaloo suurima eba\u00f5igluse ohver.<\/p>\n\n\n\n<p>Selle pretsedendi j\u00e4rel hakati kogu maailmas sarnaseid kohtuasju uue pilguga vaatama. Selgus, et Lucia de Berk pole \u00fcldse ainus \u00f5de, kes on samadel alustel\u00a0\u2013 suuresti matemaatiliste argumentidega\u00a0\u2013 sarim\u00f5rvas s\u00fc\u00fcdi m\u00f5istetud.<\/p>\n\n\n\n<p>2023.\u00a0aastal vabastati vanglast Itaalia \u00f5de Daniela Poggiali, kes oli 2014.\u00a0aastal s\u00fc\u00fcdi m\u00f5istetud 38\u00a0patsiendi m\u00f5rvas. Inglismaal k\u00fctab praegu kirgi Lucy Letby juhtum\u00a0\u2013 tema m\u00f5isteti 2023.\u00a0aastal eluks ajaks vangi s\u00fc\u00fcdistatuna k\u00fcmnete laste m\u00f5rvas ja m\u00f5rvakatses. Briti \u00fchiskond on Letby s\u00fc\u00fcs \u00fcsna veendunud, kuid paljud statistikud, teise seas ka Richard Gill, kahtlevad selles.<\/p>\n\n\n\n<p><strong>Peidetud eeldused<\/strong><\/p>\n\n\n\n<p>Igasugune statistiline anal\u00fc\u00fcs, t\u00f5en\u00e4osusarvutus ning enamik prognoosi- ja tuvastusalgoritmidest p\u00f5hinevad stohhastilistel ehk juhuslikkust sisaldavatel mudelitel. Seda isegi siis, kui pealtn\u00e4ha mingit mudelit pole.<\/p>\n\n\n\n<p>Toome lihtsa n\u00e4ite: p\u00fc\u00fcame ennustada kahe v\u00f5istkonna omavahelise kohtumise tulemust seniste tulemuste p\u00f5hjal. Lihtsuse m\u00f5ttes v\u00e4listame viigi. Oletame, et seni on v\u00f5istkond\u00a0A v\u00f5itnud 70% m\u00e4ngudest.<\/p>\n\n\n\n<p>Lihtne ja pealtn\u00e4ha mudelivaba m\u00f5ttek\u00e4ik on j\u00e4rgmine: A v\u00f5idu t\u00f5en\u00e4osus on\u00a00,7, see arv on suurem kui kaotuse t\u00f5en\u00e4osus\u00a0(0,3), ja nii panustame A\u00a0v\u00f5idule. See otsus p\u00f5hineb aga konkreetsel stohhastilisel mudelil, mis k\u00e4tkeb eeldusi. N\u00e4iteks eeldasime, et v\u00f5istkonna\u00a0A v\u00f5idu t\u00f5en\u00e4osus on kogu aeg sama, sest t\u00f5en\u00e4osuse\u00a00,7 saamiseks v\u00f5tsime arvesse kogu senist ajalugu.<\/p>\n\n\n\n<p>Teine eeldus oli see, et meid huvitav t\u00f5en\u00e4osus ei s\u00f5ltu seniste v\u00f5itude ja kaotuste j\u00e4rjekorrast\u00a0\u2013 me kasutasime ennustamisel vaid A\u00a0v\u00f5iduprotsenti andmestikus, mitte v\u00f5itude ja kaotuste j\u00e4rjekorda. Teisis\u00f5nu eeldasime, et j\u00e4rgmise m\u00e4ngu tulemus ei s\u00f5ltu eelmiste m\u00e4ngude tulemustest, vaid k\u00f5ik algab uuesti nullist.<\/p>\n\n\n\n<p>Nii n\u00e4eme, et see pealtn\u00e4ha mudelivaba ennustus p\u00f5hineb tegelikult kahel v\u00e4ga tugeval eeldusel: <em>sama jaotus<\/em> (t\u00f5en\u00e4osus) ja <em>s\u00f5ltumatus<\/em>. Erialases s\u00f5navaras nimetatakse neid eeldusi IID-mudeliks (ingl <em>independent and identically distributed<\/em>). Paljud igap\u00e4evased t\u00f5en\u00e4osusarvutused eeldavad vaikimisi just seda, k\u00f5ige levinumat statistilist mudelit.<\/p>\n\n\n\n<p>IID-mudelile tugines suuresti ka kohtustatistik Lucia de Berki juhtumis. Lihtsusel on oma eelised, kuid nagu teame, v\u00f5ib liiga lihtne mudel olla eksitav. Tulles tagasi spordiennustuse juurde: on selge, et v\u00f5istkondade tugevus aastate jooksul muutub, ja nii ei pruugi m\u00f5ne aja tagune statistika peegeldada praegust olukorda. Hilisemat ajalugu tuleks arvestada suurema kaaluga ja see teeb mudeli keerukamaks.<\/p>\n\n\n\n<p>Ka s\u00f5ltumatuse eeldus on ebarealistlik, sest emotsioonidel on spordis suur kaal ning kord v\u00f5idulainele sattunud meeskonnal on suurem t\u00f5en\u00e4osus ka j\u00e4rgmine kord v\u00f5ita. See t\u00e4hendab, et j\u00e4rgmise mat\u0161i tulemuse t\u00f5en\u00e4osus s\u00f5ltub eelmiste kohtumiste tulemustest, ning seda peame oma mudelis arvesse v\u00f5tma.<\/p>\n\n\n\n<p><em>S\u00f5ltumatus<\/em> on statistikas keskne eeldus, kuna see on intuitiivselt arusaadav ning \u00fcheselt ja lihtsalt modelleeritav. Seda eeldatakse ning kasutatakse k\u00f5ikjal\u00a0\u2013 pahatihti aga valesti. <em>S\u00f5ltuvusel<\/em> seevastu on palju vorme ja seet\u00f5ttu on ka l\u00f5pmatult palju v\u00f5imalusi seda mudelisse kaasata.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>Markovi ahela peamine omadus on lihtne: homsete s\u00fcndmuste t\u00f5en\u00e4osus s\u00f5ltub t\u00e4nasest ning eilse ega \u00fcleeilse teadmine seda ei muuda.<\/p>\n<\/blockquote>\n\n\n\n<p>\u00dche v\u00e4ga lihtsa, kuid seda universaalsema s\u00f5ltuvusmudeli (juhusliku protsessi) konstrueeris 1906.\u00a0aastal vene matemaatik Andrei Markov. T\u00e4nap\u00e4eval kutsutaksegi seda mudelit Markovi ahelaks. Markovi esialgne eesm\u00e4rk oli n\u00e4idata, et suurte arvude seadus v\u00f5ib kehtida ka s\u00f5ltuvuse korral. Suurte arvude seadus on t\u00f5en\u00e4osusteooria ja statistika keskne printsiip, mille kohaselt l\u00e4heneb aritmeetiline keskmine valimi mahu kasvades tegelikule keskv\u00e4\u00e4rtusele. See asjaolu on igasuguste keskmiste arvutamise teoreetiline p\u00f5hjendus.<\/p>\n\n\n\n<p>Ka spordiennustuse n\u00e4ites tehtud j\u00e4reldus, et v\u00f5istkonna v\u00f5idu t\u00f5en\u00e4osus on\u00a00,7, sest ta on siiani v\u00f5itnud 70% m\u00e4ngudest, p\u00f5hineb ainult sellel printsiibil. Enne Markovit arvati, et see printsiip kehtib vaid s\u00f5ltumatuse korral, kuid oma ahelaga l\u00fckkas Markov selle eksiarvamuse \u00fcmber.<\/p>\n\n\n\n<p>Markovi ahela peamine omadus on lihtne: homsete s\u00fcndmuste t\u00f5en\u00e4osus s\u00f5ltub t\u00e4nasest ning eilse ega \u00fcleeilse teadmine seda ei muuda. Kaardipaki segamine, t\u00e4ringuvisetel p\u00f5hinevad lauam\u00e4ngud, geneetilise koodi p\u00f5lvkonniti edasikandumine\u00a0\u2013 k\u00f5ik need on sisuliselt Markovi ahelad. Arusaadavalt on see statistiline mudel laialt kasutusel ja matemaatiliselt p\u00f5hjalikult l\u00e4bi uuritud.<\/p>\n\n\n\n<p>Oma uue mudeli eeliste n\u00e4itamiseks anal\u00fc\u00fcsis Markov h\u00e4\u00e4likupaaride sagedusi Pu\u0161kini \u201eJevegeni Oneginis\u201c ning t\u00f5estas, et h\u00e4\u00e4likute modelleerimine s\u00f5ltumatuna oleks kindlasti vale.<\/p>\n\n\n\n<p>Seega v\u00f5ib teatud m\u00f6\u00f6ndustega v\u00e4ita, et Markovi ahelat rakendati k\u00f5igepealt keelemudelina. N\u00fc\u00fcd, rohkem kui sada aastat hiljem, on keelemudelid igap\u00e4evased, ning l\u00e4hemal uurimisel n\u00e4eme, et n\u00e4iteks ChatGPT polegi muud kui (v\u00e4ga k\u00f5rget j\u00e4rku) Markovi ahel.<\/p>\n\n\n\n<p><strong>Varjatud mudelid<\/strong><\/p>\n\n\n\n<p>Sageli on vaja modelleerida olukordi, kus Markovi ahelat ei saa t\u00e4pselt m\u00f5\u00f5ta\u00a0\u2013 n\u00e4iteks patsiendi tervisliku seisundi hindamisel.<\/p>\n\n\n\n<p>Seisundeid v\u00f5ib olla kaks: haige v\u00f5i terve. Haigust me m\u00f5\u00f5ta ei saa, k\u00fcll aga selle tunnuseid: temperatuuri, verer\u00f5hku jne. M\u00f5\u00f5detavad tunnused ei pruugi \u00fcheselt n\u00e4idata olekut (ka terve inimese verer\u00f5hk v\u00f5ib vahel olla normist v\u00e4ljas), k\u00fcll aga on tunnuste jaotus tervel ja haigel inimesel erinev.<\/p>\n\n\n\n<p>Eeldades, et m\u00f5\u00f5detavad tunnused on tinglikult s\u00f5ltumatud, j\u00f5uame \u00fclipopulaarse mudelini, mida nimetatakse varjatud Markovi mudeliks. Selle edulugu algas 1980-ndatel seoses k\u00f5netuvastusega, kui k\u00f5ne (nii keel kui ka foneetika) modelleeriti kui \u00fcks suur varjatud Markovi mudel, millel on sadu tuhandeid parameetreid.<\/p>\n\n\n\n<figure data-wp-context='{\"imageId\":\"69dededea5436\"}' data-wp-interactive=\"core\/image\" data-wp-key=\"69dededea5436\" class=\"wp-block-image aligncenter size-large wp-lightbox-container\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"518\" data-wp-class--hide=\"state.isContentHidden\" data-wp-class--show=\"state.isContentVisible\" data-wp-init=\"callbacks.setButtonStyles\" data-wp-on--click=\"actions.showLightbox\" data-wp-on--load=\"callbacks.setButtonStyles\" data-wp-on-window--resize=\"callbacks.setButtonStyles\" src=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/868\/Screenshot-2025-06-06-at-00.09.43-1024x518.jpeg\" alt=\"Joonis t\u00f5en\u00e4osusteooria n\u00e4itlikustamiseks\" class=\"wp-image-1079\" srcset=\"https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/868\/Screenshot-2025-06-06-at-00.09.43-1024x518.jpeg 1024w, https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/868\/Screenshot-2025-06-06-at-00.09.43-300x152.jpeg 300w, https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/868\/Screenshot-2025-06-06-at-00.09.43-768x389.jpeg 768w, https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/868\/Screenshot-2025-06-06-at-00.09.43-1536x778.jpeg 1536w, https:\/\/sisu.ut.ee\/wp-content\/uploads\/sites\/868\/Screenshot-2025-06-06-at-00.09.43.jpeg 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\"><button class=\"lightbox-trigger\" type=\"button\" aria-haspopup=\"dialog\" aria-label=\"Enlarge\" data-wp-init=\"callbacks.initTriggerButton\" data-wp-on--click=\"actions.showLightbox\" data-wp-style--right=\"state.imageButtonRight\" data-wp-style--top=\"state.imageButtonTop\">\n\t\t\t<svg xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"12\" height=\"12\" fill=\"none\" viewbox=\"0 0 12 12\">\n\t\t\t\t<path fill=\"#fff\" d=\"M2 0a2 2 0 0 0-2 2v2h1.5V2a.5.5 0 0 1 .5-.5h2V0H2Zm2 10.5H2a.5.5 0 0 1-.5-.5V8H0v2a2 2 0 0 0 2 2h2v-1.5ZM8 12v-1.5h2a.5.5 0 0 0 .5-.5V8H12v2a2 2 0 0 1-2 2H8Zm2-12a2 2 0 0 1 2 2v2h-1.5V2a.5.5 0 0 0-.5-.5H8V0h2Z\"><\/path>\n\t\t\t<\/svg>\n\t\t<\/button><figcaption class=\"wp-element-caption\">Varjatud Markovi ahel, kus varjatud seisundid on terve ja palavikus olek. M\u00f5\u00f5detavad tunnused on pearinglus, k\u00fclmav\u00e4rinad ja normaalne enesetunne. M\u00f5lemad varjatud seisundid v\u00f5ivad neid tunnuseid p\u00f5hjustada, kuid erineva t\u00f5en\u00e4osusega. Mille p\u00f5hjal n\u00fc\u00fcd otsustada, kas k\u00fclmav\u00e4rinaid ikka tekitab palavik? Joonis: Wikimedia Commons \/ Margus Evert<\/figcaption><\/figure>\n\n\n\n<p>Varjatud Markovi mudelid (ahelad) kuuluvad varjatud ehk latentsete tunnustega mudelite hulka, kus eeldatakse, et vaatlused (ehk m\u00f5\u00f5detav maailm) on tekitatud mingi m\u00f5\u00f5detamatu (seega varjatud), kuid olulise protsessi tulemusena.<\/p>\n\n\n\n<p>Siin tekib loomulik k\u00fcsimus: milline varjatud protsess (stsenaarium) tekitab vaatlused? Kas \u00fclaltoodud n\u00e4ite korral t\u00e4hendavad normist v\u00e4ljas olevad tervisen\u00e4itajad ikka haigust? Kui jah, siis millal see algas?<\/p>\n\n\n\n<p>Me v\u00f5ime arvutada iga v\u00f5imaliku stsenaariumi t\u00f5en\u00e4osuse, kuid me ei saa kunagi teada, milline neist tegelikult realiseerub. K\u00fcll aga saame v\u00e4lja valida stsenaariumi, mis meie hinnangul peegeldab parimal moel tegelikult toimunut\u00a0\u2013 enamasti valitakse selleks k\u00f5ige t\u00f5en\u00e4olisem stsenaarium.<\/p>\n\n\n\n<p>Varjatud Markovi ahelate kontekstis nimetatakse k\u00f5ige t\u00f5ep\u00e4rasemat stsenaariumi Viterbi teeks (sest algoritmi sellise tee leidmiseks nimetatakse selle looja Andrew Viterbi j\u00e4rgi Viterbi algoritmiks). Matemaatiliselt on Viterbi algoritm erakordselt lihtne nn\u00a0d\u00fcnaamilise planeerimise algoritm, mis ometigi tegi selle loojast kuulsa ja rikka mehe. Lihtsus loeb!<\/p>\n\n\n\n<p>See populaarne algoritm annab kasutajale suurima t\u00f5ep\u00e4raga stsenaariumi, kuid edasine s\u00f5ltub sellest, mida saadud Viterbi teega peale hakata. Tuleb meeles pidada, et Viterbi teed ei maksa v\u00f5tta <em>tegeliku<\/em> stsenaariumina\u00a0\u2013 see on t\u00f5en\u00e4osuse m\u00f5ttes parim, aga <em>parim<\/em> pole kunagi t\u00fc\u00fcpiline.<\/p>\n\n\n\n<p>Kujutagem ette m\u00fcndiviset, kus kulli t\u00f5en\u00e4osus on\u00a00,7. Visates seda m\u00fcnti <em>n <\/em>korda, saame suure t\u00f5en\u00e4osusega jada, kus on suurte arvude seaduse j\u00e4rgi ligi 70% kulle. K\u00f5ikv\u00f5imalikest viskestsenaariumidest on selle m\u00fcndi puhul suurima t\u00f5en\u00e4osusega jada, kus on ainult kullid. Selline jada (meie n\u00e4ite Viterbi tee) on aga v\u00e4ga ebat\u00fc\u00fcpiline, sest t\u00f5en\u00e4oliselt peaks sinna sattuma v\u00e4hemalt m\u00f5ni kiri.<\/p>\n\n\n\n<p>Paraku pole keerulisemate mudelite korral \u00fcldse selge, kas Viterbi tee mingeid omadusi p\u00f5hjustab juhus v\u00f5i on k\u00f5ige taga mingi s\u00fcsteemsus. S\u00fcsteemsuse kindlakstegemine on keeruline matemaatiline probleem, mille uurimisega me koos toonase kolleegi Alexey A. Koloydenkoga \u00fcle 20\u00a0aasta tagasi algust tegime.<\/p>\n\n\n\n<p>T\u00f6\u00f6tasime sel ajal m\u00f5lemad j\u00e4reldoktorandina \u00fches Hollandis asuvas rahvusvahelises instituudis. Uurima ajendas meid toonaste k\u00f5netuvastusprogrammide treeningalgoritmide anal\u00fc\u00fcs. Esimese sammuna t\u00f5estasime Viterbi protsessi olemasolu.<\/p>\n\n\n\n<p>Viterbi protsess ei pruugi alati olemas olla, kuid kui ta on, siis on ta h\u00e4davajalik matemaatiline t\u00f6\u00f6vahend Viterbi tee s\u00fcstemaatiliste omaduste kindlakstegemiseks. Selle kaudu saab kindlalt v\u00e4ita, et s\u00fcstemaatilised omadused on olemas, ja see on tegelikult juba suur samm edasi.<\/p>\n\n\n\n<p>Et sellest teadmisest kasu l\u00f5igata, tuleb aru saada, kuidas need omadused m\u00f5jutavad Viterbi tee p\u00f5hjal tehtud j\u00e4reldusi. See ei ole lihtne, kuid lahendustel on suur praktiline t\u00e4htsus, sest nii on v\u00f5imalik n\u00e4iteks andmeteadlasele \u00f6elda, mida v\u00f5ib ja mida ei tohi Viterbi teest j\u00e4reldada. M\u00fcndiviske n\u00e4ites ei tohi Viterbi teest j\u00e4reldada, et kulli t\u00f5en\u00e4osus on 1, k\u00fcll aga saab j\u00e4reldada, et see on v\u00e4hemalt 0,5.<\/p>\n\n\n\n<p><strong>Ohtlik lihtsustamine<\/strong><\/p>\n\n\n\n<p>Varjatud Markovi ahel on k\u00fcll lihtne mudel, mida kasutatakse palju, kuid see j\u00e4\u00e4b mingites olukordades paraku liiga primitiivseks. See mudel eeldab, et mingi kindla varjatud tunnustega stsenaariumi korral on vaatlused s\u00f5ltumatud. Tihti pole see aga nii, ja nagu kohtualustest \u00f5dede juhtumid n\u00e4itasid, v\u00f5ib mudeli \u00fclelihtsustamine olla saatuslik.<\/p>\n\n\n\n<p>Samas p\u00f5hinevad Viterbi ja teised olulised algoritmid just Markovi ahela omadusel ega t\u00f6\u00f6ta ilma selleta. Varjatud Markovi ahelat on aga v\u00f5imalik \u00fcsna palju \u00fcldistada, kaotamata siiski vajalikku omadust.<\/p>\n\n\n\n<p>Niinimetatud paarikaupa Markovi mudel koosneb kahest juhuslikust protsessist (vaatlused ja varjatud stsenaarium), millest kumbki eraldi ei pruugi olla Markovi ahel, kuid kahepeale kokku on nad seda k\u00fcll. Ja algoritmid (neid tuleb k\u00fcll natuke kohendada) t\u00f6\u00f6tavad ikka.<\/p>\n\n\n\n<p>Erinevalt varjatud Markovi ahelatest on \u00fcldisemad paarikaupa mudelid suhteliselt v\u00e4hetuntud ja neid pole ka eriti s\u00fcstemaatiliselt uuritud. Seda viga p\u00fc\u00fcame Tartu \u00dclikoolis minu juhitavas juhuslike protsesside t\u00f6\u00f6r\u00fchmas parandada. Matemaatiliselt on sellised mudelid paraku m\u00e4rksa keerukamad. Siiski \u00f5nnestus Joonas Soval oma doktorit\u00f6\u00f6s konstrueerida h\u00e4davajalik t\u00f6\u00f6riist\u00a0\u2013 Viterbi protsess, mis v\u00f5imaldab \u00fcldistada mitmeid seni vaid varjatud Markovi mudelite korral t\u00f5estatud teoreeme.<\/p>\n\n\n\n<p>Meie t\u00f6\u00f6r\u00fchma s\u00f5num andmeteadlasele on lihtne: kui leiad, et varjatud Markovi ahel on piisavalt realistlik, siis kasuta seda, sest lihtsus loeb. Kui aga leiad, et eeldused pole t\u00e4idetud, siis ole teadlik sellest, et on ka palju teisi ja mitmeski m\u00f5ttes reaalsusele l\u00e4hedasemaid mudeleid.<\/p>\n\n\n\n<p>Paljukasutatud Viterbi tees v\u00f5ib olla keskmiselt liiga palju dekodeerimisvigu, kuid nii varjatud kui ka paarikaupa Markovi ahelate korral on suhteliselt lihtne leida minimaalse keskmise vigade arvuga <em>t\u00e4pseim tee<\/em>. Paraku v\u00f5ib selle t\u00f5en\u00e4osus olla v\u00e4ga v\u00e4ike, isegi null.<\/p>\n\n\n\n<p>Sellist lahendust on praktikutel raske aktsepteerida\u00a0\u2013 parim stsenaarium ei saa ju ometi olla v\u00f5imatu! Probleemile, et parim tee vigade arvu m\u00f5ttes v\u00f5ib olla halvim t\u00f5en\u00e4osuse m\u00f5ttes, juhtis juba 1980-ndatel t\u00e4helepanu statistilise k\u00f5netuvastuse rajaja Lawrence Rabiner. Tema pakutud v\u00e4ljap\u00e4\u00e4s oli optimeerida olekupaaride t\u00f5en\u00e4osuste summat\u00a0\u2013 see ei anna k\u00fcll vigade m\u00f5ttes parimat tulemust, kuid midagi sinna kanti. Paraku ei ole see lahendus, sest ka maksimaalses summas v\u00f5ib m\u00f5ni liidetav ikka olla null (ja nii on ka kogu tee t\u00f5en\u00e4osus null).<\/p>\n\n\n\n<p>Pakkusime koos Koloydenkoga v\u00e4lja algoritmi, kus summa asemel maksimeeritakse korrutist. Korrutis saab olla nullist erinev vaid siis, kui \u00fckski tegur pole null. Seda ideed edasi arendades j\u00f5udsime nn h\u00fcbriidalgoritmide klassini.<\/p>\n\n\n\n<p>Selle tulem on nn\u00a0h\u00fcbriidtee, mis \u00fchendab head omadused: suhteliselt v\u00e4he vigu ja suhteliselt suur t\u00f5en\u00e4osus. Algoritmi on kerge \u00fcldistada paarikaupa Markovi mudelitele ning praegu k\u00e4ib t\u00f6\u00f6 algoritmi eeliste tutvustamiseks konkreetsete rakenduste kaudu. Teeme selles vallas koost\u00f6\u00f6d Aarhusi \u00dclikooli professori Asger Hobolthiga, kelle uurimisr\u00fchm on saanud viimasel ajal h\u00fcbriidalgoritmide rakendamisel paljut\u00f5otavaid tulemusi.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Iga statistiline anal\u00fc\u00fcs p\u00f5hineb mudelil ja mudelist s\u00f5ltub v\u00e4hemalt sama palju kui andmetest. Erinevad mudelid, mis kasutavad t\u00e4pselt samu andmeid, v\u00f5ivad anda miljoneid kordi erineva tulemuse\u00a0\u2013 mudeli valik v\u00f5ib m\u00f5nikord olla s\u00f5na otseses m\u00f5ttes elu ja surma k\u00fcsimus. Selle sajandi &#8230;<\/p>\n","protected":false},"author":784,"featured_media":954,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[6],"tags":[],"class_list":["post-1008","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-teadus"],"acf":[],"_links":{"self":[{"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/posts\/1008","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/users\/784"}],"replies":[{"embeddable":true,"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/comments?post=1008"}],"version-history":[{"count":2,"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/posts\/1008\/revisions"}],"predecessor-version":[{"id":1101,"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/posts\/1008\/revisions\/1101"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/media\/954"}],"wp:attachment":[{"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/media?parent=1008"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/categories?post=1008"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/sisu.ut.ee\/ajakiri\/wp-json\/wp\/v2\/tags?post=1008"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}