![]() |
|
|||||||||
Avaleht
Tartu Ülikool
|
eng
|
|||||||||
![]() |
||||||||||
![]() |
||||||||||
| www.ut.ee » Matemaatilise statistika instituut » Õppimine » Lõputööd » Lõputööde teemad 2011/2012 | |||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||
|
MSI LÕPUTÖÖDE TEEMAD 2011/2012 MSI lõputööde teemad 2011/12
Bakalaureuseõpe
Krista Fischer. Hõivatud: 1) Suremus ja riskitegurid Eesti Geenivaramu geenidoonorite seas. TÜ Eesti Geenivaramuga liitunud ca 51000 geenidoonorist oli aprilliks 2011 üle 1300 inimese surnud. Surmade registriga linkimise teel on saadud andmed nii surma kuupäeva kui surmapõhjuste kohta. Põhjalikud küsimustiku andmed võimaldavad hinnata erinevate riskitegurite mõju. Töö esmaseks eesmärgiks olekski tutvumine elukestusanalüüsis kasutatavate mudelitega ja neid kasutades hinnata, millised riskitegurid mõjutavad suremust. Töö edasiarendusena (tõenäoliselt magistritöös) tuleks kõne alla ka erinevate geneetiliste tegurite kaasamine ning samuti erinevatele surmapõhjustele nn "võistlevate riskide" mudeli hindamine.
Krista Fischer. Hõivatud: 2) Toitumise andmed Eesti Geenivaramu kohordis: inimeste toitumismustrite kirjeldamine ja seosed tervisega. TÜ Eesti Geenivaramu andmebaases on rohkem kui 50000 geenidoonori kohta olemas andmed 18 tunnuse kohta, mis kirjeldavad inimese toitumisharjumusi. Kui uurida toitumisega seotud terviseriske, siis tavaliselt ei ole mõjutajaks üksikute toiduainete tarbimine, vaid inimese üldine toitumismuster: toitumise tervislikkus. Seega oleks vaja andmete dimensionaalsust vähendada, üritades leida võimalikult väikese arvu tunnuseid, mis kirjeldavad inimeste toitumise varieeruvust ja on seotud erinevate tervisenäitajatega. Töö esimeses osas peakski tudeng kasutama erinevaid mitmemõõtmelise analüüsi meetodeid andmete dimensionaalsuse vähendamise ja indiviididevahelise varieeruvuse parema kirjeldamise eesmärgil (nt peakomponentanalüüs, klasteranalüüs, faktoranalüüs) ja võrdlema erinevate meetodite võimalusi. Järgnevalt peaks uurima toitumise seoseid nii taustatunnustega (sugu, vanus, rahvus,..) kui erinevate tervisenäitajatega. Teemat on võimalik veelgi edasi arendada (magistritööna), kasutades näiteks struktuurivõrrandite mudeleid seoste struktuuri paremaks kirjeldamiseks ja/või kaasates ka geeniandmeid. Tanel Kaart. Tänapäevases andmetemahukas maailmas leiavad järjest enam kasutamist mitmesugused mitmemõõtmelised analüüsimeetodid. Ühtedeks viimastel aastakümnetel väga erinevatel erialadel rakendatavateks meetodite klassiks on osavähimruutude meetodid (partial least squares, PLS). Need meetodid on kasutatavad siis, kui tunnuste (argumettunnuste, grupeerivate tunnuste, funktsioontunnuste) arv on suur ning vaatluste arv on väike ja/või tunnuste vahel on tugevad seosed. PLS-meetodid on implementeeritud mitmes statistikapaketis, näiteks SAS-s mooduli STAT protseduurs PLS.
1) teema osavähimruutude regressioonist (PLS-regressioonist). Bakalaureusetöö eesmärgiks on saada aru meetodi põhimõtetest, tutvustada PLS-regressiooni meetodit ning rakendada seda reaalsel ökoloogilisel andmestikul, kus eesmärgiks on prognoosida kahel erineval aastal erinevatel aladel määratud maamesilaste ja nende liikide arve lähtuvalt erinevatel raadiustel määratud maastiku karakteristikutest (põõsaste osakaal 250, 500, 1000 ja 2000 m raadiuses jmt).
2) Alternatiivina võib bakalaureusetöö teemaks olla ka osavähimruutude korrelatsioon (PLS-korrelatsioon). Endiselt on töö eesmärgiks saada aru meetodi põhimõtetest, tutvustada meetodit ning rakendada seda reaalsel ökoloogilisel andmestikul (viimaseks võib olla nii eelnevalt nimetatud maamesilaste andmestik kui ka huvi korral hoopis kõrede, mudakonnade või rabakiilide leviku ja elupaikade andmed).
3) Kolmanda variandina PLS-meetoditest võib bakalaureusetöö kirjutada näiteks neuroteadustes rakendatava katsedisaini põhise osavähimruutude korrelatsiooni (task PLS-correlation) teemal. Töö eesmärgiks saada aru meetodi põhimõtetest ja variantidest, tutvustada meetodit ning rakendada seda reaalsel andmestikul (kas erinevalt mõjutatud hiirte ajupiirkondade aktiivsuse uurimisel või eri riikide veekogudes määratud erinevate veeselgroogsete arvukuse uurimisel).
Kõigi teemade puhul on kaugem eesmärk uurida käsitletud meetodite omavahelisi sarnasusi ning seotust teiste mitmemõõtmeliste analüüsimeetoditega (peakomponentide analüüs ja regressioon, kanooniline analüüs, diskriminantanalüüs, mitmemõõtmeline dispersioonanalüüs, mitmemõõtmeline skaleerimine jne). Samuti on reaalne vajadus meetodite kombineerimiseks.
Tanel Kaart. 4) Binaarsete tunnuste analüüsil on levinud meetoditeks logistiline ja probit-regressioon. Sageli järgneb sellele ROC-kõverate analüüs. Mõnel erialal on täiendavalt välja kujunenud harjumus pöörata andmeile sobitatud mudel ümber ja hinnata algse argumenttunnuse väärtust, mis garanteeriks huvi pakkuva sündmuse toimumise mingi ette antud tõenäosusega. Näiteks toksikoloogias pakub huvi doosi suurus, mis 50%-lise tõenäosusega on mürgine (50% lethal doze, LD50), agronoomias soovitakse teada temperatuuri, mille juures 90% talvituvaist kahjureist hukkub (90% lethal temperature, LT90). SAS-s on need pööratud hinnangud koos oma (fiducial) usalduspiiridega leitavad mooduli STAT protseduuri PROBIT abil. Bakalaureusetöö eesmärgiks on saada aru logistilise ja probit-regressiooni, ROC-analüüsi ja nö pööratud hinnangute olemusest ning rakendada kogu kirjeldatud metoodikat reaalse andmestiku näitel taimekahjurite surevuse uurimisel erinevatel temperatuuridel ja/või talvitumissügavustel.
Perspektiivis võib antud töö jätkuna tegeleda üldistatud lineaarsete mudelitega ja seosefunktsioonide pöördfunktsioonidega saamaks uuritava tunnuse väärtuste prognoose algsel skaalal. Alternatiivina võib süveneda statistiliste otsuste tegemise olemusse, sest kõrvuti nö tavastatistikaga (frequentist statistics) võib järeldusi teha ka Bayesi statistika alusel (Bayesian inference) või siis, nagu tehakse eelnevalt kirjeldatud pööratud hinnangute usalduspiiride leidmisel, hoopis Sir Ronald Aylmer Fisher’i poolt välja töötatud nö usul põhineval statistikal (fiducial inference).
Ants Kaasik. 1) Teist tüüpi regressioon (type 2 regression). Klassikalise lineaarse regressioonimudeli korral on tegemist sõltuva ja sõltumatu muutujaga. Seega peab oleme selge, mis on mis. Kui üks tunnustest on meie kontrolli all (nt patsiendile manustatud ravimikogus), siis on asi lihtne. Vahel aga peame uurima seoseid kahe tunnuse vahel olukorras, kus mõlemad on ilmselgelt mõõdetud vigaselt. Tudengi ülesanne on tutvuda nn RMA (reduced major axis) regressioonitehnikaga, mis on välja töötatud sellise olukorra jaoks.
Ants Kaasik. 2) Kui me ei oska arvata, kumb tunnus mõõdab põhjust ja kumb tagajärge (aga hajuvusdiagramm näitab, et tunnused on ilmselgelt korreleeritud ja meid huvitab tunnuste-vaheline lineaarne seos) siis tekib küsimus, kuidas mõõta väljapakutud kandidaat-regressioonjoone headust. Eesmärk on vaadelda erinevaid viise kandidaatjoone headuse hindamiseks ja analüüsida nende poolt valitavate (parimate kandidaatide) omadusi. Teema sobib algebrasõbrast tudengile.
Raul Kangro. Hõivatud: Tarkvarapaketis R kasutatavatest numbrilise optimiseerimise meetoditest. Väga sageli tuleb jaotuste leidmisel või mõne teoreetilise mudeli sobitamisel andmetega lahendada küllalt keerulisi optimiseerimisülesanded. Kuna analüütiline lahendamine on võimalik ainult erijuhtudel, siis kasutatakse valdavalt erinevaid numbrilisi meetodeid. Statistika tarkvaras kasutatavad numbrilised meetodid küllalt "lollikindlalt" häälestatud, kuid aegajalt vaikimisi valikud ei tööta või töötavad liiga aeglaselt ning sel juhul on kasutajal võimalus ise meetodeid häälestada. Muidugi juhul, kui ta seda oska.
Bakalaureuseöö ülesandeks olekski kirjutada ülevaade olulisematest paketis R kasutatavatest meetoditest, kirjeldada nende töötamist mõningate lihtsate näiteülesannete jaoks ning võrrelda efektiivsust mõningate jaotuse parameetrite suurima tõepära meetodil leidmise puhul. Tõnu Kollo. 1) Esimene eestlase doktoritöö matemaatilises statistikas. Teema sobib saksa keelt õppinud tudengile. 1949. aastal kaitses Göttingeni ülikoolis oma doktoritööd Antoni Kesküla klassifitseeritud andmete korrelatsioonikordajate kohta ja klassifitseerimisel tekkiva informatsioonikao hindamisest. Töö ei ole mahukas – vaid 29 lk. masinkirjateksti. Vaja oleks anda ülevaade tööst tänapäeva arusaamade ja mõistete kaudu. Doktoritöö koopia on instituudis olemas. Töö tegemine peaks loodetavasti korrastama ka autori erialast maailmapilti.
Tõnu Kollo. Hõivatud: 2) Suundandmete statistika (Statistics of Directional Data). Töö käigus antakse/saadakse sissejuhatav ülevaade suundandmete puhul kasutatavatest meetoditest ja jaotustest. Kui tõenäosusteooria kursuses tegeldakse juhuslike suurustega, mis omavad väärtusi reaalsirgel, siis suundandmeid kirjeldavad juhuslikud elemendid, mis omandavad väärtusi näiteks ringjoonel või sfääril. Neid mudeleid rakendatakse paljudel juhtudel, näiteks lindude rände kirjeldamisel, maa magnetisminähtuste modelleerimisel. Pöördenurga tõenäosuslikku käitumist kirjeldavad jaotused, mis erinevad klassikalistest enimkasutatavatest juhusliku suuruse tõenäosusjaotustest. Tööle tuleb kindlasti kasuks illustratsioon näite-andmetega.
Ene Käärik. Lineaarse mudeli determinatsioonikordaja ja prognoosi kordaja. Lineaarse mudeli headuse iseloomustamiseks on kasutusel kõigile tuntud determinatsioonikordaja, mille arvutamisel on aluseks koguhajuvuse (SST) jaotamine mudeli poolt kirjeldatud hajuvuseks (SSR) ja jääkhajuvuseks (SSE). Kui SSE asendada nn PRESS- jääkidega jõutakse prognoosi kordajani (coeff of prediction).
Bakalaureusetöös tuleks anda ülevaade mõlemast kordajast, nende omadustest ja kasutamisest koos näidetega. Prognoosi kordajast saab ülevaate artiklist Landram, Abdullat, Shah (2005). 'The coefficient of prediction for model specification' Southwestern Economic Review, vol 32, 1, 149-156. Jüri Lember. Lokaalsed joondused juhuslike jadade võrdlemisel. Juhuslike jadade võrdlemine on keskne teema molekulaarbioloogia matemaatiliste mudelite teoorias (computational molecular biology). Jadadena vaadeldakse enamasti DNA või aminohapete järjestusi (valke). Sarnased jadad eeldatakse pärinevat ühisest esivanemast (homoloogsed). Kuidas aga mõõta ja arvutada jadade sarnasust? Defineerides jadade sarnasuse (sarnasusskoori) näeme, et ka sõltumatutel, üksteisega mitte seotud jadadel on mingi skoor. Kuidas eristada juhuslikku sarnasust sisulisest? Kas defineeritud sarnasus tõepoolest näitab homoloogiat? Need on valdkonna põhiküsimused.
Tihti huvitab biolooge jadade sarnased osad, nn lokaalne sarnasus. See tähendab, et kaks jada on sarnased, kui neil on mingid väga sarnased lõigud (ülejäänu võib olla väga erinev). Bakalaureusetöö eesmärk on valdkonnaga tutvumine, mitmesuguste arvutisimulatsioonide läbiviimine ning põhjalikum tutvumine peamise tänapäeval kasutatava programmiga: BLAST.
Teema sobib tudengile, kes soovivad spetsialiseeruda bioinformaatikale. Anne Selart, andmed Tanel Kaart. Andmed on pärit EMÜ metsandus- ja maaehitusinstituudist ning teemaks on vanade palkide (palkmajad, alusparved Tartu kesklinna majadel jne) tugevuse hindamine. Instituudis on aparaat, sisuliselt drell, mis puurib läbi palgi imepisikese augu, mõõtes iga 0,1 mm järel puidu tugevuse. Taolisi puurimisi tehakse samal palgil erinevaist kohtadest. Lisaks on neil läbi puuritud ka hulk palkidest lõigatud katsekehi, mille kohta on teiste analüüsidega määratud erinevaid tugevuse parameetreid. Ühelt poolt võiks töö eesmärgiks olla uurida, kuivõrd võimaldab puurimise tulemusena saadud aegrida tuvastada aastarõngad ja nende laiuse, erinevad puidu osad, aga ka kahjurite või muu läbi kahjustunud osad. Teisalt võiks püüda leida seoseid katsekehade puurimise tulemuste ja nende erinevate tugevuse parameetrite vahel.
Ene-Margit Tiit. Leibkonnasuhete analüüsivõimalused loendusandmete põhjal. Materjaliks, mida kasutada saab, on (1) saabuva rahvaloenduse ankeet, (2) EUROSTATi eeskirjad leibkondade tüpoloogiate jt leibkonna ja perekonnaga seotud tunnuste kohta ning (3) eelmise loenduse väljundtabelid leibkonna ja perekonnaga seotud valdkondades (saadaval statistikaameti kodulehel).
Ülesandeks on kirjutada eeskirjad leibkonnatüüpide ja teiste leibkonnaga seotud tunnuste moodustamiseks küsimusest laekuvate andmete põhjal. Need eeskirjad peaksid olema aluseks SAS-makrodele, kuid seda etappi töö ei sisalda -- oluline on töötada välja ja esitada vajalikud algoritmid.
Loendusandmeid algoritmide silumiseks kindlasti enne töö valmimist pole võimalik kasutada, küll aga on olemas piloodi andmeid, mida saab kasutada. Imbi Traat. Hõivatud: 1) Kao mõju vähendamine nii valimi võtmise kui ka hindamise etapil. Kadu ehk mittevastamine on tänapäeva valikuuringute lahutamatu probleem. Kadu põhjustab nihet hinnangutes. Samas ei ole ilusat ühtset matemaatilist käsitlust kao mõju mõõtmiseks ja selle mõju vähendamiseks. Vajaka on jäänud informatsioonist kao kohta. Tänapäeval hakkab olukord muutuma. Mitmesugustest andmebaasidest ja registritest saab kao kohta informatsiooni. Eriti jõuliselt on viimastel aastatel kao matemaatilise käsitlusega tegelenud prof. Carl-Erik Särndal. Tema artiklid oleksidki tudengile alusmaterjaliks kaasaegse vaatenurga ja vahendite mõistmisel. Tuleb välja uurida, kuidas saadakse tasakaalustatud vastanute hulk, või kuidas mõõta, et vastanute valim on tasakaalus. Tuleb selgeks teha, kuidas mõõta kaost põhjustatud nihke suurust ja kuidas seda vähendada. Töö on jätkatav magistriõppes. Imbi Traat. 2) Jagunemismeetod valimi võtmiseks ehk {0,1}-vektori genereerimiseks. Jagunemismeetod (splitting method) võimaldab lõplikust üldkogumist võtta valimit etteantud kaasamistõenäosustega. Alternatiivsest vaatepunktist lähtudes võimaldab meetod genereerida realisatsiooni etteantud keskväärtusvektoriga mitmemõõtmelisest Bernoulli jaotusest. Meetod on üldine ja omab palju tähtsaid erijuhte, seejuures on paljud omadused veel läbi uurimata. Tudengi ülesandeks on meetodi kirjeldamine raamatu „Tille (2006), Sampling Algorithms“ põhjal ja meetodi mõnede omaduste uurimine, paljuski katsetuste teel R-tarkvara keskkonnas.
Mare Vähi. Hõivatud: Prognoosiprogrammi MicMac juhend. Eurostat on koostanud uue, nende poolt ametlikuks rahvastiku prognoosi programmiks nimetatud programmi MicMac. On vaja koostada programmi kasutaja eestikeelne juhend. Samas on vaja aru saada (ja kirja panna) kuidas just prognoos leitakse.
Bakalaureuse- või magistriõpe
Raivo Kolde. 1) Robustsed meetodid ekspressiooni andmete võrdlemiseks. Seoses tööriista MEM arendamisega oleme töögrupis BIIT kogunud kokku tuhandeid avalikke geeniekspressiooni andmestikke, mis kirjeldavad väga paljusid rakutüüpe, haiguseid ja bioloogilisi tingimusi. Kõik need andmed annavad meile võimaluse võrrelda uusi andmeid juba olemasolevaega et leida selle konkreetse bioloogilise süsteemi erinevusi ja sarnasusi teistega. See teema on huvitav näiteks vähiuuringutes. Samas pole nende võrdluste tegemine nii triviaalne, ei ole täpselt välja kujunenud metoodikat kuidas seda. Sellise metoodika arendamine ja testimine olekski tudengi ülesandeks. Siit valdkonnast on võimalik saada nii magistri kui ka bakalaureuseteemasid.
Mõned konkreetsemad küsimused mida lahendada oleks järgmised.
* Kuidas muuta andmeid analüüsitavaks üle eksperimentide, nii et labori, erinevate protseduuride ja tehnoloogiate spetsiifiliste efektide mõju oleks viidud miinimumini?
* Kas ja kuidas on mõtet binariseerida andmeid?
* Kas ja kuidas on mõtet kombineerida geene suuremateks funktsionaalseteks gruppideks?
* ...
Kirjandus
Adler et al. Mining for coexpression across hundreds of datasets using novel rank aggregation and visualization methods. Genome Biol. (2009) vol. 10 (12) pp. R139
McCall et al. Frozen robust multiarray analysis (fRMA). Biostatistics (2010) vol. 11 (2) pp. 242-53
Raivo Kolde. 2) Erinevatel tingimustel leitud ko-ekspressiooni võrkude võrdlemine. Bioloogiliste süsteemide esitamine ja uurimine läbi võrgustike on osutunud väga kasulikuks, sest see on loogiline viis esitada informatsiooni geenide omavaheliste seoste kohta. Seosed ise võivad olla stiilis, et kaks geeni avalduvad samal ajal, nende poolt kodeeritud valgud töötavad koos või et üks geen reguleerib teist. Paljud sellised võrgud on kogutud kokku üle paljude katsete ja on seetõttu väga üldised, kirjeldades võimalikke seoseid kõigis bioloogilises tingimustes. Meie idee oleks kasutada ära suurt geeniekspressiooni andmete hulka mis me oleme kogunud, et tekitada võrke, mis oleks spetsiifilised mingile konkreetsemale bioloogilisele tingimusele või haigusele ning võrrelda neid olemasolevate võrkudega. Jällegi saab sellest valdkonnast sõnastada nii bakalaureuse- kui magistritöö teemasid.
Mõned konkreetemad küsimused mida lahendada oleks järgmised.
* Kuidas oleks kõige mõistlikum genereerida võrgustikku kasutades geeniekspressiooni andmeid.
* Kirjeldada saadud võrgustikke kasutades graafiteooriast pärit statistikuid.
* Võrrelda erinevate andmestike pealt genereeritud võrke, leida mis on sarnasused ja erinevused ja kirjeldada neid funktsionaalselt.
* Võrrelda saadud võrgustikke olemasolevate teistel meetoditel saadud võrkudega, näiteks valguinteraktsioon võrguga.
* ...
Kirjandus
Adler et al. Mining for coexpression across hundreds of datasets using novel rank aggregation and visualization methods. Genome Biol. (2009) vol. 10 (12) pp. R139
Reimand et al. GraphWeb: mining heterogeneous biological networks for gene modules with functional significance. Nucleic Acids Res. (2008) pp.
Kalev Pärna. Hõivatud: 1) Lähinaabrite meetod ja selle rakendamine. Teatavasti on regressioonanalüüsi eesmärk prognoosida tunnust Y mingite teiste tunnuste X_1,...,X_k teadaolevate väärtuste põhjal. Lähinaabrite (LN) meetod on regressioonianalüüsi üks variantidest, mille tööpõhimõte on väga lihtne. Nimelt, tunnuse Y prognoosiks antud X = x korral leitakse andmestikus kõik x-le lähedased vaatlused (lähinaabrid) ning seejärel leitakse Y keskmine väärtus üle kõigi lähinaabrite. Erinevalt näiteks lineaarsest regressioonist, LN meetod ei eelda, et üksainus mudel sobib kogu andmestiku jaoks. LN meetod on näidanud end heast küljest ka praktikas. Üliõpilase ülesanne on LN meetodiga tutvumine ja selle rakendamise tegelikel andmetel. Täpsemalt on lõputöös kasutada üks kindlustusalane andmestik, mille baasil saab katsetada ja uurida LN meetodi erinevaid variante. Sobib nii bakalaureuse- kui magistritöö teemaks.
Kalev Pärna. 2) Korrespondentsanalüüs ja selle rakendamine. Korrespondentsanalüüs on levinud meetod andmete visualiseerimiseks, mille korral mitmemõõtmeline andmestik esitatakse punktidena 2-mõõtmelisel joonisel. Seejuures punktide kaugused tasandil peegeldavad võimalikult hästi nendevahelisi tegelikke kaugusi lähteruumis. Ühe võimaliku rakendusena saab näiteks uurida seost TÜ sisseastujate päritolu ja siin valitud teaduskonna vahel. Kas teatud koolidest pärit noored astuvad eelistatult mõnda kindlasse teaduskonda, või ei ole taolisi seoseid. Korrespondentsanalüüsi abil saab taolisi võimalikke seoseid analüüsida ja illustreerida kahemõõtmelise joonise abil. Töö seisneb korrespondentsanalüüsi meetodiga tutvumises kirjanduse põhjal ja selle rakendamises olemasoleva tarkvara abil. Teema sobib nii bakalaureuse- kui magistritööks.
Kalev Pärna. Hõivatud: 3) Barjääridega juhuslikud protsessid. Paljud ülesanded nii finantsmaailmas kui ka loodusteadustes on seotud tõkete ületamisega mingi juhusliku protsessi poolt. Näiteks kui aktsiahinna trajektoor ületab etteantud nivood A, siis võib see tähendada võitu investorile, kes on panustanud hinnatõusule. Kindlustusseltsile on jälle oluline teada, kui suur on tõenäosus, et võimalikud väljamaksed ületavad kindlustuspreemiate näol laekunud raha (s.t. kui suur on laostumise tõenäosus). Füüsikas pakub huvi see, kas juhuslikult ekslev Browni osake jõuab etteantud piirkonda ja kui palju aega võib selleks kuluda. Üliõpilase ülesanne on kirjanduse põhjal tutvuda lihtsamate seda tüüpi ülesannetega ning simuleerida vastavaid protsesse arvuti abil. On väga head võimalused nii praktiliseks kui ka teoreetiliseks tööks. Teema sobib nii bakalaureuse- kui magistritööks, kuna siin võib vaadelda erineva keerukusastmega ülesandeid. See on oluline teema finantsmatemaatikast huvitatud üliõpilasele.
Kalev Pärna. Hõivatud: 4) Vaba maksegraafikuga elukindlustuse mudelid. Elukindlustuse rangelt perioodiliste maksete asemel võib kindlustusselts kasutada ka paindlikumat maksepoliitikast, lubades kliendil teha sissemakseid talle sobival ajal ja sobivas suuruses. Seltsi võimalikud kahjud peaks sel juhul tasa teenima oletatavasti suureneva kliendilojaalsuse arvelt. Töö eesmärk on uurida vaba maksegraafiku rakendamisega seotud finantsriske, kasutades peamiselt Monte-Carlo meetodit.
Magistriõpe
Ants Kaasik. Hõivatud: 1) Kui kõik tunnused on mõõdetud ebatäpselt, siis ei ole andmete analüüsiks õige kasutada tavalist mitmese lineaarse regressiooni mudelit (sest selle mudeli kohaselt on ainus ebatäpselt mõõdetud tunnus sõltuv tunnus). Alternatiive on mitmeid. Näiteks peakomponentide analüüs ei tee tunnuste vahel vahet (sõltuv/sõltumatu) ja võib seetõttu olla antud olukorras sobivam meetod. Ent kandidaate on teisigi (nt. RMA, SMA regressioonimudelid). Tudengi ülesandeks on meetoditega tutvuda ning võrrelda nende kasutustingimusi.
Ants Kaasik. 2) Kui me ei diskrimineeri tunnuseid sõltuvateks ja sõltumatuteks, siis tundub mõistlik, et sõltumata tunnuste kasutamisest mudelis peab kahe tunnusevaheline seos tulema sama s.t. kui me esmalt teeme mudeli y~x ja saame, et y=a*x+b siis hiljem mudeli x~y ootame, et meie tulemuseks oleks x=1/a*y-b/a. Tavaline lineaarne regressioon sellise tulemuseni (reeglina) ei vii, ent on olemas meetodid, mille abil saadud lahenditel selline omadus on. Kuidas on lood aga siis kui meil on enam kui kaks tunnust? Tudengi eesmärgiks on meetodite teoreetiline ja praktiline laiendamine üldisemale juhule ja teema eeldab Ri kasutamisoskust.
Raul Kangro. Hõivatud: 1) Simulatsioonimeetodid ehk Monte-Carlo meetodid on väga populaarsed meetodid kõikvõimalike ülesannete lahendamiseks, kus tuleb keeruliste protsesside tulevikuväärtuste keskmist arvutada. Üheks rakendusvaldkonnaks on Euroopa tüüpi aktsiaoptsioonid keeruliste optsioonitingimuste või aktsiaturu mudelite korral. Samas aga arvati kaua aega, et vastavad meetodid ei ole rakendatavad Ameerika tüüpi optsioonide jaoks. Praeguseks on see arvamus muutunud ning üheks populaarseks meetodiks Ameerika tüüpi optsioonide hindade arvutamiseks on Longstaff-Schwartz algoritm. Magistritöö eesmärgiks olekski uurida selle meetodi teoreetilist tausta (artikli põhjal) ning katsetada selle rakendamisel erinevaid valikuvõimalusi mõningate lihtsate optsioonide korral.
Raul Kangro. Hõivatud: 2) Eksponentsiaalse silumise meetodid aegridade prognoosimiseks. Üheks alternatiiviks tuntud ARIMA metodoloogiale aegridade prognoosimiseks on eksponentsiaalse silumise meetodid. Huvitav on see, et lineaarsuse eeldustel on viimased ekvivalentsed ARIMA mudelitega, kuid samas on eksponentsiaalse silumise meetodid lihtsalt üldistatavad mittelineaarsete aegridade jaoks. Magistrandi ülesandeks oleks tutvuda vastavate meetoditega (raamatu põhjal), kirjutada töös lahti mõningad olulised teoreetilised tulemused nende kohta ning katsetada nende rakendamist ja sobivust erinevate aegridade prognoosimisel.
Tõnu Kollo. Hõivatud: Mitmemõõtmeline ebasümmeetriline t-jaotus. t-jaotus on osutunud sobivaks andmemudeliks paljudel juhtudel, kui jaotuse sabad on raskemad normaaljaotuse omadest. Enamasti on andmed ebasümmeetrilise empiirilise jaotusega ja nende kirjeldamiseks sobivad paremini ebasümmeetrilised jaotused. Ebasümmeetriline t-jaotus on üks võimalus selliste mudelite konstrueerimiseks. Mitme tunnuse koosmõju korral on mitmemõõtmeline t-jaotus võimalik andmemudel. Magistritöö on võimalik nii rakendusliku kallakuga, kus andmetele rakendatakse ebasümmeetrilist t-jaotust ja leitakse vajalikud parameetrite hinnangud, kui ka teoreetiline uurimus, kus uuritakse hinnangute omadusi ja arendatakse vastavat teooriat.
Jüri Lember. Segmenteerimine varjatud Markovi mudelitega. Varjatud Markovi mudel (hidden Markov mudel, HMM) on järjest populaarsust võitev mudel juhuslikkuse modelleerimiseks. Seda kasutatakse aktiivselt muuhulgas kõnetuvastamises, signaalitöötluses, keele modelleerimises ja bioinformaatikas. Mudel põhineb Markovi ahelal, mille iga seisund emiteerib teatud jaotusega vaatlusi. Ahela realisatsioon on varjatud, küll aga on uurija käsutuses vaatlused. Tihti on statistilise analüüsi eesmärk varjatud ahela seisundite hindamine -- nn segmenteerimine. Probleemi võib käsitleda mudeli parameetrite hindamisena, kuid antud juhul parameetrite arv kasvab koos valimi mahuga eksponentsiaalselt. Seetõttu klassikalised parameetrite hindamise meetodid ei sobi.
Tudeng tutvub üldise segmenteerimisteooriaga ja erinevate segmenteerimismeetodidega. Edasiseks tööks on mitu võimalust, üks võimalik on uurida MCMC-meetodite rakendamisvõimalusi. Magistritöö hõlmab nii teoreetilist osa (kirjandus, iseseisvad tõestused) kui ka praktilist (arvutisimulatsioonid, rakendused konkreetsetele andmetele).
Imbi Traat. Keeruliste statistikute dispersiooni hindamine mõjufunktsioonide abil. Mitmed statistikud (hinnangud üldkogumi parameetritele) on keerulised selles mõttes, et nende täpset dispersioonivalemit ei ole võimalik tuletada, samuti dispersioonihinnangu valemit. Siia kuuluvad mittelineaarsed statistikud, näiteks ebavõrdsust väljendavad näitajad nagu sissetuleku jaotuse kvantiilid, kvantiilide suhted, Gini kordaja jt. Keerulisust lisab veelgi keeruline valikudisain lõplikus üldkogumis. Jean-Claude Deville on välja arendanud ühtse, matemaatiliselt elegantse, meetodi niisuguste statistikute jaoks, see on mõjufunktsioone kasutav lineariseerimistehnika. Tudengi ülesandeks on selgeks teha mõjufunktsioonid ja nende kasutamine dispersiooni hindamisel. Rakendada meetodit mõne mittelineaarse statistiku korral. Katsetada meetodit simuleerimisel. Kasutada on Deville’i artikkel ja selles viidatud kirjandus.
|
|
||||||||||||||||||||||||||||||||||
|
Sisukaart · Kirjuta veebihaldurile | |