2020/2021 vabad teemad

Matemaatika

* Epideemia leviku ennustamine, juhendaja Urve Kangro 

File

Pinnateooria üheks tähtsaks pindade klassiks on minimaalpinnad. Minimaalpinna mõiste on lihtne. Olgu ruumis antud kinnine joon (kontuur), tähistame L. Tuleb leida pind nii, et joon L on selle pinna raja (piltlikult öeldes peame pinda kontuurile tõmbama) ja otsitava pinna pindala on minimaalne. Antud probleemil on pikk ajalugu ja seda uurisid Lagrange, Plato, Gauss, Weierstrass ja probleem osutus nii raskeks, et uuritakse ka meie ajal.

Kaasaegses diferentsiaalgeomeetrias üheks väga tähtsaks struktuuriks on diferentsiaalvormide teooria. Selle teooria rajaja on prantsuse matemaatik Elie Cartan. Diferentsiaalvormide abil uuritakse pindade ja muutkondade topoloogiat (de Rhami cohomologiad). Diferentsiaalvormide teooriat rakendatakse teoreetilises füüsikas. Maxwelli võrrandite kuju muutub väga kompaktseks, kui kasutada diferentsiaalvorme.

Kaasaegses diferentsiaalgeomeetrias kihtkonna ja seostuse mõisted mängivad tähtsat rolli. Kihtkonna idee on huvitav ja seisneb selles, et pinna igas punktis on määratud vektorruum (nimetatakse kihiks), nt pinna puutujatasand, siis pind koos kihtidega moodustab kihtkonna. Seostus mõiste tekkib vektori paralleelülekande üldistamisel. Selgus, et kihtkond, seostus ja selle kõverus on teoreetilise füüsika Yang-Millsi väljateooria aluseks ja see on teatud määral ime. Selgituseks ütlen, et Yang-Millsi väljateooria on teoreetilises füüsikas väga tähtis, ta kirjeldab tuuma osakeste (prootonid ja neutronid) tugevat vastasmõju.

Praegu arvatakse, et aeg-ruumi geomeetria kardinaalselt muutub Plancki kaugustel 10-35 m, st ta ei ole enam eukleidiline või Minkowski ruumi geomeetria (kvantefektid tulevad mängu). Praegu toimub selle uue geomeetria aktiivne otsing ja selle teema eesmärk on tutvustada (ja uurida) kvantruumi originaalseid ideid, mida arutatakse geomeetria ja teoreetilise füüsika valdkonnas.

Matemaatiline statistika

Eesmärk: võrrelda Euroopa riikide edukust koroonaviirusega võitlemisel, arvestades rakendatavaid meetmeid, nende asjastust ja mitmesuguseid taustatunnuseid (riikide rahvastikutihedust, linnastumise taset, kliimatingimusi jne).
Andmeallikad: rahvusvaheliselt publitseeritud andmed.

(Eesti Haigekassa, mark.gimbutas@haigekassa.ee). Üldiselt iga kord, kui arsti juures käite, esitab arst (haigla) selle visiidi eest haigekassale raviarve – selliste arvete tasumine on üks haigekassa põhitegevusi. Haigekassa kontrollib selliste raviarvete põhjendatust ja valede raviarvete eest nõuab raha haiglalt tagasi. Sealhulgas kontrollitakse rutiinselt teatud a priori kahtlaseid raviarveid, näiteks selliseid, kus haiglaravi ajal on lisaks haiglaravi arvele haigekassale esitatud ka mitte-haiglaravi arve. Niimoodi eelvalitud arved vaadatakse käsitsi üle, vajadusel haigla käest selgitusi ja lisadokumente küsides. Suur osa nendest raviarvetest osutuvad siiski põhjendatuteks, kuid osa lähevad ka tagasinõudeks. Töö praktiline eesmärk on rakendada statistilisi mudeleid, et kitsendada käsitsi kontrollimisele minevate arvete hulka.

Tudeng valib koostöös juhendajatega binaarse klassifikatsiooni mudeli ja tutvub selle teoreetilise taustaga. Lisaks tuleb töö käigus tutvuda võimalustega, kuidas valida sobiv kaofunktsioon või sobiv mudeli täpsuse mõõdik (põhjendamata arve tähelepanuta jätta on palju suurem viga kui õige arve läbi vaadata), kuidas käituda nn. tasakaalustamata andmete puhul (õigeid arveid on kümneid ja sadu kordi rohkem kui vigaseid). Lõpuks tuleb rakendada mudelit eeltoodud praktilise probleemi lahendamisel.

Teemat võib valida ka rohkem kui üks üliõpilane.

Igasuguse statistilise modelleerimise juures on oluliseks mudeli valik. Tihti kasutatakse parima mudeli valimiseks erinevaid informatsioonikriteeriume ja nende modifikatsioone, mis põhinevad Akaike ideel Kullback-Leibleri informatsioonimõõdu lähendamisest. Tuntuimad kriteeriumid on näiteks Akaike informatsioonikriteerium (AIC) ja Bayes’i informatsioonikriteerium (BIC). Sobiva kriteeriumi valik sõltub  modelleerimise eesmärgist. Informatsioonikriteerium võimaldab vaatluse all olevad mudelid kriteeriumi väärtuse alusel järjestada, aga probleemiks  tavaliste kriteeriumide nagu AIC ja BIC puhul on see, et nende väärtuse suurus on suhteline ja ainuüksi väärtuse suuruse järgi on raske otsustada, kui kaugel me oleme „heast“ mudelist. Võib juhtuda, et kõik meie vaadeldavad mudelid on halvad ja nendest parima valik tähendab tegelikult, et valime parima halva mudeli. Suurimate vahemike meetod (inglise keeles maximum spacing method, MSP) võimaldab saada täiendavat infot vaatluse all olevate mudelite kohta. MSP-meetod on alternatiivne meetod suurima tõepära meetodile parameetrite hindamiseks pidevate jaotuste korral. MSP-funktsiooni väärtuse arvutamine võimaldab hinnata vaadeldavate mudelite klassi sobivust antud andmete jaoks ja öelda, kui kaugel oleme „tegelikust“ hüpoteetilisest mudelist.

Töö eesmärgiks on tutvuda AIC- ja BIC-kriteeriumi alustega ja uurida simulatsioonide ja tegelikele andmetele mudeli sobitamise abil, millist täiendavat informatsiooni on lisaks informatsioonikriteeriumitele uuritavate mudelite kohta võimalik saada MSP-meetodi abil.

2020 sügisel arendatakse R tarkvara kursust, mis on avatud kõigile ehk MOOC-na (Massive Online Open Course). Selle projektiga seoses ootan abilisi, et kursus üles sättida, õppematerjale arendada, pilootkatset läbi viia. Tudengi lõputööks on õppemetoodiline uurimus - pakkuda välja õppemetoodilisi lähenemisi, väljaarendatud õppematerjalide ja süsteemi efektiivsuse hindamine. Antud lõputöö sobib hästi tudengile, kellel on soov tulevikus õpetada või koolitada oma kaaskondseid. Teema jaoks on vajalik hea R-i oskus, kasuks tulevad didaktika taust, huvi arendada (elektroonilisi) õpetamise meetodeid ja/või kogemusi veebikeskkondadega nagu Moodle, Github, Coursera, DataCamp vms.

Valikuuringute teooria eristatakse kahte suurt lähenemist: disainipõhine ja mudelipõhine valikuuring. Matemaatika ja statistika instituudis õpetatakse disainipõhist lähenemist. Bakalaureuse tudengi ülesandeks on teha ülevaade mudelipõhisest valikuuringute teooriast, välja töötada ülesanded (teoreetilised/praktilised), mis abistaksid teema omandamist. Lõputöö tulemust kasutatakse õppetöös - ainete valikuuringute teooria I ja II kursustes.

Kõige üksikasjalisemad terviseandmed Eestis on talletatud Digiloo epikriisidesse. Kuid uurijad ei kasuta neid andmeid palju, sest ei usalda epikriiside andmebaasi katvust. Digiretsepti puhul on andmete katvus väga hea aga jälle jääb puudu detailsusest. Antud töö eesmärgiks oleks hinnata Digiloo andmebaasi kasutus võimalusi uuringutes, viies läbi sarnase antibiootikumide kasutamise uuringu mõlemas andmebaasis. Tulemused näitaksid ära võimalikud kitsaskohad ka kallutatuse Digiloo andmetes.

(Statistikaamet). Rahva ja Eluruumide Loendus REL2021, toimub registrite põhiselt. Samas on huvigruppidel soov teada saada informatsiooni, mida registrites ei esine, nagu näiteks usklike arv, murret valdajate arv, mitut võõrkeelt rääkijate arv, tervisemuredega isikute arv jms. Lisana REL2021-le planeeritakse valikuuringut, mis valimilt need arvud hindaks. Alati on aga mittevastajaid, kes ühelegi küsimusele või osale neist vastanud pole. Veelgi enam, on asutusi nagu näiteks vanglad, kuhu küsitleja ise minna ei taha.

Tudengi ülesandeks on uurida imputeerimismeetodeid puuduvate väärtuste asendamiseks ja eelmise rahvaloenduse REL2011 andmetel nende meetodite katsetamine. Andmete kasutamiseks tuleb tudeng vormistada Statistikaameti praktikandiks.

Matemaatika ja statistika

Neural networks (NNs) are well-known computing schemes mainly used for forecasting and classification problems, but also employed to solve ordinary or partial differential equations. They are usually modeled as a system of differential equations [1] or integro-differential equations for the recurrent schemes [2, 3]. Neural networks models in integral form (as a system of integral equations) have not been extensively investigated, though they exhibit some interesting properties [4]. The aim of this thesis is to investigate the approximation ability of a new NN scheme with uncertainty in integral form, formally and numerically through some benchmark problems. In particular, as an application example, the credit risk assessment will be considered [5], in order to predict whether a customer will be solvent or not.

References

[1] S. Haykin, Neural Networks and Learning Machines, Pearson College, 3rd ed. 2008

[2] B. de Vries, J.C. Principe, A theory for neural networks with time delays, in: Proceedings: Conference on Advances in Neural Information Processing Systems (NIPS-3), 1990, pp. 162–168.

[3] F. Colace, V. Loia, S. Tomasiello, Revising Recurrent Neural Networks from a Granular perspective, Applied Soft Computing, 2019, 82, 105535

[4] A. Nordbo, J. Wyller, G.T. Einevoll, Neural network firing-rate models on integral form: Effects of temporal coupling kernels on equilibrium-state stability, Biological Cybernetics, 2007, 97 (3), 195–209.

[5] M. Corazza et al. Design of adaptive Elman networks for credit risk assessment, Quantitative Finance, 2020, in press

2020 sügisel arendatakse R tarkvara kursust, mis on avatud kõigile ehk MOOC-na (Massive Online Open Course). Selle projektiga seoses ootan abilisi, et kursus üles sättida, õppematerjale arendada, pilootkatset läbi viia. Tudengi lõputööks on õppemetoodiline uurimus - pakkuda välja õppemetoodilisi lähenemisi, väljaarendatud õppematerjalide ja süsteemi efektiivsuse hindamine. Antud lõputöö sobib hästi tudengile, kellel on soov tulevikus õpetada või koolitada oma kaaskondseid. Teema jaoks on vajalik hea R-i oskus, kasuks tulevad didaktika taust, huvi arendada (elektroonilisi) õpetamise meetodeid ja/või kogemusi veebikeskkondadega nagu Moodle, Github, Coursera, DataCamp vms.

Eesmärk – teha kordusuuring, kasutades olemasolevaid ja sobivalt lisatavaid andmeid. Olemasolevast uuringust selgub, et kõigi erialade tudengite akadeemilist edukust ennustab matemaatika riigieksami tulemus. Ülejäänud tulemused ei ole päris usaldusväärsed – nii on võrreldud sisseastumiskatseid ja riigieksameid argumendina, kuid jäetud arvestamata see, et tegemist on erinevate osavalimitega, kelle taustamõjusid pole kuidagi kompenseeritud ega arvestatud. Täiendava analüüsi puhul oleks tarvis arvestada erinevaid aastaid, erialade erisusi, sh erinevat konkurssi, sisseastujate tausta kooli, paikkonna ja õppeedukuse, ka soo ja vanuse mõttes. Arvatavasti pole ka lihtne lineaarne regressioonimudel parim vahend lõppjärelduste tegemiseks.

Tegemist on rikkaliku ja huvitava andmestikuga, mille süvitsi analüüsimine võiks anda huvitavaid ja olulisi tulemusi, kuid töö käigus tuleb leida sobivaim analüüsimeetod ja kõige kõnekamad lähtetunnused, mis võivad oluliselt varieeruda astast aastasse ja erialati.

Igasuguse statistilise modelleerimise juures on oluliseks mudeli valik. Tihti kasutatakse parima mudeli valimiseks erinevaid informatsioonikriteeriume ja nende modifikatsioone, mis põhinevad Akaike ideel Kullback-Leibleri informatsioonimõõdu lähendamisest. Tuntuimad kriteeriumid on näiteks Akaike informatsioonikriteerium (AIC) ja Bayes’i informatsioonikriteerium (BIC). Sobiva kriteeriumi valik sõltub  modelleerimise eesmärgist. Mudelipõhise klasteranalüüsi korral kasutatakse parima mudeli valimiseks näiteks nn integreeritud klassifitseerimistõepära kriteeriumit (ICL), mille karistusliige võtab arvesse, et segumudel sobitatakse andmetele klasterdamise eesmärgil, st eesmärgiks on saada hästi eraldatud klastrid.

Informatsioonikriteerium võimaldab vaatluse all olevad mudelid kriteeriumi väärtuse alusel järjestada, aga probleemiks informatsioonikriteeriumite puhul on see, et nende väärtuse suurus on suhteline ja ainuüksi väärtuse suuruse järgi on raske otsustada, kui kaugel me oleme „heast“ mudelist. Võib juhtuda, et kui eeldatav mudelite klass pole sobiv, on kõik meie vaadeldavad mudelid halvad ja nendest parima valik tähendab tegelikult, et valime parima halva mudeli. Suurimate vahemike meetod (inglise keeles maximum spacing method, MSP) võimaldab saada täiendavat infot vaatluse all olevate mudelite kohta. MSP-meetod on alternatiivne meetod suurima tõepära meetodile parameetrite hindamiseks pidevate jaotuste korral. MSP-funktsiooni väärtuse arvutamine võimaldab hinnata vaadeldavate mudelite klassi sobivust antud andmete jaoks ja öelda, kui kaugel oleme „tegelikust“ hüpoteetilisest mudelist.

Magistritöö eesmärk on:

1) tutvuda AIC- ja BIC-kriteeriumi alustega (mis on AIC ja BIC, mis on nende erinevus, mida tähendavad vastavad karistusliikmed);

2) uurida simulatsioonide ja tegelikele andmetele mudeli sobitamise abil, millist täiendavat informatsiooni on lisaks informatsioonikriteeriumitele uuritavate mudelite kohta võimalik saada MSP-meetodi abil;

3) ICL-kriteeriumi puhul on kvalitatiivsete andmete korral kasutusel ka nn „täpne ICL-kriteerium“. Suurte andmestike korral peaks mõlemad kasutusel olevad ICL-kriteeriumid käituma sarnaselt, aga mõnes uurimustöös on täheldatud nende vastuolulist käitumist. Siin tuleks uurida, kas „täpne ICL-kriteerium“ on õigesti disainitud või millest on kahe kriteeriumi erinev käitumine tingitud.

Konishi, S. and Kitagawa, G. (2008). Information criteria and statistical modeling, Springer.

Burnham, K.P. and Anderson, D.R. (2002). Model selection and multimodel inference: a practical information-theoretic approach, Springer

#õppimine
Image

Tööstusmagistrantuuris saab läbida õppekava tööülesannete toel

27.09.2022
#õppimine
image

Matemaatika ja statistika instituudi stipendiaadid 2022/2023 õppeaasta sügissemestril

19.09.2022
#õppimine

2021/2022

Lõputööde teemad.
08.09.2022