Hoppa direkt till innehållet

Information till studenter och medarbetare med anledning av covid-19 (Uppdaterad: 31 mars 2021)

printicon
Kursplan:

Big data och analys av högdimensionella data, 7,5 hp

Engelskt namn: Big Data and high-dimensional data analysis

Denna kursplan gäller: 2020-08-17 och tillsvidare

Kurskod: 5MS062

Högskolepoäng: 7,5

Utbildningsnivå: Avancerad nivå

Huvudområden och successiv fördjupning: Matematisk statistik: Avancerad nivå, har endast kurs/er på grundnivå som förkunskapskrav

Betygsskala: TH teknisk betygsskala

Beslutad av: Teknisk-naturvetenskapliga fakultetsnämnden, 2017-10-01

Reviderad av: Teknisk-naturvetenskapliga fakultetsnämnden, 2020-05-04

Innehåll

Modul 1 (2 hp): Teori.
Här diskuteras vad som karakteriserar big data och högdimensionella data, inkluderande en historisk bakgrund och exempel på tillämpningar. Regressionsanalys inklusive maximum likelihood- och minsta kvadratmetoderna repeteras. Det generella klassificeringsproblemet introduceras. Mål med klassificering och hur prestanda mäts diskuteras. Vidare ingår valideringsmetoder, inklusive korsvalidering och utvärdering med hjälp av oberoende testdata. Teori för, och tillämpningar av logistisk regressionsanalys samt linjär och kvadratisk diskriminantanalys (LDA respektive QDA) tas upp. Variabelselektion för klassificeringsproblem, ridge regression, lasso, och principalkomponentanalys (PCA) behandlas, samt hur dessa metoder kan användas tillsammans med logistisk regression, LDA och QDA. Programspråket R och intressanta programbibliotek introduceras, inkluderande diskussion av ett genomarbetat exempel innehållande variabelselektion, klassificering och evaluering. Vidare ingår metoderna "K-nearest neighbour" (KNN), "support vector machines" (SVM) och "random forest". Det generella klusteranalysproblemet introduceras. Mål med klusteranalys och hur prestanda (robusthet) mäts diskuteras. I samband med detta behandlas hierarkisk klusteranalys, "k-means" och "self-organizing maps" (SOM).
 
Modul 2 (5.5 hp) Datorlaborationer.
I modulen ingår analys av flera datamaterial med hjälp av de i kursen ingående statistiska metoderna. Analyserna utförs i programspråket R. I momentet ingår omfattande skriftliga redogörelser av analyserna och dess resultat.

Förväntade studieresultat

För godkänd kurs ska studenten kunna
 
Kunskap och förståelse
  • ingående beskriva flera klassificeringsalgoritmer och klusteranalysalgoritmer, såsom logistisk regression, LDA, QDA, KNN, random forest, SVM, k-means, hierarkisk klusteranalys och SOM
  • ingående beskriva flera metoder för variabelselektion och dimensionsreduktion, såsom ridge regression, lasso, PCA och MDS
  • ingående beskriva flera valideringsmetoder, såsom korsvalidering, utvärdering med hjälp av oberoende testdata och bootstrapmetoder
Färdighet och förmåga
  • analysera data med ovan nämda metoder och programpaketet R
  • utförligt beskriva och tolka resultaten från ovan nämnda analyser
  • genomföra variabelselektion och dimensionsreduktion med hjälp av programpaketet R
  • identifiera lämpliga analysmetoder, lämpliga variabelselektionsmetoder och lämpliga metoder för dimensionsreduktion, för givna klassificerings- och klusteranalysproblem
  • tillämpa valideringsmetoder för att bland lämpliga analys-, variabelselektions- och dimensionsreduktionsmetoder och välja den mest lämpliga för specifika klassificerings- och klusteranalysproblem
  • visualisera högdimensionella data i samband med klusteranalys- och klassificeringsproblem
  • presentera resultat från ovan nämnda analyser i skriftlig form
Värderingsförmåga och förhållningssätt
  • kritiskt värdera klassificeringsmetoder och klusteranalysmetoder ur ett vetenskapligt perspektiv

Behörighetskrav

För tillträde till kursen krävs 90 hp inkluderande 12 hp matematisk statistik och 7,5 hp programmeringsmetodik eller motsvarande kunskaper. Engelska A och svenska för grundläggande behörighet för högskolestudier (om kursen ges på svenska).

Undervisningens upplägg

Undervisningen på modul 1 bedrivs i form av föreläsningar och lektioner. Undervisningen på modul 2 bedrivs i form av handledning av laborationer.

Examination

Examinationen sker i form av skriftliga laborationsrapporter och skriftlig tentamen. De skriftliga laborationsrapporterna bedöms som Underkända (U) eller Godkända (G) och poängsätts. På modul 1 och modul 2 ges något av betygen Underkänd (U) eller Godkänd (G). För godkänt betyg på modul 2 krävs att samtliga skriftliga laborationsrapporter är godkända. På hel kurs sätts något av betygen Underkänd (U), Godkänd (3), Icke utan beröm godkänd (4) eller Med beröm godkänd (5). För att bli godkänd på hela kursen krävs att båda modulerna är godkända. Betyget baseras på den totala poängsumman på laborationsrapporter och tentamen, där laborationsrapporterna står för 2/3 och den skriftliga tentamen för 1/3 av den totala poängsumman.

Den som erhållit godkänt betyg på kursen kan ej examineras för högre betyg. För studerande som inte blivit godkända vid ordinarie provtillfälle anordnas ytterligare provtillfälle. En student som utan godkänt resultat har genomgått två prov för en kurs eller en del av en kurs, har rätt att få en annan examinator utsedd, om inte särskilda skäl talar emot det (HF 6 kap. 22 §). Begäran om ny examinator ställs till prefekten för institutionen för matematik och matematisk statistik. Examination baserad på denna kursplan garanteras under två år efter studentens förstagångsregistrering på kursen.

Tillgodoräknande
Student har rätt att få prövat om tidigare utbildning eller motsvarande kunskaper och färdigheter förvärvade i yrkesverksamhet kan tillgodoräknas för motsvarande utbildning vid Umeå universitet. Ansökan om tillgodoräknande skickas in till Studentcentrum/Examina. Mer information om tillgodoräknande finns på Umeå universitets studentwebb, www.student.umu.se, och i högskoleförordningen (6 kap). Ett avslag på ansökan om tillgodoräknande kan överklagas (Högskoleförordningen 12 kap) till Överklagandenämnden för högskolan. Detta gäller såväl om hela som delar av ansökan om tillgodoräknande avslås.

Övriga föreskrifter

I en examen får denna kurs ej ingå tillsammans med en annan kurs med likartat innehåll. Vid osäkerhet bör den studerande rådfråga studierektorn i matematik och matematisk statistik. Kursen kan ingå i en examen som en kurs i huvudområdet beräkningsteknik.

Litteratur

Giltig från: 2020 vecka 34

An Introduction to Statistical Learning : with Applications in R
James Gareth., Witten Daniela., Hastie Trevor., Tibshirani Robert.
New York, NY : Springer New York : 2013. : xiv, 426 p. 150 ill., 146 ill. in color. :
ISBN: 9781461471370
Obligatorisk
Se bibliotekets söktjänst