Hoppa direkt till innehållet

Kakor

För att kunna chatta behöver du tillåta att Microsoft Dynamics använder kakor.

printicon
Huvudmenyn dold.
Kursplan:

Bearbetning och visualisering av data, 7,5 hp

Engelskt namn: Data preprocessing and visualisation

Denna kursplan gäller: 2021-01-04 och tillsvidare

Kurskod: 5DV217

Högskolepoäng: 7,5

Utbildningsnivå: Grundnivå

Huvudområden och successiv fördjupning: Datavetenskap: Grundnivå, har mindre än 60 hp kurs/er på grundnivå som förkunskapskrav
Matematisk statistik: Grundnivå, har mindre än 60 hp kurs/er på grundnivå som förkunskapskrav

Betygsskala: För denna kurs ges betygen VG Väl godkänd, G Godkänd, U Underkänd

Ansvarig institution: Institutionen för datavetenskap

Beslutad av: Teknisk-naturvetenskapliga fakultetsnämnden, 2021-01-13

Innehåll

Målet med Data Science är att göra det möjligt för samhälle, företag och medborgare att förstå och använda den ständigt ökande mängden insamlad information på ett sätt som gör det möjligt att upptäcka potentiella problem eller förbättringar av den aktuella situationen. Data Science bör också ge människor möjlighet att uppskatta och förstå de potentiella följderna av olika handlingar. Det finns ett talesätt om "lögner, fördömda lögner och statistik", som uttrycker det faktum att databaserad statistik kan presenteras på mycket övertygande sätt även när slutsatserna är falska. Denna kurs försöker undervisa hur man kan upptäcka sådan falsk information och säkerställa mer etisk användning av Data Science.

Ett exempel på praktisk användning av datavetenskap är att analysera och presentera epidemirelaterad data och statistik på korrekt och mänskligt förståeligt sätt så att beslut och åtgärder kan fattas baserat på rationell information. Data Science-metoder används också för att uppskatta effekterna av åtgärder för att minska den globala uppvärmningen, dimensionera vägnät, välja var man ska installera nya köpcentra eller restauranger, optimera byggnadernas energianvändning,…. Kort sagt, Data Science är en av de viktigaste domänerna för att bestämma hur vårt nuvarande och framtida samhälle ska byggas. Fler och fler företag kommer också att inse vikten av området Data Science. Oavsett bransch eller storlek måste organisationer som vill vara konkurrenskraftiga i hantering av stora datamängder effektivt utveckla och implementera Data Science möjligheter eller riskera att hamna på efterkälken.

Modul 1, teori, 4,0 hp.
Den här kursen om bearbetning och visualisering av data ger en introduktion till området Data Science. Studenterna kommer att lära sig att importera, manipulera och bearbeta data som kommer från olika reella datakällor i syfte att presentera det på sätt som möjliggör insikt i de underliggande systemen eller fenomenen. Bearbetning av data kan ge bättre insikt i datats betydelse genom statistiska mätningar, presenterade som numeriska tabeller som sammanfattar data på olika sätt. Men i de flesta fall tenderar människor att förstå visuella presentationer av data bättre än rent numeriska presentationer. Kursen kommer att undervisa hur man använder grundläggande datavisualiseringar såsom punkt- och linjediagram, stapeldiagram, histogram, låddiagram och fioldiagram. 3D-visualiseringstekniker lärs ut, samt hur man använder kartor och bilder för datavisualisering.

Olika dataanalyser och maskininlärningsmetoder kommer att användas men den underliggande teorin ligger utanför denna kurs. Avsikten är att göra eleverna skickliga med hur dessa metoder kan tillämpas i verkliga miljöer som man möter i industri och samhälle i allmänhet. Det är därför som föreläsningar åtföljs av övningar där studenterna övar sig på att använda några av de metoder som behandlas under föreläsningarna.

Kursen använder huvudsakligen R-programmeringsspråket, så studenterna kommer lära sig grunderna i R. En "bonusföreläsning" ger en översikt över hur bearbetnings- och visualiseringsmetoder kan användas i programmeringsspråket Python.

Ämnen som behandlas är:
  • Introduktion till programmeringsspråket Roch verktyg
  • Import och export av data från textfiler, databaser och andra källor
  • Datavisualisering i R, i 2D och 3D
  • Kartvisualiseringar
  • Visa och arbeta med bilder i R
  • Introduktion till andra användbara data bearbetnings- och visualiseringspaket
  • Linjär regression, BLUE, RMSE, krympningsmetoder (Lasso, åsregression)
  • Linjär klassificering (logistisk regression, LDA)
  • Principalkomponentanalysis (PCA) för att identifiera linjära samband mellan variabler
  • Robust PCA och lågt rankad matris komplettering för outliers och saknade data,
  • K-means kluster
  • Icke-linjära eller icke-parametriska metoder (k-NN, kärnmetoder etc.)
  • Förberedelse av data för maskininlärning, introduktion till "caret" maskininlärningspaket
  • Grundläggande insikter om förklarbar (Explainable) artificiell intelligens (XAI)
Modul 2, färdighetsträning, 3,5 hp.
Modul 2 består av ett praktiskt projekt som kräver en kombinerad användning av metoder som bearbetats i Modul 1. Projektämnen och datamängder kommer att tillhandahållas av lärare, men vi uppmuntrar också att studenterna föreslår egna områden. Projektet genomförs i grupper om 1-4 studenter. Varje grupp presenterar sina framsteg, planer och öppna frågor för lärare och medstudenter i två "mentorsessioner" och en sista presentationssession. Syftet med mentorsessionerna är att ge konstruktiv feedback och vägledning till studenterna i deras inlärningsprojekt. Mentorsessionerna påverkar INTE betygsättningen av denna modul.

Förväntade studieresultat

Kunskap och förståelse
Efter avslutad kurs ska studenten kunna:
  • Förstå vad som menas med "Data Science" som ett begrepp: var och när Data Science behövs, vilka typer av problem Data Science kan lösa och vilka de huvudsakliga metoderna och verktygen inom Data Science är. (FSR 1)
  • Förstå betydelsen av olika databaserade mätningar och visualiseringar som vanligtvis används i samhället, och visa att man vet hur man läser och tolkar dem. (FSR 2)
Färdighet och förmåga
Efter avslutad kurs ska studenten kunna:
  • Förstå datastrukturer i programmeringsspråket R och visa en grundläggande förmåga för datamanipulation och programmering i R. (FSR 3)
  • Utföra manuell såväl som automatiserad förbehandling av data (rengöring, normalisering, centrering, skalning, ...). (FSR 4)
  • Extrahera och förstå statistiska indikatorer från data, samt hur man upptäcker och eliminerar saknade värden. (FSR 5)
  • Utföra regressionsanalys och gruppering av data. (FSR 6)
  • Visualisera data och analysresultat med linjediagram, spridningsdiagram, stapeldiagram. kartor etc., både i 2D och 3D. (FSR 7)
Värderingar och förhållningssätt
Efter avslutad kurs ska studenten kunna:
  • Bedöma riktigheten och signifikansen hos databaserade mätningar och visualiseringar som påträffas i olika medier. (FSR 8)

Behörighetskrav

En universitetskurs i matematisk statistik omfattande minst 7.5 hp.
Engelska A/5 och svenska för grundläggande behörighet för högskolestudier (om kursen ges på svenska).

Undervisningens upplägg

Kursen består av föreläsningar, indiviiduella praktiska övningar och ett projekt som utförs i grupper av upp till fyra studenter. Utöver det schemalagda arbetet krävs också individuellt arbete med materialet.

Examination

Bedömningen av modul 1 (ELO 1-7) görs genom en skriftlig inlärningsdagbok, som inkluderar skriftliga labrapporter. Betygen som ges i denna modul är Underkänd (U), Godkänd (G) eller Väl Godkänd (VG).

Bedömningen av modul 2 (ELO 3-8) görs genom en skriftlig projektrapport. Betygen som ges i denna modul är Underkänd (U), Godkänd (G) eller Väl Godkänd (VG).

En student som har misslyckats med någon av kursens moduler men som regelbundet har deltagit i en majoritet av projektaktiviteterna kan få en omexamination som täcker de delar som studenten har missat. Om en student inte har deltagit i projektaktiviteterna (eller missat en majoritet av dem) kan studenten examineras nästa gång kursen ges.

Under hela kursen ges en av betygen Underkänd (U), Godkänd (G) eller Godkänd (VG). Åtminstone betyget Godkänd måste uppnås på varje modul för att få betyget för hela kursen. Betyget på kursen är Godkänd (VG) om båda de två modulerna har betyget Väl godkänd (VG).

En student som bedömts som godkänd på en examination kan inte delta i examination på nytt. En student som utan godkänt resultat har genomgått två prov för en kurs eller en del av en kurs, har rätt att få en annan examinator utsedd, om inte särskilda skäl talar emot det (HF 6 kap. 22 §). Begäran om ny examinator ställs till prefekten för Institutionen för datavetenskap.
 
Examination baserad på denna kursplan garanteras under två år efter studentens förstagångsregistrering på kursen. Detta gäller även om kursen lagts ned och denna kursplan upphört gälla.

Avsteg från kursplanens examinationsform kan göras för en student som har beslut om pedagogiskt stöd på grund av funktionsnedsättning. Individuell anpassning av examinationsformen ska övervägas utifrån studentens behov. Examinationsformen anpassas inom ramen för kursplanens förväntade studieresultat. Efter begäran av studenten ska kursansvarig lärare, i samråd med examinator, skyndsamt besluta om anpassad examinationsform. Beslutet ska sedan meddelas studenten.

TILLGODORÄKNANDE
Student har rätt att få prövat om tidigare utbildning eller motsvarande kunskaper och färdigheter förvärvade i yrkesverksamhet kan tillgodoräknas för motsvarande utbildning vid Umeå universitet. Ansökan om tillgodoräknande skickas in till Studentcentrum/Examina. Mer information om tillgodoräknande finns på Umeå universitets studentwebb, www.student.umu.se, och i högskoleförordningen (6 kap). Ett avslag på ansökan om tillgodoräknande kan överklagas (Högskoleförordningen 12 kap) till Överklagandenämnden för högskolan. Detta gäller såväl om hela som delar av ansökan om tillgodoräknande avslås.

Litteratur

Giltig från: 2021 vecka 1

All kurslitteratur som krävs finns fritt på webben. Listan kommer presenteras på kursens lärplattform.