Engelskt namn: Programming in statistics
Denna kursplan gäller: 2011-07-04 till 2013-09-29 (nyare version av kursplanen finns)
Kursplan för kurser med start efter 2023-06-26
Kursplan för kurser med start mellan 2017-01-02 och 2023-06-25
Kursplan för kurser med start mellan 2014-03-24 och 2017-01-01
Kursplan för kurser med start mellan 2013-09-30 och 2014-03-23
Kursplan för kurser med start mellan 2011-07-04 och 2013-09-29
Kursplan för kurser med start mellan 2010-07-05 och 2011-07-03
Kurskod: 2ST035
Högskolepoäng: 7,5
Utbildningsnivå: Avancerad nivå
Huvudområden och successiv fördjupning:
Statistik: Avancerad nivå, har endast kurs/er på grundnivå som förkunskapskrav
Betygsskala: Väl godkänd, godkänd, underkänd
Ansvarig institution: USBE Statistik
Beslutad av: Prefekt, statistiska institutionen, 2007-08-13
Reviderad av: Göran Arnoldsson, 2011-04-26
Det finns många statistiska datorprogram på den kommersiella marknaden idag, och med hjälp av dem kan man lösa de flesta statistiska standardproblemen. I statistiskt arbete krävs ofta specifika analyser som inte kan göras inom ramen för existerande statistiska datorprogram. Vid sådana tillfällen kommer programmeringskunskaper väl till pass. Kursens syfte är att ge en introduktion till sådan statistisk programmering. Kursen bygger på den statistiska arbets- och programmeringsmiljön R, i vilken det statistiska programmeringsspråket S är implementerat. Denna statistiska arbetsmiljö är på god väg att bli en de facto standard för professionella statistiker. Programmet finns för gratis nerladdning (under GPL-licens) och studenten lär sig att själv ladda ner och installera programmet. Emacs introduceras som en editor lämplig för programmering. Kursen inleds med en genomgång av R som ett vanligt statistikprogram, dvs studenten får en introduktion till hur man läser in data från andra program, hur data organiseras i R, och hur data analyseras i R. Därvid betonas det inkrementella arbetssättet i R, dvs, resultatet av en analys kan användas som indata i fortsatta analyser av samma problem, t ex genom grafiska illustrationer. En allmän introduktion till olika datatyper ges, och hur det representeras i en dator i allmänhet och i R i synnerhet diskuteras. Speciellt introduceras datatypen faktor (eng. factor) i samband med kategoriska förklaringsvariabler. Vidare introduceras funktionen som ett matematiskt begrepp, och dess betydelse i R-programmering studeras. Skillnaden mellan skript och funktion understryks. Kursens senare del behandlar programmering av vanliga statistiska problem, varvid simulering och optimering står i fokus. Specifika statistiska tekniker som därvid behandlas är numerisk beräkning av väntevärden, maximum likelihood, bootstrapping och EM algoritmen, vilka alla kan sägas tillhöra området Datorintensiva statistiska metoder. Avslutningsvis ges en översiktlig introduktion av hur man kan använda C- och Fortranfunktioner i egna R-funktioner.
Efter kursen skall den studerande: - ha grundläggande kunskaper om datorn som arbetsredskap i statistisk analys, - känna till och kunna använda de grundläggande strukturerna i det statistiska programmeringsspråket S (implementerat i R eller S-plus) för egna program, - kunna utföra stokastisk simulering från enkla sannolikhetsmodeller, - kunna genomföra enkla statistiska analyser med hjälp av bootstrapteknik, - kunna göra numeriska beräkningar av väntevärden, - kunna genomföra statistiska analyser baserade på maximum likelihood med numeriska metoder, - kunna illustrera statistiska modeller och resultat av statistiska undersökningar grafiskt.
Univ: 75hp i statistik, matematisk statistik eller motsvarande kunskaper. En B och svenska för grundläggande behörighet för högskolestudier om utbildningen ges på svenska.
En stor del av undervisningen är av laborativ karaktär och ges i form av datorlektioner, datorövningar och handledning i datorsal. Undervisning ges också i from av föreläsningar och seminarier. Det ingår flera obligatoriska inlämnings- och laborationsuppgifter.
Examinationen består av skriftliga och muntliga redovisningar av förelagda seminarie- och laborationsuppgifter. För uppgifterna fastställs vissa datum då redogörelse senast skall inlämnas och/eller muntlig presentation ges. För att bli godkänd på kursen krävs att samtliga seminarie- och laborationsuppgifter är tillfredsställande redovisade och godkända. Vid betygssättningen tillämpas den tregradiga skalan Väl Godkänd, Godkänd eller Underkänd. TILLGODORÄKNANDE Studierektor vid Statistiska institutionen beslutar om tillgodoräknande av kurs efter skriftlig ansökan. I ansökan skall anges vilket moment eller vilken kurs som ansökan avser. Bestyrkta kopior av kursbevis eller motsvarande, där det framgår lärosäte, tidpunkt, ämnestillhörighet, nivå, poängomfattning och betyg skall bifogas. Dessutom skall kursplan inklusive litteraturförteckning för de kurser som avses bifogas.
Broström Göran
Statistical Programming in R
Umeå universitet, statistiska institutionen :
Obligatorisk
Läsanvisning: Tillhandahålls elektroniskt
An Introduction to R
Venables W. N., Smith D. M., the R Development Core Team
http://ftp.sunet.se/pub/lang/CRAN/doc/manuals/R-intro.pdf
A first course in statistical programming with R
Braun John, Murdoch Duncan James
Cambridge, N.Y. : Cambridge University Press : 2007 : 163 s. :
ISBN: 978-0-521-87265-2 (inb.)
Obligatorisk
Se Umeå UB:s söktjänst
S programming
Venables W. N.q (William N.), Ripley Brian D.
New York : Springer : cop. 2000 : x, 264 s. :
ISBN: 0-387-98966-8 (alk. paper)
Se Umeå UB:s söktjänst
Chambers John M.
Software for data analysis : programming with R
New York, N.Y. : Springer : cop. 2008. : 498 p. :
ISBN: 978-0-387-75935-7 (hbk.)
Se Umeå UB:s söktjänst