Hoppa direkt till innehållet

Information till studenter och medarbetare med anledning av covid-19 (Uppdaterad: 15 april 2021)

printicon
Kursplan:

Språkteknologi, 7,5 hp

Engelskt namn: Natural Language Processing

Denna kursplan gäller: 2021-01-04 och tillsvidare

Kurskod: 5DV218

Högskolepoäng: 7,5

Utbildningsnivå: Avancerad nivå

Huvudområden och successiv fördjupning: Datavetenskap: Avancerad nivå, har kurs/er på avancerad nivå som förkunskapskrav

Betygsskala: För denna kurs ges betygen VG Väl godkänd, G Godkänd, U Underkänd

Ansvarig institution: Institutionen för datavetenskap

Beslutad av: Teknisk-naturvetenskapliga fakultetsnämnden, 2021-02-25

Innehåll

Kursen är en introduktion till språkteknologi för studenter som redan är skickliga på programmering och maskininlärning. Målet är att ge en gedigen bakgrund i den teori och de tekniker som används för olika språkteknologiska uppgifter som t.ex. att förstå och generera naturligt språk. Eftersom språkteknologi används dagligen av många personer och ligger till grund för många andra "AI"-system, kommer särskilt fokus att läggas på frågor om etik, rättvisa och den sociala effekten av dessa tekniker.

Kursen behandlar olika typer av tekniker inom språkteknologi, inklusive regelbaserade, statistiska och maskininlärningsbaserade metoder. Eftersom språkdata är centralt i många moderna tekniker, kommer kursen dessutom att omfatta bedömning av datakvalitet, samt att utveckla en förståelse för komplexa frågor om representation och ägande av data.

Grundläggande begrepp och metoder från lingvistik introduceras, inklusive aspekter av hur språket konstrueras och används samt vikten av sammanhang. Dessa används dels för att ge en förståelse för hur effektiva lösningar på språkteknologiska uppgifter är konstruerade och dels för att förstå utmaningarna med att göra detta för olika språk.

Utöver denna teoretiska förankring erbjuder kursen praktiska övningar och uppgifter som fokuserar på att tillämpa olika tekniker på diverse språkteknologiska uppgifter. Kursen inkluderar också aktivt deltagande i seminarier och skrivande av rapporter.

Förväntade studieresultat

Kunskap och förståelse
Efter genomgången kurs ska studenten kunna:
  • FSR1: Beskriva och tillämpa grundläggande begrepp och metoder från olika discipliner inom lingvistiken (inklusive morfologi, syntax, semantik och pragmatik) på språkteknologi.
  • FSR2: Förklara vad som krävs för att utföra typiska språkteknologiska uppgifter (t.ex. maskinöversättning eller generering av naturligt språk).
  • FSR3: Kategorisera språkteknologiska tekniker som antingen regelbaserade, statistika eller maskininlärningsbaserade och jämföra fördelarna och nackdelarna med respektive tekniktyp.
Färdighet och förmåga
Efter genomgången kurs ska studenten kunna:
  • FSR4: Konstruera en lämplig pipeline för en given språkteknologisk uppgift, och implementera delar av en sådan pipeline.
  • FSR5: Tillämpa lingvistiska principer och metoder för att lösa språkteknologiska uppgifter, t.ex. använda syntaxanalys för att analysera meningar och producera syntaxträd.
  • FSR6: Implementera algoritmiska lösningar på specifika språkteknologiska problem, t.ex. syntaktisk parsning för att producera syntaxträd.
  • FSR7: Utvärdera kvaliteten och effektiviteten av språkteknologiska program med hjälp av lämpliga mått; tolka och förklara resultaten av dessa mått. 
Värderingsförmåga och förhållningssätt
Efter genomgången kurs ska studenten kunna:
  • FSR8: Kritiskt bedöma den sociala effekten av språkteknologi, inklusive utvärdering av risker, fördelar och skador med specifika tekniker.
  • FSR9: Förklara med exempel de potentiella skador som kan orsakas av språktekniker som är under utveckling och hur sådana skador kan mildras.
  • FSR10: Diskutera de etiska och praktiska problemen med språkteknologi som är associerade med språkdata, som äganderättsfrågor, representation, implicit särbehandling och lingvistisk diskriminering.

Behörighetskrav

Univ: För att bli antagen måste du ha 90 högskolepoäng som inkluderar 60 högskolepoäng i datavetenskap eller tre års avklarade studier inom ett studieprogram (180 högskolepoäng).  I båda fallen krävs
* minst en kurs (7.5 hp)  i maskininlärning (exempelvis 5DV194) som innehåller naive Bayes, Hidden Markov Models, beslutsträd neurala nätverk inklusive hur backpropagation fungerar.
* minst en kurs (7.5 hp) i Formella språk (exempelvis 5DV208 DV3: Beräkningar och språk eller 5DV037 Datavetenskapens grunder) som ska inkludera automatteori, Turingmaskiner, reguljära språk, kontektfria språk, pumping lemma (för båre reguljära och kontextfria språk), CYK parser

Det är rekommenderat att vara bekant med Python (vi kommer använda Python i övningar och uppgifter, studenter bör antingen kunna programmera Python eller känna sig bekväma med att lära sig det på egen hand).

Engelska A/5 och svenska för grundläggande behörighet för högskolestudier (om kursen ges på svenska).

Undervisningens upplägg

Kursen följer en "flipped classroom"-modell, där studenterna själva arbetar med materialet innan lektionen. En lektion kan t.ex. bestå av lärarledda diskussioner, övningar på att tillämpa kunskap, seminarier samt handledda datorlaborationer och andra övningar. Utöver de schemalagda aktiviterna krävs även eget arbete med materialet.

Examination

På kursen ges något av betygen Underkänd (U), Godkänd (G) eller Väl Godkänd (VG). Studentens prestationer på kursen bedöms genom skriftliga uppgifter (FSR 1-7, 9-10) och seminarier (FSR 8-10). Några uppgifter involverar programmering i Python. Alla uppgifter och seminarier måste vara avklarade för att få godkänt betyg på kursen.

Avsteg från kursplanens examinationsform kan göras för en student som har beslut om pedagogiskt stöd på grund av funktionsnedsättning. Individuell anpassning av examinationsformen ska övervägas utifrån studentens behov. Examinationsformen anpassas inom ramen för kursplanens förväntade studieresultat. Efter begäran av studenten ska kursansvarig lärare, i samråd med examinator, skyndsamt besluta om anpassad examinationsform. Beslutet ska sedan meddelas studenten.

En student som utan godkänt resultat har genomgått två prov för en kurs eller en del av en kurs, har rätt att få en annan examinator utsedd, om inte särskilda skäl talar emot det (HF 6 kap. 22 §). Begäran om ny examinator ställs till prefekten för Institutionen för datavetenskap.

Övriga föreskrifter

I en examen får denna kurs ej ingå, helt eller delvis, samtidigt med en annan kurs med likartat innehåll. Vid tveksamheter bör den studerande rådfråga studievägledare vid Institutionen för datavetenskap och/eller programansvarig för sitt program.

Om kursplanen har upphört att gälla eller kursen slutat erbjudas garanteras en student som någon gång registrerats på kursen minst tre provtillfällen (inklusive ordinarie provtillfälle) enligt denna kursplan under en tid av maximalt två år från det att kursplanen upphört att gälla eller kursen slutat erbjudas.

Litteratur

Giltig från: 2021 vecka 1

Litteratur

Speech and language processing : an introduction to natural language processing, computational linguistics and speech recognition
Jurafsky Dan, Martin James H.
2. ed. : Upper Saddle River, N.J. : Pearson Education International/Prentice Hall : cop. 2009 : 1024 s. :
ISBN: 9780135041963
Obligatorisk
Se bibliotekets söktjänst

Ytterligare källor såsom forskningsartiklar, bokkapitel, etc efter behov.