Hoppa direkt till innehållet
printicon
Huvudmenyn dold.

Semantisk parsning av multimodal data

Forskningsprojekt Semantisk parsning är en viktig teknik inom AI. Projektet studerar algoritmer för att översätta sammansatt media, inklusive text, bild, och ljud, till formella representationer som är enklare för datorer att förstå, och gör det lättare att applicera olika typer analys. Målet är dels en teori om graf-baserade beräkningar som är anpassad för multimodal parsning, dels graf-baserade modeller för att representera data, tillsammans med en ny familj av algoritmer som arbetar på dessa modeller.

Projektet finansieras av Vetenskapsrådet.

Projektansvarig

Johanna Björklund
Universitetslektor
E-post
E-post
Telefon
090-786 79 27

Projektöversikt

Projektperiod:

2021-01-01 2024-12-31

Medverkande institutioner och enheter vid Umeå universitet

Institutionen för datavetenskap

Forskningsområde

Datavetenskap

Externa finansiärer

Vetenskapsrådet

Projektbeskrivning

En semantisk parser är en algoritm som översätter ostrukturerad text, vanligtivs enstaka meningar åt gången, till en formell representation som är enklare för datorer att förstå och bearbeta. Vi är intresserade av fallet där den semantiska representationen är en graf, med andra ord, ett sorts nätverk, där noderna representerar objekt och kanterna relationer mellan objekten. När man pratar om multimodal semantisk parsning menar man att man lägger till andra typer av media till algoritmens indata, till exempel kan man vilja parsa en videofilm som består av både bildrutor, ljud, och undertexter. Den multimodala parsning som hittills gjorts handlar nästan uteslutande om att översätta multimodala mediaobjekt till rent numeriska representationer. Fördelen är att det är relativt enkelt att träna upp sådana parsers från exempeldata, men nackdelen är att det är svårt att efter träning analysera exakt hur parsern fungerar, och det är i princip omöjligt att manuellt korrigera parserns beteende. 

Projektet bidrar på tre sätt till forskningsområdet.

(1) Vi utvecklar algoritmer för semantisk parsning som resulterar i grafer. Det finns redan en del arbete i den här riktningen, men vad som är nytt är att vi tillåter de graf-baserade parsrarna att använda en mer komplex typ av minne, och att vi bryter ner både tränings- och översättningsprocessen i enklare steg som ger oss större kontroll.  

(2) Vi utnyttjar den nya typen av tillstånd för att integrera multimodal information så att vi kan hantera rikare typer av media än enbart text.

(3) Vi utvecklar datavetenskapliga optimeringstekniker för att hålla nere beräkningstiderna så att våra parsers i förlängningen kan komma till praktisk nytta. 

Semantisk parsning av multimodal data är en av hörnstenarna för vad som idag kallas artificiell intelligens, och har som sådan många användningsområden. Först och främst är det en nyckel för att kunna automaticera arbetsflöden inom media, t.ex. för att söka videobanker, svara på frågor om materialet, eller klippa ihop trailers av en video för olika regioner. Inom informationsextraktion är semantisk parsning nyttigt eftersom det hjälper oss att utvinna kunskapsgrafer från ostrukturerade data, t.ex., videofilmer på YouTube. En kunskapsgraf liknar en semantisk graf, men är betydligt större och kan täcka in information från ett helt bibliotek hellre än en enstaka mening. Semantisk parsning är också bra inom robotik, när man vill få en robot att koppla samman orden i ett mänskligt kommando med objekt och handlingar. Till sist har semantisk parsning ett värde för maskininlärning, eftersom den gör det möjligt att överföra kunskap inhämtad från en modalitet, vanligtvis text, till andra som bilder eller sensordata.

På den vetenskapliga sidan leder projektet till en teori om graf-baserade beräkningar som är anpassad för multimodal parsning. Det består dels av graf-baserad modeller för att representera datat, och en ny familj av algoritmer som arbetar på dessa modeller. Värdet ligger i att vi kan hantera rikare strukturer inom maskininlärning och får ett nytt och generellt sätt att integrera multimodal information.

Projektet pågår i fyra år och utförs av den huvudsökande tillsammans med två doktorander och forskarkollegor i bland annat Storbritannien, Tyskland, och Italien.

Externa finansiärer