Multimodal semantisk analys: Göra språk meningsfullt i sin kontext

Doktorandprojekt inom Företagsforskarskolan vid Umeå universitet. Projektet avslutades den 16 april 2024 när Arezoo Hatefi disputerade.

Publiceringsindustrin behöver automatiserade arbetsflöden för att extrahera användbar, meningsfull och korrekt information från media som kombinerar till exempel text, ljud, bilder och video. Analys av videomaterial kräver algoritmer som för samman data från flera källor, såsom ansikts- och objektigenkänning, taligenkänning eller scenklassificering. I projektet ska Arezoo Hatefi Ghahfarrokhi utveckla tekniker för att möta dessa utmaningar och utvärdera dem i realistiska tillämpningar.

Projektöversikt

Projektperiod:

2019-03-01 – 2023-12-31

Finansiering

Codemill (50%) och Företagsforskarskolan (50%)

Medverkande institutioner och enheter vid Umeå universitet

Institutionen för datavetenskap, Teknisk-naturvetenskaplig fakultet

Forskningsområde

Datavetenskap

Projektmedlemmar

Frank Drewes Professor

E-post

090-786 97 90

Johanna Björklund Professor

E-post

090-786 79 27

Externa projektmedlemmar

Codemill AB

Projektbeskrivning

Programmatisk reklam är det automatiska placerandet av reklaminnehåll på webbsidor beroende på situationen. För programmatisk reklam och liknande tillämpningar behöver medieobjekt analyseras med avseende på deras innebörd, så att annonser kan placeras på ett meningsfullt sätt. Liknande semantisk information är också avgörande för automatiska rekommendationer, där det finns behov av att hitta relaterat material.

Beroende på typen av medieobjekt inkluderar värdefulla analysmetoder inkluderar text- och bildanalys, objektdetektering, scenklassificering och taligenkänning. Dessa är alla kraftfulla tekniker i sin egen rätt, men för en framgångsrik klassificering är det nödvändigt att lägga samman deras resultat eftersom mediaobjekt vanligtvis består av en blandning av olika typer av information. Mest uppenbart är det för filmer som tillhandahåller ljud, video, undertexter och kanske IMDB-metadata om upphovspersonerna, skådespelare, utgivningsår mm. Samma sak gäller även nyhetsartiklar som består av till exempel text, bilder och diagram. Flera analyser behöver alltså kombineras för att skapa en gemensam semantisk representation som innehåller den kombinerade informationen och kan lagras på ett lättillgängligt sätt. Det sistnämnda är viktigt eftersom analysen är resurskrävande och kan därför inte utföras vid behov för program som ska utnyttja den, t.ex. för programmatisk reklam eller automatiska rekommendationer: När användaren klickar på ”Visa mig liknade videor” kan inte miljontals videor analyseras innan förfrågan besvaras utan användaren förväntar sig ett omedelbart svar.

Syftet är alltså att kunna ta fram och lagra resultaten från en semantisk analys av stora mängder medieinnehåll på ett sätt som senare och på begäran kan användas för att kategorisera innehåll, söka i det eller svara på frågor som inte är kända vid tidpunkten för analysen. I allt detta är maskininlärning en viktig ingrediens, eftersom algoritmer måste tränas på riktiga datamängder.

Senast uppdaterad: 2024-04-17