Publicerad: 2009-06-01

Bättre och snabbare sökmotorer

NYHET Sökmotorer på internet skapar i princip alltid en rangordning av samtliga sidor och sedan väljs bara sidor ut som innehåller de rätta orden. Ola Ågren, Umeå universitet, beskriver i sin avhandling ett nytt sätt att tänka som ger relevantare träffar och snabbare sökmotorer.

Målet med alla sökmotorer är att åstadkomma så relevanta söksvar så snabbt som möjligt. När sökmotorer beräknar sina sökresultat styrs de av en algoritm, som tilldelar egenskaper hos webbsidorna högre eller lägre värde. De flesta vanliga sökmotorer på internet, t.ex. Google, genererar en enda stor rangordning som bygger på en sökning av alla sidor som finns på internet. Den algoritm som Ola Ågren har utvecklat rangordnar i stället sidorna med utgångspunkt från varje relevant startsida, inklusive de som som den direkt eller indirekt pekar ut. Sedan beräknas ett medelvärde av de olika sidornas relevans. En sida som har länkar till sig från flera olika sidor får därför högre värde än de som bara pekas ut en gång. På detta sätt går det snabbare att hitta igen intressanta sidor. För vanliga standardalgoritmer tar det drygt sju dygn att gå igenom och ranka webbsidorna i en viss databas. Ola Ågren har med sin algoritm lyckats göra detta på 158 sekunder.

Hans algoritm har dessutom visat sig ge de mest relevanta svaren. Han har undersökt relevansen i svaren hos topp 10-listorna för tre olika algoritmer, den algoritm som han själv utvecklat, samt två varianter av PageRank, den algoritm som används av Google. Totalt har han undersökt 100 olika uttryck för alla nordiska språk och engelska, bl.a. ordet civilingenjör. Topp 10-listorna hade alltid någon form av överlappning mellan de olika algoritmerna, men de var aldrig helt identiska. Användare har sedan fått bedöma relevansen i de olika svaren utan att veta vilka sökmotorer som genererat svarsalternativen.
- Användarna i undersökningen anser att den sökmotor som jag utvecklat är bättre än de andra i över 60 procent av fallen, säger Ola Ågren.

Förutom sökmotorer så behandlar avhandlingen även metoder för att hitta strukturer bland stora mängder information, t.ex. nyckelord och metoder för att kunna utvinna valfri text, t.ex. delar av dokumentationen ur källkod.

Fredagen den femte juni försvarar Ola Ågren, Institutionen för datavetenskap, Umeå universitet, sin avhandling med titeln Finding, Extracting and Exploiting Structure in Text and Hypertext. Svensk titel: Att finna, extrahera och utnyttja strukturer i text och hypertext.
Disputationen äger rum kl 13.15 i MA121, MIT-huset.

Fakultetsopponent är professor Maarten de Rijke, Informatics Institute, University of Amsterdam, Nederländerna.

Avhandlingen är elektroniskt publicerad, se:
http://umu.diva-portal.org/smash/record.jsf?searchId=1&pid=diva2:214648

För ytterligare information, kontakta: Ola Ågren, institutionen för datavetenskap Mobilnummer: 0730-283852
E-post: ola.agren@cs.umu.se

Redaktör: Karin Wikman