NYHET
Är en text anonym om du inte undertecknar den? Forskning visar att det ofta går att uttala sig om en författare eller dess egenskaper genom analys av texten. Metoden kan användas för att upptäcka brott på internet, men den kan också missbrukas. Det skriver Niklas Zechner i sin avhandling, som försvaras vid Umeå universitet fredagen den 29 september.
Niklas Zechner. Foto: Henrik Björklund
Att analysera text för att känna igen författare eller säga något om författarens egenskaper har gjorts i hundratals år. Metoderna byggde länge på experters intuition och det fanns inga tester av hur effektiva de var. I dag kan vi ta hjälp av datorer för att snabbt ta fram statistik för stora mängder text, vilket ger nya möjligheter, inte bara för att göra analysen snabbare och mer träffsäker, utan också för att utvärdera hur träffsäker den egentligen är.
På internet finns stora mängder text och texter av okända författare. Med nya metoder för textanalys kan man spåra terrorister och andra kriminella som skriver i olika forum. Det finns också mindre dramatiska användningsområden. Till exempel kan företag göra statistik över hur många av en mängd recensioner som är positiva, eller undersöka kön och ålder bland användarna på en webbplats.
För en del tillämpningar går det att hitta mycket träffsäkra metoder. De används till exempel för att automatiskt kategorisera texter utifrån språk eller ämne, eller för att filtrera bort skräppost eller andra irrelevanta texter.
Andra saker har visat sig vara betydligt svårare att göra genom ren statistisk analys. Att se om recensioner eller utlåtanden är mestadels positiva eller negativa är i allmänhet inte svårt för en mänsklig läsare, men skapar problem för enkla statistiska metoder, eftersom negationer, kontraster och ironi gör att även positiva ord kan vara vanliga i negativa texter, och omvänt, säger Niklas Zechner.
En uppenbar risk med den här typen av textanalys är att den skulle kunna användas av odemokratiska regimer för att identifiera oliktänkande. Dagens metoder kräver dock stora textmängder för att identifiera en person, men det är ändå viktigt att den här typen av forskning bedrivs öppet och publikt, konstaterar Niklas Zechner.
En annan risk är att man överskattar träffsäkerheten. Det kan orsaka problem om polis och rättsväsende litar för mycket på en identifikation. Kommer texterna man analyserar från samma eller olika källor och har man tillräckligt mycket text för att få pålitliga resultat?
Analysmetoderna har också svårt att skilja på egenskaper som utmärker författare respektive ämnen. En metod som skulle kunna vara mindre ämnesberoende, och därför mer pålitlig, är att analysera grammatiken. Men, det är i sig ett krävande problem, konstaterar Niklas Zechner.
Det finns metoder för att automatiskt analysera strukturen hos en mening, men de är fortfarande långsamma och har begränsad träffsäkerhet, säger han. För att förbättra dem krävs vidare utveckling både av språkanalys och av de underliggande matematiska processerna. Genom framsteg inom dessa ämnen kan vi i framtiden förbättra både textklassificering och många andra tillämpningar, som översättning och informationssökning.
Fredagen den 29 september försvarar Niklas Zechner, Institutionen för datavetenskap vid Umeå universitet, sin avhandling med titeln: A novel approach to text classification. Svensk titel: Systematiska studier av textklassificering.Disputationen äger rum klockan 13:00 i sal N430, Naturvetarhuset. Fakultetsopponent är Efstathios Stamatatos från Egeiska universitetet
Niklas Zechner är uppväxt i Eslöv i Skåne, och har studerat vid bland annat Lunds universitet och Royal Holloway University of London. Han har examen i lingvistik, fysik och musik.
För mer information, kontakta gärna:
Niklas Zechner, Institutionen för datavetenskapTelefon: 070-645 93 45 E-post: zechner@cs.umu.se