Hoppa direkt till innehållet
printicon
Huvudmenyn dold.
Publicerad: 10 apr, 2010

Fysikformler visar författares unika ordmönster

NYHET Med hjälp av fysikformler kan man utläsa en författares unika ordmönster. Fysikern Sebastian Bernhardsson vid Umeå universitet, har studerat den klassiska litteraturen på ett annorlunda sätt.

Fysikern Sebastian Bernhardsson har studerat klassiker ur ett annorlunda perspektiv.
Foto: Mikael Lundgren

Det var efter avslutat examensarbete som Sebastian började intressera sig för ord och text. Examensjobbet handlade om att med hjälp av fysiska formler studera komplexa system och nätverk i olika sammanhang – allt från datanätverk till vänskapsnätverk.
– Det är intressant att titta på hur nätverk skapas, hur deras strukturer ser ut och sedan skapa modeller för det, beskriver han.

Steget från att studera olika typer av nätverk till att undersöka moduler av ord är enligt Sebastian mindre än man kanske tror.
– För att titta på hur ord är kopplade till varandra i en text har vi använt metoder som liknar dem som används för att studera till exempel hur datorer i ett nätverk är kopplade till varandra.

Analyserat klassiker

Sebastian har främst analyserat engelska klassiker som laddats ner lagligt från Internet. Textfilen har sedan behandlats i ett särskilt eget skrivet dataprogram. Liknande studier har genomförts tidigare men då har man utgått ifrån att texter av olika författare följer ett närmast universellt mönster.
– Vi fann att det inte stämde. Det visade sig att man kunde se specifika ordmönster i texter skrivna av samma författare, förklarar han.

En egenskap som följer detta ordmönster är hur ofta ett visst ord förekommer i en text. Han fann till exempel att Herman Melville i Moby Dick använder varje ord i genomsnitt drygt 12 gånger, medan D.H. Lawrence i Sons and lovers använder varje ord nästan 17 gånger.
– Melville verkar ha ett betydligt större ordförråd än Lawrence, förklarar Sebastian.

Svårläst Joyce

En bok med ett litet ordförråd är vanligen mer lättläst, i barnböcker förekommer väldigt få olika ord. En författare som brukar anses som svårläst är James Joyce. I hans Odysseus fann Sebastian extremt många olika ord och han kunde också se att författaren introducerade nya ord i en rasande takt.
– Ett mönster som vi annars fann var att förekomsten av nya ord i böckerna blir allt färre ju längre böckerna är, och att detta mönster kan beskrivas av en speciell matematisk formel.

Den här typen av mönster och regler kan användas till att utveckla metoder för att bestämma nyckelord i en text, för att effektivt komprimera data och även för att ge ökad förståelse om språks strukturer. Sebastian poängterar att han i det här sammanhanget enbart ser texterna som ren data.
– En skriven text är ett intressant komplext system att studera, men det är viktigt att komma ihåg att den här typen av forskning inte säger något om själva innehållet eller om vad som är bra eller dålig litteratur, påpekar han.

Internationell uppmärksamhet

Studierna har fått en hel del internationell uppmärksamhet. Bland annat i BBC news, The Telegraph, The Independent, Cosmos Magazine (Australien). Vetenskapsskriften Science undrade i ett reportage om man kunde se ordmönstren som ett slags fingeravtryck av författaren. Kan man använda det för att se vem som har skrivit en viss text?
– Det är en fascinerande tanke och med en omfattande textmängd skulle det kunna vara möjligt, men man måste vara försiktig med att dra sådana slutsatser.

Sebastians plan är att, parallellt med annan forskning, fortsätta att analysera texter av fler författare. Han har bland annat fått förslag på Shakespeare.
– Det vore intressant att också studera moderna författare och kanske jämföra med texter skrivna på olika språk. Det är otroligt spännande att kunna beskriva text med matematik, säger Sebastian Bernhardsson.

Fakta:

Generellt ökar antalet olika ord när den totala textlängden ökar.
Den ökningen blir dock mindre och mindre för större och större böcker.

Här är några exempel för D.H. Lawrence:

The Prussian Officer, längd cirka 9 000 med cirka 1 800 olika ord. Aaron's Rod, längd cirka 114 000 med cirka 9 000 olika ord.
Woman in love, längd cirka 183 000 med cirka 11 000 olika ord.

Exempel på böcker av andra författare:

Melville – Moby Dick, längd cirka 212 000 med cirka 17 000 olika ord.
James Joyce – Udysseus, längd cirka 264 000 med cirka 30 000 olika ord.

Redaktör: Anette Olofsson