Organisera data under pågående forskning

Mer information om att hålla ordning på forskningsdata under projektets gång - både på projektnivå och på datanivå.

Att hålla ordning

Hur ett forskningsprojekts data organiseras beror i hög grad på forskaren eller forskarna som finns i projektet. Det är viktigt att metoden för att organisera data är förankrad hos den eller de som hanterar data. Främst handlar det om att komma fram till en struktur för att beskriva och lagra data allteftersom det genereras i projektet.

Strukturen behöver vara logisk, förutsägbar och så intuitivt uppbyggd som möjligt för att minska trösklarna som kan finnas för att använda den till vardags. För en forskargrupp behöver strukturen vara beskriven och förankrad på ett sådant sätt att alla använder den.

Om du är en enskild forskare räcker det med att strukturen är begriplig för dig själv under ett pågående projekt, men när projektet är färdigt och forskningsdata ska slutförvaras behöver strukturen även vara logisk och begriplig för andra. Därför kan det vara bra att antingen arbeta utifrån en struktur som även andra kan förstå eller att planera in tid för att avkoda och organisera om strukturen i projektets slutfas.

Ett bra sätt att både strukturera data under pågående forskning och samtidigt förbereda sig för långsiktig lagring och arkivering av data är att bygga upp sin organisation av forskningsdata med utgångspunkt i typer av metadata. Använd i så fall metadata på det sätt som beskrivs i en vedertagen metadatastandard som är i bruk inom ditt forskningsfält.

Metadata

Metadatastandarder

Övergripande nivå

Det finns riktlinjer och rekommendationer som kan vara användbara för att planera vilken information som ska knytas till data och hur den ska struktureras. Information som rör projektet som helhet kan läggas som en övergripande nivå. Det kan till exempel handla om beskrivningar av:

Forskningsdesign
Metodmaterial
Struktur för datafiler
Vilka dataformat som används och vilken typ av resurser som finns i respektive format
Användning av andra dataresurser
Validering av data
Versionshantering
Förändringar i arbets- och undersökningsmaterial för studier där datainsamling sker över tid
Sekretess och frågor om tillgång och användning av olika delar av studiens data
Information om forskningsoutput, exempelvis publiceringar

Datanivå

På datanivå behöver varje fil eller enhet med data organiseras så att det över tid går att förstå innehållet och vad som har hänt med innehållet.

Rådata

Rå data, eller rådata, är data som inte har blivit kodad, grupperad, förfinad, eller bearbetad på något sätt. Rådata har fler potentiella användningsområden än bearbetad data. Det ger ökad möjlighet till återanvändning. Därför bör uppsättningar av rådata bevaras som den är om det alls är möjligt. Bearbetningar görs på kopior av rådata. Beroende på forskningsfält kan rådata vara till exempel:

mätresultat
obearbetad statistik
sensordata
prover och provresultat
källtexter
intervjuer (inklusive anteckningar och ljudinspelningar)
obearbetade transkriberingar

Var uppmärksam på att rådata kan innehålla känsliga uppgifter som tas bort i senare bearbetningar, exempelvis personuppgifter.

Bearbetad data bör organiseras i en förutsägbar struktur, uppmärkt med information om innehåll och bearbetning.

Kvantitativa data

Organisation av kvantitativa data är tätt kopplat till de verktyg och format som används i datahanteringen. Därför behöver du både utgå från strukturen som data ska sorteras in i och de värden som ska läggas in. Detta gäller för både databaser och kalkylblad.

Databaser

En databas är ett system av information där det är lätt att hitta, organisera och organisera om eller ändra information på olika sätt. För att detta ska vara möjligt är det viktigt att databasens innehåll organiseras på ett logiskt och konsekvent sätt. Databasen ska också ha en beskrivning av sitt innehåll, ett schema.

Programvara för databaser kan till exempel vara Microsoft Access, MySQL, Microsoft SQL Server, Oracle och PostgreSQL. Hur komplex en databas är varierar och det finns ofta goda möjligheter att som användare själv styra databasens funktioner.

Kalkylblad

Kalkylblad är en enkel form av databas där data organiseras i tabulerade blad. Förutom datavariabler kan kalkylbladet innehålla genererade sammanställningar i form av till exempel diagram och tabeller. Även bilder kan inkluderas och formler kan användas för att generera värden eller funktioner. Hur kalkylarket kan användas är möjligt att kontrollera ner till cellnivå.

Program för att använda kalkylblad finns bland annat i Microsoft Office-, OpenOffice- och WordPerfect Office-paketen. I alla dessa fall finns även stöd för XML-baserade filformat.

Generella riktlinjer

Det finns några saker som är bra att förhålla sig till för att se till så att kvantitativa data är konsekvent organiserade och lätta att använda - även på sikt:

Använd kontrollerade vokabulär med etablerade nyckelord när data matas in.
Var konsekvent när tabeller, kalkylblad, kolumner och rader namnges, så att olika delar av ditt material går att kombinera. Ta hänsyn till begränsningar hos olika verktyg om du planerar att använda flera.
Undvik onödig formatering och layout. Kontrollera att nödvändiga formateringar och layout följer med när data migreras eller olika program används.
Undvik att infoga material, eller i alla fall att sådant material endast finns infogat. Det kan exempelvis röra sig om bilder, tabeller eller diagram. Lagra och arkivera alltid sådant material som separata filer på ett sätt som går att knyta till relaterad tabell eller kalkylblad - gärna i samma mapp.
Dokumentera hur fält och data är kodade och spara dokumentationen tillsammans med databasen eller kalkylbladet.
Kontrollera att data är konsekvent inlagd, till exempel att stor bokstav alltid används där stor bokstav ska användas.
Ange datum på ett konsekvent sätt.
Boolesk datatyp handlar om binära världen där något antingen är eller inte är på ett visst sätt. Denna typ av värden exporteras enklast om de uttrycks så okomplicerat som möjligt, till exempel "1 eller 0" alternativt "Y eller N".
Kontrollera att alla relevanta decimaler alltid visas, även när data exporteras. Gör nödvändiga inställningar för detta.
Undvik valutasymboler eftersom dessa kan bli automatiskt modifierade utifrån platsen där en fil öppnas. Istället går det att skriva valuta med bokstäver, till exempel SEK eller USD. Dokumentera förkortningar som används.

För mer information om hantering av kvantitativ data och att förbereda kvantitativa data för långtidslagring och publicering rekommenderar vi de guider och best practice-rekommendationer som tillhandahålls av Svensk nationell datatjänst (SND). I deras best practice-guide "Databaser och kalkylprogram" hittar du bland annat mer information om hantering av specifika format som till exempel XML och SPSS. Länk finns under rubriken "Fördjupning".

Kvalitativa data

Kvalitativa data i textformat kan beskrivas i inledningen av dokumentet. Relevant information kan vara:

bakgrund och kontext (exempelvis platsen där en intervju gjordes och hur detta kan påverka resultat)
information om deltagare
förklaring av förkortningar och symboler som använts vid transkribering
kodnycklar
observationer eller företeelser som kan påverka resultatet
reflektioner

Om data har bearbetats behöver information om bearbetningen finnas med. Andra format än textfiler kan behöva följas åt av ett dokument med information som motsvarar ovanstående. Information som har betydelse för varandra får gärna förvaras tillsammans.

Informanter

Det är en fördel om pseudonymer eller liknande sätt att anonymisera informanter används konsekvent, så att en och samma informant alltid betecknas på samma sätt. Till exempel I1, I2 och I3 för informant 1, 2 och 3, även om informanterna kan behandlas i separata dokument.

Information om vad som kännetecknar respektive informant kan sammanställas i ett eget dokument, inklusive information om vilka filer de förekommer i, för att underlätta sökning i samlingen.

Filens namn

Filens namn kan användas för att beskriva innehållet på ett strukturerat sätt. Hur detta görs kan variera mycket, från att använda ett siffersystem i kombination med en förklarande lista till att i klartext skriva vad det handlar om i filnamnet. För att hålla ordning på olika versioner av samma material kan filnamnen för varje version innehålla uppgifter om datum och tid.

Exempel 1: 3v4 20200415 1547 (Med tillhörande lista som beskriver ett system där innehållstypen intervju har nummer 3, följt av version, datum och tid)
Exempel 2: Intervju version 3 20200415 1547

Inför slutlagring

Inför slutlagring kommer även en översiktlig lista över datamaterialet att behövas där innehållet i varje fil/del beskrivs på ett sätt som gör att andra lätt kan hitta den del de är intresserade av.

Fördjupning

För fördjupning och mer information om att beskriva forskningsdata under pågående projekt rekommenderar vi best practice-guiderna från Svensk nationell datatjänst (SND). Där hittar du bland annat mer information och rekommendationer om filformat, vilken typ av material som med fördel förvaras tillsammans samt mer information om vad som är viktigt att tänka på inför framtida långtidslagring.

Guider och best practice (SND)

SND har också informationssidor om hantering av data under pågående forskningsprocess.

Arbeta med data (SND)

UK Data Service sidor om att dokumentera forskningsdata ger en kortfattad information om datadokumentation på olika nivåer.

Document your data (UK Data service)

Del 5 i kursen BAS online från SND handlar om "Dokumentation under forskningsprocessen och principer för att bedöma om metadata är tillräckliga för sekundäranvändning".

BAS Online Pass 5: Principer för dokumentation

Senast uppdaterad: 2024-05-03