Datasekretess för komplexa data

Forskningsprojekt Vi utvecklar helt nya och unika integritetsskydd som byggs in direkt i AI, datadrivna modeller och beslutssystem. Det ger en unik möjligt att använda data för att forska, analysera eller ta beslut, samtidigt som vi värnar individers och organisationers integritet fullt ut.

Beslutssystem och datadrivna modeller är ett viktigt stöd för forskare och beslutsfattare. Dessa behöver dock hela tiden "träna" på data av hög kvalitet men denna data är inte alltid tillgänglig och kan röja känslig information. Dataskyddsmekanismer för komplexa data är idag mycket begränsade. Det finns vissa lösningar för dynamiska databaser och för statiska grafer. Däremot saknas lösningar för data med komplexa relationer mellan objekt, dynamiska grafer och mätdata. Här utvecklar vi nu metoder i syfte att tillhandahålla anonymiserade data för komplexa data.

Projektansvarig

Vicenç Torra Professor

E-post

090-786 59 48

Projektöversikt

Projektperiod:

2023-04-19 – 2025-05-22

Medverkande institutioner och enheter vid Umeå universitet

Institutionen för datavetenskap, Teknisk-naturvetenskaplig fakultet

Externa finansiärer

Vetenskapsrådet

Projektbeskrivning

Ett stort antal dataskyddsmekanismer har utvecklats för standarddatabaser, ofta de så kallade SQL-databaserna, som består av en eller flera tabeller och har poster som beskrivs i termer av variabler eller attribut. Det finns idag också skyddsmekanismer för att bygga maskininlärnings- och statistiska modeller för data samt maskeringsmetoder för datapublicering så att forskare kan få tillgång till en anonymiserad version av originaldata. Det senare är viktig för forskare inom maskininlärning och datavetenskap. De måste dels få tillgång till data för att kunna utforska dem, och bestämma vilka modeller som är bäst lämpade. Men de behöver också testa modellerna med olika parametrar för att bestämma vilken som är optimal med hänsyn till integritetsbegränsningar, men också t ex noggrannhet, öppenhet och förklarbarhet.

Flera versioner en risk

Saker och ting blir svårare när data innehåller tidsmässiga element. Flera versioner av data kan leda till röjande av uppgifter, eftersom inkräktare kan dra nytta av en version för att kunna angripa en annan. I synnerhet kan flera anonymiseringar av samma data ge ledtrådar till den ursprungliga informationen. Ytterligare en svårighet med datasekretess, är när det finns relationer mellan de objekt vi skyddar. Ett enkelt fall är när det finns korrelationer mellan poster i en fil – till exempel samma person – eller motsvarar personer i samma hushåll.

När det blir komplext

Komplexa data, sådana som behandlar flera olika variabler, lagras vanligtvis i noSQL-databaser, och dessa innehåller båda dessa komponenter. Grafdata är ett typiskt exempel på komplexa data. Sociala nätverk kan representeras av så kallade märkta grafer där noder representerar personer och företag, och kanter representerar relationer mellan dem. Etiketter representerar ytterligare information, relaterad till noder och relationer, till exempel ”vänner” eller ”intressen”. Vi kan vanligtvis härleda information om en nod (t ex en person) från informationen om dess förbindelser, t.ex. politisk orientering från data om angränsande noder (personer och företag).

Tiden en aspekt

Så kallade dynamiska grafer – data som ändras över tid eller vid förändringar – bygger på information inom en tidsdimension, vilket också är en utmaning. Ett annat exempel på komplexa data – som kan inkludera flera variabler, samband eller hierarkier – är mätdata från till exempel ett kraftnät. Elnät representeras av en så kallad hierarkisk struktur. I nätdata har vi en tidsdimension eftersom information från hushåll och industrier representeras av tidsserier. Dessutom måste informationen på de olika nivåerna i hierarkin (dvs. aggregeringar) vara konsekvent. Hierarki kan vara regioner, länder, städer osv. Aggregeringar är sammanställningar av data på en högre nivå, till exempel antal som fått cancer i en stad, region eller landsdel.

Syfte och mål

Dagens dataskyddsmekanismer för komplexa data är mycket begränsade. Det finns dellösningar för dynamiska databaser och för statiska grafer. Det finns dock inga lösningar för data med komplexa relationer mellan objekt (inbegripet den tidsmässiga komponenten) och det finns inte heller några effektiva integritetsmekanismer för dynamiska grafer och mätdata.

Forskargruppen vid Umeå universitet kommer därför att utveckla metoder i syfte att tillhandahålla anonymiserade data (t.ex. för öppen åtkomst) för komplexa data. Framförallt fokuserar gruppen på de fall där hänsyn måste tas, både till interaktioner både mellan objekt och tidsaspekter men också starka relationer mellan de objekt som ska skyddas. Främst kommer vi att fokusera på dynamiska grafer och griddata. Detta för att möjliggöra utveckling av integritetsanpassade maskininlärningsmodeller som är kompatibla med lämpliga integritetsmodeller. Målet är att öppet kunna publicera data som möjliggör byggandet av datadrivna modeller – samtidigt som integriteten skyddas. Det handlar om att balansera öppenhet och transparens med respekt för individers och organisationers integritet.

Delmål

Att förstå risken för röjning när det gäller komplexa data
När vi behöver göra flera versioner av en datauppsättning kan informationen från en version utnyttjas av en inkräktare för att attackera andra versioner. Därför behöver vi integritetsmodeller som tar hänsyn till denna tidsdimension. När ett objekt är relaterat till en uppsättning andra objekt räcker det inte med ett oberoende skydd av de senare för att skydda det första. Man kan dra slutsatser om egenskaper hos de förstnämnda. Dataskyddsmodeller och åtgärder mot röjanderisker måste ta hänsyn till dessa relationer.
Utveckla dataskyddsmetoder för temporära data
Den tidsmässiga dimensionen är ett element som blir allt viktigare i takt med att databaser i organisationer och företag ökar. För att kunna bygga datadrivna modeller för dessa data behöver vi effektiva algoritmer som implementerar integritetsmodeller. Vi kommer att fokusera på dynamiska grafdata eftersom grafer kan användas för att modellera ett brett spektrum av olika problem. Vi kommer också att titta på mätdata där tidsserier är en av de grundläggande komponenterna.
Utveckla dataskyddsmetoder för data med komplexa relationer
Det är svårt att skydda SQL-databaser när posterna inte är oberoende av varandra. Att skydda oberoende poster från personer som bor i samma hushåll kan till exempel leda till att uppgifterna röjs. När mer komplexa relationer finns på plats är dataskyddet ännu svårare. Vi kommer att överväga dataskydd för mätdata som ett exempel på data med komplexa relationer. Data på olika nivåer i elnätshierarkin måste vara konsekventa (efter skydd), data är mycket känsliga och dessutom kan olika hushåll i ett grannskap dela egenskaper. Dynamiska grafer är en annan typ av data som representerar relationer.
Dataskyddsmekanismer måste vara motståndskraftiga mot transparensattacker
Det innebär att skyddet inte bör bygga på att dölja hur uppgifterna har skyddats. I stället utgår vi från att data publiceras tillsammans med information om hur data har bearbetats och publicerats. Uppgifterna måste vara motståndskraftiga mot attacker som använder denna ytterligare information för att ge maximala sekretessgarantier.

Externa finansiärer

Senast uppdaterad: 2024-03-12