Hoppa direkt till innehållet
printicon
Huvudmenyn dold.

Machine Learning-based Observability and Diagnostics in Future Networks and Mobile Edge Clouds

Doktorandprojekt Detektering och diagnos av systemproblem (t.ex. avbrott, fel, försämrad servicenivå) är viktigt i storskaliga system på grund av påverkan på slutanvändarens upplevelse och varumärkes rykte.

Förutom intäktsförlusten krävs massor av ansträngningar för att identifiera potentiella grundorsaker innan en lösning genomförs. Förmågan att observera systemens beteende och utföra diagnostik är dock en utmaning för storskaliga system och ännu mer för geografiskt distribuerade system som telekomnät och mobila kantmoln. Industridoktorandprojekt tillsammans med Tieto, Umeå.

Projektansvarig

Erik Elmroth
Professor
E-post
E-post
Telefon
090-786 69 86

Projektöversikt

Projektperiod:

2018-01-01 2022-12-31

Finansiering

Knut and Alice Wallenberg Foundation / WASP – Wallenberg AI, Autonomous Systems and Software Program, 3.600.000 kr.

Medverkande institutioner och enheter vid Umeå universitet

Institutionen för datavetenskap

Forskningsområde

Datavetenskap

Projektbeskrivning

Forskningen kommer att ta ett analysdrivet tillvägagångssätt för att ta itu med observerbarhetsproblemet genom förbättrad systemsynlighet och felsökning i stora och dynamiska system som mobila kantmoln och mobilnät. Forskningen kommer att fokusera på instrumentering, datainsamling, systemmodellering och analys för att driva automatisering av avvikelsedetektering och diagnos genom att utnyttja maskininlärningstekniker och BigData -plattformar. Målet är att möjliggöra kortare ledtid, förbättra användarupplevelsen och minimera behovet av experter på problemdiagnos.

Projektets inledande fas kommer att fokusera på synlighet, det vill säga att ta itu med de grundläggande frågorna om vad och hur man instrumenterar, hur ofta data ska samlas in och hur det ska aggregeras och hur det övergripande systemet ska modelleras. Den decentraliseringsnivå som krävs för att stödja distribuerad lagring och analys kommer också att undersökas. Med distribuerade lagrings- och strömningsramar som Apache Storm1, Spark2 och Hadoop3 är det nu möjligt att bearbeta stora datauppsättningar i realtid från olika källor med låg beräkning och lagringskostnad.

Projektets andra fas behandlar observerbarhet genom proaktiv autonom anomaliedetektering. Enligt vår omfattande undersökning av forskningsområdet, flyttar nuvarande forskningsfokus bort från enkla tröskelbaserade varningar och applikationsspecifika modelleringsmetoder mot sofistikerade datadrivna tekniker som står för många fler KPI: er och inneboende tidsbeteende. Tekniker baserade på övervakad inlärning fungerar dock dåligt i dynamisk miljö, eftersom de kanske inte känner igen ett nytt systembeteende eller arbetar med omärkta spår.

Visionen med det proaktiva tillvägagångssättet är att innovativt kombinera maskininlärning och prognostekniker för att stödja avvikelsedetektering. Tidsserieanalys (t.ex.ARIMA) och probabilistiska modeller (t.ex. Bayesianska nätverk, Hidden Markov-modeller) kommer att undersökas för att förutsäga framtida tillstånd för KPI: er [5], överhängande avvikelser och systemnivåproblem (t.ex. flaskhalsar och fel). Kontinuerlig benchmarking kommer att utföras för att ta fram baslinjeprofiler för systemet i olika sammanhang medan lämplig inlärningsteknik utan övervakning kommer att användas för att upptäcka förändringar i relevanta KPI: er och för att avgöra när systemmodeller ska uppdateras.

Projektets tredje fas behandlar automatiserad diagnostik. Medan befintliga tillvägagångssätt mestadels fokuserar på att upptäcka onormala förändringar i metriska värden för att identifiera misstänkta mätvärden, är den största utmaningen att identifiera faktiska komponenter eller noder i infrastrukturen. Eftersom problem manifesteras olika beroende på utförandekontext och arbetsbelastning är det viktigt att skilja mellan potentiella orsaker för att rekommendera rätt korrigerande åtgärd. Fokus är att ta itu med diagnostikproblemet genom automatisk multi-layer root-cause attribution och en root- cause analys genom att använda grafteoretiska tekniker för att utforska rumsliga beroenden i nätverket och AI (t.ex. Fuzzy Logic och Probabilistic resonemang) för att utnyttja expert- och domänkunskap.