Data Management

Inleiding

De groei van data is tegenwoordig enorm, en deze groei is afkomstig van een groot aantal bronnen, zoals industriële IoT-apparaten (internet of things), medische beeldvormingssystemen, synthetische datageneratoren voor AI-modeltraining en grote wetenschappelijke instrumenten zoals de Large Hadron Collider (deeltjesfysica) van CERN en het Vera C. Rubin Observatory (in de astronomie). Huidige wetenschappelijke experimenten kunnen al dagelijks tientallen terabytes aan data genereren, terwijl toekomstige experimenten deze schaal zullen opvoeren tot honderden terabytes per dag.

Hoewel de huidige data-explosie niets nieuws is, brengt het managen van deze toenemende datavolumes met de huidige technologieën uitdagingen met zich mee die nieuwe benaderingen en technologieën vereisen. Zo bereiken opslagmedia zoals tapes en harde schijven hun fysieke grenzen wat betreft datadichtheid.

Tegelijkertijd neemt de verscheidenheid aan datasets toe door de verschillende soorten gegevens. Innovatieve benaderingen en technologieën zijn nodig, niet alleen voor het goed managen van enorme hoeveelheden gegevens, maar ook om gegevens uit verschillende domeinen, zoals wetenschappelijke disciplines, industrieën en maatschappelijke domeinen, te combineren. Dit geeft de mogelijkheid om belangrijke inzichten te verkrijgen uit gecombineerde datasets.

Naast de hoeveelheid gegevens vormt ook de complexiteit ervan een uitdaging. Bijvoorbeeld wat betreft de verschillende rollen van organisaties – zoals onderzoeksorganisaties – bij de verwerking van grote datasets. Niet alleen als producent van gegevens, niet alleen als gebruiker van gegevens, maar ook als actor die grote datasets combineert, verrijkt, mede creëert en aggregeert voor en met een verscheidenheid aan andere actoren.

Principes en tools voor gegevensbeheer helpen om de waarde van gegevens te ontsluiten. Gegevensbeheer omvat het systematische proces van het omgaan met gegevens gedurende hun hele levenscyclus: het verzamelen, organiseren, analyseren, delen en bewaren van gegevens, waarbij de integriteit, toegankelijkheid en veiligheid ervan worden gewaarborgd. AI is op dit gebied al veelbelovend gebleken, waar AI-gestuurde automatisering handmatige inspanningen tot een minimum kan beperken. Naast de huidige standaardoplossingen voor gegevensopslag groeit de vraag naar dataen contentbewuste oplossingen voor datamanagement, evenals naar oplossingen die nieuwe inzichten uit data kunnen bieden.

Onlangs werd duidelijk hoe belangrijk gegevensbeheer en gegevensbewaring zijn. Kijkend naar ontwikkelingen op het gebied van gegevenssoevereiniteit, gegevenseigendom en -beveiliging, en open science. Deze ontwikkelingen zijn bepalend voor de manier waarop onderzoekers en onderzoeksorganisaties internationaal samenwerken. Een voorbeeld hiervan is de recente activiteit van de onderzoeksgemeenschap om grote klimaatgegevenssets die in de VS zijn opgeslagen te bewaren door ze op servers in de EU op te slaan, zodat de gegevens vrij beschikbaar blijven voor de internationale klimaatonderzoeksgemeenschap. Naast deze repatriëring van gegevens in de wetenschappelijke gemeenschap zijn ook nationale overheden en organisaties in de EU zich bewust van het nemen van strengere maatregelen om het eigendom van gegevens te waarborgen. Bijvoorbeeld met betrekking tot het gebruik van cloudservices, door data van de (big tech-)servers in de VS naar servers in Europa te verplaatsen.

Nieuwe benaderingen en technologieën voor datamanagement zijn in opkomst en worden ontworpen om zowel de huidige als toekomstige data-uitdagingen te kunnen hanteren.”

Auteurs
Mark van de Sanden (GÉANT, formerly SURF), Jan-Ru Muller (Hogeschool van Amsterdam), René van Horik (DANS), Lolke Boonstra (TU Delft)