Wat is een dataset?

Als je over data beschikt en dat openbaar wilt stellen, kom je al gauw het woord "dataset" tegen. Op Dataplatform staan bijvoorbeeld meer dan 2.000 datasets. Maar wat betekent dat begrip eigenlijk?

Verzameling van bestanden

Een dataset is een verzameling van bestanden in verschillende formaten met daarbij behorende metadata. De individuele bestanden noemen we databronnen en kunnen in verschillende formaten beschikbaar zijn. Bijvoorbeeld als JSON, XML formaat of CSV. Onderstaande afbeelding laat zien hoe een dataset is opgebouwd. Wij leggen je aan de hand van een aantal voorbeelden uit wat een dataset op Dataplatform is.

 

 

Tabellen en overzichten

Je hebt uit je eigen organisatie alle subsidiegegevens van de afgelopen periode verzameld. Per kwartaal heb je een Excelsheet ontvangen waarop alle bedragen die uitgekeerd staan en aan wie. Om een beeld te geven hoe dat eruit ziet, bekijk je hier de subsidiedata van Vlaardingen. Door elke afzonderlijke Excelsheet samen te voegen, creëer je één dataset. De afzonderlijke Excelsheets noemen we dan databronnen.

 

IoT (Internet of Things) data

Data van sensoren behoort tot IoT data. Stel je beschikt over sensor data uit invalidenparkeerplaatsen. Ze meten of de plek bezet is of niet, hoe laat dat is geweest etc. Dit wordt allemaal genoteerd in een bestand, of in een lijst. Het is een verzameling van gegevens voor een bepaald onderwerp. Dit noemen we ook een dataset. 

 

Foto's

Maar ook een verzameling aan foto's is een dataset. Zo heeft de provincie Utrecht op Dataplatform een dataset van luchtfoto's. Het kan dus van álles zijn. Als het maar een verzameling van gegevens is voor één bepaald onderwerp.

 

Metadata

Zodra de dataset beschikbaar wordt gesteld, moet het voor anderen vindbaar worden en duidelijk zijn wat er in de dataset staat. Metadata is een lijst aan informatie over de dataset en databronnen in de dataset. Als de databron een CSV-bestand is, heb je kolomnamen die iets zeggen over de waarden die in die kolom voorkomen. Kolomnamen zijn niet altijd duidelijk. Met Dataplatform hebben we daar iets op bedacht: een data woordenboek waarmee je beschrijft wat de inhoud van een databron is en wat de verschillende kolommen betekenen. Dit is onderdeel van de metadata: het beschrijft de data.

 

Lees ook: wat is metadata?

 

Bekijk de mogelijkheden voor jouw datasets

Beschik je over een dataset(s) die je graag openbaar wilt delen? Upload hier je dataset(s) en we nemen zo snel mogelijk contact met je op. Of bekijk hier de 2.000 datasets op Dataplatform om inspiratie op te doen.