Webinar: Hoe gebruik je data in je werk?

‘Hoe gebruik je data in je werk? Hoe maak je je werk effectiever? Hoe kun je later het resultaat van je werk meten?’ Dat zijn maar een paar voorbeelden waar Ruben Dood (directeur dienstverlening en informatieverstrekking), expert van het Centraal Bureau voor de Statistiek, op 11 februari in de 8e webinar van RADIO op inging.

Webinar: Hoe gebruik je data in je werk?

Goedemiddag, welkom bij dit webinar over datagedreven werken voor beleid.
Mijn naam is Ruben Dood. Ik werk bij het Centraal Bureau voor de Statistiek.
Ik ben directeur beleidsstatistiek en dataservices.
Ik hou me dagelijks veel bezig met het ondersteunen
van met name overheden op het gebied van data voor beleid.
Ik vind het leuk om vandaag iets te vertellen
over het werken met data voor het maken van beleid.
Ik heb een paar onderwerpen waar ik het graag over wil hebben.
Eerst een stukje over het CBS.
Het is belangrijk om een beetje te weten wat het CBS is,
welke data wij in huis hebben en wat je er wel en niet mee kan doen,
om ook te weten hoe het datalandschap in Nederland in elkaar zit.
Daarna kijk ik aan de hand van een voorbeeld
hoe je datagedreven werken in beleidspraktijk kunt toepassen.
Daarna aandacht voor wat je nodig hebt
om in je eigen organisatie datagedreven te kunnen werken,
en uiteraard is data gedreven werken niet altijd fantastisch. Er zijn ook valkuilen.
Daar wil ik ook aandacht aan besteden.
En op het eind zal ik aangeven waar je hulp kunt krijgen
als je zelf wil beginnen met datagedreven werken.
Eerst het stukje over het CBS en datagedreven werken.
Dit is de missie van het CBS:
het publiceren van betrouwbare samenhangende statistische informatie
die inspeelt op de behoefte van de samenleving.
'Betrouwbaar' is het sleutelwoord.
Dat betekent niet alleen dat je het moet geloven,
maar ook dat het van hoge kwaliteit moet zijn en altijd onafhankelijk.
De cijfers van het CBS worden niet gekleurd door enige politieke stroming
of beïnvloeding vanuit bestuurlijke of politieke lagen.
Het gaat om wat er feitelijk gebeurt
en als je niet weet wat er gebeurt in de samenleving en economie,
kan je ook niet sturen op de realiteit.
Daarom is een rol van het CBS in de samenleving
en voor politiek en beleid belangrijk.
De kerntaak van het CBS laat zich omschrijven in de plaatjes.
Je ziet hier twee afbeeldingen van de realiteit.
Boven een zwembad met bezoekers, daaronder iets te eten.
Dit zijn beelden zoals je die in de praktijk kan tegenkomen.
Wat het CBS daarvan maakt, is dit:
nette, gestroomlijnde, overzichtelijke plaatjes, grafieken, tabellen
waarin je kan tellen wat er in deze situatie gebeurt.
Je ziet om hoeveel frietjes het gaat, hoeveel ketchup,
hoeveel parasols, zelfs met een kleurverdeling.
Je ziet hoeveel mensen er bij het zwembad zijn geweest.
Dit is wat wij doen als CBS.
We pakken uiterst privacygevoelige informatie uit de dagelijkse praktijk
en maken daar statistieken van die inzicht geven in die praktijk,
maar wel in de vorm van veilige informatie.
Ik wil gelijk beginnen met de eerste pollvraag,
want ik leg zo meteen uit wat gaan wat we met al die data doen.
Maar ik ben benieuwd hoe u het CBS ervaart.
Wat weet u van het CBS?
Als het goed is, heeft u nu de pollvraag in beeld
en kunt u daar antwoord op geven.
Ik zie een aantal antwoorden binnenkomen.
Ik zie... Nu wordt het...
Ik zie een duidelijk patroon ontstaan, dus hartelijk dank daarvoor.
Ik zal het nu weer stopzetten en de resultaten laten zien.
Als goed is, heeft u nu de resultaten in beeld.
U kent ons als dataleverancier, cijferfabriek,
dataknooppunt en niets anders. Dat is ook wel logisch,
want de kerntaken van het CBS zijn ook ongeveer die drie.
De manier waarop het CBS werkt:
Om een beeld te maken van de samenleving en de economie
verzamelen wij heel veel data, enorm veel data.
Bijna alle bestanden, administraties en registraties die bij de overheid bestaan
zijn ook beschikbaar voor het CBS.
Ik heb daar een plaatje van. Waarschijnlijk niet leesbaar,
dus ik zal een klein stukje in het rode vierkant uitlichten wat wel leesbaar is.
Om even een beeld te geven van het type informatie dat wij in huis hebben.
Registraties en administraties betekent ook
een 100 procent dekking van alle Nederlanders,
alle Nederlandse huishoudens, alle Nederlandse adressen, alle bedrijven.
Dit betekent dat het CBS veel minder hoeft te enquêteren.
In de landen om ons heen
wordt informatie voornamelijk verzameld via enquêtes.
Dan krijg je een beeld van een klein deel van de bevolking.
Op basis daarvan kan je het totaal schatten.
We hebben gewoon direct inzicht in de totale bevolking.
Dat is niet alleen efficiënter en goedkoper
en zorgt ook voor veel minder overlast voor burgers en bedrijfsleven,
maar het betekent ook dat je veel meer met die data kan doen,
omdat je een completer beeld kan schetsen.
Even een voorbeeld hoe wij met die data omgaan als die bij ons binnenkomt.
Dat is uiterst privacygevoelige data.
Er staat bijvoorbeeld een BSN in, een naam, adres, geboortedatum.
Daarmee kun je onmiddellijk iemand herkennen.
Als die informatie bij ons binnenkomt, wordt die direct identificerende data,
de direct identificerende variabele, eraf gehaald
en vervangen door wat we een 'record identification number' noemen, een RIN.
Dat kan een persoon zijn, maar bijvoorbeeld ook een adres,
een huishouden, een KvK-nummer, een leerlingnummer, et cetera.
Die RIN is de kern van de dataverzameling
en daaraan koppelen wij als het ware een soort bloemblaadjes.
Telkens verschillende onderwerpen van data.
Het kan over allerlei onderwerpen gaan.
Om daar een indruk van te geven: stel dat we beginnen met een persoon,
hier in het midden afgebeeld, als we informatie over een persoon hebben:
dat is dan dus meneer X, want we weten niet wie het is.
Het is alleen maar bekend met een RIN.
We weten niet precies wie die persoon is.
Maar we weten wel in welk huishouden hij woont
en daarmee ook welke andere personen, die wij ook niet bij naam kennen,
nog meer in dat huishouden wonen.
Van die persoon weten we ook het adres.
Als je eenmaal het adres weet, weet je ook wat voor gebouw er staat,
wat het energiegebruik is van het gebouw en in welke wijk dat gebouw staat.
En daarmee ook weer veel informatie over die wijk.
Wat zijn bijvoorbeeld de leefbaarheids- cijfers, criminaliteitscijfers?
Het gemiddelde van de totale bewoners in die wijk op bepaalde vlakken.
Als je een persoon in beeld hebt, kun je ook de ouders en de kinderen bepalen.
Daarmee kan je ook familieverbanden bepalen,
wat ook handig is voor allerlei statistieken.
Maar denk ook aan: is iemand hoog- of laagopgeleid?
Wat voor opleiding heeft hij of zij gehad?
En zo kun je verder gaan met tal van onderwerpen
die allemaal aan die ene persoon te koppelen zijn.
Onderaan heb ik het dienstverband gezet, de persoon zou ergens kunnen werken.
Bij een bedrijf of overheidsorganisatie, maar laten we zeggen, een bedrijf.
Daarvan weten we ook weer wat het produceert
of het importeert en exporteert, welke belasting wordt betaald, et cetera.
Zo is een vrij compleet plaatje te schetsen
en er zijn dus nog tientallen andere verbanden mogelijk
in de vele duizenden administraties en registraties.
Het is bovendien handig dat we niet alleen de data
over bijvoorbeeld 2019 hebben, het afgelopen jaar,
maar ook de data over 2018, 2017, 2016 en uiteraard nog langer terug.
Het is niet alleen mogelijk om een beeld van nu te schetsen,
maar ook terug te kijken in de tijd
en op die manier trends en dergelijke ook te kunnen herkennen.
Met behulp van die data maken wij dus statistieken.
Die statistieken publiceren wij, openbaar beschikbaar voor iedereen.
Die kun je raadplegen op Statline in de vorm van tabellen.
Zo'n tabel is een view,
zoals wij denken dat mensen graag naar de data kijken.
Je kunt ook zelf selecteren welke jaartallen je wil zien.
Of welke onderwerpen. Welke regio.
En zo zijn duizenden tabellen te raadplegen.
Een tabel kan je ook weergeven in de vorm van een grafiek
om daarmee zelf trends te bekijken.
Maar eigenlijk blijven dit een soort customized views
op een veel grotere open dataset die erachter ligt.
Die open dataset is ook beschikbaar via het kanaal Open Data van het CBS.
Daar zijn al die achterliggende statistische tabellen,
met veilige informatie die iedereen kan worden gebruikt, beschikbaar.
Die informatie is ook geautomatiseerd te gebruiken.
Je zou hier met eigen apps via een application programming interface
overzichten kunnen maken die op jouw manier specifiek naar de data kijkt,
zoals het voor jou nodig is
en het automatisch laten updaten zodra een nieuwe informatie binnen is.
Wij zijn het officiële statistiekenkanaal van de Nederlandse overheid.
We maken een zo compleet mogelijk beeld
van de samenleving en de economie.
Het grootste gedeelte is vastgesteld in een Europees programma.
Denk aan werkloosheidscijfers, het BNP.
Dit totale pakket van Europese statistieken
is in elk Europees land hetzelfde.
Dat is vanzelfsprekend omdat je wil dat Frankrijk vergelijkbaar is met Duitsland
en Nederland vergelijkbaar is met België, et cetera.
Dus je hebt een vaste manier waarop die statistieken worden gemaakt.
Maar met die enorme schat aan data die we bij ons binnen hebben,
is nog veel meer mogelijk dan alleen het pakket van vastgestelde statistieken.
Dat noemen we aanvullende statistische dienstverleningen.
Het CBS is namelijk hét statistiekbureau van de Nederlandse overheid.
Dit betekent dat alle overheden een beroep op het CBS moeten kunnen doen
voor aanvullende statistische dienstverlening.
We leveren maatwerk statistieken over een specifiek onderwerp,
bijvoorbeeld voor een ministerie of een gemeente,
voor het beleidsdoel waar ze op dat moment mee bezig zijn, van belang is.
Daar gelden wel bepaalde regels voor.
Zo gaan we er zelden toe over om nieuwe databronnen te verzamelen,
het moet additioneel zijn. We moeten de data al min of meer in huis hebben
om een nieuwe matrixstatistiek te kunnen maken.
Het niet wordt betaald uit het vaste pro- gramma, maar moet wel betaald worden.
De extra uren die wij hierin stoppen, moeten we vergoed krijgen.
Dus het is wel betaald, maar er is geen winstoogmerk.
Daarnaast heeft CBS een aantal beperkingen in wat we mogen doen.
We doen geen prognose of voorspelling, behalve op het gebied van bevolking,
en ook geen inhoudelijke beleidsuitspraken.
We zullen niet snel zeggen: 'Dit beleid heeft gewerkt, want'
en we zullen ook niet zeggen: 'Als je hiernaartoe wil,
is dit het type beleid dat je zou moeten maken.'
Daarnaast is het belangrijk dat we alle resultaten van de matrixstatistieken
publiceren op het moment dat we het ook aanleveren
aan de partij, bijvoorbeeld een ministerie of provincie.
Als we het aanleveren komt ook op de website van het CBS
en is het voor iedereen gelijktijdig beschikbaar.
Daarnaast geldt ook dat er exact dezelfde normen gelden
als voor onze normale statistieken.
Onafhankelijkheid, betrouwbaarheid en een zeer hoge kwaliteit.
Het is ook een officiële Nederlandse statistiek,
zij het dat die niet in opdracht is gemaakt van de EU,
maar van een ministerie of een provincie of een gemeente in het eigen land.
We zien een aantal trends in het gebruik van data.
Er is op dit moment meer data beschikbaar dan ooit tevoren.
Die is bovendien van een enorm hoge kwaliteit.
Door de 100 procent dekking hebben we ook meer mogelijkheden dan ooit
om die data te gebruiken.
Toch zien we dat die data nog niet optimaal wordt gebruikt.
We zien wel veel toepassingen van datagedreven werken.
Ook vaak zo vanzelfsprekend dat het mensen niet meer opvalt.
Denk aan iemand die bij de gemeente komt
en moet worden geholpen om al dan niet gebruik te maken van een regeling.
Op dit moment is er veel data beschikbaar over die persoon
die de gemeente helpt om de dienstverlening te optimaliseren.
Denk ook aan een belastingformulier dat bijna volledig ingevuld op de mat valt.
Dat is data die de Belastingdienst ter beschikking heeft
om het de burger makkelijk te maken zo'n formulier goed in te vullen.
Schoolvoorbeeld van datagedreven werken.
Of het aansturen van dynamische route- informatiepanelen boven de weg
vanuit verkeerscentrales.
Of het al dan niet sluiten van de Oosterscheldekering,
waar heel veel informatie in gaat over het weer, golfhoogte, windrichting.
Maar ook de volkstelling die we Nederland doen.
In de landen om ons heen waar statistiek- bureaus nog veel met enquêtes werken,
wordt elke tien jaar een volkstelling gedaan door een leger mensen
van deur naar deur te sturen en vragen te laten stellen aan bewoners.
In Nederland kunnen we die volkstelling helemaal digitaal doen.
Ontzettend veel sneller, duizenden malen goedkoper.
Heel efficiënt en het zorgt voor veel minder overlast voor burgers en bedrijven.
Allemaal voorbeelden van datagedreven werken
die we misschien zo vanzelfsprekend vinden dat we ze niet eens meer zien.
Tegelijkertijd is het zo dat we merken
dat bij het maken van beleid data nog vaak een ondergeschikte rol speelt.
Daar is er nog een wereld te winnen.
Een reden waarom die optimalisatie nog niet is bereikt:
beleidsmakers zijn zich niet altijd bewust van de mogelijkheden
of van de data die daadwerkelijk aanwezig is.
Uiteraard kost datagedreven werken tijd en daarmee ook geld.
Je moet wel tijd en geld investeren in het doen van het onderzoek
en het presenteren van de resultaten.
Daarnaast geldt bij veel beleid
dat de monitoring en de uitvoering vaak onvoldoende prioriteit hebben,
terwijl monitoring belangrijk is om te kijken
of het beleid ook de gewenste effecten heeft.
We zien dat de afgelopen tijd, sinds de AVG in werking is,
ook een soort AVG-angst is opgetreden.
Ik noem het maar even zo.
Die werkt nogal verlammend op overheidsorganisaties.
In realiteit is er weinig reden om bang te zijn voor de AVG.
Die verschilt niet veel van de Wet bescherming persoonsgegevens
die we daarvoor hadden. Er is één groot verschil,
namelijk op het moment dat je de wet overtreedt, is er sprake van een boete.
Er is nog nooit een boete uitgedeeld, dus die kans is ook niet zo groot.
En als je je gezond verstand gebruikt, komt het echt wel goed met die AVG.
Daarnaast kan het dat de antwoorden die je zoekt
niet zijn wat op een of andere manier politiek gewenst is.
Dat zou potentieel kunnen leiden tot conflicten.
Dat is ook één van de redenen waarom het werken met data in beleid
nog niet helemaal tot volle wasdom komt.
Daarnaast zien we wel dat de belangstel- ling voor datagedreven werken toeneemt.
Bijna alle organisaties waarmee wij contact hebben,
zijn er op een of andere manier actief mee bezig.
Omdat we als CBS graag de maatschappelijke meerwaarde
van de schat aan data willen maximaliseren en optimaliseren,
werken we actief mee en ondersteunen wij meer datagedreven werken,
zeker voor beleid in alle overheidsgeledingen.
Tot zover het stukje over het CBS.
Dan nu: datagedreven werken in de beleidspraktijk.
Ik zal proberen aan de hand van een voorbeeld
daar wat aandacht aan te besteden.
Ik heb eerst een pollvraag en terwijl jullie die invullen,
kijk ik of ik antwoord kan geven op een vraag die ik op mijn scherm zien staan.
Ik zie een vraag van Elaine: 'Hoe kom ik snel te weten
of er relevante data op mijn beleidsterrein bestaat?'
Je zou bijvoorbeeld kunnen kijken op de site van het CBS
en dan zoeken op het thema waar jouw beleid over gaat
en kijken of er al open data en statistieken zijn op die data.
Als er nog geen statistieken of open data zijn,
kun je ervan uitgaan dat er weinig informatie op dat terrein beschikbaar is.
Er zijn nog steeds, ook voor het CBS, witte vlekken helaas.
Een andere vraag van Agnes:
'Wat doen jullie om de inzichten uit onderzoek
meer onder de aandacht te brengen van organisaties en potentiële doelgroepen?
Ik zal daar zo meteen een paar voorbeelden voor geven,
maar één van de dingen is een zo laagdrempelig mogelijke communicatie
van de gegevens, op zo'n manier
dat het voor iedereen begrijpelijk is wat we hebben
en wat de resultaten van de statistieken zijn.
Ik zie dat de poll inmiddels bijna volledig is ingevuld.
Hoe datagedreven is je organisatie momenteel?
Als het goed is, zijn de resultaten nu te zien in het scherm.
Een ruime meerderheid voor 'beginfase en ontwikkelend'
en tien procent zegt dat datagedreven al volwassen is
in de beleidspraktijk van de eigen organisatie.
Dat is hoopgevend. Het is goed om te zien
dat al veel organisaties ermee bezig zijn
of in de afgelopen tijd mee bezig zijn geweest.
Waarom zou je eigenlijk willen gaan werken met data in de beleidspraktijk?
Eén van de redenen waarom je zeker met data moet gaan werken
in de ogen van het CBS, in mijn ogen,
is omdat je altijd een soort tegenstelling krijgt tussen onderbuik en feiten.
De onderbuik geeft aan dat er een probleem is
waar een oplossing voor moet komen. De feiten geven aan wat het probleem is.
Het is een combinatie van allebei. Het is niet een of-of,
maar je moet beiden verenigen. Je moet zowel voelen dat er een probleem is
als bepalen wat het probleem precies is.
Daarnaast is het belangrijk dat je de juiste besluiten neemt.
Als je niet op basis van de realiteit een beleid formuleert,
neem je waarschijnlijk onjuiste besluiten.
Dan zul je ook zien dat het beleid niet werkt en dat leidt tot desinvesteringen.
Met datagedreven beleid kun je in principe ook betere besluiten maken.
Daarnaast zien we dat de maatschappelijke opgave...
complexer en veelzijdiger wordt en er ook steeds meer disciplines betrokken zijn.
Dat betekent dat je steeds meer het gevaar krijgt
dat mensen een beetje langs elkaar heen praten.
Als je vanuit verschillende disciplines kijkt, is het moeilijk om zeker te weten
dat je allebei het juiste en gelijkluidende beeld hebt.
Ook hier kan het helpen om te werken met een solide basis van feiten
waar je het allemaal over eens bent en die een basis is voor de discussie.
We zien we ook meer dat besluitvorming moet worden verantwoord.
Je moet uitleggen aan het publiek en de media
waarom een bepaald besluit is genomen
en waarom dit in een gegeven geval het juiste besluit was.
Ook daarbij kan het helpen als je op basis van de feitelijke situatie
kunt uitleggen waarom je je besluit hebt genomen.
Daarnaast is het bij de uitvoering belangrijk om te kijken:
werkt het beleid ook?
Zien we nou in de uitvoering, via het monitoringsprogramma,
dat het probleem zich oplost of we een ontwikkeling in de juiste richting zien?
Daarbij is ook belangrijk dat je moeten benchmarken.
Zien we bij een controlegroep, die niet wordt geraakt door het beleid,
een zelfde ontwikkeling, werkt het beleid misschien niet.
Maar zie je een andere ontwikkeling dan in de groep waarop het van toepassing is,
kun je daadwerkelijk constateren dat het beleid kennelijk werkt.
Dan: hoe ga je aan de slag als je datagedreven gaat werken?
Ik zal proberen een voorbeeld te pakken. Dat valt niet mee,
want er zijn veel soorten voorbeelden waarnaar je zou kunnen kijken.
Ik pak een willekeurig voorbeeld. Stel je voor dat we ontdekken
dat er steeds meer gezinnen in de problemen lijken te komen
op financieel gebied, en dat er een soort patroon is
dat die gezinnen in de afgelopen jaren van 150 naar 130, 110 procent
van een bepaald minimum afglijden en op een gegeven moment
in de problemen komen en hulp zoeken.
Op het moment dat we dat vroeg detecteren,
kunnen we proberen te voorkomen dat die gezinnen in de problemen komen
en op die manier waarschijnlijk meer in de preventie kunnen werken
en daarmee bij een nieuwe economische crisis
beter voorbereid kunnen zijn op wat er op ons afkomt aan hulpvragen.
Stel dat dit het probleem is met ongeveer de vraag.
Dat is een brede, vage vraag.
Eén van de eerste dingen die je doet, is een soort definitie bepalen.
'Waar hebben we het dan over?'
Het gaat kennelijk over huishoudens in een negatieve spiraal van inkomen
tot een bepaald minimum. Wat is dat minimum?
Wat is die 100 procent? Hoe definiëren we waar mensen afglijden?
Is dat hetzelfde voor meerpersoons- of eenpersoonshuishoudens?
Is dat hetzelfde in alle delen van het land?
In Amsterdam zijn huur- en koopwoningen aanzienlijk duurder
dan in bijvoorbeeld een regio met bevolkingskrimp.
Moet je overal hetzelfde minimum hanteren?
Stel dat je kijkt naar de afgelopen vijf jaar,
van 150 naar 100 procent, je hebt een mooi minimum bepaald.
Dan ga je kijken: om hoeveel huishoudens gaat het nu?
Het is een enorm verschil of het gaat over 5, 50 of 50.000 huishoudens.
Het type beleid en oplossingen dat je daarvoor genereert is volkomen anders
als de doelgroep een grotere, andere omvang heeft.
Een volgende stap: wie zit er precies in die doelgroep?
Om wat voor soort huishoudens gaat het hier?
Is het merendeel meerpersoonshuis- houdens? En hoeveel personen dan?
Of juist voor het merendeel eenpersoonshuishoudens?
Wat is het gemiddelde inkomen in dat huishouden
en waar komt dat inkomen vandaan? Is dat uit een sociale ondersteuning?
Is dat uit een baan of meerdere banen?
Is het onduidelijk waar het inkomen vandaan komt?
Je kan ook kijken naar de opleiding in het huishouden.
Zijn het meer hoog- of laagopgeleiden of zeer laag opgeleiden
of mensen waarvan de opleiding niet bekend is.
Je kan kijken naar de verdeling van dit type huishoudens over het land.
Zitten ze meer in de steden of meer in het landelijk gebied?
In bepaalde provincies?
Je kan binnen steden gaan kijken in welke wijken ze met name voorkomen.
Een patroon kan belangrijk zijn om je beleid effectief in te richten
en de juiste doelgroep op tijd en snel te bereiken.
Je kunt kijken naar de invloed van lokale factoren.
Ik noemde bijvoorbeeld al huizenprijzen,
maar je hebt ook regionaal en lokaal beleid
op het gebied van bijvoorbeeld regionale economie.
Je kunt kijken of er sprake is van een migratieachtergrond in de huishoudens.
Is die westers of niet-westers? Dat kan een belangrijke factor zijn.
Kortom, je gaat allerlei informatie verzamelen over die huishoudens
die je uiteindelijk wil gaan helpen, om te zorgen dat je ze ook beter kán helpen.
Als je daarmee klaar bent, is er nog een tweede aspect: veranderingen in de tijd.
Is het probleem even groot als een jaar geleden,
twee jaar geleden of vijf jaar geleden?
Als een probleem zichzelf kleiner wordt,
is het misschien niet nodig om nog bij te sturen.
Als je ziet dat het probleem groter wordt,
is het misschien juist veel harder nodig om bij te sturen.
Ook hier kunnen weer allerlei regionale patronen in zitten.
Een andere invalshoek is: hoe komt het nou dat mensen
in een negatieve spiraal terechtkomen?
Zien we een bepaald patroon in huishoudens die in onze doelgroep zitten?
Je kan kijken naar life events. Doordat we al die informatie beschikbaar hebben,
kun je kijken in welke huishoudens er de afgelopen tijd een scheiding is geweest.
Baanverlies van een van de partners of misschien wel van de kinderen?
Trouwen of het krijgen van kinderen. Het overlijden van een van de partners.
Misschien zijn mensen wel met pensioen gegaan
en hebben ze een inkomensval onder- gaan, maar wordt het daarna stabiel.
Wil je die mensen dan nog in je doelgroep houden?
Of iemand in het huishouden is in de gevangenis beland,
waardoor de totale inkomenspotentie van het huishouden aanzienlijk minder wordt.
Al deze zaken zijn van belang om te weten:
hoe komt het nou dat mensen in je doelgroep terechtkomen?
Als je dat goed weet, kan je op basis daarvan ook een beter advies maken.
Welk advies dat is, daar ga ik helaas niet over.
Ik ga alleen over het leveren van de data,
van de informatie die nodig is om inzicht te krijgen in het probleem.
Zeker als je te maken met beleid waar- voor meerdere disciplines belangrijk zijn
of waarvoor nog uitleg nodig is aan bepaalde doelgroepen,
is het belangrijk dat je ook laagdrempelig kan communiceren
over de resultaten van je beleidsonderzoek.
Een manier om dat te doen is bijvoorbeeld een tabel.
Een tabel bevat veel informatie,
is vooral bedoeld voor communicatie onder experts.
Je bent het eens over de begrippen, je weet waarover je het wil hebben
en zo kun je snel veel informatie met elkaar delen.
Maar een tabel is niet makkelijk te doorgronden.
Je kan ook werken met vele soorten grafieken
en die zijn speciaal bedoeld om data
snel en in samenhang in één oogopslag te laten zien.
Je ziet in de grafiek aan de meest linkerkant
een patroon waarbij het geboortegewicht staat
van baby's met een gewicht van 5000 gram of meer.
Je ziet blauw, lichtgroen en donkergroen.
Dat is het patroon van Nederland, Lim- burg, Zuid-Limburg, in dit geval Heerlen.
Een dergelijk patroon is in een grafiek goed te zien.
Rechts zien we een taartdiagram.
Die zijn goed om aan te geven wat de verdeling is in een bepaalde doelgroep.
Hoe je met een grafiek trends in kaart kan brengen, zien we hier.
Aan de linkerkant zien we een zogenaamd Sankey-diagram.
Wat we hier zien is de informatie die we verzameld hebben bij een traject
waarin een overheid geprobeerd heeft mensen aan een baan
of beter werk te helpen.
Links zien we de situatie bij de start van het traject.
Bovenaan donkergroen, mensen die een baan hebben,
dan blauw, mensen die geen baan heb- ben en onderaan een groepje onbekend.
In het midden zie je de situatie aan het eind van het traject,
waarbij heel donkergroen bovenin werk of beter werk heeft.
Groen heeft weer werk en het blauwe stuk is kleiner geworden.
Daarna zie je die situatie na een jaar
en je ziet de stromen tussen de verschillende soorten groepen.
Dit maakt het mogelijk om trends in beeld te brengen.
Een andere manier is met diagrammen in de tijd.
Ik heb aan de rechterkant twee voorbeelden gegeven.
De bovenste gaat over inkomens als gevolg van belastingheffingen.
En je ziet dat dat een stijgende lijn is.
Daaronder zie je dezelfde data,
maar je ziet het nu als percentage ten opzichte van de totale belastingen
en daar zie je een dalende lijn.
Dit is gelijk een kleine waarschuwing
voor hoe je met grafieken om moet gaan in de praktijk
en ook hoe je grafieken moet lezen als je ze krijgt.
Denk altijd even goed na:
wat wil je laten zien en hoe laat je dat op de juiste manier zien?
Boven zie je een stijgende lijn, onder een dalende lijn,
terwijl het gaat over hetzelfde type data.
Je kan hier verschillende conclusies aan verbinden,
dus het is belangrijk om een goed beeld te vormen
door beide grafieken naast elkaar te hebben.
Nog een manier om laagdrempelige informatie te laten zien, zijn kaarten.
Hier kun je ruimtelijke patronen in beeld brengen. Ik heb een kaartje gemaakt
van speelgoedwinkels die zich binnen tien kilometer van een woonadres bevinden.
Je ziet wat je verwacht.
Naarmate er een hogere bevolkingsdichtheid is,
zijn er meer winkels binnen tien kilometer,
dus dat is precies wat je verwacht. Wat dat betreft geen nieuws in dit plaatje.
Ik heb nog een tweede plaatje.
Ik kan helaas geen bewegende beelden laten zien in deze webinar.
Hier kan je laten zien hoe je niet alleen ruimtelijke patronen,
maar ook patronen in de tijd in beeld kan brengen.
Op basis van telefoniedata die al wat ouder is, uit 2013,
heb ik hier een kaartje waarbij je de verdeling van de bevolking
over het land ziet op het tijdstip nul.
Dat is ook het tijdstip dat gebruikt wordt als ijkmoment
voor verdeling van geld uit het gemeentefonds.
Als ik de tijdbalk in het plaatje zou laten lopen,
zou je zien dat bepaalde binnensteden in de loop van de dag rood kleuren,
omdat de bevolkingsdichtheid daar hoger is
en die kleuren 's avonds weer gewoon geel, naar het gemiddelde toe.
Om die reden kun je zeggen:
de totale bevolking die in 24 uur aanwezig is in een bepaald gebied,
is veel hoger dan de bevolking die er woont.
Dus dat zou een bijstelling van bepaalde fondsen kunnen betekenen.
Ik kan helaas geen bewegende plaatjes laten zien in dit webinar,
dus ik moet u dat onthouden.
Maar op de website van het CBS is deze animatie wel te zien.
Nog een manier van laagdrempelige communicatie,
met name met grote groepen, bijvoorbeeld met burgers
of met mensen die buiten de beleidspraktijk staan,
is met behulp van factsheets.
Die geven in een oogopslag veel samenhangende informatie.
Dit gaat over internationaal onderwijs in Nederland
en je ziet heel nadrukkelijk
dat de grootste clustering van internationale scholen
in de buurt van Den Haag is.
Logisch, gezien alle internationale organisaties in Den Haag
en bijvoorbeeld ook een aantal ambassades.
Een ingewikkelder vorm van communicatie is een dashboard.
Dat is een interactief medium
waarbij je als gebruiker zelf in staat bent
om informatie samen te stellen
die past bij het type vraag dat jij in gedachten hebt.
Een beetje als StatLine, maar dan grafisch, interactief en laagdrempeliger.
Ik heb hier een dashboard uit Den Haag,
waarbij we veel informatie over wijken hebben verzameld.
Je kunt op het kaartje meteen zien waar een wijk staat
ten opzichte van andere wijken.
Op deze manier kun je een vergelijking maken met andere wijken,
de informatie samenstellen die je zelf nodig hebt.
Een factsheet is statisch, goed geschikt voor informatie met een breed publiek.
Een dashboard is niet statisch, maar ook niet zo geschikt voor een breed publiek,
maar bijvoorbeeld meer voor mensen die al wat meer datagedreven zijn
of onderzoeksjournalistiek willen bedrijven of iets dergelijks.
Overigens ook goed te gebruiken bij uitvoering van praktijk.
Samenvattend:
waarom zou je datagedreven willen werken?
Op de eerste plaats onderbuik versus feiten, onderbuik en feiten.
Het voorkomen van desinvesteringen door de juiste besluiten te nemen.
Maatschappelijke opgaven en communi- catie over de juiste zaken is complexer
en daarmee is het belangrijk dat je het over de juiste dingen hebt
en het over eens bent dat je het over de juiste dingen hebt.
Verantwoording van besluitvorming, benchmarking, monitoring en bijsturing.
Dan: wat is de keten waarmee je te maken krijgt
op het moment dat je met datagedreven beleidspraktijk gaat werken?
Zoals ik net liet zien, begin je met de vragenarticulatie.
Wat is eigenlijk de vraag: waar hebben we het precies over?
Het verzamelen van de data die erbij hoort, het doen van de analyse,
disseminatie en communicatie met een brede doelgroep.
Breng zo goed mogelijk de feiten onder de aandacht
van iedereen die te maken heeft met het nemen van de juiste besluiten.
Schrijf op basis daarvan een advies, neem het besluit
en vervolgens: doe een monitoringprogramma.
Heel belangrijk: definieer het probleem scherp.
Weet waar je het over hebt, baken de doelgroep goed af
en breng de omvang in beeld. Inventariseer de aanvullende data,
voor zover die van belang is voor je beleidspraktijk
en breng daarmee de doelgroep zo goed en uitgebreid mogelijk in kaart.
Communiceer laagdrempelig en bepaal meetbare indicatoren voor het beleid,
zodat je weet waarop je moet letten bij de uitvoering
en hoe je meet of het beleid het gewenste effect heeft
en ontwerp daarvoor ook een monitoringsprogramma.
Het volgende onderwerp is datagedreven werken in de eigen organisatie.
Ook hier heb ik weer een pollvraag en die luidt:
Wat is jullie voornaamste uitdaging om zelf te komen
of om verder te komen met datagedreven werken?
Als het goed is, zien jullie de vraag nu in beeld
en kun je daar ook antwoord op geven.
Ik zie een aantal antwoorden binnenkomen.
Ik zie capaciteit, draagvlak, techniek.
Ik ben blij dat er niemand aangeeft dat er een probleem is met budget.
O, nu toch. Da's nou jammer.
Ik zie de scores bijna niet meer veranderen.
Ik ga de poll nu stopzetten, dan krijgt u straks de resultaten in beeld.
Vier procent geeft aan dat er een probleem is met budget.
Goed om te weten, want budget is een van de moeilijkste dingen om te regelen.
Iedereen die bij de overheid werkt, zal dat weten.
Capaciteit, maar daar is altijd aan te komen. Scoort als hoogste.
Draagvlak scoort met blauw ook best hoog en dat verbaast mij een beetje,
want datagedreven werk is iets waar veel overheden,
van politiek tot beleid tot uitvoering, mee bezig zijn
en waar iedereen wel achter staat. Maar ik kan me indenken
dat de aspecten die erbij komen kijken,
zoals tijd, geld en capaciteit, het draagvlak niet altijd even groot maken.
Techniek scoort ook 22 procent en de ander scoort 24 procent.
Ik zal proberen te zeggen waarmee je te maken krijgt
als je datagedreven gaat werken in je eigen organisatie.
Ik zet de sheet met de punten waarover ik het over ga hebben in beeld,
zodat je makkelijker mee kan lezen.
Op de eerste plaats: inventariseer de da- tabronnen die je tot je beschikking hebt.
In de eigen organisatie verzamel je waarschijnlijk al veel databronnen.
Die zijn voor jouw organisatie van belang,
maar zijn waarschijnlijk ook goed bruikbaar voor het maken van beleid.
Je data is waardevol. Krijg zicht op je databronnen
en zorg ervoor dat in jouw organisatie die data wordt verzameld
en wordt voorzien van metadata. Dat is data die de data beschrijft,
het zegt iets over de data die je hebt opgeslagen.
Bijvoorbeeld, wanneer is het verzameld?
Is er sprake van 100 procent dekking? Waarvoor is het verzameld en door wie?
Wat zit er precies in? Gaat het over mensen of bedrijven?
En wat hebben we dan over die mensen of bedrijven?
Zonder metadata weet je niet wat je in huis hebt
er zonder metadata kan je niet zoeken in je eigen databronnen.
Daarmee is een belangrijk deel van de basis die je nodig hebt
om datagedreven werken niet meer beschikbaar.
Een tweede aspect is: pseudonimiseer waar mogelijk.
Dat is, wat ik al uitlegde:
zorg dat de direct identificerende variabelen er zo snel mogelijk af gaan.
BSN, naam, adres, dat soort zaken
en zorg dat daar een soort betekenisloze code voor in de plaats komt.
Het blijven wel persoonsgegevens. Het valt nog steeds onder de AVG,
maar het is wel belangrijke eerste stap om te zorgen voor goede beveiliging.
Als je gaat pseudonimiseren,
zorg dan dat je de koppelmogelijkheden van de data behoudt.
Zorg dus dat een pseudonieme sleutel waarmee je een persoon aanduidt
in alle bestanden terugkomt,
zodat je ze door de bestanden heen aan elkaar kan koppelen.
Hetzelfde geldt voor bedrijven, adressen en huishoudens.
Zorg ook dat je de toegang tot die data goed organiseert.
Belangrijk is met de aspecten rekening te houden die de AVG voorschrijft.
Het belangrijkst is doelbinding.
Zorg dat als je een bepaald beleidsdoel nastreeft,
dat er een regeling komt waarbij je toe- gang krijgt tot de data die je nodig hebt
voor het onderzoek dat je wil doen, en niet zomaar tot alle data.
Zorg ook dat je die data niet gaat misbruiken voor zaken
waar het niet voor is verzameld.
Zo is voor de AVG belangrijk dat je je data niet gaat gebruiken
om individuele beslissingen te kunnen nemen voor één burger
of bijvoorbeeld opsporing te doen, of fraudedetectie.
Daar is de data niet voor verzameld en mag ie niet voor worden gebruikt.
Voor algemene beleidsdoeleinden,
waarbij je geen uitspraken doet over één persoon, maar alleen over groepen,
kun je veel doen, ook binnen het kader van de AVG.
Het doen van onderzoek met data is een eigen expertise
en vergt specialistische hulpmiddelen.
Ik kom nog weleens tegen dat mensen denken:
'Ik kan wel een draaitabel maken in Excel. Ik ben best handig.
Kom maar op, daar gaan we wel even mee werken.'
Vergis je niet dat het doen van onderzoek met grote hoeveelheden data
zoals het CBS die beschikt behoorlijk wat eigen expertise met zich meebrengt.
Als je 17 miljoen Nederlanders met banen, inkomens, opleidingen
aan elkaar relateert om familieverbanden in kaart te brengen,
praat je over een explosie aan data,
waarbij je met stevige machines aan de gang moet
en met specialistische pakketten om daar iets van te kunnen maken.
Statistische pakketten waar veel mee wordt gewerkt
zijn bijvoorbeeld SPSS, SAS, STATA, R of Python.
Als je meer wil weten, kun je op internet veel resources vinden
die uitleggen wat je met deze pakketten kan doen
en wat hun voor- en nadelen zijn.
Investeer in laagdrempelige communicatie van de uitkomsten.
Ook dit vergt behoorlijk wat eigen expertise.
Het maken van goede kaarten is niet iedereen gegeven.
Het laten zien van patronen in een kaart zodat ze ook helder zijn,
maar niet suggereert dat er patronen zijn waar ze er in werkelijkheid niet zijn,
is cartografie, en is een eigen expertise.
Ook het goed communiceren met tabellen en grafieken
is behoorlijk eigen expertise,
om te zorgen dat je mensen niet op het verkeerde been zet,
zodat ze verkeerde uitkomsten trekken uit de grafieken die ze onder ogen krijgen.
Daarnaast is belangrijk: weet wanneer je hulp in moet schakelen.
In veel organisaties kunnen mensen veel dingen zelf,
maar bijna niemand kan echt alles zelf.
Er is vaak hulp aanwezig, bijvoorbeeld bij het CBS,
maar ook bij partijen in het bedrijfsleven.
Denk bijvoorbeeld ook aan opleidingen,
denk aan trainingen voor verschillende soorten onderdelen van je organisatie,
maar ook het doen van onderzoek of het verzamelen van data,
beschikbaar maken van data of handelen van data
op zo'n manier dat het beschikbaar komt voor je onderzoek.
Ik zie hier een vraag van Ilene, als ik het goed uitspreek.
'Mag je iets doen met bijvangst van data als die wel relevant blijkt?'
Dit is een vraag die onder andere teruggrijpt op de AVG.
Mag je data gebruiken voor een ander doel dan waarvoor die is verzameld?
Het is niet eenvoudig om daar 1-2-3 antwoord op te geven.
In een aantal gevallen zal er geen enkel probleem zijn.
Zeker niet als je duidelijk kan maken dat het gaat om het maken van een beleid
dat alleen ten goede kan komen van de personen, bedrijven of huishoudens
van wie de data is verzameld.
Maar als de bijvangst betekent dat je bijvoorbeeld sneller
of makkelijker fraude kan opsporen of andere vormen van opsporing kan doen,
zal de AVG zeggen dat je die data niet mag gebruiken en moet negeren.
Ik hoop dat dit een voldoende duidelijk antwoord is.
Laatste wat ik wil noemen wanneer je overschakelt op datagedreven werken:
besef dat het een langdurig proces is.
Je hebt het niet van vandaag op morgen ingevoerd.
Het betekent behoorlijk wat veranderingen voor je organisatie.
Zo kan het betekenen dat besluitvorming eerder langer duurt dan korter
omdat je meer invalshoeken hebt en het moeilijker is om een besluit te nemen.
Processen en patronen die je normaal ziet in je eigen organisatie
voor het maken van beleid kunnen anders worden en dat kan wennen zijn.
Je krijgt andere partijen aan tafel, misschien wel met andere belangen.
Het zal bovendien moeten ontwikkelen in de organisatie
voordat het bij iedereen tussen de oren zit.
Zorg dus ook, als je dit gaat doen, voor sponsors in je organisatie
op elk niveau en zorg dat die doorhebben dat dit een proces is van lange adem
en niet iets dat je ergens tussen neus en lippen door in een weekendje invoert.
Valkuilen van data gedreven werken.
Een van de belangrijkste valkuilen is het verschil tussen correlatie en causaliteit.
Correlatie is de samenhang tussen twee fenomenen
en causaliteit is de reden waarom ze met elkaar samenhangen.
Een bekend voordeel van het verschil tussen correlatie en causaliteit
is een onderzoek dat ergens in de jaren 70 is gedaan in Duitsland.
Daarbij werd een patroon ontdekt tussen ooievaars en geboortecijfers.
Waar veel ooievaars voorkwamen, waren de geboortecijfers hoog.
Dit is waarschijnlijk voor veel mensen een bekend voorbeeld.
Hier is sprake van correlatie.
Maar het voor de hand liggende causale verband is er natuurlijk niet.
Het kan best zijn dat er een causaal verband is.
Zo komen ooievaars meer voor in landelijk gebied
en zeker in de jaren 70 van de vorige eeuw
was landelijk gebied geloviger en conservatiever
en waren de geboortecijfers daar hoger.
Dus er is misschien een causaal verband,
maar correlatie wil nog niet meteen zeggen
dat er ook sprake is van een causaal verband.
Een tweede belangrijk aspect is de kwaliteit van de data die je gebruikt.
Bekende regel is: garbage in garbage out.
In veel gevallen zul je bij datagedreven werken
data gaan gebruiken die niet per se precies voor dat doel is verzameld.
Je gaat kijken naar een niche in de data, niet naar het totale pakket.
En is de data nog steeds even goed als je naar het totale pakket gaat kijken?
De kwaliteit van de data die je gebruikt,
zeker als die aan de basis staat van je beleid
en misschien aan de basis van je analyse,
is het belangrijk voor de kwaliteit van het eindresultaat
en uiteindelijk dus ook van je besluit.
Zorg dus dat je goed zicht hebt op de kwaliteit van data.
Dat hoor je ook op te slaan in je metadata.
Als je er twijfels over hebt, doe onderzoek, zoek naar andere bronnen.
Ga kijken hoe je de kwaliteit van de data goed zou kunnen bepalen.
Daarnaast is het belangrijk: weet wanneer het genoeg is.
Een goed kunstenaar onderscheidt zich van een slechte
doordat die weet wanneer een product af is.
Zo gaat het ook met datagedreven werken.
Je kunt altijd één spade dieper, iets verder dooronderzoeken,
altijd nog even een aantal aspecten erbij pakken,
maar weet ook als het voldoende is.
Weet wanneer je klaar bent en het beeld zo goed is dat je op basis daarvan
een weloverwogen besluit kan nemen.
Een vierde valkuil is dat er altijd, zeker in een politieke context,
discussie kan ontstaan over de feiten in het datagedreven traject.
Hebben we inderdaad de exacte juiste definitie?
Hebben we op deze manier de doelgroep in kaart?
Is dit wel het juiste aantal?
Dat is vervelend, maar die discussies krijg je ook zonder datagedreven werken,
alleen worden ze nu wat meer expliciet
en kunt je ze ook doen op basis van gedegen cijfers.
Je kunt echt aantonen of bepaalde conclusies wel of niet juist zijn.
Daarnaast, betekent datagedreven werken niet automatisch
dat er ook snellere en betere besluiten worden genomen.
In elk geval zien we vaak in de praktijk
dat als mensen meer van een probleem weten, meer invalshoeken kennen,
daarbij ook meer inschatten wat de resultaten van een bepaald besluit zijn
en het daarmee zelfs nog wel moeilijker kan worden om een besluit te nemen.
Ik zie intussen een vraag van ESR.
Ik neem aan dat het een afkorting is die voor een naam staat.
'In het licht van aanbestedingen
beschouwt het CBS zich als unieke aanbieder van data voor de overheid.'
Ja en nee.
Wij zijn aan de ene kant uniek
in de zin dat de data die wij in huis hebben uniek is voor het CBS,
voor Nederland en misschien zelfs wel, op een aantal Scandinavische landen na,
een unieke datapositie in de wereld.
Daarmee zijn we wel degelijk uniek.
Aan de andere kant zorgen wij dat er veel partijen in Nederland
ook met die data kunnen werken. Dat gebeurt onder strikte voorwaarden,
want het gaat om zeer privacygevoelige informatie.
Maar er zijn ook partijen in het bedrijfsleven
en in de universitaire wereld
die ook met de data van het CBS kunnen werken.
Die geven ook adviezen en staan overheden ook terzijde
bij datagedreven werken voor beleid.
Die zijn bovendien niet gebonden aan de beperkingen die het CBS wel heeft.
Zo mag bijvoorbeeld een bedrijf of een universiteit
ook prognoses en inhoudelijke beleidsuitspraken doen
en adviezen geven over welke beleid tot bepaalde effecten zal leiden
of welk beleid een bepaald effect heeft gehad.
Als je ondersteuning nodig hebt, is het CBS zeker niet de enige partij.
Er is een wereld aan mogelijkheden. Ik zal daar zo nog iets meer over vertellen.
Even terug naar de valkuilen:
Scherp formuleren van de vraag is essentieel.
Het gebeurt ook regelmatig dat halverwege het traject
wordt teruggegrepen op:
'hebben we wel de goeie vraag gesteld?
Hebben we echt het goede probleem te pakken waarvoor we beleid gaan maken?
Aan de ene kant dat is frustrerend,
maar is het natuurlijk goed dat je halverwege tot inkeer komt.
Beter ten halve gekeerd dan ten hele gedwaald, vanzelfsprekend.
Daarnaast is een van de valkuilen van datagedreven werk
dat je vaak met meer instanties te maken hebt
die allemaal een deel van de datapositie hebben.
En je moet die data bij elkaar brengen op zo'n manier dat het veilig is.
Maar wie neemt als eerste de stap om z'n data uit handen te geven
en bij een andere organisatie naar binnen te krijgen?
Of moet je daar een gezamenlijk platform voor maken? Wie is daar dan de baas?
Het beheren van de eigen data, zeggenschap
en precies weten wat er met de eigen data gebeurt,
is voor veel organisaties die data verzamelen
en zich eigenaar voelen, enorm belangrijk.
Het goed bij elkaar brengen van de data uit verschillende invalshoeken
kan zeer complex zijn en daarmee ook datagedreven werken vertragen.
Nog even samenvattend: correlatie is geen causaal verband.
Kwaliteit van data is belangrijk, weet ook wanneer het genoeg is,
want je kan altijd meer onderzoeken en nog een stap verder.
Discussie over feiten en afbakening, ga dat niet uit de weg.
Het is belangrijk dat je die discussie op tafel krijgt
in plaats van dat die onder tafel blijft.
Het staat niet gelijk aan snellere besluitvorming.
Scherp formuleren van de vraag is essentieel
en het delen van data tussen meerdere organisaties kan complex zijn.
Het laatste onderwerp gaat over: 'Waar kan ik hulp halen
als ik aan de slag wil gaan met datagedreven werken?'
Op de eerste plaats is er een overschot aan cursussen, opleidingen, seminars,
workshops, masterclasses op het gebied van datagedreven werken te vinden.
Typ gewoon 'datagedreven werken' en een opleiding erbij
en je wordt overspoeld door een enorme hoeveelheid aanbod.
Daarbij belangrijk is dat je goed moet kijken naar:
wat zijn de verschillende doelgroepen?
Datagedreven werken voor iemand die daadwerkelijk de analyse doet,
gaat meer over het onder de knie krijgen van technische hulpmiddelen,
zoals een R, STATA, SPSS, Python.
Daarnaast is er ook veel opleiding beschikbaar,
voor mensen die juist in staat moeten zijn om de vraag te formuleren.
Het goed stellen van de vraag, op zo'n manier
dat er een datagedreven antwoord uit kan komen,
vergt wel een andere manier van nadenken
dan gewoon maar het stellen van de vraag.
Er is ook expertise om mensen te helpen
om van een vage vraag een scherpe vraag te maken
en te kijken: met welke data kun je een goed antwoord formuleren?
Kortom, er zijn verschillende doelgroepen en uiteraard ook verschillende niveaus.
Als je data zoekt, kun je overspoeld worden door de hoeveelheid.
Maar er zijn een aantal portalen waarbij goed overzicht te vinden is.
Een van de belangrijkste is het Open Data Portaal van het ministerie van BZK.
Die hebben een sleutelrol op het gebied van open data en open overheid
en verzamelen ook heel veel data op hun website.
Die open data is allemaal veilig.
Het is statistiek, geen privacygevoelige data,
dus die is voor iedereen en alle doeleinden veilig te gebruiken.
Daarnaast heb je de open data van het CBS.
En belangrijk, ook de publieke dienstverlening op de kaart
is een dienst van het Kadaster.
Daarbij is veel geografische informatie te vinden.
Al deze data is veilig, kan je zomaar gebruiken
en bijna is allemaal gratis op te halen en te downloaden, met metadata.
Je kan er goed in zoeken.
En vaak is er ook nog hulp beschikbaar,
als je iets meer over die data wil weten.
Het gebruik van microdata van het CBS is ook mogelijk,
onder strenge voorwaarden.
Zoals ik al zei, verzamelen we zeer privacygevoelige informatie.
Daar is informatie over alle Nederlanders in te vinden, over mij, maar ook over u.
Zoals ik al aangaf in het schema met alle soorten data,
ook veel informatie over iedereen.
Daarom is het belangrijk dat we strenge eisen stellen
aan wie er toegang heeft tot die data.
Dat geldt zowel voor de organisatie, die moet goedgekeurd worden,
maar ook voor de onderzoekers van die organisatie.
Die moet laten zien dat ze begrijpen wat de veiligheidsmaatregelen zijn.
En dan kan je inloggen op de systemen van het CBS en daar onderzoek doen.
Op het moment dat wij denken dat het onderzoek afgerond is
en je maakt output die weer naar buiten moet,
controleren wij eerst of het veilig is.
Veel Nederlandse organisaties binnen de overheid zijn ook in staat
om dergelijk onderzoek binnen hun eigen organisatie te doen.
Als je dat wil, kijk op de website van het CBS.
Het is niet het makkelijkste proces, maar het kan je wel erg helpen.
Daarnaast is hulp bij projecten bij het doen van analyses ook mogelijk.
Je kunt dan bij het CBS terecht. Als je prognoses en toekomstvoorspellingen wil,
kun je ook bij een planbureau aankloppen.
Die zijn wel bedoeld om prognoses te maken
en je kunt ook hier weer hulp halen bij het bedrijfsleven.
We zien dat er veel partijen in de Nederlandse samenleving
bezig zijn met datagedreven werken.
En we hebben gepoogd om die bij elkaar te brengen in een data-ecosysteem.
Hier proberen we zowel universiteiten als hogescholen,
die ook meer naar de bestuurskundige of bedrijfsmatige kant
van datagedreven werken kijken, te koppelen aan bedrijfsleven
dat inhoudelijke voorspellingen mag doen, maar ook beleidsuitspraken,
het CBS met de datapropositie
en andere overheden die de vraagkant vertegenwoordigen.
De bedoeling is: hoe kunnen we samen de Nederlandse samenleving
een stap laten maken op het gebied van verder datagedreven werken.
Ook daar is voor veel partijen hulp te halen.
We hebben ook een website waar je terecht kan.
Samenvattend: waar kan ik hulp halen?
Inhoudelijke keuzes en opleiding, een scala wordt aangeboden.
Kijk naar de rollen en het niveau.
Er zijn verschillende portalen waarin je open data en statistiek kan vinden.
Gebruik van microdata kan ook, maar wel onder voorwaarden
en vergt ook de nodige kennis en ervaring om goed mee om te gaan.
Hulp bij projecten is mogelijk en kijk ook naar het data-ecosysteem.
Ik zie nog een vraag van de heer of mevrouw Ploem:
'Heb ik goed begrepen dat het CBS in principe geen extra data verzameld
voor specifieke vragen,
maar wel beschikbare data kan combineren daarvoor?'
Ook hier is het antwoord weer ja en nee.
We verzamelen wel degelijk af en toe nieuwe data.
We doen nog steeds enquêtes. Er is nog steeds bepaalde informatie
die we niet kunnen halen uit de registers en administraties.
We doen bijvoorbeeld enquêtes op het gebied van:
hoe veilig voelen mensen zich in de buurt?
Of op het gebied van verkeer en vervoer.
Het is mogelijk om bij dat soort enquêtes specifieke vragen toe te voegen
die te maken hebben met een beleids- onderwerp waar iemand mee bezig is.
Ik kan me indenken dat we bij verkeer en vervoer dingen toevoegen als:
'Wat is het doel van deze rit,' als het over auto's gaat.
Daarnaast is iets mogelijk in de vorm van oversampling.
Als wij een enquête uitsturen, willen we een landelijk dekkend beeld krijgen.
Zo doen in een bepaalde gemeente
misschien maar een of twee huishoudens mee.
Als je ook iets over die specifieke gemeente willen zeggen,
moet je veel meer huishoudens in die gemeente selecteren
om mee te doen aan die specifieke enquête.
Dit heet oversampling.
Dat kunnen we doen en daarmee krijg je dus een beeld van die gemeente.
Het gaat hier over het extra stellen van vragen
of het extra meenemen van mensen in een bepaalde enquête.
Het gebeurt zelden dat we een nieuwe enquête opzetten.
Het gebeurt nog weleens dat we nieuwe data uit administraties
en registraties proberen te krijgen als dat nodig is
om op een belangrijke beleidsvraag antwoord te geven.
Maar dit is wel een zeldzaamheid.
Er zijn databronnen in Nederland waar het CBS geen toegang toe heeft
die bijvoorbeeld wel beschikbaar zijn binnen de overheid,
maar ook bij partijen in het bedrijfsleven of buiten de overheid.
Als we die data nodig hebben om aan een beleidsvraag te kunnen voldoen,
zullen we kijken of we daarbij kunnen komen, maar we kunnen dat niet opeisen.
We kunnen nooit garanderen dat we dat beschikbaar krijgen.
Dan afsluitend:
voor dit webinar heb ik nog een aantal nuttige bronnen verzameld
en ik kan deze sheet even laten staan.
Ik heb hier een aantal bronnen met daarbij de internetadressen
waar aanvullende informatie te vinden is, verspreid over een aantal onderwerpen.
Een aantal ervan verwijzen naar de website van het CBS,
maar ook PDOK, wat ik al noemde, en data.overheid.nl bij het BZK.
En hier staat ook het data-ecosysteem bij, dat,
hoe kan het ook anders, te herkennen is aan data-ecosysteem.nl.
Als u deze informatie wil bewaren,
ik weet niet waar deze presentatie nog openbaar wordt gemaakt.
Ik raad u al snel even een foto te maken van het scherm.
En dan wil ik u allemaal hartelijk bedanken voor uw kijken naar dit seminar.
Als u aan de volgende seminars wilt deelnemen,
heeft u hier een scherm waarop u uw deelname kunt bevestigen.
Ik wens u verder veel succes
met het opstarten van beleidsgedreven datawerken in eigen praktijk.
Hartelijk dank.