“Kansen van big data benutten voor officiële statistiek”

Zuyd

Big data kunnen bijdragen aan het maken van betrouwbare en tijdige statistieken. Dit stelt Prof. Piet Daas, hoogleraar aan de Technische Universiteit Eindhoven. Hij is daarnaast ook senior onderzoeker bij het CBS. “We kunnen met big data nog veel meer dan we nu doen’” betoogt hij tijdens zijn oratie.

<h4>Nieuwe denken</h4>
Elk uur van de dag worden enorme hoeveelheden data geproduceerd door elektronische apparaten zoals telefoons. Maar ook online door mensen zelf: big data. Bij zijn aanstelling in 2019 als bijzonder hoogleraar Big Data in Official Statistics bij de TU/e stelde Daas al dat big data enorme kansen bieden voor de officiële statistiek. Mits enkele fundamentele vragen beantwoord kunnen worden.

De officiële statistiek begon ooit met het simpelweg tellen van mensen, banen, bedrijven et cetera. Toen kwam de steekproef, waarbij het uitgangspunt werd: verzamel alleen die gegevens die je echt nodig hebt. “Bij de inzet van big data is die benadering anders’” legt Daas uit. “Om van big data officiële statistiek te maken, heb je juist zoveel mogelijk gegevens nodig.” Het is een voorbeeld van een punt waar het ‘oude denken’ en het ‘nieuwe denken’ met elkaar botsen. Tevens maakt het onderdeel uit van de fundamentele vragen waar Daas zich dagelijks mee bezig houdt.

<h4>44 Pilots en prototypen</h4>
Bij traditionele statistiek werk je vanuit een zeer stevige gevestigde theorie. Bij statistiek op basis van big data is het juist andersom. Je begint dan bij de data, die je in overvloed hebt. Maar een theorie is er vaak (nog) niet. Daas noemt in zijn oratie de 44 pilots en prototypen die in de afgelopen jaren zijn uitgewerkt door diverse organisaties. Maar vooral ook door het CBS.

Zes van die projecten zijn inmiddels in productie genomen. “Lang niet alles wat we proberen blijkt geschikt of stabiel genoeg. Je kunt voor de statistiek over consumentenprijzen gemakkelijk informatie van het internet halen over de ontwikkeling van de prijs van een pak melk over een bepaalde periode. Dat is directe waarneming, die verloopt vrijwel probleemloos. Maar bij afgeleide vormen van waarneming is het ingewikkelder om tot een stabiele productiemethode te komen.”

<h4>Trots op vooruitgang</h4>
Dat de inzet van big data veel vragen oproept, is interessant volgens Daas, maar alleen als er ook antwoorden komen. Dat gebeurt gelukkig. Inmiddels is er een methode ontwikkeld om te corrigeren voor de instabiele waarneming bij de statistiek over online platformen. “Daar hebben we voldoende controle ingebouwd door de big databron te combineren met een traditionele manier van dataverzameling en een model ontwikkeld dat de noodzakelijke correcties kan uitvoeren. Dat is een grote stap vooruit, want dat model is breed toepasbaar. Daar ben ik erg trots op.”

Ook het gebruik van satellietfoto’s als big databron is toepasbaar gebleken voor officiële statistiek en het gebruik ervan kan nog uitgebreid worden. Daas denkt nu mee over de doodsoorzakenstatistiek: “Dat is een statistiek die veel handwerk met zich meebrengt, omdat het vaak lastig is volledig geautomatiseerd tot de juiste resultaten te komen. Datascience zou daar kunnen bijdragen door de woorden die gebruikt worden op de formulieren die de artsen invullen nauwgezet te analyseren.” Ook bij het combineren van big data met andere databronnen wordt vooruitgang geboekt. Dat zal de inzet van big data in de toekomst veel breder toepasbaar maken.

Gerelateerde berichten...