“Benader een transitie als een platform, niet als een proces”

“Benader een transitie als een platform, niet als een proces”

Digitale transformatie bij KOOP

Op onvermoede plaatsen en omgevingen die zich doorgaans aan onze waarneming onttrekken, vinden er digitale transformaties plaats. Zeker op het gebied van data en databases. Zo nam kennisorganisatie KOOP afscheid van hun documentensilo’s en stapte over naar één documentenopslag.

Het Kennis- en exploitatiecentrum Officiële OverheidsPublicaties (KOOP) is verantwoordelijk voor de dagelijkse publicatie van overheidsinformatie in Nederland. KOOP valt onder het ministerie van Binnenlandse Zaken en Koninkrijksrelaties. Met ingang van 1 juli 2009 (Wet Elektronische Bekendmakingen) werd papier vervangen door digitaal. De Staatscourant, het Staatsblad en het Tractatenblad verschijnen derhalve alleen nog in elektronische vorm. Hiervoor gebruikt KOOP drie portalen: officielebekendmakingen.nl, overheid.nl en wetten.nl. Publicaties van ruim 1000 (semi)overheidsorganisaties vinden zo hun weg naar het publiek.

 

Uitdagingen

Matthijs Breebaart, Senior adviseur content, beschrijft de uitdagingen voor KOOP, zoals het belang van accuratesse. “Wanneer een wet, besluit of andere officiële bekendmakingen niet correct wordt gepubliceerd, komt de geldigheid ervan in het geding. Ook moeten publicaties tot minimaal twintig jaar na dato bereikbaar blijven voor iedereen. Het mag dus absoluut niet gebeuren dat wanneer wij een systeemonderdeel upgraden één of meer plugins niet meer werken. Alles, van een internationaal verdrag tot aan een wegafsluiting in een Nederlands dorp, moet beschikbaar zijn en blijven. Juridische professionals maken uitvoerig gebruik van onze website over wetgeving, wat een enorm uitgebreid archief heeft dat teruggaat tot de 19de eeuw. Volgens de wet moeten wij PDF/A gebruiken als standaardformaat voor de publicaties. Aangezien dit geen eenvoudige standaard is, maakt dit ons leven er niet gemakkelijker op.”

 

Stevige requirements

KOOP hanteert XML Schema om de indrukwekkende hoeveelheden – jaarlijks 250.000 publicaties en meer dan 12 miljoen bezoekers – in goede banen te leiden. Een en ander moet voldoen aan hoge standaarden van toegankelijkheid, authenticiteit en bewaring. Daar komt nog bij dat de complexiteit van de te publiceren documenten toeneemt. Denk daarbij aan geo-informatie en relaties tussen documenten. Met dit in het achterhoofd besloot KOOP in 2015 tot de overstap naar de databasetechnologie van MarkLogic. Het streven was om met het nieuwe systeem vanuit één bron te publiceren. Breebaart schetst de situatie vóór de overstap: “Als applicatieframework hadden we voornamelijk .Net met enkele stukjes Java. Er was een XML-bewuste opslaglaag, al veranderden we wel richting een meer service oriented architectuur. De zoekfunctionaliteit beheerden we deels in huis en was deels uitbesteed. Hosting was uitbesteed aan een dedicated hostingprovider. Wij slaan content namelijk niet op in de cloud. Vanuit het streven naar snellere time to market van onze producten, zoals apps, dachten wij dat slimme mensen uit Californië wel het loodgieterswerk voor ons konden regelen, om zo onze infrastructurele problemen op te lossen. Daarom wilden we dat alle XML-spullen terecht moest komen in een omgeving die XML ‘begrijpt’. Ook wilden we dat security, authenticiteit, betrouwbaarheid, schaalbaarheid ingebouwd zouden zijn. Dit zijn allemaal belangrijke issues, omdat een overheidsorganisatie soms iets ad-hoc wil publiceren. Denk aan een subsidieregeling die uitgefaseerd moet worden, omdat onvoorzien teveel mensen een aanvraag indienen. Het besluit een dergelijke subsidie te beëindigen, wordt van kracht op de dag van de publicatie. Omdat er dus veel geld kan zijn gemoeid bij de publicaties, zijn onze systeemrequirements bijzonder strikt.”

 

Doelstellingen

MarkLogic won de Europese aanbesteding voornamelijk vanwege het integratieniveau van opslag, search, semantiek en geo. Een van de belangrijkste doelstellingen van KOOP was het samenbrengen van alle bestaande documentensilo’s in het nieuwe systeem. Breebaart: “We hebben het hier over ongeveer 3 miljoen XML-documenten die zich letterlijk ‘all over the place’ bevonden, in verschillende systemen, databases. Dit wilden we allemaal in één documentenopslag hebben. Daarbij was het voor ons belangrijk om de bestaande KOOP-repository in stand te houden, wat volgens het zogeheten FRBR-model werkt (Functional Requirements for Bibliographic Records). Ook wilden wij een SRU interface hebben, search & retrieve via URL. Dit was niet beschikbaar in het systeem, dus dat moesten we zelf bouwen. We hebben min of meer het FRBR-model in de nieuwe database geïmplementeerd. Dit model kan by-design verschillende versies en formats hanteren.”

 

Enkelvoudige opslag

De wellicht enigszins naïeve gedachte van KOOP was, om alles in het nieuwe systeem te gooien. “Dat werkte niet goed”, herinnert Breebaart zich. “Om precies te zijn, het werkt wel, maar het presteert niet. Het is echt zaak om het binnenste van MarkLogic goed te begrijpen. Pas als je het begrijpt, krijg je het goed aan de praat. Vanaf dat moment konden we onze verschillende dataverzamelingen uit de verschillende silo’s onderbrengen in de enkelvoudige opslag. Dat betreft enorme hoeveelheden data, zoals de hele geschiedenis van het Nederlandse Parlement van 1814 tot 1995 in verschillende formats. Veel moest worden geconverteerd. Een van de mooie elementen van het nieuwe systeem is dat je tijdens een conversie import proces, de tijdelijke resultaten in het systeem kan opslaan. Je heb dus niet langer allerlei temp-files meer op usb-drives en zo. Op die tijdelijke resultaten kun je vervolgens queries doen, zodat je daarmee verder kunt werken. Het is een soort van iteratieve manier van converteren.”

Geo-informatie wordt ook voor KOOP steeds belangrijker, maar is bepaald niet eenvoudig te managen. Breebaart: “Een bezoeker van één van onze websites kan als zoekopdracht ingeven: ‘alles overheidsbeslissingen die betrekking hebben op mijn huis en een straal van 500 meter daaromheen’. Geo is complex omdat er heel veel verschillende manier bestaan om een locatie te beschrijven. Wij zijn wat dit aangaat veeleisend, en MarkLogic wordt weliswaar steeds beter hierin, maar het systeem is nog niet waar het volgens ons moet zijn.”

 

Platform

Geen enkele grote transitie verloopt zonder hobbels, maar over het algemeen concludeert Breebaart dat de overstap een substantiële verbetering heeft opgeleverd. “Digitale transformatie is een lange termijn inspanning. Benader het als een platform en niet als een project. Stop voldoende energie in het op orde krijgen van de zaken in de basis. Als daar iets niet klopt, heb je daar nog lange tijd last van.”

 

Dit artikel is geschreven op basis van de presentatie die Matthijs Breebaart gaf tijdens het MarkLogic 360 event, op 31 mei.