Hadoop weet raad met de zee aan data

Mirjam Hulsebos portret

De technologie bestaat al een tijdje, maar erg volwassen was Hadoop nog niet. Jonge digitale bedrijven laten al enkele jaren zien welke waarde er verborgen ligt in data. Dit zijn bedrijven zonder legacy en met een uitstraling die dataengineers en datascientists aantrekt.

Tot voor kort moest je in de enterprisemarkt de big data cases met een lampje zoeken. Dat verandert nu snel, zo ontdekten wij op de Hadoop Summit 2015 in Brussel.

Het is de derde Europese Hadoop Summit. De eerste twee jaar – met respectievelijk 400 en 800 bezoekers – was Amsterdam de gaststad. Dit jaar was er een grotere locatie nodig. De meer dan 1300 bezoekers werden nu ontvangen in het congrescentrum in het hart van Brussel.

Waar andere jaren de praktijkcases nog kwamen van bedrijven die nog geen tien jaar bestonden, waren het dit jaar juist de aloude brick-and-mortar-bedrijven die voor de interessantste verhalen zorgen.

 

Nieuw paradigma

De eerste traditionele organisaties investeren nu in big data technologie zoals Hadoop, omdat dat ze aanlopen tegen de beperkingen die bestaande applicaties met zich meebrengen. Die hebben allemaal hun eigen datasilo. Omdat die verschillende databases zich alleen met veel moeite laten integreren, wordt er veel te weinig meerwaarde gehaald uit het combineren van verschillende databronnen. Dat wordt een drempel nu we ‘the new paradigm of data’ betreden: het tijdperk van de datagedreven organisatie. Organisaties ontdekken dat er naast de data in ERP, CRM, HRM en wat dies meer zij veel meer data is die waarde kan leveren aan de business. Die data is grofweg onder te verdelen in twee groepen:

1. Sensordata gegenereerd door the Internet of Things. Denk aan data over slijtage van machineonderdelen, temperatuurmetingen, vochtigheidsmetingen, hartslag enzovoort.
2. Data over klantgedrag: doorclicks op artikelen in een e-mailnieuwbrief, opgevraagde webpagina’s, winkelmandjes die worden gevuld en vervolgens onbeheerd worden achtergelaten, productrecensies, telefoontjes naar het call center.

De bestaande relationele databases kunnen niet omgaan met deze nieuwe bronnen. Een ERP-systeem legt wel een aankoop vast, maar kan niet een gevuld winkelmandje achterhalen. Bovendien hebben die databases vaak moeite met het real-time gedrag van de data, die als een continue stroom op je afkomen. En de licentiemodellen lenen zich er niet voor de databases op te schalen, dat is simpelweg te duur.

Dit is precies het gat dat Hadoop vult. Het is technologie waarmee je op basis van gestandaardiseerde hardware op een heel goedkope manier opslagcapaciteit realiseert. Hadoop maakt het bovendien mogelijk om allerlei soorten data op één platform op te slaan, zonder je vooraf druk te hoeven maken over metadata, data governance enzovoort. Natuurlijk, deze aspecten worden heel belangrijk als je de data wilt uitnutten, maar ze spelen bij de opslag nog geen rol. Gooi alles maar op één hoop – het zogenaamde datameer – dat is de gedachte achter Hadoop.

 

Rotterdamse haven verbetert inzicht

Eén van de sessies op de Hadoop Summit werd verzorgd door Port of Rotterdam. Frank Cremer werkt als consultant voor het havenbedrijf en helpt hen bij de transformatie naar een meer datagedreven organisatie. De belangrijkste vraag die de Rotterdamse havenmeesters dagelijks bezighoudt is: waar bevinden zich de schepen die de komende uren gaan aanmeren? Wat is hun snelheid en wat is met die snelheid de verwachte aankomsttijd? Cremer schetst de uitdaging: “Het grootste containerschip bevat 18.000 containers. Die moeten allemaal verder worden getransporteerd naar hun eindbestemming. Via de weg, het spoor of het water. Hoe beter wij het vervolgtransport laten aansluiten op de aankomst van het schip, hoe sneller goederen door de supply chain gaan en hoe duurzamer wij als haven opereren.”

Ieder schip is daarom voorzien van een transponder die belangrijke data doorstuurt naar het Radar and Control Station aan wal, vergelijkbaar met de luchtverkeerstoren op Schiphol. Vroeger was deze ‘verkeersregelaar’ afhankelijk van radarinformatie. Nu wordt de radar alleen nog gebruikt als back-up voor het geval een transponder uitvalt. De transponderdata worden allemaal verzameld op een Hadoop cluster. “We hadden ook voor andere technologie kunnen kiezen, want het gaat om gestructureerde data.

Ook gaat het niet eens om zo heel veel data. Het enige wat misschien afwijkt van andere datatypen waar wij mee werken is dat deze data iedere tien seconden binnenkomt en dat het ons natuurlijk gaat om het real-time karakter daarvan. We hadden voor ons doel ook kunnen kiezen voor een geospacial database. Maar omdat er geen standaardoplossing bestond waar wij mee uit de voeten konden, was er aanvullend maatwerk nodig. Bovendien was deze oplossing vrij duur omdat je dedicated hardware nodig hebt. Het grote voordeel van Hadoop is dat dit op gestandaardiseerde hardware draait en daardoor erg goedkoop is.”

Je hebt specialistische kennis nodig om zo’n Hadoop cluster te bouwen en vervolgens analyses los te laten op de data. Om niet zelf het wiel uit te vinden, maakt Port of Rotterdam gebruik van de KPN cloud-dienst Hadoop-as-a-Service. Dit platform draait op zijn beurt weer op het Hortonworks Data Platform (HDP). Cremer had zelf de nodige kennis, maar riep toch de hulp in van een specialist, Mansour Raad, big data specialist bij ESRI. Samen hebben ze met een team van Port of Rotterdam in drie weken tijd de basisoplossing ontworpen.

Naast het Hadoop-platform waarop alle data worden verzameld, bestaat dat uit een ESRI analyseplatform en ArcGIS tooling waarmee gebruikers zelf eenvoudig analyses kunnen maken. Ze kunnen met de muis op een kaart een gebied aftekenen en in dat gebied de verkeersstromen inzichtelijk maken. Dat is de belangrijkste toepassing op dit moment. “Het is nu vooral een oplossing om real-time te zien wat er gebeurt,” zegt Cremer. “De volgende stap is om predictive analytics toe te passen, dus voorspellende analyses zodat we kunnen ingrijpen voordat zich bijvoorbeeld een opstopping voordoet.”

 

Voorverpakken van Hadoop

Port of Rotterdam koos voor Hadoop-as-a-Service, waar Fred Heukels productmanager van is. “We leveren deze dienst intern aan KPN business units en extern aan klanten,” vertelt hij. “We werken intensief met partijen die het analytics-deel voor hun rekening nemen. Wij leveren het platform waarop bedrijven alle data kunnen verzamelen, maar verzamelen is natuurlijk slechts de eerste stap. Het gaat er uiteindelijk om dat je slimme beslissingen neemt en daarvoor heb je analytische tooling nodig. Door samen te werken met partijen uit dat veld kunnen we nog weer een stap verder gaan in het voorverpakken van diensten, zodat klanten minder technische kennis nodig hebben om ermee aan de slag te gaan.”

Dat voorverpakken is precies waardoor de open source software Hadoop zo populair wordt bij traditionele bedrijven. De eerste stap in dat proces wordt geleverd door distributiepartijen zoals Hortonworks, Cloudera en MapR. Het Hortonworks Data Platform (HDP) is een voorbeeld van zo’n voorgeconfigureerde dienst. Het blijft echter een breed inzetbaar platform, zonder enige vorm van preconfiguratie.

Daarom werken deze distributiepartijen samen met partners die de vertaalslag maken naar bepaalde branches of een bepaald type klantwensen. Zoals Dan Holle van SAP het verwoordt: “Hadoop is de motor in de auto die wij verkopen. De motor is generiek, onze auto is gestandaardiseerd maatwerk. Hadoop is een zeer kosteneffectieve manier om data op te slaan. Maar de echte meerwaarde zit natuurlijk in de diensten daar omheen.”

 

Data governance belangrijk

Fred Heukels mag niet teveel vertellen over de toepassingen die KPN ontwikkelt voor klanten, maar kan wel zeggen hoe de organisatie zelf gebruikmaakt van Hadoop. “Wij meten enerzijds hoe onze netwerken presteren en anderzijds willen we de klant beter begrijpen. Als we dat begrip van de klant kunnen inzetten om bijvoorbeeld te bepalen in welke regio’s de grootste behoefte is aan upgrading van ons netwerk, dan kunnen we beter bepalen waar we investeringen het snelst terugverdienen. Bovendien kunnen we de klantentrouw in die gebieden meer verhogen, want een up-to-date netwerk verkleint de kans dat klanten overstappen naar de kabel.” Die overstapkans wordt ook verkleind door klanten een abonnement te bieden dat beter past bij hun belgedrag. Ook dat vereist het gebruik van netwerkdata gericht op continue verbetering van de klantervaring.
Het is dus duidelijk dat er veel meerwaarde zit in het samenbrengen van deze beide vormen van data op één platform. Maar dat is makkelijker gezegd dan gedaan. “Wij zijn een meer dan 100 jaar oud bedrijf met veel legacy,” vertelt Heukels. “Bovendien is veel van onze data privacygevoelig. We willen klanten eerst toestemming vragen voordat we ze aanbiedingen toesturen of de data anderszins gebruiken. Als je alle klantdata in zo’n datameer op Hadoop-clusters opslaat, hoe zorg je dan voor die governance? Hoe beheer je dat de data alleen wordt gebruikt op de manier waarvoor klanten toestemming hebben gegeven? Die governance is echt een helse klus.”

Daarom begint het bedrijf met het samenbrengen van data op het niveau van de business units. Iedere business unit legt vast wie welke data mag inzien, wie welke data mag gebruiken en welke policies van toepassing zijn. Bij veel handelingen wordt het vier-ogen-principe toegepast (degene die goedkeuring geeft, is een ander dan de persoon die de data gebruikt), maar bij zeer privacygevoelige data geldt het zes-ogen-principe. “We gaan met data om op een manier zoals een bank met geld omgaat. Althans, we zijn druk bezig dat in te voeren. Omdat we zorgvuldig met data willen omgaan, kunnen we niet altijd het tempo maken dat we graag zouden willen. Desondanks beginnen we met een goede datastrategie. Die vertalen we in policies en pas dan kunnen we de vertaalslag maken naar de operatie.”
Het advies dat Heukels geeft aan andere organisaties die eerst hun data governance op orde willen maken is: zorg voor sponsorschap vanuit de Raad van Bestuur en stel een Chief Data Officer aan die als een soort van datahoeder toeziet op de strategie en het beleid. “Wij hebben nog geen CDO, deze functie is nu nog in de business units belegd. Op het moment dat we echt één datameer voor de hele organisatie aanleggen, dan ontkomen we niet aan één centrale eindverantwoordelijke.”

 

Open Data Platform

Het zijn stappen op weg naar volwassenheid qua omgang met data. Ook op technologisch gebied groeit de volwassenheid. Dit uit zich bijvoorbeeld in de oprichting van het Open Data Platform. Enkele bedrijven die een Hadoop-oplossing bieden, hebben afgesproken om allemaal met dezelfde versie te gaan werken: Hadoop 2.6. Aangezien deze partijen in projecten vaak met elkaar samenwerken, verlopen projecten voorspoediger omdat iedereen gebruikmaakt van dezelfde standaardversie. Dat standaardisatie kan helpen bij het versnellen van de transformatie van een industrie laat de transportsector zien. Door containers te standaardiseren naar een vaste afmeting kunnen schepen sneller worden geladen en gelost en passen meer containers op een schip. Bovendien kunnen vrachtwagens flexibeler worden ingezet, want ze zijn voorbereid op de standaardmaat container. ODP brengt hetzelfde effect teweeg. Het stelt de Hadoop community in staat om gezamenlijk producten sneller naar de markt te brengen. Het vergroot bovendien de flexibiliteit. In de community kan men sneller problemen oplossen en klanten kunnen profiteren van de oplossingen die voor andere organisaties zijn bedacht. Ze hoeven niet zelf het wiel uit te vinden.
Initiatieven zoals ODP versnellen de transformatie die nu op gang komt naar een datagedreven economie. Want dat alle bedrijven vroeg of laat datagedreven gaan worden, daarvan zijn alle geïnterviewden overtuigd. Voorverpakte oplossingen en Hadoop-as-a-Service-diensten van diverse ict-dienstverleners maken het steeds eenvoudiger om snel de vruchten te plukken. Kortom, oogsten is geen probleem meer. De grote vraag die overblijft is: weet u waar de vruchten voor uw organisatie hangen?

 

De transformatie door big data analytics

  • Retail: Van mass marketing naar gepersonaliseerde real-time experience
  • Finance: Van dagelijkse risicoanalyses naar real-time trade surveillance, zodat fraude wordt opgespoord op het moment dat deze wordt gepleegd
  • Healthcare: Van standaard behandelingen naar gepersonaliseerde monitoring en behandeling
  • Industrie: Van reactief onderhoud naar proactief onderhoud op basis van actuele data over slijtage
  • Telco’s: Van losstaande klantsilo’s naar een gepersonaliseerde dienstverlening, rekening houdende met jouw bel- en internetgedrag en daar volledig op afgestemd

Gerelateerde berichten...