“The data tipping point is now”

“The data tipping point is now”

Hadoop Summit laat zien dat technologie nu volwassen is

We naderen met rasse schreden het moment dat in grote bedrijven het merendeel van de data niet meer in silosystemen zoals ERP en CRM staat. In plaats daarvan komt het samen op een platform dat deze gestructureerde ‘data in rest’ combineert met ‘data in motion’ afkomstig van sensoren, wearables, clickgedrag op websites, social media en wat dies meer zij. Tien jaar na de lancering van de open source software Apache Hadoop wordt deze technologie door de meerderheid van de multinationals omarmd. ICT/Magazine bezocht de Europese Hadoop Summit in Dublin om te ontdekken waar we staan.

Voor de Amerikaanse Hadoop Summit in San José hebben zich 45.000 mensen ingeschreven, in Europa bezochten 1500 mensen het evenement. Het laat zien dat het open source big data storage platform aan de andere kant van de oceaan een stuk populairder is. Maar ook in Europa neemt de adoptie nu snel toe. 75 van de 100 grootste retailers in Europa zet Hadoop in, net als 55 van de 100 grootste financiële dienstverleners en de acht grootste telecombedrijven. In Dublin vertelden bedrijven als LinkedIn, Spotify, British Gas, Zurich Insurance en ons eigen KPN hoe zij op Hadoop-platformen hun grote verscheidenheid aan data laten landen en vervolgens al dan niet real-time analyseren en gebruiken om honderdduizenden tot miljoenen beslissingen per dag geautomatiseerd te nemen.

Rob Bearden, CEO van Hadoop-distributeur Hortonworks en organisator van de Europese Summit, concludeert dan ook: “We zitten nu op het moment dat bedrijven echt waarde gaan halen uit hun Hadoop-platformen. Het is niet meer iets van een klein groepje mensen binnen een bedrijf. Initiatieven om data op nieuwe manieren te gaan inzetten worden nu gesteund door de top van het bedrijf. We praten over ‘business model transformation’.”

Datagedreven cultuur

Dat deze transformatie voor veel ‘oude’ bedrijven lastig is, werd ook duidelijk. Kamelia Benchekroun van Renault vertelde eerlijk dat de autofabrikant veel kansen ziet en daarom vanaf 2014 investeert in een datameer op basis van Hadoop, maar dat de weg van een Proof of Concept naar de productieomgeving lastig is. Renault ervaart problemen op meerdere gebieden: er is geen goede governance op de data in het datameer. Daarom wil de organisatie ook nog niet dat de nieuwe, met name streaming data wordt gecombineerd met de data in het datawarehouse, waar wel zeer strikte policies op van toepassing zijn. Dat Renault daar voorzichtig mee omgaat vindt Benchekroun logisch, maar ze is ook bang dat hierdoor oponthoud ontstaat en dat de streaming data in het datameer en de meer statische data in het datawarehouse te lang twee op zichzelf staande werelden zullen blijven. Terwijl de meerwaarde juist zit in het combineren van die verschillende typen data. “De top van de organisatie heeft een duidelijke visie neergelegd op het gebied van de connnected car en de connected factory, maar medewerkers op de werkvloer hebben onvoldoende idee waarom we hiermee bezig zijn. Het ontbreekt in onze organisatie aan een datacultuur.”

Royal Mail heeft die cultuur wel weten te creëren, vertelt Thomas Lee-Warren van deze Britse postbezorger. “Je moet big data niet aanvliegen als technisch project, maar als cultuurverandering. Je moet medewerkers meenemen in waarom je hierin investeert.” Dat heeft Royal Mail goed gedaan. “Er is in ons bedrijf een andere manier van denken over data ontstaan sinds we op ons Hadoop-platform alle databronnen kunnen combineren. Voorheen waren medewerkers die data gebruiken misschien 10 procent van hun tijd productief bezig, de rest van de tijd ging op aan data van het ene systeem in het andere laden en weer terug. Nu is dat percentage omgedraaid. Doordat we nu één platform hebben waar alles op landt, voelen mensen zich vrij om data te gaan onderzoeken, om op zoek te gaan naar verbanden tussen data die voorheen in verschillende systemen stonden en dus nooit in samenhang zijn onderzocht. Afdelingen steken elkaar ook aan. Een van de eerste successen was het verbeteren van onze churn-modellen. We kunnen aan de hand van analyses van real-time klantgedrag nu met veel meer zekerheid voorspellen welke klanten om welke reden willen opzeggen. We spelen daar nu proactief op in en dat effect zien we direct onderaan de streep.”

Royal Mail is volgens Bearden dan ook een goed voorbeeld van hoe je verschillende soorten data uit verschillende typen systemen – statische en streaming data – kunt combineren om zo beter in te spelen op klantwensen. “De driver voor veel organisaties is dat ze willen kunnen voorspellen wat er gaat gebeuren, zodat ze proactief actie kunnen ondernemen in plaats van achteraf geconfronteerd te worden met voldongen feiten. De trigger is vrijwel altijd betere klantbeleving. Soms direct, doordat je real-time inspeelt op klantgedrag, soms indirect door het leveren van een betere dienstverlening.”

Real-time data-analyse

Dat is ook de manier waarop KPN naar big data analytics kijkt, vertelt Fred Heukels. Hij zat in het Hortonworks klantenpanel op de Hadoop Summit. “Onze organisatie heeft een aantal speerpunten, waaronder het verbeteren van de customer experience. We zetten Hadoop in om twee werelden die voorheen gescheiden waren bij elkaar te brengen. Het Internet of Things speelt daarbij een belangrijke rol. Enerzijds krijgen we via sensoren real-time informatie over hoe onze netwerken presteren. Anderzijds beschikken we over real-time data over het gedrag van klanten. Door deze twee werelden te combineren kunnen we veel beter beoordelen waar we onze netwerkinvesteringen op moeten focussen.”

Heukels’ collega Patrick de Vries mocht een dag later tijdens een parallelsessie uitleggen hoe KPN dat doet. “We exploiteren natuurlijk verschillende netwerken: GSM, GPRS, UMTS, LTE, ons nieuwe LoRa-netwerk (Long Range Low Power) voor het transport van IoT-data. Ons doel is dat we deze netwerken self-organizing maken, wat betekent dat ze zelf kunnen berekenen waar ze de capaciteit inzetten. Hier komt een aantal technologieën en concepten bij elkaar: network analytics, real-time trouble shooting, capaciteitsmanagement, predictive analytics op het gebied van klantgedrag, machine learning. Doel is dat we op termijn in staat zijn niet meer achteraf te constateren dat een netwerk in een bepaalde regio tijdelijk overbelast was, maar om vooraf te voorspellen dat dit gaat gebeuren en daar proactief op in te spelen.”

Hoewel het uiteindelijke doel het verbeteren van de klantervaring is en daarmee het verlagen van de churn, heeft KPN de businesscase gebaseerd op het verlagen van de Total Cost of Ownership van de netwerken door gerichter te investeren. “Het is wel zo dat we dit traject breed insteken, maar we beginnen met beter bepalen waar we de investeringen in het netwerk op moeten richten.”

 

Techniek is niet moeilijk

En dat is al complex genoeg, weet Heukels. “De techniek is eigenlijk van alles het meest eenvoudige onderdeel. Dat bestaat uit drie hoofdcomponenten: LoRa waarmee we netwerkdata realtime binnenhalen; het Hortonworks Data Flow-platform (HDF), een op Hadoop gebaseerde oplossing die specifiek geschikt is voor data-in-motion; en een hele set aan analytische tooling. Die techniek werkt gewoon. De complexiteit zit veel meer in organisatorische aspecten. Bijvoorbeeld het opzetten van een goede data-governance.”

KPN heeft in policies vastgelegd wie welke data op welke manier mag gebruiken. Die policies worden volautomatisch uitgevoerd. Een van de uitgangspunten is dat de afdelingen die zich bezighouden met verbeteringen aan het netwerk veel meer mogen met data over klantgedrag dan de marketingafdeling. Voor marketing gelden hele strikte regels, zelfs als klanten een opt-in hebben gegeven.”
Naast data-governance is ook de beschikbaarheid van medewerkers met de juiste capaciteiten een continu aandachtspunt, volgens De Vries. “We hebben mensen genoeg met ervaring in BI, maar dat is toch wat heel anders dan het speelveld dat we nu betreden. BI-specialisten zijn niet automatisch ook goed in big data analytics. Het is echt een andere manier van denken en het vergt dus ook heel andere vaardigheden van medewerkers. Natuurlijk laten we ons bijstaan door externe partijen zoals Hortonworks, maar de basis willen we zelf beheersen. De keus om te investeren in big data is een strategische. We zien de uitvoering van die strategie als een kerncompetentie die we in eigen huis moeten ontwikkelen.”

Niet outsourcen

Dat is ook het advies dat Bearden de bezoekers van de Hadoop Summit meegeeft: “We horen vaak: data is de nieuwe olie, maar misschien gaat het nog wel verder. Want dit raakt je hele bedrijf, van inkoop en productie tot marketing en sales. En het raakt iedere industrie, van landbouw tot de zorg en van productiebedrijven tot zakelijke dienstverleners. Je kunt je big data strategie dan ook niet door een extern adviesbureau laten ontwikkelen, dat moet je echt zelf doen. Natuurlijk kun je expertise inkopen die je helpt bij de implementatie, en dat is ook wel verstandig als je snelheid wilt maken. Maar de kern kun je niet uitbesteden. Ga zelf aan de slag.”

Nieuwe ontwikkelingen vanuit de Apache Software Foundation

De groep mensen die een bijdrage levert aan de ontwikkeling van nieuwe open source software groeit. De Apache Software Foundation werkt aan maar liefst 350 open source projecten en initiatieven. Dit heeft geleid tot een aantal belangrijke verbeteringen en vernieuwingen:

  • Apache Metron, een oplossing voor Security Incident Event Management. Metron ontdekt op basis van data-analyse razendsnel ongeautoriseerde events, zoals bijvoorbeeld malware, en voorkomt dat deze verder kan verspreiden.
  • Apache Atlas, een product om meer grip te krijgen op de governance van data in het datameer. Atlas maakt het mogelijk om data te labelen en daar volautomatisch security policies op toe te passen. Denk bijvoorbeeld aan policies voor Personal Identifiable Information (PII), geodata of tijd gebaseerde data.
  • Apache Zeppelin, een browser gebaseerde user interface voor Spark die veel betere datavisualisatie mogelijk maakt en daarmee zeer geavanceerde analytics ondersteunt.
  • Een nieuwe versie van CloudBreak (versie 1.2) die het mogelijk maakt om eenvoudig een datameer in de hybride cloud te deployen. De software ondersteunt alle IaaS-platformen: Amazon, Google, Microsoft Azure. Zo wordt het eenvoudig om bij capaciteitstekort in de eigen private cloud uit te wijken naar de public cloud.
  • Apache Nifi, een eenvoudige gebruiksinterface waarmee je data kunt distribueren naar verschillende systemen. Op een visuele manier kun je als gebruiker aangeven welke data waar moet worden gebruikt.