Big Data: een praktische handleiding

Data staat in de belangstelling. Data is hot. Veel bedrijven die op zoek zijn naar nieuwe mogelijkheden, kansen en uitdagingen, grijpen data aan als onmisbaar hulpmiddel. Veel bedrijven hebben vragen over hoe nu om te gaan met big data. Hoe ver is de concurrent ermee? Waar is dat perfecte systeem waarmee ik een eventuele achterstand kan inlopen? Ook is er grote behoefte aan praktijkcases om ‘de kunst’ bij af te kijken.

Zeker zijn er al bedrijven die ‘iets leuks’ hebben te melden in hun aanpak van big data, maar het merendeel is toch nog vooral naarstig zoekende. De frontrunners kunnen melden dat de uitkomst van analyses de voornaamste output is van big data. Je kunt enorme hoeveelheden perfecte data hebben, maar zonder de juiste analyses heb je er niet erg veel aan. En dit, het doen van de juiste analyses met de juiste data, is bepaald geen sinecure. Om dat goed van de grond te krijgen is, los van specialistische expertise, veel tijd nodig.

Goede balans
Nu kunnen bedrijven een externe dienstverlener inhuren die alles tot in de puntjes regelt. Toch is dat op de lange duur alleen zinvol wanneer het inhurende bedrijf, ook in de eigen kennis en kunde investeert. Hierbij is het de kunst om de goede balans te vinden tussen zelf weten wat je doet en je laten ondersteunen door experts. Met een goede combinatie voorkom je veel nodeloos gerommel en gepruts waar dan ook nog eens weinig of niets bruikbaars uit voortkomt.

Zoals gezegd heeft het starten met big data analyses veel voeten in de aarde. Qua tijd en inspanning bestaat een big data traject voor ongeveer 50 procent uit het verzamelen, combineren en prepareren van data. In deze fase wordt de data omgevormd tot bruikbare informatie gebruikt. Het goed bedenken en interpreteren wat je met deze data wilt, neemt ongeveer 30 procent in beslag en de overige 20 procent wordt besteed aan het analyseren. Deze verhoudingen moeten in de toekomst absoluut worden verbeterd, maar op dit moment is dit de realiteit.

Platform en tools
Zoals vaker bij complexe trajecten, is ook bij een big data traject een goed fundament onontbeerlijk. In dit geval betekent het dat we infrastructuur moeten maken waarop we big data goed kunnen verwerken. Concreet komt dit neer op een Linux platform, met daarop een toolbox waarin tools als Hadoop, Hive, Pig enzovoort zitten. Ook zijn kant en klare oplossingen beschikbaar, zoals Cassandra of Cloudera. Deze gereedschapskisten zijn prima te gebruiken. Naast de toolbox is uiteraard ook iemand nodig die het gereedschap kan gebruiken. Hoewel de moeilijkheidsgraad valt te overzien, moet er wel degelijk worden geprogrammeerd met deze tools. Wanneer bovenstaande stappen zijn gezet, hebben we een systeem ingericht dat de ruwe data en de grote hoeveelheid data voor ons kan omzetten naar beter hanteerbare brokken data. Het blijft weliswaar nog ruwe data, maar het is in ieder geval geordend. Zorg ervoor dat de programmatuur eenvoudig blijft, zodat er veel data verwerkt kan worden en we geen fouten toevoegen in onze data.

 

Voors en tegens
Dan volgt de stap waarin deze ruwe data moet worden omgezet naar data waar we analyses op kunnen uitvoeren. In deze fase komen meer tools in aanmerking om mee te werken en is men niet strikt aangewezen op big data tools. Bekende business intelligence tools als SQL of zelfs het aloude Excel kunnen hier prima diensten bewijzen. Met de big data toolbox is weliswaar veel mogelijk, maar zelf programmeren is hier een vereiste. De onhebbelijkheid van programmeren is dat het specifieke it-kennis vraagt en dat er bij toenemende complexiteit hier en daar foutjes kunnen ontstaan. Het gebruik van de gebruiksvriendelijker BI-tools heeft als voordeel dat het stabiel en overzichtelijk is. Een duidelijk nadeel is dat niet alle mogelijkheden uit de data kunnen worden gehaald, aangezien we big data stoppen in bestaande modellen. Dit heeft zijn beperkingen. In het vervolg beschrijven we vier mogelijkheden om het gulden midden te vinden in deze voors en tegens

1.     De monoliet, keep it simple
Bouw een eenvoudige big data monoliet die maar één functie krijgt. Stel dat je het klikgedrag op een website wilt analyseren. Je kent het systeem van waaruit je werkt, je verzamelt de data die je via logfiles oppikt en daaraan koppel je een eenvoudig analysesysteem. Je kunt dan bijvoorbeeld analyseren hoelang iemand zoekt, waar belangstelling voor is, maar ook bij online games kijken welke wapens gekozen worden enzovoort. Bij de monoliet beperk je de scope van je analyse in omvang. Maak een duidelijke afkadering, zodat je een klein big data analysesysteem overhoudt. Een dergelijk systeem zou je geheel met de big data toolbox kunnen bouwen. Een kleine groep kan werken met dit systeem, bijvoorbeeld een marketingman en een it’er met kennis van de tools.

2.     De combinatie, kijk waar de kansen liggen
Het combinatiesysteem is groter en complexer dan de monoliet. Je combineert hier twee of meer databronnen. Het doel van het combinatiesysteem is bijvoorbeeld het vinden van trends, kijken of bepaalde producten in combinaties gekocht worden, of het voorspellen van je rekeningsaldo. Het combinatiesysteem heeft dus vaak meer dan één doel. Je gebruikt hier meestal een combinatie van tools, dus niet alleen de big data toolbox maar ook de bekende BI analysetools. De groep die hiermee werkt is groter, aangezien veel kennis moet worden samengevoegd, zoals data-analyse, IT , marktkennis, proces- en productiekennis. De resultaten van een dergelijk traject zijn niet heel verrassend, maar kunnen wel mooie en vooral praktische inzichten geven.

3.     Het experiment
Het experiment is erop gericht om vanuit een bepaalde bedrijfsvraag te kijken naar big data. Uitgangspunt is hierbij dat je de vraagstelling over een specifiek onderwerp vanuit Bigdata bekijkt. Je probeert aan te tonen of jouw hypothese klopt of dat er andere conclusies zijn. Het team bestaat uit specialisten die kennis hebben van de hypothese en van de markt, aangevuld met it-ontwerpers, big data programmeurs en data-analisten. Het experiment neemt veel tijd in beslag, de vraagstelling moet helder zijn, de data moeten erbij worden gezocht, er is onderzoek nodig, en het is natuurlijk de vraag wat de baten zijn in zo’n traject.

4.     Het onderzoek
Het onderzoek vraagt de meeste tijd. Tevens kan het de grootste verrassing opleveren. Op basis van big data worden diverse algoritmes gebruikt en ontwikkeld om trends, opvallende zaken, verborgen geheimen te vinden. Hiervoor is een onderzoeksteam nodig dat bestaat uit analisten, onderzoekers, it-ontwerpers, big data programmeurs, innovatieadviseurs enzovoort. Zo’n traject heeft niet een duidelijk doel. Het is meer een inspanning die gedurende een bepaalde tijd wordt gedaan, in de hoop een opzienbarende ontdekking te doen. Als die ontdekking wordt gedaan, levert het heel veel op. Blijft die ontdekking uit, dan kost het alleen maar tijd en geld. Meer nog dan bij de andere drie vormen, vereist een onderzoek een goed ingerichte omgeving met daarin een big data toolbox en een set gebruiksvriendelijke tools. De deelnemers moeten hun onderzoek goed kunnen uitvoeren en niet afhankelijk zijn van it-kennis. Ook is het belangrijk om het onderzoek zorgvuldig en goed te documenteren.

De stap van de bovenstaande theorie naar de praktijk lijkt groter dan die in werkelijkheid is. Hiervoor geldt het meest basale maar direct ook het meest waardevolle advies: gewoon beginnen!

 

 

 

Gerelateerde berichten...