Machine learning volgende stap in uitnutten machinedata

operatierobot

AI in de praktijk

De convergentie van de cloud en big data leidt tot een explosie van toepassingsmogelijkheden van artificial intelligence (AI). Je hebt niet langer een eigen Watson en goed gevuld datawarehouse nodig. Je maakt gebruik van gedistribueerde rekenkracht en gedistribueerde databronnen in de cloud. De laatste Dataworks Summit liet vele toepassingsmogelijkheden zien.

U heeft in de afgelopen edities van ICT/Magazine kunnen lezen over verschillende toepassingen van machine data; van asset management en het verbeteren van de customer experience tot en met het sensitief maken van de omgeving. De volgende stap is om de algoritmen die deze data analyseren zelflerend te maken. Dan hoef je namelijk niet langer zelf hypotheses te bedenken en die in A/B-testen te valideren. Dan vindt het data science platform zelf verbanden en acteert daarop. Het kan met AI.

 

Zelflerend algoritme

AI omvat een breed terrein waarvoor een eenduidige definitie ontbreekt. Een onderdeel ervan is machine learning, een vakgebied dat zich bezighoudt met de ontwikkeling van algoritmes waarmee computers kunnen leren. Dat leren vindt vaak gecontroleerd plaats: het algoritme krijgt voorbeelden van invoer en de bijbehorende output en leert daardoor welke kenmerken bepalend zijn voor de output. Als je het model maar genoeg foto’s laat zien van katten en daarop gelijkende dieren en vertelt welk dier een kat is en welke niet, dan kan het algoritme op een gegeven moment zelf aangeven wanneer een dier een kat is. Een algoritme kan ook ongecontroleerd leren. In dat geval gaat het zelf op zoek naar structuren in de data en maakt daar zelf volautomatisch clusters van.

Het grote verschil tussen gewone algoritmen en zelflerende algoritmen is dat deze laatste steeds slimmer worden. Waar het big data team van DB Cargo (zie ICT/Magazine februari 2017) nog zelf de correlaties programmeert tussen factoren die invloed hebben op de slijtage van locomotieven, zal een ongecontroleerd zelflerend algoritme die correlaties eigenmachtig ontdekken. Het algoritme zal alle sensordata analyseren en combineren met data over wanneer welk onderdeel stuk ging. Het kan zo dus zelf leren welke patronen voorspellend zijn voor slijtage.

 

Accuratesse hoeft niet hoog te zijn

Veel mensen denken dat de waarde van AI valt of staat bij de accuratesse van het algoritme, maar dat is allerminst waar, zegt Eliano Marques van ThinkBig. Als het gaat om een algoritme dat het next best offer voorspelt, is het al prima als het zelflerende algoritme slechts 10 procent beter voorspelt dan een niet-zelflerend algoritme. Dan nog zal je heel veel meer verkopen. En ook bij asset management-toepassingen, zoals het voorspellen van slijtage aan onderdelen van machines, is geen 100 procent accuratesse nodig. Als je de helft van de storingen kunt voorspellen en hiervoor preventief onderhoud kunt plannen, heb je al een ijzersterke businesscase.

Zelfs bij toepassingen die draaien om leven of dood is een lagere accuratesse niet erg, zegt Marques. “Neem het herkennen van huidkanker op basis van een foto. Er zijn al apps die aangeven of het verstandig is om daarmee naar de dokter te gaan. De belangrijkste taak van dat algoritme is om geen false negatives te genereren, dus mensen die wel kanker hebben terwijl de app zegt dat de moedervlek onschuldig is. Natuurlijk wil je ook zo min mogelijk false positives, want je bezorgt mensen natuurlijk veel stress als je zegt dat het plekje kanker zou kunnen zijn. Maar je zorgt er dan in ieder geval ook voor dat die mensen direct naar een dokter gaan en het niet eerst nog weken aankijken.” De bevolkingsonderzoeken naar darmkanker, baarmoederhalskanker en borstkanker werken niet anders. Ook daarbij worden technieken gebruikt die false negatives uitsluiten, daarbij op de koop toenemend dat er behoorlijk wat false positives tussen zitten bij wie het loos alarm is.

 

Autonoom rijden

In feite is het aantal cases waar een 99,999 procent accuratesse moet worden behaald zeer gering. “Ik kan er zo snel maar één bedenken en dat is de zelfrijdende auto”, zegt Marques. En dat komt goed uit, want na hem betreedt Tobias Bürger van BMW het podium. BMW heeft in 2015 een afdeling opgericht voor big data. De eerste use cases liggen op het gebied van slimmere productieprocessen. Ook is BMW op zoek naar toepassingen om de auto aan te passen op de bestuurder. Het is de bedoeling dat binnenkort de auto jou herkent en dan automatisch alle instellingen aanpast, van stoelhoogte en spiegels tot en met je favoriete muziekkeus en volume. Natuurlijk droomt het bedrijf van autonoom rijden, maar zo ver is het nog niet bij BMW. Bürger: “We rusten onze topmodellen wel uit met veel sensoren en we voorzien ze van een goede digitale kaart die ook real-time informatie kan analyseren, zodat de auto zelf de juiste route kan berekenen. We willen daarbij een stapje verder gaan dan de hedendaagse navigatie en ook filevoorspellingen en weerinformatie meenemen.”

Maar voor het ontwikkelen van een AutoPilot à la Tesla is meer nodig. Het belangrijkste is dat de auto leert herkennen welke objecten op de weg stilstaan en welke zich verplaatsen of kunnen gaan verplaatsen. Bürger: “Je kunt met sensoren vrij eenvoudig de omgeving scannen, maar je hebt intelligentie nodig om de auto te vertellen of een andere auto is ingeparkeerd en dus blijft stilstaan of dat die – net als jij – voor het rode licht wacht en zo gaat optrekken.” Hoe ver BMW precies is met autonoom rijdende auto’s wil Bürger niet vertellen.

Ook Marques noemde enkele voorbeelden. Zo moet een zelfrijdende auto kunnen herkennen of iets wits dat plotseling voorlangs komt razen een opwaaiende plastic zak is of een bal. Zeker als de sensoren op de auto tegelijkertijd op de stoep een kind zien rennen. Rent dat kind gewoon over de stoep of rent het achter de bal aan? Natuurlijk wil je ook in het geval van een opwaaiende plastic zak dat de auto afremt, maar wel op zo’n manier dat je een kop-staart botsing met een achterop komende auto voorkomt. Is het echter een bal met kind dat er achteraan rent, dan wil je dat de auto de kop-staart botsing voor lief neemt. Marques: “Er zijn miljoenen scenario’s die je onmogelijk allemaal vooraf kunt bedenken en programmeren. Daarom moet je een autonome auto voorzien van AI, zodat hij een steeds betere chauffeur wordt naarmate hij meer rijervaring heeft. Het is niet voor niets dat Tesla alle incidenten uit en te na analyseert. Deze data wordt teruggegeven aan het AutoPilot-algoritme dat daarmee steeds slimmer wordt.”

 

Analytics at the edge

AutoPilot is ook een mooi voorbeeld van ‘analytics at the edge’. Als een auto alle data voortdurend naar een centraal platform moet sturen om te laten analyseren en het antwoord weer terug moet krijgen, dan ligt in het genoemde voorbeeld het kind al lang onder de auto. Daarom moet het algoritme lokaal draaien. “Voorheen was er in IT altijd sprake van een schommelbeweging tussen centraal en decentraal”, zegt Shaun Connolly, Chief Strategy Officer bij Hortonworks. “Maar met de opkomst van cloud en IoT zie je dat centraal en decentraal voor het eerst prima samengaat.” Hij spreekt daarom van een connected data architecture, waar het tot nu toe vaak over converged data architectures ging. Connolly: “Je hoeft niet meer alle data samen te brengen op één platform, de opslag en analyse van IoT-data kunnen ook decentraal gebeuren, gebruikmakend van de intelligentie die je wel vanuit een centraal platform aanbiedt. Het is dan wel verstandig dat je ‘at the edge’ intelligentie inbouwt die bepaalt welke events het algoritme slimmer kunnen maken.” Je wilt dat een autonoom rijdende auto data over ongelukken en bijna-ongelukken terugstuurt naar het centrale platform om daarvan te leren, maar data over een alledaagse rit over de snelweg blijft ‘at the edge’.

Iets wat het voorbeeld van een zelfrijdende auto ook mooi laat zien is dat ‘actionable intelligence’ vaak ontstaat door de combinatie van ‘data at rest’ en ‘data in motion’. “Hoe slimmer je die twee combineert, hoe sneller en relevanter je kunt reageren op dingen die gebeuren”, zegt Connolly. Hij ziet hiervan veel toepassingen in de retail. “Denk aan webwinkels die reageren op jouw klikpatroon. Maar denk ook aan fysieke winkels die jouw aanwezigheid opmerken aan de hand van je smartphone en je real-time een relevante aanbieding doen. Welke aanbieding relevant is, bepalen ze aan de hand van ‘data at rest’ en de timing wordt bepaald door real-time informatie.”

 

Datamanagement is voorwaarde voor AI

Een sector die eveneens volop bezig is met AI is finance, getuige het aantal cases uit deze branche op DataWorks Summit. Met name banken zijn erg actief op dit gebied. De eerste toepassingen zijn vaak gedreven vanuit fraudedetectie en -preventie, maar nu banken eindelijk ontdekken dat het op lange termijn meer oplevert als je je klant serieus neemt, storten ze zich massaal op het ontdekken van ‘behavorial insight’.

Wie dat woord in de mond neemt, zegt ook al snel GDPR, of – zoals de wet in Nederland gaat heten – de Algemene Verordening Gegevensbescherming (AVG) (zie kader). Deze wet noodzaakt tot privacy by design, een terrein waar Scott Gnau, CTO van Hortonworks, veel van af weet. “Ieder bedrijf moet zich ervan bewust zijn dat klantdata niet van hen is, maar van hun klanten. Om de privacy te beschermen moet je een heel scala aan maatregelen nemen, waaronder het taggen van data aan de bron en daar policies op maken. Zo bescherm je de data zelf en niet alleen de omgeving waarin die wordt gebruikt. Je kunt op deze manier voorkomen dat je een kopie van de data per ongeluk toch gebruikt voor een doel waarvoor deze niet is bestemd.”

Dat is ook de visie van Andrew McCall, chief data engineer van Lloyds Bank. In zijn presentatie genaamd ‘Building a real-time bank’ gaf hij aan op welke vier principes zijn bank de big data strategie baseert: 1) We beheersen en controleren data aan de bron, 2) We leggen de geschiedenis vast van veranderingen in de data zodat we altijd kunnen zien welke mutatie wanneer is aangebracht, 3) Eenrichtingverkeer voor data: data mogen maar één kant op stromen en 4) Zuivere functie: geen verborgen input of verborgen neveneffecten en het is makkelijk om te beredeneren waarom een algoritme zich zo gedraagt.

McCall: “Zodra je gebruik gaat maken van referentiedata kun je haast niet meer achterhalen welke data je waar hebt gebruikt. Je kunt dan ook niet meer coördineren dat je data in alle systemen klopt en je introduceert bovendien latency. Wij willen een real-time bank worden, dus latency is uit den boze.”

Grip houden op de data, dat is waar het om draait nu de cloud en big data samenkomen en nieuwe kansen bieden, maar ook zorgen voor nog meer complexiteit. De technologie om deze complexiteit het hoofd te bieden is er wel, het succes zal worden bepaald door de mate waarin organisaties hun datamanagement en datagovernance op orde hebben.

 

GDPR en datamanagement

De General Data Protection Regulation (GDPR) of AVG treedt in mei 2018 in werking. Deze wet zegt onder veel meer dat de persoon wiens gegevens worden verwerkt hiervan op de hoogte is en toestemming heeft gegeven, en dat hij/zij het recht heeft om vergeten te worden. Dit houdt in dat u álle data – ook die in ongestructureerde bronnen – direct moet kunnen verwijderen. Voor organisaties betekent deze wet dat zij van alle klantdata, gestructureerd en ongestructureerd moeten kunnen aangeven: 1) welke data het betreft, 2) hoe oud deze data is, 3) hoe en voor welke doeleinden de data worden gebruikt, 4) wie er verantwoordelijk is voor het updaten en schoon houden van de data en 5) wie er toegang toe heeft (gebruikersrechten).

 

Gerelateerde berichten...