Big data in een industrieel Facebook

Big data in een industrieel Facebook

Stel je voor: Facebook voor machines. Gelijkgezinde machines mondiaal online verbonden genereren big data waardoor we hun capaciteit veel efficiënter zullen benutten.

Dat is de inzet in ‘big data’ van General Electric. Dit concern vindt zichzelf wederom opnieuw uit, nu met optimalisatie van
machineprestaties dankzij data uit de eigen context en van andere,
verbonden machines. Kunstmatige intelligentie van ‘industrieel internet’ is wellicht niet sexy, maar leidt wel tot ‘gigantische productiviteitsverbetering’.

Dat staat in Dit is big data het boek ‘Dit is big data’, de vertaling van ‘Data-ism’ van Steve Lohr, it-journalist van de New York Times. Ook sceptici komen daarin aan bod, uiteraard ook over privacy. Lohr benoemt het grote belang van ‘data-kapitalisme’, waardering van data in geld, dat ik eerder beschreef in een privacyboek.

IBM legt in ‘Data-ism’ het meeste gewicht in de schaal gezien haar langetermijnaccent op data-analyse sinds 2003 met concrete optimalisatie van Californische wijnbouw, logistiek van transportgiganten en tientallen successen met risicobepaling en keuzeondersteuning in zowel de medische als financiële sector. Plus natuurlijk Deep Blue en Watson, de paradepaardjes die volgens IBM tot principieel andere computerplatforms noodzaken dan die we de afgelopen halve eeuw ontwierpen.

Immers, het kerncitaat uit het boek: “Onze opvattingen over wat ‘kennis’, ‘betekenis’ en ‘begrip’ zijn, sluiten niet aan op de wijze waarop deze technologie werkt. De mens begrijpt dingen meestal vanwege de ervaringen die hij heeft opgedaan in de wereld.
Computers beschikken daarover niet. Ontwikkelingen in kunstmatige intelligentie leiden ertoe dat machines steeds beter kunnen zien, lezen, luisteren en spreken. Maar op hun eigen manier, en die is nogal anders.”

Zelfstandig leren ijdel
Lohr maakt uitstekend duidelijk dat we er met big data niet komen zonder adequate nieuwe methoden en ontwerp. Die zijn in opbouw, zoals Nell (Never ending language learning) van de Carnegie Mellon University, dat sinds 2010 al 2,5 miljoen feiten (zoals ‘Amsterdam is een stad’) leerde uit 24/7 analyse van inmiddels honderden miljoenen webpagina’s. Daarvan is 87 procent juist. De hoop op volledig zelfstandig leren bleek vooralsnog ijdel. Binnenkort mogen wij (‘the crowd’) die 13 procent fouten helpen verbeteren.

Taal is het moeilijkste big data-object. Kijk maar eens naar de vele malle, zogenaamd gepersonaliseerde reclamesuggesties. Daarover gesproken: centraal staat Jeffrey Hammerbacher, de eerste datawetenschapper van Facebook en oprichter van Cloudera, die klaagt dat “de beste breinen van mijn generatie worden ingezet om mensen zo veel mogelijk op advertenties te laten klikken”.

Het prettigste aan ‘Dfacebookduim ata-ism’ is de langetermijninsteek van Lohr. Hij grijpt zelfs terug op mensen zoals Nobelprijswinnaar van Nederlandse afkomst Tjalling Koopmans (Measurement without Theory, 1947), Hans Peter Luhn (IBM, grondlegger van business intelligence, 1958) en John Tukey van Bell Labs (‘The Future of Data Analysis’, 1962) tot en met William Cleveland (Bell Labs, ‘Datawetenschap’, 2001). En toont dat er ook een lange weg voor ons ligt in data-analyse met relevante correlaties en contexten. Beroerd in het boek zijn de onnodig lange semiliteraire beschrijvingen van mensen en omgevingen. De vertaler had de helft van de tekst wel mogen schrappen en voor die helft meer tijd mogen nemen.