Organisaties beschikken over een schat aan data, die de basis kunnen vormen van interessante inzichten. Toch blijven deze gegevens nu vaak buiten het zicht. Dat is een gemiste kans voor het aanscherpen van kennis, het efficiënter maken van bedrijfsprocessen en voor een beter inzicht in klantbehoeften.
Elke organisatie verzamelt nu al dagelijks enorm veel gegevens en door de toenemende digitalisering van bedrijfsprocessen, neemt het verzamelen van data steeds grotere vormen aan. Volgens het World Economic Forum wordt tegen 2025 wereldwijd dagelijks meer dan 463 exabyte aan data verzameld. Een groot deel daarvan blijft echter ongebruikt. Dit type data wordt wel omschreven als ‘dark data’. Het gaat bijvoorbeeld om klantinformatie en geolocatiegegevens, die wel worden opgeslagen maar nooit geanalyseerd. Een andere vorm van dark data bestaat uit verouderde code die bedrijfskennis bevat of documenten die ooit zijn geschreven, opgeslagen op een server en daarna vergeten. Met de explosieve ontwikkeling van generatieve AI kunnen organisaties zich eigenlijk niet meer veroorloven het bestaan van dark data te negeren.
Maar managers zagen zich dit jaar geconfronteerd met een dilemma. Enerzijds was er de interessante ontwikkeling van grote taalmodellen (LLM’s). Die kunnen helpen bij het verbeteren van efficiëntie en het verlagen van de bedrijfskosten. Aan de andere kant werd de economie gekenmerkt door een afkoeling, gepaard met stijgende kosten, bijvoorbeeld voor personeel en inkoop. Veel managers hebben zich daardoor afgevraagd of ze wel volledig konden profiteren van de voordelen die LLM’s bieden.
Veel belangstelling voor gebruik AI
Het is duidelijk dat organisaties wel gebruik willen maken van de nieuwe mogelijkheden. Bijvoorbeeld om het hoofd te kunnen bieden aan de uitdagingen waarmee ze worden geconfronteerd. Zo steeg het gebruik van natural language processing (NLP)-modellen het afgelopen jaar met 75%, volgens het recente onderzoeksrapport 2024 State of Data + AI. Uit het onderzoek blijkt ook dat de experimenten met machine learning (ML) zijn toegenomen met 134% en dat bovendien het aantal ML-modellen in productie is gestegen met maar liefst 1,018%.
Het zijn de data die deze AI-toepassingen mogelijk maken. Bedrijven hebben de mogelijkheid hun bedrijfsdata, die voor niemand anders toegankelijk zijn, te gebruiken om hun eigen AI-systemen samen te stellen, door data-intelligentie toe te passen op hun eigen model of op verfijnde open source-modellen die zijn afgestemd op hun specifieke bedrijfsbehoeften.
Daarbij moeten ze er wel eerst voor zorgen dat die gegevens op de juiste manier beschikbaar kunnen komen. Bij organisaties die nog werken met verouderde data-architecturen, lukt dat doorgaans niet als gevolg van de complexiteit die daarmee gepaard gaat. Beter is het de gegevens onder te brengen in een sterke, moderne architectuur zoals een data lakehouse, die de complexiteit van legacy-architectuur wegneemt en daarmee zorgt voor de vlotte dataontsluiting die nodig is voor het trainen van AI-modellen.
Zorg voor verantwoord gebruik van dark data
Organisaties die gebruik willen maken van dark data, moeten er wel zeker van zijn dat die gegevens betrouwbaar zijn. Wanneer AI wordt getraind op gegevens die niet zijn gecontroleerd op kwaliteit, nauwkeurigheid of bias, kan het resultaat leiden tot rampzalige resultaten die de reputatie van de organisatie kunnen schaden. Een modern platform kan het analyseren van waardevolle informatie en onbruikbare data combineren in een zoektocht naar de zwakke signalen van verbeterpunten of trendverschuivingen die een mens makkelijk over het hoofd ziet. Daarom is het inzetten van een betrouwbaar dataplatform essentieel om AI op basis van ‘dark data’ tot een succes te maken. Door dark data met zo’n platform te consolideren, maak je bovendien IT-servicebudget vrij om je AI-strategie te versnellen.
AI kan het onmogelijke mogelijk maken door grotere efficiëntie te creëren en ruimte te bieden voor innovatie. Maar voor het zover is, moeten ze wel eerst een blik achter de schermen werpen om te zien welke inzichten er in hun dark data verborgen liggen. Juist omdat de hoeveelheid opgeslagen gegevens zo sterk groeit, moet goed datamanagement altijd een prioriteit zijn voor organisaties die willen dat hun AI wordt getraind op betrouwbare en accurate datasets. Anders lopen ze de kans waardevolle bedrijfsinzichten mis te lopen die klaarliggen om ontdekt te worden.
Lees ook: Datamanagement als uitdaging voor de digitalisering van de bouwsector