Transcript
Vandaag wordt het iets technischer. Maar als je als eventprofessional relevant wil blijven, moet ook jij weten wat Big Data is. Net daarom heb ik dit onderwerp gekozen.
Dag Ben, welkom in de studio.
Hallo, dank u.
Vandaag gaan we het hebben over Big Data. Dat is een buzz word. Dat lees je overal. Maar wat is dat nu concreet?
Big Data, je hoort er inderdaad heel veel over. En heel veel mensen denken dat dat gaat, over heel grote hoeveelheden data verwerken. Dat is het ook soms, maar zeker niet altijd.
Voor mij is Big Data eigenlijk vooral een oplossing voor een probleem. Waarin je met traditionele systemen niet meer overweg kunt met uw data. Om één of andere reden.
Dus dat kan gaan, dat je inderdaad teveel data hebt, die je niet meer in een database verwerkt krijgt. Maar het kan even goed gaan over het probleem, dat je uw data snel wilt gaan verwerken. Of in een streaming manier binnen nemen.
Dat kan even goed gaan over het in kaart brengen van relaties tussen uw data. Waarvoor een graph database, bijvoorbeeld, interessanter kan zijn, dan een traditionele database.
Of over ongestructureerde data. Alhoewel je daar altijd wel een beetje structuur moet in brengen.
Dus het gaat eigenlijk vooral over, ja, het oplossen van een probleem. Dat je niet meer met je data overweg kan, zoals je het gewoon bent.
En dat is eigenlijk, vooral, Big Data voor mij. Niet per sé terabytes aan data hebben en die per sé moeten gaan verwerken in gedistribueerde systemen. Maar gewoon een probleem met uw data proberen op te lossen. Met nieuwe technieken.
Ik heb al heel veel woorden gehoord, die voor mij Chinees zijn. Zoals streaming data, en zo verder. Maar ik onthoud vooral: data waar je niet mee om kan gaan, zoals je er in een traditionele database mee om kan gaan.
Ja, inderdaad. Vooral waar je moeilijkheden mee hebt, om dat inderdaad in een traditioneel, relationeel model te steken. Omwille van schaalbaarheid. Omwille van snelheid. Omwille van variëteit in uw data, of omwille van andere dingen die je wil gaan doen met uw data.
Zou je dat eens concreter kunnen maken, met een voorbeeld? Over wat zou dat, bijvoorbeeld, kunnen gaan?
Ja, wanneer het gaat over pure volumes, dan spreek je inderdaad over grote hoeveelheden gegevens. Bijvoorbeeld loggegevens die binnenkomen, waar je iets mee wil gaan doen. Dat zijn typisch gegevens, die heel snel oplopen. Waar je heel regelmatig dezelfde operaties wil op gaan uitvoeren. En dan kan het, bijvoorbeeld, interessanter zijn, om dat op een aantal machines tegelijkertijd te gaan doen.
Als je een transformatie wil gaan doen, op een dataset van een aantal terabyte, waar je toch sequentieel over moet lopen, dan kan je dat op één machine doen en heel lang wachten, tot die klaar is. Of je kan datzelfde werk verspreiden over 100 machines tegelijkertijd, waardoor uw tijd eigenlijk 100 keer korter wordt.
Daar zijn frameworks voor, zoals het Hadoop framework. Dat is oorspronkelijk ontwikkeld bij Google, gebaseerd op een MapReduce paper. En ook bij Yahoo verder doorontwikkeld. En dat stelt u eigenlijk in staat, om met relatief lage kosten, een cluster te maken van computers, om die gegevens sneller te gaan verwerken. Dus, dat is wanneer je spreekt over grote hoeveelheden data.
Wanneer je spreekt over andere problemen, streaming data, bijvoorbeeld. Ja, dat is wanneer je heel veel data, op korte tijd binnenkrijgt. Het kan ook zijn, dat je dat zelfs niet meer op één machine verwerkt krijgt. Alhoewel je daar al wel heel ver kan gaan. Mensen over-engineeren dat heel snel. Maar daar moet je systemen gaan verzinnen, om die data, enerzijds, verwerkt te krijgen, maar ook u zorgen beginnen maken, over de volgorde van uw data.
Het kan zijn dat uw event, dat eigenlijk later is gebeurd, eerst binnenkomt. En je moet daarmee om kunnen. En daar zijn ook systemen rond ontwikkeld, om daarmee dan te kunnen copen.
Wanneer je kijkt naar relaties, van data bijvoorbeeld. Wanneer je over graphen gaat praten, dat is wat bedrijven zoals Facebook, LinkedIn heel vaak gaan gebruiken. Dat is wanneer je echt wilt gaan zoeken op relaties tussen entiteiten en dat die relaties niet noodzakelijk 1-op-1 liggen. Maar dat er ook een hoop entiteiten kunnen tussenliggen. Stel dat je met persoonsdata aan het werken bent. En je hebt één persoon, die kan geboren zijn in een bepaalde stad. En leven in een andere stad. En een stad ligt in een provincie in België. En dan heb je daar het niveau België boven. En dan heb je Europa erboven.
Maar in Frankrijk heb je steden en dat zit in een departement, bijvoorbeeld. Dat zit in een région in Frankrijk, denk ik. Allez, ik ben niet zo thuis in Frankrijk.
En als je dan, bijvoorbeeld, alle mensen wilt gaan opzoeken, die geboren zijn in België, maar verhuisd zijn naar Frankrijk, dan kan je dat heel gemakkelijk doen, door gewoon tussen al die relaties te gaan zoeken en opdracht te geven van: ja, het maakt mij eigenlijk niet zo heel veel uit hoe je het vindt, maar ik wil een persoon hebben, die een link heeft, geboren in een dorp, of een stad, of een gemeente, die uiteindelijk toekomt in België. En een persoon die nu woont in een stad, die uiteindelijk toekomt in Frankrijk, bijvoorbeeld.
En dat is iets dat in een gewoon, relationeel model heel moeilijk is, omdat je dan heel snel recursief moet gaan werken.
Ja, dat klinkt allemaal ontzettend boeiend, maar nog heel ver-van-mijn-bed-show voor de evenementensector.
Wat zouden wij, als sector, daarmee kunnen doen? Met Big Data?
Dat is, op technisch vlak kan je er een aantal dingen mee doen, maar misschien eerst op functioneel vlak.
Puur het verzamelen van extra data, of meer data. Je kan in kaart gaan brengen, hoe mensen zich bewegen over een bepaald event. En dat is een continue stroom aan data, bijvoorbeeld met Bluetooth beacons, of met wifi-signalen gaan werken. En die continue stroom aan data capteren en verwerken in Big Data systemen.
Maar dat kan ook gaan over slimme algoritmes, om planningen te gaan maken, bijvoorbeeld. Dat zijn problemen die heel snel oplopen, omdat je zoveel verschillende facetten hebt in een planning, waar je rekening mee moet gaan maken. Waardoor je uiteindelijk heel snel naar een planningsprobleem, met een grootte van miljoenen, miljarden mogelijke oplossingen komt. En daar moet je dan een stuk machine learning ook gaan gebruiken, om dat op een slimme manier te gaan oplossen. En ook wat rekenkracht voor kunnen gaan gebruiken, om tot een oplossing voor dat probleem te komen.
Ja, ja, maar je zegt functioneel. En technisch?
Ja, het technische verhaal dat daar dan aanhangt, is inderdaad van: je hebt een bepaald probleem, dat je misschien niet meer opgelost krijgt in je traditioneel systeem. Dus dat je moet gaan kijken van: wil ik extra relaties tussen mensen in kaart gaan brengen? Moet ik dan mijn databasesysteem gaan veranderen? Wil ik die grotere hoeveelheden aan data, sneller gaan verwerken? Moet ik misschien een gedistribueerd systeem gaan gebruiken?
Dus je moet eigenlijk, voor ieder probleem dat je tegenkomt, de geschikte oplossing zoeken. En het moeilijke aan Big Data, is dat dat niet één oplossing is. De oplossing is niet altijd: we gaan Hadoop gebruiken als gedistribueerd verwerkingssysteem. Soms moet je ook kijken naar een streaming systeem, naar een ander databasemodel.
Dus eigenlijk, de opdracht is gewoon een expert zoeken.
Een expert zoeken. Zelf heel veel lezen, kan ook helpen. Er is heel veel informatie online beschikbaar ook, natuurlijk. Maar het helpt inderdaad om u goed te laten informeren.
En het is vooral belangrijk om in een Big Data probleem, niet te starten vanuit een technologie. Heel veel mensen starten vanuit een technologie. Die hebben een Big Data systeem gevonden. Of die zeggen: we willen een NoSQL database gaan gebruiken. Of een ander databasesysteem gaan gebruiken. En ze willen die technologie enten op hun probleem.
Maar je moet die beweging eigenlijk omdraaien. Je moet eigenlijk starten van je probleem, en kijken van: wat wil ik gaan oplossen? Wil ik mijn data sneller verwerken? Wil ik mijn relaties beter in kaart brengen? Wil ik meer data gaan verwerken? Of nog, misschien, andere mogelijkheden. En daaruit een technische oplossing zoeken. Dus het is heel vaak meer een combinatie van technische oplossingen, dan dat je gewoon één oplossing brengt en daarmee werkt.
We hebben het vandaag gehad over het verzamelen van die data. Volgende keer gaan we het hebben over machine learning, hé?
Ja, heel graag.
Ben, dank je wel voor je komst naar de studio.
Bedankt.
En u, beste kijker, bedankt voor het kijken en alweer tot volgende week.