1R8A7631

Friso van Vollenhoven en Stijn Tonk – GoDataDriven

Data Scientist wordt ook wel “the hottest job of the 21st century” genoemd. Maar, wat houdt het vak nou werkelijk in? En is het echt zo moeilijk als iedereen beweert? Friso van Vollenhoven en Stijn Tonk leggen het werk van een Data Scientist uit in zo weinig mogelijk woorden, aan de hand van het voorbeeld van een webwinkel.

 

Webwinkels spreken datawetenschappers aan met de vraag om de customer experience te verbeteren, om meer te verkopen en klanten vaker terug te laten komen. Daarbij komen de standaardvragen al gauw bovendrijven: kunnen we iets doen met aanbevelingen, met personalisatie? Maar waar het uiteindelijk om gaat is het optimaliseren van de conversie, bijvoorbeeld door de tijd te verkleinen die mensen nodig hebben om het product te vinden dat ze zoeken. Dus hoe eerder een webwinkel relevante producten toont, hoe groter de kans dat mensen blijven. Dan zegt de Data Scientist: laten we daar in real-time achter proberen te komen!

“Wie draagt hier wel eens een jurk?”

Het begint met een test: welke jurk vind je mooier, de linker of de rechter? Op basis van dertig keuzes gaan we orde scheppen in de chaos van twaalfhonderd jurken. Geen klant bekijkt al die producten, dus moeten we er in vijf minuten achter komen welke jurk te klant wil.

Dat begint met een clusteranalyse, oftewel met behulp van een algoritme data indelen in groepen op basis van uiterlijke kenmerken. Zo komen effen zwarte jurken samen in één cluster, jurken met rood-witte prints in één cluster, jurken met korte mouwen in één cluster, enzovoorts. Tussen alle clusters wordt de afstand bepaald op basis van die kenmerken. Waar de klant een jurk ziet, ziet de Data Scientist een soep van getallen en codes.

Deep Learning

Een tweede algoritme om de juiste jurk bij de juiste klant te krijgen is Deap Learning. Iedereen kent het concept, maar weinig mensen werken er mee. Momenteel zijn het vooral grote bedrijven als Facebook en Google die Deap Learning toepassen, omdat er ongelofelijk veel data voor nodig is. Maar er is een trucje.

Deep Learning is gebaseerd op biologische neurale netwerken, die werken met een verzameling van verschillende lagen: neuronen. Elke stap haalt informatie uit de vorige stap en bouwt zo hiërarchisch kennis op. Die kennis wordt steeds abstracter: van pixels naar het herkennen van het concept ‘gezicht’ tot het herkennen van een specifiek kattengezicht. Zo’n netwerk kijkt hetzelfde naar een plaatje als ons brein doet. Het algoritme train je, leer je dingen herkennen. De conceptuele informatie die je daaruit haalt voed je vervolgens weer aan je cluster. De klant krijg een jurk te zien op basis van zijn of haar klantgedrag. Klaar is Kees, toch?

Multi Armed Bandits

Nee, want deze vlieger gaat alleen op voor terugkerende gebruikers. Wanneer iemand voor het eerst jouw webshop bezoekt heb je nog geen benul van zijn of haar smaak. Het enige wat we dan redelijkerwijs kunnen zeggen is: ieder cluster heeft evenveel kans. Dus moeten we leren exploiteren wat we al weten. Dat is het derde algoritme in de jurkjes-case: Multi Armed Bandits.

Multi Armed Bandits is gebaseerd op kansberekening. Het vertelt je: als je webshop twintig keer bezocht wordt, welke clusters maken de meeste kans om in de smaak te vallen en bekeken te worden? Daarom houden we van elk cluster bij hoe vaak deze wordt getoond én hoe vaak deze ‘wint’, oftewel hoe vaak er conversie optreedt. Clusters die een grotere kans hebben te winnen op basis van meer verzamelde data, komen sneller naar voren.

Op basis van beperkte data de juiste jurk bij de juiste klant krijgen voor een zo hoog mogelijke conversie, dat is het werk van een Data Scientist in een notendop.

 

datadonderdag9-4

 

 

 

Delen:
Facebooktwittergoogle_pluslinkedin

LEAVE A REPLY

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *