Data Donderdag #10

Piek Vossen – Hoogleraar Computationele Lexicologie aan de VU

Piek zal in gaan op hoe bedrijven tekst mining kunnen gebruiken voor reputatie management en sentiment analyse.

 

Sentimentanalyse van teksten heeft vaak twee mogelijke uitkomsten: positief of negatief. Maar het analyseren van teksten is ingewikkelder. Om een tekst goed te kunnen begrijpen dien je met meer zaken rekening te houden, door bijvoorbeeld te kijken naar vanuit welke context de tekst is geschreven, en wat de achtergrond van de schrijver is. Alleen sentimentanalyse geeft niet goed weer wat mensen met een tekst willen zeggen. Daarom werken wij met een onderzoeksgroep van twintig man aan de ontwikkeling van software die teksten in verschillende talen kan lezen en kan interpreteren wat er echt staat.

Bedrijven zijn geïnteresseerd in meningen van mensen, voor bijvoorbeeld productfeedback, marktanalyse of concurrentieanalyse. Maar ook voor de politiek en landen is het interessant om te weten hoe mensen reageren op dingen die ze uitspoken. Daarnaast is ieder persoon zelf geïnteresseerd in wat anderen vinden, bijvoorbeeld als je op zoek bent naar een vakantie, naar stemadvies of medisch advies.

“Het analyseren van reviews is ingewikkeld. Duitsers en Engelsen drukken zich bijvoorbeeld subtieler uit dan Nederlanders en Spanjaarden. Daar moet je rekening mee houden.”

Er is een enorme industrie rondom sentimenttechnologie. Maar veel meer dan het leveren van een dashboard waarop aangegeven wordt of het sentiment positief of negatief is, is het vaak niet. Eigenlijk weet je dan nog niks. Je moet dieper in de mening duiken. Waarover gaat de mening, maar ook wie is de persoon die de mening geeft, wat is zijn achtergrond, welke emotie heeft hij, waarom geeft hij een mening, wanneer is de mening gedeeld en wat is zijn relatie met hetgeen waar de mening over gaat.

We nemen een review van een hotel als voorbeeld. Er staat heel veel informatie in, positief en negatief. Er worden verschillende hotels benoemd. Uit deze review kun je niet zomaar een mening halen. Hij staat vol met subtiele sentimenten, sommige zijn esthetisch, sommige hebben te maken met ervaring, hygiëne en comfort. Deze factoren kun je ordenen. Dat is wat wij gedaan hebben, wij hebben relaties geëxtraheerd. Dat noemen we supervise learning. Je begint bijvoorbeeld met het woord ‘nice’. In een grote verzameling reviews ga je op zoek naar het woord nice, met de woorden ‘and cheap’. Dan zoek je in combinatie met ‘service’ en ‘food’. Tussen die woorden bleek een relatie te zijn. Ondertussen kom je weer andere opiniewoorden tegen. Vervolgens rank je alle woorden en kom je erachter welke elementen mensen belangrijk vinden als ze ergens een mening over vormen.

Hierna hebben we gekeken naar reviews die de schrijver in zijn moedertaal geschreven heeft zijn. Uit de analyse bleek dat Engelsen en Duitsers meer uitgesproken zijn bij het geven van een rating, maar in hun tekst drukken ze zich subtieler uit dan bijvoorbeeld Nederlanders en Spanjaarden. Dus als je reviews gaat analyseren neem je dit mee, om erachter te kunnen komen hoe ontevreden of tevreden iemand nu eigenlijk is.

Het analyseren van reviews is ingewikkeld. Taal waarin meningen uitgedrukt worden zijn veel complexer dan zakelijke teksten. Je moet naar ontzettend veel verschillende zaken kijken, wil je een goed beeld kunnen vormen van de opinie van een persoon. Het perspectief van die persoon is daarbij ontzettend belangrijk.

 

 

Piek Vossen

 

 

 

Delen:
Facebooktwittergoogle_pluslinkedin

LEAVE A REPLY

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *