Yves Peirsman bio photo

Yves Peirsman

Crazy about Natural Language Processing.

Twitter LinkedIn

Taaltechnologie is straf spul. Ze kan pedofielen ontmaskeren op het internet, of J.K. Rowling aanwijzen als de auteur van The Cuckoo’s Calling, een detectiveroman gepubliceerd onder het pseudoniem Robert Galbraith. Vaak zijn de gebruikte methoden verrassend eenvoudig: door simpelweg woorden te tellen kan je heel wat leren over de auteur van een tekst. Op dezelfde manier kan je ook de publicaties van politieke partijen vergelijken. De resultaten geven een fascinerend inzicht in ons politieke landschap.

Laten we bijvoorbeeld het woordgebruik analyseren in de verkiezingsprogramma’s waarmee de grootste Vlaamse partijen afgelopen lente naar de kiezer trokken. Door te tellen hoe vaak elk woord in zo’n programma voorkomt, kunnen we meten hoe belangrijk een partij een politiek thema vindt. Gaat het om een partij die mobiliteit hoog in het vaandel voert? Verwacht hoge frequenties voor woorden als “vervoer”, “transport”, “bus”, “fiets” of “auto”. Legt een partij eerder de nadruk op onderwijs? Dan zullen woorden als “leerkracht”, “school” en “leerling” vaak voorkomen. Als twee partijen dezelfde thema’s belangrijk vinden, zal dus ook hun woordgebruik normaal gezien erg gelijkaardig zijn.

De figuur hieronder toont de gelijkenis in woordgebruik tussen de programma’s van de zes grootste Vlaamse partijen. Hoe donkerder het vakje op het snijpunt van de twee partijen, hoe meer de partijprogramma’s op elkaar lijken. De patronen zijn erg herkenbaar: aan de linkerkant van de figuur lijken Sp.a en Groen sterk op elkaar, aan de rechterkant vinden we de hoogste verwantschap tussen N-VA en OpenVld. Sommige partijen, zoals N-VA, Sp.a en in iets mindere mate CD&V, hebben gemiddeld gesproken een hoge verwantschap met andere partijen: hun programma beslaat een een breed thematisch spectrum. Andere partijen, zoals Vlaams Belang, staan dan weer meer geïsoleerd, mogelijk omdat ze inzetten op een kleiner aantal thema’s.

Laten we eens naar de woorden kijken die de relaties tussen de partijen het beste beschrijven. Groen en Sp.a danken hun hoge verwantschap aan woorden als “wijkgezondheidscentra”, “genderidentiteit, “coöperatief” en “jeugdzorg”. N-VA en OpenVld schermen beide met “overheidsbeslag”, “pensioenleeftijd” en “zelfstandige”. Met Vlaams Belang deelt N-VA dan weer zijn nadruk op nationaliteit enerzijds (“Wallonië”, “Franstalig”, “nationaliteit”, “Vlaming”, “vreemdelingen”), en criminaliteit anderzijds (“politie”, “criminaliteit” en “gevangenis”). Ook “splitsing” komt vaak voor. CD&V, ten slotte, deelt met Sp.a zijn bekommernis om zorg (“zorgbehoefte”, “zorgvorm”, “psychiatrie”), en met N-VA zijn aandacht voor de economie (“vooruitgang”, “ondernemingszin”,” werkplek”, “horeca”).

Hoe overtuigend deze resultaten ook lijken, woordfrequenties kunnen natuurlijk niet alle nuances van een verkiezingsprogramma vatten. Neem bijvoorbeeld de volgende twee zinnen:

We zullen de werkloosheidsuitkeringen in de tijd beperken.
We zullen de werkloosheidsuitkeringen niet in de tijd beperken.

Ondanks hun bijna identieke woordgebruik, staan deze zinnen qua betekenis lijnrecht tegenover elkaar. Als twee partijen vaak dezelfde woorden gebruiken, zegt dat dus niet noodzakelijk iets over hun complexe politieke standpunten. Wat woordgebruik wel blootlegt, is de thema’s waar een partij belang aan hecht. Uit de resultaten hierboven blijkt dat ook deze thematische verwantschap heel wat informatie over ons politieke landschap bevat.

Vanzelfsprekend kunnen we niet alleen verkiezingsprogramma's met elkaar vergelijken. Onze studie wordt pas echt interessant wanneer we ook het nieuwste regeerakkoord erbij betrekken. In de figuur hieronder zie je dat vooral de programma’s van de CD&V en de N-VA thematisch erg verwant zijn aan dat akkoord. Dat mag niet verbazen: beide partijen onderhandelden tenslotte wekenlang over het resultaat. Typische N-VA-woorden in het regeerakkoord zijn “ondernemingszin”, “inburgering”, “efficiëntie” en “activeringsbeleid”. Typische CD&V-woorden zijn “gezinszorg”, “jeugdhulp” en “vervoersnetwerk”. Zoals verwacht vertonen de verkiezingsprogramma's van Groen en Sp.a al heel wat minder gelijkenissen met het regeerakkoord. Dat van Vlaams Belang wijkt het meeste af.

Opvallender is de positie van OpenVld. De gelijkenis tussen het verkiezingsprogramma van OpenVld en het regeerakkoord is weliswaar groter dan bij Groen, Sp.a of Vlaams Belang, maar beduidend kleiner dan bij CD&V of N-VA. Woorden als “woonbonus”,” ondernemerschap” en “basisonderwijs” verraden een zekere thematische verwantschap, maar erg hoog is die niet. Zien we hier een resultaat van het feit dat OpenVld pas op de valreep bij de onderhandelingen werd betrokken? Bevestigen deze cijfers dat OpenVld van de drie regeringspartijen het minste zijn stempel op het regeerakkoord kon drukken? Het heeft er alle schijn van.

Met woorden tellen kan je een heel eind komen. Enerzijds bevestigt deze kleine studie wat we al wisten: de verwantschap tussen de Vlaamse politieke partijen beantwoordt grotendeels aan onze verwachtingen, en de gedeelde woorden in de partijprogramma's beschrijven inderdaad het gekende profiel van de partijen. Dat schept vertrouwen in de resultaten. Anderzijds geeft ze ook nieuwe inzichten: zo meet ze de invloed die de regeringspartijen op het regeerakkoord hadden, en toont ze dat OpenVld waarschijnlijk heel wat minder in de pap te brokken had dan CD&V en N-VA. Toch moeten we voorzichtig blijven. Een echte politieke analyse gaat natuurlijk heel wat dieper dan dit experiment, en zal naast de algemene thema’s bijvoorbeeld ook de meer complexe partijstandpunten bekijken. Ook taaltechnologie heeft tenslotte zijn limieten.