Sprockler in relatie tot statistiek

Sprockler’s statisticus René van der Heijden deelt zijn visie op de combinatie van Sprockler en statistisch onderzoek.

Bij Sprockler draait het om het verzamelen van verhalen. Verhalen die door de respondenten zelf op hun merites beoordeeld en geclassificeerd worden en die vervolgens met onze Visualizer met al die eigenschappen worden gepresenteerd. Met de juiste presentatie kunnen dan patronen zichtbaar worden waaruit waardevolle inzichten kunnen ontspruiten. Maar van statistisch bewijs is bij dit alles geen sprake. Soms geven onze gebruikers aan hier moeite mee te hebben. Soms hebben ze er zelf moeite mee, maar vaker hebben ze er moeite mee om hun opdrachtgevers te overtuigen dat Sprockler desondanks een geschikte methode is. Laat ik voorop stellen dat alle informatie in Sprockler downloadbaar is in een vorm die direct geschikt is voor statistische analyse met bijvoorbeeld SPSS. Een enkele keer heb ik dat zelf gedaan om voor een klant van Sprockler voor vele associaties de significantie uit te rekenen. Wat grafisch al duidelijk was wordt dan verder onderbouwd met “harde statistiek”.

In dit stuk wil ik jullie aandacht vragen voor die “harde statistiek” en die wil ik wat relativeren. Als statisticus ga ik natuurlijk niet zeggen dat statistiek onzin is. Er zijn vele toepassingen waar statistiek uitzonderlijk goede diensten bewijst, maar het belang van statistiek wordt vaak overdreven.

Verfraaide waarheid

Mijn indruk is dat dat vooral komt door een te dogmatische kijk op de dingen. Als een verschijnsel de 95% toets doorstaat wordt het ervaren als “waar”, zo niet dan is het “onwaar”. Als je hier even bij stilstaat snap je meteen dat dit onjuiste beeldvorming is.

Daar komt bij dat er in enquêtes enorm veel wordt gelogen – ach “liegen” is misschien te sterk uitgedrukt - maar mensen beantwoorden vragen vaak in lijn met hoe ze zichzelf graag zien. Dit verklaart de hoge percentages verfraaide antwoorden, zelfs als men er van overtuigd is dat de enquête volledig anoniem is. Dit effect blijft bestaan als de vragen zo worden geformuleerd dat het gemakkelijk wordt gemaakt om de waarheid te zeggen. Dit is algemeen bekend, maar bij de interpretatie van de resultaten wordt er toch maar weinig rekening mee gehouden. De getallen doen zich voor als het beste dat we hebben om conclusies aan te verbinden. Bij de vraag “Houdt u zich altijd aan de snelheidslimiet of rijdt u op de parkeerplaats ook wel eens harder dan de toegestane limiet van 10km/h?” heb ik gezien dat 40% aangeeft zich niet altijd aan de snelheidslimiet te houden, terwijl metingen laten zien dat 75% steevast te hard rijdt! Wat betekent het nu, in dit licht bezien, als een herhaald onderzoek een jaar later laat zien dat significant minder mensen de snelheidslimiet overtreden?

Ook de invloed van de onderzoekers zelf wordt nogal eens onderschat. Men kan, bewust of onbewust, sturen met de steekproef, de vragenlijst, hun volgorde en hun exacte formulering, het moment van opname, set en setting, de omgang met outliers en talloze andere aspecten. Een aspect waar men maar weinig invloed op heeft is de groep weigeraars die zelden willekeurig is en een flinke bias tot gevolg kan hebben. Bij het verwerken van de data moet men kiezen welke verbanden worden bekeken, kan men zich beperken tot een deelgroep, kiest men het niveau van significantie en, last but not least, worden de resultaten door de onderzoekers geïnterpreteerd in het rapport. Niet zelden wijkt die interpretatie nogal af van de feitelijke statistische resultaten. Het lijkt erop dat de onderzoekers al op voorhand een overtuiging hebben, die zij maar al te vaak bevestigd zien met hun onderzoek. Dr Sanne Blauw (econometrist en journalist) zegt hierover: “Iemand anders, met dezelfde onderzoeksvragen maar een andere overtuiging of invalshoek, was waarschijnlijk op andere resultaten uitgekomen. Cijfers zouden objectief moeten zijn, maar ineens zag ik hoe sterk ze verbonden waren met de onderzoeker.”

Een overtuigend verhaal

Je kunt significantie wel keurig uitrekenen op basis van de verzamelde gegevens, maar dat zou op zich weinig overtuigend moeten zijn. Uiteindelijk gaat het niet om de statistiek, maar om een overtuigend verhaal. Daar kan statistiek dan wel een rol in spelen. Significantie op zichzelf is nooit voldoende overtuigend. We moeten ook overtuigd zijn van de kwaliteit van de geanalyseerde data, de objectiviteit van de onderzoekers, de gebruikte methodes, de mate waarin alternatieve verklaringen zijn onderzocht. Ook moet de vraag worden gesteld wat significantie precies betekent. Significantie gaat niet over “de waarheid”, maar doet alleen een uitspraak over toeval. Toeval onder bijzondere condities van de nulhypothese.

Wat is de overeenkomst tussen röntgenstraling, draadloze telegrafie, de CCD beeldsensor, het bestaan van bloedgroepen, elektrolyse, penicilline, en de MRI scanner? Het zijn allemaal vindingen waarvoor een Nobelprijs is toegekend! Hoeveel statistiek hebben we nodig om te zien dat penicilline werkt? Dat je met een MRI scanner een beeld van het inwendige van de mens kan maken? Dat bloedgroepen bestaan? Nobelprijswaardige ontdekkingen zijn zo evident overtuigend dat er geen statistiek nodig is. Dat geldt ook voor andere verbanden. Bij duidelijke verbanden is geen statistiek nodig. Bij onduidelijke verbanden kan statistiek een relatie min of meer aantonen maar is de waarde van het verband onduidelijk.

Data en verhalen

Het is vaak moeilijk om de juiste statistische sommetjes te maken voor de gecompliceerde werkelijkheid. Het resultaat van de verkeerde (vereenvoudigde) sommetjes lijkt soms overtuigend, maar mag dat natuurlijk niet zijn. Waar het gaat om causaliteit ligt de zaak nog ingewikkelder. Heel vaak worden causale verbanden gesuggereerd bij het vinden van een duidelijke associatie. Dit is vooral aan de hand bij tunnelvisie als men een bepaald verband wil zien. De feiten zijn belangrijk, maar uiteindelijk gaat het om de betekenis ervan. Die volgt niet zomaar uit de statistiek. Verhalen bevatten daarentegen vaak wel informatie over oorzaak en gevolg. Verhalen zijn vaak zeer overtuigend, vooral als ze niet op zichzelf staan. Dat is waar het bij Sprockler om gaat: verhalen verzamelen en laten zien dat ze niet op zichzelf staan.

Tegelijk kan iedereen natuurlijk de data downloaden en, net zoals bij andere enquête-tools statistisch analyseren met externe software. Dat gezegd hebbende hebben we bij Sprockler wel de ambitie om op termijn statistiek toe te voegen aan ons product.

Rene van der Heijden
Statisticus


Bekijk alle berichten