Significantie van p-waardes: onbegrepen en overschat

Klinische praktijk
Olaf M. Dekkers
Rolf H.H. Groenwold
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2018;162:D2161
Abstract
Download PDF

In de rubriek ‘Stand van zaken’ verschijnen regelmatig bijdragen over methoden die gebruikt worden bij het opzetten van wetenschappelijk onderzoek. De artikelen in deze serie illustreren op begrijpelijke wijze wat een bepaalde methode behelst, zonder dat hier uitvoerige methodologische kennis voor nodig is. Zowel oude als nieuwe methodologische principes worden zo inzichtelijk gemaakt voor artsen die klinische onderzoeken goed willen interpreteren.

Samenvatting

  • Een veel gegeven interpretatie van de significante p-waarde (p < 0,05) is dat ‘de kans dat de conclusie onwaar is, slechts 5% is’. Deze interpretatie is niet correct.
  • Voor observationeel onderzoek is bij een p-waarde < 0,05 de kans op een fout-positief signaal ongeveer 50%. Dat betekent dat significante p-waardes ons veel minder zekerheid over de correctheid van een conclusie geven dan we graag geloven.
  • Veel zou al gewonnen zijn wanneer het benadrukken van de p-waarde plaatsmaakt voor (a) het schatten van de grootte van een effect met de bijbehorende statistische onzekerheid (weergeven met het betrouwbaarheidsinterval); (b) het inschatten van de klinische relevantie van dat effect; en (c) het beoordelen van een studie en de resultaten in de bredere context van andere publicaties over hetzelfde onderwerp.
Leerdoelen
  • De significante p-waarde wordt vaak verkeerd begrepen en heeft in de context van observationeel onderzoek veel minder bewijskracht dan we graag willen geloven.
  • Om een conclusie te staven is het beter een studie te beoordelen in de bredere context van andere publicaties over hetzelfde onderwerp, en in te schatten wat de klinische relevantie van een effect is, dan nadruk op de p-waarde te leggen.

artikel

Tijdens het refereren van medische artikelen in de diverse gremia valt vaak de nadruk op p-waardes en significantie op. In de plaatjes met resultaten worden de ‘significante’ resultaten dikgedrukt en bij de conclusie wordt nog eens benadrukt dat een effect écht significant was. Niets kan dan zo verwarrend zijn als de referent te vragen ‘de betekenis of definitie van de p-waarde nog een keertje uit te leggen’. Veelal komt de referent niet verder dan ‘dat heeft te maken met kans op toeval’, of na iets langer denken ‘de kans dat de conclusie onwaar is, is maar 5%’.

Laat ons vooropstellen dat deze laatste stelling niet correct is. Desondanks geven veel clinici en onderzoekers dit als interpretatie van de significante p-waarde. Wanneer de misinterpretatie van p-waardes alleen statistische details zou betreffen, is er niet veel aan de hand; maar in dit artikel willen we laten zien waarom deze misinterpretatie van p-waardes wel degelijk relevant is en kan leiden tot ongenuanceerde interpretaties van wetenschappelijke publicaties.

Een positieve diagnostische testuitslag

Laten we beginnen met een analogie uit de klinische praktijk. Een jonge vrouw komt voor reguliere zwangerschapscontrole op de polikliniek. De hemoglobine- en glucosewaardes zijn volgens indicatie gecontroleerd. Daarnaast is – toevallig en zonder dat daar een indicatie voor was – ook de D-dimeerwaarde bepaald. Deze blijkt marginaal verhoogd te zijn. De meeste artsen zullen direct de mogelijkheid van een fout-positieve uitslag overwegen en waarschijnlijk, na een korte anamnese en lichamelijk onderzoek, besluiten de positieve uitslag van de D-dimeertest naast zich neer te leggen. Kortom, een positieve testuitslag wordt niet zonder meer gezien als keihard bewijs voor ziekte.

De reden voor deze handelwijze is dat artsen globaal weten hoe groot de voorafkans is dat een zwangere zonder klachten trombose heeft en hoe vaak deze test een positieve uitslag geeft in afwezigheid van trombose; deze informatie noemen we formeel: 1-specificiteit van een test. Vervolgens zal de arts deze informatie intuïtief vertalen in de kans dat een positieve testuitslag daadwerkelijk op ziekte wijst; dit is de positief voorspellende waarde van een test. Heeft een patiënt een laag risico op ziekte, zoals deze zwangere, dan is de kans groot dat de testuitslag fout-positief is.

Wat artsen bij diagnostische testen automatisch doen, namelijk inschatten hoe groot de kans is dat een test daadwerkelijk op ziekte duidt, laten we bij de beoordeling van p-waardes vaak achterwege. We interpreteren de p-waarde als een soort garantie voor waarheid. Ten onrechte, zo zal blijken.

Iets formeler: wat is een p-waarde?

In medisch onderzoek beginnen we met een nulhypothese, die meestal – maar niet noodzakelijk – negatief wordt geformuleerd, bijvoorbeeld: ‘De behandeling met middel X werkt niet’ of ‘Nutriënt Y heeft geen effect op het ontstaan van kanker’. Vervolgens relateren we de geanalyseerde uitkomsten van een studie aan deze nulhypothese. Hier komt de p-waarde om de hoek kijken. De p-waarde is de kans dat we uitkomsten krijgen zoals de studie die opgeleverd heeft terwijl de nulhypothese waar is.

Een p-waarde die heel dicht bij de 1,0 ligt, vertelt dat de uitkomsten zeer goed compatibel zijn met de nulhypothese dat er geen effect is. Een voorbeeld is een recent onderzoek bij patiënten met een subklinische hypothyreoïdie, waarin gekeken werd naar het effect van behandeling met schildklierhormoon op de schildklier-specifieke kwaliteit van leven. De p-waarde van dit effect was 0,99, zeer goed compatibel met de nulhypothese van geen effect.1

Een voorbeeld van een zeer kleine p-waarde (p < 0,001) vinden we in een studie naar huwelijksgeluk onder 19.000 personen. Deze studie liet zien dat stellen die elkaar online hebben ontmoet een bevredigender huwelijk hebben.2 Als de nulhypothese – geen verband tussen de manier van ontmoeten en huwelijksgeluk – waar is, is het zeer onwaarschijnlijk dat je toch een dergelijk verband vindt; anders gesteld: de uitkomsten suggereren dat de nulhypothese onwaarschijnlijk is. Let wel, deze uitspraak over significantie zegt nog niet veel over klinische relevantie; wij zullen daar verderop op terugkomen.

Wat zegt een significante p-waarde?

De vraag is nu in hoeverre we de p-waarde kunnen gebruiken om aan te geven hoe waarschijnlijk het is dat de nulhypothese feitelijk waar of onwaar is.

Terug naar de diagnostiek in de klinische praktijk. Laten we aannemen dat we een test voor trombose hebben (test Z) met een specificiteit van 95% (dat wil zeggen: de uitslag is fout-positief bij 5% van alle mensen zonder trombose). De zeggingskracht van een positieve testuitslag is afhankelijk van de populatie waarin wordt getest. Als we testen in een populatie met een laag risico op ziekte, is verhoudingsgewijs het aandeel fout-positieve uitslagen groter. Testen we dus in een populatie waarin maar een klein percentage een trombose heeft, dan is de kans op een fout-positieve testuitslag substantieel.

Dit idee kunnen we vertalen naar p-waardes. De p-waarde kan worden gezien als 1-specificiteit van een wetenschappelijke toets; anders gezegd: de p-waarde representeert de kans op een fout-positieve testuitslag terwijl de nulhypothese waar is. De, overigens arbitraire,3 grens van 0,05 om van significantie te kunnen spreken betekent dat 5% van alle ware nulhypothesen verworpen wordt en er ten onrechte een effect wordt geclaimd. De specificiteit van een wetenschappelijk toets is dus 95%. Dit leidt echter niet logischerwijs tot de conclusie dat er bij een studie met een p < 0,05 maar 5% kans is dat we ten onrechte de nulhypothese verwerpen, en dat er 95% kans is dat het gevonden effect reëel is. Waarom? Om precies dezelfde reden als waarom we bij positieve diagnostische tests met een specificiteit van 95% niet standaard kunnen concluderen dat er 95% kans op ziekte is.

Stel, we doen onderzoek naar leefstijlfactoren als mogelijke oorzaak van auto-immuunschildklierziekten. Daartoe krijgen patiënten en controledeelnemers aan het onderzoek – mensen zonder een auto-immuunschildklierziekte – een vragenlijst met 100 vragen over hun leefstijl. Tijdens de analyse kan elk van deze 100 factoren worden gerelateerd aan het optreden van schildklierziekte, waarbij telkens de nulhypothese luidt dat er geen verband is. We kunnen ervan uitgaan dat de kans dat de nulhypothese waar is (‘er is geen verband’) voor de meeste variabelen heel groot is. Hoe groot? Dat is niet met zekerheid vast te stellen, maar 90% is een conservatieve schatting.4 Tijdens onze gegevensanalyse vinden we voor enkele factoren een significant verband (p < 0,05), bewijst dit daadwerkelijk een oorzakelijk verband tussen de betreffende leefstijlfactoren en het optreden van schildklierziekte?

Laten we aannemen dat onze studie een power heeft om in 50% van de gevallen dat er daadwerkelijk een verband is, dit verband ook aan te tonen. Nu kunnen we de voorspellende waarde van de positieve onderzoeksuitslag (p < 0,05) schatten. Men heeft laten zien dat van alle significante uitkomsten in een setting als de onze (90% kans dat de nulhypothese waar is), ongeveer 50% fout-positief is; dat ligt ver af van de vaak geclaimde 5%.5 Hoe kan dat? Met 90% kans dat de nulhypothese waar is, en een power van 50%, wordt de verhouding tussen terecht-significante p-waardes en fout-positieve p-waardes ongeveer 50/50. De positief voorspellende waarde ligt dus eveneens op ongeveer 50%.

Kortom, p-waardes geven ons veel minder zekerheid over de correctheid van een conclusie dan we graag geloven. De zekerheid die de p-waarde geeft neemt verder af bij het toetsen van heel onwaarschijnlijke hypothesen.

Significante p-waardes in RCT’s

En hoe zit het met gerandomiseerd onderzoek? In RCT’s is de kans dat er geen effect bestaat toch kleiner dan de hiervoor genoemde 90%? Dat klopt. Er zijn theoretische (equipoise-principe), ethische (‘uncertainty’-principe) en empirische argumenten die aangeven dat de kans dat de nulhypothese waar is in een RCT ongeveer 50% is. Als we dezelfde redenering als hierboven volgen, komt dit neer op een positief voorspellende waarde van een significante p-waarde van ongeveer 80%.6

Merk op dat de zeggingskracht van een p-waarde ook afhankelijk is van de exacte p-waarde. Een p-waarde van 0,0001 pleit veel sterker tegen de nulhypothese dan een p-waarde van 0,049. Om die reden is het zinvol de p-waarde als exact getal te geven. Let wel, dergelijke redeneringen gaan uit van de aanname dat de studie perfect is uitgevoerd en dat er geen belangrijke meetfouten of onvergelijkbaarheid tussen groepen bestaat. Is dat wel het geval, dan neemt de voorspellende waarde van p verder af.

Statistisch significant is niet hetzelfde als klinisch relevant

Een tweede probleem van p-waardes is dat ze geen antwoord geven op de vraag naar klinische relevantie, zelfs al zijn ze statistisch significant. Een studie kan een zeer lage p-waarde geven, maar toch wijzen op een klinisch niet-relevant verschil. Kijk maar naar de studie over huwelijksgeluk en de manier waarop stellen elkaar ontmoet hebben. Zoals gesteld suggereert de lage p-waarde (p < 0,001) dat de uitkomsten niet goed compatibel zijn met een ware nulhypothese. Maar nadere inspectie van de gegevens laat zien dat het effect – hoewel zeer significant – marginaal is: het gaat om gemiddelde scores van 5,48 versus 5,64 op een 7-punts-tevredenheidsschaal.2

In plaats van p-waardes

De aantrekkingskracht van de p-waarde als maat voor significantie ligt in zijn eenvoud: een even simpele als heldere beslisregel die aangeeft welke effecten wel, en welke effecten niet als positief geduid mogen worden. We hebben geprobeerd te laten zien dat bij een dergelijke simpele beslisregel de kans op een fout-positieve conclusie onverantwoord groot is, in ieder geval bij niet-gerandomiseerd onderzoek. Dat is evenmin origineel als nieuw.7 Epidemiologen en statistici pleiten al veel langer tegen het benadrukken van p-waardes om conclusies te staven.8

De eerste reden om daartegen te pleiten hebben we in het voorgaande uitgelegd: p-waardes hebben een beperkte bewijskracht. Een tweede reden is dat studies door de nadruk op p-waardes te zeer in isolatie worden gezien. Voor de meeste studieonderwerpen geldt dat er al veel over gezegd en geschreven is. Dat kan niet zomaar worden genegeerd wanneer een studie wordt besproken. Slechts sporadisch kan immers één enkele studie worden gezien als definitief bewijs. Daarnaast zegt de p-waarde niets over de grootte en relevantie van een gevonden verband.

Veel zou gewonnen zijn wanneer het benadrukken van de p-waarde plaatsmaakt voor (a) het schatten van de grootte van een effect met de bijbehorende statistische onzekerheid (weergeven met het betrouwbaarheidsinterval); (b) het inschatten van de klinische relevantie van dat effect; en (c) het beoordelen van een studie en de resultaten in de bredere context van andere publicaties over hetzelfde onderwerp.

Literatuur
  1. Stott DJ, Rodondi N, Kearney PM, et al; TRUST Study Group. Thyroid hormone therapy for older adults with subclinical hypothyroidism. N Engl J Med. 2017;376:2534-44. Medlinedoi:10.1056/NEJMoa1603825

  2. Cacioppo JT, Cacioppo S, Gonzaga GC, Ogburn EL, VanderWeele TJ. Marital satisfaction and break-ups differ across on-line and off-line meeting venues. Proc Natl Acad Sci USA. 2013;110:10135-40. Medlinedoi:10.1073/pnas.1222447110

  3. Rosendaal FR. The p-value: A clinicians disease? Eur J Intern Med. 2016;35:20-3. Medlinedoi:10.1016/j.ejim.2016.08.015

  4. Sterne JA, Davey Smith G. Sifting the evidence – what’s wrong with significance tests? BMJ. 2001;322:226-31. Medlinedoi:10.1136/bmj.322.7280.226

  5. Ioannidis JP. Why most published research findings are false. PLOS Med. 2005;2:e124. Medlinedoi:10.1371/journal.pmed.0020124

  6. Nuzzo R. Scientific method: statistical errors. Nature. 2014;506:150-2. Medlinedoi:10.1038/506150a

  7. Berkson J. Tests of significance considered as evidence. Journal of the American Statistical Association 1942;37:32535. Int J Epidemiol. 2003;32:687-91. Medlinedoi:10.1093/ije/dyg255

  8. Greenland S, Senn SJ, Rothman KJ, et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016;31:337-50. Medlinedoi:10.1007/s10654-016-0149-3

Auteursinformatie

LUMC, afd. Klinische Epidemiologie en afd. Interne Geneeskunde, Leiden.

Contact prof.dr. O.M. Dekkers (o.m.dekkers@lumc.nl)

Belangenverstrengeling

Belangenconflict en financiële ondersteuning: geen gemeld.

Auteur Belangenverstrengeling
Olaf M. Dekkers ICMJE-formulier
Rolf H.H. Groenwold ICMJE-formulier
Olaf Dekkers​

Gerelateerde artikelen

Reacties