Dwalingen in de methodologie. XXIX. P

Klinische praktijk
G.S. Sonke
M.M. Rovers
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2001;145:74-7
Abstract
Download PDF

Samenvatting

- Het gebruik van p-waarden en statistische significantie zorgt vaak voor onterechte conclusies uit medische onderzoeksresultaten.

- Enerzijds is een statistisch significante uitkomst van een onderzoek niet altijd klinisch relevant. Anderzijds wordt een klinisch relevant resultaat vaak terzijde geschoven vanwege een niet significante p-waarde.

- De oorzaak van deze onjuiste interpretaties is dat een p-waarde veelal ten onrechte wordt gezien als maat voor relevantie, validiteit en precisie van onderzoeksresultaten.

- In werkelijkheid echter geeft een p-waarde alleen informatie over precisie.

- Bovendien bestaat er in de vorm van betrouwbaarheidsintervallen een betere manier om de precisie van een onderzoek in kaart te brengen.

- Het is dan ook belangrijk dat zowel de redacties van medische tijdschriften als auteurs afzien van het gebruik van p-waarden en de voorkeur geven aan betrouwbaarheidsintervallen.

De grote aandacht voor p-waarden en statistische significantie in medisch-wetenschappelijk onderzoek leidt vaak tot een verkeerde beoordeling van onderzoeksresultaten. Kleine p-waarden kunnen zorgen voor te veel aandacht voor een klinisch niet relevant resultaat, terwijl belangrijke effecten geregeld onopgemerkt blijven door statistisch niet significante p-waarden.

Het volgende voorbeeld geeft aan hoe het gebruik van p-waarden tot onterechte conclusies kan leiden. Het betreft een ingezonden brief in Annals of Internal Medicine van januari 1993.1 2

‘Het recente artikel van Hommes et al.3 is de rapportage van een meta-analyse van 6 gerandomiseerde trials waarin subcutaan toegediende heparine werd vergeleken met continu intraveneus toegediende heparine als eerste behandeling van diep-veneuze trombose. . . . Het resultaat van onze berekening was een oddsratio voor sterfte van 0,61 (95-betrouwbaarheidsinterval: 0,298-1,251; p > 0,05); dit cijfer verschilt sterk van de waarde gerapporteerd door Hommes et al. (oddsratio: 0,62; 95-betrouwbaarheidsinterval: 0,39-0,98; p

Een oddsratio (OR) van 0,6 voor de vergelijking van subcutaan en intraveneus toegediende heparine wil zeggen dat de sterfte na subcutane toediening 40 lager is dan na intraveneuze toediening.4 Ondanks deze OR van 0,6 concluderen de briefschrijvers dat subcutane toediening van heparine niet effectiever is dan intraveneuze. Deze conclusie is gebaseerd op de door hen berekende, niet significante, p-waarde groter dan 0,05. De term ‘statistische significantie’ is nauw verbonden met een methode die in de statistiek bekendstaat als het toetsen van een hypothese. Echter, de conclusie dat een significant resultaat ‘echt’ is en een niet significant resultaat ‘vals’, is om vele redenen onjuist. Bovendien gaat het in de klinische geneeskunde meestal niet zozeer om het toetsen van een hypothese als wel om het schatten van een effect.

hypothesetoetsing en p-waarden

Hypothesetoetsing begint met het formuleren van een zogenaamde nulhypothese (H0). De nulhypothese stelt dat 2 behandelingen (of bijvoorbeeld 2 diagnostische tests) even effectief zijn (of evenveel betekenen). In een onderzoek wordt vervolgens het verschil in behandelingsresultaat bepaald tussen 2 onderzoeksgroepen met elk 1 van de 2 behandelingen. Zelfs als H0 waar is en beide behandelingen inderdaad even effectief zijn, dan nog zal nooit tot op eenduizendste achter de komma hetzelfde resultaat worden gevonden in beide groepen. Bij het toetsen van de nulhypothese staat de vraag centraal of het waargenomen verschil toegeschreven kan worden aan het toeval. Een betrekkelijk klein verschil is goed mogelijk als het effect van 2 behandelingen in feite gelijk is. Een groot verschil is echter onwaarschijnlijk bij eenzelfde effectiviteit. Ter analogie: 2 maal achtereen 6 gooien met een dobbelsteen is geen probleem, de ‘eerlijkheid’ van de steen wordt dan niet in twijfel getrokken; maar wanneer iemand 10 maal achtereen 6 gooit, zal daar wel twijfel over ontstaan.

De vraag is bij welk verschil we beginnen te geloven dat H0 niet waar kan zijn (na hoeveel keer een worp 6 gaan we twijfelen?). Ter beantwoording van deze vraag wordt een statistische maat Z berekend op basis van het waargenomen verschil tussen 2 groepen en van de standaardfout (‘standard error’; SE) van dit verschil (Z = waargenomen verschil/SE). De standaardfout is een maat voor de precisie van het onderzoek en wordt bepaald door de variatie tussen onderzoekspersonen enerzijds en het totale aantal onderzoekspersonen anderzijds. Wanneer het onderzoek een groter verschil laat zien in therapieresultaat, wanneer het onderzoek meer personen bevat en wanneer er minder spreiding in de onderzoeksgegevens zit, zal de waarde van Z toenemen. Met behulp van tabellen of een computer kan de kans worden bepaald dat de betreffende waarde voor Z (of een extremere) wordt gevonden. Deze kans is de veelbesproken p-waarde. De p-waarde wordt dus bepaald door het werkelijk waargenomen verschil en de precisie waarmee dit verschil is gemeten. Als p klein genoeg is, wordt H0 verworpen.

Hoewel hypothesetoetsing een aantrekkelijke methode lijkt voor wie uitspraken wil kunnen doen over gevonden verschillen, doen zich 4 belangrijke problemen voor, die wij in het vervolg van dit artikel bespreken. Ten eerste is de vraag hoe groot een verschil mag zijn nog steeds niet beantwoord. Ten tweede zegt hypothesetoetsing alleen iets over de waarschijnlijkheid van H0 en niets over alternatieve hypothesen. Ten derde geeft een p-waarde een ondoorzichtig beeld van de precisie van de onderzoeksresultaten. Ten vierde noodzaakt hypothesetoetsing de onderzoeker om conclusies te trekken op basis van statistiek en daarmee wordt voorbijgegaan aan de validiteit (geschiktheid) van het onderzoek, aan resultaten uit eerdere onderzoeken en aan de plausibiliteit van het gevonden verband.

Kritieke waarde van p

Volgens de hypothesetoetsing moet H0 worden verworpen in geval van een erg kleine p-waarde. Maar wat is een erg kleine p-waarde? Gewoonlijk wordt een kritieke grens van 5 gebruikt. Deze grens staat bekend als het significantieniveau en wordt meestal aangeduid met de griekse letter ?. Enkele voorbeelden laten snel zien dat kansen zich niet lenen voor het gebruik van een constante kritieke waarde: 5 kans dat een agressieve chemokuur succes heeft, is inderdaad klein, maar 5 kans op fatale bijwerkingen van een nieuw soort antibioticum is juist erg groot.

De boodschap is dat de omstandigheden het referentiekader vormen waarbinnen een kans moet worden beoordeeld. Bovendien zal deze beoordeling door iedereen anders worden gemaakt. De uiterst rigide grens van 5 die in de (bio)statistiek gebruikt wordt om p-waarden op af te rekenen, is daarom niet op zijn plaats. Deze ontneemt immers de vrijheid aan de individuele onderzoeker om zelf te bepalen of een kans groot is of klein. Toetsen gaat daarmee ook volledig voorbij aan de klinische relevantie van een effect: 40 minder sterfte bij diep-veneuze trombose is belangrijk, of dit percentage nu wel of niet statistisch significant is. Gelukkig wordt het onderscheid tussen statistische significantie en klinische relevantie inmiddels veelal onderkend. Dit is een van de argumenten waarmee wordt gepleit voor het geven van betrouwbaarheidsintervallen in plaats van p-waarden. Betrouwbaarheidsintervallen worden verderop besproken.

Afwezigheid van bewijs is geen bewijs van afwezigheid

Analoog aan het verwerpen van H0 in geval van een erg kleine p-waarde, wordt in geval van een grote p-waarde vaak geconcludeerd dat H0 wel waar is: ‘Beide behandelingen zijn even effectief.’ Deze conclusie is echter onjuist. Omdat geen enkele hypothese (dus ook H0 niet) bewezen kan worden, is de juiste interpretatie van een grote p-waarde dat de gegevens verenigbaar zijn met de nulhypothese: als H0 werkelijk waar is, is het niet vreemd om de gevonden resultaten te krijgen.5 6 Bijvoorbeeld: een waargenomen OR van 0,6 met een p-waarde van 0,4 past prima bij H0 (dus een ware OR = 1). We sluiten dus niet uit dat er in werkelijkheid geen verschil is. Tegelijkertijd zijn echter ook andere hypothesen denkbaar. Een gevonden OR = 0,6 met een p-waarde van 0,4 past immers ook prima bij een ware OR = 0,9 of een ware OR = 0,5. Het is in dit geval dus onjuist om te concluderen dat er geen effect is.

Een grote p-waarde is vaak het gevolg van een (te) kleine onderzoeksomvang. Zeker voor het aantonen van kleine effecten (bijvoorbeeld een OR van 0,9) zijn grote onderzoeken nodig. Het is dus verkeerd om op basis van alleen een grote p-waarde te concluderen dat er geen effect is.

Precisie

Bij elk onderzoek zal de onderzoeker zichzelf en zijn lezers moeten overtuigen van de validiteit van de gebruikte onderzoeksmethoden. Hierbij kan gedacht worden aan zaken als randomiseren, blinderen, definiëren van de onderzoekspopulatie en correctie voor vertekening (‘confounding’). Het zal duidelijk zijn dat p-waarden niets zeggen over de validiteit van het onderzoek. Behalve van de validiteit moet de onderzoeker een indruk geven van de precisie van de resultaten. Precisie laat zich makkelijk vertalen als het effect dat zou worden waargenomen indien het onderzoek nogmaals werd uitgevoerd, of liever, als het onderzoek (oneindig) vaak zou worden herhaald. Hierin spelen p-waarden wel een rol. Helaas geven ze geen makkelijk te interpreteren antwoord. Dit laatste is te wijten aan het feit dat p-waarden behalve door precisie ook door de sterkte van de gevonden verbanden bepaald worden. Een kleine p-waarde kan zodoende duiden op een hoge mate van precisie (de noemer van Z), maar ook op een sterk verband (de teller van Z).

‘Big Brother’

Het toetsen van een hypothese bepaalt als een soort ‘Big Brother’ hoeveel geloof men aan een onderzoek moet hechten. Een significant onderzoeksresultaat laat immers niets aan duidelijkheid te wensen over: het verband is er, punt uit. In de praktijk zijn echter veel meer factoren van invloed op het uiteindelijke geloof in onderzoeksresultaten dan statistiek alleen. De opzet van een onderzoek (validiteit), de kennis die er vanuit de literatuur of vanuit klinische ervaring al over een onderwerp bestaat en de biologische plausibiliteit van de onderzochte relatie zijn zeker ook van belang. Zo zal niemand tegenwoordig nog enig geloof hechten aan een onderzoek waarin aangetoond wordt dat longkanker geen verband houdt met roken. Gezien het voorgaande is het onmogelijk om op basis van een p-waarde alleen te concluderen of er wel of geen verband is.

betrouwbaarheidsintervallen

Anders dan p-waarden, die iets zeggen over de waarschijnlijkheid van de nulhypothese, geeft een betrouwbaarheidsinterval (BI) aan tussen welke waarden de resultaten zouden vallen als het onderzoek (oneindig) vaak herhaald zou worden. Anders geformuleerd: wanneer het onderzoek meerdere keren herhaald zou worden, zou het 95-BI in 95 van de gevallen de ‘echte’ waarde bevatten. Een BI geeft dus de precisie van het onderzoeksresultaat weer, het helpt om het effect te schatten. (Terzijde: een BI wordt ook wel gebruikt om een hypothese te toetsen.7 Als H0 luidt: OR = 1 en het 95-BI bevat niet 1 (bijvoorbeeld: 0,6-0,9), dan is de p

Betrouwbaarheidsintervallen kunnen berekend worden rondom alle uitkomstmaten in een onderzoek, zoals een gemiddelde, een percentage, een relatief risico, een OR, een correlatie, het verschil tussen twee gemiddelden of percentages et cetera. Het 95-BI wordt berekend met de formule: X ± 1,96 × SE, waarbij X staat voor het gemiddelde, de OR enzovoort. Net als de kritische grens van 5 voor de p-waarde, is ook een 95-BI niet magisch. Betrouwbaarheidsintervallen van 90 of 99 zijn ook mogelijk. Bij het 90- en het 99-BI dient in de formule met respectievelijk 1,65 en 2,58 in plaats van 1,96 gerekend te worden. In wezen maakt het niet uit of gekozen wordt voor een BI van 90, 95 dan wel 99. Het doel van het BI is immers een indruk te geven van de precisie van het onderzoek. Dit doel wordt met elk BI bereikt. Belangrijk is dat er in ieder geval een BI wordt bepaald en dat men zich niet beperkt tot een enkel statement: wel of niet significant.

beschouwing

P-waarden worden veelvuldig gebruikt bij het beschrijven van onderzoeksresultaten. Vaak zelfs wordt de p-waarde gedichotomiseerd tot p 0,05 en wordt de conclusie van een onderzoek volledig opgehangen aan de aan- of afwezigheid van statistische significantie. Bij het interpreteren van onderzoeksresultaten speelt de statistiek echter vaak een veel beperktere rol dan dikwijls wordt gedacht.

Drie aspecten spelen een rol in de evaluatie van medisch-wetenschappelijk onderzoek: ten eerste de validiteit van het onderzoek, ten tweede de grootte en de klinische relevantie van het gevonden effect, en pas ten derde de precisie van de effectschatting. P-waarden spelen geen enkele rol bij een evaluatie van validiteit en klinische relevantie, terwijl voor de evaluatie van de precisie van het onderzoek een beter alternatief dan de p-waarde voorhanden is in de vorm van betrouwbaarheidsintervallen. P-waarden kunnen zelfs leiden tot paradoxale resultaten: een effect kan klinisch relevant, maar niet statistisch significant zijn, dan wel statistisch significant, maar niet klinisch relevant. Een BI daarentegen geeft een objectieve indruk van de grootte van het effect en de precisie van deze effectschatting.

Het voorbeeld in het begin van dit artikel over twee verschillende toedieningen van heparine laat fraai zien hoe een onjuiste interpretatie van p-waarden kan leiden tot tegenstrijdige conclusies uit onderzoeksresultaten. Immers, de briefschrijvers en de oorspronkelijke auteurs uit het voorbeeld vinden beiden eenzelfde uitkomst: een OR van circa 0,6. Desondanks staan hun conclusies over het verschil in effectiviteit lijnrecht tegenover elkaar. Het verschil in hun beider interpretaties is terug te voeren op een verschil van mening over de precisie van de onderzoeksresultaten. De briefschrijvers kan men verwijten dat zij zich blindstaren op de significantie van de gevonden p-waarden. Tegelijkertijd lijken de oorspronkelijke auteurs de biologische plausibiliteit van de onderzochte relatie uit het oog te verliezen. Het is immers onwaarschijnlijk dat subcutaan gebruik van heparine werkelijk effectiever zou zijn dan intraveneuze toediening. Wellicht hebben ook zij zich laten leiden door de significantie van hun p-waarde.

conclusie

In de huidige tijd van complexe beleidsbeslissingen en bezuinigingen volstaat het niet meer om te weten of een volksgezondheidsmaatregel, een nieuw diagnosticum of een nieuwe therapie wel of niet effectief is. De grootte van de te verwachten baten ten opzichte van de vaak hoge kosten is minstens zo belangrijk. Daarom is het noodzakelijk om bij onderzoeksresultaten een BI als schatting van het werkelijke effect te presenteren, en niet als kans dat een hypothese waar is. Reeds in 1985 hebben medische tijdschriften hun voorkeur voor betrouwbaarheidsintervallen boven of naast p-waarden uitgesproken.8-10 Het belang van p-waarden wordt 15 jaar later echter nog steeds overschat. Het is daarom tijd dat hypothesetoetsing in medisch-wetenschappelijk onderzoek naar de achtergrond verdwijnt en dat de resultaten van met name klinische onderzoeken in de vorm van betrouwbaarheidsintervallen worden gepresenteerd. Alleen dan wordt de lezer van de resultaten serieus genomen en kan deze zelf oordelen over de waarde van het onderzoek.

Literatuur
  1. Messori A, Scroccaro G, Martini N. Calculation errors inmeta-analysis letter. Ann Intern Med 1993;118:77-8.

  2. Rothman KJ. Ten fallacies in epidemiological research.Seminar 10-12-1998. Amsterdam: Vrije Universiteit; 1998.

  3. Hommes DW, Bura A, Mazzolai L, Büller HR, Cate JWten. Subcutaneous heparin compared with continuous intravenous heparinadministration in the initial treatment of deep vein thrombosis. Ameta-analysis. Ann Intern Med 1992;116:279-84.

  4. Scholten RJPM. Dwalingen in de methodologie. XI.‘Odds’ en wat dies meer zij.Ned Tijdschr Geneeskd1998;142:2452-4.

  5. Altman DG, Bland JM. Absence of evidence is not evidenceof absence. BMJ 1995;311:485.

  6. Popper KR. Logik der Forschung. Wenen: Springer;1934.

  7. Feinstein AR. P-values and confidence intervals: two sidesof the same unsatisfactory coin. J Clin Epidemiol 1998;51:355-60.

  8. Gardner MJ, Altman DG. Confidence intervals rather than Pvalues: estimation rather than hypothesis testing. Br Med J (Clin Res Ed)1986;292:746-50.

  9. Stijnen T. Confidence intervals and P-values. Neth J Med1996; 49:177-82.

  10. Rümke ChrL. Betrouwbaarheidsintervallen.Ned Tijdschr Geneeskd1989;133:2013-5.

Auteursinformatie

Universitair Medisch Centrum St Radboud, Postbus 9101, 6500 HB Nijmegen.

Afd. Epidemiologie: dr.G.S.Sonke, epidemioloog.

Afd. KNO: mw.dr.M.M.Rovers, epidemioloog.

Contact dr.G.S.Sonke (g.sonke@mie.kun.nl)

Gerelateerde artikelen

Reacties

A.
Knol

Groningen, januari 2001,

Sonke en Rovers bevelen terecht het gebruik van betrouwbaarheidsintervallen aan (2001:74-7). Bij het berekenen van het betrouwbaarheidsinterval vermelden zij niet de gemaakte veronderstelling en de daarvoor benodigde getalsbewerkingen. Zij schrijven: ‘Het 95%-BI wordt berekend met de formule: X ± 1,96 × SE, waarbij X staat voor het gemiddelde, de OR enzovoort.’ [95%-BI = 95%-betrouwbaarheidsinterval; SE = ‘standard error’; OR = oddsratio.] Aangezien niets wordt verondersteld over de verdeling van de getallen is de factor 1,96 onjuist. Met de ongelijkheid van Tchebyscheff kan de kans worden bepaald dat een getal binnen het betrouwbaarheidsinterval ligt.1 Als m het aantal standaarddeviaties is tussen het gemiddelde en de grens van het betrouwbaarheidsinterval en m > 1, is de kans 1 - 1/m2 dat een getal binnen het betrouwbaarheidsinterval ligt. Als we uitgaan van een kans van 0,95 geeft dit voor m een waarde van 4,47. De formule van de schrijvers wordt dan: X ± 4,47 × SE. Aangezien de ongelijkheid van Tchebyscheff vaak een zeer conservatieve schatting is, lijkt het praktische belang van de formule beperkt. Op soortgelijke wijze kan via de ongelijkheid van Camp en Meidell1 aangetoond worden dat voor eentoppige symmetrische verdelingen geldt: X ± 2,98 × SE. Als we uitgaan van de veronderstelling van een normale verdeling van getallen komen we wel op de door de schrijvers genoemde formule uit. Echter, het betrouwbaarheidsinterval van de OR kan niet met de formule berekend worden. Wel kan het betrouwbaarheidsinterval van log(OR) berekend worden via de formule van de auteurs.2 De zin had beter anders geformuleerd kunnen worden: ‘Onder de veronderstelling van een normale verdeling wordt het 95%-BI berekend met de formule: X ± 1,96 × SE, waarbij X staat voor de zo nodig voor normaliteit getransformeerde waarde van het gemiddelde, de OR enzovoort.’

Een betrouwbaarheidsinterval is alleen zinvol te beoordelen als van de juiste verdeling gebruik is gemaakt. Voor de normale verdeling zijn verschillende tests beschikbaar, onder andere de test van Shapiro-Wilk, die van Shapiro-Francia en een normaliteitsplot.3 De laatste twee kunnen eenvoudig worden uitgevoerd met de calculator die in de hoogste klassen van het middelbaar onderwijs gebruikt wordt.4 5

A. Knol
Literatuur
  1. Jonge H de. Inleiding tot de medische statistiek. 2e dr. Leiden: Nederlands Instituut voor Praeventieve Geneeskunde; 1963. p. 104.

  2. Houwelingen JC van, Stijnen Th, Strik R van. Inleiding tot de medische statistiek. 2e dr. Maarssen: Bunge; 1995. p. 255-60.

  3. Altman DG. Practical statistics for medical research. Londen: Chapman & Hall; 1998. p. 291-2.

  4. T183 Plus grafische rekenmachine. Handleiding. Amstelveen: Texas Instruments; 1999.

  5. T183 Grafische rekenmachine. Handleiding. Amstelveen: Texas Instruments; 1996.

M.D.
Abràmoff

Amstelveen, januari 2001,

De serie ‘Dwalingen in de methodologie’ is een duidelijke en bruikbare uiteenzetting over nut en onnut van epidemiologische technieken voor de medicus practicus, waar elke arts en met name elke arts-onderzoeker kennis van zou moeten nemen. Steeds opnieuw blijkt dat de epidemiologie een belangrijke ondersteunende discipline is voor het klinisch-wetenschappelijk onderzoek. Elke keer wordt duidelijk dat de epidemiologie meer vergelijkingskunst is dan vergelijkingskunde - uiteraard, omdat de basis van de epidemiologie, de statistiek, geen exacte wetenschap is, maar uitgaat van soms discutabele aannamen (en dan vooral van de normale verdeling van kenmerken). Mathematisch is niet te bewijzen dat het gebruik van bijvoorbeeld een p-waarde beter is dan dat van een betrouwbaarheidsinterval of omgekeerd. De keuze voor de ene of de andere methode is voor een veel groter deel afhankelijk van de heersende mode. Belangrijker dan die keuze is dat verschillen of overeenkomsten tussen de onderzochte groepen beredeneerd vergeleken worden. Dan maakt de keuze voor p-waarde of betrouwbaarheidsinterval over het algemeen niet zo heel veel uit, zoals ook uit deel XXIX van ‘Dwalingen in de methodologie’ (2001:74-7) duidelijk wordt. Helaas blijkt het geloof van de schrijvers in de epidemiologie inmiddels zo ver te gaan dat zij de wetenschap verder laten voor wat die is, en het volgende beweren: ‘Zo zal niemand tegenwoordig nog enig geloof hechten aan een onderzoek waarin aangetoond wordt dat longkanker geen verband houdt met roken.’ Dat kan natuurlijk niet. De essentie van wetenschap is de mogelijkheid van falsificatie. Als er overtuigend nieuw epidemiologisch en fysiologisch bewijs is dat longkanker niet door roken wordt veroorzaakt, zullen wetenschappers, ook wetenschappelijk ingestelde epidemiologen, dat aannemen.

Overigens: schrijver dezes heeft geen financieel of ander belang in de tabaksindustrie.

M.D. Abràmoff
G.S.
Sonke

Nijmegen, februari 2001,

Collega Abràmoff stelt terecht dat indien overtuigend epidemiologisch en fysiologisch bewijs beschikbaar komt dat roken niet door longkanker wordt veroorzaakt, wetenschappers dat zullen aannemen. Met de zinsnede: ‘Zo zal niemand tegenwoordig nog enig geloof hechten aan een onderzoek waarin aangetoond wordt dat longkanker geen verband houdt met roken’ wilden wij aangeven dat de kans op een overtuigend ontkrachtend bewijs in dit geval erg klein is. Wetenschappers (en niet-wetenschappers) zullen zich erg moeilijk laten overtuigen van een eventuele afwezigheid van de relatie tussen roken en longkanker. Zij zullen hun geloof in deze theorie niet opgeven naar aanleiding van één enkel nieuw onderzoek. Veel meer zullen zij zich laten leiden door de talloze voorgaande onderzoeken waarin de schade van roken wel wordt aangetoond, en door hun kennis van fysiologie en pathologie.

In de (bio)statistiek bestaat een methode die rekening houdt met het vooraf bestaande geloof in een theorie. Deze benadering staat bekend als de methode van Bayes. Het voordeel van deze methode is dat die de kans bepaalt dat de theorie waar is op basis van het vooraf bestaande geloof in een te onderzoeken theorie in combinatie met nieuwe onderzoeksgegevens. Met een klassieke statistische toets daarentegen kan men alleen een hypothese verwerpen. De methode van Bayes sluit daarom beter aan bij het handelen in de klinische praktijk. Het denken in termen van effectschattingen met betrouwbaarheidsintervallen is een goede stap in de richting van de methode van Bayes. Een effectschatting met het bijbehorende betrouwbaarheidsinterval geeft immers aan hoe groot het werkelijke effect kan zijn. Daardoor is het gebruik van betrouwbaarheidsintervallen wel degelijk te prefereren boven het gebruik van p-waarden.

Overigens zijn wij het niet eens met collega Abràmoff wanneer hij stelt dat statistiek de basis vormt van de epidemiologie. De basis van de epidemiologie is onzes inziens om op basis van onderzoek in een steekproef te komen tot valide effectschatters. De statistiek is vervolgens een hulpmiddel bij het interpreteren van deze effectschatters.

G.S. Sonke
M.M. Rovers