De opbouw van de resultatensectie van een artikel

Sectie 3: De resultaten van een onderzoek

Rolf Groenwold

Sectie 3. is een onderdeel van de online syllabus 'Medische informatie de baas'. Door middel van een online quiz kunt u deze methodologie-kennis bij uzelf toetsen.


maak quiz

Samenvatting

In de resultatensectie van een artikel vindt u de kwalitatieve en kwantitatieve resultaten van een onderzoek, vaak onderbouwd met een betrouwbaarheidsinterval en een p-waarde.   

3.1 De opbouw van de resultaten

De resultatensectie van een artikel beschrijft, de naam zegt het al, de resultaten van het onderzoek. Dit is de paragraaf waarin getallen worden gepresenteerd, in het bijzonder kwantitatieve schattingen van de relatie tussen de determinant en de uitkomstmaat. Bij alle schattingen moet een maat voor de onzekerheid worden gepresenteerd: een betrouwbaarheidsinterval of een p-waarde.

3.2 Het betrouwbaarheidsinterval

Zoals eerder beschreven is het doel van een medisch onderzoek een uitspraak te doen over de omvang van de relatie tussen de determinant en de uitkomstmaat zoals deze van toepassing is op het domein. Hoe informatief dit ook is, het ultieme doel is niet om de relatie in de onderzoeksgroep te kwantificeren.

De waargenomen relatie dient slechts een hoger doel, namelijk een schatting geven van de relatie in het domein. Voor elk van de beschreven kwantitatieve maten voor de relatie tussen de determinant en de uitkomstmaat geldt dat het schattingen zijn (zie paragraaf ‘Kwantificeren van de relatie tussen determinant en uitkomstmaat’ voor deze kwantitatieve maten). En alles wat we schatten kent een bepaalde mate van onzekerheid. Het is van belang die onzekerheid ook te vangen in een getal. Het betrouwbaarheidsinterval is een manier om dat te doen.
In een onderzoek naar recidieven van borstkanker na operatie bij 40.892 patiënten was het 5-jaarsrisico op een lokaal recidief 2,85%.23 Betekent dit dat het risico op een recidief bij het domein ook exact 2,85% is? Of zou het ook 2,84% of 2,86% kunnen zijn? Of misschien zelfs wel 2,90%? Het antwoord wordt gegeven door het 95%-betrouwbaarheidsinterval; dat was 2,68-3,03%.
In het voorbeeld is het betrouwbaarheidsinterval een maat voor de precisie, of voor de onzekerheid, van het risico op een recidief. Een breed interval vertelt een lezer dat er niet veel zekerheid bestaat over wat dat risico nu precies is, terwijl een smal interval aangeeft dat het risico behoorlijk nauwkeurig is geschat. Het recidiefrisico na operatie voor borstkanker is gebaseerd op informatie van meer dan 40.000 patiënten. Een schatting op basis van zo veel deelnemers zal relatief nauwkeurig zijn en het betrouwbaarheidsinterval is dan ook relatief smal.

Maar wat is een betrouwbaarheidsinterval nu precies? Om de definitie van een betrouwbaarheidsinterval te geven moeten we ons eerst voorstellen dat het onderzoek naar het risico op een recidief vele malen kan worden herhaald. En telkens heeft een risico een bijbehorend betrouwbaarheidsinterval. Als we veel van die intervallen hebben, geldt dat 95% van de 95%-betrouwbaarheidsintervallen (of 90% van de 90%-betrouwbaarheidsintervallen) het werkelijke risico op een recidief in het domein bevat.

Hoewel we ons kunnen voorstellen dat een onderzoek vele malen wordt herhaald, hebben we in de praktijk met één onderzoek te maken, en dus ook met één betrouwbaarheidsinterval. Dit interval kan de waarheid bevatten, maar of dat zo is dat weten we niet.

Het is niet zo dat er een kans is van 95% dat de waarheid in het interval ligt. Voor de fijnproevers: die waarheid ligt erin of die ligt er niet in, maar dat is geen kans.

Als de waarde van ‘geen relatie’ niet in het interval ligt, kan worden geconcludeerd dat er wél een relatie is.

In de praktijk wordt het betrouwbaarheidsinterval gezien als een maat voor de precisie van de effectschatter. 
Potentiële waarden voor de relatie tussen de determinant en de uitkomstmaat die niet in het betrouwbaarheidsinterval liggen, vallen af.24
 

De risicoratio is een relatieve effectmaat en is 1 als er geen relatie is. Als de 1 niet in het betrouwbaarheidsinterval ligt, kan worden geconcludeerd dat er een relatie is tussen de determinant en de uitkomstmaat. Als de 1 echter wél in het betrouwbaarheidsinterval ligt, kan niet worden geconcludeerd dat er een relatie is – en overigens ook niet dat er géén relatie is.

Het risicoverschil is een absolute effectmaat en is 0 als er geen relatie is tussen de determinant en de uitkomstmaat. Voor het risicoverschil moet dus worden gekeken of de 0 in het betrouwbaarheidsinterval ligt.
 

3.3 De p-waarde

Een andere manier om de onzekerheid rond een schatting te kwantificeren is met een formele statistische toets. De uitkomst van die toets is een zogenaamde p-waarde, die op zichzelf minder informatief is dan een puntschatting met bijbehorend betrouwbaarheidsinterval. De voorkeur gaat dan ook uit naar het betrouwbaarheidsinterval.

Het interpreteren van de p-waarde gaat uit van de theoretische situatie dat er geen relatie is tussen de determinant en de uitkomstmaat; dit wordt de nulhypothese genoemd. Zelfs als de nulhypothese waar is, dan nog zal de waargenomen relatie tussen de determinant en de uitkomstmaat niet exact 0 zijn. Door toeval kan deze net wat groter of net wat kleiner zijn.
 

Als de p-waarde groot is, passen de resultaten blijkbaar goed bij de nulhypothese. Als de p-waarde klein is – onderzoekers gebruiken vaak een afkapwaarde van 0,05 – passen de resultaten minder goed bij de nulhypothese en kan de nulhypothese worden verworpen. Hoe kleiner de p-waarde, hoe sterker het bewijs dat de nulhypothese onjuist is.

Stel, in een onderzoek wordt gevonden dat de bloeddruk van de groep patiënten die behandeld werd met een antihypertensivum 5 mmHg lager is dan die van de placebogroep. De p-waarde is de kans dat we een verschil van 5 mmHg of zelfs nog groter vinden als de nulhypothese waar is, dus als er eigenlijk geen verschil in bloeddruk is. In dit onderzoek is de p-waarde 0,02 en kan de nulhypothese dus worden verworpen. De conclusie luidt dat er wél een verschil is in de gemiddelde bloeddruk tussen de groep die werd behandeld met een antihypertensivum en de groep die een placebo kreeg.

De p-waarde is een waarde op een continue schaal en p-waarden van 0,049 of 0,051 verschillen dan ook niet wezenlijk.25Door echter sterk vast te houden aan een bepaalde afkapwaarde, bijvoorbeeld 0,05, kunnen deze vergelijkbare p-waarden tot totaal verschillende conclusies leiden. Laat u niet in de luren leggen en wees kritisch ten aanzien van de conclusies die worden getrokken op basis van p-waarden die dicht bij een afkappunt liggen. 

3.4 Statistische significantie en klinische relevantie

Als een relatie tussen de determinant en de uitkomt statistisch significant is, bijvoorbeeld bij p < 0,05, betekent dat nog niet dat de gevonden relatie ook klinisch relevant is.25

Stel dat een onderzoek aantoont dat een nieuw geneesmiddel de ziektevrije overleving met 1 dag doet toenemen: van gemiddeld 1461 dagen naar 1462 dagen, met bijbehorende p-waarde < 0,01. Is deze relatieve toename van 0,07% relevant? Waarschijnlijk niet.

Het lijkt zo vanzelfsprekend om ook naar de omvang van de relatie tussen de determinant en de uitkomstmaat te kijken en niet alleen naar bijvoorbeeld de p-waarde. Toch zijn er veel onderzoeksartikelen die harde conclusies verbinden aan p-waarden, terwijl klinische implicaties toch vooral zullen afhangen van de omvang van het effect – en van zijn betrouwbaarheidsinterval.

3.5 Waar u op moet letten in de resultatensectie

Bij het lezen van de resultaten moet u zich niet te veel laten imponeren door al die getallen. Bedenk opnieuw dat één vraag, de onderzoeksvraag, centraal staat in het onderzoek en dat het antwoord op die vraag het belangrijkste gegeven is in de paragraaf over de resultaten. En let erop dat u kwantitatieve antwoorden krijgt, inclusief een 95%-betrouwbaarheidsinterval, en niet alleen kwalitatieve uitspraken.

Vaak wordt veel meer informatie gepresenteerd dan alleen het antwoord op die ene onderzoeksvraag. Zijn deze resultaten al aangekondigd in de paragraaf die de methode beschrijft?

Resultaten waarvan de analyses nergens staan beschreven en die als een duveltje uit een doosje verschijnen, moeten met argwaan tegemoet worden getreden. Immers, hoe kunt u nu de betrouwbaarheid van die resultaten inschatten als u niet eens weet hoe die tot stand zijn gekomen?

Als onderzoekers verwijzen naar een tabel of figuur (‘Kijk daar maar voor het antwoord’) en u kunt met geen mogelijkheid dat antwoord vinden, twijfel dan niet aan uzelf. Als onderzoekers u niet kunnen overtuigen, hebben zij hun werk niet goed gedaan.

De methode van een onderzoek (sectie 2)
Informatiekader

Gerelateerde artikelen

Reacties