Wat voor type onderzoek is uitgevoerd (onderzoeksopzet)?

Sectie 2: De methode van een onderzoek

NTvG Syllabus Methodologie
Rolf Groenwold
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2017;161:B1878

Sectie 2. is een onderdeel van de online syllabus 'Medische informatie de baas'.

Leestijd theorie: 30 min.

Maak de quiz bij sectie 2.

 

Samenvatting

De geloofwaardigheid, betrouwbaarheid en validiteit van onderzoeksresultaten staan of vallen met de juiste methode. Dit onderdeel van een wetenschappelijk artikel verdient dan ook aandacht. De resultaten en conclusie van een onderzoek kunnen slechts relevant zijn als de methodologie van het onderzoek goed in elkaar steekt.

Kernpunten
  • De essentie is dat de onderzoeksopzet moet passen bij de onderzoeksvraag en dus bij de aard van het onderzoek.
  • Het is goed u te realiseren dat er altijd een selectie plaatsvindt in de stap van domein naar onderzoeksgroep, al is het maar omdat we het onderzoek nú doen en het domein zich mogelijk ook uitstrekt in de toekomst.
  • Maar wanneer de groep die meedeed aan het onderzoek wezenlijk verschilt van een toekomstige patiënt, moet u bij de interpretatie van de resultaten extra aannames doen om iets te kunnen zeggen over het effect van de behandeling bij die toekomstige patiënt.
  • Als waarnemingen selectief ontbreken, kan dit tot bias leiden.

2.1 De opbouw van de methode

NTvG-hoofdredacteuren Van der Graaf en Zaat schreven al in een inleidend artikel: ‘Veel lezers hebben een hekel aan de methodologieblokjes in onderzoeksartikelen. Zet je over je weerzin heen, want als je die blokjes wel leest, hoef je de rest vaak niet meer te lezen en dat spaart tijd.’  De geloofwaardigheid, betrouwbaarheid en validiteit van onderzoeksresultaten staan of vallen met de juiste methode. Dit onderdeel van een artikel verdient dan ook aandacht. De resultaten en conclusie van een onderzoek kunnen slechts relevant zijn als de methodologie van het onderzoek goed in elkaar steekt.

De methodesectie van een artikel beschrijft hoe het onderzoek is uitgevoerd, zonder daarbij al resultaten te noemen. Deze sectie is een soort recept en is bij voorkeur zo nauwkeurig beschreven dat ze een lezer in staat stelt om precies hetzelfde onderzoek te gaan doen. De eerste alinea vermeldt wat voor type onderzoek is uitgevoerd (onderzoeksopzet). Vervolgens wordt beschreven over welke groep patiënten informatie is verzameld en wat er bij hen allemaal is gemeten (onderzoeksgroep). Tot slot wordt de statistische analyse van de verzamelde gegevens beschreven (statistische analyse).

Dit hoofdstuk volgt dezelfde indeling als een methodesectie in een artikel. Daarbij is een aparte paragraaf gewijd aan bias, een begrip dat op verschillende plekken in een methodesectie kan worden genoemd. Door een goede onderzoeksopzet kan bias worden voorkomen of kan hiervoor worden gecorrigeerd in de analyse van het onderzoek.

 

2.2 De onderzoeksopzet

Klinisch onderzoek kan worden onderscheiden in etiologisch, diagnostisch, therapeutisch en prognostisch onderzoek;9 dit noemen we de aard van het onderzoek. Causaal onderzoek (etiologisch of

Therapeutisch onderzoek

Therapeutisch onderzoek richt zich op de effecten van therapeutische interventies, bijvoorbeeld geneesmiddelen.

) onderscheidt zich van predictieonderzoek (diagnostisch of prognostisch onderzoek) door het expliciet toeschrijven van een waargenomen relatie tussen de determinant en de uitkomstmaat aan een effect van de determinant. Causaal onderzoek gaat om het begrijpen van oorzakelijke verbanden tussen determinanten en uitkomstmaten. In predictieonderzoek willen we weten óf een determinant voorspelt, niet waarom hij voorspelt.

1

De vraagstelling en de aard bepalen hoe de opzet van een onderzoek moet zijn. Therapeutische vragen leiden bijvoorbeeld tot een andere opzet dan diagnostische of prognostische vragen. De essentie is dat de onderzoeksopzet moet passen bij de onderzoeksvraag en dus bij de aard van het onderzoek.

Therapeutisch onderzoek richt zich op de effecten van therapeutische interventies, bijvoorbeeld geneesmiddelen. De basis van een dergelijk onderzoek is een vergelijking tussen 2 groepen mensen: de ene groep krijgt de therapeutische interventie en de andere groep krijgt deze interventie niet of krijgt een alternatieve interventie, bijvoorbeeld een ander geneesmiddel of een niet-farmacologische interventie. Bij beide groepen wordt het optreden van de uitkomstmaat of uitkomstmaten gedurende een bepaalde tijdsspanne bestudeerd. Het domein omvat in principe alle mensen die een indicatie hebben om de therapeutische interventie te ondergaan; mensen zonder deze indicatie of met een contra-indicatie vallen hier buiten. Hét voorbeeld van een therapeutisch onderzoek is een gerandomiseerde gecontroleerde trial (RCT).10

Etiologisch onderzoek kijkt naar risicofactoren voor ziekten en lijkt veel op therapeutisch onderzoek, maar bij etiologisch onderzoek heeft de determinant een schadelijk effect op de gezondheid. Ook in etiologisch onderzoek wordt een vergelijking gemaakt tussen 2 – of meer – groepen: de ene groep heeft de potentiële risicofactor wel en de andere groep heeft deze risicofactor niet. Het domein omvat mensen die in principe kunnen worden blootgesteld aan de determinant en die de uitkomstmaat kunnen krijgen. Wanneer de waargenomen relatie tussen de determinant en de uitkomstmaat als een oorzakelijk verband wordt geïnterpreteerd, ligt echter wel het gevaar van confounding op de loer (zie paragraaf ‘Confounding’).

Prognostisch onderzoek draait om het ziektebeloop bij patiënten, dat wil zeggen: mensen die al een ziekte hebben. Hiermee onderscheidt het zich van etiologisch onderzoek, dat gaat over mensen die een bepaalde ziekte kunnen krijgen. Daarnaast richt etiologisch onderzoek zich op de effecten van afzonderlijke determinanten, terwijl prognostisch onderzoek op basis van de combinatie van verschillende determinanten tot een voorspelling probeert te komen.

In therapeutisch, etiologisch en prognostisch onderzoek worden de determinant en de uitkomstmaat bij voorkeur niet op hetzelfde moment gemeten. Om dat aan te geven worden de termen ‘prospectief’ en ‘retrospectief’ nog wel eens gebruikt, maar deze worden ook op andere manieren ingezet. Het nuttigste gebruik van deze woorden gaat uit van de onderzoeker en het optreden van gezondheidsuitkomstmaten die hij of zij bestudeert.

Stel dat een onderzoeker vandaag besluit een onderzoek te doen met gegevens die al verzameld zijn voor een ander doel, bijvoorbeeld de gegevens in een elektronisch patiëntendossier. Wanneer de gezondheidsuitkomstmaten optreden voordat het onderzoek begint, is sprake van een retrospectief onderzoek. De onderzoeker kan helemaal niets meer veranderen aan de kwaliteit van de onderzoeksgegevens. Maar als de onderzoeker vandaag een onderzoek gaat doen waarvoor de gezondheidsuitkomstmaten nog moeten optreden, gaat het om een prospectief onderzoek. De onderzoeker kan er dan zelf voor zorgen dat de onderzoeksgegevens van goede kwaliteit zijn en passen bij zijn vraag.

De termen ‘prospectief’ en ‘retrospectief’ zijn op zichzelf weinig informatief. Het is veel belangrijker om te weten hóé de blootstelling of de uitkomstmaat in een onderzoek is gemeten dan wanneer die is gemeten. Of mensen bijvoorbeeld zijn overleden is meestal goed vastgelegd, ongeacht of een onderzoek retrospectief of prospectief is uitgevoerd. Maar als het gaat om de oorzaak van overlijden, is deze mogelijk beter vastgelegd in een prospectief onderzoek dan in een retrospectief onderzoek.

In diagnostisch onderzoek wordt de waarde onderzocht van één of meerdere testen in het voorspellen van de aan- of afwezigheid van een ziekte op een bepaald moment. Diagnostisch onderzoek onderscheidt zich van de vorige 3 typen onderzoek, omdat hierbij de determinant (de diagnostische test) en de uitkomstmaat (de aan- of afwezigheid van een bepaalde ziekte) tegelijkertijd worden gemeten. Een dergelijke onderzoeksopzet wordt dwarsdoorsnedeonderzoek (of transversaal onderzoek of cross-sectioneel onderzoek) genoemd. Of de uitkomstmaat wel of niet aanwezig is, wordt vastgesteld met een referentietest; deze test is de gouden standaard.


2.3 De onderzoeksgroep

Het doel van een onderzoek is een uitspraak te doen over de omvang van de relatie tussen de determinant en de uitkomstmaat en deze vervolgens te generaliseren naar het domein. Het onderzoek wordt gedaan bij een zogenaamde steekproef, onderzoeksgroep of onderzoekspopulatie en uiteindelijk moeten de resultaten van het onderzoek worden terugvertaald naar het domein.

Het is goed je te realiseren dat er altijd een selectie plaatsvindt in de stap van domein naar onderzoeksgroep, al is het maar omdat we het onderzoek nú doen en het domein zich mogelijk ook uitstrekt in de toekomst. Hoe meer de onderzoeksgroep een afspiegeling is van het domein – dus hoe representatiever de onderzoeksgroep is – hoe eenvoudiger een dergelijke vertaling is.

Maar ten aanzien van wát moet de onderzoeksgroep representatief zijn?

Stel, een onderzoek naar de effectiviteit van chirurgie vergeleken met fysiotherapie bij vrouwen met stressincontinentie wordt uitgevoerd in Utrecht.2 Vrouwen uit bijvoorbeeld Zeeland zijn dus niet vertegenwoordigd in dit onderzoek. En toch zullen de resultaten net zo goed van toepassing zijn op Zeeuwse vrouwen met stressincontinentie, of op Limburgse, Duitse of Belgische vrouwen.

De reden daarvoor is dat we denken dat al deze groepen vrouwen biologisch veel op elkaar lijken en dat de effecten van de behandeling daarom ook hetzelfde zullen zijn. Als de omvang van het effect niet wordt beïnvloed door de geografische locatie, is het niet van belang een onderzoeksgroep te hebben die in geografisch opzicht representatief is voor het domein. Maar misschien is het effect wel afhankelijk van de leeftijd of pariteit. Dan wordt de omvang van het effect wél beïnvloed door dergelijke factoren (zie paragraaf ‘Effectmodificatie’). Dat betekent dat representativiteit ten aanzien van die factoren wel van belang is.11

Het generaliseren van onderzoeksresultaten naar toekomstige patiënten die veel lijken op de deelnemers aan een onderzoek is relatief eenvoudig.

Maar wanneer de groep die meedeed aan het onderzoek wezenlijk verschilt van een toekomstige patiënt, moet je bij de interpretatie van de resultaten extra aannames doen om iets te kunnen zeggen over het effect van de behandeling bij die toekomstige patiënt. Resultaten uit eerder onderzoek of pathofysiologische kennis kunnen je helpen bij het generaliseren van onderzoeksresultaten. Het is daarom niet strikt noodzakelijk dat een onderzoekspopulatie representatief is voor de groep waarover we een uitspraak willen doen, maar dit maakt het wel eenvoudiger om de resultaten van een onderzoek te generaliseren.

 

2.4 Bias

Bias is een systematische fout in datgene wat we proberen te schatten, bijvoorbeeld een relatie tussen een determinant en een uitkomstmaat.

Stel dat een onderzoeker de gemiddelde lengte van Nederlandse mannen wil schatten, maar dat ze voor haar metingen een duimstok gebruikt waarvan de eerste 20 cm ontbreken. Iedere deelnemer aan het onderzoek lijkt dus 20 cm langer dan hij in werkelijkheid is en de gemiddelde lengte wordt 20 cm overschat. Deze systematische vertekening wordt bias genoemd. Bias is niet het gevolg van toeval, maar in dit geval van een systematische meetfout.

 

Klinisch onderzoek richt zich op de relatie tussen een determinant en een uitkomstmaat. Het is de omvang van deze relatie die we proberen te schatten in een onderzoek. Als we dat verkeerd doen, kunnen we een schatting krijgen die systematisch incorrect is. Er is dan sprake van bias. Bias betekent dat de relatie tussen een determinant en een klinische uitkomstmaat al dan niet systematisch vertekend is.

vimeo

In klinisch onderzoek worden 3 oorzaken van bias onderscheiden: (a) ontbrekende waarnemingen; (b) meetfouten; en (c) confounding.12

Stel, voor een onderzoek willen we gebruikmaken van routinematig verzamelde medische gegevens, zoals die in een elektronisch patiëntendossier. Rookgedrag wordt mogelijk niet voor iedereen geregistreerd, waardoor voor sommige deelnemers in het onderzoek informatie over het rookgedrag zal ontbreken (ontbrekende waarnemingen). Voor diegenen voor wie het rookgedrag wel is geregistreerd, kan het onduidelijk zijn hoeveel of hoelang zij al roken of hebben gerookt; dit zijn meetfouten.

In een onderzoek naar de effecten van een bronchusverwijder kan dit geneesmiddel bijvoorbeeld vaker worden gebruikt door rokers. In een vergelijking tussen groepen patiënten die de bronchusverwijder wel of niet gebruiken, zal rookgedrag verstorend werken (confounding).

Hieronder leggen we deze oorzaken van bias in meer detail uit.

 

Ontbrekende waarnemingen I.

1 | 1

Zelfs in het best opgezette en best uitgevoerde onderzoek zullen waarnemingen (metingen) ontbreken. Niet alle deelnemers vullen bijvoorbeeld de vragenlijsten in. Of deelnemers verhuizen en zijn vervolgens onvindbaar voor de onderzoekers. Als onderzoekers gebruikmaken van al eerder verzamelde gegevens, bijvoorbeeld de gegevens in elektronische patiëntendossiers, zullen bepaalde aspecten van deze patiënten niet routinematig worden gerapporteerd, zoals de BMI, en andere aspecten eigenlijk nooit, zoals het genetische profiel.

We kunnen onderscheid maken tussen gegevens die van een deel van de deelnemers aan een onderzoek ontbreken, bijvoorbeeld een vragenlijst die door sommige deelnemers niet is ingevuld, en gegevens die bij niemand zijn gemeten, omdat de vraag überhaupt niet is gesteld. In het laatste geval is daar weinig aan te doen; het antwoord op een vraag die niet is gesteld, kan natuurlijk geen deel uitmaken van een onderzoek.

Wanneer de gegevens van een deel van de deelnemers ontbreken, zijn er grofweg 2 verschillende aanpakken mogelijk: negeren en imputeren. Negeren van ontbrekende waarnemingen kan tot bias leiden. Met het invullen (imputeren) van de ontbrekende waarnemingen probeert een onderzoeker dit probleem op te lossen.

Waarom kan het negeren van ontbrekende waarnemingen tot bias leiden?

Stel, een onderzoeker wil weten wat de gemiddelde BMI van Nederlandse volwassenen is. Hij vraagt 100 willekeurige voorbijgangers op straat of hij hun gewicht en lengte mag meten. Daarna noteert hij alles netjes op een paar papiertjes en fietst naar huis. Daar aangekomen is een van de papiertjes verdwenen en de waarnemingen die op dat papiertje stonden ontbreken dus. Is dat erg?

Als de onderzoeker zijn metingen in willekeurige volgorde op de papiertjes heeft genoteerd, zal hij ondanks het kwijtraken van een van die papiertjes waarschijnlijk nog steeds de gemiddelde BMI kunnen schatten. Deze schatting wordt alleen iets minder nauwkeurig. Maar stel nu eens dat de onderzoeker de metingen van ogenschijnlijk dikke mensen op een apart papiertje heeft geschreven. En net dát papiertje is hij kwijtgeraakt. Dan zal de gemiddelde BMI op basis van de waarnemingen die hij wel heeft waarschijnlijk te laag zijn.

Als waarnemingen selectief ontbreken, kan dit dus tot bias leiden.

 

Imputeren Natuurlijk is het beter te voorkomen dat waarnemingen ontbreken, maar genezen is mogelijk. Ontbrekende gegevens kunnen namelijk worden ingevuld met statistische methoden.13 Dat is meestal beter dan de ontbrekende waarnemingen simpelweg buiten beschouwing te laten. Een aanname bij gebruik van deze statistische methoden is dat er voorspellers zijn voor het ontbreken van waarnemingen en dat die voorspellers ook nog zijn gemeten. Op basis van de informatie die wel beschikbaar is, kan dan de waarschijnlijkste waarde worden ingevuld. Deze procedure wordt imputeren genoemd.

Op basis van de beschikbare gegevens wordt de waarde van de ontbrekende waarneming gegokt; dit heeft een bepaalde onzekerheid. Om deze onzekerheid terug te laten komen wordt het hele proces een aantal keren herhaald, waarbij telkens andere waarden worden ingevuld. In hoeverre de ingevulde waarden verschillen, is afhankelijk van de onzekerheid die er is ten aanzien van die ingevulde waarden.

In principe kunnen alle ontbrekende waarnemingen worden geïmputeerd, ongeacht of het de determinant, de uitkomstmaat of andere waarnemingen betreft.

Een voorbeeld van het imputeren van ontbrekende waarnemingen is het eerdergenoemde onderzoek naar de behandeling van stressincontinentie bij vrouwen.2 In dat onderzoek waren niet bij alle deelnemers alle uitkomstmaten gemeten. De auteurs schrijven: ‘De analyses werden verricht op de initiële data en werden herhaald na imputatie van ontbrekende data […]. Om data te imputeren werd een multipel imputatiemodel met 10 herhalingen toegepast.’2 In deze laatste zin beschrijven de onderzoekers dat ze rekening hielden met de onzekerheid van het imputeren en daarom het proces 10 keer herhaalden.

 

Ontbrekende waarnemingen II

Er zijn 2 speciale vormen van bias door ontbrekende waarnemingen: selectie- en publicatiebias.

Selectiebias

Door selectieve inclusie van deelnemers in een onderzoek of door selectieve uitval van deelnemers uit het onderzoek kan selectiebias optreden. In beide gevallen ontbreken één of meerdere waarnemingen. En in beide gevallen kan het lastig zijn dat te herkennen. Wordt bijvoorbeeld duidelijk beschreven hoeveel patiënten werden benaderd om mee te doen en welk aantal van hen uiteindelijk ook werkelijk deelnam aan het onderzoek? En wordt beschreven hoeveel deelnemers aan het onderzoek werden meegenomen in de statistische analyse?

vimeo

 

Stel dat we een onderzoek doen naar de relatie tussen het roken van wiet en het optreden van een psychose. Wanneer er alleen vrouwen mee willen doen aan ons onderzoek, is er overduidelijk sprake van selectie. Maar dat hoeft geen bias op te leveren als binnen die groep vrouwen de relatie tussen wietgebruik en psychoses goed kan worden geschat. Het enige probleem is dat we nog niet direct een uitspraak kunnen doen over die relatie bij mannen.

Maar stel nu eens dat juist die vrouwen mee willen doen die in het verleden wiet hebben gerookt en die ook psychotische klachten hadden. Dit zal er mogelijk toe leiden dat de relatie tussen wietgebruik en psychose groter lijkt dan die in werkelijkheid is. Door selectieve deelname aan het onderzoek ontstaat selectiebias. Evenzo kan selectieve uitval tot bias leiden als bijvoorbeeld juist de wietgebruikers die een psychose krijgen stoppen met het onderzoek. Dit kan ertoe leiden dat de relatie tussen wietgebruik en psychose kleiner lijkt dan die in werkelijkheid is.

Kortom, selectiebias kan ontstaan door selectieve deelname of selectieve uitval met ontbrekende waarnemingen als gevolg. Maar selectie hoeft niet per se te leiden tot selectiebias. Als lezer hoef je niet altijd kritisch te staan tegenover een mogelijk selecte onderzoeksgroep. Maar selectieve uitval is wel een reden om kritisch na te gaan wie er zijn uitgevallen en in hoeverre dit de onderzoeksresultaten kan verstoren.

Publicatiebias

In een meta-analyse kan publicatiebias optreden.1,14 Een meta-analyse is een statistische methode om de resultaten van verschillende onderzoeken te combineren. Het selectief publiceren van onderzoeksresultaten kan leiden tot een vertekening, of bias, wanneer conclusies van de meta-analyse worden gebaseerd op de resultaten die wél worden gepubliceerd.

vimeo

Stel, een potentieel glucoseverlagend geneesmiddel heeft in werkelijkheid geen effect. Een meta-analyse van verschillende onderzoeken naar dit middel zou dat laten zien: sommige onderzoeken laten een gunstig effect zien, andere een ongunstig effect en gemiddeld genomen is er geen effect. Maar stel nu eens dat alle onderzoeken die een ongunstig effect van het glucoseverlagende middel laten zien niet worden gepubliceerd. Op basis van de resultaten die wél worden gepubliceerd lijkt het dan alsof het geneesmiddel de glucosewaarde wel degelijk gunstig beïnvloedt. Het waargenomen gunstige effect is het gevolg van het selectief rapporteren van een deel van de onderzoeksresultaten.

Of anders gezegd: deze vorm van bias is het gevolg van het ontbreken van waarnemingen (onderzoeksresultaten) in de meta-analyse. Dit wordt publicatiebias genoemd. Een zogenaamde ‘funnel plot’ kan inzicht geven in hoe waarschijnlijk dit is.1

 

Meetfouten

Net als ontbrekende waarnemingen komen meetfouten voor in vrijwel elk onderzoek. Door meetfouten wijken waarnemingen af van de werkelijke waarde van een variabele. Een visuele inschatting van iemands gewicht, door de persoon zelf of door iemand anders, is minder nauwkeurig dan een meting met een weegschaal. Bepalen of er sprake is van koorts door een hand tegen het voorhoofd te houden is minder precies dan een meting met een thermometer. Zowel de visuele als manuele waarneming heeft hier een meetfout.

Meetfouten kunnen tot bias leiden en daardoor bijna altijd tot minder precisie. Onderzoekers proberen meetfouten dan ook te voorkomen of de omvang ervan te beperken, bijvoorbeeld door metingen te standaardiseren en geijkte meetapparatuur te gebruiken. Waarom leiden meetfouten tot minder precisie en dus tot meer onzekerheid?

Stel, we laten 10 personen op het oog de hoogte van een kerktoren schatten. Het verschil tussen de hoogste en laagste schatting is een maat voor de onzekerheid die er is over de hoogte van de kerktoren. Vervolgens mogen ze alle 10 geavanceerde meetapparatuur gebruiken om diezelfde hoogte te bepalen. Waarschijnlijk liggen de metingen van die laatste serie veel dichter bij elkaar: de schattingen zijn preciezer.

Hetzelfde geldt voor schattingen van de relatie tussen de determinant en de uitkomstmaat: hoe meer ruis er op de lijn zit – bij het meten van de determinant, de uitkomstmaat of beide – hoe minder precies de schatting van die relatie zal zijn.

Afgezien van een verlies aan precisie kunnen meetfouten ook leiden tot bias.

Stel dat we nogmaals 10 personen op het oog de hoogte van de kerktoren laten schatten. De 5 personen met de hoogste schattingen krijgen de geavanceerde meetapparatuur en mogen hun schatting aanpassen. Wat we overhouden zijn 5 schattingen die redelijk accuraat zijn op basis van de geavanceerde meting en 5 die waarschijnlijk een onderschatting van de hoogte zijn. Het gevolg is dat de gemiddelde hoogte op basis van die 10 schattingen systematisch te laag is; dit is een vorm van bias.

Als een determinant of uitkomstmaat verschillende categorieën heeft, worden meetfouten aangeduid met de term ‘misclassificatie’: deelnemers aan een onderzoek worden verkeerd geclassificeerd. Misclassificatie kan ook tot bias leiden.

Stel dat de gemiddelde bloeddruk (uitkomstmaat) wordt vergeleken tussen mensen mét en zonder diabetes mellitus (determinant) en dat deze bloeddruk hoger is bij mensen met diabetes. Als nu een deel van de diabetespatiënten niet als zodanig wordt herkend (misclassificatie van de determinant), is het verschil dat wordt waargenomen tussen de 2 groepen waarschijnlijk te klein.

Toch hoeft een determinant niet altijd met de grootst mogelijke precisie te worden gemeten; soms is het beter om de determinant vooral te meten zoals dat ook in de praktijk gebeurt, inclusief de meetfouten die erbij horen. In een onderzoek naar de diagnostische waarde van het leggen van een hand tegen het voorhoofd om te bepalen of een patiënt koorts heeft, is een eventuele meetfout onderdeel van het proces. In de praktijk zal deze diagnostische test ook meetfouten bevatten. Om de waarde van deze test voor de praktijk te bepalen moeten die meetfouten juist níet worden voorkomen.

Verificatiebias

Een vorm van bias die specifiek is voor diagnostisch onderzoek is verificatiebias. Deze bias is het gevolg van misclassificatie van de uitkomstmaat.15 In een klassiek opgezet diagnostisch onderzoek ondergaan alle deelnemers de diagnostische test én de referentietest (de gouden standaard).

Als niet iedereen de referentietest ondergaat, zullen diegenen voor wie de uitslag van de referentietest ontbreekt vaak buiten de analyse worden gelaten, wat kan leiden tot een vorm van bias, namelijk bias door ontbrekende waarnemingen. Als de referentietest niet bij iedereen op dezelfde manier is uitgevoerd, kunnen er mogelijk meetfouten optreden, waardoor de gouden standaard niet ‘goud’ is en er ook bias kan ontstaan; dit is bias door meetfouten.
Beide vormen van bias, bias door ontbrekende waarnemingen en bias door meetfouten bij diagnostisch onderzoek, worden ook wel aangeduid met de term ‘verificatiebias’. Soms is het niet mogelijk om de diagnostische test en de referentietest op vrijwel hetzelfde moment af te nemen en wordt daarom gedurende een langere tijdspanne gekeken of een bepaalde klinische uitkomstmaat zich manifesteert. Dit is een valide aanpak, mits die manifestatie een goede afspiegeling is van de klinische situatie ten tijde van de diagnostische test.

vimeo

Confounding

In onderzoek naar het effect van etiologische factoren en medische behandelingen is het doel om een waargenomen relatie tussen de determinant en de uitkomstmaat causaal te interpreteren; dat wil zeggen: deze relatie toe te schrijven aan het effect van de determinant. Als de waargenomen relatie geen goede afspiegeling is van het causale effect van de determinant, is er sprake van bias.

Er is sprake van confounding, of confoundingbias, wanneer een derde factor die gerelateerd is aan zowel de determinant als de uitkomstmaat, de relatie tussen de determinant en de uitkomstmaat verstoort.16 In diagnostisch en prognostisch onderzoek wordt deze relatie niet causaal geduid en confounding speelt dan ook geen rol in dit type onderzoek.

vimeo

Om uitspraken te kunnen doen over de effecten van bijvoorbeeld een behandeling kan een onderzoeker 2 groepen patiënten met elkaar vergelijken. De ene groep krijgt de behandeling en de andere groep krijgt deze behandeling niet of krijgt een andere behandeling. Na verloop van tijd meet de onderzoeker bij beide groepen gezondheidsuitkomstmaten, bijvoorbeeld het aantal overleden deelnemers. Alleen als de 2 groepen volkomen identiek zijn, is een verschil in overlijden toe te schrijven aan dat ene aspect waarin ze verschillen, namelijk de behandeling.

Stel dat niet alleen de behandeling bij 2 groepen verschilt, maar dat de eerste groep gemiddeld genomen ook ouder is dan de tweede groep. Dit kan optreden in niet-gerandomiseerd, of observationeel, onderzoek. Komt dat waargenomen verschil in mortaliteit nu door de behandeling of doordat de 2 groepen verschillen qua leeftijd? Het effect van de behandeling wordt deels of zelfs volledig verward met het effect van leeftijd.

Als we alleen geïnteresseerd zijn in het effect van de behandeling, werkt het verstorend als de 2 groepen niet dezelfde gemiddelde leeftijd hebben. En dat geldt soms ook als bijvoorbeeld de proportie rokers niet hetzelfde is, of het aandeel mannen en vrouwen.

Wanneer patiëntkenmerken, zoals leeftijd en geslacht, van invloed zijn op de uitkomstmaat en niet gelijk verdeeld zijn tussen de behandelgroepen, kan er sprake zijn van confounding. Het waargenomen effect van de behandeling is dan geen goede afspiegeling van het ‘echte’ effect van die behandeling.

Dé manier om confounding te voorkomen is de determinant door het toeval toe te wijzen: een gerandomiseerd onderzoek. Maar sommige determinanten laten zich niet toewijzen, bijvoorbeeld bloeddruk, BMI of cholesterolwaarde. Om de effecten van dergelijke determinanten toch te bestuderen wordt niet-gerandomiseerd, of observationeel, onderzoek gedaan.

Daarnaast is het soms eenvoudigweg niet haalbaar om gerandomiseerd onderzoek te doen, bijvoorbeeld in onderzoek naar zeldzame bijwerkingen, omdat dit een enorm grote onderzoeksgroep vereist. Gerandomiseerd onderzoek is ook niet mogelijk als de tijdspanne tussen de determinant en de uitkomstmaat groot is; denk aan de relatie tussen blootstelling aan diëthylstilbestrol (DES) bij zwangere vrouwen en het optreden van vaginacarcinoom bij hun dochters.

Kortom, hoewel gerandomiseerd onderzoek dé oplossing is om confounding te voorkomen, is het niet altijd mogelijk om een gerandomiseerd onderzoek uit te voeren om een causale onderzoeksvraag te beantwoorden.17 Wanneer gebruik wordt gemaakt van observationele gegevens, zullen onderzoekers echter rekening moeten houden met de mogelijkheid van confounding.

Er bestaan verschillende methoden om te corrigeren voor confounding, bijvoorbeeld weging, matchen, regressieanalyse en ‘propensity score’-analyse.18 Al deze statistische methoden proberen de vergelijkbaarheid tussen onderzoeksgroepen na te bootsen, zoals die er is in een gerandomiseerd onderzoek.

Stel dat de gemiddelde leeftijd van patiënten die worden behandeld hoger is dan die van niet-behandelde patiënten. Als we zouden matchen op leeftijd, wordt voor iedere behandelde patiënt een niet-behandelde patiënt gezocht die even oud is. Dit leidt tot een gematchte gegevensset, waarin behandelde en niet-behandelde patiënten gemiddeld dezelfde leeftijd hebben, net als in een gerandomiseerd onderzoek. Hier is dus geen sprake van confounding door leeftijd.

Een impliciete aanname van bovengenoemde methoden om te corrigeren voor confounding is dat alle verstorende variabelen zijn gemeten. Voor variabelen die niet zijn gemeten, kan echter niet worden gecorrigeerd. Als ‘roken’ een verstorende variabele is, maar het rookgedrag niet is gemeten, zal het immers niet mogelijk zijn te matchen op basis van rookgedrag. In vrijwel elk observationeel causaal onderzoek is niet-gemeten confounding een potentieel probleem.

Als je artikelen over onderzoek naar etiologische factoren of medische therapieën leest, kan je letten op manieren om confounding te voorkomen (door randomisatie) of om hiervoor in de analyse te corrigeren, bijvoorbeeld door matchen of regressieanalyse. En waarvoor hebben de onderzoekers dan gecorrigeerd? Als je zonder veel moeite nog wel een handvol mogelijk verstorende variabelen kan opnoemen, is het gevaar van ongemeten confounding groot en moet je vraagtekens zetten bij de validiteit van het onderzoek.

 

2.5 De statistische analyse

De laatste alinea van de methodesectie is veelal de analyse, die zich richt op het kwantificeren van een relatie tussen een determinant en een uitkomst. De alinea die de statistische analyse beschrijft kan ook de plek zijn waar potentiële bias wordt benoemd en methoden worden beschreven om hiervoor te corrigeren. Maar ook de opzet van het onderzoek kan helpen om bias te voorkomen. Daarom hoeven niet alle van de hierboven genoemde vormen van bias aan bod te komen in de alinea die de analyse van de onderzoeksgegevens beschrijft.

Kwantificeren van de relatie tussen determinant en uitkomstmaat

Hoe de relatie tussen de determinant en de uitkomstmaat wordt gekwantificeerd, is in de eerste plaats afhankelijk van het soort uitkomstmaat, bijvoorbeeld een continue uitkomstmaat, een binaire uitkomstmaat of een tijdsuitkomstmaat.

Een continue uitkomstmaat kan, binnen bepaalde grenzen, veel verschillende waarden aannemen. Voorbeelden hiervan zijn de bloeddruk, de BMI, de Hb-waarde of het geforceerde expiratoire 1-secondevolume (FEV1). Als de determinant 2 categorieën heeft, bijvoorbeeld een experimenteel bloeddrukverlagend middel versus placebo, kan de relatie tussen de determinant en de uitkomstmaat worden gekwantificeerd door bijvoorbeeld naar het verschil in de gemiddelde bloeddruk tussen de 2 groepen te kijken. Als de determinant continu is, kan de samenhang worden gekwantificeerd met bijvoorbeeld lineaire regressieanalyse.

Wanneer de uitkomstmaat een binaire variabele (‘ja’ of ‘nee’) is, ligt het voor de hand te rekenen met de proportie deelnemers die de uitkomstmaat krijgt. Denk hierbij aan uitkomstmaten als perioperatieve sterfte of een complicatie na ziekenhuisopname wegens een val van hoogte. Als de determinant ook 2 categorieën heeft, kan de relatie tussen de determinant en de uitkomstmaat worden gekwantificeerd door naar het verschil in proporties te kijken (risicoverschil). Een alternatief is te kijken naar de verhouding van de proporties (risicoratio).

Door de proporties (risico’s) van elkaar af te trekken, berekenen we het risicoverschil. Het risicoverschil is een absolute effectmaat. Als er geen verschil is tussen de behandelingen, is het risicoverschil dus 0. Door de risico’s op elkaar te delen berekenen we de risicoratio.19 De risicoratio is een relatieve effectmaat en geeft aan hoeveel keer het risico groter of kleiner wordt voor verschillende categorieën van de determinant. Als er geen relatie is tussen de determinant en de uitkomstmaat, is de risicoratio 1.

vimeo

De impact van een determinant is gemakkelijker af te leiden uit het risicoverschil dan uit de risicoratio. De inverse van het risicoverschil is namelijk het zogenaamde ‘number needed to treat’, als het gaat om gunstige effecten, of ‘number needed to harm’, als het gaat om ongunstige effecten.

In het genoemde onderzoek naar de behandeling van stressincontinentie bij vrouwen rapporteerde 90,8% van de chirurgisch behandelde patiënten een vermindering van de klachten; voor de patiënten die waren behandeld met fysiotherapie, was dit 64,4%.2 Het risicoverschil is daarom 26,4%. Het number needed to treat kan berekend worden als: 1/0,264 = 4. Dit betekent dat als 4 vrouwen de chirurgische behandeling ondergaan in plaats van fysiotherapie, dit 1 maal een extra vermindering van klachten oplevert.

Een derde soort uitkomstmaat is de tijdsuitkomstmaat, of beter gezegd: de tijd tot een bepaalde uitkomstmaat zich voordoet (‘time to event’). Voorbeelden hiervan zijn overleving, ziektevrije overleving, tijd tot werkhervatting of tijd tot ontslag uit het ziekenhuis. Bij een binaire determinant is de verhouding van het optreden van de uitkomstmaat per tijdseenheid dé manier om een dergelijke uitkomstmaat te kwantificeren. In de praktijk wordt hiervoor vaak een zogenaamd Cox-‘proportional hazards’-model gebruikt.

Er bestaan nog vele andere soorten statistische maten om de relatie tussen de determinant en de uitkomstmaat te kwantificeren.

Een zoektocht naar de geschikte statistische maat dient te beginnen bij de uitkomstmaat. Om wat voor soort variabele gaat het: een continue of binaire variabele, een variabele met verschillende categorieën of een tijdsvariabele?

1 | 1

Als de determinant, de uitkomstmaat en de statistische maat niet bij elkaar passen, moeten bij jou alle alarmbellen afgaan.

 

Effectmodificatie

De relatie tussen de determinant en de uitkomstmaat kan verschillend zijn voor verschillende groepen patiënten. Bij patiënten met een verminderde nierfunctie kan een medicijn bijvoorbeeld minder goed worden uitgescheiden, waardoor het risico op bijwerkingen toeneemt.

vimeo

Het fenomeen dat de relatie tussen de determinant en de uitkomstmaat verschilt tussen mensen wordt effectmodificatie genoemd: de omvang van het effect wordt beïnvloed (gemodificeerd) door de aan- of afwezigheid van een bepaalde eigenschap, zoals de nierfunctie.20

Zowel de term ‘effectmodificatie’ als de term ‘interactie’ wordt gebruikt om dit fenomeen te beschrijven. Toch is een onderscheid hiertussen mogelijk. Effectmodificatie betekent dat de bestudeerde relatie verschilt tussen bepaalde subgroepen, bijvoorbeeld tussen mannen en vrouwen. Het doel is om klinisch relevante subgroepen te identificeren, zonder de onderliggende oorzaak van de effectmodificatie te willen achterhalen. Bij interactie gaat het om het begrijpen en causaal duiden van de verschillen in effecten tussen de verschillende groepen.20

Stel, we doen een onderzoek naar de effecten van antibiotica bij kinderen met een middenoorontsteking. Antibiotica kunnen een gunstig effect hebben bij een bacteriële middenoorontsteking, maar hebben dit zeker niet bij een virale middenoorontsteking. Een uitsplitsing van kinderen met een middenoorontsteking naar de verwekker van deze ontsteking (bacterie vs. virus) richt zich op interactie. Een uitsplitsing op basis van bijvoorbeeld de aan- of afwezigheid van koorts richt zich niet op een oorzakelijke relatie met de effectiviteit van antibiotica, maar kan wel nuttig zijn voor de dagelijkse klinische praktijk. Hier gaat het om effectmodificatie.

In beide gevallen wordt een uitsplitsing gemaakt en wordt het effect van antibiotica bij de ene patiëntengroep vergeleken met het effect bij de andere groep. Als de effecten tussen groepen werkelijk verschillen – dit kan worden bepaald met een statistische toets – ligt het niet voor de hand om een gemiddeld (‘overall’) effect te rapporteren. In plaats daarvan worden de effecten voor de verschillende subgroepen apart gepresenteerd.

 

Groepsgrootte en power

In steeds meer onderzoeksartikelen, vooral die over gerandomiseerd onderzoek, wordt een formele groepsgrootteberekening gepresenteerd. Wat is de waarde van een dergelijke berekening en wat kan jij daarmee bij het beoordelen van een artikel?

De uitkomst van een groepsgrootteberekening is de groepsgrootte (‘sample size’) die nodig is voor het onderzoek, zodat het een bepaald statistisch vermogen heeft (‘power’) om een relatie tussen de determinant en de uitkomstmaat aan te kunnen tonen. Een groepsgrootteberekening heeft 4 elementen: (a) de verwachte relatie tussen de determinant en de uitkomstmaat; (b) de verwachte onzekerheid in die relatie; (c) een bepaald statistisch toetsingsniveau – het afkappunt voor de p-waarde, meestal aangeduid als α; en (d) de power.

De power is de kans om een relatie aan te tonen als er ook werkelijk een relatie is. De waarde van het statistische toetsingsniveau en die van de power zijn keuzes die een onderzoeker zelf kan maken; veelgebruikte waarden hiervoor zijn respectievelijk 0,05 en 0,8.

Voorafgaand aan een onderzoek is de omvang van de relatie tussen de determinant en de uitkomstmaat nog onbekend. Voor een groepsgrootteberekening dient een onderzoeker hier toch uitspraken over te doen. Op basis van eerder onderzoek wordt deze gok minder willekeurig gemaakt. Een alternatief is om vooraf te stellen wat een minimaal klinisch relevant effect is en vervolgens de groepsgrootte te berekenen van een onderzoek waarmee in ieder geval dit effect kan worden aangetoond.

En als in een onderzoek de vooraf berekende groepsgrootte niet is gehaald, zijn de resultaten dan minder waar? In de eerste plaats moet het duidelijk zijn waarom de groepsgrootte niet is gehaald. Is het onderzoek gestopt omdat er al een gunstig effect werd gezien? Dan bestaat er een groter risico op een onjuiste conclusie.21 Is er sprake van al dan niet selectieve uitval van deelnemers aan het onderzoek? Dan bestaat het risico op selectiebias (zie paragraaf ‘Ontbrekende waarnemingen II’). Ongeacht de oorzaak zullen de onderzoekers in ieder geval moeten uitleggen waarom de vooraf berekende groepsgrootte niet is gehaald en in hoeverre dit van invloed kan zijn op de resultaten van hun onderzoek.

Als er geen relatie tussen de determinant en de uitkomstmaat wordt aangetoond, betekent dat nog niet dat er bewijs is geleverd dat er ook werkelijk geen relatie is. Om aan te tonen dat er geen relatie is – of dat die relatie kleiner is dan een bepaalde grenswaarde – is een speciale onderzoekopzet nodig, de zogenaamde non-inferioriteitsopzet.22

 

Maak de quiz bij sectie 2. 

Sectie 1: Inleiding en onderzoeksvraag
Informatiekader

Gerelateerde artikelen

Reacties