De praktijk van systematische reviews. VII. Het combineren van de resultaten van observationele onderzoeken

Klinische praktijk
M.P.A. Zeegers
S.H. Heisterkamp
P.J. Kostense
D.A.W.M. van der Windt
R.J.P.M. Scholten
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2000;144:1393-7
Abstract
Download PDF

Samenvatting

- Door het uitvoeren van een systematische review van observationele onderzoeken kan inzicht worden verkregen in de stand van zaken ten aanzien van etiologische vraagstellingen.

- Door verschillen in onderzoeksopzet en analyse bestaat doorgaans veel variabiliteit tussen observationele onderzoeken.

- Voordat met het samenvoegen van gegevens uit dit type onderzoek kan worden begonnen, moeten de gegevens uit de afzonderlijke onderzoeken eerst vergelijkbaar gemaakt worden.

- Hierbij dient onder meer rekening gehouden te worden met de operationalisatie van blootstelling en ziekte en met de wijze van correctie voor ‘confounding’.

- Er kan op drie manieren omgegaan worden met variabiliteit tussen onderzoeken: variabiliteit negeren (‘fixed effects’-model), verdisconteren (‘random effects’-model) of exploreren (metaregressie).

- Op basis van statistische, methodologische en klinische overwegingen wordt bepaald of het combineren van gegevens uit observationeel onderzoek zinvol is. Dezelfde overwegingen gelden voor de keuze van de benadering.

Het gerandomiseerde experiment (‘randomised clinical trial’, RCT) is de krachtigste onderzoeksopzet bij de evaluatie van medische interventies. Echter, om zowel praktische als ethische redenen is niet elke medische vraagstelling met een gerandomiseerd experiment te beantwoorden. Zo kunnen etiologische vragen als ‘Kan alcoholconsumptie blaaskanker veroorzaken?’ niet beantwoord worden door middel van gerandomiseerde experimenten. Dergelijke etiologische vraagstellingen kunnen alleen worden onderzocht in observationele onderzoeken.

In tegenstelling tot experimenteel onderzoek wordt bij observationeel onderzoek geen gerandomiseerde interventie gepleegd. De onderzoeker observeert en probeert processen en gebeurtenissen zo nauwkeurig mogelijk te beschrijven.1 Verschillen in onderzoeksopzet en analyse kunnen echter variabiliteit in de resultaten tussen observationele onderzoeken veroorzaken.

Door middel van het uitvoeren van een systematische review kunnen verschillende observationele onderzoeken op systematische en inzichtelijke wijze worden samengevat en kan inzicht worden verkregen in de stand van zaken ten aanzien van bijvoorbeeld etiologische vraagstellingen. Door de te verwachten variabiliteit tussen de onderzoeken kunnen deze onvergelijkbaar worden. Echter, in sommige gevallen kunnen de resultaten van de afzonderlijke onderzoeken zodanig worden bewerkt dat ze weer vergelijkbaar zijn. In dat geval kan een systematische review een eenduidig antwoord geven op een gestelde vraag.

In het voorgaande artikel in deze serie zijn het zoeken en het selecteren van observationele onderzoeken en het beoordelen van de methodologische kwaliteit ervan aan de orde gekomen.1 Indien men na deze stappen een aantal geschikte artikelen ter beschikking heeft, kan onderzocht worden of het mogelijk is de resultaten hiervan te combineren. Het combineren van de resultaten van verschillende observationele onderzoeken is onderwerp van dit artikel. Achtereenvolgens bespreken wij de voorbewerking en het combineren van dergelijke resultaten.

voorbewerking van de resultaten van afzonderlijke onderzoeken

Om de resultaten van de afzonderlijke onderzoeken te kunnen combineren, is van elk afzonderlijk onderzoek een schatting van het effect nodig met een maat voor de precisie (variantie) van deze schatting. Het geschatte effect kan in verschillende typen effectmaten worden uitgedrukt. Een voorbeeld van een veelgebruikte effectmaat in observationeel onderzoek is de oddsratio.2 In cohortonderzoek kan naast de oddsratio ook het relatieve risico gebruikt worden. Indien de kans op ziekte klein is (bijvoorbeeld bij kanker of hart- en vaatziekten), is de oddsratio ongeveer gelijk aan de waarde van het relatieve risico en zijn ze uitwisselbaar. In een systematische review kiest men meestal een effectmaat die bij benadering normaal verdeeld is, zoals de logaritme van de oddsratio (log(OR)). Als eenmaal een keuze gemaakt is voor het type effectmaat, zullen de resultaten van de afzonderlijke onderzoeken doorgaans verschillen. Deze verschillen kunnen onder meer ontstaan zijn door het hanteren van verschillende definities voor blootstelling (verschillende blootstellingcategorieën), door verschillen in het operationaliseren van ziekte en door verschillen in de correctie voor ‘confounding’.

Verschillende blootstellingcategorieën

In observationeel onderzoek worden onder meer relaties bestudeerd tussen genetische factoren, potentieel schadelijke factoren of leefstijlfactoren enerzijds en de kans op ziekte anderzijds. De operationalisatie van blootstelling in de afzonderlijke onderzoeken kan echter verschillen. Zo kan bij het bestuderen van de relatie tussen alcoholconsumptie en blaaskanker in het ene onderzoek alcoholconsumptie (ongeacht de hoeveelheid) vergeleken worden met geheelonthouding, terwijl in een ander onderzoek de hoeveelheid alcohol wordt gekwantificeerd (bijvoorbeeld 0, 1-2, meer dan 2 glazen per dag). Indien men in een systematische review onderzoeken wil opnemen die blootstelling op verschillende manieren geoperationaliseerd hebben, moeten de blootstellingcategorieën eerst vergelijkbaar gemaakt worden. Twee methoden hiervoor zullen wij hier bespreken: (a) berekening van het effect per eenheid van blootstelling, (b) combineren van blootstellingcategorieën.

Berekening van het effect per eenheid van blootstelling

Een methode om de effectschattingen van verschillende onderzoeken vergelijkbaar te maken, is het berekenen van het effect (bijvoorbeeld uitgedrukt als oddsratio) per eenheid van blootstelling (bijvoorbeeld per glas alcohol).3 Een uitvoerige beschrijving van deze methode valt buiten het bestek van dit artikel. De benodigde gegevens voor het berekenen van een effect per blootstelling zijn echter niet altijd voorhanden. Indien bijvoorbeeld alcoholconsumptie (ongeacht de hoeveelheid) afgezet wordt tegen geheelonthouding, kan geen schatting gemaakt worden van het effect per glas alcohol. Een dergelijk onderzoek kan dan niet worden meegenomen in de combinatie van resultaten tussen onderzoeken.

Combineren van blootstellingcategorieën

Door het combineren van blootstellingcategorieën kan een samenvattende effectmaat worden berekend voor alle blootstellingcategorieën tezamen ten opzichte van een gelijke referentiecategorie. Het combineren van blootstellingcategorieën is een goede optie, wanneer de verschillende onderzoeken wisselende of beperkte informatie over blootstelling presenteren. Binnen één onderzoek worden dan de verschillende blootstellingcategorieën teruggebracht tot één categorie door het berekenen van een gewogen gemiddelde van de effectmaten van de afzonderlijke blootstellingcategorieën.4 Hiervoor wordt als gewicht het aantal controlepersonen in elke categorie genomen.

Als voorbeeld worden in tabel 1 oddsratio's en bijbehorende betrouwbaarheidsintervallen gepresenteerd voor twee blootstellingcategorieën: (a) 1-2 glazen alcohol per dag en (b) > 2 glazen alcohol per dag met geheelonthouding als referentiecategorie. Tevens wordt per categorie het aantal controlepersonen weergegeven. De oddsratio voor alcoholconsumptie ten opzichte van geheelonthouding wordt als volgt berekend: ?(ORi × coi)/?(coi) = (OR1-2 × co1-2) + (OR>2 × co>2))/(co1-2 + co>2) = ((1,5 × 20) + (2,2 × 55))/(20 + 55) = 2,0.

Verschillen in het operationaliseren van ziekte

De selectie van patiënten in observationele onderzoeken kan divers zijn. Patiënten kunnen bijvoorbeeld afkomstig zijn uit huisartspraktijken, algemene ziekenhuizen of uit een registratie van een patiëntenvereniging. Zij kunnen in een verschillend ziektestadium zijn, enzovoorts. In een systematische review kan op drie manieren met deze verschillen worden omgegaan: (a) restrictie tot één bepaald ziektebeeld in één bepaalde populatie (bijvoorbeeld blaaskanker in algemene ziekenhuizen); (b) generalisatie, waarbij gekeken wordt naar een grotere groep van vergelijkbare aandoeningen (bijvoorbeeld urinewegkanker) of (c) er kan bekeken worden of onderzoeken die op verschillende wijzen ziekte classificeren ook daadwerkelijk andere resultaten opleveren.

Verschillen in correctie voor confounding

Confounding is de belangrijkste bedreiging van de interne validiteit van observationeel onderzoek.5 In geval van confounding is het effect van blootstelling aan een bepaalde risicofactor vermengd met dat van een andere risicofactor, waardoor onjuiste uitkomsten verkregen worden. In vrijwel alle observationele onderzoeken moet daarom gecorrigeerd zijn voor confounding. De wijze waarop in de afzonderlijke onderzoeken voor confounding gecorrigeerd is, kan echter verschillen, zowel in de keuze van de confounders als in de operationalisatie hiervan. In een systematische review kunnen deze verschillen normaliter niet verdisconteerd worden. Het effect van de wijze van correctie voor confounding op de resultaten van de afzonderlijke onderzoeken kan echter wel bestudeerd worden door te kijken of onderzoeken die op verschillende wijzen voor confounding corrigeren, ook daadwerkelijk andere resultaten opleveren.

Stel dat in het voorbeeld de ongecorrigeerde oddsratio voor blaaskanker van alcoholconsumptie versus geheelonthouding 2,0 is. Als alcoholdrinkers vaker roken dan geheelonthouders en roken zelf een belangrijke risicofactor voor blaaskanker is, kan de verhoogde kans op blaaskanker wellicht deels verklaard worden door roken. Na correctie voor roken blijkt de oddsratio 1,5 te bedragen. In dit voorbeeld is roken derhalve een confounder in de samenhang tussen alcoholconsumptie en blaaskanker.

combineren van resultaten van afzonderlijke onderzoeken

Indien de voor een systematische review getraceerde onderzoeken voldoende vergelijkbaar zijn, kan men de resultaten van de afzonderlijke onderzoeken combineren tot één algemene schatting van het bestudeerde effect.6 Echter, door verschillen in aard van de onderzoekspopulatie, tijdsduur van het onderzoek en gekozen meetinstrumenten is doorgaans veel variabiliteit tussen de resultaten van verschillende onderzoeken te verwachten.7 De systematische reviewer kan op drie manieren met deze variabiliteit omgaan: (a) negeren, (b) verdisconteren en (c) exploreren.

Variabiliteit negeren (‘fixed effects’-model)

In een eerder artikel uit deze serie werd een statistisch model (‘fixed effects’-model) gepresenteerd voor het combineren van effectschattingen van de afzonderlijke onderzoeken.6 Uitgangspunt van dit model is dat de afzonderlijke onderzoeken schattingen geven van één vaste onderliggende waarde van het effect. Hierbij wordt aangenomen dat de verschillen in uitkomsten tussen de onderzoeken louter op steekproeftoeval berusten.8-10

In het voorbeeld in tabel 2 worden resultaten uit een fictieve systematische review van patiënt-controleonderzoek naar de samenhang tussen alcoholconsumptie en blaaskanker gepresenteerd. Op basis van deze gegevens kunnen de effectschattingen van de afzonderlijke onderzoeken gecombineerd worden, waarbij men gebruikmaakt van het fixed-effectsmodel. De berekeningen geschieden op de (natuurlijke) log-getransformeerde waarden van het relatieve risico of de oddsratio. In dit voorbeeld wordt de gecombineerde log(oddsratio): (?(log(ORi) × 1/si2))/?((1/si2) = ((log(1,04) × 1/0,006) + (log(1,10) × 1/0,035) + (log(1,94) × 1/(0,241) + (log(1,01) × 1/0,099) + (log(1,26) × 1/0,017) + (log(1,18) × 1/0,031))/(1/0,006 + 1/0,035 + 1/0,241 + 1/0,099 + 1/0,017 + 1/0,031) = 0,10. Terugtransformatie van dit resultaat geeft de gecombineerde oddsratio: exp(0,10) = 1,11.

Het is echter onwaarschijnlijk dat in een verzameling observationele onderzoeken, gebaseerd op veelal verschillende populaties van mensen, slechts één effectschatting de juiste is voor alle populaties die werden bestudeerd. Het fixed-effectsmodel is dus een weinig realistische optie voor het combineren van dergelijke resultaten.

Variabiliteit verdisconteren (‘random effects’-model)

In het zogenoemde ‘random effects’-model wordt ervan uitgegaan dat het te meten effect daadwerkelijk varieert tussen de afzonderlijke onderzoeken, hetgeen meer voor de hand ligt in een systematische review van observationeel onderzoek. Elk onderzoek meet als het ware zijn eigen werkelijke effect. De variabiliteit tussen onderzoeken wordt behalve door het steekproeftoeval binnen elk afzonderlijk onderzoek ook verklaard door toeval tussen de onderzoeken.9-12 Beide toevalsbronnen worden in de berekeningen verdisconteerd. In een systematische review van observationeel onderzoek lijkt het random-effectsmodel daarom een geschikter methode voor het combineren van de resultaten.

Op basis van de gegevens in het voorbeeld in tabel 2 wordt de gecombineerde log(oddsratio), aan de hand van het random-effectsmodel, als volgt berekend: (?(log(ORi) × 1/(si2 + t2)))/?(1/(si2 + t2)) = ((log(1,04) × 1/(0,006 + 0,015)) + (log(1,10) × 1/(0,035 + 0,015)) + (log(1,94) × 1/(0,241 + 0,015)) + (log(1,01) × 1/(0,099 + 0,015)) + (log(1,26) × 1/(0,017 + 0,015)) + (log(1,18) × 1/(0,031 + 0,015)))/(1/(0,006 + 0,015) + 1/(0,035 + 0,015) + 1/(0,241 + 0,015) + 1/(0,099 + 0,015) + 1/(0,017 + 0,015) + 1/(0,031 + 0,015)) = 0,13. De oddsratio is dan gelijk aan exp(0,13) = 1,14.

Variabiliteit exploreren (metaregressie)

De verschillen in resultaten tussen observationele onderzoeken kan behalve door toeval, ook door werkelijke verschillen tussen onderzoeken worden verklaard. De onderzoekskenmerken die tot verschillende resultaten leiden, worden ‘effectmodificatoren’ genoemd.7 13

In het voorbeeld in tabel 2 lijkt het op het eerste gezicht dat de onderzoeken uit de Verenigde Staten een grotere effectschatting presenteren dan die uit Europa. Blijkbaar modificeert het onderzoekskenmerk ‘regio’ de samenhang tussen alcoholconsumptie en de kans op blaaskanker: ‘regio’ is een effectmodificator.

Potentiële bronnen van variabiliteit (onderzoekskenmerken) kunnen worden geïdentificeerd met behulp van metaregressieanalyse.10 12-14 Hiermee wordt het effect van een afzonderlijk onderzoek (yi) geschat op basis van een gemiddeld effect over alle onderzoeken (y0) en de invloed van afzonderlijke onderzoekskenmerken (b1-k) op dit effect.10 12 13

In een metaregressieanalyse van onderzoeken naar de samenhang tussen alcoholconsumptie en blaaskanker kan de invloed van ‘geslacht’ op de effectschatting worden onderzocht (zie tabel 2). De codering van ‘geslacht’ is als volgt: 0 = onderzoek met alleen mannen, 1 = onderzoek met alleen vrouwen. Het metaregressiemodel ziet er als volgt uit yi = y0 + b1 (geslacht), waarbij yi is de schatting van het effect in het i-de onderzoek, y0 is de gecombineerde schatting van het gemiddelde effect als alle onderzoekskenmerken de code ‘0’ hebben en b1 is de invloed van geslacht op het gecombineerde effect. De computer geeft: y0 = 0,21 en b1 = -0,13. Dit betekent: De gecombineerde log(oddsratio) voor mannen (geslacht = 0) is gelijk aan yi = 0,21 + (-0,13 × 0) = 0,21. De oddsratio is dan gelijk aan exp(0,21) = 1,24. De gecombineerde log(oddsratio) voor vrouwen is gelijk aan yi = 0,21 + (-0,13 × 1) = 0,21 - 0,13 = 0,08. De oddsratio is dan gelijk aan exp(0,08) = 1,08.

Blijkbaar modificeert ook geslacht de samenhang tussen alcoholconsumptie en de kans op blaaskanker. Wij hebben hier dus niet te maken met één generieke effectschatter, maar met twee schatters: verschillend voor mannen en vrouwen.

Op basis van de resultaten uit metaregressieanalyse kan inzicht worden verkregen in de invloed van diverse onderzoekskenmerken tegelijk op de gecombineerde effectschatting. Metaregressie kan tevens een goed alternatief zijn indien men geïnteresseerd is in de uitkomsten van een speciale groep patiënten.11 Een knelpunt van metaregressie is echter dat slechts een beperkt aantal kenmerken tegelijkertijd in een model kan worden opgenomen, omdat dit afhangt van het aantal onderzoeken dat beschikbaar is in een systematische review. In de regel is het aantal onderzoeken in een systematische review klein en zijn de mogelijkheden van metaregressieanalyse beperkt. Een praktijktoepassing van een systematische review waarin random-effectsmetaregressieanalyse is gebruikt om de samenhang tussen alcoholconsumptie en blaaskanker te onderzoeken, is elders gegeven.14

beschouwing

Observationeel onderzoek levert een belangrijke bijdrage aan de ontwikkeling van de geneeskunde. Het combineren van gegevens uit deze vorm van onderzoek in een systematische review is echter nog onderwerp van veel discussie.7 8 Naast de te verwachten variabiliteit levert de definitie van kwaliteitscriteria voor observationeel onderzoek ook nog eens de nodige problemen op. Deze zijn immers meer inhoudelijk van aard en de operationalisatie hiervan kan per keer variëren. Een kwaliteitscriterium voor zinvolle meta-analyse van observationeel onderzoek kan dan zijn een duidelijke rapportage van de onderzoekskenmerken, zodat deze kunnen worden meegenomen in metaregressieanalyse. Het achteloos combineren van observationele onderzoeken dient uiteraard achterwege te blijven.

De problemen bij het uitvoeren van een systematische review van observationele onderzoeken betekenen niet dat onderzoekers moeten terugkeren naar het schrijven van subjectieve, verhalende overzichtsartikelen. Veel van de principes van systematische reviews blijven overeind: er moet een onderzoeksprotocol worden geschreven en er moet op een complete en inzichtelijke manier naar literatuur worden gezocht. Bovendien moet de selectie van onderzoeken en de data-analyse op een reproduceerbare en objectieve manier worden uitgevoerd en gepresenteerd.9 15 Zowel bij de voorbewerking van de resultaten uit één afzonderlijk onderzoek als bij het combineren van de resultaten van vergelijkbare onderzoeken blijft voorzichtigheid geboden. Op basis van de inbreng van ter zake deskundige statistici en methodologen en inhoudsdeskundige specialisten dient bepaald te worden of het combineren van gegevens uit observationeel onderzoek zinvol en valide is.

Literatuur
  1. Windt DAWM van der, Zeegers MPA, Kemper HGC, ScholtenRJPM, Assendelft WJJ. De praktijk van systematische reviews. VI. Zoeken,selecteren en methodologische beoordeling van observationeel onderzoek.Ned Tijdschr Geneeskd2000;144:1210-4.

  2. Scholten RJPM. Dwalingen in de methodologie. XI.‘Odds’ en wat dies meer zij.Ned Tijdschr Geneeskd1998;142:2452-4.

  3. Berlin JA, Longnecker MP, Greenland S. Meta-analysis ofepidemiologic dose-response data. Epidemiology 1993;4:218-28.

  4. Tan FES, Zeegers MPA. An alternative method of combiningexposure specific odds ratios in epidemiologic studies. Research report.Maastricht: University Maastricht, Department Methodology and Statistics;1999.

  5. Davies HT, Williams FL. Confounded by confounding:separating association from causation. Hosp Med 1999;60:294-7.

  6. Scholten RJPM, Kostense PJ, Assendelft WJJ, Bouter LM. Depraktijk van systematische reviews. IV. Het combineren van de resultaten vanafzonderlijke onderzoeken. NedTijdschr Geneeskd 1999; 143:786-91.

  7. Blettner M, Sauerbrei W, Schlehofer B, Scheuchenpflug T,Friedenreich C. Traditional reviews, meta-analyses and pooled analyses inepidemiology. Int J Epidemiol 1999;28:1-9.

  8. Scholten RJPM, Assendelft WJJ, Kostense PJ, Bouter LM. Depraktijk van systematische reviews. V. Heterogeniteit tussen onderzoeken ensubgroepanalysen. Ned TijdschrGeneeskd 1999;143:843-8.

  9. Jones DR. Meta-analysis: weighing the evidence. Stat Med1995; 14:137-49.

  10. Normand SL. Meta-analysis: formulating, evaluating,combining, and reporting. Stat Med 1999;18:321-59.

  11. Lau J, Ioannidis JP, Schmid CH. Summing up evidence: oneanswer is not always enough. Lancet 1998;351:123-7.

  12. Berkey CS, Hoaglin DC, Mosteller F, Colditz GA. Arandom-effects regression model for meta-analysis. Stat Med1995;14:395-411.

  13. Greenland S. Invited commentary: a critical look at somepopular meta-analytic methods. Am J Epidemiol 1994;140:290-6.

  14. Zeegers MPA, Tan FES, Verhagen AP, Weijenberg MP, BrandtPA van den. Elevated risk of cancer of the urinary tract for alcoholdrinkers: a meta-analysis. Cancer Causes Control 1999;10:445-51.

  15. Egger M, Schneider M, Davey Smith G. Spurious precision?Meta-analysis of observational studies. BMJ1998;316:140-4.

Auteursinformatie

Universiteit Maastricht, Faculteit der Gezondheidswetenschappen, capaciteitsgroep Epidemiologie, Postbus 616, 6200 MD Maastricht.

M.P.A.Zeegers, epidemioloog-gezondheidswetenschapper.

Academisch Medisch Centrum, Faculteit der Geneeskunde, afd. Klinische Epidemiologie en Biostatistiek, Amsterdam.

Dr.S.H.Heisterkamp, statisticus.

Vrije Universiteit, faculteit der Geneeskunde, Amsterdam.

Afd. Klinische Epidemiologie en Biostatistiek: dr.P.J.Kostense, epidemioloog-statisticus.

Instituut voor Extramuraal Geneeskundig Onderzoek: dr.D.A.W.M. van der Windt, epidemioloog; dr.R.J.P.M.Scholten, arts-epidemioloog.

Contact M.P.A.Zeegers (mpa.zeegers@epid.unimaas.nl)

Gerelateerde artikelen

Reacties