De praktijk van systematische reviews. X. Zoeken, selecteren en methodologisch beoordelen van diagnostisch evaluatieonderzoek

Klinische praktijk
W.L.J.M. Devillé
P.M.M. Bossuyt
H.C.W. de Vet
P.D. Bezemer
L.M. Bouter
W.J.J. Assendelft
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2002;146:2281-4
Abstract
Download PDF

Samenvatting

- Literatuur over de waarde van diagnostische tests wordt slecht geïndexeerd in elektronische literatuurbestanden.

- Een uitgebreide, gevoelige en specifieke zoekstrategie voor diagnostisch evaluatieonderzoek in Medline is een combinatie van zoektermen voor de betreffende diagnostische test met: ‘sensitivity and specificity’ (en onderliggende termen), ‘mass screening’ (en onderliggende termen), ‘reference values’, ‘false positive reactions’, ‘false negative reactions’, ‘specificit$.tw’, ‘screening.tw’, ‘false positive$.tw’, ‘false negative$.tw’, ‘accuracy.tw’, ‘predictive value$.tw’, ‘reference value$.tw’, ‘roc$.tw’ of ‘likelihood ratio$.tw’.

- In- en exclusiecriteria selecteren publicaties die aan bepaalde minimumeisen voldoen, zoals de aanwezigheid van een aanvaarde referentiestandaard, een duidelijke definitie van ‘zieken’ en de aanwezigheid van een adequate uitkomstmaat.

- De methodologische beoordelingslijst dient zowel een aantal validiteitscriteria als een aantal criteria voor de mate van generaliseerbaarheid van de onderzoeksresultaten te bevatten.

- Belangrijke beoordelingscriteria die de diagnostische waarde van de test kunnen beïnvloeden, zijn: de studieopzet, een blinde beoordeling, het gebruik van verschillende referentietests, het ontbreken van diagnostische criteria voor de diagnostische test en een onvolledige beschrijving van de onderzoekspopulatie.

Diagnostisch evaluatieonderzoek is gericht op het evalueren van de validiteit van symptomen, lichamelijk onderzoek of aanvullende diagnostiek (verder aangeduid als ‘diagnostische test’). Dit onderzoek evalueert het vermogen van een diagnostische test om een onderscheid te maken tussen ‘zieken’ en ‘niet-zieken’, of tussen verschillende stadia van ziekte. Dit artikel reikt een handleiding aan voor het zoeken, selecteren en beoordelen van diagnostisch evaluatieonderzoek (Devillé WL, Buntinx F, Bouter LM, Montori VM, Vet HC de, Windt DA van der, et al. Conducting systematic reviews of diagnostic studies: didactic guidelines. BMC Medical Research Methodology 2002:2:9; www.biomedcentral.com/1471-2288/2/9).1

Als observationeel onderzoek staat het diagnostisch evaluatieonderzoek bloot aan verschillende vormen van systematische fouten (bias), wanneer aan bepaalde criteria niet wordt voldaan. Een overzicht van de diagnostische literatuur gepubliceerd in 4 medische toptijdschriften van 1978 tot 1993, toonde aan dat het met de kwaliteit van dit onderzoek droevig is gesteld: slechts in 50-60 van de recentste publicaties werden belangrijke oorzaken van bias vermeden.2 Een methode voor het evalueren van diagnostisch evaluatieonderzoek werd reeds gepubliceerd in 1986, maar expliciete richtlijnen voor het beoordelen van de kwaliteit en voor het rapporteren van diagnostisch evaluatieonderzoek kwamen slechts enkele jaren geleden beschikbaar.3-7 In september 2000 werden tijdens een internationale workshop in Amsterdam, de ‘Standards for reporting results of diagnostic research’ (STARD) voorgesteld (www.consort-statement.org). Het doel hiervan is niet alleen om de belangrijkste medische tijdschriften een standaard te bieden voor het rapporteren van diagnostisch evaluatieonderzoek, maar men beoogt hierdoor tevens indirect de kwaliteit ervan te verbeteren. De methodologische ontwikkelingen in het diagnostische veld lopen in de regel achter bij het effectonderzoek van therapie. De grote stap voorwaarts op dit gebied echter is de ontwikkeling van de methodologie voor systematische reviews en meta-analysen van diagnostisch evaluatieonderzoek in de jaren negentig.

zoeken en selecteren van diagnostisch evaluatieonderzoek

Zoekacties

Ook hier gelden de algemene principes voor het identificeren van de relevante literatuur zoals die in vorige artikelen in deze serie naar voren zijn gebracht.8 9 Het diagnostisch evaluatieonderzoek is echter niet altijd consistent geïndexeerd en daardoor moeilijk terug te vinden in elektronische literatuurbestanden. Verder is er heel wat literatuur die niets te maken heeft met de evaluatie van een diagnostische test als ‘diagnostisch’ geïndexeerd. Een goede zoekstrategie bevat zowel zoektermen die verwijzen naar de te diagnosticeren aandoening als termen die verwijzen naar de diagnostische test. Ook hier zal een zoekstrategie bestaan uit een combinatie van trefwoorden (‘Mesh heading’ in Medline) en vrije tekstwoorden, zoals beschreven in het tweede artikel van deze serie.9 In tabel 1 staat een zoekstrategie voor Medline, die het resultaat is van een combinatie van eerder gepubliceerde strategieën.10-12 Deze strategie is sensitiever dan die van Haynes et al.10 door het uitbreiden van de zoektermen, en specifieker door het weglaten van het trefwoord ‘diagnosis’ en het tekstwoord ‘sensitivity’. De zoekstrategie is om dezelfde redenen sensitiever dan de strategie met diagnostische zoektermen van Van der Weijden et al.11 en specifieker door het weglaten zowel van ‘diagnosis’-gerelateerde trefwoorden, als van het tekstwoord ‘diagnos’. Zo was de sensitiviteit van deze zoekstrategie 70 versus 46 voor de strategie van Haynes et al. in een systematische review van het diagnostisch evaluatieonderzoek bij knieletsel, en 92 versus 68 voor de strategie van Van der Weijden et al. in een systematische review betreffende de urinedipstick. Dezelfde zoekstrategie resulteerde in 525 niet geschikt bevonden publicaties versus 1372 met de strategie van Van der Weijden et al. in dezelfde knieletselreview.13

De voorgestelde zoekstrategie is gericht op het vinden van alle artikelen over de diagnostische waarde van alle mogelijke diagnostische tests. Soms kunnen zoektermen die verwijzen naar de naam van de test en de ziekte zelf volstaan. Indien de oogst met deze zoektermen te groot wordt en te weinig specifiek, kan men de zoekstrategie in tabel 1 daaraan koppelen, zodat enkel die artikelen opgespoord worden die gaan over de diagnostische waarde van de test.

De beschikbare elektronische literatuurbestanden zijn dezelfde als voor effectonderzoek, met als uitzondering het Cochrane Controlled Trial Register, dat enkel effectonderzoek op therapeutisch gebied bevat.9 In de Cochrane Library vindt men ook de York Database of Abstracts of Reviews of Effectiveness, waarin eveneens systematische reviews over diagnostisch evaluatieonderzoek zijn opgenomen. Bij de werkgroep Meta-analyse van Diagnostisch Onderzoek wordt sinds jaren een literatuurbestand bijgehouden over diagnostisch evaluatieonderzoek, methoden van diagnostisch evaluatieonderzoek en systematische reviews op dit gebied (secretariaat: berna.schouten@hag.unimaas.nl).

Aangezien diagnostisch evaluatieonderzoek niet accuraat geïndexeerd wordt in elektronische literatuurbestanden, zijn aanvullende zoekacties zoals screenen van referenties, aanschrijven van deskundigen et cetera en kwaliteitscontrole op de oogst van de zoekactie extra belangrijk (zie ook tabel 2 in artikel II van deze artikelenreeks).9 Sommige auteurs menen dat publicatiebias – het niet publiceren van artikelen met ongunstige uitkomsten – een groter probleem zou zijn in diagnostisch evaluatieonderzoek dan in effectonderzoek, maar hierover is weinig empirisch onderzoek beschikbaar.5

Selecteren

Bij selectie van artikelen gelden dezelfde principes als bij de review van effectstudies, namelijk meerdere reviewers, selectieformulier, blindering, et cetera (zie ook tabel 1 in artikel II van deze artikelenreeks).9 Daarnaast zijn er enkele specifieke aandachtspunten voor diagnostisch evaluatieonderzoek. Een absolute voorwaarde voor het evalueren van de validiteit van een diagnostische test is de vergelijking met een algemeen aanvaarde referentiestandaard of een algemeen geaccepteerd referentiecriterium. Deze referentiestandaard kan één andere test zijn, een combinatie van ‘diagnostische middelen’, of het in de tijd volgen van de deelnemers aan het onderzoek om het eventuele optreden van een aandoening te kunnen vaststellen. Het ontbreken van een acceptabele referentiestandaard in het onderzoek kan derhalve als uitsluitingscriterium worden gebruikt.

Er moet in elk geval een duidelijke en acceptabele definitie zijn van wie men ziek noemt en wie niet (in de regel door het aangeven van een duidelijk afkappunt voor de referentiestandaard).

Tenslotte verwacht men een duidelijke uitkomstmaat als parameter voor de validiteit: sensitiviteit, specificiteit, ‘likelihood’-ratio's, voorspellende waarden, ‘receiver operating characteristic’(ROC)-curven of diagnostische oddsratio's.

De lijst met in- en exclusiecriteria zal dan verder de aandoening en de diagnostische test bevatten, de patiëntenpopulatie en de setting, en eventueel de wijze van gegevensverzameling (case-controleopzet of een cohort van opeenvolgende patiënten).

methodologische beoordeling van diagnostisch evaluatieonderzoek

Evenals bij effectonderzoek omvat de methodologische kwaliteit in diagnostisch evaluatieonderzoek interne validiteit (‘validiteit’), externe validiteit (‘generaliseerbaarheid’) en de volledigheid van datapresentatie. Deze kenmerken zullen soms deel uitmaken van de in- en exclusiecriteria zoals hiervoor vermeld, maar kunnen tevens gebruikt worden in subgroep- en sensitiviteitsanalysen van de meta-analyse. De beoordelingsprocedure, het kwantificeren van kwaliteit en hoe validiteit in een meta-analyse betrokken kan worden, staat toegelicht in een eerdere bijdrage aan deze serie.14

Lijmer et al. toonden aan dat de diagnostische validiteit van tests overgewaardeerd leek te worden (a) in studies met een case-controleopzet (waarbij de resultaten van de test vergeleken worden tussen personen met de ziekte en gezonde controlepersonen), (b) wanneer er verschillende referentiestandaarden gebruikt werden om positieve en negatieve uitslagen van de onderzochte diagnostische test te confirmeren, (c) wanneer de interpretatie van de uitslagen van de referentiestandaard niet geblindeerd gebeurde voor de resultaten van de onderzochte diagnostische test, (d) wanneer er geen diagnostische criteria werden beschreven voor de diagnostische test, en (e) wanneer de onderzoekspopulatie onvolledig werd beschreven.15 De methodologische kwaliteit van diagnostisch evaluatieonderzoek is vaak moeilijk te beoordelen omdat hierover doorgaans onvolledig wordt gerapporteerd. Men kan eventueel proberen om aanvullende informatie in te winnen bij de auteurs van de publicatie. Tabel 2 geeft een overzicht van de beoordelingscriteria voor diagnostisch evaluatieonderzoek.

Validiteitscriteria

Men dient te letten op de volgende zaken:

- Adequate referentiestandaard. De gebruikte referentiestandaard moet algemeen erkend zijn door deskundigen op dit gebied.

- Afkappunt van de referentietest: dit afkappunt bepaalt de definitie van ‘zieken’ en ‘niet-zieken’ (of andere ziekten of stadia van ziekten), en beïnvloedt als zodanig mede het onderscheidend vermogen van de diagnostische test.

- Blinde beoordeling: in sommige situaties kan de uitslag van de test beïnvloed worden wanneer de beoordelaars de uitslagen kennen van de referentietest en vice versa. Beoordeling van de diagnostische test moet onafhankelijk gebeuren van de kennis van uitslagen van andere tests of klinische informatie (als men die in de klinische praktijk ook niet weet), zodat deze voorkennis de interpretatie van het testresultaat niet beïnvloedt.

- Verificatiebias treedt op wanneer verschillende proporties van patiënten met positieve en negatieve testuitslagen op basis van hun testuitslag doorverwezen worden voor de bevestiging met de referentiestandaard.

- Behandelingsparadox treedt op wanneer reeds met een behandeling is gestart voordat de referentiestandaard is uitgevoerd.

- Selectiebias bij inclusie komt voor wanneer er niet is gewerkt met een reeks opeenvolgende patiënten met indicaties voor de test of met een ‘random’-steekproef.

Specifieke criteriageneraliseerbaarheid

Deze heeft voornamelijk te maken met de gedetailleerde beschrijving van de onderzoekspopulatie en het uitvoeren van de diagnostische test: zie hiervoor tabel 2.

Beoordelingslijsten

De meeste bovenstaande criteria zijn terug te vinden op de website van de Cochrane Methods Group on Screening and Diagnostic Tests (www.cochrane.org/cochrane/sadt.htm) of bij andere auteurs.16-19 Tabel 2 geeft de volledige lijst met criteria.

Het Kwaliteitsinstituut voor de Gezondheidszorg van het CBO heeft een voorlopige versie van een dergelijke lijst uitgewerkt in samenwerking met onder andere het Dutch Cochrane Centre, het Nederlands Huisartsen Genootschap (NHG), het Institute for Medical Technology Assessment (iMTA), het College voor zorgverzekeringen (CVZ) en de Vereniging voor Integrale Kankertherapie (VVIK). Deze lijst is te verkrijgen bij het Dutch Cochrane Centre (www.cochrane.nl).

conclusie

Het systematisch verzamelen, beoordelen en samenvatten van diagnostische literatuur kregen tot heden minder aandacht dan dezelfde activiteiten betreffende het therapeutische effectonderzoek. Daarenboven beantwoordt diagnostisch evaluatieonderzoek in mindere mate aan kwaliteitscriteria, waren er tot voor kort nog geen algemene standaarden voor het rapporteren van diagnostisch evaluatieonderzoek en wordt het nog steeds onvolledig geïndexeerd in elektronische literatuurbestanden. Dit alles maakt het opsporen van diagnostisch evaluatieonderzoek extra moeilijk en het valide beoordelen van de gepubliceerde studies een kunst. Desondanks blijft het de moeite waard om op een systematische, en daardoor meer valide en transparante manier na te gaan waar men staat met het onderzoek naar de diagnostische waarde van symptomen, lichamelijk onderzoek of aanvullende diagnostiek. Het is niet alleen belangrijk om de diagnostische waarde op zichzelf in te schatten, maar vooral ook om te ontdekken door welke factoren deze in de dagelijkse klinische realiteit beïnvloed wordt en hoe sterk de bewijslast hiervoor is. Een systematische review of meta-analyse over een diagnostische test kan duidelijk maken wat er schort aan het uitgevoerde onderzoek of de publicatie(s) erover. Dit kan indirect leiden tot het opzetten van kwalitatief beter diagnostisch evaluatieonderzoek en het vollediger rapporteren hiervan.

Belangenconflict: geen gemeld. Financiële ondersteuning: geen gemeld.

Literatuur
  1. Devillé WL, Buntinx F. Guidelines for conductingsystematic reviews of studies evaluating the accuracy of diagnostic tests.In: Knottnerus JA, editor. The evidence base of diagnosis. Londen: BMJPublishing Group; 2002.

  2. Reid MC, Lachs MS, Feinstein AR. Use of methodologicalstandards in diagnostic test research: getting better but still not good.JAMA 1995;274:645-51.

  3. Guyatt GH, Tugwell PX, Feeny DH, Haynes RB, Drummond M. Aframework for clinical evaluation of diagnostic technologies. Can Med Assoc J1986;134:587-94.

  4. Irwig L, Tosteson ANA, Gatsonis C, Lau J, Colditz G,Chalmers TC, et al. Guidelines for meta-analyses evaluating diagnostic tests.Ann Intern Med 1994;120:667-76.

  5. Jaeschke R, Guyatt GH, Sackett DL. User's guidelinesto the medical literature. III. How to use an article about a diagnostictest. A. Are the results of the study valid? Evidence-Based Medicine WorkingGroup. JAMA 1994;271:389-91.

  6. Jaeschke R, Guyatt GH, Sackett DL. User's guidelinesto the medical literature. III. How to use an article about a diagostic test.B. What are the results and will they help me in caring for my patients? TheEvidence-Based Medicine Working Group. JAMA 1994;271:703-7.

  7. Greenhalgh T. How to read a paper: papers that reportdiagnostic or screening tests. BMJ 1997;315:540-3.

  8. Windt DAWM van der, Zeegers MPA, Kemper HCG, AssendelftWJJ, Scholten RJPM. De praktijk van systematische reviews. VI. Zoeken,selecteren en methodologische beoordeling van etiologisch onderzoek.Ned Tijdschr Geneeskd2000;144:1210-4.

  9. Assendelft WJJ, Tulder MW van, Scholten RJPM, Bouter LM.De praktijk van systematische reviews. II. Zoeken en selecteren vanliteratuur. Ned Tijdschr Geneeskd1999;143:656-61.

  10. Haynes RB, Wilczynski N, McKibbon KA, Walker CJ, SinclairJC. Developing optimal search strategies for detecting clinically soundstudies in MEDLINE. J Am Med Inform Assoc 1994;1:447-58.

  11. Weijden T van der, IJzermans CJ, Dinant GJ, Duijn NP van,Vet R de, Buntinx F. Identifying relevant diagnostic studies in MEDLINE. Thediagnostic value of the erythrocyte sedimentation rate (ESR) and dipstick asan example. Fam Pract 1997;14:204-8.

  12. Devillé WLJM, Bezemer PD, Bouter LM. Publicationson diagnostic test evaluation in family medicine journals: an optimal searchstrategy. J Clin Epidemiol 2000;53:65-9.

  13. Devillé W. Evidence in diagnostic research.Reviewing diagnostic accuracy: from search to guidelinesproefschrift. Amsterdam: Vrije Universiteit; 2001. p.114-6.

  14. Assendelft WJJ, Scholten RJPM, Eijk JThM van, Bouter LM.De praktijk van systematische reviews. III. Methodologische beoordeling vanonderzoeken. Ned Tijdschr Geneeskd1999;143:714-9.

  15. Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH,Meulen JHP van der, et al. Empirical evidence of design-related bias instudies of diagnostic tests. JAMA 1999;282:1061-6.

  16. How to read clinical journals. II. To learn about adiagnostic test. Can Med Assoc J 1981;124:703-10.

  17. Mulrow CD, Linn WD, Gaul MK, Pugh JA. Assessing qualityof a diagnostic test evaluation. J Gen Intern Med 1989;4:288-95.

  18. Wald N, Cuekle H. Reporting the assessment of screeningand diagnostic tests. Br J Obstet Gynaecol 1989;96:389-96.

  19. Schouw YT van der, Verbeek ALM, Ruijs SHJ. Guidelines forthe assessment of new diagnostic tests. Invest Radiol1995;30:334-40.

Auteursinformatie

VU Medisch Centrum, Amsterdam.

Instituut voor Extramuraal Geneeskundig Onderzoek: dr.W.L.J.M. Devillé, arts-epidemioloog (thans: Nederlands Instituut voor onderzoek van de Gezondheidszorg (Nivel), Postbus 1568, 3500 BN Utrecht); mw.dr.H.C.W.de Vet en prof.dr.L.M.Bouter, epidemiologen.

Afd. Klinische Epidemiologie en Biostatistiek: dr.P.D.Bezemer, biostatisticus.

Academisch Medisch Centrum, afd. Klinische Epidemiologie en Biostatistiek, Amsterdam.

Prof.dr.P.M.M.Bossuyt, klinisch epidemioloog.

Nederlands Huisartsen Genootschap, afd. Richtlijnontwikkeling en Wetenschapsbeleid, Utrecht.

Dr.W.J.J.Assendelft, huisarts-epidemioloog.

Contact dr.W.L.J.M.Devillé (w.deville@nivel.nl)

Gerelateerde artikelen

Reacties