Te weinig evaluatie van beeldvormende onderzoeken

Klinische praktijk
Pim A. de Jong
Yolanda van der Graaf
Patrick M.M. Bossuyt
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2011;155:A2996
Abstract
Download PDF

Toets voor nascholing (verlopen)

Aan dit leerartikel was een toets gekoppeld waarmee je nascholingspunten kon verdienen.

Bekijk de toets

Samenvatting

  • Het gebruik van beeldvormende onderzoeken stijgt snel.

  • Beeldvormende onderzoeken kunnen tot een snelle en accurate diagnose leiden, maar kunnen ook schadelijk zijn, hetgeen vraagt om een zorgvuldige evaluatie ervan.

  • Zulke evaluatie verloopt ruwweg in 3 stappen: evaluatie van analytische validiteit ofwel betrouwbaarheid (zoals herhaalbaarheid), evaluatie van klinische validiteit (zoals positief en negatief voorspellende waarde) en evaluatie van klinisch nut (zoals verbetering in levensduur en levenskwaliteit).

  • Twee vaak gesignaleerde problemen in het huidige testonderzoek zijn de gebrekkige kwaliteit van veel diagnostische studies en het relatief ontbreken van studies naar toegevoegde waarde en klinisch nut van beeldvormende onderzoeken.

  • Onderzoek naar klinisch nut van beeldvorming is niet eenvoudig: het vraagt om multidisciplinaire samenwerking en de methoden zijn minder uitgekristalliseerd dan onderzoek naar de effecten van therapie.

  • De druk neemt toe, vanuit de samenleving en overheden, om de evaluatie van beeldvormende onderzoeken te verbeteren.

artikel

Met enige regelmaat worden nieuwe ontwikkelingen in de beeldvorming geïntroduceerd. Voorbeelden zijn computertomografische angiografie (CTA) van de kransslagaders,1 longperfusie-CT,2 fusie-onderzoeken van positronemissietomografie (PET) met CT,3 en in de toekomst, met kernspinresonantietomografie (MRI).4 Het gebruik van beeldvormende onderzoeken toont een sterke stijging.5 In Nederland is bijvoorbeeld het aantal CT-onderzoeken toegenomen van 360.000 in 1991 tot meer dan een miljoen in 2008, het aantal echo-onderzoeken in algemene ziekenhuizen van ongeveer 1 miljoen in 2001 tot 2,6 miljoen in 2008 en het aantal MRI-onderzoeken in ziekenhuizen van 75.000 in 1993 tot meer dan 650.000 in 2008 (bron: www.rivm.nl).

De potentiële winst van beeldvormende onderzoeken is een snelle en accurate diagnose die leidt tot een verbetering in het klinische beleid, zoals het voorkómen van onnodige behandeling en vervolgonderzoek, of het tijdig starten van de juiste behandeling. Het uiteindelijke resultaat is een verbetering in klinische uitkomsten voor de patiënt en/of een doelmatiger gebruik van middelen.

Beeldvormende onderzoeken zijn echter niet onschadelijk.6 Belangrijke bronnen van potentiële schade zijn foutieve uitslagen, kankerinductie door röntgenstralen,5 toevallig gevonden afwijkingen waarvan we de betekenis niet kennen, de diagnose van ziekten waarvoor geen behandeling is en allergische reacties. Ook de onderbenutting van potentieel nuttige onderzoeken en het gebruik van nutteloze onderzoeken,7-8 of van de verkeerde onderzoeken, kunnen een schadebron zijn voor de patiënt.

In tegenstelling tot wat bij geneesmiddelen al lang gebruikelijk is, bestaat er geen wettelijke verplichting om onderzoek te doen naar beeldvormende onderzoeken en de waarde ervan voor de patiënt aan te tonen, alvorens die onderzoeken worden geïmplementeerd. Als de aanvrager het onderzoek nodig denkt te hebben, en het is beschikbaar, dan kan het in het algemeen gemakkelijk worden ingevoerd. Wetenschappelijk onderzoek naar het nut voor de patiënt, en naar de vraag of het nut in een redelijke verhouding tot de kosten staat, wordt nagenoeg niet uitgevoerd.9 Het veld is echter in beweging en de verwachting is dat de maatschappelijke en overheidsdruk zal toenemen om de waarde van beeldvormende onderzoeken beter vast te stellen.

In dit artikel beschrijven wij de fasen in de evaluatie van beeldvormende onderzoeken,9-11 en kaarten wij het probleem van de gebrekkige evaluatie van het klinisch nut ervan aan.

Evaluatie van beeldvormende onderzoeken

Analytische validiteit

Als de technologie voor een nieuwe test is ontwikkeld, is een eerste stap in de evaluatie het bepalen van de technische eigenschappen en de analytische validiteit (betrouwbaarheid). Hoe vaak levert het onderzoek een bruikbaar resultaat op? Hoe betrouwbaar zijn de resultaten van het onderzoek? Om een antwoord op die vragen te krijgen, zijn in het algemeen vrij eenvoudige studies voldoende, die meestal volledig binnen de radiologie kunnen plaats vinden.

De vragen die in dit type studie worden gesteld zijn de volgende. Wat is de herhaalbaarheid van het onderzoek? Hoe reproduceerbaar zijn de bevindingen? Komt een later oordeel van een beoordelaar overeen met een eerste oordeel? Komen verschillende beoordelaars tot hetzelfde resultaat? Een klassiek voorbeeld is een studie waarin een groep radiologen onafhankelijk van elkaar een aantal patiënten beoordeelt, en de beelden na een paar weken of maanden opnieuw beoordeelt, waarna de mate van overeenkomst tussen en binnen de beoordelaars wordt berekend.

Klinische validiteit

Het gaat er bij diagnostische tests in het algemeen niet alleen om dat de resultaten betrouwbaar zijn en kloppen, de resultaten moeten ook klinische betekenis hebben. Dit komt aan de orde in studies van de klinische validiteit van tests. Wat betekenen de testresultaten? Kan de test worden gebruikt om ziekte, of een bepaalde toestand, aan te tonen of uit te sluiten? Het antwoord op die vragen wordt geformuleerd op basis van studies naar verbanden tussen de testresultaten en de bevindingen van andere tests, eigenschappen van de patiënt, uitkomsten van behandeling, of andere observaties. Vragen naar de klinische validiteit van tests kunnen alleen in systematische cohortstudies worden onderzocht.

Diagnostische accuratesse Bij diagnostische tests wordt het antwoord op de vraag naar de klinische validiteit geformuleerd als de diagnostische accuratesse van de test. Voor onderzoek naar de diagnostische accuratesse van een test moet er een manier bestaan om eenduidig aan- of afwezigheid van de ziekte aan te tonen, de zogenaamde referentiestandaard. Dat kan een gouden standaard zijn – een foutloze manier om de aanwezigheid van ziekte te bepalen – of als deze ontbreekt, zijn er meerdere alternatieven zoals het oordeel van een panel van experts.12 Het eindresultaat in een onderzoek naar de diagnostische accuratesse is meestal een relatief eenvoudige kruistabel, waaruit de verschillende maten kunnen worden afgelezen, zoals schattingen van de klinische sensitiviteit, specificiteit en positief en negatief voorspellende waarde van de nieuwe test.

Een vervolgvraag is of de test, in dit geval het beeldvormend onderzoek, ook iets toevoegt, in termen van diagnostische waarde, aan datgene wat al uit anamnese, lichamelijk onderzoek en bijvoorbeeld simpel bloedonderzoek duidelijk is. Het is belangrijk dat de resultaten van een test accuraat zijn, maar belangrijker nog voor de praktijk is of testresultaten iets toevoegen. Bestudering van de toegevoegde waarde van tests vereist dat ook gegevens van alle eerdere tests, inclusief anamnese en lichamelijk onderzoek, systematisch zijn vastgelegd. Daarna kan de toegevoegde waarde van de test worden bepaald. Dat kan bijvoorbeeld met een multivariaat model.

Klinisch nut

De uiteindelijke verantwoording van het gebruik van tests is niet of de resultaten betrouwbaar zijn, of ze klinische betekenis hebben, maar of patiënten direct of indirect beter worden van het gebruik ervan. Dat is de vraag naar de gezondheidswinst of, breder gezien, naar doelmatigheidswinst door het gebruik van de test. Tests moeten het beleid kunnen beïnvloeden, en wel op een zodanige manier dat de overlevingskansen of de kwaliteit van leven van patiënten verbeteren, of dat onnodige kosten kunnen worden vermeden.

Eén van de manieren om dit te bestuderen is gerandomiseerd vergelijkend onderzoek, net zoals dat voor andere voorzieningen of interventies in de zorg wordt opgezet. In dit geval worden patiënten gerandomiseerd toegewezen aan een groep die de test wel ondergaat of een groep die de test niet ondergaat. De overleving, kwaliteit van leven en kosten kunnen dan worden vergeleken tussen de 2 groepen. Gerandomiseerd onderzoek naar tests is echter niet altijd mogelijk, nodig of wenselijk.13 In de evaluatie van het klinisch nut kunnen ook modelstudies en simulaties een rol spelen.

Actuele problemen bij de evaluatie van beeldvormende onderzoeken

De evaluatie van diagnostische tests, inclusief beeldvormend technieken, is veel minder ver ontwikkeld dan de evaluatie van geneesmiddelen en andere interventies in de zorg.14 Twee vaak gesignaleerde problemen in het huidige testonderzoek zijn de gebrekkige kwaliteit van veel diagnostische studies en het relatief gebrek aan studies naar toegevoegde waarde van beeldvormende onderzoeken en klinisch nut.

Om de rapportage van onderzoek naar de diagnostische accuratesse te verbeteren, zijn in 2003 de zogenaamde ‘Standards for the reporting of diagnostic accuracy’ (STARD)-richtlijnen gepubliceerd.15,16 Deze publicatie bevat een handige checklist van 25 items, maar die wordt nog niet door iedereen gebruikt, hoewel de situatie langzaam lijkt te verbeteren.17

In de radiologische literatuur wordt niet of nauwelijks gerapporteerd over de toegevoegde waarde en het klinisch nut van bestaande of nieuwe beeldvormende onderzoeken. Een mogelijke reden hiervoor is dat onderzoek naar de toegevoegde waarde of naar klinisch nut lastiger is dan onderzoek naar, bijvoorbeeld, technische eigenschappen zoals de reproduceerbaarheid. Het klinisch nut van een test hangt niet alleen af van de test zelf, maar ook van hoe de resultaten van de test worden gebruikt in het verdere klinisch beleid. Studies naar het nut van beeldvormende onderzoeken zijn dus altijd multidisciplinair, in een samenwerking van radiologen en behandelaars.

Regelgevers en financiers in de zorg hebben tot nu toe minder vaak gevraagd naar onderzoek naar het klinisch nut, in tegenstelling tot wat bijvoorbeeld bij geneesmiddelen het geval is, maar het is de vraag hoe lang deze situatie nog blijft bestaan. In een tijd van een groeiende vraag naar gezondheidszorg van een vergrijzende bevolking en met krimpende middelen zullen ook medische tests, inclusief beeldvormend onderzoek, de vraag naar het nut niet langer kunnen ontlopen. De kosten van beeldvorming nemen sterker toe dan die van de zorg als geheel, maar levert het ook wat op? Een betere evaluatie van beeldvorming is niet alleen wenselijk, maar ook onvermijdelijk. Dit type onderzoek is zeker mogelijk, in goede multidisciplinaire samenwerking, misschien geïnitieerd door beeldvormers zelf, zoals radiologen, pathologen en nucleair geneeskundigen, maar enthousiast ondersteund door aanvragers.

Een praktisch voorbeeld: de thoraxfoto bij verdenking op pneumonie

De thoraxröntgenfoto is een de meest gebruikte radiologische tests.18 In het Universitair Medisch Centrum Utrecht betreft 1 op de 4 onderzoeken op de afdeling Radiologie een thoraxfoto. De techniek is ver ontwikkeld.19 In vele patiëntenpopulaties, bij kinderen, huisartsenpatiënten, ziekenhuispatiënten, immuungecompromitteerde patiënten, en patiënten aan de beademing, was de thoraxfoto onderwerp van onderzoek.

Betrouwbaarheid. De betrouwbaarheid (analytische validiteit) is veelvuldig onderzocht. In een studie werden 247 opeenvolgende volwassen patiënten uit de huisartspraktijk met verdenking op een infectie van de lagere luchtwegen geïncludeerd.20 Bij iedereen werd een thoraxfoto gemaakt, deze foto’s werden door 4 radiologen beoordeeld op de aanwezigheid van een infiltraat. De mate van overeenkomst, uitgedrukt in een kappa-waarde, was 0,53 (95%-BI: 0,37-0,69), wat een matige mate van overeenkomst betekent. In zulke studies wordt er dus niet per se gekeken of het oordeel juist was, alleen of deze overkomt met die van andere beoordelaars.

Klinische validiteit De klinische validiteit (diagnostische accuratesse) van de thoraxfoto voor de diagnose ‘pneumonie’ is weinig onderzocht. De thoraxfoto wordt vaak zelf als referentiestandaard gebruikt. Het is lastig om een goede referentiestandaard te bedenken om de thoraxfoto aan te spiegelen, hoewel je zou kunnen denken aan een panel van experts, dat beschikt over alle relevante informatie, ook over het beloop. Recent is het onderzoek samengevat naar de accuratesse van de thoraxfoto bij patiënten aan de beademing die verdacht werden van een pneumonie.21 Bij alle samengevatte onderzoeken werd een biopsie of autopsie als referentiestandaard gebruikt. De sensitiviteit voor pneumonie van een nieuw infiltraat op de thoraxfoto varieerde van 78-100% en de specificiteit van 33-75%. De voorafkans op pneumonie bij een patiënt aan de beademing is ongeveer 10%, deze kans daalt naar 3,6% (95%-BI: 1,5-8,5) als er géén nieuw infiltraat wordt gevonden en stijgt naar 23% (95%-BI: 9,4-46) als er wél een nieuw infiltraat wordt gevonden en ook minstens 2 andere symptomen aanwezig zijn (koorts, purulent sputum, leukocytose). De auteurs concludeerden dat een thoraxfoto in deze setting wel wat oplevert, maar dat aanvullende onderzoeken of andere informatie nodig zijn om een pneumonie met zekerheid aan te tonen of uit te sluiten.21

Klinisch nut Het klinisch nut van een thoraxfoto bij verdenking op pneumonie is beperkt geëvalueerd. In een studie werd huisartsen een tijdlang gevraagd om bij alle patiënten bij wie zij aan pneumonie dachten na anamnese en lichamelijk onderzoek, aan te geven wat de kans op pneumonie was en wat het beleid zou zijn zonder de kennis over de uitslag van de thoraxfoto.22 Als het verslag van de thoraxfoto binnenkwam beantwoordde de huisarts opnieuw deze vragen. Het voorgenomen beleid werd bij 69% van de patiënten gewijzigd na de thoraxfoto; er werd vooral minder medicatie voorgeschreven. Uit zulke studies is overigens niet met zekerheid te concluderen of de patiënt hier ook baat bij heeft gehad; misschien was de beleidsverandering wel onterecht omdat de thoraxfoto onterecht negatief was, en het voorgenomen beleid was ook puur hypothetisch.

In een andere studie werden 522 kinderen met verdenking op pneumonie gerandomiseerd toegewezen aan een groep die wel en een groep die geen thoraxfoto kreeg.22 De tijd tot herstel was 7 dagen in beide groepen; na 7 dagen waren 46% van de kinderen in de thoraxfotogroep nog niet beter tegenover 45% in de controlegroep. Antibiotica werden gebruikt door 61% van de kinderen bij wie een thoraxfoto werd gemaakt en door 52% in de controlegroep (p = 0,05). In geen van de groepen overleden patiënten. De auteurs concluderen dat de thoraxfoto de klinische uitkomst van deze kinderen niet had verbeterd.23

Leerpunten

  • Het gebruik van beeldvormende onderzoeken groeit.

  • Er is geen wettelijke verplichting om beeldvormende onderzoeken goed te evalueren. Van veel van dat onderzoek staan de betrouwbaarheid (analytische validiteit), de klinische validiteit en het klinisch nut niet vast.

  • Het klinisch nut van beeldvormende onderzoeken wordt te weinig onderzocht, dat wil zeggen: leidt de uitkomst van het onderzoek tot een betere uitkomst voor de patiënt en een doelmatiger gebruik van de benodigde middelen.

  • De druk om beeldvormend onderzoek beter te evalueren gaat toenemen.

  • Multidisciplinair onderzoek naar klinisch nut is niet makkelijk, maar mogelijk en gewenst.

Literatuur
  1. Miller JM, Rochitte CE, Dewey M, et al. Diagnostic performance of coronary angiography by 64-row CT. N Engl J Med. 2008;359(22):2324-36 Medline. doi:10.1056/NEJMoa0806576

  2. Lardinois D, Weder W, Hany TF, et al. Staging of non-small-cell lung cancer with integrated positron-emission tomography and computed tomography. N Engl J Med. 2003;348:2500-7 Medline. doi:10.1056/NEJMoa022136

  3. Kang MJ, Park CM, Lee CH, Goo JM, Lee HJ. Dual-energy CT: clinical applications in various pulmonary diseases. Dual-energy CT: clinical applications in various pulmonary diseases. Radiographics. 2010;30(3):685-98 Medline. doi:10.1148/rg.303095101

  4. Judenhofer MS, Wehrl HF, Newport DF, et al. Simultaneous PET-MRI: a new approach for functional and morphological imaging. Nat Med. 2008;14:459-65 Medline. doi:10.1038/nm1700

  5. Brenner DJ, Hall EJ. Computed tomography--an increasing source of radiation exposure. N Engl J Med. 2007;357:2277-84 Medline. doi:10.1056/NEJMra072149

  6. Hillman BJ, Goldsmith JC. The uncritical use of high-tech medical imaging. N Engl J Med. 2010;363:4-6 Medline. doi:10.1056/NEJMp1003173

  7. Van Randen A, Laméris W, Luitse JS, Gorzeman M, Hesselink EJ, Dolmans DE, et al. The role of plain radiographs in patients with acute abdominal pain at the ED. Am J Emerg Med. 2010 (epub) Medline.

  8. Chou R, Fu R, Carrino JA, Deyo RA. Imaging strategies for low-back pain: systematic review and meta-analysis. Lancet. 2009;373:463-72 Medline. doi:10.1016/S0140-6736(09)60172-0

  9. Sardanelli F, Hunink MG, Gilbert FJ, Di Leo G, Krestin GP. Evidence-based radiology: why and how? Eur Radiol. 2010;20:1-15 Medline. doi:10.1007/s00330-009-1574-4

  10. Fryback DG, Thornbury JR. The efficacy of diagnostic imaging. Med Decis Making. 1991;11:88-94 Medline. doi:10.1177/0272989X9101100203

  11. Lijmer JG, Leeflang M, Bossuyt PM. Proposals for a phased evaluation of medical tests. Med Decis Making. 2009;29:E13-21 Medline. doi:10.1177/0272989X09336144

  12. Reitsma JB, Rutjes AW, Khan KS, Coomarasamy A, Bossuyt PM. A review of solutions for diagnostic accuracy studies with an imperfect or missing reference standard. J Clin Epidemiol. 2009;62:797-806 Medline. doi:10.1016/j.jclinepi.2009.02.005

  13. Bossuyt PM, Lijmer JG, Mol BW. Randomised comparisons of medical tests: sometimes invalid, not always efficient. Lancet. 2000;356:1844-7 Medline. doi:10.1016/S0140-6736(00)03246-3

  14. Knottnerus JA. van WC, Muris JW. Evaluation of diagnostic procedures. BMJ. 2002;324:477-80 Medline. doi:10.1136/bmj.324.7335.477

  15. Bossuyt PM, Reitsma JB, Bruns DE, et al. Towards complete and accurate reporting of studies of diagnostic accuracy: The STARD Initiative. BMJ. 2003;326:41-4 Medline. doi:10.1136/bmj.326.7379.41

  16. Smidt N, Rutjes AW, van der Windt DA, et al. The quality of diagnostic accuracy studies since the STARD statement: has it improved? Neurology. 2006;67:792-7 Medline. doi:10.1212/01.wnl.0000238386.41398.30

  17. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al. Verslaglegging van diagnostisch evaluatieonderzoek volgens een standaardmethode; de ‘Standards for reporting of diagnostic accuracy’ (STARD). Ned Tijdschr Geneeskd. 2003;147:336-40 link.

  18. Speets AM, Kalmijn S, Hoes AW, Van der Graaf Y, Smeets HM, Mali WP. Frequency of chest radiography and abdominal ultrasound in the Netherlands: 1999-2003. Eur J Epidemiol. 2005;20:1031-6 Medline. doi:10.1007/s10654-005-2954-y

  19. Schaefer-Prokop CM, De Boo DW, Uffmann M, Prokop M. DR and CR: Recent advances in technology. Eur J Radiol. 2009;72:194-201 Medline. doi:10.1016/j.ejrad.2009.05.055

  20. Hopstaken RM, Witbraad T, van Engelshoven JM, Dinant GJ. Inter-observer variation in the interpretation of chest radiographs for pneumonia in community-acquired lower respiratory tract infections. Clin Radiol. 2004;59:743-52 Medline. doi:10.1016/j.crad.2004.01.011

  21. Klompas M. Does this patient have ventilator-associated pneumonia? JAMA. 2007;297:1583-93 Medline. doi:10.1001/jama.297.14.1583

  22. Speets AM, Hoes AW, van der Graaf Y, Kalmijn S, Sachs AP, Mali WP. Chest radiography and pneumonia in primary care: diagnostic yield and consequences for patient management. Eur Respir J. 2006;28:933-8 Medline. doi:10.1183/09031936.06.00008306

  23. Swingler GH, Hussey GD, Zwarenstein M. Randomised controlled trial of clinical outcome after chest radiograph in ambulatory acute lower-respiratory infection in children. Lancet. 1998;351:404-8 Medline. doi:10.1016/S0140-6736(97)07013-X

Auteursinformatie

Universitair Medisch Centrum Utrecht, Utrecht.

Afd. Radiologie: dr. P.A. de Jong, aios radiologie.

Julius Center for Health Sciences and Primary Care: prof.dr. Y. van der Graaf, epidemioloog.

Academisch Medisch Centrum, Amsterdam.

Afd. Klinische Epidemiologie, Biostatistiek en Bioinformatica: prof.dr. P.M.M. Bossuyt, klinisch epidemioloog.

Contact dr. P.A. de Jong (pimdejong@gmail.com)

Verantwoording

Belangenconflict: geen gemeld. Financiële ondersteuning: geen gemeld.
Aanvaard op 6 december 2010

Gerelateerde artikelen

Reacties