Dwalingen in de methodologie. X. Het toetsen van diagnostiek

Klinische praktijk
P.M.M. Bossuyt
J.G. Lijmer
B.W. Mol
Citeer dit artikel als
Ned Tijdschr Geneeskd. 1998;142:2345-7
Abstract
Download PDF

Samenvatting

- In het tijdperk van ‘evidence-based’ geneeskunde worden ook van diagnostische tests in toenemende mate empirische bewijzen van effectiviteit verlangd.

- In de evaluatie van aanvullend onderzoek stonden tot nu toe de begrippen ‘sensitiviteit’ en ‘specificiteit’ centraal. Aan deze benadering kleven echter een aantal onvolkomenheden als het gaat om de echte waarde voor de patiënt.

- Er is een trend waarneembaar naar meer vergelijkend onderzoek van combinaties van tests en naar beleid gebaseerd op de uitslagen van die tests, soms met gerandomiseerde toewijzing.

- De indirecte relatie tussen testuitslagen en gezondheidsuitkomsten roept echter aparte problemen op bij dit type onderzoek.

Nu de geneeskunde is aanbeland in een tijdperk van rekenschap en verantwoording, ontsnappen ook het laboratoriumonderzoek en het beeldvormend onderzoek niet langer aan een kritische blik. Hardop wordt het vermoeden uitgesproken dat laboratoriumbepalingen te vroeg in hun ontwikkeling in de praktijk belanden, ondoelmatig worden aangevraagd en soms foutief worden geïnterpreteerd, zodat ze ongewenste gevolgen kunnen hebben voor de zorg voor de betrokken patiënten. Fout-positieve en fout-negatieve bevindingen en nodeloze medicalisering door overdiagnostiek dragen niet bepaald bij tot een betere gezondheid.1 Gepast gebruik van laboratoriumonderzoek en van beeldvormend onderzoek verdient de aandacht, zowel vanuit het perspectief van de kwaliteit als vanuit dat van de kosten van de zorg. Begrijpelijkerwijze groeit het inzicht dat men ook van dit soort medische tests een wetenschappelijke basis (‘evidence base’) mag verlangen: empirische demonstraties van effectiviteit.

Hoe kunnen wij, daartoe uitgedaagd, de waarde van tests aantonen? In antwoorden op die vraag doken tot nu toe steeds de termen ‘sensitiviteit’ en ‘specificiteit’ op: wie een test wil evalueren, moet vragen naar de sensitiviteit en de specificiteit. Het is dan ook niet verwonderlijk dat die termen voortdurend opduiken in het vorig jaar verschenen Diagnostisch kompas.2

sensitiviteit en specificiteit: zaligmakend?

Gouden standaard

De gebruikelijke manier om sensitiviteit en specificiteit te bepalen bestaat uit het onderwerpen van een groep patiënten aan de te evalueren test en tevens aan een tweede vorm van onderzoek, vaak ‘de gouden standaard’ genoemd. Deze vergelijking moet een antwoord opleveren op de vraag of alle door de test gesignaleerde afwijkingen ook echt zijn, dat wil zeggen of tekenen van ziekte die de test geeft, kunnen worden bevestigd door de gouden standaard, en of alles wat volgens de gouden standaard afwijkend is ook door de test wordt geregistreerd. In veel gevallen, zeker in de radiodiagnostiek, werd bij ‘gouden standaard’ aan een histologische bevestiging van de ziekte of afwijking gedacht. De sensitiviteit staat dan voor dat gedeelte van de patiënten met de histologisch bevestigde afwijking bij wie ook een afwijkend beeld is te zien. De specificiteit staat voor dat deel van de patiënten zonder afwijking bij wie ook op het beeld niets vreemds is te zien.

Referentietest

Gaandeweg is het onderscheid tussen testresultaat en histologische bevestiging vervaagd. De gouden standaard werd meer en meer de ‘beste’ of gebruikelijke manier om de diagnose te bevestigen: de referentietest. Soms is de referentietest op een geheel ander mechanisme gebaseerd dan de te bestuderen test. Voor een test als D-dimeerbepaling is de referentiebepaling pulmonalisangiografie, om na te gaan of de patiënt een longembolie heeft. De D-dimeerbepaling is gebaseerd op het meten van fibrinogeenafbraakproducten, de angiografie op het visualiseren van de longarteriën met contraststof. In het ene geval wordt een biochemische ziektedefinitie gebruikt, in het andere geval een anatomische.

Sensitiviteit en specificiteit zeggen niet alles

Wat zeggen sensitiviteit en specificiteit over de waarde van een test? Voor wij die vraag beantwoorden, dient te worden opgemerkt dat het beslist niet om intuïtief duidelijke begrippen gaat. Overzichten laten zien dat onderzoekers de berekeningen vaak niet correct uitvoeren en dat zij de uitkomsten veelal verkeerd interpreteren.3 Een verwant probleem is dat sensitiviteit en specificiteit altijd in relatie tot elkaar moeten worden bekeken. Een test met een hoge sensitiviteit is van weinig waarde als de specificiteit beroerd is, en omgekeerd. Men heeft ook weinig aan een sensitieve én specifieke test als men er vooraf al vrijwel zeker van was dat de patiënt de afwijking niet, of juist wel heeft. Sensitiviteit en specificiteit zeggen, op zichzelf, niets over de kans dat iemand ziek is of beter wordt.

Een andere moeilijkheid is dat de begrippen ‘sensitiviteit’ en ‘specificiteit’ gedefinieerd zijn vanuit de diagnostiek. Veel aanvullend onderzoek wordt echter helemaal niet gebruikt om een einddiagnose te stellen. Doorgaans moet een test helpen uitmaken of een behandeling moet worden begonnen, gestaakt of aangepast. Voor veel van deze beslissingen is de quasi-absolute zekerheid over de aanwezigheid van ziekte niet noodzakelijk of zelfs niet gewenst. Veeleer gaat het om het nemen van de juiste beslissingen bij de juiste groep van patiënten en om de vraag of tests daarbij kunnen helpen. Het begrip ‘gouden standaard’ is in zijn klassieke betekenis dan maar beperkt van toepassing.

Stel dat een onderzoeker een test heeft bedacht waarvan hij vermoedt dat deze beter is dan de huidige referentietest. Hoe dit aan te tonen? Stel dat een nieuwe test weliswaar niet zo goed is als de huidige gouden standaard, maar minder gevaarlijk, minder belastend of minder onaangenaam. In dat geval zou die nieuwe test voor een gedeelte van de patiënten de huidige referentietest kunnen vervangen. Hoe valt na te gaan of dit verantwoord is?

effect van diagnostiek op gezondheid

Diagnostische impact

Sensitiviteit en specificiteit zijn nuttige indicatoren. Het zijn alleen niet zulke goede karakteriseringen van de praktische waarde van een test. Deze vaststelling motiveerde een aantal onderzoekers om van een test te verlangen dat deze niet alleen sensitief en specifiek is, maar ook ‘diagnostische impact’ en ‘therapeutische impact’ heeft.4 Het aanvragen van een test moet de diagnose kunnen veranderen; de resultaten van een test moeten kunnen leiden tot een verandering in beleid.

Het eisen van diagnostische en therapeutische impact lost het probleem echter maar ten dele op. Is elke verandering in diagnose of in beleid er wel een ten goede? Moeten wij het uitblijven van diagnostische en therapeutische impact aan de test toeschrijven of wijten aan de arts die de test heeft aangevraagd en het resultaat heeft geïnterpreteerd?

Diagnostische trials

Vroeg of laat komt een evaluatie van een test toch uit bij de hamvraag: worden patiënten er beter van? Wordt door deze test vroegtijdig overlijden voorkomen? Leidt dit onderzoek tot aantoonbare gezondheidswinst voor de patiënt?

Het is voor velen een gewoonte geworden bij dergelijke vragen naar effectiviteit meteen aan gerandomiseerd vergelijkend onderzoek te denken. Voor nogal wat onderzoekers moet de evaluatie van tests uiteindelijk uitkomen bij gerandomiseerde klinische trials (RCT's), het nec plus ultra van evaluatieonderzoek. In de literatuur treffen we dan ook geleidelijk steeds meer rapportages aan van vergelijkend onderzoek naar de effecten van diagnostiek voor de gezondheid. In dergelijk onderzoek komen patiënten op basis van toeval in één van twee groepen terecht; de ene groep wordt aan de te bestuderen test onderworpen, de andere groep niet. Het verdere beleid wordt geobserveerd, patiënten worden gevolgd en de gezondheidsuitkomsten worden op een rij gezet. Het uiteindelijke verschil in gezondheid tussen de bestudeerde groepen wordt dan toegeschreven aan het al dan niet gebruiken van de onderzochte test.

Het is niet moeilijk in te zien waarom de populariteit van RCT's ook voor diagnostisch onderzoek toeneemt. De voordelen van een controlegroep en toewijzing op basis van toeval gelden voor alle vergelijkend onderzoek, dus waarom deze onderzoeksopzet ook niet voor tests toegepast? Als een dergelijke opzet voor geneesmiddelen goed heeft gewerkt, moet die ook wel goed uitpakken bij laboratoriumtests en aanvullend onderzoek.

Meer diagnostische trials dus? Misschien. Er is ook een aantal duidelijke verschillen tussen trials van geneesmiddelen, en diagnostische trials. Een aantal van die verschillen hangt samen met de niet eenduidige, zelfs hoogst indirecte, relatie tussen de test en de nagestreefde gezondheidswinst.

Van test naar uitkomst

Tussen de test en de gezondheidsuitkomst liggen meestal nogal wat stappen. Afhankelijk van het type test kan men onderscheid maken tussen het verkrijgen van het testresultaat (de laboratoriumuitslag of het radiologische beeld), het interpreteren ervan, het nemen van beslissingen over het verdere beleid en het uitvoeren van dat beleid. Al de schakels in deze keten dragen bij aan de uiteindelijke gezondheidsuitkomst. Een test kan dan ook alleen maar goed worden geëvalueerd in vergelijkend onderzoek als al deze stappen zijn geëxpliciteerd, geoptimaliseerd en geüniformeerd. De onderzoekers moeten weten hoe de test dient te worden geïnterpreteerd en de relatie tussen het testresultaat en beslissingen over het beginnen, staken of wijzigen van een behandeling moet vooraf worden vastgelegd. We zouden een vergelijking kunnen maken met geneesmiddelenonderzoek: vóór daarbij aan vergelijkend fase-III-onderzoek wordt gedacht, is eerst duidelijkheid verkregen over de toedieningsweg, de dosering en de duur van de behandeling.

In vergelijkend onderzoek naar tests wordt dus altijd veel meer geëvalueerd dan de test zelf. Ook de behandelaar en de behandeling delen in de toets. Zowel de wijze waarop tests gebruikt worden om beleid te bepalen als de effectiviteit van die verdere interventies draagt bij tot het opduiken dan wel uitblijven van een verschil. Als de relatie tussen test, informatie en verdere behandeling open wordt gelaten, komt vergelijkend onderzoek neer op het bestuderen van een mechanisme dat aan het oog is onttrokken (‘black box’). Wanneer die relatie door de betrokken artsen foutief wordt gelegd, wordt de test suboptimaal geëvalueerd. Zo is het mogelijk dat een prachtige test niet tot een verbetering van uitkomsten leidt, terwijl een op zichzelf waardeloze test, in combinatie met een nuttige interventie, toch gezondheidswinst kan opleveren.

De ober en de fooien

Een kort verhaal ter illustratie van die laatste paradox. Een ober werkt in een van de modieuze ‘grand cafés’, maar is niet erg tevreden over de fooien die hij ontvangt. De ober vindt van zichzelf dat hij over een niet geringe mensenkennis beschikt en meent dat die diagnostische vaardigheid wellicht kan worden ingezet om de fooienpot te spekken. In de toekomst, zo besluit de ober, wordt elke bezoeker bij binnenkomst in het café meteen beoordeeld. Op basis van die taxatie deelt de ober de cafégangers in twee groepen in. De personen uit de eerste groep - ‘de fooienbijters’ - zullen, zo denkt de ober, wellicht geen fooi geven en daarom worden zij gewoon behandeld met de gebruikelijke aandacht. De personen uit de tweede groep - ‘de fooiensmijters’ - zijn, volgens het oordeel van de ober, best bereid een fooi te geven. De ober bedient deze groep daarom met extra aandacht, snel en attent. Aan het einde van de maand maakt de ober de balans op. Hij stelt vast dat de fooienpot beter is gevuld dan voorheen. ‘Quod erat demonstrandum’, denkt de ober, ‘altijd al geweten dat ik een grote mensenkennis had. . .’.

Op basis van dit experiment, met een historische controlesituatie, besluit de ober ten onrechte dat de ‘fooigeneigdheidstest’ leidt tot een betere uitkomst: een beter gevulde fooienpot.

Het probleem van deze redenering ligt niet zozeer bij de historische controle; ook met een gerandomiseerde vergelijking had een vergelijkbaar verschil in uitkomst kunnen optreden. Het waargenomen verschil kan echter niet exclusief aan de test worden toegeschreven. Enkel en alleen als de nieuwe interventie (‘meer aandacht’ in het voorbeeld) bij geen van de gasten tot een betere uitkomst (meer fooien) had geleid, zouden de resultaten in de groep met een positieve testuitslag identiek zijn aan die in de groep zonder een positieve uitslag, op toevallige afwijkingen na. In alle andere gevallen leidt om het even welke test - zelfs het opgooien van een muntstuk - tot een beter resultaat. Kort gezegd: het is de aandacht die tot een beter resultaat leidt, niet de testuitslag.

conclusie

Nu de vraag naar de praktische waarde van tests in de zorg toeneemt, moet het begrippenpaar ‘sensitiviteit en specificiteit’ worden versterkt. Voor er goed gerandomiseerd onderzoek wordt gestart is echter eerst nog een nauwkeurige analyse nodig van de wijze waarop tests kunnen bijdragen tot een betere gezondheid en een betere zorg.

Literatuur
  1. Elmore JG, Barton MB, Moceri VM, Polk S, Arena PJ,Fletcher SW. Ten-year risk of false positive screening mammograms andclinical breast examinations. N Engl J Med 1998;338:1089-96.

  2. Ottolander GJ den, redacteur. Diagnostisch kompas.Voorlichting over aanvullende diagnostiek. Amstelveen: Ziekenfondsraad,1997.

  3. Reid MC, Lachs MS, Feinstein AR. Use of methodologicalstandards in diagnostic test research. Getting better but still not good.JAMA 1995;274:645-51.

  4. Fryback DG, Thornbury JR. The efficacy of diagnosticimaging. Med Decis Making 1991;11:88-94.

Auteursinformatie

Academisch Medisch Centrum, afd. Klinische Epidemiologie en Biostatistiek, Postbus 22.700, 1100 DE Amsterdam.

Prof.dr.P.M.M.Bossuyt, klinisch epidemioloog; J.G.Lijmer en B.W. Mol, artsen-epidemiologen.

Contact prof.dr.P.M.M.Bossuyt

Gerelateerde artikelen

Reacties