Verslaglegging van diagnostisch evaluatieonderzoek volgens een standaardmethode; de 'Standards for reporting of diagnostic accuracy' (STARD)

Klinische praktijk
P.M. Bossuyt
J.B. Reitsma
D.E. Bruns
C.A. Gatsonis
P.P. Glasziou
L.M. Irwig
J.G. Lijmer
D. Moher
D. Rennie
H.C.W. de Vet
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2003;147:336-40
Abstract
Download PDF

Samenvatting

- Doel van de groep Standards for Reporting of Diagnostic Accuracy (STARD) is het verbeteren van de rapportage van onderzoek naar diagnostische accuratesse, om zo de lezer te helpen bij het beoordelen van de validiteit en de toepasbaarheid van diagnostisch onderzoek.

- De groep doorzocht de literatuur om publicaties te vinden over de juiste uitvoering en rapportage van onderzoek van diagnostiek. Op basis hiervan werd een lijst van potentiële items opgesteld. Een groep van onderzoekers, redacteuren van medische tijdschriften en leden van professionele organisaties werd bijeengeroepen om deze lijst in te korten tot een handzame checklist, indien mogelijk op basis van bewijs uit de literatuur.

- In totaal werden 33 gepubliceerde lijsten gevonden waaruit 75 potentiële items werden geëxtraheerd. De deelnemers van de bijeenkomst stelden uiteindelijk een lijst van 25 items samen. Een generiek stroomdiagram werd ontworpen met daarin de wijze van inclusie van patiënten, de volgorde waarin tests werden afgenomen, en het aantal patiënten dat de indextest, de referentiestandaard of beide onderging.

- Het beoordelen van een wetenschappelijke publicatie is pas mogelijk bij een volledige en juiste rapportage. Door het gebruik van de checklist en het stroomdiagram kan de kwaliteit van rapporteren verbeteren, tot voordeel van clinici, onderzoekers, referenten, tijdschriftredacties en andere belanghebbenden.

artikel

Diagnostiek is volop in beweging: nieuwe tests komen op ons af en bestaande tests worden voortdurend aangepast en verbeterd. Vertekende resultaten uit slecht opgezet en uitgevoerd diagnostisch evaluatieonderzoek kunnen een te optimistisch beeld schetsen van een test, waardoor artsen foutieve beslissingen nemen. Een zorgvuldige evaluatie van nieuwe tests is daarom noodzakelijk voordat deze op grote schaal worden ingezet. Het bepalen van de diagnostische accuratesse is een vitale stap in dit evaluatieproces.1-3

Centraal in het onderzoek naar diagnostische accuratesse staat het vergelijken van de resultaten van de te evalueren test met de uitkomsten van de referentiestandaard. Beide tests worden afgenomen bij patiënten bij wie een specifieke aandoening wordt vermoed. Het woord ‘test’ wordt hier breed gebruikt. Het slaat op alle methoden die informatie kunnen geven over de toestand van de patiënt, zoals anamnese en lichamelijk onderzoek, laboratoriumtests, beeldvormend onderzoek, functietests en histopathologisch onderzoek. De specifieke ziekte of aandoening kan ook elke andere klinisch herkenbare toestand zijn waarbij medisch ingrijpen mogelijk of wenselijk is, zoals het doen van nader onderzoek en het starten, aanpassen of beëindigen van therapie. De referentiestandaard geldt als de beste methode om de aan- of afwezigheid van de specifieke aandoening aan te tonen. De referentiestandaard kan één enkele methode zijn of een combinatie van methoden. Het kan hierbij gaan om laboratoriumtests, radiologisch onderzoek, pathologisch onderzoek, maar ook om zorgvuldige klinische follow-up van patiënten.

De term ‘accuratesse’ slaat op de mate van overeenkomst tussen de resultaten van de indextest en de informatie die met de referentiestandaard is verkregen. Diagnostische accuratesse kan op verschillende wijzen worden uitgedrukt. Bekende maten zijn de sensitiviteit en de specificiteit van een test, de aannemelijkheidsverhoudingen (likelihoodratio's) van de testuitslagen, de diagnostische oddsratio en de oppervlakte onder de ‘receiver operating characteristic’(ROC)-curve.4-6

Er zijn verschillende bedreigingen voor de interne en externe validiteit van diagnostisch evaluatieonderzoek. Een onderzoek naar artikelen gepubliceerd in 4 grote medische tijdschriften tussen 1978 en 1993 liet zien dat de methodologische kwaliteit van dergelijk onderzoek matig was.7 Bovendien was een goede beoordeling van de kwaliteit bij veel publicaties niet goed mogelijk, omdat cruciale gegevens over de opzet en de uitvoering van het onderzoek ontbraken.7 De matige wijze van rapporteren is sindsdien bevestigd door de auteurs van rapporten van meta-analysen van diagnostisch evaluatieonderzoek.8 9 Gebreken in de opzet van onderzoek kunnen leiden tot vertekende resultaten. Een onderzoek toonde aan dat specifieke gebreken van opzet en uitvoering van onderzoek kunnen leiden tot een te optimistische schatting van de diagnostische accuratesse.10

Tijdens een bijeenkomst van de Diagnostic and Screening Test Methods Working Group van de Cochrane Collaboration in 1999 werden de matige opzet van diagnostisch evaluatieonderzoek en de gebrekkige rapportage daarvan besproken. De werkgroep was van mening dat het verbeteren van de rapportage van dergelijk onderzoek een belangrijke stap vooruit zou betekenen. Geïnspireerd door het succes van de Consolidation of the Standards of Reporting Trials(CONSORT)-groep11-13 werd besloten om een vergelijkbare checklist te ontwikkelen voor onderzoek van de diagnostische accuratesse van een test. De items uit deze checklist verwijzen naar onderdelen die dienen te worden genoemd en fatsoenlijk beschreven in de rapportage van diagnostisch evaluatieonderzoek.

Het uiteindelijke doel van dit initiatief van de Standards for Reporting of Diagnostic Accuracy(STARD)-groep is het bevorderen van de kwaliteit van de rapportage van onderzoek van diagnostische accuratesse. Alleen bij een volledige en juiste rapportage kan de lezer de validiteit en de toepasbaarheid goed beoordelen.

totstandkoming van de standaard

Methode

De STARD-stuurgroep begon met een zoektocht naar publicaties over de opzet en de uitvoering van diagnostisch onderzoek. De volgende bronnen werden hierbij geraadpleegd: Medline, EmBase, BIOSIS en de methodologische database van de Cochrane Collaboration. Daarnaast werden de referentielijsten van gevonden artikelen nagekeken, werden experts benaderd en persoonlijke bibliografische bestanden nageplozen. Aan de hand van deze literatuur werd een lijst van potentiële items opgesteld.

Vervolgens belegde de STARD-stuurgroep een tweedaags congres, waarbij experts uit de volgende belangengroepen werden uitgenodigd: onderzoekers, redacteuren van tijdschriften, methodologen en leden van professionele organisaties, in totaal 40 personen. Het doel van de bijeenkomst was om, waar mogelijk, de lange lijst van items in te korten en een geschikte bewoording van de items te vinden. Bij het selecteren van items werd zoveel mogelijk rekening gehouden met het gevonden empirische bewijs voor gebrek aan validiteit of toepasbaarheid.

Tijdens de bijeenkomst werd in kleine groepen gediscussieerd over een aantal items, waarna de aanbevelingen van de kleine groepen in een voltallige vergadering werden besproken. Aan het einde van de eerste dag werd een ruwe versie van de checklist samengesteld. De volgende dag werd deze checklist besproken, waarna een voorlopige versie werd opgesteld.

In de periode na de bijeenkomst konden deelnemers aanvullende suggesties doen via e-mail. De voorlopige versie van de checklist werd vervolgens door potentiële gebruikers getest en becommentarieerd. Ook werd deze versie beschikbaar gesteld op de CONSORT-website. Al het binnengekomen commentaar werd binnen de stuurgroep besproken.

Resultaten

De zoektocht naar gepubliceerde richtlijnen voor diagnostiek leverde 33 lijsten op. Op basis hiervan werd een lijst van 75 potentiële items opgesteld. Tijdens de bijeenkomst op 16 en 17 september 2000 werd deze lijst door de deelnemers ingekort tot een checklist van 25 items. Daarnaast werd er flink geschaafd aan de opbouw en de bewoordingen van de items. Ook na de conferentie ontving de STARD-groep waardevol commentaar, wat uiteindelijk resulteerde in de checklist zoals die in de tabel staat weergegeven.

Het stroomdiagram geeft informatie weer over de wijze van insluiten van patiënten, de volgorde van afnemen van de tests en het aantal patiënten dat de index- en de referentietest heeft ondergaan (figuur). Dit prototypische stroomdiagram is in staat de meest gebruikte onderzoeksopzetten weer te geven. Meer voorbeelden van stroomdiagrammen passend bij andere designs van diagnostisch onderzoek zullen te vinden zijn op de STARD-website (www.consort-statement.orgstardstatement.htm).

beschouwing

Het STARD-initiatief had en heeft tot doel het verbeteren van de rapportage van onderzoek van diagnostische accuratesse. De items van de checklist en het stroomdiagram zijn ontworpen om de lezer te laten beschikken over een goede beschrijving van alle cruciale onderdelen van het onderzoek: de opzet, de uitvoering en de resultaten. Wij rangschikten de items onder de bekende kopjes van een wetenschappelijk artikel, maar dit is niet meer dan een richtsnoer.

Het leidend principe bij het samenstellen van de checklist was het verbeteren van de beoordeling van de validiteit van het onderzoek en de toepasbaarheid van de resultaten. Hiernaast speelden twee andere overwegingen een belangrijke rol bij de uiteindelijke vorm en inhoud van de checklist. Allereerst was het de overtuiging van de STARD-groep dat één algemene lijst voor onderzoek van diagnostische accuratesse beter zou aanslaan dan afzonderlijke lijsten voor de respectievelijke deelgebieden (bijvoorbeeld één lijst voor laboratoriumtests, één lijst voor radiodiagnostiek enzovoort). Uiter-aard verschilt de evaluatie van laboratoriumtests van die van radiologische onderzoekingen, maar deze verschillen zijn meer gradueel dan wezenlijk. De tweede overweging was de beslissing om items die ook van belang zijn bij het rapporteren van andere vormen van wetenschap niet in de lijst op te nemen. Denk bijvoorbeeld aan de ‘Uniform requirements for manuscripts submitted to biomedical journals’ (www.icmje.org/index.html).14 Waar mogelijk werd het besluit om items op te nemen gebaseerd op het bewijs van een verband tussen een kenmerk en vertekening van of variatie in diagnostische accuratesse. Die aangevoerde bewijzen en argumenten varieerden sterk. De onderbouwing kon bestaan uit narratieve overzichten over theoretische concepten, uit statistische modellen of uit empirisch bewijs uit echte diagnostische evaluatieonderzoeken. Voor sommige items was het beschikbare bewijs mager. Een apart achtergronddocument werd samengesteld waarin per item de beweegredenen staan beschreven met een korte samenvatting van het beschikbare bewijs.15 De STARD-groep verwacht dat dit achtergronddocument zal bijdragen aan het gebruik en de verspreiding van de STARD-checklist.

De STARD-groep heeft veel aandacht besteed aan het ontwikkelen van een stroomdiagram voor onderzoek van diagnostische accuratesse. Een stroomdiagram biedt de mogelijkheid om lastig te beschrijven informatie over opzet en uitvoer helder weer te geven.16 Een vergelijkbaar stroomdiagram voor gerandomiseerd onderzoek is uitgegroeid tot één van de succesfactoren van het CONSORT-initiatief. De vele denkbare manieren om onderzoek van diagnostiek op te zetten en uit te voeren maken een stroomdiagram bij onderzoek naar diagnostiek des te wenselijker. Het stroomdiagram geeft informatie over de volgende processen: de wijze van selecteren en insluiten van patiënten (externe validiteit), het aantal patiënten dat de indextest en de referentiestandaard heeft ondergaan, dan wel niet ondergaan (kans op verificatiebias17-19) en het aantal patiënten van wie de resultaten zijn betrokken in de analyse. Deze informatie is ook noodzakelijk voor het kiezen van de juiste noemer bij het berekenen van diverse maten van accuratesse.

De STARD-groep heeft zich voorgenomen om het effect van de checklist op de kwaliteit van gepubliceerde artikelen te onderzoeken.13 De checklist zal ook verder worden aangepast wanneer nieuw bewijs beschikbaar komt over bronnen van variatie en bias in diagnostisch onderzoek of wanneer het gebruikersgemak kan worden verbeterd. Wij stellen daarom uw commentaar op de huidige versie, op de inhoud of op de vorm, zeer op prijs.

Belangenconflict: geen gemeld. Financiële ondersteuning: College voor zorgverzekeringen, Amstelveen; International Federation of Clinical Chemistry, Milaan, Italië; Medical Research Council's Health Services Research Collaboration, Bristol, Verenigd Koninkrijk; Academisch Medisch Centrum, Amsterdam.

De leden van de STARD-stuurgroep waren: P.M.Bossuyt, D.E.Bruns, C.A.Gatsonis, P.P.Glasziou, L.M.Irwig, J.G.Lijmer, D.Moher, D.Rennie en H.C.W.de Vet. De leden van de STARD-groep waren: D.Altman, Institute of Health Sciences, Centre for Statistics in Medicine, Oxford, VK; S.Barton, British Medical Journal, BMA House, Londen, VK; C.Begg, Memorial Sloan-Kettering Cancer Center, Dept. of Epidemiology & Biostatistics, New York, N.Y., VS; W.Black, Dartmouth Hitchcock Medical Center, Dept. of Radiology, Libanon, N.H., VS; H.Büller, Academisch Medisch Centrum (AMC)/Universiteit van Amsterdam, afd. Vasculaire Geneeskunde, Amsterdam; G.Campbell, US Food and Drug Administration, Center for Devices and Radiological Health, Rockville, Md., VS; F.Davidoff, Annals of Internal Medicine, Philadelphia, Pa., VS; J.Deeks, Institute of Health Sciences, Centre for Statistics in Medicine, Oxford, VK; P.Dieppe, University of Bristol, Dept. of Social Medicine, Bristol, VK; K.Fleming, John Radcliffe Hospital, Oxford, VK; R.van Ginkel, AMC, afd. Klinische Epidemiologie en Biostatistiek, Amsterdam; A.Glas, AMC, afd. Klinische Epidemiologie en Biostatistiek, Amsterdam; G.Guyatt, McMaster University, Clinical Epidemiology and Biostatistics, Hamilton, On., Canada; J.Hanley, McGill University, Dept. of Epidemiology & Biostatistics, Montreal, Que., Canada; R.Horton, The Lancet, Londen, VK; M.Hunink, Erasmus Medisch Centrum, afd. Epidemiologie en Biostatistiek, Rotterdam; J.Kleijnen, NHS Centre for Reviews and Dissemination, York, VK; A.Knottnerus, Universiteit Maastricht, Netherlands School of Primary Care Research, Maastricht; E.Magid, Amager Hospital, Dept. of Clinical Biochemistry, Kopenhagen, Denemarken; B.McNeil, Harvard Medical School, Dept. of Health Care Policy, Boston, Mass., VS; M.McQueen, Hamilton Civic Hospitals, Dept. of Laboratory Medicine, Hamilton, On., Canada; A.Onderdonk, Channing Laboratory, Boston, Mass., VS; J.Overbeke, Nederlands Tijdschrift voor Geneeskunde, Amsterdam; C.Price, St. Bartholomew's – Royal London School of Medicine and Dentistry, Londen, VK; A.Proto, Radiology Editorial Office, Richmond, Va., VS; J.Reitsma, AMC, afd. Klinische Epidemiologie en Biostatistiek, Amsterdam; D.Sackett, Trout Research and Education Centre, Irish Lake, On., Canada; G.Sanders, AMC, afd. Klinische Chemie, Amsterdam; H.Sox, Annals of Internal Medicine, Philadelphia, Pa., VS; S.Straus, Mt. Sinai Hospital, Toronto, On., Canada; S.Walter, McMaster University, Clinical Epidemiology and Biostatistics, Hamilton, On., Canada.

Dit artikel verschijnt ook in Amercan Journal of Clinical Pathology, Annals of Internal Medicine, British Medical Journal, Clinical Biochemistry, Clinical Chemistry and Laboratory Medicine, Clinical Chemistry, JAMA (editorial), Journal of Clinical Microbiology, Lancet en Radiology.

Literatuur
  1. Guyatt GH, Tugwell PX, Feeny DH, Haynes RB, Drummond M. Aframework for clinical evaluation of diagnostic technologies. Can Med Assoc J1986;134:587-94.

  2. Fryback DG, Thornbury JR. The efficacy of diagnosticimaging. Med Decis Making 1991;11:88-94.

  3. Kent DL, Larson EB. Disease, level of impact, and qualityof research methods. Three dimensions of clinical efficacy assessment appliedto magnetic resonance imaging. Invest Radiol 1992;27:245-54.

  4. Griner PF, Mayewski RJ, Mushlin AI, Greenland P. Selectionand interpretation of diagnostic tests and procedures. Principles andapplications. Ann Intern Med 1981;94(4 Pt 2):557-92.

  5. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. The selectionof diagnostic tests. In: Sackett D, editor. Clinical epidemiology. 2nd ed.Boston: Little, Brown; 1991. p. 47-57.

  6. Metz CE. Basic principles of ROC analysis. Semin Nucl Med1978;8:283-98.

  7. Reid MC, Lachs MS, Feinstein AR. Use of methodologicalstandards in diagnostic test research. Getting better but still not good.JAMA 1995;274:645-51.

  8. Nelemans PJ, Leiner T, Vet HCW de, Engelshoven JMA van.Peripheral arterial disease: meta-analysis of the diagnostic performance ofMR angiography. Radiology 2000;217:105-14.

  9. Vries SO de, Hunink MGM, Polak JF. Summary receiveroperating characteristic curves as a technique for meta-analysis of thediagnostic performance of duplex ultrasonography in peripheral arterialdisease. Acad Radiol 1996;3:361-9.

  10. Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH,Meulen JH van der, et al. Empirical evidence of design-related bias instudies of diagnostic tests. JAMA 1999;282:1061-6.

  11. Begg C, Cho M, Eastwood S, Horton R, Moher D, Olkin I, etal. Improving the quality of reporting of randomized controlled trials. TheCONSORT statement. JAMA 1996;276:637-9.

  12. Moher D, Schulz KF, Altman D. The CONSORT statement:revised recommendations for improving the quality of reports ofparallel-group randomized trials. CONSORT Group (Consolidated Standards ofReporting Trials). JAMA 2001;285:1987-91.

  13. Moher D, Jones A, Lepage L. Use of the CONSORT statementand quality of reports of randomized trials: a comparative before-and-afterevaluation. CONSORT Group (Consolidated Standards of Reporting Trials). JAMA2001;285:1992-5.

  14. International Committee of Medical Journal Editors.Uniform requirements for manuscripts submitted to biomedical journals. JAMA1997;277:927-34.

  15. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, GlasziouPP, Irwig LM, et al. The STARD statement for reporting studies of diagnosticaccuracy: explanation and elaboration. Clin Chem 2003;49:7-18.

  16. Egger M, Juni P, Bartlett C. Value of flow diagrams inreports of randomized controlled trials. CONSORT Group (ConsolidatedStandards of Reporting Trials). JAMA 2001;285:1996-9.

  17. Knottnerus JA. The effects of disease verification andreferral on the relationship between symptoms and diseases. Med Decis Making1987;7:139-48.

  18. Panzer RJ, Suchman AL, Griner PF. Workup bias inprediction research. Med Decis Making 1987;7:115-9.

  19. Begg CB. Biases in the assessment of diagnostic tests.Stat Med 1987;6:411-23.

Auteursinformatie

Academisch Medisch Centrum/Universiteit van Amsterdam, afd. Klinische Epidemiologie en Biostatistiek, Postbus 22.700, 1100 DE Amsterdam.

Prof.dr.P.M.Bossuyt, klinisch epidemioloog; dr.J.B.Reitsma en dr. J.G.Lijmer, artsen-epidemiologen.

Clinical Chemistry, Charlottesville, Va., VS.

Prof.dr.D.E.Bruns, redacteur.

Brown University, Center for Statistical Sciences, Providence, R.I., VS.

Prof.dr.C.A.Gatsonis, statisticus.

University of Queensland, Department of Social & Preventive Medicine, Herston, Australië.

Prof.dr.P.P.Glasziou, klinisch epidemioloog.

University of Sydney, School of Public Health, Screening and Test Evaluation Program, Sydney, Australië.

Prof.dr.L.M.Irwig, klinisch epidemioloog.

Chalmers Research Group Ottawa, On., Canada.

Drs.D.Moher, directeur.

Journal of the American Medical Association (JAMA), Chicago, Ill., VS.

Prof.D.Rennie, redacteur.

Vrije Universiteit, Instituut voor Extramuraal Geneeskundig Onderzoek, Amsterdam.

Mw.prof.dr.ir.H.C.W.de Vet, epidemioloog.

Contact prof.dr.P.M.Bossuyt (stard@amc.uva.nl)

Verantwoording

Dit artikel wordt afgedrukt met meer dan 6 auteurs; naar het oordeel van de redactie voldoen allen aan de criteria voor auteurschap; het is geschreven mede namens de leden van de STARD-groep, die achteraan dit artikel staan vermeld.

Gerelateerde artikelen

Reacties