De invloed van onzekerheid

Prestatie-indicatoren voor ziekenhuizen

Onderzoek
Anne-Margreet van Dishoeck
Caspar M.N. Looman
Els C.M. van der Wilden-van Lier
Johan P. Mackenbach
Ewout W. Steyerberg
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2009;153:B161
Abstract
Download PDF

Samenvatting

Doel

Inzichtelijk maken wat de invloed van het toeval is op ogenschijnlijke verschillen in kwaliteit tussen ziekenhuizen, gemeten met prestatie-indicatoren.

Opzet

Retrospectief-statistisch.

Methode

Wij analyseerden de publiek toegankelijke data uit 2005 van de prestatie-indicatoren voor decubitus, cerebrovasculair accident en acuut myocardinfarct met 3 verschillende, moderne grafische weergaven: ‘forestplot’, ‘funnelplot’ en ‘rankplot’. De invloed van toeval werd inzichtelijk gemaakt door de weergave van betrouwbaarheidsintervallen. Bij funnelplots werd de uitkomst van de prestatie-indicator afgezet tegen het patiëntenaantal in het betreffende ziekenhuis; zo kon de rol van groepsgrootte op de uitkomst zichtbaar worden gemaakt.

Resultaten

Voor bijna alle prestatie-indicatoren waren er statistisch significante verschillen in de uitkomsten tussen ziekenhuizen (p < 0,001). De betrouwbaarheidsintervallen gaven echter aan dat een gering aantal ziekenhuizen significant beter of slechter presteerde dan de norm, weergegeven in een forestplot. Goed en slecht presterende ziekenhuizen waren gemakkelijker te identificeren met een funnelplot. In rankplots, waarbij betrouwbaarheidsintervallen rond de rang van ieder ziekenhuis met ‘bootstrapsampling’ waren berekend, bleek de rangordening van ziekenhuizen zeer onzeker.

Conclusie

De funnelplot is een gemakkelijk interpreteerbare weergave van de grootte van verschillen tussen ziekenhuizen. Deze weergave houdt rekening met onzekerheid in de resultaten. Bij de beoordeling van individuele ziekenhuizen tonen gerapporteerde prestatie-indicatoren statistisch significante verschillen, maar toeval is een essentiële factor die moet worden meegewogen.

Inleiding

Dankzij de ontwikkeling van de ‘Basisset prestatie-indicatoren ziekenhuizen’ door de Inspectie voor de Gezondheidszorg (IGZ) is de aandacht voor prestatie-indicatoren (PI) als instrument voor het meten van de kwaliteit van de zorgverlening in Nederlandse ziekenhuizen in de afgelopen jaren fors toegenomen.1-3 Na de publiekelijke bekendmaking van de resultaten van individuele ziekenhuizen kwamen er verschillende, niet-consistente top 100-lijsten. In deze lijsten wordt de uitkomst van een indicator gelijkgesteld aan de kwaliteit van de zorgverlening in het onderhavige ziekenhuis, zonder dat men aandacht besteedt aan de invloeden van toeval en verscheidenheid in ziekten (‘case-mix’).

De IGZ beoogt met de basisset PI een indicatie te krijgen van ziekenhuizen waar de zorg mogelijk onder de maat is en waar nader onderzoek wenselijk is. Jaarlijks publiceert de IGZ het rapport ‘Het resultaat telt’. Hierin beschrijft zij de resultaten van ziekenhuizen voor ruim 30 indicatoren en illustreert zij die met grafieken van scores die oplopen van laag naar hoog.4 Deze weergave suggereert een rangordening van goede naar slechte prestatie, zonder dat men inzicht krijgt in de rol van het toeval. Daarnaast is er meer fundamentele kritiek op PI. Zo bestaat er scepsis over de onderliggende methoden. Ook zouden PI pervers gedrag oproepen.5-8

Een prestatie-indicator is een meetbaar aspect van de zorg dat een aanwijzing geeft over de kwaliteit van de geleverde zorg.9 Fundamentele kenmerken van een indicator zijn betrouwbaarheid (precisie), validiteit, haalbaarheid, acceptatie door de professional, en gevoeligheid voor verandering.10

PI moeten helder gedefinieerd zijn en uniform toepasbaar in de Nederlandse ziekenhuizen. Deze overwegingen zijn met name belangrijk bij de ontwikkeling van indicatoren. De uitkomst van een ziekenhuis weerspiegelt de ziekteverscheidenheid (bepaald door de patiëntenpopulatie in dat specifieke ziekenhuis), de kwaliteit van zorg en het toeval (bepaald door het totaal aantal patiënten waarmee de indicator wordt berekend) (figuur 1). Naarmate gerekend wordt met een kleinere patiëntengroep, speelt het toeval een grotere rol, zoals gereflecteerd in een grotere standaardfout.

Figuur 1

Bij de presentatie van de resultaten moet men de invloed van het toeval betrekken bij de beoordeling van eventuele verschillen in de kwaliteit van de geleverde zorg. Die invloed kan men op verschillende manieren weergeven. Een ‘forestplot’ toont zowel de puntschatting als het betrouwbaarheidsinterval per ziekenhuis in een grafiek. Men heeft echter gepleit voor het gebruik van ‘funnelplots’.11 Wij pasten beide grafische methoden toe op enkele PI. De waarde van rangordening onderzochten wij door het betrouwbaarheidsinterval rond de rangordening te berekenen en weer te geven in een ‘rankplot’.

Met dit onderzoek willen wij aantonen dat het goed mogelijk is om de invloed van toeval mee te laten wegen bij de beoordeling van de kwaliteit van zorg in een ziekenhuis en bij de vergelijking van ziekenhuizen.

Methode

Data

Voor de analyse maakten wij gebruik van publiek toegankelijke data van de prestatie-indicatoren ‘decubitus’, ‘CVA’ en ‘acuut myocardinfarct’ voor ziekenhuizen in 2005. Wij kozen deze indicatoren, omdat ze verschillende situaties illustreren: (a) een groot totaal aantal patiënten en aanzienlijke verschillen tussen ziekenhuizen (puntprevalentie van decubitus); (b) een kleine patiëntengroep en grote verschillen tussen de ziekenhuizen (sterfte in de eerste 7 dagen na opname bij patiënten met CVA); (c) een lage gemiddelde uitkomst van de indicator en geringe verschillen tussen de ziekenhuizen (sterfte in de eerste 30 dagen na opname bij patiënten met een acuut myocardinfarct).

We namen hierbij aan dat de data een reële afspiegeling waren van de kwaliteit van zorg in individuele ziekenhuizen en dat ziekteverscheidenheid geen belangrijke invloed had. De data werden verkregen van de cd-rom uit het rapport ‘Het resultaat telt 2005’, waarop de door de Inspectie gecorrigeerde gegevens staan.

Berekening betrouwbaarheidsinterval

Wij berekenden per indicator de standaardfout (SE), het 95%-BI en verschillen tussen de ziekenhuizen op basis van de totale aantallen patiënten per ziekenhuis die meetelden voor een indicator (n), bijvoorbeeld alle patiënten jonger dan 65 jaar met een ischemisch CVA. Ook stelden wij de uitkomsten vast van de indicator (y), bijvoorbeeld de 7-daagse sterfte bij patiënten jonger dan 65 jaar met een ischemisch CVA. Het betrouwbaarheidsinterval (BI) werd berekend volgens de formule BI = eα± 1,96.se. Hierbij is SE = √(1/y+(1/n-y)), en α = log (y/n/(1-y/n)), waarbij y het aantal patiënten met de uitkomst voorstelt en n het totale aantal patiënten in een ziekenhuis. Bij een uitkomst van y = 0% werd het betrouwbaarheidsinterval berekend met 0;1-elog (0,05/n). Dit is een exacte methode. Een p-waarde van 0,05 werd gezien als grens voor statistische significantie bij gebruik van de likelihoodratiotoets voor het detecteren van verschillen tussen ziekenhuizen.

Grafische weergaven

We gebruikten 3 grafische methoden om de invloed van het toeval inzichtelijk te maken: forestplot, funnelplot en rankplot.

In een forestplot wordt in oplopende volgorde zowel de puntschatting als het bijbehorende betrouwbaarheidsinterval weergegeven.12 Bij de vooraf gekozen significantiegrens van 5%, laat het 95%-BI zien welke andere positie het ziekenhuis op basis van toeval had kunnen hebben.

In een funnelplot worden de resultaten van de ziekenhuizen geplot samen met betrouwbaarheidsgrenzen rond een gestelde norm of landelijk gemiddelde.11 De betrouwbaarheidsgrenzen worden berekend in relatie tot het aantal patiënten per ziekenhuis bij wie de te scoren uitkomst is gemeten. Het is gebruikelijk om hierbij zowel 95%-BI als 99,8%-BI te hanteren. Wij berekenden de betrouwbaarheidsgrenzen met een exacte methode, dat wil zeggen, rekening houdend met het discrete karakter van de aantallen. Hierdoor ontstaat een zaagtandeffect in de grafiek in plaats van een vloeiende lijn. De exacte berekening was noodzakelijk door het soms grote aantal scores van y = 0.

In een rankplot wordt het betrouwbaarheidsinterval rond het rangnummer met behulp van ‘bootstrapping’ gesimuleerd.13 Hierbij worden door ‘trekking met teruglegging’ steekproeven genomen uit de populatie van het onderzochte ziekenhuis, waarbij elke steekproef evenveel personen bevat als de groep waaruit hij is getrokken. Per ziekenhuis werden 1000 steekproeven genomen door willekeurige trekkingen uit een binominale verdeling op basis van teller y en noemer n. Op die manier werden 1000 nieuwe datasets gemaakt, die resultaten weerspiegelen die onder dezelfde omstandigheden in de onderzochte ziekenhuizen evengoed hadden kunnen worden waargenomen. Voor iedere nieuwe dataset werden weer rangnummers per ziekenhuis bepaald. De verdeling van rangnummers over de 1000 datasets vormde de basis van het 95%-BI rond de rangnummers.

Resultaten

Rapportage van geselecteerde indicatoren

Veel ziekenhuizen (92 van de 98) rapporteerden in 2005 gegevens over de ziekenhuisbrede puntprevalentie van decubitus (tabel). Hiervan gaven 3 ziekenhuizen cijfers over ziekenhuisbrede incidentie in plaats van puntprevalentie; deze werden geëxcludeerd. In het gemiddelde Nederlandse ziekenhuis waren 238 patiënten bij de meting betrokken, van wie 14 patiënten decubitus graad 2-4 hadden. De gemiddelde puntprevalentie in 2005 was 6,0% (95%-BI: 4,7-7,8). Tussen de 89 ziekenhuizen bestonden significante verschillen (p < 0,0001).

Figuur 2

Door 91 ziekenhuizen werden gegevens gerapporteerd over de 7-daagse sterfte na een CVA. Daarbij werden 4 groepen van patiënten onderscheiden op grond van oorzaak (ischemisch of hemorragisch) en leeftijd (jonger dan 65 jaar of 65 jaar en ouder). Eén ziekenhuis gaf geen cijfers bij het hemorragisch CVA. De grootste groep waren patiënten van ≥ 65 jaar met een ischemisch CVA (gemiddeld 178 patiënten). De groep jonger dan 65 jaar met ischemisch CVA bevatte gemiddeld 63 patiënten. De aantallen patiënten met een hemorragisch CVA waren veel lager, namelijk 12 en 35 in de groepen < 65 jaar respectievelijk ≥ 65 jaar. De gemiddelde 7-daagse sterfte na een ischemisch CVA was 3,2% (< 65 jaar) en 5,6% (≥ 65 jaar). Bij patiënten met een hemorragisch CVA waren deze percentages 17 respectievelijk 26. Tussen de ziekenhuizen bestonden statistisch significante verschillen.

De meeste ziekenhuizen (90 van de 98) rapporteerden gegevens over de sterfte na een acuut myocardinfarct. Cijfers over ziekenhuissterfte werden door 37 ziekenhuizen gegeven, terwijl 53 ziekenhuizen over de 30-daagse sterfte rapporteerden. De ziekenhuissterfte bij patiënten jonger dan 65 jaar was gemiddeld 3%, en 12% voor patiënten ≥ 65 jaar. De 30-daagse sterfte verschilde daar niet veel van en bedroeg respectievelijk 3 en 11%.

Decubitusprevalentie in forest-, funnel- en rankplot

De forestplot voor de prevalentie van decubitus toont oplopend de puntschattingen van 1,3 tot 19,4%. De betrouwbaarheidsintervallen rondom de puntschattingen variëren sterk door de verschillen in populatiegrootte (figuur 2a). De decubituspuntprevalentie van het eerste ziekenhuis is 1,3%, maar met een betrouwbaarheidsinterval van 0-9%. Het is niet uitgesloten dat de puntprevalentie puur op basis van toeval ook 5% had kunnen bedragen. Het ruime interval wordt veroorzaakt door het kleine aantal patiënten (n = 74). Het tweede ziekenhuis heeft ook een puntprevalentie van 1,3%, maar met een betrouwbaarheidsinterval van 0,5-4%. Daarom is dit ziekenhuis significant beter dan de norm voor decubitusprevalentie van 5% en het eerste ziekenhuis niet.

Figuur 3

In de funnelplot is de landelijke norm van de Inspectie van 5% aangehouden (zie figuur 2b). Onder en boven de grens van het 95%-BI bevinden zich de ziekenhuizen waarvoor de puntschatting meer dan 2 maal de standaardfout verschilde van het gemiddelde. Van de 89 ziekenhuizen voldeden 25 niet aan die norm, met inachtneming van de variatie op basis van toeval. De 7 ziekenhuizen onder de ondergrens van het 95%-BI presteerden beter dan de norm, zoals is af te lezen uit de funnelplot. Met deze weergave kunnen ziekenhuizen zich spiegelen aan ziekenhuizen met een vergelijkbare populatieomvang.

Rangordening van ziekenhuizen op basis van decubituspuntprevalentie toont ruime betrouwbaarheidsintervallen (zie figuur 2c). De positie die een ziekenhuis inneemt in de rangordening is behoorlijk onzeker.

Cva

Om de invloed van kleine patiëntenaantallen op de uitkomsten te illustreren kozen wij voor de weergave van de sterfte in de eerste 7 dagen na een hemorragisch CVA onder patiënten jonger dan 65 jaar (figuur 3). De puntschattingen van de ziekenhuizen varieerden oplopend van 0-100% sterfte. De forestplot toont ruime betrouwbaarheidsintervallen door de veelal kleine patiëntenaantallen. In de eerste 24 ziekenhuizen was de 7-daagse sterfte 0%. Bij een populatie van 2 patiënten, zoals in het laatste ziekenhuis met 0%, is het betrouwbaarheidsinterval echter 0-100%.

De funnelplot toont aan dat er behoudens de variatie op basis van toeval maar weinig verschillen tussen de ziekenhuizen lijken te zijn. Verder blijkt de rangordening zeer onzeker.

Figuur 4

Acuut myocardinfarct

Als voorbeeld van een indicator met lage gemiddelde waarden kozen wij voor de ziekenhuissterfte na een acuut myocardinfarct bij patiënten jonger dan 65 jaar. De puntschattingen van de prevalentie variëren in de forestplot van 0-9,8%, met een wisselend betrouwbaarheidsinterval door verschillen in de patiëntenaantallen (figuur 4a). Slechts 2 ziekenhuizen scoren significant slechter dan de norm van 2,5% sterfte binnen 30 dagen. Uit de funnelplot (zie figuur 4b) blijkt dat goed en slecht presterende ziekenhuizen nauwelijks te identificeren zijn. In de funnelplot bevindt zich maar 1 ziekenhuis buiten de grens van het 95%-BI. Ook de rangordening is onzeker (zie figuur 4c).

Figuur 5

Discussie

Uit onze vergelijking van drie moderne methoden blijkt dat de funnelplot een aantrekkelijke en eenvoudig interpreteerbare weergave is voor het rapporteren van uitkomsten op prestatie-indicatoren. De variatie die kan bestaan op basis van toeval alleen wordt helder, en daarmee wordt overinterpretatie voorkomen van ogenschijnlijke verschillen tussen ziekenhuizen. Buiten de grenzen van het 95%-BI bevinden zich de ziekenhuizen met een significant slechter of beter resultaat. Binnen deze grenzen presteren de ziekenhuizen conform de norm, indien rekening gehouden wordt met variatie door toeval.

De forestplot toont aan dat de betrouwbaarheidsintervallen rondom individuele scores sterk kunnen verschillen, zoals zichtbaar bij het eerste en tweede ziekenhuis in de forestplot van decubitusprevalentie (zie figuur 2a). Daarmee is ook de interpretatie van de kwaliteit van de geleverde zorg per ziekenhuis verschillend. Een nadeel van forestplots is de overschatting van de waarde van rangordening.

Rangordening heeft als nadeel dat er maar één de beste en één de slechtste kan zijn. De rankplot maakt inzichtelijk dat een ziekenhuis puur op basis van toeval ook een geheel andere plaats in de rangorde kan innemen. Rangordening van ziekenhuizen met behulp van deze gegevens lijkt daarom niet zinnig. Het kan zelfs misleidend zijn, aangezien toeval een dominante rol speelt bij enkele indicatoren, zoals voor CVA en acuut myocardinfarct.

Wat zegt een indicator?

Het doel van PI voor de IGZ is het opsporen van ziekenhuizen waar de zorg mogelijk onder de maat is. Bij die ziekenhuizen worden nadere vragen gesteld over de geleverde prestaties. Voor dit doel is de puntprevalentie van decubitus bruikbaar: 25 ziekenhuizen moeten nader onderzoek doen naar de oorzaak van de hogere puntprevalentie van decubitus. Het is veel moeilijker om aan de hand van de CVA-indicatoren een uitspraak te doen over de kwaliteit van de zorgverlening, doordat de aantallen patiënten in individuele ziekenhuizen klein is. Deze indicator kampt met een gebrek aan onderscheidend vermogen (‘power’). De kleine aantallen maken de beoordeling vrijwel onmogelijk, omdat het overgrote deel van de ogenschijnlijke verschillen toe te schrijven is aan het toeval. Deze indicator is in de basisset van 2006 dan ook vervallen.14 Bij het acuut myocardinfarct zijn absolute verschillen tussen de ziekenhuizen klein, terwijl de sterfte laag is. Dit beperkt het onderscheidend vermogen van deze indicator om verschillen in de kwaliteit van zorg aan te tonen. De ziekenhuissterfte van patiënten van 65 jaar en ouder laat zelfs geen significante verschillen tussen de ziekenhuizen zien. Deze indicator voldoet daarom niet als kwaliteitsindicator.

PI bergen een paradox in zich.5 Enerzijds geven ze inzicht in de geleverde prestaties, wat kan leiden tot nader onderzoek en mogelijk tot kwaliteitsverbetering. Sinds het openbaar maken van de PI vanaf 2005 zijn positieve resultaten bereikt, zoals de landelijke daling van de puntprevalentie decubitus.4 Anderzijds kunnen toezicht, de mogelijkheid van sanctie en vergelijking van PI leiden tot pervers gedrag en ‘datapoetsen’.5-7

Door recht te doen aan de invloed van het toeval op de score voor PI ontstaat hopelijk een minder absolute interpretatie, die minder bedreigend is of minder snel als onterecht wordt ervaren. Van een indicator moet een stimulerende werking uitgaan, wil deze leiden tot kwaliteitsverbetering bij de professionals.15 Dit onderbouwt de noodzaak van realistische rapportage van PI, bijvoorbeeld met behulp van funnelplots.16

Conclusie

De invloed van toeval en ziekteverscheidenheid moet al bij de ontwikkeling van PI meegewogen worden. Dit stelt eisen aan het selectieproces van PI, waarbij naast validiteit en betrouwbaarheid ook meetbaarheid en het vermogen verbetering aan te tonen selectiecriteria moeten zijn.17 In ons onderzoek bleken de indicatoren voor CVA en acuut myocardinfarct niet aan deze eis te voldoen.

In ons onderzoek concentreerden wij ons op de rol van toevalsvariatie. Wij besteedden geen aandacht aan andere verstorende factoren, zoals registratieverschillen, organisatieverschillen, en de invloed van ziekteverscheidenheid. Wat betreft dit laatste is het aannemelijk dat academische ziekenhuizen en topklinische ziekenhuizen een heel andere patiëntenpopulatie hebben dan basisziekenhuizen. Statistische correctie voor deze verschillen in ziekteverscheidenheid kan lastig of zelfs onmogelijk zijn. Dit vraagt nader onderzoek.

Wij concluderen dat de funnelplot een aantrekkelijke grafische weergave is voor de prestaties van Nederlandse ziekenhuizen. Het maakt ziekenhuizen beter duidelijk of zij aan de norm voldoen dan een simpele rangordening zonder weergave van onzekerheid, zoals nu gebruikelijk is in IGZ rapporten als ‘Het resultaat telt’ en in de verschillende top 100-lijsten.

Uitleg

  • Kenmerken van een goede indicator9

  • Een indicator heeft een relatie met wat onder ‘kwaliteit van zorg’ wordt begrepen.

  • Een indicator moet veranderingen in kwaliteit aangeven.

  • Een indicator moet betrouwbaar geregistreerd kunnen worden, waarbij iedereen dus op dezelfde wijze registreert.

Uitleg

  • Onderverdeling van kwaliteitsindicatoren volgens ‘het paradigma van Donabedian’ (www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=hstat).18

  • Structuurindicatoren: deze geven informatie over de organisatorische voorwaarden waarbinnen een instelling verantwoord zorg kan leveren. Bijvoorbeeld: het hebben van een hartfalenpoli of een voorziening voor deelname aan de landelijke registratie van bloedtransfusiereacties.

  • Procesindicatoren: deze geven een indicatie over het verloop van processen in een organisatie. Bijvoorbeeld: de tijd tussen binnenkomst in het ziekenhuis en het moment waarop de patiënt met een acuut herseninfarct een trombolyticum krijgt toegediend (‘door to needle-time’).

  • Uitkomstindicatoren: deze geven een indicatie over de uitkomst van de zorg. Bijvoorbeeld: de sterfte na myocardinfact of CVA.

Leerpunten

  • De resultaten van ziekenhuizen worden gerapporteerd aan de hand van prestatie-indicatoren.

  • De weergave van deze resultaten in een rangorde van laag naar hoog geeft geen inzicht in verschillen op basis van toeval.

  • Een funnelplot is een weergave van de resultaten waarbij ook de betrouwbaarheidsintervallen duidelijk zijn.

  • Uit die weergave blijkt dat toeval een belangrijke factor is.

  • Toeval moet meegewogen worden bij de beoordeling van prestaties van individuele ziekenhuizen.

Literatuur
  1. Berg M, Gras M, Meijerink Y, Eland A, Kallewaard M, Haeck J, et al. Leren van cijfers; ziekenhuizen gaan prestaties openbaar maken. Medisch Contact. 2003;58:1535-8.

  2. Berg M, Meijerink Y, Gras M, Goossensen A, Schellekens W, Haeck J, et al. Feasibility first: developing public performance indicators on patient safety and clinical effectiveness for Dutch hospitals. Health Policy. 2005;75:59-73.

  3. Basisset Prestatie-Indicatoren Ziekenhuizen 2005. Den Haag: Inspectie voor de Gezondheidszorg; 2005.

  4. Het resultaat telt 2005; prestatie-indicatoren als onafhankelijke graadmeter voor de kwaliteit van in ziekenhuizen geleverde zorg. Den Haag: Inspectie voor de Gezondheidszorg; 2006.

  5. De Bruijn H. Prestatiemeting in de publieke sector. Tussen professie en verantwoording. 2e dr. Den Haag: Lemma; 2006.

  6. Giard RW. Prestatie-indicatoren als maat voor de kwaliteit van medische zorg: retoriek en realiteit. Ned Tijdschr Geneeskd 2005;149:2715-9.

  7. Lilford R, Mohammed MA, Spiegelhalter D, Thomson R. Use and misuse of process and outcome data in managing performance of acute medical care: avoiding institutional stigma. Lancet 2004;363:1147-54.

  8. Wachter RM. Expected and unanticipated consequences of the quality and information technology revolutions. JAMA. 2006;295:2780-3.

  9. Colsen P, Casparie A. Indicatorregistratie: een model ten behoeve van integrale kwaliteitszorg in een ziekenhuis. Medisch Contact 1995;50:297-9.

  10. Campbell SM, Braspenning J, Hutchinson A, Marshall MN. Research methods used in developing and applying quality indicators in primary care. BMJ. 2003;326:816-9.

  11. Spiegelhalter DJ. Funnel plots for comparing institutional performance. Stat Med. 2005;24:1185-202.

  12. Marshall EC, Spiegelhalter DJ. Reliability of league tables of in vitro fertilisation clinics: retrospective analysis of live birth rates. BMJ. 1998;316:1701-5.

  13. Hinkley DV. Bootstrap methods. J R Stat Soc Series B. 1988;50:312-37.

  14. Basisset Prestatie-Indicatoren Ziekenhuizen 2006. Den Haag: Inspectie voor de Gezondheidszorg; 2006.

  15. Berwick DM, James B, Coye MJ. Connections between quality measurement and improvement. Med Care. 2003;41:130-8.

  16. Guthrie B, Love T, Fahey T, Morris A, Sullivan F. Control, compare and communicate: designing control charts to summarise efficiently data from multiple quality indicators. Qual Saf Health Care. 2005;14:450-4.

  17. Wollersheim H, Hermens R, Hulscher M, Braspenning J, Ouwens M, Schouten J, et al. Clinical indicators: development and applications. Neth J Med. 2007;65:15-22.

  18. Donabedian A. The quality of care. How can it be assessed? JAMA. 1988;260:1743-8.

Auteursinformatie

Erasmus MC-Centrum, afd. Maatschappelijke Gezondheidszorg, Center for Medical Decision Making, Rotterdam.

Drs. A.M. van Dishoeck, onderzoeker; dr.ir. C.M.N. Looman, statisticus; drs. E.C.M. van der Wilden-van Lier en prof.dr. J.P. Mackenbach, sociaal geneeskundigen; prof.dr. E.W. Steyerberg, epidemioloog.

Contact drs. A.M. van Dishoeck (a.m.vandishoeck@erasmusmc.nl)

Verantwoording

Dit onderzoek maakt onderdeel uit van het project ‘Prestatie-indicatoren’ in het Erasmus MC: een onderzoek naar de relatie met kwaliteit van zorg.
Belangenconflict: geen gemeld. Financiële ondersteuning: geen gemeld.
Aanvaard op 27 oktober 2008

Gerelateerde artikelen

Reacties

A.
Knol

Van Dishoeck et al. vermelden dat de externe validiteit van rangordes met prestatie-indicatoren problematisch is. Zij zoeken een verklaring en constateren dat de betrouwbaarheidsintervallen te groot zijn. De suggestie zou kunnen worden gewekt dat kleine betrouwbaarheidsintervallen een beoordeling met samengestelde prestatie-indicatoren wel mogelijk maken.
Rangordesystemen kunnen behept zijn met problemen van interne validiteit [2]. Een van de voorwaarden voor praktische toepassing is een ondubbelzinnige uitkomst. Een noodzakelijke voorwaarde is A>B en B>C leidt tot A>C en C<A (consistentie) [3]. Andere uitkomsten leiden tot dubbelzinnigheid. De relaties die in een rangorde optreden zijn <, > en =. Van 3 zorgaanbieders A, B en C zijn de niet-gespiegelde combinaties van relaties AB, BC en CA  {A>B, B>C, C>A}, {A>B, B>C, C<A}, {A=B, B>C, C<A}, {A=B, B>C, C>A}, {A=B, B=C, C>A} en {A=B, B=C, C=A}. De voorspelde waarde van de relatie CA op basis van de relaties AB en BC is respectievelijk C<A, C<A, C<A, C<A, C=A, C=A. De helft van de beschreven combinaties is niet consistent, namelijk de eerste, vierde en vijfde combinatie. Van de eerste vier combinaties bestaat een spiegelbeeld. In totaal zijn dan 2x5=10 spiegelbeeldige combinaties en een niet-spiegelbeeldige combinatie mogelijk. De spiegelbeeldige combinaties hebben met betrekking tot consistentie dezelfde eigenschap. Van alle mogelijke combinaties zijn (3+3) /11=0,55 niet consistent. Dubbelzinnigheid treedt ook op als de betrouwbaarheidsintervallen klein zijn. Consistentie is een noodzakelijke  (maar niet voldoende) voorwaarde voor een methode van rangorde.

Literatuur
[1] Knol A. Ziekenhuizentop-100: wisselende ranglijsten, wisselende reputaties. Ned Tijdschr Geneeskd. 2006;150:2840-1.
[2] Bortz J, Lienert GA, Boehnke K. Verteilungsfreie Methoden in der Biostatistik. Springer: Berlijn; 2008.

Groningen

A. Knol, huisarts.