Dwalingen in de methodologie. VII. Reproduceerbaarheid van metingen
Open

Richtlijnen
16-09-1998
H.C.W. de Vet en A.J.H.M. Beurskens

- Reproduceerbaarheidsmetingen zijn belangrijk om medische gegevens te interpreteren.

- Om de reproduceerbaarheid van categoriale variabelen te bepalen is kappa de geschiktste maat. Kappa meet de overeenkomst, gecorrigeerd voor de toevalsovereenkomst. De interpretatie is niet simpel. De kappawaarde wordt namelijk beïnvloed door het aantal categorieën waarin ingedeeld moet worden en de prevalentie van de scores van de beoordelaars.

- Voor continue variabelen is de correlatiecoëfficiënt van Pearson goed bruikbaar, mits men zich realiseert dat deze voorbijgaat aan systematische fouten en sterk afhankelijk is van de heterogeniteit van de gegevens.

- Voor continue variabelen kunnen ook de grenzen van overeenkomst vastgesteld worden. Deze methode is geschikt om systematische verschillen en toevalsfouten te onderscheiden en om de grootte van de verschillen te kwantificeren.

- In het algemeen geldt dat voor een goede interpretatie van de diverse reproduceerbaarheidsmaten een visuele presentatie van de gegevens in de vorm van een tabel of een figuur een duidelijke meerwaarde heeft.

Reproduceerbaarheid van metingen is een belangrijk onderwerp in de geneeskunde. Met reproduceerbaarheid wordt bedoeld dat bij herhaalde metingen dezelfde uitkomst wordt gevonden.1 Als één persoon twee metingen vlak na elkaar uitvoert en als die verschillende uitkomsten opleveren (intrabeoordelaarsvariatie), dan zijn daar diverse verklaringen voor. De discrepantie kan komen, doordat de arts de eerste keer anders keek dan de tweede of doordat hij hetgeen hij zag anders interpreteerde. Als twee verschillende artsen de metingen uitvoeren, is de kans dat de uitkomst verschilt nog groter (interbeoordelaarsvariatie). Het kan ook zijn dat het meetinstrument bij de tweede meting een andere uitslag geeft (meetfouten van het instrument). Tenslotte kunnen de patiëntkenmerken die gemeten worden tussentijds veranderd zijn (biologische variatie).

In dit artikel bespreken wij enkele veelgebruikte en geschikte maten om de reproduceerbaarheid te kwantificeren.1 Wij kijken naar metingen waarbij patiënten worden ingedeeld in categorieën, bijvoorbeeld op basis van de aan- of afwezigheid van kraakbeenerosies van de hand-gewrichten bij reumapatiënten of op basis van de ernst van de erosies. Daarna beschrijven wij hoe de reproduceerbaarheid van een continue variabele, bijvoorbeeld de grijpkracht, bij deze patiënten bepaald kan worden.

reproduceerbaarheid van categoriale gegevens

Kappa is een maat voor de reproduceerbaarheid van categoriale gegevens (gegevens die in categorieën kunnen worden ingedeeld (bijvoorbeeld ziek en niet-ziek) in tegenstelling tot continue gegevens, zoals lichaamsgewicht). Als twee reumatologen 100 röntgenfoto's van de hand beoordelen op de aan- of afwezigheid van kraakbeenerosies, kunnen de resultaten weergegeven worden in een 2 × 2-tabel (tabel).2 Eenzelfde tabel kan totstandkomen als één reumatoloog de foto's 2 keer beoordeelt. In de tabel is te zien dat er in 75 van de 100 gevallen overeenkomst is: voor 50 van de gevallen oordelen beiden positief, voor 25 beiden negatief. Deze percentageovereenkomst houdt geen rekening met de toevalsovereenkomst. Zelfs als de tweede reumatoloog met zijn ogen dicht had gescoord, zou hij in een aantal gevallen hetzelfde antwoord hebben gegeven als de eerste. De coëfficiënt kappa (?) houdt hier wel rekening mee.3 Kappa geeft de mate van extra overeenkomst boven de toevalsovereenkomst, als fractie van wat maximaal aan overeenkomst tussen de reumatologen haalbaar zou zijn. In de tabel is het percentage geobserveerde overeenkomst (po) 75. Het percentage toevalsovereenkomst (pe) wordt berekend op basis van de randtotalen van beide reumatologen: 65/100 × 60 = 39 van de röntgenfoto's zou door beiden alleen al op grond van het toeval positief gescoord worden, en 35/100 × 40 = 14 negatief. Het totale percentage toevalsovereenkomst is dus 53. Dat betekent ook dat er maar een ruimte van 47 (100 - 53) beschikbaar is voor de maximale overeenkomst die bereikt kan worden door goed te kijken. De waarde van kappa wordt in dit geval:

? = (po - pe)/(1 - pe) = (75 - 53)/(100 - 53) = 0,47.

De waarden van ? liggen normaliter tussen 0 en +1. Bij een perfecte overeenkomst is ? gelijk aan 1, de waarde 0 betekent dat er niet meer overeenkomst is dan op grond van toeval te verwachten is.

De ?-coëfficiënt kan ook toegepast worden voor observaties waarbij meer dan twee uitkomsten mogelijk zijn.3 In plaats van de aan- of afwezigheid van erosies kan men ook de ernst van de erosies beoordelen. Naarmate het aantal categorieën van ernst dat men wil onderscheiden toeneemt, wordt het moeilijker om twee beoordelingen in precies dezelfde categorie te krijgen. De ?-waarde zal dan in het algemeen lager zijn.

In genoemd voorbeeld waarbij de meetschaal ordinaal is (meer klassen met een logische volgorde), kan een gewogen kappa (?w) berekend worden.4 Daarbij worden misclassificaties tussen aan elkaar grenzende categorieën minder zwaar meegeteld dan fouten tussen categorieën die verder van elkaar liggen.

Interpretatieproblemen met ?. Kappa is een algemeen geaccepteerde maat voor de reproduceerbaarheid van categoriale variabelen. In de literatuur wordt aangegeven bij welke waarden van ? een overeenkomst slecht, matig, redelijk of goed genoemd mag worden.5 Toch zitten er aan de interpretatie van ?-waarden veel haken en ogen.

Allereerst zagen wij dat ? lager wordt naarmate er meer categorieën gebruikt worden. Daarnaast is ? afhankelijk van de prevalentie van het verschijnsel dat gemeten wordt. Hoge prevalenties zorgen voor een hoge toevalsovereenkomst, waardoor weinig ruimte voor extra overeenkomst (te behalen door de deskundige beoordeling) overblijft. Stel dat in de tabel beide reumatologen 80 van de röntgenfoto's positief hadden gescoord (in plaats van 65 en 60), dan zou het percentage verwachte overeenkomst op grond van het toeval (pe) 64 + 4 = 68 zijn geweest. Uitgaande van dezelfde waargenomen overeenkomst (po) van 75 wordt de ?-waarde dan 0,22. De ?-waarde alleen zegt dus niet zoveel. Presentatie van de hele tabel geeft meer inzicht in de reproduceerbaarheid. Daaruit wordt duidelijk om hoeveel categorieën het gaat, wat de prevalenties van de scores zijn en dus hoe hoog de toevalsovereenkomst is en, in geval van meer categorieën, welke categorieën het moeilijkst onderscheiden worden.

bepaling van de reproduceerbaarheid van continue gegevens

Correlatiecoëfficiënt van Pearson.

Om de reproduceerbaarheid van gegevens vast te stellen die gemeten zijn op een continue schaal, wordt vaak gebruikgemaakt van de correlatiecoëfficiënt van Pearson (r).1 Deze kan waarden tussen 0 en 1 aannemen. Het voordeel van r is dat hij makkelijk uit te rekenen is, maar hij heeft twee belangrijke nadelen. Ten eerste houdt hij geen rekening met systematische afwijkingen tussen twee beoordelingen. In figuur 1 zijn enkele voorbeelden gegeven van grijpkrachtmetingen. In alle gevallen is r nagenoeg gelijk aan 1: de punten liggen vlak bij een rechte lijn. Dit geldt natuurlijk voor de middelste lijn waar beoordelaar A en B ongeveer dezelfde waarde meten, maar dit gaat ook op als beoordelaar B steeds 2 keer zo hoge waarden meet (gestippelde lijn) als beoordelaar A, en eveneens als beoordelaar B systematisch steeds 10 eenheden minder meet dan beoordelaar A. De correlatiecoëfficiënt geeft dus alleen aan in hoeverre er een lineaire relatie bestaat.

Het tweede nadeel van r is dat hij sterk afhankelijk is van de spreiding van de uitkomsten, met andere woorden van de heterogeniteit van de populatie. Uitschieters hebben veel invloed op de waarde van r. Daarom is het zinvol om de gegevens waarop r berekend is in een figuur te zien. Men moet er altijd op bedacht zijn dat de r die bereikt werd in een bepaalde populatie niet automatisch geldt voor een andere populatie.

Intraklassecorrelatiecoëfficiënt.

Een andere maat die soms gebruikt wordt in plaats van de r van Pearson is de intraklassecorrelatiecoëfficiënt (ICC).6 Deze ondervangt het eerstgenoemde nadeel van r. De ICC bereikt namelijk alleen zijn maximale waarde (dat is 1) als de metingen van beoordelaar A en B precies overeenkomen (de middelste lijn in figuur 1). Van het tweede nadeel, de afhankelijkheid van de spreiding van de uitkomsten, heeft de ICC net zoveel last als r. Het grote nadeel van de ICC is dat de berekening erg ingewikkeld is.

Omdat het bij reproduceerbaarheid overwegend om toevalsfouten gaat en meestal niet om systematische fouten, heeft de r van Pearson vaak de voorkeur boven de ICC. De r is dus een goede maat om de reproduceerbaarheid te kwantificeren in het geval dat er geen systematische verschillen verwacht worden.

Grenzen van overeenkomst.

Als de reproduceerbaarheid niet optimaal is, is de volgende vraag of de gevonden verschillen acceptabel zijn in de geneeskundige praktijk of het geneeskundig onderzoek. In de grootte van de verschillen geeft de r van Pearson slecht inzicht. Bland en Altman hebben een methode ontwikkeld die dat inzicht wel levert.7 Daartoe worden de verschillen (d) tussen de waarnemingen van twee beoordelaars per patiënt uitgezet tegen de gemiddelde waarneming bij die patiënt. Dit resulteert in figuur 2. Ongeveer 95 van de verschillen zal tussen d - 2SD en d + 2SD liggen (SD = standaarddeviatie). Deze grenzen worden grenzen van overeenkomst (‘limits of agreement’) genoemd. Bij deze methode worden de verschillen in overeenkomst uitgedrukt in dezelfde dimensie als de metingen. Dat maakt ze beter interpreteerbaar. In figuur 2 kan men zich afvragen of bijvoorbeeld 3,6 mmHg bij dergelijke metingen een acceptabele afwijking is. Welke verschillen nog acceptabel zijn, hangt af van de klinische toepassing. Daar is geen statistische toets voor, dat is een klinische beoordeling gebaseerd op medisch gezond verstand.

klinische relevantie

Reproduceerbaarheidsmetingen zijn belangrijk in de geneeskunde. Inzicht in de reproduceerbaarheid is essentieel voor de interpretatie van klinische gegevens, zowel in het wetenschappelijk onderzoek als in de medische praktijk. Voor dat doel is de berekening van een enkele coëfficiënt meestal onvoldoende en verdient een visuele presentatie, in tabellen of figuren, de voorkeur. Strategieën om de reproduceerbaarheid te verhogen kunnen worden gezocht in de standaardisatie van metingen en in consensusbijeenkomsten met beoordelaars. Als de reproduceerbaarheid daardoor niet toeneemt, kan herhaling van metingen uitkomst bieden, hetzij door dezelfde beoordelaar, hetzij door verschillende beoordelaars. Verbetering van de reproduceerbaarheid van klinische metingen kan een belangrijke bijdrage leveren aan de kwaliteit van de geneeskunde.

Literatuur

  1. Streiner DL, Norman GR. Health measurement scales. Apractical guide to their development and use. Oxford: Oxford UniversityPress, 1995.

  2. Brennan P, Silman A. Statistical methods for assessingobserver variability in clinical measures. BMJ 1992;304:1491-4.

  3. Cohen J. A coefficient of agreement for nominal scales.Educ Psychol Meas 1960;20:37-46.

  4. Cohen J. Weighted kappa: nominal scale agreement withprovision for scaled disagreement or partial credit. Psychol Bull1968;70:213-20.

  5. Fleiss JL. Statistical methods for rates and proportions.2nd ed. Wiley series in probability and mathematical statistics. New York:Wiley, 1981.

  6. Shrout PE, Fleiss JL. Intra class correlations: uses inassessing rater reliability. Psychol Bull 1979;86:420-8.

  7. Bland JM, Altman DG. Statistical methods for assessingagreement between two methods of clinical measurement. Lancet1986;i:307-10.