Onderzoek naar variatie tussen waarnemers met behulp van kappa

Klinische praktijk
S.J.O. Veldhuyzen van Zanten
A. Hijdra
Citeer dit artikel als
Ned Tijdschr Geneeskd. 1988;132:199-3
Download PDF

Inleiding

Dat er vaak verschil van mening bestaat bij de beoordeling van klinische gegevens is al lang bekend, maar er wordt in de dagelijkse praktijk weinig rekening mee gehouden. Verschil van mening komt voor in alle aspecten van het medisch handelen: anamnese, lichamelijk onderzoek, beoordeling van aanvullend onderzoek, diagnose en evaluatie van therapie.1 De volgende voorbeelden maken dit duidelijk:

– Kraayeveld e.a. onderzochten bij 8 ervaren neurologen de variatie in het stellen van de diagnose ‘transient ischaemic attack’ (TIA) en in het oordeel, in welk stroomgebied de TIA was ontstaan, conclusies die alleen uit de anamnese kunnen worden afgeleid.2 Bij de keuze van het stroomgebied ging het om het carotis- of vertebrobasilaire gebied. Deze indeling was gekozen om praktische redenen, omdat alleen bij de eerste categorie angiografie en eventuele operatieve behandeling werden overwogen. Elke patiënt werd onderzocht door 2 van de 8 neurologen, onafhankelijk van elkaar. Bij 48 (86) patiënten waren de 2 onderzoekers het eens over de diagnose (wel of geen TIA). Van de 36 patiënten bij wie de diagnose TIA door beide onderzoekers werd gesteld, was men het bij 24 (67) eens over het vaatgebied.

– 5 ervaren artsen bleken het slechts bij 19 van 32 patiënten allemaal eens te zijn over de vraag of het hart al dan niet vergroot was op grond van de bevindingen bij lichamelijk onderzoek.3 Vergelijkbare cijfers werden gevonden bij het vaststellen van een systolisch of diastolisch geruis van het hart.

– 2 ervaren radiologen bleken het bij de beoordeling van thoraxfoto's in 30 van de gevallen met elkaar oneens te zijn over de aan- of afwezigheid van een afwijking in de longen passend bij een actief ziekteproces.4 Bij herbeoordeling door dezelfde onderzoekers bleken ze het in 20 van de gevallen met zichzelf oneens te zijn.

– Bij de beoordeling van 20 coronair-angiogrammen door 4 ervaren cardiologen bleken deze slechts in 13 van 20 gevallen eens te zijn over de aanwezigheid van een stenose van meer dan 50 in het proximale of middentraject van de ramus descendens anterior.5 Een dergelijke stenose in dit gebied wordt vaak gehanteerd als operatie-indicatie.

– Gebruik makend van de Jackson-Parker- en de Rye-classificatie bestond er tussen 3 ervaren patholoog-anatomen respectievelijk 76 en 54 volledige overeenstemming over de diagnose ziekte van Hodgkin bij de beoordeling van biopsiemateriaal van 29 patiënten.6

Deze voorbeelden, waarin de variatie vaak een beleidsbepalend oordeel betreft, maken duidelijk dat variatie in het oordeel van meerdere waarnemers belangrijke consequenties kan hebben voor het te volgen beleid bij individuele patiënten en dat beperking van deze variatie bij zulke beslissende waarnemingen een klinisch probleem van de eerste orde is. In dit artikel zal alleen het verschil tussen bevindingen van 2 of meer onderzoekers – tussen waarnemers (interwaarnemervariatie) – worden besproken. Verschil tussen 2 of meer waarnemingen van dezelfde onderzoeker – variatie binnen de waarnemer (intrawaarnemervariatie) – kan op dezelfde manier worden geanalyseerd.

Variatie tussen waarnemers

In vroegere studies werd het begrip totale overeenstemming tussen waarnemers (‘total overall agreement’) gehanteerd. Totale overeenstemming is de som van alle waarnemingen waarover de onderzoekers het met elkaar eens zijn. In tabel 1 worden willekeurige, verzonnen waarnemingen van 2 onderzoekers bij 100 patiënten met elkaar vergeleken in een 2 x 2-tabel. De waarnemingen zijn verdeeld over de categorieën ‘normaal’ en ‘afwijkend’. Er bestaat overeenstemming over de conclusie ‘afwijkend’ bij 50 patiënten en over de conclusie ‘normaal’ bij 20 patiënten. De totale overeenstemming is 50100 20100 = 70100 = 70.

Bij het vergelijken van studies aan de hand van totale overeenstemming ontstaan echter problemen. In tabel 2 worden 2 verzonnen 2 x 2-tabellen weergegeven van onderzoeken naar interwaarnemervariatie. In beide gevallen bedraagt de totale overeenstemming 90, te weten 47 43 in onderzoek A en 85 5 in onderzoek B. Het is duidelijk dat in onderzoek B, waarin beide onderzoekers veel vaker wel een afwijking dan geen afwijking vinden, gemakkelijker overeenstemming te bereiken is dan in onderzoek A, en dat de bijdrage van de toevalskans aan de overeenstemming in geval B groter is dan in geval A. Het bezwaar tegen het gebruik van totale waarnemerovereenstemming als maat voor de waarnemervariatie is dan ook dat daarbij geen rekening wordt gehouden met de overeenstemming die door het toeval kan ontstaan, de toevallige overeenstemming (‘chance agreement’). De bijdrage van de toevalskans aan de totale overeenstemming laat zich uit de randwaarden van de 2 x 2-tabel berekenen volgens het volgende principe. Uit tabel 2 blijkt dat onderzoeker 2 uit onderzoek A 55100 van al zijn waarnemingen als afwijkend en 45100 als normaal classificeert. Als zijn oordeel alleen op deze frequentieverdeling gebaseerd zou zijn, zou hij de totaal 49 bevindingen die onderzoeker 1 als afwijkend classificeert voor 55100 als afwijkend en voor 45100 als normaal indelen, respectievelijk 27 en 22. Op deze wijze kan men de op grond van de randtotalen verwachte frequenties in elk der 4 velden berekenen. De toevallige overeenstemming wordt dan gegeven door de som (55 100 x 49) (45100 x 51) = 49,9.

De mate van toevallige overeenstemming tussen waarnemers kan door verschillende factoren worden bepaald. Het belangrijkst is de frequentie waarin een afwijking wordt gevonden in de populatie die men onderzoekt. Dit is natuurlijk in de eerste plaats afhankelijk van de prevalentie van de onderzochte afwijking, maar ook bepaalde preoccupaties daarmee, bijvoorbeeld op grond van interesse of opleiding, kunnen bijdragen tot de grootte van de toevallige overeenstemming.

Kappa

Kappa (k) is een statistische variabele die ontwikkeld is door Cohen om overeenstemming tussen waarnemers te meten, rekening houdend met de mate van toevallige overeenstemming.7-12 In formule uitgedrukt:

k = (Po-Pe)(1-Pe)

waarbij Po (P van ‘proportion’, o van ‘observed’) het waargenomen overeenstemmingspercentage is en Pe (P van ‘proportion’, e van ‘expected by chance’) het op grond van toeval verwachte overeenstemmingspercentage.

In tabel 1 is Po, uitgedrukt in decimalen: 0,50 0,20 = 0,70. Pe kan berekend worden uit de randtotalen van de 2 x 2-tabel. Voor het vak waarbij de gevonden overeenstemming 0,50 bedraagt is de op grond van toeval verwachte overeenstemming 0,70 x 0,60 = 0,42. Aldus kunnen alle vakken ingevuld worden (tabel 3). Pe, in decimalen uitgedrukt, wordt dan 0,42 0,12 = 0,54. Het verschil Po-Pe is 0,70-0,54 = 0,16, en dit representeert dat gedeelte van de gevonden overeenstemming dat niet door toeval wordt verklaard maar door de ‘kwaliteit’ van de onderzoekers. Het verschil 1-Pe, in ons voorbeeld 1-0,54 = 0,46, geeft de maximaal mogelijke overeenstemming weer boven toevallige overeenstemming. De waarde van kappa is dan 0,160,46=0,35. Met andere woorden, van wat boven toevallige overeenstemming nog aan overeenstemming te bereiken zou zijn, is slechts 35 gerealiseerd. Op dezelfde manier is voor de onderzoeken A en B uit tabel 2 kappa te berekenen: respectievelijk 0,80 en 0,44.

Waarden voor kappa variëren van 0 tot 1,00. Bij 0 bestaat er alleen toevallige overeenstemming en bij 1,00 bestaat er volledige overeenstemming. Het is belangrijk te bedenken dat een hoge waarde voor kappa alleen maar iets zegt over de mate van overeenstemming tussen waarnemingen van verschillende onderzoekers, maar dat niet de conclusie getrokken mag worden dat die waarnemingen dan ook juist waren.

In het algemeen worden met kappa 2 onderzoekers met elkaar vergeleken. Het is echter ook mogelijk om een onderzoeker te vergelijken met meer dan een andere onderzoeker tegelijk.11

Ook voor waarnemingen die in meer dan twee categorieën worden ingedeeld kan kappa worden berekend. Er zijn formules ontwikkeld voor de standaardfout van kappa.813 Als kappa-waarden bij vergelijking van bijvoorbeeld paren onderzoekers verschillen, kan bepaald worden of deze verschillen statistisch significant zijn. Naast kappa is voor geordende categorieën een ‘gewogen’ kappa voorgesteld. Hierbij wordt rekening gehouden met de mate van discrepantie tussen waarnemingen waarvoor geen overeenstemming bestaat.914

Voorbeelden van het gebruik van kappa

De manier waarop de diagnose longembolie tot stand kwam, werd onderzocht bij 60 patiënten bij wie hieraan op klinische gronden werd gedacht.15 Er werd een perfusiescan van de longen gemaakt, die beoordeeld werd door 3 radiologen te zamen, die hierbij over de klinische gegevens beschikten. De uitslag werd uitgedrukt als 0, 25, 75 of 100 kans op longembolie. Na afsluiten van de onderzoekperiode werden alle longscans opnieuw beoordeeld door de 3 radiologen, maar nu zonder kennis van de klinische gegevens. De totale overeenstemming tussen eerste en tweede oordeel bleek 0,77 te zijn. De overeenstemming gecorrigeerd voor toeval, de kappa-waarde, bedroeg 0,46. Dat betekent dat een groot deel van de gevonden overeenstemming op grond van toeval was ontstaan en dat van wat er nog meer aan overeenstemming te bereiken zou zijn slechts een beperkt deel was gerealiseerd (0,46). Deze bevinding is van groot praktisch belang omdat bleek dat de behandelende artsen zeer grote waarde toekenden aan de uitslag van de longscan. Voordat de uitslag van de scan bekend was schatten zij de kans op een longembolie gemiddeld op 20. Nadat de uitslag bekend werd steeg dit tot meer dan 50 voor vrijwel alle patiënten bij wie de longscan een embolie deed vermoeden. Rekening houdend met het belang dat clinici in deze studie hechtten aan de positieve uitslag van een scan, wordt de mate van overeenstemming in de beoordeling ervan door de auteurs onbevredigend genoemd.

De waarde van de microscopische beoordeling van het rode bloedbeeld werd bij 259 patiënten met een tevoren ongeclassificeerde anemie onderzocht.16 Het bloedbeeld werd bekeken door laboranten en meestal ook door een hematoloog. Er werd gekeken naar de aanwezigheid van een aantal morfologische kenmerken: macrocytose, microcytose, poikilocytose, anisocytose, polychromasie, hypochromie, sferocytose, ‘tear-drop’-vorm, schietschijfvorm, fragmentocyten en hypersegmentatie van de neutrofiele granulocyten. Criteria voor het vaststellen hiervan werden niet opgesteld. Slechts microcytose, poikilocytose, ‘tear-drop’-cellen, schietschijfcellen en fragmentocyten hadden intra- en interwaarnemerovereenstemming die beter waren dan op grond van toeval kon worden verwacht. De gemiddelde kappa-waarde hiervoor bedroeg 0,24. Opvallend was dat ook bij ernstige anemieën het vinden van afwijkingen niet betrouwbaarder bleek dan bij lichte vormen. Op grond van deze bevindingen kan men zich afvragen welke waarde kan worden toegekend aan de individuele microscopische beoordeling van het rode bloedbeeld.

In het eerder vermelde onderzoek naar TIA's en naar het gebied waarin deze ontstonden,2 ging het om 56 patiënten die door 2 neurologen onafhankelijk van elkaar werden ondervraagd.2 Bij 36 patiënten waren 2 onderzoekers het eens over de diagnose TIA, bij 12 oneens, een totale overeenstemming van 0,86 (4856). De kappawaarde was hierbij 0,65. Dat wil zeggen dat wat er aan extra overeenstemming te bereiken zou zijn, rekening houdend met toevallige overeenstemming, 65 is gerealiseerd. Bij de 36 patiënten met de diagnose TIA was men het er bij 16 over eens dat deze ontstaan was in het stroomgebied A. carotissysteem en bij 8 in het vertebrobasilaire stroomgebied. De kappa-waarde bedroeg 0,31, hetgeen door de onderzoekers als onbevredigend werd beschouwd.

Als vierde voorbeeld tenslotte een onderzoek dat werd gedaan naar het vaststellen van het type longtumor bij longbiopsieën van 476 patiënten met een longtumor.17 Er werd onderscheid gemaakt tussen epidermoïdcarcinoom, kleincellig carcinoom en adenocarcinoom dan wel grootcellig carcinoom. De biopten werden door 3 patholoog-anatomen beoordeeld. In 94 van de gevallen waren 2 van de 3 onderzoekers het met elkaar eens over het type tumor. Voor 67 van de gevallen bestond er overeenstemming tussen alle 3 de patholoog-anatomen over het type tumor. De kappa-waarde hiervoor bedroeg 0,68. Werd er gekeken naar de verschillende typen tumoren dan bleek vooral de diagnose grootcellig carcinoom moeilijkheden op te leveren. Bij een totale overeenstemming van 40 bleek de kappa-waarde 0,31 te bedragen.

Beschouwing

Lusted heeft over inter- en intrawaarnemervariatie opgemerkt dat de betekenis vooral is gelegen in het effect dat deze variatie heeft op diagnostische en therapeutische beslissingen.18 Het probleem is dat van de meeste onderzoekingen de grootte van de waarnemervariatie niet bekend is. De 4 hierboven aangehaalde voorbeelden tonen het belang van onderzoek hiernaar aan. Feinstein merkt over dergelijk onderzoek overigens op dat het vaak blijft bij het vaststellen en kwantificeren van de waarnemervariatie en dat maar zelden maatregelen worden genomen (en onderzocht) om deze variatie te verminderen.19 Een uitzondering hierop wordt in elk geval gevormd door de eerder genoemde onderzoekers naar verschil in de diagnose TIA, die door verbetering van hun methoden en criteria om tot de diagnose TIA te komen de kappa-waarde verbeterden van 0,65 tot 0,77.20 Er is wel een aantal factoren bekend die de waarnemervariatie beïnvloeden, zoals deze onder andere door Koran en Lusted zijn samengevat.11821 Ten eerste is het van groot belang dat criteria, terminologie en wijze van verzamelen van klinische gegevens scherp worden omschreven. Hierbij is volledige overeenstemming tussen experts op ieder gebied belangrijk.

Klinische gegevens kunnen in het algemeen het beste in nominale of ordinale schalen worden ondergebracht in plaats van in een continu glijdende intervalschaal. Het gebruik van dichotome variabelen (bijvoorbeeld: afwijkendnormaal) heeft de voorkeur, maar als dit niet realistisch is moet het aantal categorieën waarin de waarnemingen ondergebracht kunnen worden zo klein mogelijk worden gehouden. Verder zijn er nog methoden als groepsmening en consensus om de waarnemervariatie te beperken. Bij de groepsmening gaat men ervan uit dat alle deelnemers aan een bepaald onderzoek onafhankelijk van elkaar de uitslag van hun bevindingen geven. De mening van de meerderheid geldt dan als uitslag. Bij consensus wordt het onderzoek gelijktijdig beoordeeld door meerdere onderzoekers, die dan samen een beslissing nemen over een definitieve uitslag. Mengvormen hiervan zijn mogelijk. Yerushalmy et al. geven een instructief voorbeeld van het gebruik van groepsmening en consensus in een studie over de beoordeling van thoraxfoto's.22 Ook besliskundige analyse van klinische problemen kan een bijdrage leveren aan het verbeteren van waarnemervariatie doordat het aan het licht kan brengen welke waarnemingen wel en welke niet van belang zijn bij klinische beslissingen, en wat kan leiden tot betere definitie van deze waarnemingen.

Om inzicht te krijgen in de waarnemervariatie is kappa van groot belang, omdat gecorrigeerd wordt voor toevallige overeenstemming. Wat is een aanvaardbare waarde voor kappa? Kappa-waarden dichtbij 1,00, dat wil zeggen volledige overeenstemming, komen bij klinische beoordelingen vrijwel niet voor. Landis en Koch hebben de volgende richtlijnen voor kappa gegeven: kleiner dan 0,00 slecht; 0,00-0,20 gering; 0,21-0,40 matig; 0,41-0,60 redelijk; 0,61-0,80 voldoende tot goed; en 0,81-1,00 bijna perfect.23 Het lijkt aannemelijk dat in de praktijk kappa-waarden tussen 0,60 en 0,80 als aanvaardbaar beschouwd kunnen worden. In het overzichtsartikel van Koran liggen de hoogste kappa-waarden ook in die buurt.1 Tevens kan gezegd worden dat aan het nut van onderzoeken met een lage kappa-waarde (minder dan 0,40) ernstig moet worden getwijfeld.

Bij de interpretatie van kappa komt wel een aantal problemen aan de orde. Zijn kappa-waarden uit verschillende onderzoekingen onderling vergelijkbaar? Schouten heeft aangetoond dat de kappa-waarde in het algemeen stijgt als het aantal geordende categorieën wordt verminderd.11 Daarnaast heeft de frequentieverdeling van de waarnemingen over de verschillende diagnostische categorieën een duidelijke invloed op de uitkomst van kappa (zie tabel 2).111924 Als bij vergelijking van verschillende onderzoeken deze frequentieverdelingen sterk verschillen, kunnen de kappa-waarden niet zonder meer met elkaar worden vergeleken. Ook kan men kappa's niet zonder meer met gewogen kappa's vergelijken. Kappa lijkt daarom bij uitstek geschikt om binnen een groep van onderzoekers waarnemervariatie te onderzoeken en verbeteringen daarin te evalueren. Zoals al opgemerkt, is het hierbij nog van belang te bedenken dat een hoge kappa-waarde nooit een garantie is voor de juistheid van de bevindingen.

Ook binnen het onderwijs dient aandacht te worden besteed aan de nauwkeurigheid van klinische onderzoeken en de waarnemervariatie. Er zijn goede redenen om de betrouwbaarheid van al ons dagelijks werk, en vooral van die waarnemingen die in de besluitvorming een cruciale betekenis hebben, niet voetstoots aan te nemen zonder deze eerst aan een grondig onderzoek te onderwerpen.

Literatuur
  1. Koran LM. The reliability of clinical methods, data andjudgements. N Engl J Med 1975; 293: 642-6, 695-701.

  2. Kraayeveld CL, Gijn J van, Schouten HJA, Staal A.Interobserver agreement for the diagnosis of transient ischemic attacks.Stroke 1984; 15: 723-5.

  3. Raferty EB, Holland WW. Examination of the heart: aninvestigation into variation. Am J Epidemiol 1967; 85: 438-44.

  4. Garland LH. Studies on the accuracy of diagnosticprocedures. J Roentgenol 1959; 82: 25-38.

  5. Zir LM, Miller SW, Dinsmore RE, Gilbert JP, Harthorne JW.Interobserver variability in coronary angiography. Circulation 1976; 53:627-32.

  6. Coppleston LW, Factor RM, Strum SB, Graf PW, Rappaport H.Observer disagreement in the classification and histology of Hodgkin'sdisease. J Natl Cancer Inst 1970; 45: 731-40.

  7. Cohen J. A coefficient for agreement for nominal scales.Educ Psychol Meas 1960; 20: 37-46.

  8. Spitzer RL, Cohen J, Fleiss JL, Endicott J. Quantificationof agreement in psychiatric diagnosis. Arch Gen Psychiatry 1967; 17:83-7.

  9. Spitzer RL, Fleiss JL. A re-analysis of the reliability ofpsychiatric diagnosis. Br J Psychiatry 1974; 125: 341-7.

  10. Fleiss JL. Measuring nominal scale agreement among manyraters. Psychol Bull 1971; 76: 378-82.

  11. Schouten HJA. Statistical measurement of interobserveragreement. Rotterdam: 1985. Proefschrift.

  12. Sackett DL, Haynes RB, Tugwell P. Clinical epidemiology.A basic science for clinical medicine. Boston: Little, Brown, 1985:24-8.

  13. Fleiss JL, Cohen J, Everitt BS. Large sample standarderrors of kappa and weighted kappa. Psychol Bull 1969; 72: 323-7.

  14. Cohen J. Weighted kappa: nominal scale agreement withprovision for scaled disagreement or partial credit. Psychol Bull 1968; 70:213-20.

  15. The Herlev Hospital Study Group. Diagnosticdecision-process in suspected pulmonary embolism. Lancet 1979; i:1336-8.

  16. Jen P, Woo B, Rosenthal PE, Bunn F, Loscalzo A, GoldmanL. The value of the peripheral blood smear in anemic patients. Arch InternMed 1983; 143: 1120-5.

  17. Stanley KE, Matthews MJ. Analysis of a pathology reviewof patients with lung tumors. JNCI 1981; 66: 989-92.

  18. Lusted LB. Introduction to medical decision making.Springfield: Thomas, 1968.

  19. Feinstein AR. Clinical epidemiology – thearchitecture of clinical research. Philadelphia: Saunders, 1985:634.

  20. Koudstaal PJ, Gijn J van, Staal A, Duivenvoorden HJ,Gerritsma JGM, Kraayeveld CL. Diagnosis of transient ischemic attacks:improvement of interobserver agreement by a check-list in ordinary language.Stroke 1986; 17: 723-8.

  21. Koran LM. Increasing the reliability of clinical data andjudgements. Ann Clin Res 1976; 8: 69-73.

  22. Yerushalmy J, Harkness JT, Cope JH, Kennedy BR. The roleof dual reading in mass radiography. Am Rev Tuberc 1950; 61:443-64.

  23. Landis RJ, Koch GG. The measurement of observer agreementfor categorical data. Biometrics 1977; 33: 159-74.

  24. Walter SD. Measuring the reliability of clinical data:the case for using three observers. Rev Epidemiol Sante Publique 1984; 32:206-11.

Auteursinformatie

Academisch Medisch Centrum, Meibergdreef 9, 1105 AZ Amsterdam.

Afd. Interne Geneeskunde: S.J.O.Veldhuyzen van Zanten, assistent-geneeskundige.

Afd. Neurologie: dr.A.Hijdra, neuroloog.

Contact S.J.O.Veldhuyzen van Zanten

Gerelateerde artikelen

Reacties