Dwaling in statistische interpretatie

‘Whiplashattributie’ niet doorslaggevend voor prognose

Opinie
Inge Bramsen
Pepijn Roelofs
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2009;153:A865
Abstract
Download PDF

artikel

Het beoordelen van gezondheidsstatistieken is moeilijk voor artsen, patiënten, journalisten en politici. Hierdoor trekken zij soms verkeerde conclusies, zonder dit te beseffen.1 Dit kan onbedoelde gevolgen hebben voor de behandeling van patiënten.

Een in het oog springend actueel voorbeeld van een verkeerde interpretatie van gezondheidsstatistieken is het recente promotieonderzoek van Jan Buitenhuis dat begin juni leidde tot grote media-aandacht.2 Zo kopte de NRC: ‘Zeg niet “whiplash”, zeg “spierpijn”’.3 Volgens de onderzoekers toont hun onderzoek aan dat het gebruik van de term whiplash ‘doorslaggevende invloed kan hebben op de prognose’.4

De onderzoekers hielden echter geen rekening met de schaal waarop de onafhankelijke variabelen werden gemeten. Hierdoor klopte de door hen gemaakte vergelijking van oddsratios’s (OR’s) niet. Zij concluderen ten onrechte dat de ‘whiplashattributie’ een grotere voorspellende waarde heeft dan de ernst van de fysieke klachten.

In dit artikel gaan wij in op het probleem van de verkeerde interpretatie van de statistiek in deze casus. Omdat de genoemde studie niet bij iedereen bekend zal zijn, beschrijven we eerst het onderzoek. Vervolgens geven wij de bredere context, namelijk die van de vertaling van OR’s en gezondheidsrisico’s naar de alledaagse medische praktijk.

De studie van whiplash en causale attributies

Buitenhuis et al. deden een studie naar de rol van zogenaamde ‘catastroferende’ gedachten en causale attributies bij whiplash.5 140 mensen met nekklachten na een auto-ongeluk die hiervoor een schadeclaim hadden ingediend, vulden 1 maand na het ongeluk (tijdstip 1: T1) een vragenlijst in en nog eens na 6 (T2) en na 12 maanden (T3). Voor deze studie ontwikkelden de onderzoekers de ‘Causal belief questionnaire whiplash’ (CBQ-W). Deze begint met de vraag: ‘Mijn klachten worden veroorzaakt door ...’ en somt 18 mogelijke oorzaken op. Patiënten konden antwoorden op een 4-puntsschaal (‘absoluut niet’, ‘waarschijnlijk niet’, ‘waarschijnlijk wel’, ‘absoluut wel’). Op basis van een factoranalyse werden 4 schalen geconstrueerd: ‘psychologisch’ (4 items), ‘ernstige verwonding’ (6 items), ‘wervels’ (3 items), en ‘spieren’ (3 items). Een 5e factor met 2 items bleek niet voldoende betrouwbaar en daarom werd het item ‘whiplash’ als afzondelijk item gebruikt.5

Causale attributie van ‘whiplash’ versus de inschatting van de fysieke beperkingen Twee multiple-logistische-regressieanalyses werden uitgevoerd om na te gaan welke T1-variabelen geassocieerd waren met het nog bestaan van het post-whiplashsyndroom op T2 en T3 volgens zelfrapportage van de patiënt (‘ja’/’nee’). De onderzoekers beschrijven in hun artikel dat de causale attributie ‘CBQ-W-whiplash’ een onafhankelijke voorspellende waarde heeft die groter is dan die van de ‘Neck disability index’ (NDI). De NDI bepaalt aan de hand van zelfrapportage de ernst van de fysieke beperkingen.

Volgens ons is deze bewering onjuist, omdat de onderzoekers geen rekening hebben gehouden met de schaal waarop de onafhankelijke variabelen werden gemeten. Bij een logistische-regressieanalyse met continue onafhankelijke variabelen is de grootte van de OR afhankelijk van de schaal waarop deze variabelen zijn gemeten. Voor een zinvolle interpretatie dient de onderzoeker stil te staan bij de vraag wat een betekenisvolle verandering is op de schaal waarop een variabele is gemeten.6

Buitenhuis et al. vonden een OR van 3,4 voor CBQ-W-whiplash: dit betekent dat bij een toename van 1 punt op deze schaal, de waarschijnlijkheid dat iemand na 6 maanden nog steeds het whiplashsyndroom heeft, 3,4 keer vergroot is. Deze OR is beduidend hoger dan de OR van 1,2 (exact: 1,197) voor de NDI. Echter, de NDI-scores kunnen variëren van 0-50, zodat een toename van 1 punt op deze schaal relatief klein is (1/50). De CBQ-W-whiplash loopt van 1-4 en dus is een toename van 1 punt op deze schaal verhoudingsgewijs veel groter (1/4). Dit uit zich tevens in een verhoudingsgewijs grotere OR voor deze schaal. Wanneer we voor dit verschil in het bereik van de schaal corrigeren (zie kader ‘Uitleg’) dan vinden we voor de NDI niet een OR van 1,2 maar van 9,5, dat wil zeggen groter dan de OR van 3,4 voor de CBQ-W-whiplash.

Deze correctie maakt duidelijk dat de voorspellende waarde van de NDI voor de prognose op de momenten T2 en T3 anders dan Buitenhuis et al. melden groter is dan die van de CBQ-W-whiplash. Hiermee lijkt de conclusie niet langer gerechtvaardigd dat de naamgeving van de ziekte van doorslaggevend belang is voor de prognose bij whiplash, of is deze conclusie op zijn minst discutabel. De fysieke beperkingen, zoals gemeten met de NDI, lijken voor de prognose in ieder geval belangrijker dan de genoemde causale attributie.

Er zijn, naast correctie van de OR’s nog andere manieren om de relatieve bijdrage van individuele variabelen aan het logistische-regressiemodel te beoordelen. Bijvoorbeeld door inspectie van de zogenaamde ‘wald-parameter’. In de voornoemde analyse was de wald-parameter voor de NDI gelijk aan 12,54 (p < 0,001) en voor de CBQ-W-whiplash 10,34 (p < 0,01). Hieraan kan men zien dat de NDI een zwaarder gewicht in de schaal legt. Ook is het mogelijk om de bijdrage van verschillende variabelen in het model te beoordelen, door het stapsgewijs op te bouwen en dan met behulp van bijvoorbeeld de ‘goodness of fit’-index van Hosmer en Lemoshow te bepalen wat de bijdrage is van de in een latere stap toegevoegde variabele of variabelen.

Voorts willen we nog noemen dat het aantreffen van een statistisch significant verband tussen 2 variabelen, in dit geval de CBQ-W-whiplash en de prognose, niet automatisch een causaal verband tussen achterliggende concepten impliceert.7 Hiervoor zijn in de regel aanvullende aannames nodig, die voor discussie vatbaar kunnen zijn.

De interpretatie van OR’s en relatieve risico’s

De studie van Buitenhuis et al. illustreert dat de OR een lastig te interpreteren maat voor samenhang is.4,8 Vanwege de lastige interpretatie leidt het gebruik van relatieve risico’s en OR’s wel vaker tot een verkeerde inschatting van het belang van risicofactoren.1 Vaak wordt verzuimd het absolute risico te vermelden, terwijl dit laatste voor een goed begrip van de uitkomsten wel van belang is. Een verdubbeling van het risico op het krijgen van een ernstige ziekte, dat wil zeggen dat het relatief risico gelijk is aan 2, lijkt op het eerste gezicht een sterk verband, maar het maakt wel uit of het basisrisico 0,1% is of 10%. Achter relatieve risico’s en OR’s kunnen dus heel verschillende absolute risico’s schuil gaan.

Ander voorbeeld: angst voor 3e-generatie-anticonceptiepil Een treffende illustratie hiervan is de wereldwijde ‘pilangst’ die in 1995 ontstond toen bekend werd dat de 3e-generatie-anticonceptiepil het risico op trombose ernstig zou verhogen. De Britse commissie voor de veiligheid van medicijnen gaf een waarschuwing dat het risico op potentieel levensbedreigende trombose door het gebruik van 3e-generatie-anticonceptiemiddelen verdubbeld werd: een toename van 100%. Deze informatie werd op grote schaal via de media verspreid en leidde tot angst en ongerustheid. Veel bezorgde vrouwen stopten onmiddellijk met de pil.

Maar welk absoluut risico ging er eigenlijk schuil achter deze berichten? Studies hadden aangetoond dat van elke 7000 vrouwen die eerder de 2e-generatiepil slikten, er ongeveer 1 trombose kreeg; dit aantal nam toe tot 2 vrouwen per 7000 die de 3e- generatiepil slikten. Het absolute risico was dus 1 op 7000 en de relatieve toename was inderdaad 100%. De pilangst leidde tot naar schatting 13.000 extra abortussen in het daaropvolgende jaar in Engeland en Wales.1

In zijn algemeenheid moet men voorzichtig zijn met het vertalen van OR’s naar aanbevelingen voor de dagelijkse praktijk. Zelfs indien een verband tussen een risicofactor en een uitkomstmaat statistisch significant is, moet dit verband zeer sterk zijn voordat het prognostische waarde heeft voor de individuele patiënt.9 Wil een risicofactor prognostische waarde hebben dan moet het verschil tussen de 2 groepen, bijvoorbeeld tussen wel of niet genezen zijn na 1 jaar, zo groot zijn dat de overlap in de scoreverdeling tussen de 2 groepen beperkt is.

Zeer hoge OR nodig voor belangrijke bijdrage aan diagnostische test Zelfs indien sprake is van internationaal aanvaarde risicofactoren blijkt de prognostische waarde hiervan voor de individuele patiënt soms gering.9,10 Dit blijkt bijvoorbeeld uit de ‘Framingham heart study.10 Deze studie identificeerde 5 biomarkers die een onafhankelijke statistisch significante bijdrage leverden aan de voorspelling van cardiovasculaire gebeurtenissen. Hiervan werd een gewogen indexscore gemaakt. Personen met een hoge indexscore hadden een 4 keer zo hoog risico op sterfte binnen 5 jaar en een verdubbeld risico op een cardiovasculaire gebeurtenis. Toch voegde deze gewogen combinatie van de topvijf van risicofactoren weinig toe aan de sensitiviteit en specificiteit van een prognostische test voor sterfte binnen 5 jaar. Dit is niet vreemd, want voor classificatie met een sensitiviteit en een specificiteit van bijvoorbeeld 0,80 is een OR van 16 nodig, en zulke sterke associaties worden zelden gevonden.

Conclusie

Uit deze whiplash-casus blijkt dat het identificeren van risicofactoren, het correct interpreteren ervan en het maken van een correcte vertaling naar de dagelijkse praktijk en de individuele patiënt een complexe zaak is. Een goed begrip van de statistiek en de beperkingen ervan is daarbij onontbeerlijk. Wij lieten zien dat men bij de interpretatie van OR’s in een logistische-regressieanalyse met continue variabelen rekening dient te houden met de schaal waarop deze gemeten zijn.

Voor een goed begrip van OR’s en ook van relatieve risico’s is voorts van belang het absolute risico te kennen.

Tot slot impliceert een statistisch significant verband niet automatisch dat de prognostische factor ook voldoende voorspellende waarde heeft om in de klinische praktijk patiënten te classificeren en het medisch handelen hier volledig op af te stemmen.

Uitleg

Correctie van een oddsratio (OR) voor het bereik van de schaal van de betreffende variabele De ‘Neck disability index’ (NDI) heeft een bereik van 0-50 en de ‘Causal belief questionnaire whiplash’ (CBQ-W) van 1-4. Om een OR van 1 punt in het bereik van de CBQ-W te kunnen vergelijken met een OR van 1,197 in de NDI kan men de volgende formule gebruiken: ORwegingsfactor = 1,197(50/4) = 9,466.6 Hierdoor verkrijgt men voor de NDI een OR die het effect weergeeft van een toename van 1/4 van het totale bereik van de schaal van 0-50. Deze correctie moet gezien worden als een benadering, omdat men ook rekening moet houden met de scoreverdeling die in een specifieke onderzoekspopulatie wordt aangetroffen.

Literatuur
  1. Gigerenzer G, Gaissmaier W, Kurz-Milcke E, Schwartz LM, Woloshin S. Helping doctors and patients make sense of health statistics. Psychological science in the public interest. 2008;8:53-96.

  2. Buitenhuis J. The course of whiplash. Its psychological determinants and consequences for work disability. Proefschrift. Groningen: Rijksuniversiteit Groningen; 2009.

  3. Nienke Beintema. Zeg niet ‘whiplash’, zeg: ‘spierpijn’. Alleen al diagnose ‘whiplash’ leidt tot veel groter risico op langdurige klachten. Interview. NRC Handelsblad. 2009; 4 juni.

  4. Buitenhuis J, de Jong PJ. De term ‘whiplash’ liever vermijden. Commentaar op de multidisciplinaire richtlijn voor ongecompliceerde whiplash. Ned Tijdschr Geneeskd. 2009;153:B2.

  5. Buitenhuis J, de Jong PJ, Jaspers JP, Groothoff JW. Catastrophising and causal beliefs in whiplash. Spine. 2008;33:2427-33.

  6. Hosmer DW, Lemeshow S. Applied logistic regression. New York: John Wiley & Sons; 1989.

  7. Gijn J van, Rooijmans HGM. Dwalingen in de methodologie. Causaliteit. Ned Tijdschr Geneeskd. 1998;142:1765-7.

  8. Scholten RJPM. ‘Odds’ en wat dies meer zij. Ned Tijdschr Geneeskd. 1998; 142:2452-4.

  9. Ware JH. The limitations of risk factors as prognostic tools. N Engl J Med. 2006;355:2615-2617.

  10. Wang TJ, Gona P, Larson MG et al. Multiple Biomarkers for the prediction of First major cardiovascular events and death. N Engl J Med. 2006;355: 2631-9.

Auteursinformatie

Hogeschool Rotterdam, Kenniskring Participatie, Arbeid & Gezondheid, Rotterdam.

Mw. dr. I. Bramsen, methodoloog en gezondheidszorgpsycholoog.

Drs. P.D.D.M. Roelofs, gezondheidswetenschapper en fysiotherapeut.

Contact dr. I. Bramsen (i.bramsen@hro.nl)

Verantwoording

Belangenconflict: geen gemeld. Financiële ondersteuning: geen gemeld.
Aanvaard op 13 september 2009

Heb je nog vragen na het lezen van dit artikel?
Check onze AI-tool en verbaas je over de antwoorden.
ASK NTVG

Ook interessant

Reacties

We willen mevrouw Bramsen en de heer Roelofs bedanken voor hun commentaar op ons onderzoek. Het geeft ons echter aanleiding tot een reactie, vooral omdat de vermeende punten van kritiek op geen enkele manier afbreuk doen aan de centrale conclusie van ons onderzoek, namelijk dat het attribueren van klachten aan whiplash samen gaat met een relatief ongunstige langetermijnprognose. Bovendien lijkt de kritiek te zijn gebaseerd op een onjuiste interpretatie van de door ons gebruikte frase “over and above”.

In het bewuste onderzoek gepubliceerd in Spine in 2008, doen wij verslag van onderzoek naar de relatie tussen o.a. causale attributies en de prognose van whiplash.(1) Uit de resultaten blijkt dat het na 1 maand toeschrijven van klachten aan whiplash significant samenhangt met de aanwezigheid van klachten na 6 en 12 maanden, onafhankelijk van de ernst van zelfgerapporteerde klachten. Op grond van de resultaten concludeerden wij: “Attributing initial neck complaints to whiplash was found to be related to more severe concurrent disability and to have prognostic value for the persistence of whiplash at six and twelve months follow-up, over and above the initial complaint severity.” Het commentaar richt zich op deze laatste toevoeging.

Terecht merken de auteurs op dat bij eventueel vergelijken van de grootte van odds ratios (OR’s) rekening moet worden gehouden met de schaal van de betreffende variabelen. Echter, in ons artikel hebben we op geen enkele wijze odds ratios onderling willen vergelijken. De auteurs lijken de zinsnede “over and above”, te vertalen als “groter dan”, of “meer dan”, maar dat is geen correcte weergave van het gebruikte Engels. Synoniemen voor “over and above” zijn b.v. “besides” en “in addition to”, te vertalen als b.v. “naast”. Wij hebben met deze uitdrukking aan willen geven dat naast de ernst van zelfgerapporteerde klachten, die in onderzoek vaak als voorspeller wordt gevonden, ook het toeschrijven van de klachten aan whiplash een relatie heeft met de prognose. Kortom, de kritiek lijkt voort te komen uit een misinterpretatie van het gebruikte Engels.

Daarnaast corrigeren de auteurs OR’s op basis van de schaal van de variabele om ze vervolgens te vergelijken. Zoals zij zelf al aangeven wordt hiermee geen rekening gehouden met de groepskenmerken van die variabelen. Een andere wijze om OR’s van variabelen te vergelijken is het bepalen wat het effect is van een vergelijkbare relatieve verandering van beide schalen, b.v. verandering ter grootte van één standaarddeviatie (SD). De SD van NDI (op Q3) is 8, van CBQ-W 1.11. De OR van NDI van 1 SD is dus 1.156^8=3.19, de OR van 1 SD van CBQ-W is 2.657^1.11=2.96. Als NDI één SD omhoog gaat, wordt de OR 3.2 keer hoger, als CBQ-W één SD omhoog gaat, wordt de OR 3,0 keer hoger. Kortom, uit deze analyse blijkt dat de bijdrage van CBQ-W weliswaar kleiner is dan die van de NDI, echter slechts zeer gering (0.7 en 0.2, na 6 respectievelijk 12 maanden). Op grond hiervan kan niet overtuigend worden betoogd dat het effect van de NDI groter is. Andere analysemethodes zijn uiteraard ook nog mogelijk, maar het blijft vergelijken van twee uitkomsten die niet goed te vergelijken zijn.

De uiteindelijke conclusies van ons artikel zijn dan ook niet gebaseerd op het interpreteren van onderlinge verschillen in OR’s. De resultaten tonen o.a. een statistisch significante relatie tussen gebruik van de term whiplash en de prognose, onafhankelijk van de ernst van de zelfgerapporteerde klachten. Het onderling vergelijken van de OR’s speelt hierin geen rol. De uiteindelijke conclusie van het artikel blijft dan ook dat de resultaten een indicatie geven dat het toeschrijven van klachten aan whiplash een belangrijke prognostische waarde heeft voor het beloop van de klachten. Tot slot: Bramsen en Roelofs merken terecht op dat op basis van correlationeel onderzoek geen finale conclusies kunnen worden getrokken rond de causale status van een samenhang. Maar dat betogen we dan ook nergens in het artikel. Wat we in het oorspronkelijke artikel wel aangeven is dat een belangrijke vervolgstap zou zijn om de veronderstelde disfunctionele causale attributies via een interventie bij te stellen. Zo’n studie zou niet alleen inzicht kunnen geven in de klinische bruikbaarheid van zo’n interventie, maar vanwege de experimentele manipulatie van de causale attributies tevens een meer definitief antwoord kunnen geven op de rol van dergelijke attributies bij het voortduren van de klachten.

Referentie

1. Buitenhuis J, Jong PJ de, Jaspers JPC , Groothoff JW, Catastrophizing and causal beliefs in whiplash SPINE 2008;33:2427-33
 

Jan Buitenhuis, Peter de Jong, Jan Jaspers, Johan Groothoff

Buitenhuis c.s. schrijven in reactie op onze kritiek dat zij geen onderlinge vergelijking van odds ratios hebben gemaakt en dat wij ons mogelijk hebben laten leiden door een verkeerde interpretatie van de uitdrukking "over and above" in het proefschrift. Zij stellen dat de conclusie gehandhaafd kan worden.

Echter, de conclusie die zij "handhaven" is een andere, meer gematigde, conclusie dan degene die wij aanvochten.

Overigens richtte onze kritiek zich niet op de Engelse uitdrukking "over and above". Mogelijk hebben de auteurs eerder zelf hiermee een vergissing gemaakt. Dat zou een verklaring kunnen zijn voor de diverse interviews waarin de odds ratio’s geïnterpreteerd werden zonder, zoals wij opmerkten, rekening te houden met de schaal van de gemeten onafhankelijke variabelen.1,2

Onze kritiek richt zich op de conclusie die de onderzoekers formuleren in het NTvG en in het persbericht d.d. 26 mei jl.3,4 Het persbericht heeft als titel "Gebruik van het begrip ‘whiplash’ leidt tot meer gezondheidsklachten". Volgens de onderzoekers toont hun onderzoek aan dat de term whiplash ‘doorslaggevend’ is voor de prognose en zij pleiten ervoor de multidisciplinaire richtlijn aan te passen, zodat de aandoening voortaan geen whiplash meer heet, en dus een aandoening ‘zonder naam’ wordt.3

Dit is een te vergaande causale conclusie, waarop zij in hun reactie nu niet meer terugkomen, en die zij blijkbaar niet meer willen handhaven. En terecht.

Want, de volgende drie punten uit ons artikel hebben zij niet weerlegd:
1. Indien niet de ‘whiplashattributie’ de belangrijkste variabele in de analyse is, en de fysieke klachten minstens even belangrijk zijn, dan ligt het niet meer voor de hand de ‘attributie’ als ‘doorslaggevend’ aan te wijzen. Men zou immers met even veel stelligheid kunnen verkondigen dat de fysieke klachten doorslaggevend zijn.
2. Indien sprake is van een statistisch significant verband, wil dit nog niet zeggen dat er ook sprake is van een causaal verband tussen de achterliggende concepten. Hiervoor zijn in de regel aanvullende aannamen nodig. Bijvoorbeeld is de ‘variabele whiplash’ wel een disfunctionele causale attributie? En zegt de meting van deze variabele daadwerkelijk iets over het gebruik van de term whiplash in de dagelijkse praktijk? Ook moeten de onderzoekers alternatieve verklaringen voor een gevonden statistisch verband kunnen uitsluiten.
3. Indien een causaal verband wel aannemelijk is, moet het gevonden verband veel sterker zijn om een dergelijke vergaande aanbeveling (term whiplash niet meer gebruiken) te rechtvaardigen.

Kortom: de aanbeveling om de term whiplash niet meer te gebruiken kan niet volgen uit de onderzoeksresultaten.

Referenties
1. Nienke Beintema. Zeg niet ‘whiplash’, zeg: ‘spierpijn’. Alleen al diagnose ‘whiplash’ leidt tot veel groter risico op langdurige klachten. Interview. NRC Handelsblad, juni 4 2009.
2. Verzekerd! Nieuwsuitgave van het verbond van verzekeraars. Term ‘whiplash’ leidt tot langer herstel. Interview, p. 8, jaargang 7, 11 juni 2009.
3. Buitenhuis J, de Jong PJ. De term ‘whiplash’ liever vermijden. Commentaar op de multidisciplinaire richtlijn voor ongecompliceerde whiplash. Ned Tijdschr Geneeskd. 2009;153:B2.
4. Rijksuniversiteit Groningen. Persbericht. Gebruik van begrip “whiplash” leidt tot meer gezondheidsklachten. Datum: 26 mei 2009.

Inge Bramsen & Pepijn Roelofs

 

In het genoemde onderzoek in Spine hebben wij onderzocht of er een relatie bestaat tussen de ideeën die mensen met nekpijn na een auto-ongeluk hebben over de oorzaak van hun klachten en de persistentie van die nekpijnklachten.1 Er bleek een betekenisvolle samenhang te bestaan tussen het toeschrijven van de klachten aan whiplash tijdens de initiële meting en de blijvende aanwezigheid van klachten 6 en 12 maanden later. Regressieanalyse liet zien dat deze relatie bleef bestaan ook wanneer werd gecontroleerd voor de initiële ernst van de klachten. Deze uitkomst van de regressieanalyse is cruciaal voor de theoretische en klinische implicatie van deze bevinding omdat het indiceert dat de prognostische waarde van de whiplashattributie niet geheel kan worden toegeschreven aan de initiële ernst van de klachten. Aan de ervaren ernst van de initiële klachten valt niet veel te doen als behandelaar, aan de causale attributie mogelijk wel. Of de predictieve waarde van de whiplashattributie ook klinisch betekenisvol is hangt dan ook af van de absolute grootte van de onafhankelijke predictieve waarde van de whiplashattributie en niet van de relatieve predictieve waarde (i.e. of die groter is dan die van de initiële nekpijnklachten). Bramsen en Roelofs geven in hun oorspronkelijk opinieartikel terecht aan dat in onze studie de verschillen tussen de oddsratio van initiële pijn en die van de whiplashattributie niet zonder meer verschil in predictieve waarde impliceren omdat de schalen van beide variabelen verschillen. Dat hebben we dan ook nergens in het artikel gedaan (en evenmin gesuggereerd in de persberichten), bovenal omdat het voor de betekenis van de bevinding niet cruciaal is.3,4 Kortom, de weergave van Bramsen en Roelofs dat we in ons artikel schijven, ”dat de causale attributie ‘CBQ-W-whiplash’ een onafhankelijke voorspellende waarde heeft die groter is dan die van de ‘Neck disability index’ (NDI)” is apert onjuist en de hieraan gepaarde vaststelling dat onze studie zich kenmerkt door een statistische dwaling mist dan ook elke grond. We delen de zorg van Bramsen en Roelofs dat het gevaar op de loer ligt dat voorspellende variabelen ten onrechte bij implicatie ook een causale status wordt toegedicht. Een dergelijke overinterpretatie is ook kenmerkend voor nogal wat van de persuitlatingen (zeker ook de koppen) over dit onderzoek. In ons eigen artikel in Spine maar ook in de reactie op de voorgestelde multidisciplinaire richtlijn in het NTvG waar Bramsen en Roelofs naar verwijzen, hebben we er echter voor gewaakt te suggereren dat onze bevinding noodzakelijkerwijs ook een causale relatie impliceert.2 We hebben in het betreffende commentaar op de richtlijn dan ook niet beweerd dat de term whiplash doorslaggevend is voor de prognose. Wij schreven dat het doorslaggevend kan zijn. Het is ook niet zo dat we in dat commentaar voorstelden de multidisciplinaire richtlijn aan te passen, maar louter om het gebruik van de term whiplash liever te vermijden om zo te voorkomen dat mensen hun klachten daardoor aan whiplash zouden gaan toeschrijven en aldus wellicht ook onnodig lang en intens last zouden houden van de nekpijnklachten. Vraag blijft natuurlijk wanneer er nu wel of nog niet voldoende aanleiding (empirische ondersteuning) is voor zo’n soort advies. Idealiter zou je overtuigende evidentie willen hebben voor een causale samenhang. Bij het blootleggen van een causaal mechanisme is de eerste stap om vast te stellen of er een samenhang is tussen de vermeende oorzaak en het gevolg. Omdat oorzaken aan gevolgen vooraf plegen te gaan, is de volgende stap prospectief onderzoek om te zien of de veronderstelde oorzaak (whiplashattributie) inderdaad in de tijd voorafgaat aan het gevolg (bijv. nekpijnklachten na 12 maanden). Om er vervolgens geheel zeker van te zijn dat A niet alleen voorafgaat aan B, maar B ook daadwerkelijk veroorzaakt, is het nodig de verondersteld oorzakelijke factor A te induceren of juist weg te nemen en vast te stellen of factor B (bijv. nekpijnklachten) mee verandert. Hoe belangrijk ook, in de realiteit is het vaak goeddeels onmogelijk om dergelijke finale evidentie te verkrijgen. In onderhavig geval zou je daartoe random bij mensen met nekklachten na een ongeluk juist wel of juist niet een whiplashattributie moeten zien te induceren. Los van de ethische problemen die zo’n aanpak met zich mee zou brengen, zijn er ook tal van praktische obstakels die een dergelijke aanpak in de weg staan. Als regel wordt met adviezen of ingrepen dan ook niet gewacht tot het laatste stukje twijfel is weggenomen; en dat geldt zeker wanneer er mogelijk wel positieve effecten zijn te verwachten van zo’n ingreep en geen negatieve. Daarbij maakt het voor de overtuigingskracht van een bevinding nogal wat uit of het een toevalsbevinding betreft of dat het gaat om een theoriegestuurde voorspelling, zoals in onderhavig geval. Kortom we delen de zorg dat er moet worden gewaakt voor de neiging om predictieve relaties als causale relaties te interpreteren. Het lijkt ons echter niet nodig noch gewenst om in alle gevallen te wachten met adviezen en/of ingrepen totdat er finale evidentie is voor de werkzaamheid van de veronderstelde mechanismen. Zeker ook in onderhavig geval waar de prognostische relatie is ingebed in hedendaagse theorieën, er convergerende evidentie is binnen andere klachtgebieden zoals paniekstoornis en sociale fobie voor de causale invloed van disfunctionele interpretaties van ambigue informatie op ervaren klachten en er geen aanleiding is om een negatieve invloed te verwachten van het inruilen van de term whiplash voor de concrete klachten van de patiënt, lijkt het ons alleszins aanvaardbaar om op basis van onze bevindingen te adviseren de term whiplash maar liever te vermijden.5-7

Referenties

1. Buitenhuis J, Jong PJ de, Jaspers JPC , Groothoff JW, Catastrophizing and causal beliefs in whiplash Spine 2008;33:2427-33
2. Buitenhuis J, de Jong PJ. De term ‘whiplash’ liever vermijden. Commentaar op de multidisciplinaire richtlijn voor ongecompliceerde whiplash. Ned Tijdschr Geneeskd. 2009;153:B2.
3. Nienke Beintema. Zeg niet ‘whiplash’, zeg: ‘spierpijn’. Alleen al diagnose ‘whiplash’ leidt tot veel groter risico op langdurige klachten. Interview. NRC Handelsblad, juni 4 2009.
4. Verzekerd! Nieuwsuitgave van het verbond van verzekeraars. Term ‘whiplash’ leidt tot langer herstel. Interview, p. 8, jaargang 7, 11 juni 2009.
5. Oliver Kwan, Robert Ferrari, Jon Friel, Point of view. Spine 2008; 33:2434
6. Van der Molen, van den Hout & Eric Griez (1986). Cognitive determinants of lactate-induced anxiety. Behaviour Research and Therapy/, 24 (6), pp 677-680
7. Mackintosh B, Mathews A, Yiend J, Ridgeway V, Cook E, Induced Biases in Emotional Interpretation Influence StressVulnerability and Endure Despite Changes in Context Behavior Therapy, Vol 37(3), Sep, 2006. Special issue: Interpretive Biases and Ruminative Thought: Experimental Evidence and Clinical Implications. pp. 209-222.

Jan Buitenhuis, Peter de Jong, Jan Jaspers en Johan Groothoff

Een aanbeveling voor de praktijk kan niet gedaan worden op basis van hypotheses. De onderzoekers menen dat het niet nodig is te wachten op ‘finale’ evidentie. Er zou al veel bewijs zijn, maar zij constateerden eerder: ‘this study is the first to actually show a negative prognostic effect of attributing complaints to whiplash’.1 Wat ons betreft zijn de evidenties nog te pril.

De logistische regressieanalyses tonen voor vijf variabelen een statistisch significant verband met het voortbestaan van de whiplash na 6 en 12 maanden.1 Zoals wij constateerden, kunnen de gerapporteerde odds ratios niet onderling vergeleken worden. Zij zijn immers niet gecorrigeerd voor het bereik. De Wald Statistiek toont dat fysiek functioneren (Neck Disability Index) op beide tijdstippen de grootste bijdrage heeft. De prognose is slechter bij hogere scores op het item ‘whiplash’, Psychologische Beliefs (klachten toeschrijven aan van streek zijn, bang, geschokt of gespannen zijn), en Wervelschade Beliefs. De subschalen Ernstige Verwonding en Spieren leveren geen statistisch significante bijdrage. De vijfde variabele, Pain Catastrophising Scale (PCS) is, in tegenstelling tot de verwachtingen, geassocieerd met een betere prognose.

Meerdere factoren hangen samen met de prognose. Het item ‘whiplash’ is in ieder geval niet doorslaggevend. De samenhang tussen het item ‘whiplash’ en de prognose wordt bovendien niet verklaard door catastroferende gedachten (PCS), waarvoor gecontroleerd is. Toeschrijven van klachten aan spierproblemen (subschaal Spieren), levert, in tegenstelling tot de geponeerde theorie, geen betere prognose.2

Wij herhalen: een statistisch verband impliceert geen causaal verband tussen achterliggende concepten.

Daarbij ontbreekt naar onze mening aanvullend inzicht onder meer in:
1. Welke causale attributies zijn juist, welke onjuist?
2. Heeft het whiplash-item daadwerkelijk de betekenis van ‘denken dat het ernstig is’? De uitkomst van de factoranalyse week af van de onderzoekshypothese. Daarom is het whiplash-item als losstaand item gebruikt.1
3. Leidt de overlap tussen het item whiplash (Zijn klachten veroorzaakt door whiplash?) en de uitkomstmaat (Is postwhiplashsyndroom aanwezig?) tot een cirkelredenering?

Het is nodig dat hierover vanuit verschillende standpunten wetenschappelijk gediscussieerd wordt. Op basis van de huidige evidenties over het gebruik van de term ‘whiplash’ lijkt het bereiken van consensus ons onwaarschijnlijk.

Referenties
1. Buitenhuis J, de Jong PJ, Jaspers JP, Groothoff JW. Catastrophising and causal beliefs in whiplash. Spine. 2008;33:2427-33.
2. Buitenhuis J, de Jong PJ. De term ‘whiplash’ liever vermijden. Commentaar op de multidisciplinaire richtlijn voor ongecompliceerde whiplash. Ned Tijdschr Geneeskd. 2009;153:B2.

Inge Bramsen en Pepijn Roelofs