Richtlijnen worden transparanter met de GRADE-methode

Nieuwe methode maakt overwegingen bij aanbevelingen expliciet
Perspectief
Nicole Boluyt
Bart L. Rottier
Miranda W. Langendam
Citeer dit artikel als: Ned Tijdschr Geneeskd. 2012;156:A4379
Abstract
Download PDF

Samenvatting

GRADE (‘Grading of Recommendations Assessment, Development and Evaluation’) is een nieuwe methode om de kwaliteit van het bewijs en de sterkte van de aanbevelingen in richtlijnen transparanter weer te geven. In dit artikel beschrijven we de voordelen van de GRADE-methode aan de hand van een aanbeveling uit de richtlijn ‘Behandeling van astma bij kinderen’. Nieuw bij GRADE is dat relevante uitkomstmaten vooraf worden vastgesteld en de kwaliteit van bewijs per uitkomstmaat wordt beoordeeld. Die kwaliteit wordt naar beneden bijgesteld bij beperkingen in de onderzoeksopzet en bij 4 aanvullende factoren: inconsistentie, indirectheid van bewijs, imprecisie en publicatiebias. De sterkte van de aanbeveling hangt niet alleen af van de kwaliteit van bewijs, maar ook van overwegingen als de balans tussen gunstige en nadelige effecten, voorkeuren van patiënten en kosten. Bij het formuleren van de aanbevelingen volgens GRADE worden deze overwegingen expliciet gemaakt. Het toepassen van GRADE kan tot andere aanbevelingen leiden dan oudere methoden en tot betere acceptatie en implementatie in de klinische praktijk.

Aanbevelingen in richtlijnen dienen ter ondersteuning van de besluitvorming door professionals in de zorg en door patiënten. De aanbevelingen zijn evidencebased: er is op een systematische manier gezocht naar bewijs uit de literatuur en er heeft een methodologische beoordeling van de literatuur plaatsgevonden. Bij elke aanbeveling moet de hardheid en de kracht van het wetenschappelijk bewijs zichtbaar worden gemaakt. Hiervoor zijn verschillende graderingsystemen beschikbaar, echter alle met hun tekortkomingen.1,2 Zo wordt in geen van de tot voor kort gebruikte systemen expliciet omschreven welke overwegingen, anders dan de kwaliteit van het bewijs, de basis vormen voor de aanbevelingen.

In 2000 is de GRADE Working Group, een internationale groep experts, gestart met het ontwikkelen van een transparanter systeem om de kwaliteit van bewijs en de sterkte van de aanbevelingen weer te geven: de GRADE(‘Grading of Recommendations Assessment, Development and Evaluation’)-methode (www.gradeworkinggroup.org).3-7 Inmiddels hebben meer dan 50 nationale en internationale organisaties, waaronder de kwaliteitsafdeling van de Orde van Medisch Specialisten, het Nederlands Huisartsen Genootschap en het CBO, deze methode geaccepteerd. Omdat professionals in de gezondheidszorg deze methode steeds vaker in de literatuur zullen tegenkomen, bespreken we in dit artikel de meerwaarde van de GRADE-methode aan de hand van een voorbeeld uit de richtlijn ‘Behandeling van astma bij kinderen’,8 waarbij we kort ingaan op de verschillen met het eerder gebruikte graderingsysteem van het CBO. Dit voorbeeld staat uitgewerkt in tabel 1, waarnaar in de loop van dit artikel regelmatig wordt verwezen. Hieruit blijkt dat het gebruik van verschillende graderingsystemen kan leiden tot verschillende aanbevelingen.

Figuur 1

Gradering volgens ‘oude’ methode

In het voorheen gebruikelijke graderingsysteem worden vragen die in een richtlijn beantwoord moeten worden geformuleerd volgens het ‘Patient, intervention, comparison, outcome’(PICO)-model.9 Per vraag wordt vervolgens op systematische wijze naar literatuur gezocht. Voor therapeutische vragen is het gerandomiseerde, gecontroleerde onderzoek (RCT) het optimale onderzoeksdesign. Elke trial wordt met standaardbeoordelingslijsten beoordeeld op methodologische kwaliteit. De lijsten zijn te vinden op de website van het Dutch Cochrane Center (http://dcc.cochrane.org; klikken op ‘downloads’). Relevante kwaliteitscriteria voor RCT’s zijn blindering van de toewijzing (‘concealment of allocation’), blindering van diegenen die de uitkomstmetingen verrichtten (voor subjectieve uitkomstmaten) en volledige follow-up. Aan de hand van de resultaten wordt een niveau van bewijs aangegeven en daaruit volgend het niveau van de aanbeveling (tabel 2).

Figuur 2

Er zijn geen vastomlijnde criteria wanneer gesproken wordt van een studie van ‘goede kwaliteit’. De kwaliteit van de studies in ons voorbeeld is als voldoende beoordeeld (zie tabel 1). Naast de kwaliteit is de omvang van de studies ook van belang om het niveau van bewijs te bepalen. Er wordt in het oude graderingsysteem niet omschreven wanneer een studie van voldoende omvang is. Voor zogenoemde surrogaatuitkomsten, zoals longfunctie, zijn kleinere patiëntenaantallen nodig dan voor klinisch relevante uitkomsten, zoals astma-exacerbaties. Per studie wordt vaak naar een combinatie van surrogaatuitkomsten en klinisch relevante uitkomsten gekeken zonder dat van tevoren een uitspraak is gedaan over een rangorde van belangrijkheid van deze uitkomstmaten.

De praktijk en het voorbeeld in tabel 1 laten zien dat de kwaliteit van bewijs moeilijk te categoriseren is, maar dat er veel meer sprake van een continuüm is. De aanduiding ‘goede kwaliteit’ is subjectief en bovendien spelen een aantal andere relevante factoren een rol die in het oude graderingsysteem niet expliciet meegewogen worden. Hoewel naast bewijs ook andere overwegingen in de oude methode worden meegenomen, worden ze minder expliciet beschreven en spelen ze geen rol in de kracht van de aanbeveling.

De GRADE-methode

In de figuur staat schematisch weergegeven welke stappen er worden doorlopen in de GRADE-methode. Hieronder worden ze nader toegelicht.

Figuur 3

Uitkomstmaten Het voorbeeld laat zien dat de kwaliteit van het bewijs, maar ook de vraag of de studie groot genoeg was, afhangt van de gebruikte uitkomsten. Bij de GRADE-methode worden daarom eerst de meest relevante uitkomstmaten (maximaal 9) in afnemende mate van belangrijkheid geformuleerd. Uitkomstmaten 1-3 zijn essentieel voor het nemen van een beslissing; 4-6 zijn belangrijk maar niet essentieel, en 7-9 zijn niet belangrijk voor het nemen van een beslissing en minder relevant voor patiënten.

Kwaliteit van bewijs De kwaliteit van bewijs wordt per uitkomst beoordeeld en krijgt een niveau toegekend: ‘hoog’, ‘matig’, ‘laag’ of ‘zeer laag’. Hoge kwaliteit wil zeggen dat het geschatte effect (waarbij het gemeten effect uit de verschillende studies wordt gepoold) zeer waarschijnlijk dicht bij het werkelijke effect ligt. Naarmate de kwaliteit van bewijs lager is, is daar toenemende onzekerheid over. Alle uitkomsten samen worden ook op kwaliteit beoordeeld: als eindoordeel geldt dan het laagste niveau van de belangrijkste uitkomstmaat.

Net als met de oude niveaus van bewijsvoering, is bij GRADE de RCT het meest valide onderzoeksdesign voor therapievragen en krijgt bewijs uit een RCT dus het stempel ‘hoge kwaliteit’. Hierna volgen de observationele studie (lage kwaliteit) en andere onderzoeksdesigns (zeer lage kwaliteit).

Er zijn 5 factoren die de kwaliteit van het bewijs kunnen verlagen:

Hierbij wordt de methodologische kwaliteit van de individuele studies beoordeeld net als voor de ‘niveaus van bewijs’ uit de ‘oude’ graderingmethode. Naast de 3 eerder genoemde kwaliteitsitems (blindering van de toewijzing, blindering van degene die de uitkomst meet en volledigheid van de follow-up) kunnen het ontbreken van een ‘intention-to-treat’-analyse, selectieve rapportage van uitkomsten (‘reporting bias’), sponsoring door een belanghebbende partij en belangenverstrengeling van onderzoekers in de beoordeling meegenomen worden.

Er is sprake van inconsistentie wanneer er tussen de verschillende studies grote verschillen zijn in behandeleffecten, die niet verklaard kunnen worden door bijvoorbeeld verschillen in populatie, interventies, uitkomstmaten en studiekwaliteit.

Als de PICO-vraag waarop het bewijs gebaseerd is op een of meer punten afwijkt van de PICO-vraag die men wil onderzoeken, is het bewijs indirect. Ook het gebruik van surrogaatmarkers valt onder indirectheid.

Brede betrouwbaarheidsintervallen rond een geschat effect duiden op onzekerheid in de grootte van het effect. Er is sprake van imprecisie bij een te kleine steekproef (lage statistische power), weinig ‘events’ en een betrouwbaarheidsinterval dat wel statistisch significant is, maar zowel in het gebied van klinische relevantie als van een verwaarloosbaar effect ligt. Een precies gemeten effect kan dus zowel ‘geen effect’ zijn (smal betrouwbaarheidsinterval rond de neutrale waarde van de effectmaat), als een significant verwaarloosbaar klein effect of een significant klinisch relevant effect zijn.

Het is een bekend fenomeen dat studies met negatieve resultaten vaak niet gepubliceerd worden; dit heet publicatiebias.10 Men moet bijvoorbeeld bedacht zijn op publicatiebias wanneer er slechts enkele kleine trials met positieve resultaten gepubliceerd zijn die alle door de industrie gesponsord zijn.

  • Beperkingen in onderzoeksopzet (‘risk of bias’)

    • Inconsistentie

      • Indirectheid van bewijs

        • Imprecisie

          • Publicatiebias

In tabel 3 staat een voorbeeld uit de richtlijn ‘Behandeling van astma bij kinderen’ waarbij deze wijze van het beoordelen van de kwaliteit is uitgewerkt voor het percentage symptoomvrije dagen (uitkomstmaat 1).

Figuur 4

Wanneer 1 of meer van deze 5 factoren aanwezig zijn, kan de kwaliteit van het bewijs met 1 of 2 niveaus per factor worden verlaagd. Wanneer het bewijs uit observationeel onderzoek bestaat (lage kwaliteit), is er een aantal factoren die de kwaliteit van bewijs juist kunnen verhogen (zie figuur).

De laagste kwaliteit van het bewijs van de klinisch meest relevante uitkomstmaten bepaalt het niveau van de totale kwaliteit van het bewijs.

Overige overwegingen Om te komen van bewijs naar aanbevelingen spelen ook andere overwegingen een rol.

Binnen GRADE zijn dit de balans tussen gunstige en nadelige effecten, de waarden en voorkeuren van de patiënt en de kosten. Deze worden expliciet weergegeven en zijn van invloed op de sterkte van de aanbeveling. Daarom kan het zijn dat een bewijs van lage kwaliteit, toch kan leiden tot een sterke aanbeveling en andersom.

Niveau of sterkte van de aanbeveling Dit geeft aan hoe zeker we kunnen zijn dat de gewenste effecten groter zijn dan eventuele ongewenste effecten (bijwerkingen). GRADE kent slechts 2 niveaus: sterk en zwak.

Beschouwing

De GRADE-methode is vollediger, transparanter en strenger in het beoordelen van de kwaliteit van studies dan oude graderingmethoden. In ons voorbeeld waarbij we de GRADE- en voormalige CBO-methode hebben toegepast op de vraag ‘wat is bij kinderen met astma die ondanks het gebruik van inhalatiecorticosteroïden nog klachten hebben de meest effectieve en veilige behandeling’ komen we door het toepassen van de GRADE-methode tot andere aanbevelingen dan vermeld in internationale richtlijnen, waar het eerste keus is om een langwerkende luchtwegverwijder toe te voegen (zie tabel 1).

Een van de doelen van GRADE is om de implementatie van richtlijnen te vergroten. Een recente gerandomiseerde studie waarbij 4 verschillende graderingsystemen werden toegepast om tot aanbevelingen te komen, laat zien dat wanneer de GRADE-methode wordt gebruikt dokters eerder geneigd zijn hun handelen in de praktijk te veranderen.11

Het toepassen van de GRADE-methode is arbeidsintensief en vereist methodologische expertise. De meeste winst is waarschijnlijk te behalen voor vragen waar controverse over is en waarbij dus praktijkvariatie bestaat. Transparantie in het tot stand komen van de aanbevelingen en met name de overige overwegingen die meespelen zijn dan van cruciaal belang. Als basis voor richtlijnontwikkeling zou meer gebruik gemaakt moeten worden van bestaande internationale evidencebased richtlijnen. Vaak blijven er dan nog maar een beperkt aantal vragen over waarvoor bewijs gezocht moet worden.

Op dit moment is de GRADE-methode goed ontwikkeld voor toepassing op interventievragen. Het gebruik van GRADE voor de evaluatie van diagnostische tests is nog volop in ontwikkeling, maar hiervoor zal dit jaar een nieuwe leidraad worden gepubliceerd door de GRADE Working Group.

De ontwikkeling en toepassing van GRADE wordt in Nederland gevolgd en uitgedragen door GRADE NL, een werkgroep van nationale richtlijnontwikkelaars onder voorzitterschap van het CBO. Toonaangevende internationale organisaties, zoals het National Institute for Health and Clinical Excellence (NICE), WHO en de Cochrane Collaboration, hebben de afgelopen jaren de overstap gemaakt naar het beoordelen van bewijs met GRADE. Om in Nederland niet achterop te raken bij deze ontwikkeling zou het in oprichting zijnde kwaliteitsinstituut voor de zorg, het Nederlands Instituut voor de Zorg, een centrale rol kunnen spelen in het verzorgen van scholing en het bundelen van expertise met de GRADE-methode.

Tot slot geeft het toepassen van GRADE uitstekend inzicht in de kennislacunes die weer de basis voor nieuw onderzoek kunnen vormen.

Conclusie

GRADE is een evidencebased graderingsysteem waarbij de sterkte van het bewijs voor vooraf gekozen, relevante uitkomstmaten wordt weergegeven. Naast kwaliteit van bewijs spelen de balans tussen gewenste en ongewenste uitkomsten, voorkeuren van de patiënt en de kosten een belangrijke rol bij het tot stand komen van de aanbevelingen.

Literatuur

  1. Atkins D, et al. Grading quality of evidence and strength of recommendations. BMJ. 2004;328:1490 Medline. doi:10.1136/bmj.328.7454.1490

  2. Atkins D, Eccles M, Flottorp S, et al. Systems for grading the quality of evidence and the strength of recommendations I: critical appraisal of existing approaches The GRADE Working Group. BMC Health Serv Res. 2004;4:38 Medline. doi:10.1186/1472-6963-4-38

  3. Guyatt G, Oxman AD, Akl EA, et al. GRADE guidelines: 1. Introduction-GRADE evidence profiles and summary of findings tables. J Clin Epidemiol. 2011;64:383-94 Medline. doi:10.1016/j.jclinepi.2010.04.026

  4. Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ. 2008;336:924-6 Medline. doi:10.1136/bmj.39489.470347.AD

  5. Guyatt GH, Oxman AD, Vist G, et al. GRADE guidelines: 4. Rating the quality of evidence--study limitations (risk of bias). J Clin Epidemiol. 2011;64:407-15 Medline. doi:10.1016/j.jclinepi.2010.07.017

  6. Guyatt GH, Oxman AD, Kunz R, et al. GRADE guidelines: 2. Framing the question and deciding on important outcomes. J Clin Epidemiol. 2011;64:395-400 Medline. doi:10.1016/j.jclinepi.2010.09.012

  7. Guyatt GH, Oxman AD, Schunemann HJ, Tugwell P, Knottnerus A. GRADE guidelines: a new series of articles in the Journal of Clinical Epidemiology. J Clin Epidemiol. 2011;64:380-2 Medline. doi:10.1016/j.jclinepi.2010.09.011

  8. Richtlijn behandeling van astma bij kinderen. Vier controversiële vragen. Utrecht: Nederlandse Vereniging voor Kindergeneeskunde. Sectie kinderlongziekten; 2011. http://www.nvk.nl/Kwaliteit/Richtlijnenenindicatoren/Richtlijnen/BehandelingvanAstma.aspx

  9. Evidence-based Richtlijnontwikkeling. Handleiding voor werkgroepleden. Utrecht: Kwaliteitsinstituut voor de Gezondheidszorg CBO; 2007. http://www.cbo.nl/thema/Richtlijnen/EBRO-handleiding

  10. Hopewell S, Loudon K, Clarke MJ, Oxman AD, Dickersin K. Publication bias in clinical trials due to statistical significance or direction of trial results. Cochrane Database Syst Rev. 2009;(1):MR000006 Medline.

  11. Cuello Garcia CA, Alvarado KP, Gaxiola GP. Grading recommendations in clinical practice guidelines: randomised experimental evaluation of four different systems. Arch Dis Child. 2011;96:723-8 Medline. doi:10.1136/adc.2010.199307

  12. Lemanske RF Jr, Mauger DT, Sorkness CA, et al. Step-up therapy for children with uncontrolled asthma receiving inhaled corticosteroids. N Engl J Med. 2010;362:975-85 Medline. doi:10.1056/NEJMoa1001278

  13. Ni Chroinin M, Lasserson TJ, Greenstone I, Ducharme FM. Addition of long-acting beta-agonists to inhaled corticosteroids for chronic asthma in children. Cochrane Database Syst Rev. 2009;(3):CD007949 Medline.

  14. Vaessen-Verberne AA, van den Berg NJ, van Nierop JC, et al. Combination therapy salmeterol/fluticasone versus doubling dose of fluticasone in children with asthma. Am J Respir Crit Care Med. 2010;182:1221-7 Medline. doi:10.1164/rccm.201002-0193OC

  15. De Blic J, Ogorodova L, Klink R, Sidorenko I, Valiulis A, Hofman J, et al. Salmeterol/fluticasone propionate vs. double dose fluticasone propionate on lung function and asthma control in children. Pediatr Allergy Immunol. 2009;20:763-71 Medline. doi:10.1111/j.1399-3038.2009.00861.x

  16. Gappa M, Zachgo W, von Berg A, Kamin W, Stern-Sträter C, Steinkamp G. Add-on salmeterol compared to double dose fluticasone in pediatric asthma: a double-blind, randomized trial (VIAPAED). Pediatr Pulmonol. 2009;44:1132-42 Medline. doi:10.1002/ppul.21120

  17. Chowdhury BA, Seymour SM, Levenson MS. Assessing the safety of adding LABAs to inhaled corticosteroids for treating asthma. N Engl J Med. 2011;364:2473-5 Medline. doi:10.1056/NEJMp1104375

Auteursinformatie

Academisch Medisch Centrum, Amsterdam.

Emma Kinderziekenhuis: dr. N. Boluyt, kinderarts.

Dutch Cochrane Centre: dr. M.W. Langendam, epidemioloog.

Universitair Medisch Centrum Groningen, Beatrix Kinderziekenhuis, Groningen.

Drs. B.L. Rottier, kinderarts-pulmonoloog.

Contact dr. N. Boluyt

Verantwoording

Belangenconflict: drs. B.L. Rottier ontving vergoeding van Glaxo Smith Kline voor het geven van lezingen en van de European Respiratory Society voor het maken van een cursus over astmabehandeling. Financiële ondersteuning: geen gemeld.
Aanvaard op 8 februari 2012

Auteur Belangenverstrengeling
Nicole Boluyt ICMJE-formulier
Bart L. Rottier ICMJE-formulier
Miranda W. Langendam ICMJE-formulier
Richtlijn ‘Behandeling van astma bij kinderen’

Gerelateerde artikelen

Reacties