Peer review: is éénoog koning?

Klinische praktijk
B.C.H. de Jong
A.J.P.M. Overbeke
Citeer dit artikel als
Ned Tijdschr Geneeskd. 1993;137:17-4
Download PDF

artikel

Sinds de uitgave van het eerste wetenschappelijke tijdschrift in 1665 is het aantal tijdschriften gestaag gegroeid met 6-7 per jaar, tot het huidige aanbod van meer dan 20.000 tijdschriften op medisch gebied.1 Het is voor de lezer steeds moeilijker, zo niet onmogelijk, om een keuze uit dit omvangrijke aanbod te maken. Daarbij is het eigen kritische oordeel vaak niet meer toereikend om de relevante informatie uit artikelen te destilleren. Aanwijzingen voor de lezer op dit punt zijn in een reeks artikelen in dit tijdschrift uitvoerig aan de orde geweest.2-5 Vóór publikatie vindt echter ook al een sterke selectie van artikelen plaats. Om in die fase zo objectief mogelijk de wetenschappelijke kwaliteit van een artikel te beoordelen, kan de redactie van een tijdschrift de kennis en ervaring van collega's aanwenden om de goede stukken te kiezen uit alles wat haar wordt aangeboden. Dit wordt ‘peer review’ genoemd.

Subsidieverstrekkers hanteren deze methode om onderzoeksvoorstellen te beoordelen. Daarnaast maken zij gebruik van bibliometrie, een wetenschap in opkomst, waarbij wordt gekeken naar de produktiviteit en de invloed van onderzoeksgroepen, faculteiten, universiteiten en zelfs landen. Indicators zijn daarbij het aantal publikaties en het aantal citaten daaruit in een bepaalde periode in de wetenschappelijke literatuur. Zo stond de Universiteit van Amsterdam op basis van deze methode in 1991 op de 9e plaats van de wereldranglijst voor klinische geneeskunde.6 In dit artikel wordt nader ingegaan op de implicaties van peer review bij de selectie van artikelen bij tijdschriften.

Ontstaan van peer review

Een algemene definitie van het begrip ‘peer review’ ontbreekt. Het element van toetsing door collega's in hetzelfde vakgebied vormt evenwel de kern van de gebruikte omschrijvingen. Reeds in 1731 beschreef de Royal Society of Edinburgh in het voorwoord van het eerste deel van haar Medical Essays and Observations hoe aangeboden artikelen werden verdeeld over de leden die de meeste ervaring op het betreffende vakgebied hadden.7 De meeste redacties van medische tijdschriften zijn deze toetsingsmethode pas na de Tweede Wereldoorlog gaan gebruiken. De belangrijkste reden daarvoor was dat vóór die tijd te weinig artikelen aangeboden werden om de tijdschriften te vullen. De heersende fatsoenscode dat een tijdschrift alles moest publiceren wat de leden inzonden, speelde waarschijnlijk ook een rol. Bovendien was men van mening dat de pas afgestudeerde dokter niet hoefde onder te doen voor ervarener collega's en werd meer belang gehecht aan praktische beschrijvingen dan aan specialistische theorieën.

Financiers van wetenschappelijk onderzoek daarentegen gebruikten peer review al in het begin van deze eeuw voor de selectie van subsidieaanvragen.8 Peer review is ook tegenwoordig de meest gebruikte methode van toetsing van wetenschappelijk onderzoek vóór toekenning van subsidie of publikatie van de resultaten, omdat gelijkwaardige alternatieven ontbreken. De vraag of het systeem voldoet en hoe de kwaliteit ervan verbeterd kan worden, geniet de laatste jaren grote belangstelling en vormde de aanleiding voor een internationaal congres, waarvan een verslag in dit tijdschrift is verschenen.9 Het bleek dat er vele tekortkomingen waren.

Wijze van toepassing

Een aantal redacties bood op het congres een kijkje in de keuken. Peer review wordt vooral bij grote tijdschriften toegepast. Bij kleine of zeer gespecialiseerde bladen beoordeelt de redactie niet zelden uitsluitend zelf, op basis van haar eigen deskundigheid, de aangeboden stukken. Bij de tijdschriften die van peer review gebruik maakten, bleek dat ieder deze methode op zijn eigen wijze hanteert. Er zijn verschillen in het aantal referenten dat wordt gevraagd te beoordelen, in de vakgebieden waaruit referenten worden geraadpleegd en in de manier waarop wordt beoordeeld en de wijze waarop de adviezen door de redactie worden gebruikt.

Er zijn twee toepassingswijzen te onderscheiden: de hoofdredactie of hoofdredacteur roept de hulp in van externe referenten of raadpleegt leden van de redactieraad. Zo raadpleegt de redactie van British Medical Journal voor iets meer dan de helft van de artikelen haar referenten, een bestand van circa 2000. Over de rest van de aangeboden kopij komt ze zelf tot een oordeel.10 Kleine tijdschriften of periodieken met een klein taalgebied maken meestal gebruik van een redactieraad.

Het streven naar objectiviteit en kwaliteit mondt uit in vele variaties op de methode. Artikelen kunnen aan verscheidene onafhankelijke referenten worden voorgelegd om de invloed van mogelijke vooroordelen van elke referent afzonderlijk te reduceren. De hoofdredacteur van British Journal of Surgery geeft de referenten kennis van elkaars oordeel en vraagt om de kritiek zodanig te formuleren dat de beoordeling aan de auteur kan worden gezonden. Op deze wijze voelt de referent zich verantwoordelijker voor zijn beoordeling en is hij zorgvuldiger in zijn oordeel.11

De meningen verschillen over het nut van het anoniem maken van te beoordelen artikelen door het verwijderen van zowel namen van auteurs als namen van instituten (blinderen). Gebleken is dat kennis van auteurs en instituten van invloed is op het oordeel van de referent.12 Een aantal tijdschriften blindeert elk artikel alvorens het aan een referent aan te bieden. Tegenover het voordeel van een objectiever oordeel van een referent staat het praktische bezwaar van de arbeidsintensieve verwerking voor het redactiekantoor, wanneer uit elk artikel de verwijzingen naar eigen werk en instituut moeten worden verwijderd. Zelfs indien auteurs wordt verzocht hun artikelen ‘geblindeerd’ in te sturen, kost de controle veel tijd. Bij kleine vak- of onderzoeksgebieden of bij een klein taalgebied heeft blinderen minder effect, omdat de kans dat men op de hoogte is van elkaars onderzoek vrij groot is.

Kwaliteit van peer review

Ondanks het feit dat peer review nu een veel gebruikte toetsingsmethode is, kent het een aantal bezwaren, waarvan de subjectiviteit van de beoordelaars als het belangrijkste geldt. Peters en Ceci namen uit de invloedrijke psychologische tijdschriften een steekproef van 13. Van elk tijdschrift kozen zij willekeurig één artikel uit de voorgaande 18 tot 32 maanden. De auteurs waren verbonden aan gerenommeerde instituten (gezien vanuit de subsidietoekenning) en de betreffende artikelen werden veel vaker geciteerd dan gemiddeld. De onderzoekers veranderden bij elk artikel de naam van de auteur, maar niet het geslacht. Zij gaven het instituut een fictieve naam en brachten kleine ‘kosmetische’ veranderingen aan in de titel, in de samenvatting en in het begin van de inleiding. Vervolgens legden zij met toestemming van de auteurs het veranderde artikel ter beoordeling voor aan hetzelfde tijdschrift waar het eerder was gepubliceerd. Er werd 1 artikel niet beoordeeld, omdat het opnamebeleid van het tijdschrift veranderd was; 3 artikelen werden herkend als herhaald aanbod van een eerder gepubliceerd artikel en van 9 artikelen werd niet ontdekt dat ze een bewerkte kopie waren. Van deze 9 werd 1 artikel voor publikatie aanvaard; de overige werden afgewezen op grond van slechte opzet, ontoereikende statistische analyse en (of) onvoldoende kwaliteit. De onderzoekers gaven twee mogelijke verklaringen voor hun bevindingen: of de referenten van de veranderde artikelen waren minder bekwaam dan die van de originele artikelen, of er was sprake van vooroordelen ten aanzien van de instituten en (of) de auteurs.13

Andere factoren die kunnen meewegen in de beoordeling van artikelen zijn de status, sekse en nationaliteit van de betreffende auteur; soms speelt ook de verstrengeling van wetenschappelijke of commerciële belangen een rol. De invloed van de status van auteurs uit zich meestal in positieve vooroordelen ten aanzien van bekende onderzoekers. Deze voorkeur voor autoriteiten (het ‘halo-effect’ genaamd) blijkt uit het feit dat verdiensten van hen die nog niet beroemd zijn, worden onderschat, in tegenstelling tot het werk van bekende onderzoekers.14 Dat het werk van vrouwen wordt onderschat, bleek toen de Modern Language Association of America overging tot het blinderen van artikelen voordat ze aan de referenten werden aangeboden. Het percentage aanvaarde stukken van vrouwelijke auteurs steeg aanzienlijk. Ook bleek het tot voor kort niet ongebruikelijk dat artikelen van landgenoten positiever werden beoordeeld.14 Het effect van belangenverstrengeling bleek uit een onderzoek van Mahoney:15 artikelen met identieke inleiding, methoden en literatuurlijst werden ter beoordeling gegeven aan 75 referenten. De artikelen varieerden in resultaten en beschouwing. Sommige waren conform de ideeën van de onderzoeksschool van de betreffende referent, andere waren daarmee in strijd. Ook werden enkele artikelen aangeboden zonder resultaten en beschouwing, onder het voorwendsel dat het onderzoek nog niet voltooid was en dat deze onderdelen later zouden volgen. Van de 75 referenten reageerden 67. Artikelen met resultaten die met de opvattingen van de referent overeenkwamen, werden methodologisch hoger gewaardeerd dan die met afwijkende resultaten. Ook de presentatie van de gegevens en het wetenschappelijk belang dat het onderzoek zou hebben, werden bij corresponderende visies hoger gewaardeerd. Bevestiging van eigen ideeën leverde dus een hogere waardering van de onderzoeksopzet op. Opmerkelijk was dat van onvoltooide artikelen, dus zonder resultaten en beschouwing, de onderzoeksopzet het hoogst werd gewaardeerd.

Belangenverstrengeling kan zelfs tot wetenschappelijke fraude leiden. Een referent die met een zelfde onderzoek bezig is, kan bijvoorbeeld het te beoordelen artikel achterhouden en (of) de nog niet gepubliceerde gegevens zelf gebruiken. Ook commerciële belangen spelen soms een rol. Veel referenten krijgen subsidies van producenten die baat hebben bij een positieve beoordeling van genees- of hulpmiddelen. Bij een onderzoek naar de kwaliteit van geneesmiddelenadvertenties in medische tijdschriften werd gebruik gemaakt van een panel van 113 referenten. Het bleek niet mogelijk te zijn om voldoende referenten te vinden indien hun financiële belangen als uitsluitingscriterium werden gehanteerd.16

Beperkingen van peer review

Beoordelingen door referenten zeggen uitsluitend iets over de aangeboden gegevens als zodanig. Zaken zoals plagiaat, dubbelpublikatie en frauduleuze onderzoeksresultaten kunnen niet worden uitgesloten op basis van peer review alleen. Waarschijnlijk is kans op ontdekking ervan groter naarmate meer referenten worden geraadpleegd. Ook de rol van redacties in de preventie en de ontdekking van deze zaken is beperkt. Na publikatie van artikelen waarin de wetenschappelijke ethiek wordt geschonden, rust op hen wel de verantwoordelijkheid voor het plaatsen van een correctie (het melden door auteurs van andere gegevens dan die eerder waren gepubliceerd zonder dat het om fraude gaat) of een retractie (het door de auteurs terugtrekken van het artikel waarna het als niet gepubliceerd wordt beschouwd). Deze kunnen in databanken aan het betreffende artikel worden gekoppeld, zodat bij het opvragen van het artikel ook wordt aangegeven dat er een correctie of een retractie is gepubliceerd.17 Ook in dit tijdschrift is inmiddels een correctie verschenen (1991; 135: 2292).

Een nadelig effect van subjectiviteit van peer reviewers kan een ‘fout-negatieve reactie’ zijn. Dit houdt in dat goed wetenschappelijk werk niet als zodanig wordt herkend en (bij herhaling) wordt afgewezen. Een voorbeeld is het werk van Watson en Crick over de chemische structuur van DNA, dat in eerste instantie door een aantal gerenommeerde (biochemische) tijdschriften werd afgewezen en in een vrij onbekend vaktijdschrift werd gepubliceerd. Daardoor heeft erkenning, door de publikatie in 1953 in Nature, langer op zich laten wachten dan nodig was geweest.

De werkwijze bij het nederlands tijdschrift voor geneeskunde

De redactie van dit tijdschrift bestaat uit een hoofdredactie van 4 leden en een redactieraad van circa 15 deskundigen uit verschillende vakgebieden. Elk jaar wordt een derde van de redactieraad gewisseld, zodat iedere redacteur voor een periode van 3 jaar als referent fungeert. Na deze periode blijft een aantal van hen, merendeels uit kleinere vakgebieden, nog enige tijd adviseur. Daarnaast raadpleegt de hoofdredactie ook een groep van externe adviseurs, deskundigen op zeer specifieke vakgebieden of mensen die zich bezighouden met raakvlakken van de geneeskunde. In het laatste nummer van een jaargang worden zij in een dankbetuiging vermeld.

Elk aangeboden artikel wordt door alle leden van de hoofdredactie gelezen en vervolgens in vergadering besproken. Slechts een klein percentage van de artikelen zal a prima vista worden aanvaard dan wel afgewezen. De meeste artikelen worden ter beoordeling aan 2 of meer adviseurs toegezonden, afhankelijk van het aantal betrokken vakgebieden. Ook artikelen die op verzoek van de redactie zijn geschreven, worden in de regel aan een of meer referenten voorgelegd. Bij hun beoordeling maken de adviseurs gebruik van een checklist. Redenen voor afwijzing werden eerder in dit tijdschrift beschreven.18 De kritiek van de beoordelaars zal meestal aan de auteurs worden voorgelegd met het verzoek aan de hand daarvan het artikel te wijzigen. Over het algemeen zijn de adviezen van de referenten bepalend voor het uiteindelijke oordeel van de hoofdredactie.

EnquÊte onder referenten van dit tijdschrift

Om inzicht te krijgen of en in welke mate eerder genoemde elementen bij peer review voor het Tijdschrift een rol spelen, hebben wij een enquête gehouden. Aan 43 (oud-)redacteuren en 34 externe adviseurs werd gevraagd welke aspecten naar hun mening de kwaliteit van een artikel bepalen en welke waarde zij daaraan toekenden. De enquête beperkte zich tot de rubrieken Klinische lessen, Capita selecta, Oorspronkelijke stukken en Casuïstische mededelingen. Daarnaast werd in de enquête gevraagd hoeveel tijd de referenten gemiddeld besteedden aan een artikel, of zij ook artikelen beoordeelden voor andere tijdschriften en wat hun mening over blinderen was.

Alle (oud-)redacteuren reageerden, van de 34 externe adviseurs reageerden 30. Niet alle referenten beantwoordden alle vragen. Het viel op dat de antwoorden van de groep redacteuren weinig verschilden van die van de externe adviseurs. De enquête wees uit dat referenten gemiddeld 2,1 (1,1-4,2) uur aan het beoordelen van één artikel besteedden. Van de 73 referenten beoordeelden 66 tevens artikelen voor gemiddeld 4 (1-25) andere tijdschriften. In verhouding tot hun werk voor dit tijdschrift besteedden 6 referenten hier minder tijd aan, 30 referenten evenveel tijd en 28 referenten meer tijd; 2 referenten beantwoordden deze vraag niet. Uit een vergelijkbaar onderzoek door British Medical Journal bleek dat referenten gemiddeld 1,6 uur aan een artikel besteedden en dat zij voor gemiddeld 5 andere tijdschriften refereerden.19 In vergelijking met andere disciplines lijkt 2 uur per artikel weinig: bij wis- en natuurkunde besteedt men 6-8 uur aan het beoordelen van een artikel. Daarbij worden de reviewers geacht ook berekeningen te controleren.19

De vragen van de enquête die betrekking hebben op verschillende criteria waarop een artikel wordt beoordeeld, staan vermeld in de tabel. De waarde die de respondenten gemiddeld aan die aspecten hechtten, wordt uitgedrukt in een schaal van 0-10, waarbij 0 aangeeft dat een aspect van geen belang werd geacht en 10 dat een aspect van het grootste belang werd geacht. De resultaten geven een indruk van het belang dat aan verschillende aspecten wordt gehecht voor de afzonderlijke rubrieken. Zo moet een oorspronkelijk stuk logischerwijs over een origineel onderwerp gaan, methodologisch uitstekend in elkaar zitten en valide conclusies bevatten. Van een klinische les wordt verwacht dat het onderwerp van algemeen belang is en dat het op didactische wijze wordt gebracht.

De antwoorden op de vraag naar het belang van de aard van de resultaten (positief of negatief), vraag 4, geven een aanwijzing over de invloed van de onderzoeksuitkomsten op het advies van referenten. Bij deze vraag zijn de scores voor de verschillende rubrieken ongeveer gelijk. Idealiter zouden de scores bij deze vraag zo laag mogelijk moeten zijn. Dickersin en Easterbrook et al. vonden dat artikelen waarin de nulhypothese verworpen kon worden vaker voor publikatie werden geaccepteerd, terwijl de bevinding dat er geen verschil is tussen bepaalde resultaten in beginsel net zo belangrijk is.2021

Uit de antwoorden op vraag 7 blijkt dat de referenten veel belang hechtten aan het juiste gebruik van literatuurverwijzingen, terwijl de ervaring van de hoofdredactie leert dat de meeste auteurs daaraan weinig aandacht besteden.22 Aspecten waaraan weinig waarde werd toegekend, zijn: bekendheid van de referent met de auteur, de reputatie van de auteur, het onderzoeksinstituut of ziekenhuis waaruit het artikel afkomstig is, het aantal auteurs en de herkomst van subsidies of andere bijdragen. Zoals hiervoor vermeld, wees onderzoek uit dat juist deze factoren in belangrijke mate de subjectiviteit van de beoordelaars bepalen.

Van de 72 referenten die de vraag beantwoordden, dachten slechts 11 (15) dat hun oordeel kwalitatief beter zou zijn indien het artikel hun geblindeerd zou worden aangeboden. Dit resultaat correspondeert niet met de uitkomsten van de verschillende voornoemde onderzoeken. Van de 69 adviseurs die de betreffende vraag beantwoordden, achtten 16 (23) blinderen zeer wenselijk, 29 (42) eventueel wenselijk, en 24 (35) achtten het onwenselijk. Het is op zijn minst opmerkelijk te noemen dat referenten een vrij grote waardering hebben voor het blinderen van artikelen, terwijl weinig referenten menen dat hun eigen oordeel erdoor zou worden beïnvloed.

Beschouwing

Peer review wordt door vele redacties van biomedische tijdschriften gebruikt als standaard-toetsingsmethode voor de selectie van te publiceren artikelen. De kracht van de methode ligt in de gebruikte expertise, de zwakte in de subjectiviteit, die, zoals uit onderzoek is gebleken, groter is dan door de beoordelaars zelf wordt onderkend. Peer review als beoordelingsmethode van wetenschappelijk onderzoek is bij gebrek aan goede alternatieven koning éénoog in het land der blinden.

Uit de enquête die onder de referenten van het Tijdschrift is gehouden blijkt dat de meeste factoren die de subjectiviteit bevorderen van weinig invloed op het oordeel worden geacht. In deze enquête werden slechts hun meningen getoetst, niet hun werkwijze. Er mag echter een discrepantie worden verwacht tussen theorie en praktijk.13

De aan auteurs gestelde eis van kwaliteit van ter publikatie aangeboden artikelen verplicht redacties tot het leveren van kwaliteit in de beoordeling. Het zicht van koning éénoog zou verbeterd kunnen worden door middel van kwaliteitsbewaking van peer review, met voor derden inzichtelijke procedures en criteria. Internationaal overleg en goede afspraken zijn daarvoor noodzakelijk. Hopelijk zal het tweede congres over peer review in september 1993 in Chicago daaraan een bijdrage leveren.

Literatuur
 1. Solla Price D de. The development and structure of thebiomedical literature. In: Warren KS,ed.Coping with the biomedicalliterature. New York: Praeger, 1981: 3-16.

 2. Sackett DL. Hoe moeten medische tijdschriften wordengelezen? I. Waarom en in welke geest?Ned Tijdschr Geneeskd 1983; 127:2286-90.

 3. Haynes RB. Hoe moeten medische tijdschriften wordengelezen? II. Het beoordelen van een diagnostische test.Ned Tijdschr Geneeskd 1983; 127:2331-7.

 4. Tugwell PX. Hoe moeten medische tijdschriften wordengelezen? III. Het beoordelen van het klinische beloop en de prognose van eenziekte. Ned Tijdschr Geneeskd 1983;127: 2367-71.

 5. Trout KS. Hoe moeten medische tijdschriften wordengelezen? IV. Het bepalen van oorzakelijke verbanden.Ned Tijdschr Geneeskd 1983; 127:2414-9.

 6. Anonymus. Clinical Medicine: the top 50 U.S. universitiesranked by citation impact, 1986-1990. Science Watch 1991; 2: 7.

 7. Kronick DA. Peer review in 18th-century scientificjournalism. JAMA 1990; 263: 1321-2.

 8. Burnham JC. The evolution of editorial peer review. JAMA1990; 263: 1323-9.

 9. Boer EJ. Peer review.Ned Tijdschr Geneeskd 1989; 133:2455-9.

 10. Smith J. Journalology – or what editors do. Br MedJ 1990; 301: 756-9.

 11. Dudley HAF. Editorial process at The British Journal ofSurgery. Br J Surg 1989; 76: 211-2.

 12. McNutt RA, Evans AT, Fletcher RH, Fletcher SW. Theeffects of blinding on the quality of peer review. JAMA 1990; 263:1371-6.

 13. Peters DP, Ceci SJ. Peer-review practices ofpsychological journals: the fate of published articles, submitted again.Behav Brain Sci 1982; 5: 187-95.

 14. Lock S. A difficult balance. Editorial peer review inmedicine. London: The Nuffield Provincial Hospitals Trust, 1985:26-34.

 15. Mahoney MJ. Publication prejudices: an experimental studyof confirmatory bias in the peer review system. Cognitive Therapy andResearch 1977; 1: 161-75.

 16. Wilkes MS, Doblin BH, Shapiro MF. Pharmaceuticaladvertisements in leading medical journals: experts‘ assessments. AnnIntern Med 1992; 116: 912-9.

 17. Sharp DW. Fraud. The journal's role concerningfraudulent research. Invest Radiol 1991; 26: 586-9.

 18. Kan CC, Lockefeer JHM, Overbeke AJPM. Redenen vanafwijzing van artikelen voor publikatie bij het Nederlands Tijdschrift voorGeneeskunde in 1990. Ned TijdschrGeneeskd 1991; 135: 840-5.

 19. Lock S, Smith J. What do peer reviewers do? JAMA 1990;263: 1341-3.

 20. Dickersin K. The existence of publication bias and riskfactors for its occurrence. JAMA 1990; 263: 1385-9.

 21. Easterbrook PJ, Berlin JA, Gopalan R, Matthews DR.Publication bias in clinical research. Lancet 1991; 337: 867-72.

 22. Hobma SjO, Overbeke AJPM. Fouten inliteratuurverwijzingen in het Nederlands Tijdschrift voor Geneeskunde.Ned Tijdschr Geneeskd 1992; 136:637-41.

Auteursinformatie

Nederlands Tijdschrift voor Geneeskunde, Postbus 75971, 1070 AZ Amsterdam.

Mw.B.C.H.de Jong, medisch student; dr.A.J.P.M.Overbeke, uitvoerend hoofdredacteur.

Contact mw.B.C.H.de Jong

Gerelateerde artikelen

Reacties