Waarop letten beoordelaars van 'oorspronkelijke stukken' die ter publicatie zijn aangeboden aan het Nederlands Tijdschrift voor Geneeskunde?

Onderzoek
M.J.H. Tjon Fo Sang
A.J.P.M. Overbeke
J.H.M. Lockefeer
Citeer dit artikel als: Ned Tijdschr Geneeskd. 1996;140:2349-52
Abstract
Download PDF

Samenvatting

Doel

Beoordelen in hoeverre adviseurs van het Nederlands Tijdschrift voor Geneeskunde (NTvG) specifieke aandachtspunten hanteren bij het beoordelen van ‘oorspronkelijke stukken’.

Opzet

Descriptief.

Plaats

Redactiebureau van het NTvG.

Methode

In de periode tussen 21 oktober 1993 en 1 maart 1994 werden 89 oorspronkelijke stukken aangeboden. Hiervan kwamen 60 (67) in aanmerking voor beoordeling door adviseurs. Ieder stuk werd ook naar een tweede adviseur met dezelfde deskundigheid gestuurd. Aan de hand van twee lijsten met in totaal 16 kwaliteitselementen werden de manuscripten ook door de hoofdredactie beoordeeld. Vervolgens werden alle adviezen vergeleken met deze beoordeling. Het individuele resultaat van een adviseur werd gecorreleerd met diens jaar van afstuderen. De duur van het peer-reviewproces werd vastgelegd.

Resultaten

Adviseurs van het NTvG gingen in op 46 van de expliciete vragen van de hoofdredactie (lijst 1), terwijl zij 43 van de punten uit de tweede impliciete lijst beschreven. Er was geen verband met het jaar van afstuderen. Van de gebreken die door de hoofdredactie in het manuscript vastgesteld waren, werd ongeveer 12 over het hoofd gezien. Circa 42 van de correcte elementen in de artikelen werd niet in de adviezen genoemd. De overeenkomst tussen adviseurs van dezelfde discipline was gering (kappa = 0,26); gemiddeld 10,4 van de 16 aandachtspunten werden door beide gepaarde adviseurs al dan niet behandeld. De peer review duurde gemiddeld 41 dagen.

Conclusie

Slechts een gering deel van de gebreken in manuscripten werd door de adviseurs van het NTvG over het hoofd gezien. Peer review bij het NTvG geschiedt redelijk uniform, maar standaardisatie zou het beoordelingsproces kunnen verbeteren.

Inleiding

De beslissing van hoofdredacties van wetenschappelijke tijdschriften over het al dan niet aanvaarden van een manuscript voor publicatie wordt mede gebaseerd op het advies van deskundigen: ‘peer review’. Er is weinig bekend over de wijze waarop deze adviseurs in de praktijk beoordelen en dus ook over de kwaliteit van hun oordeel. Gedurende de laatste 8 jaar heeft The Journal of the American Medical Association onderzoek naar peer review gestimuleerd.12 Voordrachten over dit onderwerp tijdens het tweede internationale congres over peer review in september 1993 gaven enig inzicht in het beoordelingsproces bij referenten,13 maar de uiteindelijke conclusie was dat betere richtlijnen voor adviseurs noodzakelijk zijn.1

Om er een indruk van te krijgen hoe dit beoordelingssysteem bij het Nederlands Tijdschrift voor Geneeskunde (NTvG) functioneert, onderzochten wij de adviezen van referenten van ter publicatie aangeboden ‘oorspronkelijke stukken’. Het onderwerp van onderzoek was daarbij niet of de oordelen overeenstemden, maar hoe gestructureerd ze tot stand kwamen, dat wil zeggen in hoeverre de referenten consequent een aantal aandachtspunten in hun oordeel betrokken.

Methode

De wijze waarop de hoofdredactie van het NTvG een oordeel velt over de publiceerbaarheid van een artikel, daarbij gebruikmakend van de adviezen van deskundigen, is eerder beschreven.4 Om te toetsen in hoeverre adviseurs de door de hoofdredactie gestelde vragen beantwoordden en of zij bij hun beoordeling bepaalde maatstaven aanlegden, werden twee vragenlijsten opgesteld. De eerste was gebaseerd op de brief die tegelijk met een te beoordelen manuscript van het NTvG naar de adviseur wordt gestuurd. In die brief vraagt de hoofdredactie de adviseur expliciet te letten op 7 punten (tabel 1). De tweede vragenlijst berustte op de richtlijnen die de redactie van de British Medical Journal voor haar referenten heeft opgesteld (tabel 2).5 Aan die richtlijnen werden voor het onderzoek 9 punten ontleend waaraan adviseurs zeker geacht worden aandacht te besteden bij hun beoordeling. Deze tweede lijst met vragen was dus niet expliciet aan de adviseurs voorgelegd, maar werd gebruikt om te zien of de adviseurs aan die onderwerpen toch aandacht schonken in hun adviezen.

Er bestaat (nog) geen gouden standaard voor de objectieve beoordeling van de kwaliteit van de inhoud van de adviezen; daarom beperkten wij ons ertoe vast te stellen op welke vragen van de hoofdredactie antwoord werd gegeven en welke aandachtspunten uit tabel 2 door de adviseurs in hun adviezen werden vermeld. Zoals gezegd was daarbij niet het eigenlijke oordeel van de adviseurs onderwerp van onderzoek; wij gingen slechts na of de adviseurs aan een bepaald onderwerp aandacht hadden geschonken.

Alle manuscripten die tussen 21 oktober 1993 en 1 maart 1994 werden aangeboden aan het NTvG voor de rubriek ‘Oorspronkelijke stukken’ werden in dit onderzoek betrokken. De artikelen die niet direct door de hoofdredactie werden afgewezen of aanvaard voor publicatie, werden ter beoordeling voorgelegd aan adviseurs. Zij waren tevoren per brief over dit onderzoek geïnformeerd. In de geretourneerde adviezen werd geteld aan hoeveel punten de adviseurs aandacht hadden geschonken. Om na te gaan of de weggelaten aandachtspunten belangrijk of onbelangrijk waren voor het oordeel over het artikel stelde een lid van de hoofdredactie (J.H.M.L. of A.J.P.M.O.) vóór het ter advisering verzenden vast op welke punten het stuk wel of niet acceptabel was. Zo kon worden bepaald of de adviseurs een inhoudelijk positief oordeel vaker onvermeld lieten dan een inhoudelijk negatief oordeel.

Meer dan eens werd dezelfde referenten om advies gevraagd. In dat geval werd het aantal door de betreffende adviseur genoemde punten gemiddeld. Deze individuele ‘reviewscore’ werd gebruikt om de beoordelingen van (oud-)redacteuren van het NTvG met die van externe adviseurs te vergelijken. Tevens beoordeelden wij of er een verband bestond tussen deze score en het jaar van afstuderen van de adviseur (‘ervaring’) door de correlatiecoëfficiënt van Spearman te berekenen.

Voor het versturen van het manuscript werd voor iedere adviseur een collega uitgezocht die interesse had voor of werkzaam was in hetzelfde (sub)specialisme, meestal een oud-redacteur. Om de overeenstemming tussen de aldus gepaarde adviezen te onderzoeken werd bij ieder aandachtspunt genoteerd of beide adviseurs het wel of niet verkozen te noemen in hun advies. Het totale aantal punten waarop ieder paar adviseurs overeenstemde werd vastgelegd in een 2 x 2-tabel. Voor elke tabel werd kappa van Cohen berekend, een overeenkomst tussen waarnemers waarbij gecorrigeerd is voor het toeval. Qua inhoud werden de adviezen niet met elkaar vergeleken.

Tenslotte werd genoteerd hoe lang het duurde voordat een advies werd terugontvangen, hoe vaak een adviseur blijk gaf gelet te hebben op de mogelijkheid van een herhaalde publicatie, of het advies voor de auteur opbouwende, neutrale of afbrekende kritiek bevatte en wat er verder gebeurde met de manuscripten na het advies.

Resultaten

Van de 89 in de onderzoeksperiode ontvangen oorspronkelijke stukken werden er 14 (16) direct afgewezen, 12 (13) werden aanvaard voor publicatie en 3 (3) werden in een andere rubriek ingedeeld. Zo resteerden 60 artikelen (67) ter beoordeling door adviseurs. In totaal werd aan 89 verschillende adviseurs 194 maal een beoordeling gevraagd. Er werd 5 maal (3) geen advies verkregen; 2 van de 5 hierbij betrokken adviseurs reageerden echter wel op andere verzoeken om beoordeling in deze periode. Uiteindelijk konden 189 adviezen van 86 referenten, te weten 46 (oud-)redacteuren en 40 externe adviseurs, in dit onderzoek betrokken worden. Van deze adviezen waren er 92 van adviseurs met dezelfde discipline, welke gebruikt konden worden voor toetsing van het aantal aandachtspunten dat door beiden wel of niet werd genoemd: de overeenkomst tussen waarnemers.

Het aantal beschreven aandachtspunten

Het aantal malen dat een vraag uit de eerste lijst in alle 189 adviezen werd beantwoord is weergegeven in tabel 1. Gemiddeld beantwoordden de adviseurs 3,2 (SD: 1,5) van de 7 door de hoofdredactie gestelde vragen. De niet-beantwoorde vragen waren in 0,7 van de gevallen door de hoofdredactie vooraf negatief beantwoord en in 3,1 van de gevallen positief.

De adviseurs beschreven gemiddeld 4 (SD: 1,6) van de 9 punten van de tweede lijst. Van de niet door de adviseurs genoemde aandachtspunten van de tweede lijst waren gemiddeld 1,3 door de hoofdredactie als matig of slecht en 3,7 als goed beoordeeld.

De (oud-)redacteuren beantwoordden gemiddeld minder vragen van de eerste lijst dan de externe adviseurs, respectievelijk 3,1 en 3,6, en besteedden ook aan minder punten van de tweede lijst aandacht, respectievelijk aan 3,7 en 4,4 punten.

Verband tussen ervaring en reviewscore

Er werd geen significante correlatie (p > 0,05) gevonden tussen het jaar van afstuderen van een adviseur en het aantal genoemde of niet-genoemde criteria. Het aantal jaren dat sinds het afstuderen van de adviseurs verstreken was, bedroeg gemiddeld 26 (SD: 7,9; uitersten: 6-44).

Overeenstemming tussen adviseurs

Bij de 92 adviezen van de beoordelaars met dezelfde discipline waren van de eerste lijst gemiddeld 4,5 punten al dan niet beantwoord, van de tweede lijst 5,9 punten. De overeenkomst tussen waarnemers voor alle 16 aandachtspunten bij de 92 paren adviseurs was gemiddeld 0,26 (SD: 0,28).

Duur van de beoordeling

Gemiddeld duurde het 41 dagen (SD: 19; mediaan: 39; uitersten: 3-106) voordat een manuscript beoordeeld werd terugontvangen.

Dubbelpublicaties

Bij 11 van de 189 adviezen (6) gaf de adviseur blijk gelet te hebben op de mogelijkheid van een herhaalde publicatie.

Karakter van de adviezen

In 155 (82) van de 189 adviezen overheerste opbouwende, in 29 (15) neutrale en in 5 (3) afbrekende kritiek.

Lot van de manuscripten

Van de 60 gerefereerde artikelen werden er mede op basis van de adviezen 19 (32) afgewezen voor publicatie, 18 (30) werden naar de auteurs teruggezonden voor grondige revisie (met herbeoordeling) en 19 (32) werden teruggezonden voor eenvoudige revisie. Er werden 2 artikelen (3) geaccepteerd onder voorwaarde dat enkele zeer geringe veranderingen zouden worden aangebracht, 1 artikel (2) werd ingedeeld in een andere rubriek en 1 manuscript (2) werd na de advisering direct voor publicatie aanvaard. Bij de afsluiting van ons onderzoek waren 29 van de 39 te reviseren stukken aanvaard voor publicatie, waarvan 21 in hun tweede versie en 8 in hun derde versie. Verder waren 8 manuscripten in hun tweede versie bij de adviseurs, terwijl 1 artikel wederom grondig moest worden gereviseerd en 1 wederom minder ingrijpende wijzigingen moest ondergaan. Van de manuscripten die na het eerste advies waren afgewezen voor publicatie werd 1 herzien en na 2 gewijzigde versies alsnog voor publicatie aanvaard.

Beschouwing

De adviseurs van het NTvG beantwoordden in dit onderzoek in afnemende frequentie vragen van de hoofdredactie over de volgende onderwerpen: geschiktheid voor publicatie, praktisch (wetenschappelijk) belang, illustraties, tabellen, methodologie, lengte van het artikel en literatuurverwijzingen. Zonder dat de adviseurs hieromtrent bepaalde richtlijnen gekregen hadden, gingen zij in hun advies in op aspecten van de tweede lijst; zij behandelden in afnemende frequentie: presentatie van de resultaten, opzet van het onderzoek, validiteit van de conclusie(s), doelstelling, methode, onderzoeksgroep(en), leesbaarheid van het manuscript, duidelijkheid van de samenvatting en lay-out daarvan zoals het NTvG die wenst (gestructureerde samenvatting).

Een schriftelijke enquête onder de adviseurs van het NTvG, waarvan de resultaten in 1993 gepubliceerd werden, toont aan dat zij bij het beoordelen van artikelen de meeste nadruk leggen op de validiteit van de conclusies, de methodologische aspecten van het onderzoek, de relevantie en leesbaarheid van de informatie en het juiste gebruik van literatuurverwijzingen.4 Het aantal in dit onderzoek ontvangen opmerkingen over deze aspecten was daarbij vergeleken gering (zie tabel 1 en 2). In de enquête werd echter het oordeel van de adviseurs (uit een andere steekproef) getoetst en niet hun werkwijze; de te verwachten discrepantie tussen beide wordt in het hier beschreven onderzoek bevestigd.

Een adviseur beantwoordde in een advies gemiddeld 3,2 van de 7 vragen van de hoofdredactie en vermeldde op eigen initiatief gemiddeld 4 van de 9 aandachtspunten uit de tweede lijst. Het bleek dat adviseurs hetzelfde aantal punten van beide lijsten noemden. Hieruit zou de conclusie getrokken kunnen worden dat adviseurs niet expliciet op de vragen van de hoofdredactie ingaan, maar dat zij bij hun advisering hun eigen maatstaven aanleggen.

Ook bleken adviseurs van het NTvG de neiging te hebben om elementen die goed beschreven waren in het manuscript niet meer te noemen in hun advies. Zo betroffen de punten die door de adviseurs niet genoemd werden in slechts 12 ((0,7 1,3)16) van de gevallen aspecten die door de hoofdredactie als matig of slecht beoordeeld waren, terwijl het in 42 ((3,1 3,7)16) van de gevallen ging om aspecten die als goed beoordeeld waren. (Oud-)redacteuren noemden gemiddeld iets minder onderwerpen dan niet-redacteuren (respectievelijk 6,8 en 8 van de 16 onderwerpen). Dit verschil kan worden toegeschreven aan het feit dat (oud-)redacteuren in vergelijking met niet-redacteuren veel vaker goed beschreven elementen niet meer noemden in hun advies. (Oud-) redacteuren en niet-redacteuren zagen in ongeveer dezelfde mate gebreken in het manuscript over het hoofd.

Er werd geen statistisch significante correlatie gevonden tussen de individuele reviewscore van een adviseur en diens ervaring, gemeten aan het jaar van afstuderen. Uit onderzoek van Evans et al. bleek dat de beste adviseurs bij The Journal of General Internal Medicine jonger dan 40 jaar waren.6 De adviezen werden beoordeeld door een hoofdredacteur die niet op de hoogte was van de identiteit van de adviseur en de scores werden vervolgens gerelateerd aan de gegevens uit het curriculum vitae van de betreffende adviseur. Een groep van Scandinavische onderzoekers kwam tot dezelfde conclusie: jongere of ervarener adviseurs (ervaring betrof het beoordelen van manuscripten) bleken volledigere adviezen te geven dan hun oudere of minder ervaren collega's.7 Het NTvG maakt echter meer gebruik van de adviezen van oudere deskundigen, die bovendien vaak ook voor andere wetenschappelijke tijdschriften refereren.4 Door deze selectie kon er waarschijnlijk geen statistisch significante correlatie gevonden worden tussen het individuele jaar van afstuderen en de gemiddelde score van de adviseur.

Gemiddeld 10,4 van de 16 aandachtspunten (beide lijsten samen) werden door beide adviseurs al dan niet behandeld. Deze goede overeenstemming lijkt een gevolg van de ruime ervaring van de adviseurs met peer review en maakt het ook minder waarschijnlijk dat de adviseurs zich bij de beoordeling van manuscripten laten beïnvloeden door hun bekendheid met de auteur, de wetenschappelijke reputatie van de auteur, het onderzoeksinstituut of ziekenhuis waaruit het artikel afkomstig was, het aantal auteurs of de herkomst van subsidies of andere bijdragen – een beïnvloeding die ook in de eerder genoemde schriftelijke enquête ontkend werd.4 Als wordt gecorrigeerd voor het toeval en als ook de tegenstrijdige antwoorden in de beoordeling worden betrokken, was de overeenkomst tussen adviseurs echter matig (kappa = 0,26). Dat is niet ongewoon voor peer review; het betekent waarschijnlijk niet dat de beoordeling van manuscripten berust op de subjectiviteit of willekeur van de adviseur, maar het geeft eerder de complexiteit van het beoordelingsproces aan.8 Bovendien kan de kappa negatief zijn beïnvloed door het grote aantal niet-behandelde punten die volgens de hoofdredactie in het artikel goed waren beschreven.

Auteurs hebben bij de beoordeling van hun manuscript veel meer aan adviezen vanuit verschillende invalshoeken, omdat deze expertise het manuscript alleen maar ten goede zal komen. Gezien de concordantie tussen de gepaarde adviseurs in dit onderzoek lijkt het bij het NTvG niet nodig om van de adviezen van 2 referenten uit hetzelfde vakgebied gebruik te maken. Auteurs zijn waarschijnlijk veel meer gebaat bij adviezen van experts op het betreffende terrein uit verscheidene vakgebieden.

Het verstrekken van richtlijnen en criteria aan referenten blijkt de overeenkomst tussen beoordelingen te laten toenemen. Strayhorn et al. verrichtten een onderzoek waarin adviseurs werd gevraagd de kwaliteit van een artikel te kwantificeren (score tussen 1 en 10). De correlatiecoëfficiënt van de scores tussen gepaarde adviseurs was 0,23. In het daaropvolgende jaar kregen de adviseurs samen met het te beoordelen manuscript richtlijnen en een lijst van criteria voor peer review toegezonden; de correlatiecoëfficiënt nam toe tot 0,47.9

De beoordeling van een wetenschappelijk manuscript blijft een verantwoordelijke bezigheid; elke vorm van bias of onvolledigheid van een adviseur kan leiden tot het jarenlange persisteren van misleidende informatie in de literatuur.10 Peer review is onmisbaar voor de beoordeling van wetenschappelijk onderzoek en de juiste verslaglegging ervan. Om nauwkeuriger de kwaliteit van peer review te kunnen onderzoeken moet men het proces standaardiseren. Standaardisatie zou tevens de opvatting dat peer review geen welomschreven regels kent en lijdt aan subjectiviteit ontkrachten. Voor standaardisering van het beoordelingsproces dienen lijsten met criteria te worden opgesteld die de instemming van zowel redacties als referenten hebben. Een eerste aanzet daartoe is gegeven tijdens een werkbijeenkomst over peer review georganiseerd door de Council of Biology Editors.11

Wij danken dr.H.C.Walvoort, wetenschappelijk eindredacteur, voor zijn commentaar op het manuscript.

Literatuur

  1. Rennie D, Flanagin A. The second international congress onpeer review in biomedical publication. JAMA 1994;272:91.

  2. Rennie D. More peering into editorial peer review. JAMA1993; 270:2856-8.

  3. Offerhaus L. Peer review: het alziend oog.Ned Tijdschr Geneeskd1993;137:2331-3.

  4. Jong BCH de, Overbeke AJPM. Peer review: iséénoog koning? NedTijdschr Geneeskd 1993;137:17-21.

  5. Instructions to authors. BMJ 1993;306:55-7.

  6. Evans AT, McNutt RA, Fletcher SW, Fletcher RH. Thecharacteristics of peer reviewers who produce good-quality reviews. J GenIntern Med 1993;8:422-8.

  7. Nylenna M, Riis P, Karlsson Y. Multiple blinded reviews ofthe same two manuscripts. Effects of referee characteristics and publicationlanguage. JAMA 1994;272:149-51.

  8. Kassirer JP, Campion EW. Peer review. Crude andunderstudied, but indispensable. JAMA 1994;272:96-7.

  9. Strayhorn jr J, McDermott jr JF, Tanguay P. Anintervention to improve the reliability of manuscript reviews for the Journalof the American Academy of Child and Adolescent Psychiatry. Am J Psychiatry1993;150:947-52.

  10. Ernst E. Criticizing the critics: is peer-reviewing fair?J Clin Epidemiol 1994;47:817-8.

  11. CBE Peer review retreat consensus group. Peer reviewguidelines: a working draft. CBE Views 1995;18:79-81.

Auteursinformatie

Nederlands Tijdschrift voor Geneeskunde, Postbus 75971, 1070 AZ Amsterdam.

Mw.M.J.H.Tjon Fo Sang, arts-stagiair (thans: assistent-geneeskundige, Oogziekenhuis, Rotterdam); dr.A.J.P.M.Overbeke en dr.J.H.M.Lockefeer, uitvoerend hoofdredacteuren.

Contact mw.M.J.H.Tjon Fo Sang

Verbeteringen

Gerelateerde artikelen

Reacties