De invloed van peer review en redactionele bewerking op de kwaliteit van oorspronkelijke stukken in het Nederlands Tijdschrift voor Geneeskunde; beoordeling door lezers

Onderzoek
J.P.E.N. Pierie
H.C. Walvoort
A.J.P.M. Overbeke
Citeer dit artikel als: Ned Tijdschr Geneeskd. 1997;141:42-7
Abstract
Download PDF

Samenvatting

Doel

Onderzoeken of peer review en redactionele bewerking van invloed zijn op de kwaliteit van oorspronkelijke artikelen in het Nederlands Tijdschrift voor Geneeskunde (NTvG).

Opzet

Panelonderzoek.

Plaats

Redactiekantoor NTvG.

Methoden

De aangeboden, geaccepteerde en gepubliceerde versie van 50 oorspronkelijke artikelen gepubliceerd in het NTvG werden ter beoordeling aangeboden aan 25 studenten, 25 basisartsen, 25 huisartsen en 25 specialisten. Elk artikel werd door 1 beoordelaar uit elke groep beoordeeld. Met behulp van beoordelingsformulieren werden de peer-reviewfase (aangeboden versus geaccepteerde versie) en de redactionele-bewerkingsfase (geaccepteerde versus gepubliceerde versie) aan de hand van respectievelijk 23 en 16 onderdelen beoordeeld, telkens op een 5-puntsschaal. De resultaten werden dichotomisch geanalyseerd (frequentie van score ≤ 2 versus score ≥ 3).

Resultaten

In de peer-reviewfase verbeterde volgens de scores van de beoordelaars de kwaliteit van 1423 onderdelen (61) significant, waarbij vooral de algehele verslaglegging (p = 0,00001) en de algemeen-medische waarde (p = 0,00001) verbeterden. De redactionele-bewerkingsfase gaf verbetering van 1116 onderdelen (69), waarbij de stijl (p = 0,0001) en de leesbaarheid (p = 0,004) sterk verbeterden. Er werden geen verschillen gevonden tussen de beoordeling van de studenten, die van de basisartsen, die van de huisartsen en die van de specialisten.

Conclusie

Zowel peer review als redactionele bewerking verbetert volgens de lezers de kwaliteit van oorspronkelijke stukken aangeboden aan het NTvG.

Inleiding

Peer review wordt door vele redacties van biomedische tijdschriften gebruikt als standaardtoetsingsmethode voor selectie van te publiceren artikelen.1 Het doel is zo objectief mogelijk de wetenschappelijke kwaliteit van een artikel te beoordelen om het op basis daarvan te aanvaarden of af te wijzen. Als nadelen van dit systeem zijn genoemd: de subjectiviteit van het oordeel en de vertragende werking op publicatie, terwijl het artikel niet wezenlijk zou worden verbeterd.23

Wanneer een artikel niet in de aangeboden versie aanvaard kan worden geven de referenten adviezen voor aanpassing ervan, met als doel dat het alsnog aanvaard kan worden nadat de auteurs deze adviezen hebben opgevolgd. Van de aan het Nederlands Tijdschrift voor Geneeskunde (NTvG) aangeboden oorspronkelijke artikelen wordt op deze wijze 63 aanvaard na één of meer revisies.4

Na aanvaarding ondergaan de artikelen bij het NTvG een redactionele bewerking om de leesbaarheid en de begrijpelijkheid voor de algemene medische lezer te bevorderen. Bij deze bewerking wordt de informatie in het artikel wetenschappelijk en taalkundig gecontroleerd, gecorrigeerd en eventueel verduidelijkt, getallen worden nagerekend en literatuurverwijzingen nagezien op correcte weergave volgens het zogenaamde Vancouver-systeem.5 De opbouw van het artikel wordt zo nodig in overeenstemming gebracht met internationale normen (inleiding, methode, resultaten, beschouwing). Het resultaat van de bewerking wordt aan de auteur(s) voorgelegd.6

Het doel van dit onderzoek was te beoordelen of, volgens de lezers van het NTvG, de kwaliteit van de verslaglegging van oorspronkelijke stukken wordt verbeterd door de adviezen van de referenten en of de kwaliteit daarna verder wordt verbeterd door de redactionele bewerking.

Materiaal en methoden

De aangeboden, geaccepteerde en gepubliceerde versie van de 50 laatste oorspronkelijke stukken die vóór oktober 1994 in het NTvG werden gepubliceerd na eenmalige revisie waren onderwerp van studie. Dit aantal was zodanig gekozen dat een verschil van gemiddeld 0,5 punt in het oordeel over de kwaliteit van een artikel op een 5-puntsschaal zou worden waargenomen met een onbetrouwbaarheidsdrempel van 0,05 en een onderscheidend vermogen (‘power’) van 90, bij eenzijdige toetsing en uitgaande van een normale verdeling van de score met een standaardafwijking van 1 punt (minimale steekproefgrootte: n = 34).

Aan 4 categorieën lezers werd een oordeel over de kwaliteit van de verslaglegging in de oorspronkelijke stukken gevraagd: studenten, basisartsen, huisartsen en specialisten. De groep student-beoordelaars werd gerekruteerd door aselecte trekking (met behulp van een tabel met aselecte getallen) van 100 namen van student-abonnees van het NTvG. Daarnaast werden de namen van 100 basisartsen, 100 huisartsen en 100 medisch specialisten at random uit een bestand van Nederlandse artsen genomen.7 Allen werd gevraagd of zij wilden meewerken door 2 artikelen in 3 versies te beoordelen aan de hand van scoringsformulieren. Bij medewerking werd een kleine vergoeding in het vooruitzicht gesteld. De eerste 25 lezers per categorie die schriftelijk medewerking toezegden, werden bij het onderzoek betrokken.

Iedere beoordelaar kreeg 2 van de 50 artikelen in 3 versies toegestuurd en elk artikel werd beoordeeld door 1 student, 1 basisarts, 1 huisarts en 1 specialist. De artikelen waren geblindeerd wat betreft auteurs, onderzoeksinstituut en de verschillende versies, welke laatste waren gecodeerd als L, K en E. Deze 3 versies waren alle geprint vanuit ons tekstverwerkingssysteem en waren ogenschijnlijk gelijk. Allereerst werd gevraagd L en K te vergelijken aan de hand van een beoordelingsformulier, waarbij per onderdeel een 5-puntsschaal werd gehanteerd (appendix 1). Hierna werd gevraagd K en E te vergelijken aan de hand van een tweede beoordelingsformulier met dezelfde schaal (appendix 2). Op deze manier werden altijd de juiste versies met elkaar vergeleken (namelijk de aangeboden versie met de geaccepteerde en de geaccepteerde met de gepubliceerde), ook al was bij de beoordelaars niet bekend om welke versie het ging.

Aan de beoordelaars werd ook gevraagd of het onderwerp van het artikel hen interesseerde en of zij dachten dat het hun klinisch handelen zou beïnvloeden. Als laatste werd gevraagd de als L, K en E gecodeerde versies te benoemen als aangeboden, geaccepteerde en gepubliceerde versie van het artikel.

Statistiek

De verschillende onderdelen van de beoordelingsformulieren werden dichotomisch geanalyseerd (score ? 2 versus score ? 3). De frequentie waarmee een score ? 2 en ? 3 vóór en na peer review en vóór en na redactionele bewerking werd gegeven, werd tweezijdig geanalyseerd met de McNemar-toets. Een p-waarde ? 0,05 werd als statistisch significant beschouwd. Niet ingevulde onderdelen en de score ‘niet van toepassing’ werden buiten beschouwing gelaten. Met variantieanalyse (F-toets) werd onderzocht of het goed of fout benoemen van de aangeboden, geaccepteerde en gepubliceerde versies invloed had op de beoordeling van de verschillende versies. Met multipele variantieanalyse werd onderzocht of de oordelen van de 4 categorieën beoordelaars onderling verschilden. De Mann-Whitney-toets werd gebruikt om vast te stellen of de juiste of onjuiste identificatie van de aangeboden, geaccepteerde en gepubliceerde versies invloed had op de beoordelingen.

Resultaten

Van de 4 maal 100 at random benaderde lezers zegden 27 studenten, 28 basisartsen, 26 huisartsen en 31 medisch specialisten medewerking aan het onderzoek toe. Van de 100 beoordelaars stuurden uiteindelijk 98 de formulieren terug; 1 huisarts en 1 student reageerden niet.

In de tabellen 1 en 2 staat welk percentage van de beoordelaars de versies van het artikel als minstens voldoende (score ? 3) beoordeelde. In tabel 1 wordt de aangeboden met de aanvaarde versie van de artikelen vergeleken; die tabel geeft het oordeel over het effect van peer review weer. In de peer-reviewfase verbeterden 14 van de 23 beoordeelde onderdelen (61) statistisch significant; een sterke verbetering was er ten aanzien van de algehele verslaglegging (p = 0,00001) en de algemeenmedische waarde (p = 0,00001).

In tabel 2 wordt de aanvaarde met de gepubliceerde versie van de artikelen vergeleken; die tabel geeft het oordeel over het effect van de redactionele bewerking weer. In de redactionele-bewerkingsfase verbeterde de kwaliteit van 11 van de 16 onderdelen (69) significant; sterk verbeterden stijl (p = 0,0001), leesbaarheid (p = 0,004), tabellen en figuren (p tabel 2. Die vragen betroffen onderdeel 28 (onbekende termen of afkortingen; zie appendix 2), waarbij de specialisten een grotere kwaliteitsverbetering vaststelden dan de andere 3 categorieën beoordelaars (p

De vraag welke de aangeboden, geaccepteerde en gepubliceerde versie van het artikel was, werd door respectievelijk 74, 79 en 81 van de beoordelaars goed beantwoord en 72 benoemde alledrie de versies goed. Er werd ook wat dit betreft geen verschil gevonden tussen de 4 categorieën beoordelaars. Het wel of niet goed benoemen van de aangeboden en geaccepteerde versies had geen significant effect op het oordeel over deze versies, maar de beoordelingsscore bij de gepubliceerde versie was wel significant hoger wanneer de gepubliceerde versie ook als zodanig benoemd werd (p = 0,003).

De vraag of men het onderwerp van het artikel interessant vond, werd door 81 van de beoordelaars met een score ? 3 beantwoord, en 38 beantwoordde de vraag of het artikel invloed zou hebben op het klinisch handelen met een score ? 3 (zie appendix 1).

Beschouwing

Van de beoordelaars die medewerking hadden toegezegd, stuurde 98 alle formulieren terug. Omdat het NTvG 94 van de Nederlandse artsen bereikt, was de gekozen groep beoordelaars een goede representatie van de lezers.7

Op grond van de onderzoeksresultaten kan worden geconcludeerd dat van een groot aantal artikelonderdelen de kwaliteit van de verslaglegging verbeterde door peer review (61) en door redactionele bewerking (69) (zie tabellen 1 en 2). Het opvallendst is dat na peer review de algemeen-medische waarde en de totale kwaliteit van de artikelen als sterk verbeterd werden beschouwd. Ook waren de artikelen in die fase duidelijk korter geworden; dit in tegenstelling tot de bevinding van anderen, die een kleine verlenging van artikelen rapporteerden na peer review en redactionele bewerking.8

De minste verbetering door peer review werd gevonden bij de verslaglegging van doel en methoden en bij het belang van de conclusies van het artikel, waarschijnlijk omdat aan deze onderdelen niet veel meer te veranderen is nadat het betreffende onderzoek is afgesloten. Wat de titel, de beschrijving bij resultaten, de tabellen en de figuren aangaat, werd ook geen verbetering geconstateerd in deze fase.

Bij de redactioneel bewerkte versie was de beoordelingsscore voor de verslaglegging van diverse onderdelen van het artikel hoger. Vooral de toegenomen waardering voor leesbaarheid, stijl, organisatie en titel van het artikel was duidelijk. Door verbeteringen op deze punten wordt de toegankelijkheid van de artikelen vergroot. Ander onderzoek naar de leesbaarheid, verricht met behulp van leesbaarheidsindices, liet een kleine, maar consistente verbetering zien van de leesbaarheid na peer review en redactionele bewerking, al bleven de artikelen moeilijk te lezen.8

Ook het oordeel over de kwaliteit van tabellen en figuren werd door bewerking gunstig beïnvloed. Relatief het minst leken door de redactionele bewerking de uitleg van onbekende termen, de duidelijkheid over de periode van onderzoek, de weergave van de bevindingen in verschillende patiëntengroepen en de samenvatting te zijn verbeterd. Vooral de niet statistisch significante toename van de score bij de samenvatting is opvallend, omdat bij de bewerking veel aandacht wordt besteed aan structurering,9 en aan condensering van samenvatting en abstract. De score van de samenvatting in de geaccepteerde versie was echter zo hoog (96 gaf een score ? 3) dat een statistisch significante stijging door bewerking nauwelijks meer mogelijk was.

Veel aangeboden versies kregen van de beoordelaars een score ? 3, waarschijnlijk omdat het om uiteindelijk geaccepteerde artikelen ging. De toename van de scores ten aanzien van de kwaliteit van de verslaglegging na peer review en ook na redactionele bewerking was weliswaar sterk statistisch significant in veel gevallen, maar absoluut gezien relatief klein. Bij omrekening blijkt dat, afhankelijk van het beoordeelde onderdeel, slechts 4-22 van de beoordelaars verschillen tussen de versies waarnam. In eerder onderzoek, waarbij artikelen vóór en na peer review en redactionele bewerking ook werden vergeleken op een 5-puntsschaal, maar dan door auteurs in plaats van door lezers, werden vergelijkbare kleine, maar statistisch significante verschillen gevonden als de scores ? 2 en ? 3 werden vergeleken.10

Er werd geen verschil gevonden tussen de 4 categorieën beoordelaars (studenten, basisartsen, huisartsen en specialisten) wat betreft de beoordeling en de benoeming van de 3 versies. Mogelijk is opleiding minder van invloed op het vermogen om verschillen tussen versies te herkennen dan het inzicht van de persoon zelf. Specialisten waardeerden uitleg van onbekende termen in de gepubliceerde versie het meest, mogelijk omdat zij het verst van de algemene opleiding afstaan. Studenten namen de grootste verbetering waar in organisatie van het artikel (door bewerking), misschien omdat zij minder zijn getraind in het doorzien van de structuur van een artikel. Specialisten en huisartsen zagen in vergelijking met studenten en basisartsen meer verbetering in de uitleg van de meetmethoden van het onderzoek, wellicht omdat zij zich er meer van bewust zijn dat de meetmethode het resultaat van het onderzoek kan beïnvloeden.

Het correct benoemen van de versies had geen invloed op de beoordeling van de aangeboden en de geaccepteerde versie. Ook de beoordelaars die de versies niet correct konden benoemen (28) toonden in hun scores dat zij de artikelen na peer review en na bewerking beter vonden. Dit betekent dat vooringenomenheid bij de beoordeling geen wezenlijke rol speelde.

Mogelijk hebben sommige beoordelaars opgemerkt dat het ene beoordelingsformulier meer met wetenschappelijke onderwerpen en het andere meer met redactionele onderwerpen te maken had. Dit zou voor hen een aanwijzing kunnen zijn geweest welke versie welke was, hetgeen het resultaat beïnvloed zou kunnen hebben. De meeste beoordelaars zullen echter pas na het invullen van de vragenlijsten het verzoek hebben opgemerkt om de verschillende versies te benoemen. Slechts een enkel formulier bleek te zijn gecorrigeerd. Bovendien zagen de 3 versies er hetzelfde uit.

Sommige beoordelaars kunnen de hun voorgelegde artikelen in gedrukte vorm in het Tijdschrift hebben gelezen, hetgeen hun oordeel over de juiste versie zou kunnen hebben beïnvloed. Dit is echter onwaarschijnlijk, omdat weinig lezers (6) alle oorspronkelijke artikelen regelmatig lezen.7 Zij lezen gewoonlijk wat voor hun vakgebied direct van belang is en omdat de artikelen at random verzonden werden, is het onwaarschijnlijk dat een beoordelaar een voor hem relevant artikel ontving.

Veel beoordelaars (81) vonden de artikelen interessant. Dit kan mede de hoge waardering voor de aangeboden versie verklaren. Het aantal beoordelaars dat invloed van de artikelen op het medisch handelen verwachtte, was ook groot (38), wat des te opvallender is als men bedenkt dat de artikelen willekeurig werden toebedeeld aan de beoordelaars, zodat het niet waarschijnlijk is dat veel beoordelaars onderwerpen uit hun eigen vakgebied ter beoordeling kregen. Hoewel het hier gedeeltelijk om sociaal gewenste antwoorden zou kunnen gaan, geeft dit resultaat toch aan dat peer review van belang is, omdat de informatie in de artikelen blijkbaar door veel lezers toepasbaar wordt geacht in hun medische praktijk. Afgewezen artikelen werden niet onderzocht, zodat het effect van peer review daarop buiten beschouwing bleef.

Peer review is ook in toenemende mate van belang in de rechtspraak. Er is een tendens om het oordeel van medisch deskundigen niet altijd als ‘waar’ aan te nemen, tenzij het onderworpen is aan peer review.1112 Mede om deze redenen is redactionele bewerking belangrijk, omdat in deze fase onder andere gegevens worden gecontroleerd en ook de leesbaarheid en de organisatie – en daarmee de toegankelijkheid – van een artikel worden vergroot.

Het argument dat peer review en redactionele bewerking van artikelen de publicatie van belangrijke informatie nodeloos vertragen, wordt deels ontkracht door Roland en Kirkpatrick, die rapporteerden dat slechts ongeveer een kwart van de circa 4 jaar durende periode van onderzoekshypothese tot publicatie van een onderzoek in The New England Journal of Medicine werd gebruikt door het tijdschrift.13 Bovendien bevindt het artikel zich in deze periode geruime tijd bij de auteurs zelf voor revisie.

Wij concluderen dat de kwaliteit van de verslaglegging van oorspronkelijke artikelen aangeboden aan het NTvG zowel door peer review als door redactionele bewerking na aanvaarding op een groot aantal punten wordt verbeterd.

Wij danken mw.I.van der Tweel en dr.P.Westers, statistici van het Centrum voor Biostatistiek van de Universiteit Utrecht, voor de statistische bewerking van de gegevens.

Literatuur

  1. Jong BCH de, Overbeke AJPM. Peer review: iséénoog koning? NedTijdschr Geneeskd 1993;137:17-21.

  2. Peters DP, Ceci SJ. Peer-review practices of psychologicaljournals: the fate of published articles, submitted again. Behav Brain Sci1982; 5:187-95.

  3. Bower B. Peer review under fire. Science News1991;22:394-5.

  4. Kan CC, Lockefeer JHM, Overbeke AJPM. Redenen vanafwijzing van artikelen voor publikatie bij het Nederlands Tijdschrift voorGeneeskunde in 1990. Ned TijdschrGeneeskd 1991;135:840-5.

  5. Hobma SjO, Overbeke AJPM. Fouten in literatuurverwijzingenin het Nederlands Tijdschrift voor Geneeskunde.Ned Tijdschr Geneeskd1992;136:637-41.

  6. Walvoort HC. Redactionele bewerking van voor publicatieaanvaarde artikelen bij het Nederlands Tijdschrift voor Geneeskunde.Ned Tijdschr Geneeskd1997;141:38-42.

  7. Lagerwij EW. De lezers van het Nederlands Tijdschrift voorGeneeskunde. Ned Tijdschr Geneeskd1993;137:402-4.

  8. Roberts JC, Fletcher RH, Fletcher SW. Effects of peerreview and editing on the readability of articles published in Annals ofInternal Medicine. JAMA 1994;272:119-21.

  9. Comans MLA, Overbeke AJPM. De gestructureerdesamenvatting: een hulpmiddel voor lezer en auteur.Ned Tijdschr Geneeskd 1990;134:2338-43.

  10. Goodman SN, Berlin J, Fletcher SW, Fletcher RH.Manuscript quality before and after peer review and editing at Annals ofInternal Medicine. Ann Intern Med 1994;121:11-21.

  11. Hanzlick R. Peer review of expert testimony. J Med AssocGa 1990; 79:319-22.

  12. Gold JA, Zaremski MJ, Lev ER, Shefrin DH. Daubert vMerrell Dow. The Supreme Court tackles scientific evidence in the courtroom.JAMA 1993;270:2964-7.

  13. Roland CG, Kirkpatrick RA. Time lapse between hypothesisand publication in the medical sciences. N Engl J Med1975;292:1273-6.

Auteursinformatie

Nederlands Tijdschrift voor Geneeskunde, Postbus 75971, 1070 AZ Amsterdam.

J.P.E.N.Pierie, arts-stagiair; dr.H.C.Walvoort, wetenschappelijk eindredacteur; dr.A.J.P.M.Overbeke, uitvoerend hoofdredacteur.

Contact J.P.E.N.Pierie

Verbeteringen

Gerelateerde artikelen

Reacties