Een proef op de som

Kan AI een NTvG-artikel schrijven?

Potlood met robot benen
Abstract
Alex R. Schuurman
Michiel Schinkel
Sjoerd de Kreij
W. Joost Wiersinga
Download PDF

Het zal u niet ontgaan zijn: de ontwikkelingen in het veld van de artificial intelligence (AI) gaan razendsnel. We kunnen AI zelfs volledige teksten laten genereren. Wat betekent dat voor de medisch-wetenschappelijke wereld? Kan AI een medisch artikel schrijven? Wij namen de proef op de som.

Samenvatting

In dit artikel beschrijven we het volledige proces, van eerste opzet tot deze laatste versie, dat ons AI-gegenereerde artikel ‘Zorgen rondom AI in de zorg’ bij het Nederlands Tijdschrift voor Geneeskunde heeft doorlopen. Daarnaast diepen we een aantal punten uit die bij het werk aan dit artikel naar voren kwamen, zoals het belang van transparantie en auteurschap. We eindigen met een aantal lessen die we geleerd hebben gedurende dit proces, en die als leidraad kunnen dienen voor een goed gebruik van AI bij het schrijven van medische artikelen.

artikel

Eind 2022 lanceerde het bedrijf OpenAI een nieuw AI-model, ChatGPT genaamd. Dit model is in staat om taalkundig correcte teksten te genereren over bijna elk onderwerp en in bijna elk format, waarbij het resultaat soms amper te onderscheiden is van mensenwerk. Maar kan AI ook een bruikbaar medisch artikel schrijven? En welke problemen kom je tegen als je een volledig AI-gegenereerd artikel gepubliceerd wilt krijgen?

In dit artikel beschrijven we de volledige reis, van eerste opzet tot deze laatste versie, die ons AI-gegenereerde artikel ‘Zorgen rondom AI in de zorg’ bij het Nederlands Tijdschrift voor Geneeskunde heeft afgelegd. Daarnaast diepen we een aantal punten uit die bij het werk aan dit artikel naar voren kwamen, zoals het belang van transparantie en auteurschap. We eindigen met een aantal lessen die we geleerd hebben gedurende dit proces, en die als leidraad kunnen dienen voor een goed gebruik van AI bij het schrijven van medische artikelen.

De eerste opzet

Ons idee was om AI volledig autonoom een kritisch artikel over het nut en onnut van AI in de gezondheidszorg te laten schrijven. We hebben de eerste versie gemaakt met Schrijven.AI, een Nederlandstalige AI-teksttool die is ontwikkeld door een van de auteurs (SdK) en gebaseerd op GPT-3, het onderliggende taalmodel van ChatGPT.

Het model onder Schrijven.AI is getraind op 30% van alle tekst op het internet en kan daardoor tekst voorspellen. Dit werkt als volgt. Door middel van een ‘opdracht’ wordt het model geïnstrueerd om een tekst te genereren volgens een bepaald patroon. Dat patroon kan van alles inhouden, bijvoorbeeld een longread, korte samenvatting, opiniestuk, marketingtekst of wetenschappelijk artikel. Het model bestaat uit een paar honderd miljard parameters – datapunten die door het model als leerstof gebruikt worden – waardoor bijvoorbeeld een sarcastisch of juist een heel vrolijk patroon herkend kan worden en het model de beste woordkeuze en zinsopbouw kan voorspellen.

De opdracht die wij voor dit artikel gebruikten, was: ‘Schrijf een lang opiniestuk over zorgen rondom AI in de gezondheidszorg, met een formele toon’, plus een aantal specifieke steekwoorden (hype, onderzoek, verklaarbaarheid, vertrouwen, toepasbaarheid, klinisch bewijs, spreekkamer, menselijk contact). Binnen enkele minuten had de tool een artikel geschreven, compleet met inleiding en conclusie. In figuur 1 geven we een voorbeeld van één van de paragrafen, en de conclusie.

Figuur 1
De eerste versie van een met AI gegenereerd artikel voor het NTvG
Figuur 1 | De eerste versie van een met AI gegenereerd artikel voor het NTvG
Van dit artikel, getiteld ‘Zorgen rondom AI in de zorg’, zijn alleen de conclusie en een paragraaf afgebeeld. Deze tekst is gegenereerd op basis van de opdracht ‘Schrijf een lang opiniestuk over zorgen rondom AI in de gezondheidszorg, met een formele toon’, plus een aantal specifieke steekwoorden (hype, onderzoek, verklaarbaarheid, vertrouwen, toepasbaarheid, klinisch bewijs, spreekkamer, menselijk contact).

Op het eerste gezicht is het resultaat indrukwekkend: de tekst is goed leesbaar, en de inhoud lijkt relevant en genuanceerd. Wie verstand heeft van het onderwerp ziet echter al snel dat het artikel oppervlakkig is en weinig bijdraagt aan de bestaande literatuur over dit onderwerp; kortom, een perfecte illustratie van het thema ‘Zorgen rondom AI in de zorg’, zo dachten wij. Wij dienden de tekst zonder verdere aanpassingen in bij de redactie van het NTvG om de discussie op gang te brengen.

Het peer-review proces

Het oordeel was vernietigend en de reviewers adviseerden het manuscript niet te aanvaarden. De kritiek van de peerreview was met name inhoudelijk: de tekst was te oppervlakkig, bronvermeldingen ontbraken en de reviewers waren het oneens met de redenering dat een gebrek aan transparantie leidt tot een vertrouwensbreuk tussen AI en de gebruiker. Daarnaast waren er ook inhoudelijke en stilistische opmerkingen: over ambigue formuleringen, foutieve zinsopbouw en overbodige paragrafen.

We waren het eens met deze inhoudelijk kritiek; dit was nu precies het punt dat we wilden maken. Wij lieten ons dan ook niet uit het veld slaan, en besloten de revisie van dit artikel ook volledig door AI te laten uitvoeren. Aanvankelijk probeerden we in één keer het gehele, ongefilterde commentaar aan te leveren, maar de AI bleek niet in staat hiermee het artikel te herschrijven. Uiteindelijk hebben we zowel Schrijven.AI als ChatGPT moeten gebruiken om stapsgewijs het artikel te reviseren.

Onze opdrachten zagen er als volgt uit: ‘Verwijder de derde paragraaf. Combineer de paragraaf over transparantie en verantwoordelijkheid tot één stuk tekst. Herschrijf dit stuk tekst op basis van deze specifieke punten, en maak gebruik van de referentie “Who is afraid of black boxes?” van Durán en Jongsma (noot: deze referentie werd aanbevolen door de reviewers).1 Maak het einde van dit stuk tekst constructiever, en biedt oplossingen. Herschrijf het eerste deel van de conclusie op basis van het nieuwe manuscript.’

Het eindresultaat

Hoewel we de AI dus behoorlijk bij de hand moesten nemen – en het waarschijnlijk sneller was geweest om de revisie zelf te doen – waren we niet ontevreden over het resultaat (figuur 2). Toch bleef een aantal gebreken bestaan. De tekst was nog altijd redelijk oppervlakkig, waarbij opnieuw gegenereerde zinnen als ‘er kunnen strenge normen en richtlijnen worden geïmplementeerd’ diepgang misten. Ook nam de chatbot ondanks ons verzoek de belangrijkste punten van het artikel van Durán en Jongsma niet mee, en bleef het ook nu zonder referenties werken.1 De hoofdredactie besloot daarop dat ook dit geheel gereviseerde artikel, compleet gegenereerd door AI, niet voldeed aan de standaarden van een goed medisch-wetenschappelijk artikel en niet de juiste discussies zou stimuleren.

Figuur 2
De tweede versie van het AI-gegenereerde artikel
Figuur 2 | De tweede versie van het AI-gegenereerde artikel
Deze gereviseerde versie werd met hulp van AI tot stand gebracht. De opdracht luidde: ‘Verwijder de derde paragraaf. Combineer de paragraaf over transparantie en verantwoordelijkheid tot één stuk tekst. Herschrijf dit stuk tekst op basis van deze specifieke punten, en maak gebruik van de referentie “Who is afraid of black boxes?” van Durán en Jongsma. Maak het einde van dit stuk tekst constructiever, en biedt oplossingen.’

Analyse

De kritiek van de externe referenten en hoofdredactie was valide: de tekst bleef ondanks revisie met name bestaan uit oppervlakkige observaties en niet-uitgewerkte discussiepunten. Dit is te begrijpen door naar de werkwijze van generatieve AI zoals ChatGPT te kijken. De output van onze AI-tool is gebaseerd op wat er tot eind 2021 op het internet te vinden was over een onderwerp. De voor AI bruikbare dataset op internet wordt ook beperkt door wat de marktpartijen achter ChatGPT – of in de toekomst Google – bij de training van het taalmodel toelaten aan informatie. Dat maakt deze informatie en dus ook de gegenereerde teksten niet onafhankelijk en transparant.

Verder zijn veel belangrijke medische publicaties alleen via een licentie of betaling beschikbaar; ChatGPT heeft daar geen toegang toe. Het resultaat van de AI-gegenereerde teksten blijft dus beperkt tot een samenvatting van slechts een deel van wat er al bekend is. Het publieke debat en de inhoudelijke discussie zullen hierdoor niet naar een hoger niveau getild worden.

Daarnaast is een relevant gegeven dat dit soort AI zich ook kan baseren op foutieve informatie, en uitspraken kan doen die plausibel klinken, maar feitelijk onwaar zijn. Hiermee wordt het ontbreken van referenties ook een extra nadeel. Het is daardoor voor de niet-ingewijde lezer onmogelijk om te weten of de inhoud van een AI-gegenereerde tekst correct is. Hier past een waarschuwing: als ChatGPT expliciet gevraagd om toch een referentielijst aan te leveren, dan zet de AI zonder problemen een aantal fictieve studies onder elkaar.2

Auteurschap

Naast het probleem of de gegenereerde tekst inhoudelijk wel klopt, leidt het gebruik van ChatGPT ook tot vragen over auteurschap en plagiaat. Tijdens het peerreview-proces werd ons bijvoorbeeld gevraagd of wij eigenlijk wel als auteurs op dit artikel zouden moeten staan, terwijl we het zelf niet hadden geschreven. Moet ChatGPT dan de auteur zijn? Op dit moment lijkt er bij steeds meer medische tijdschriften consensus te bestaan dat ChatGPT niet voldoet aan de internationale criteria voor auteurschap, aangezien het geen verantwoordelijkheid kan nemen voor de teksten die het schrijft.3,4 De verantwoordelijkheid, en daarmee het auteurschap, blijft bij de mens. Wel moet bij een artikel vermeld worden dat de auteurs gebruik hebben gemaakt van een chatbot met kunstmatige intelligentie als dat van toepassing is.

Wat zal de toekomst brengen?

Ondanks de genoemde beperkingen en uitdagingen denken wij dat generatieve AI zoals ChatGPT waarde kan hebben voor het schrijven van wetenschappelijke artikelen. Zo kan het helpen door een ruwe eerste versie voor een inleiding of samenvatting van een origineel artikel te maken, ingewikkelde stukken tekst te herschrijven, in te korten en te simplificeren, en door inspiratie te geven voor mogelijke discussiepunten. Bovendien kan de toepassing nuttig zijn voor niet-Engelstalige auteurs, door de kans op afwijzing van een Engelstalig manuscript op grond van grammaticale fouten en slechte leesbaarheid te verminderen.5

Op termijn zullen de technische tekortkomingen van generatieve AI steeds minder worden, waardoor de barrières voor het gebruik af zullen nemen. Zo heeft een divisie van Google al aangekondigd dat het later dit jaar een AI-chatbot genaamd ‘Sparrow’ zal uitbrengen, die wél in staat zal zijn om de teksten van referenties te voorzien.6 De verwachting is dat deze door AI gedreven chatbots dan ook snel geïntegreerd zullen worden in tekstverwerkingsprogramma’s.

Naast wetenschappelijk schrijven zijn er nog legio andere toepassingen in de biomedische wereld denkbaar waar AI-gegenereerde teksten een rol kunnen gaan spelen. Zo is er een voorlopige versie van DocsGPT gelanceerd, die kan gaan helpen om de hoge administratielast van zorgverleners te verlichten,7 en kan ChatGPT mogelijk clinici assisteren door het automatisch medische ontslagbrieven te schrijven.8 Hiervoor zouden AI-modellen wel toegang moeten krijgen tot patiëntengegevens, iets wat belangrijke vragen oproept over ethiek, regelgeving en privacy.9

Naast administratieve toepassingen kan AI ook bruikbaar zijn in het medisch onderwijs. Zo gaf ChatGPT blijk van een originele denkwijze toen het gevraagd werd om de Amerikaanse doktersexamens af te leggen, en waren de antwoorden van de AI veelal leerzaam en inzichtgevend.10

Conclusie

Hoewel we veel geleerd hebben van het proces om een AI-gegenereerde tekst gepubliceerd te krijgen (tabel), concluderen we dat AI momenteel niet in staat is om autonoom een goed NTvG-artikel te schrijven. De door ChatGPT gegenereerde tekst miste diepgang, de literatuurverwijzingen ontbraken en het revisieproces bleef grotendeels handwerk.

Tabel
Tips en valkuilen bij het gebruik van AI voor het schrijven van een artikel
Tabel | Tips en valkuilen bij het gebruik van AI voor het schrijven van een artikel

Gezien de razendsnelle ontwikkelingen op het gebied van AI lijkt het ons echter een kwestie van tijd voordat deze barrières kleiner worden en AI-chatbots een nuttige ondersteuning voor de biomedische wetenschapper worden. Voor nu is het echter vooral noodzakelijk om deze chatbots nauwlettend te begeleiden, voor een goed en verantwoord gebruik.

Literatuur
  1. Durán JM, Jongsma KR. Who is afraid of black box algorithms? On the epistemological and ethical basis of trust in medical AI. J Med Ethics. 2021;47:329-335. Medline doi:10.1136/medethics-2020-106820
  2. King MR; chatGPT. A conversation on artificial intelligence, chatbots, and plagiarism in higher education. Cell Mol Bioeng. 2023;16:1-2. doi:10.1007/s12195-022-00754-8. Medline
  3. Liebrenz M, Schleifer R, Buadze A, Bhugra D, Smith A. Generating scholarly content with ChatGPT: ethical challenges for medical publishing. Lancet Digit Health. 2023;5:e105-6. doi:10.1016/S2589-7500(23)00019-5. Medline
  4. Stokel-Walker C. ChatGPT listed as author on research papers: many scientists disapprove. Nature. 2023;613:620-1. doi:10.1038/d41586-023-00107-z. Medline
  5. Balan S. English as the language of research: But are we missing the mark? Explor Res Clin Soc Pharm. 2021;3:100043. doi:10.1016/j.rcsop.2021.100043. Medline
  6. Perrigo B. DeepMind CEO Demis Hassabis urges caution on AI. TIME, 12 januari 2023. https://time.com/6246119/demis-hassabis-deepmind-interview/, geraadpleegd op 16 februari 2023.
  7. Fox A. DocsGPT in beta targets physician burnout. Healthcare IT News, 21 februari 2023. www.healthcareitnews.com/news/docsgpt-beta-targets-physician-burnout, geraadpleegd op 3 maart 2023.
  8. Patel SB, Lam K. ChatGPT: the future of discharge summaries? Lancet Digit Health. 2023;5:e107-8. doi:10.1016/S2589-7500(23)00021-3. Medline
  9. Shah H. The DeepMind debacle demands dialogue on data. Nature. 2017;547:259. doi:10.1038/547259a. Medline
  10. Kung TH, Cheatham M, Medenilla A, et al. Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digit Health. 2023;2:e0000198. doi:10.1371/journal.pdig.0000198. Medline
Auteursinformatie

Amsterdam UMC, locatie AMC, afd. Inwendige Geneeskunde, Amsterdam: drs. A.R. Schuurman, arts-onderzoeker; drs. M. Schinkel, arts-onderzoeker; prof.dr. W.J. Wiersinga, internist-infectioloog. Schrijven.AI, Amsterdam: S. de Kreij, AI-engineer.

Contact A.R. Schuurman (a.r.schuurman@amsterdamumc.nl)

Belangenverstrengeling

Belangenconflict en financiële ondersteuning: er zijn mogelijke belangen gemeld bij dit artikel. ICMJE-formulieren met de belangenverklaring van de auteurs zijn online beschikbaar bij dit artikel.

Verantwoording

Sjoerd de Kreij is de oprichter van Schrijven.AI, het AI-instrument waarmee de tekst in de figuren van dit artikel is gegenereerd.

Auteur Belangenverstrengeling
Alex R. Schuurman ICMJE-formulier
Michiel Schinkel ICMJE-formulier
Sjoerd de Kreij ICMJE-formulier
W. Joost Wiersinga ICMJE-formulier
Credits: frank60/Shutterstock

AI

Dit artikel is gepubliceerd in het dossier
AI: belofte en werkelijkheid
Dit artikel wordt besproken in#13 Kan chatGPT medische artikelen schrijven?
Heb je nog vragen na het lezen van dit artikel?
Check onze AI-tool en verbaas je over de antwoorden.
ASK NTVG

Ook interessant

Reacties