Beoordeling van screeningsmammogrammen met behulp van neurale netwerken

Klinische praktijk
N. Karssemeijer
W.J.H. Veldkamp
G.M. te Brake
J.H.C.L. Hendriks
Citeer dit artikel als
Ned Tijdschr Geneeskd. 1999;143:2232-6
Abstract
Download PDF

Samenvatting

- Door digitalisatie van de mammografie wordt het mogelijk radiologen in het bevolkingsonderzoek te ondersteunen met computertechnologie bij het opsporen van borstkanker.

- Dat hieraan behoefte bestaat, blijkt uit onderzoek waarin een grote variabiliteit van de radiologische beoordeling van mammogrammen wordt aangetoond.

- Daarnaast blijkt retrospectief dat carcinomen vaak al zichtbaar zijn op voorgaande screeningsmammogrammen van patiënten, zelfs voor daartoe ‘getrainde’ computers.

- Methoden voor automatische detectie van verdachte patronen in mammogrammen maken veelal gebruik van kunstmatige neurale netwerken. Door het aanbieden van een groot aantal voorbeelden van mammogrammen met tumoren en normaal weefsel kunnen dergelijke netwerken ‘leren’ om afwijkingen te herkennen.

- Voor detectie en beoordeling van microcalcificatieclusters heeft de techniek inmiddels zo'n hoge sensitiviteit dat radiologen zich bij het zoeken kunnen richten op een beperkt aantal gebieden die de computer aanwijst.

- Het ontwikkelen van methoden voor herkenning van tumorschaduwen blijkt aanzienlijk moeilijker te zijn, maar ook op dat terrein is de laatste jaren grote vooruitgang geboekt.

In de meeste westerse landen is borstkanker de meest voorkomende vorm van kanker bij vrouwen. In Nederland wordt borstkanker jaarlijks bij ongeveer 8500 vrouwen gediagnosticeerd en overlijden er circa 3500 vrouwen aan. Het landelijke bevolkingsonderzoek is erop gericht door mammografie borstkanker in een vroeger stadium op te sporen, waardoor de prognose gemiddeld verbetert en de sterfte daalt. Mammografie is ondanks beperkingen nog steeds de gevoeligste en specifiekste methode die voorhanden is voor grootschalige toepassing. Het probleem bij screening is dat uit een zeer grote populatie zonder afwijkingen een kleine groep met afwijkingen geselecteerd moet worden. Per 1000 vrouwen worden in de eerste ronde gemiddeld 6 carcinomen gevonden en in elke vervolgronde 3,5. Het aantal fout-positieve uitslagen is in de eerste ronde 7 per 1000 en in de vervolgronden 4 per 1000, wat laag is in vergelijking met andere landen waar een screeningsprogramma is ingevoerd, zoals het Verenigd Koninkrijk en Zweden.

Kwaliteitsbewaking

Er wordt veel energie gestoken in kwaliteitsbewaking. Zo wordt in alle centra een dagelijkse controle van de technische kwaliteit van de mammografische opnametechniek uitgevoerd door het Landelijke Referentiecentrum voor Borstkankerscreening. Daarnaast ontvangen radiologen en laboranten een uitgebreide training en worden alle centra regelmatig gevisiteerd.

Variatie in de radiologische beoordeling

Met de snel toenemende ervaring in verschillende landen wordt het de laatste jaren echter steeds duidelijker dat de kwaliteit van de professionele radiologische beoordeling zelf een onderschat probleem is. In een aantal grote onderzoeken werd gezocht naar zichtbare afwijkingen op mammogrammen uit voorgaande screeningsronden van vrouwen bij wie later borstkanker werd gevonden.1-3 Deels gaat het daarbij om intervalcarcinomen, dat wil zeggen tumoren gevonden bij vrouwen die wel aan een screeningsprogramma deelnamen, maar die tussen twee screeningsronden aan het licht kwamen. In Nederland betreft dit ongeveer eenderde deel van de carcinomen in de gescreende bevolkingsgroep. De overige tumoren worden wel bij screening gevonden. De genoemde onderzoeken tonen aan dat bij ongeveer 50 van de vrouwen met een tumor een zichtbare afwijking aangewezen kan worden op voorgaande screeningsmammogrammen, op de plaats van de later ontdekte tumor. In ruim 20 gaat het daarbij om afwijkingen die zo duidelijk zijn dat retrospectief de beoordelingen als foutief kunnen worden aangemerkt. De aard van de afwijkingen die op de voorgaande opnamen te zien zijn, is ongeveer gelijk voor intervalcarcinomen en voor de bij screening ontdekte carcinomen. De resultaten die in Nederland bij visitaties worden gevonden, wijken nauwelijks af van dit beeld, ondanks de onafhankelijke dubbele beoordeling door 2 radiologen.

Bij bestudering van de kwaliteit van de radiologische beoordeling wordt vaak een grote variatie gevonden.4 5 Bevindingen in een onderzoek van het Landelijke Referentiecentrum vormen daarop geen uitzondering. Aan 12 ervaren screeningsradiologen werd gevraagd een serie van 300 mammogrammen te beoordelen, waarvan er gemiddeld 16 een duidelijk zichtbaar carcinoom bevatten. De sensitiviteit en de specificiteit per radioloog is uitgezet in figuur 1. De sensitiviteit was gemiddeld 73 en varieerde van 20 tot 100. De resultaten geven aan dat er een grote behoefte is aan technieken die gericht zijn op verbetering van de radiologische beoordeling.

Computerondersteunde diagnose

In de afgelopen jaren is een nieuw onderzoeksgebied tot ontwikkeling gekomen, waarbij computers bij de diagnostiek worden ingezet. Nieuwe methoden die ontwikkeld worden om afwijkingen in medische beelden automatisch te herkennen, lijken bij uitstek geschikt om de kwaliteit van de mammografische beoordeling te verbeteren. Tal van onderzoeksgroepen zijn op dit gebied actief en veelbelovende resultaten die inmiddels zijn behaald, vinden hun weg naar toepassing in de praktijk.

In dit artikel geven wij een beknopt overzicht van de belangrijkste ontwikkelingen op dit gebied.

kunstmatige neurale netwerken

In methoden voor automatische herkenning van patronen in beelden kunnen twee stappen worden onderscheiden. Als eerste worden bewerkingen uitgevoerd die het beeld volledig doorlopen en op iedere locatie de daar aanwezige kenmerken in kaart brengen. Alle kenmerken die voor het probleem relevant lijken te zijn, worden zo uit het beeld gefilterd. In de tweede stap wordt op iedere locatie in het beeld bepaald of een bepaalde combinatie van kenmerken aanwezig is die lijkt op de combinaties die voorkomen bij de te vinden patronen. Voor deze laatste stap wordt vaak een kunstmatig neuraal netwerk gebruikt. Dit is een wiskundige techniek voor combinatie en classificatie van gegevens, die haar naam te danken heeft aan de analogie met de hersenen.

Computer ‘leert’ van voorbeelden

De kracht van deze techniek is de eenvoud waarmee een netwerk geprogrammeerd kan worden om te ‘leren’ van voorbeelden. Als basis voor het herkennen van afwijkende patronen in mammogrammen kan doorgaans worden uitgegaan van grote series voorbeelden met bekende pathologische afwijkingen. Het netwerk ‘leert’ tijdens een aparte trainingsfase hoe een willekeurige combinatie van beeldkenmerken moet worden omgezet in een maat die aangeeft hoe waarschijnlijk het is dat een van de pathologische afwijkingen op de onderzochte plaats aanwezig is. Tijdens het gebruik in de praktijk wordt de database met vaak duizenden bekende voorbeelden verder niet meer gebruikt, waardoor neurale netwerken erg snel werken.

herkenning van maligne microcalcificaties

In mammogrammen worden vaak kleine groepjes verkalkingen aangetroffen die kunnen duiden op aanwezigheid van een carcinoom. Bij ductale in-situcarcinomen (DCIS) vormen microcalcificaties meestal het enige afwijkende radiologische kenmerk. Radiologen moeten mammogrammen met een vergrootglas afzoeken op microcalcificaties, omdat ze zeer klein kunnen zijn. Methoden voor automatische herkenning van microcalcificaties zijn inmiddels zeer succesvol: een sensitiviteit die dicht bij de 100 ligt, is nu haalbaar bij een gering aantal fout-positieve beoordelingen van 1 per 10 mammogrammen.2 Fout-positieve beoordelingen worden vaak veroorzaakt door vaatkalk, en het kost de radioloog weinig tijd om deze als ‘niet-verdacht’ te identificeren. Het gebruik van automatische herkenning kan voorkómen dat radiologen belangrijke microcalcificatieclusters over het hoofd zien.

Aan de afbeelding van microcalcificatieclusters in een mammogram ligt vaak een benigne proces ten grondslag. Om het aantal fout-positieve doorverwijzingen in de screening laag te houden, moet de radioloog ‘verdachte’ microcalcificaties kunnen herkennen. In de praktijk blijkt dit vaak een probleem te zijn. Wellicht kan de computer hier in de toekomst een belangrijke rol gaan spelen. In een recent Amerikaans onderzoek werd al aangetoond dat classificatie van benigne/maligne microcalcificatieclusters door de computer gemiddeld beter was dan die door een groep radiologen.6 Ook bij ons in Nijmegen worden op dit gebied veelbelovende resultaten geboekt. Ter illustratie laat figuur 2 een voorbeeld zien van microcalcificatieclusters, met histologisch geverifieerde pathologie-uitslag, die door de computer geclassificeerd zijn.

detectie van invasieve carcinomen

De meeste carcinomen die bij screening worden gevonden, zijn invasief en worden mammografisch afgebeeld als een tumorschaduw of een densiteit. Kleinere tumoren kunnen echter eenvoudig gemaskeerd worden door klierweefsel. Een specifiek kenmerk dat op een carcinoom duidt, is de aanwezigheid van een lijnvormige uitstraling (spiculae) langs de begrenzing van de tumor. Daarnaast spelen asymmetrie en verstoring van de architectuur een rol bij de detectie.

Het vinden en het juist interpreteren van densiteiten is in de screening een groter probleem voor radiologen dan het beoordelen van microcalcificaties. In het laatste geval is het vaak geen probleem als de afwijking pas in een later stadium wordt ontdekt. Invasieve carcinomen moeten echter zo snel mogelijk gevonden worden, voordat metastasen optreden. In het bijzonder de laatste jaren begint het onderzoek naar automatische detectie van maligne densiteiten vruchten af te werpen. De computer is inmiddels in staat een aanzienlijk deel van de carcinomen die in screeningsprogramma's worden gemist, te classificeren als ‘verdacht’.2 7 Het aantal fout-positieve detectie-uitslagen neemt daarbij gestaag af. Zo wordt het mogelijk de computer te gebruiken als controlemiddel bij het beoordelen van de mammogrammen, om te voorkomen dat duidelijk verdachte gebieden over het hoofd worden gezien.

Spiculae

In onze onderzoeksgroep is een gevoelige techniek ontwikkeld voor het detecteren van tumoren met spiculae.8 Deze methode is gebaseerd op een wiskundige bewerking die voor ieder beeldpunt een lokale oriëntatie bepaalt. Overal waar een lijnvormige structuur aanwezig is, geeft deze bewerking een nauwkeurige schatting van de oriëntatie van deze structuur. Door statistische analyse van het zo verkregen veld van richtingen wordt op iedere plaats in het mammogram de kans berekend dat zich daar een centrum van een stervormig uitstralend lijnenpatroon bevindt. Deze lijnen mogen zeer vaag zijn. Het uitgangspunt is dat het verdacht is als er meer beeldpunten naar een centrum wijzen dan verwacht mag worden op basis van de statistiek.

Densiteiten

De laatste jaren is deze methode uitgebreid met bepaling van beeldkenmerken die op aanwezigheid van een densiteit duiden. Dit proces gaat in twee stappen. Eerst worden mogelijk verdachte gebieden in mammogrammen opgespoord door een combinatie van lokaal berekende kenmerken aan een neuraal netwerk aan te bieden. In deze stap worden veel fout-positieve uitslagen toegelaten om maximale sensitiviteit te bereiken. De geselecteerde locaties worden vervolgens aan een tweede module doorgegeven voor verdere verwerking met geavanceerder technieken. Als onderdeel daarvan wordt automatisch een contour bepaald die het verdachte gebied begrenst. In figuur 3 is een voorbeeld te zien van een mammogram van een borst waarin zich later een intervalcarcinoom voordeed. De tumor, die tijdens de screening niet door de radiologen werd ontdekt, wordt door de computer als ‘zeer verdacht’ aangemerkt.

Om de methode te testen werd een opeenvolgende serie mammogrammen met in de screening gedetecteerde carcinomen geselecteerd. Alle gevallen met alleen microcalcificaties werden uitgezonderd. De serie bevatte 264 mammogrammen van 72 patiënten met daarin 132 door een radioloog gemarkeerde tumoren (van 60 patiënten waren naast de oblique ook aanvullende craniocaudale mammogrammen aanwezig). De resultaten zijn weergegeven in figuur 4, waarin de sensitiviteit is uitgezet tegen het aantal fout-positieve markeringen per mammogram. Bij bepaling van de sensitiviteit werd bij patiënten met mammogrammen in twee opnamerichtingen detectie in één van beide projecties voldoende gevonden. De neurale netwerken die gebruikt werden bij de herkenning werden ‘getraind’ met een serie van ruim 2000 mammogrammen waarvan ongeveer 600 een carcinoom bevatten. De helft van de mammogrammen in de leerset was afkomstig uit internationale databestanden. Ter vergelijking is de prestatie van een fictieve radioloog in een screeningsprogramma in de figuur gemarkeerd, waarbij werd uitgegaan van een voorspellende waarde van een uitslag ‘verdacht’ van 50, een sensitiviteit van 70, een detectiecijfer van 0,004 en een factor 2 minder fout-positieve uitslagen voor films dan voor patiënten (50 voorspellende waarde bij een detectiecijfer van 4/1000 betekent ook 4 fout-positieve uitslagen per 1000 vrouwen ofwel 2 fout-positieve uitslagen per 1000 films). De computer bereikt dezelfde sensitiviteit als de radioloog, maar ten koste van een groter aantal fout-positieve uitslagen.

toepassing in de praktijk

Automatische detectie en interpretatie van afwijkingen op mammogrammen is een veelbelovende techniek die grote mogelijkheden biedt voor reductie van het aantal beoordelingsfouten in het bevolkingsonderzoek naar borstkanker. In het bijzonder voor detectie en beoordeling van microcalcificaties heeft de techniek een stadium bereikt waarin de sensitiviteit zo hoog is dat radiologen erop kunnen vertrouwen vrijwel niets over het hoofd te zien als zij zich bij het zoeken richten op een beperkt aantal gebieden die door de computer zijn aangewezen. Toepassing van patroonherkenning voor automatische detectie van tumorschaduwen blijkt aanzienlijk moeilijker te zijn, maar dankzij voortdurende onderzoeksinspanningen en nieuwe ontwikkelingen in de beeldwetenschap worden ook op dit terrein steeds betere resultaten behaald.

De almaar toenemende rekenkracht van computers en de mogelijkheid om zeer grote databestanden goedkoop te archiveren zijn de drijvende krachten achter automatische detectie en computerondersteunde diagnose. Bij patroonherkenning door computers worden meestal ‘zelflerende’ systemen zoals neurale netwerken gebruikt die met behulp van een leerset onderscheid ‘leren’ maken tussen verdachte en normale patronen. Complexe patroonherkenning kan alleen worden gerealiseerd wanneer enorme aantallen voorbeelden beschikbaar zijn. Op dit moment kunnen al duizenden beelden gebruikt worden om detectieprogramma's te ‘trainen’, soms met meer voorbeelden van carcinomen dan een radioloog gedurende zijn of haar loopbaan ziet.

Digitale mammografie

Het is te verwachten dat door technologische ontwikkelingen de komende 3-5 jaar de analoge mammografie vervangen zal worden door digitale mammografie. Alle toonaangevende fabrikanten zijn met de ontwikkeling van digitale mammografie bezig en de eerste systemen zijn in diverse ziekenhuizen in het kader van klinische trials in gebruik. Directe digitale opname maakt toepassing van automatische detectie zeer eenvoudig. Nu moeten mammogrammen nog gedigitaliseerd worden voordat de computer de bewerkingen kan uitvoeren, hetgeen invoering in de screening belemmert. Bij digitale opname vervalt deze belemmering en kunnen computerprogramma's voor ondersteuning van de radiologische beoordeling zonder problemen worden ingezet. Ook het toepassen van psychofysische technieken zoals toevoeging van bekende mammogrammen met afwijkingen om de beoordelende radioloog alert te houden, gaat dan tot de mogelijkheden behoren. Inmiddels speelt ook de industrie op deze ontwikkeling in. Recent werd een eerste systeem voor herkenning van borstkanker door de Food and Drug Administration (FDA) voor de Amerikaanse markt goedgekeurd. Dit gebeurde op basis van een uitgebreid onderzoek waarin werd aangetoond dat het systeem een sensitiviteit van circa 80 heeft voor retrospectief als ‘gemist’ geclassificeerde carcinomen.2

Dit onderzoek werd mogelijk gemaakt door financiële ondersteuning van de Nederlandse Kankerbestrijding en van R2 Technology Inc. (Los Altos, CA, VS).

Literatuur
  1. Blanks RG, Wallis MG, Moss SM. A comparison of cancerdetection rates achieved by breast cancer screening programmes by number ofreaders, for one and two view mammography: results from the UK NationalHealth Service breast screening programme. J Med Screen1998;5:195-201.

  2. Roehrig J, Doi T, Hasegawa A, Hunt B, Marshall J, RomsdahlH, et al. Clinical results with r2 imagechecker in support of fda pmaapplication. In: Karssemeijer N, Thijssen MAO, Hendriks JHCL, Erning LJTOvan, editors. Digital mammography. Dordrecht: Kluwer; 1998. p.395-400.

  3. Vitak B. Invasive interval cancers in theÖstergötland Mammographic Screening Programme: radiologicalanalysis. Eur Radiol 1998;8:639-46.

  4. Elmore JG, Wells CK, Lee CH, Howard DH, Feinstein AR.Variability in radiologists' interpretations of mammograms. N Engl J Med1994;331:1493-9.

  5. Schmidt RA, Newstead GM, Linver MN, Eklund GW, Metz CE,Winkler MN, et al. Mammographic screening sensitivity of generalradiologists. In: Karssemeijer N, Thijssen MAO, Hendriks JHCL, Erning LJTOvan, editors. Digital mammography. Dordrecht: Kluwer; 1998. p.383-8.

  6. Jiang YL, Nishikawa RM, Wolverton DE, Metz CE, Giger ML,Schmidt RA, et al. Malignant and benign clustered microcalcifications:automated feature analysis and classification. Radiology 1996;198:671-8.

  7. Brake GM te, Karssemeijer N, Hendriks JH. Automateddetection of breast carcinomas not detected in a screening program. Radiology1998;207:465-71.

  8. Karssemeijer N, Brake GM te. Detection of stellatedistortions in mammograms. IEEE Trans Med Imag1996;15:611-9.

Auteursinformatie

Academisch Ziekenhuis, afd. Radiodiagnostiek, Postbus 9101, 6500 HB Nijmegen.

Dr.ir.N.Karssemeijer, fysicus; ir.W.J.H.Veldkamp, elektrotechnicus; drs. G.M.te Brake, informaticus; dr.J.H.C.L.Hendriks, radioloog.

Contact dr.ir.N.Karssemeijer

Gerelateerde artikelen

Reacties