Dwalingen in de methodologie. XVI. Wat te doen met ontbrekende waarnemingen?

Klinische praktijk
Th. Stijnen
L.R. Arends
Citeer dit artikel als
Ned Tijdschr Geneeskd. 1999;143:1996-4
Abstract
Download PDF

Samenvatting

- In medisch-wetenschappelijk onderzoek waarin bij patiënten meerdere bepalingen worden verricht, zijn er vrijwel altijd ontbrekende waarnemingen.

- Bij ontbrekende waarden kan men ervoor kiezen de analyse alleen te baseren op de patiënten met complete data of op alle beschikbare data. Beide methoden kunnen grote bias opleveren en ze zijn eigenlijk alleen valide bij volledig at random ontbrekende waarden, dat wil zeggen waarden die onafhankelijk zijn van de andere gemeten variabelen en van niet-gemeten variabelen.

- Twee andere statistische methoden zijn de ‘likelihood’-methode en de methode van meervoudige imputatie. Beide maken efficiënt gebruik van alle beschikbare gegevens en van de correlaties die tussen deze data bestaan.

- Deze twee methoden zijn bruikbaar wanneer het ontbreken aan de minder strenge at-randomvoorwaarde voldoet waarbij het ontbreken afhankelijk is van alleen de andere gemeten waarden, maar niet van niet-gemeten variabelen.

- Het voorkómen van ontbrekende waarnemingen blijft de beste onderzoeksstrategie.

Hoezeer onderzoekers dit ook proberen te voorkomen, er blijken vrijwel altijd in medisch onderzoek ontbrekende waarnemingen (‘missing values’) te zijn. In de praktijk wordt bijna altijd een eenvoudige, niet op een statistisch model gebaseerde, methode gebruikt om met deze ontbrekende waarnemingen om te gaan. De populairste methoden worden in dit artikel kort besproken. Aan de hand van een voorbeeld met gesimuleerde data illustreren wij dat deze methoden alleen toegepast mogen worden onder de voorwaarde dat de ontbrekende waarden geheel onafhankelijk van zowel de andere gemeten als de niet-gemeten waarden van de personen in het onderzoek ontstaan zijn. Dit type volledig at random ontbrekende waarden wordt ‘missing completely at random’ genoemd. Dit is een tamelijk strenge voorwaarde, waaraan de gegevens in de praktijk vaak niet lijken te voldoen. Meestal zijn de ontbrekende gegevens namelijk wel enigszins geselecteerd. Dat kan gemakkelijk tot vertekening (‘bias’) van de onderzoeksresultaten leiden.

De laatste 10 à 15 jaar zijn er in de statistiek verscheidene methoden ontwikkeld die valide blijven onder een minder strenge voorwaarde, die ‘missing at random’ wordt genoemd. Onder deze voorwaarde mogen de ontbrekende gegevens wel in zekere mate selectief ontbreken: de kans dat een gegeven ontbreekt, mag wel van de data afhangen, maar alleen van de geobserveerde data en niet van de niet-geobserveerde data. Op de precieze definitie wordt elders uitgebreid ingegaan.1-3 ‘At random ontbreken’ is een veel minder strenge eis dan ‘volledig at random ontbreken’ en er wordt in de praktijk eerder aan voldaan. Ook op deze methoden komen wij met een voorbeeld terug.

populaire methoden om te corrigeren voor ontbrekende waarnemingen

In het medisch onderzoek komt het weinig voor dat er patiënten volledig ontbreken. Meestal zijn een of meer variabelen, zoals leeftijd, geslacht en diagnose, wel bekend. Wij beperken ons dan ook tot de situatie waarin er alleen gedeeltelijk ontbrekende patiëntengegevens zijn.

De methoden om met ontbrekende waarden om te gaan illustreren wij met een voorbeeld van gesimuleerde data, waarbij wij zelf een deel hebben laten ontbreken. Het grote voordeel van gesimuleerde data is dat ook de ontbrekende data bekend zijn, zodat wij de uitkomsten van de verschillende methoden kunnen vergelijken met de uitkomsten in het geval dat wij geen ontbrekende gegevens gehad zouden hebben.

Voorbeeld

Neem aan dat in een aselecte steekproef van 200 patiënten uit een bepaalde populatie de serumcholesterolconcentratie werd gemeten. Na een jaar werd de meting bij dezelfde groep herhaald. De eerste meting (Y1) werd gesimuleerd door een steekproef te trekken uit een normale verdeling met een gemiddelde van 5,2 mmol/l en een standaardafwijking van 1,2 mmol/l. Voor de tweede meting (Y2) werd een normale verdeling met een gemiddelde van 5,0 mmol/l en een standaardafwijking van 1,2 mmol/l aangenomen. De correlatie tussen Y1 en Y2 was 0,75. De aldus gecreëerde verzameling gegevens noemen wij in het vervolg de ‘volledige data’. Hierin werd op de volgende manier een aantal gegevens ‘ontbrekend’ gemaakt. Eerst werd geheel at random 18 van de cholesterolmetingen die waren gedaan op het eerste tijdstip ontbrekend gemaakt, wat resulteerde in 36 patiënten met een ontbrekende waarde Y1. Vervolgens werden, uitsluitend voor de patiënten met een aanwezige eerste meting, ontbrekende waarden gecreëerd voor de tweede meting met een bepaalde kans die afhing van de eerste meting: naarmate de eerste meting hoger was, werd de kans groter dat de tweede meting ontbrekend werd. Dit resulteerde in 24 patiënten met een ontbrekende Y2-waarde. Merk op dat dit niet onrealistisch is: het is goed denkbaar dat juist patiënten met een zeer hoge, of een zeer lage, serumcholesterolwaarde een grotere kans hebben om uit te vallen bij het onderzoek. In dit voorbeeld is 15 van de gegevens ontbrekend (60 van de 400), een percentage dat ook in de praktijk zeker niet ongewoon is.

De data zijn weergegeven in de figuur. De patiënten met complete data zijn als blokjes weergegeven in het vlak. De patiënten van wie alleen de eerste meting bekend is, zijn met een streepje op de horizontale as weergegeven; die met alleen de tweede meting zijn aangegeven op de verticale as. Merk op dat de ontbrekende waarden bij de tweede meting duidelijk geselecteerd zijn: de patiënten met een ontbrekende tweede meting hebben relatief hoge waarden bij de eerste meting. De ontbrekende waarden in dit voorbeeld zijn dus duidelijk niet volledig at random ontbrekend. Uit de manier waarop wij ontbrekende Y2-waarden gecreëerd hebben, blijkt dat wel aan de minder strenge at-randomvoorwaarde voldaan is. Het ontbrekend-zijn van de Y2-waarde hangt immers alleen van de, wel geobserveerde, waarde van Y1 af. In de eerste kolom van tabel 1 zijn enkele kenmerken van de volledige data weergegeven.

Analyse van patiënten met complete data

De meest gevolgde strategie in de praktijk is dat men zich in de data-analyse beperkt tot de subgroep van patiënten die geen enkele ontbrekende waarde hebben. Voordelen van deze aanpak zijn de eenvoud en het feit dat alle deelanalysen gebaseerd zijn op dezelfde patiënten. Een nadeel is dat dit kan leiden tot een drastische reductie van de hoeveelheid beschikbare gegevens, gemakkelijk tot een reductie van 50 of meer, en daardoor tot een verlies van statistische nauwkeurigheid, zich uitend in grotere betrouwbaarheidsintervallen. In ons voorbeeld is het aantal patiënten met complete data 140, een reductie van 30. Een belangrijker nadeel van deze analyse (in de Angelsaksische literatuur ‘complete cases’-analyse genoemd) is dat de resultaten alleen valide zijn als de ontbrekende waarden voldoen aan de strenge volledig-at-randomvoorwaarde. Dit wordt duidelijk geïllustreerd in de tweede kolom cijfers van tabel 1. Het gemiddelde van Y1, gebaseerd op de 140 patiënten met complete data, is 4,85 mmol/l, terwijl het 5,12 is voor de volledige data - een duidelijke (negatieve) bias. De bias wordt veroorzaakt door weglating van de 24 patiënten van wie de Y2-meting ontbrak. Immers, de Y2-waarde was vaker onbekend bij hoge waarden van Y1, welke hoge waarden in deze analyse van patiënten met complete data niet worden meegenomen. Ook het gemiddelde van Y2 is duidelijk (negatief) gebiast. Dit komt doordat de 24 ontbrekende waarden behoren bij hoge Y1-waarden. Wegens de samenhang tussen Y1 en Y2 zullen de ontbrekende Y2-waarden waarschijnlijk relatief hoog geweest zijn. Aangezien de negatieve bias in het gemiddelde van Y1 en die in het gemiddelde van Y2 niet tegen elkaar wegvallen, is ook de schatting van het gemiddelde verschil gebiast: 0,04 mmol/l voor de patiënten met complete data en 0,13 mmol/l voor de volledige data (de schatting van 0,13 gebaseerd op de volledige data is valide, dat wil zeggen ze wijkt alleen maar ten gevolge van toevalsvariatie af van de echte waarde 5,2 - 5,0 = 0,2 in de populatie, gebaseerd op de gemiddelden van de eerdergenoemde normale verdelingen). Het gemiddelde verschil tussen Y1 en Y2 is voor de volledige data statistisch significant (p = 0,04; t-toets voor gepaarde waarnemingen), maar niet voor de patiënten met complete data (p = 0,57). Wij kunnen derhalve concluderen dat in dit voorbeeld de analyse van de patiënten met complete data zeer inadequaat is.

Analyse van de beschikbare data

In deze aanpak worden voor elke schatting alle patiënten gebruikt van wie data beschikbaar zijn. Voor de schatting van de gemiddelde cholesterolwaarde op elk van de beide tijdstippen kunnen meer patiënten gebruikt worden dan in de analyse van patiënten met complete data. Een voordeel van deze methode (in de Angelsaksische literatuur ‘available cases’-methode genoemd) is dat minder gegevens verloren gaan dan bij de analyse van patiënten met complete data. Meestal (maar niet altijd) zijn de betrouwbaarheidsintervallen daarom smaller. Consequent doorvoeren van deze methode is in de praktijk echter heel lastig en kan soms leiden tot rare inconsistenties, bijvoorbeeld tot correlaties groter dan 1. Een belangrijker nadeel is echter dat ook deze aanpak vereist dat aan de strenge volledig-at-randomvoorwaarde voldaan is. Als dit niet zo is, geeft dit bias, die in het ene geval kleiner kan zijn dan in de analyse van patiënten met complete data, maar in het andere geval ook groter, zoals blijkt uit ons voorbeeld: in de derde kolom van tabel 1 zijn de resultaten van de beschikbare-data-analyse weergegeven. Anders dan in de analyse van patiënten met complete data is het gemiddelde op tijdstip Y1 nu zonder bias. Dit komt doordat nu alleen de 36 ontbrekende metingen niet zijn meegenomen die geheel willekeurig totstandgekomen waren. Het gemiddelde van de tweede meting blijft echter gebiast, wegens dezelfde oorzaak als in de analyse van patiënten met complete data. Ook de schatting van het gemiddelde verschil tussen serumcholesterolmetingen is behept met bias, zelfs een veel grotere dan die van de schatting gebaseerd op de patiënten met complete data. Dat komt doordat in de analyse van patiënten met complete data beide gemiddelden een bias hebben en deze gedeeltelijk tegen elkaar wegvallen als het verschil genomen wordt. Concluderend kunnen wij stellen dat ook de beschikbare-data-analyse in dit voorbeeld totaal inadequaat is om tot een valide schatting van het gemiddelde verschil te komen.

Andere methoden

Voor de volledigheid noemen wij de zogenaamde enkelvoudige imputatiemethoden. In plaats van patiënten uit de dataset weg te laten tracht men dan de ontbrekende data in te vullen (te ‘imputeren’) op basis van bepaalde veronderstellingen. Dit kan op allerlei manieren. In de praktijk wordt enkelvoudige imputatie vooral toegepast in regressieanalysen om de waarden van de voorspellende variabelen te completeren. In het algemeen moet deze methode sterk worden ontraden. Zelfs als aan de strenge volledig-at-randomvoorwaarde voldaan is, kunnen schattingen gebiast zijn. Bovendien zijn de resulterende betrouwbaarheidsintervallen vrijwel altijd te smal, met als gevolg dat men een grotere zekerheid omtrent de schattingen suggereert dan op grond van de data gerechtvaardigd is. Hierdoor kan men tevens ten onrechte significante verschillen tussen de schattingen vinden.

Een andere methode die vaak wordt toegepast in regressieanalysen voor ontbrekende waarden op de voorspellende variabelen is het gebruik van indicatorvariabelen. Recentelijk is het inzicht gegroeid dat ook deze methode moet worden afgeraden.4

modelmatige aanpak

In de statistiek wordt naarstig onderzoek gedaan naar analysemethoden die geldig blijven onder minder strenge voorwaarden dan het volledig at random ontbreken van de waarnemingen en waarin tegelijkertijd alle geobserveerde gegevens worden gebruikt. Zoals gezegd zijn er de laatste 10 tot 15 jaar verscheidene methoden beschikbaar gekomen die geschikt zijn voor vele in de praktijk voorkomende situaties. Een veelgebruikte methode is de zogenaamde ‘likelihood’-methode. Een andere, in opkomst zijnde methode is ‘meervoudige imputatie’ (‘multiple imputation’). Wij illustreren beide methoden aan de hand van ons datavoorbeeld.

Likelihoodmethode

Theoretisch kan bewezen worden dat onder de minder strenge at-randomvoorwaarde de analyse gebaseerd op de likelihood van alle geobserveerde data een valide aanpak is. Een bespreking van de likelihoodmethode valt buiten het bestek van dit artikel. De essentie van deze methode is dat gebruikgemaakt wordt van de correlatie tussen de variabelen. In ons voorbeeld ‘ziet’ de methode als het ware dat de patiënten die een ontbrekende waarde bij de Y2-meting hebben, relatief hoog scoren bij Y1. De methode anticipeert er dan op dat de niet-geobserveerde waarden van Y2, vanwege de hoge correlatie tussen Y1 en Y2, wel relatief hoog geweest zullen zijn. Het gemiddelde van de Y2-waarden, gebaseerd op de patiënten van wie de Y2-waarde wél bekend is, wordt dan door de methode automatisch naar boven gecorrigeerd.

Er komen steeds meer computerprogramma's op de markt waarmee in allerlei praktijksituaties de likelihoodanalyse gemakkelijk kan worden uitgevoerd. Voor de analyse in ons datavoorbeeld is gebruikgemaakt van de procedure Proc Mixed uit het SAS-pakket.5 De resultaten zijn weergegeven in de eerste kolom van tabel 2. De resultaten benaderen opmerkelijk goed de schattingen op grond van de volledige data. Het 95-betrouwbaarheidsinterval voor het verschil tussen de gemiddelden is 0,13 +/- 0,14 mmol/l, vergeleken met 0,13 +/- 0,12 mmol/l voor de volledige data. De p-waarde voor het verschil is 0,07 vergeleken met 0,036 voor de volledige data. Het iets wijdere betrouwbaarheidsinterval en de iets grotere p-waarde weerspiegelen het feit dat de likelihoodanalyse op minder data is gebaseerd.

Meervoudige imputatie

Deze methode, die evenals de likelihoodmethode gebruikmaakt van alle waarnemingen en geldig is als de ontbrekende waarden aan de minder strenge at-randomvoorwaarde voldoen, bestaat uit twee stappen. De eerste stap is het completeren van de dataset door de ontbrekende waarden in te vullen, de tweede is de eigenlijke data-analyse. In feite worden er meerdere gecompleteerde datasets gemaakt, waarbij de verschillen tussen de gecompleteerde datasets de onzekerheid representeren ten aanzien van de ontbrekende waarden. De imputaties zijn gebaseerd op statistische modellering van de data, waarop wij hier niet verder ingaan; het recente boek van Schafer doet dat wel.2 Intuïtief komt het voor ons voorbeeld op het volgende neer. Om een ontbrekende waarde op tijdstip Y2 te schatten gebruikt men de regressielijn die de Y2-uitslagen uit de Y1-uitslagen voorspelt. Teneinde de onzekerheid in de voorspelling te weerspiegelen telt men bij de voorspelling op grond van de regressielijn een randomcomponent op waarvan de grootte bepaald wordt door de variabiliteit rondom de regressielijn. Dit wordt een aantal keren herhaald, bijvoorbeeld 5 keer, leidend tot 5 verschillende imputaties. Mutatis mutandis worden voor ontbrekende waarden op Y1 imputaties gemaakt met behulp van de regressie van Y1 op Y2.

Wanneer men eenmaal beschikt over een aantal gecompleteerde datasets (5 blijkt in de praktijk genoeg te zijn), kan de eigenlijke analyse met statistische standaardmethoden en standaardprogrammatuur uitgevoerd worden; men moet deze analyse echter wel bij elke geïmputeerde dataset herhalen en de resultaten hiervan moeten worden gecombineerd. Dit laatste is heel eenvoudig. De geschatte metingen kunnen gewoon gemiddeld worden en er is een eenvoudige, gemakkelijk handmatig te berekenen formule voor het bijbehorende 95-betrouwbaarheidsinterval.

Een groot voordeel van de meervoudige-imputatieaanpak kan zijn dat de imputatietaak gescheiden wordt van de eigenlijke analyse. De imputatietaak zou bijv. uitgevoerd kunnen worden door een gespecialiseerde statisticus en hoeft slechts één keer te gebeuren. Daarna kunnen met standaardprogrammatuur vele analysen worden verricht door een of meerdere onderzoekers.

Op de data van de figuur is de imputatiemethode als volgt toegepast. Met behulp van het programmapakket BUGS werden 5 verschillende geïmputeerde complete datasets gemaakt.6 Met een standaardprogrammapakket werden deze afzonderlijk geanalyseerd en de geschatte uitkomsten werden gemiddeld over de 5 analysen. In de laatste kolom van tabel 2 is het resultaat weergegeven. In dit voorbeeld blijkt het verschil met de likelihoodmethode heel klein te zijn, hetgeen in de praktijk meestal het geval is. Het 95-betrouwbaarheidsinterval voor het verschil tussen de gemiddelden en de p-waarde voor het verschil waren zo goed als gelijk aan die gebaseerd op de volledige data.

conclusies

Als men in de situatie verkeert dat het aantal ontbrekende waarnemingen heel gering is (enkele procenten), maakt het praktisch gesproken niet uit welke methode men hanteert om met die waarnemingen om te gaan. Als het percentage ontbrekende waarden niet verwaarloosbaar is, zou men eerst kunnen onderzoeken of het redelijk is om te veronderstellen dat de ontbrekende waarden voldoen aan de strenge volledig-at-randomvoorwaarde. Dit kan men doen door te kijken of het ontbreken van waarden van een bepaalde variabele samenhangt met een of meer andere variabelen. Indien dat het geval blijkt, is in ieder geval niet aan de strenge volledig-at-randomvoorwaarde voldaan, maar mogelijk wel aan de minder strenge at-randomvoorwaarde. In ons voorbeeld blijkt bijvoorbeeld het ontbreken van een Y2-meting duidelijk samen te hangen met de Y1-meting. Als het volledig at random ontbreken een redelijke veronderstelling lijkt, kan men voor een analyse kiezen die gebaseerd is op de patiënten met complete data of op de beschikbare-databenadering. Dit zijn dan valide wijzen van aanpakken, maar men moet de wijdere betrouwbaarheidsintervallen en de grotere p-waarden vanwege de reductie van het aantal waarnemingen voor lief nemen. Als men moet aannemen dat de ontbrekende waarden niet aan de volledig-at-randomvoorwaarde voldoen, moet men kiezen voor een van de modernere methoden, bijvoorbeeld een likelihoodaanpak of een meervoudige-imputatiemethode zoals in het voorgaande beschreven, omdat deze methoden geldig blijven onder de minder strenge at-randomvoorwaarde.

Natuurlijk kan het zijn dat zelfs aan deze at-randomvoorwaarde niet voldaan wordt (hoewel dat in de praktijk gelukkig toch vaak wel bij benadering het geval lijkt te zijn). Toch is dan het toepassen van een methode die geldig is onder de at-randomvoorwaarde nog steeds beter dan bijvoorbeeld een analyse van patiënten met complete data. Overigens is het at random ontbreken niet verifieerbaar; het is een zogenaamde niet-toetsbare veronderstelling. De beste strategie die men kan volgen met het oog op ontbrekende waarden is dan ook ervoor te zorgen dat men ze niet krijgt. Ook hier geldt: voorkomen is beter dan genezen.

Literatuur
  1. Little RJA, Rubin DB. Statistical analysis with missingdata. New York: Wiley; 1987.

  2. Schafer JL. Analysis of incomplete multivariate data.Londen: Chapman & Hall; 1997.

  3. Verbeke G, Molenberghs G. Linear mixed models in practice.A SAS-oriented approach. New York: Springer; 1997.

  4. Greenland S, Finkle WD. A critical look at methods forhandling missing covariates in epidemiologic regression analyses. Am JEpidemiol 1995;142:1255-64.

  5. SAS/STAT software. Changes and enhancements throughrelease 6.11. Cary, NC: SAS Institute Inc.; 1996.

  6. Gilks WR, Thomas A, Spiegelhalter DJ. A language andprogram for complex Bayesian modelling. Statistician1994;43:169-77.

Auteursinformatie

Erasmus Universiteit, faculteit Geneeskunde en Gezondheidswetenschappen, Instituut Epidemiologie en Biostatistiek, Postbus 1738, 3000 DR Rotterdam.

Prof.dr.Th.Stijnen en mw.drs.L.R.Arends, biostatistici.

Contact prof.dr.Th.Stijnen (stijnen@epib.fgg.eur)

Gerelateerde artikelen

Reacties