De statistiek van overlevingscurven

Klinische praktijk
J.C. van Houwelingen
Citeer dit artikel als
Ned Tijdschr Geneeskd. 1991;135:1735-44
Download PDF

Inleiding

Overlevingscurven zijn tegenwoordig een populair middel om de resultaten van vooral oncologisch onderzoek visueel te presenteren. In de oncologische onderzoeksliteratuur, bijvoorbeeld op het terrein van ovariumkanker,12 kan men bijna geen artikel opslaan zonder daarin minstens één Kaplan-Meier-overlevingscurve aan te treffen. De Kaplan-Meier-curve is vaak gekoppeld aan de logrank-toets voor het vergelijken van twee of meer groepen. In statistisch meer geavanceerde artikelen wordt ook vaak een ‘proportional hazards’-analyse uitgevoerd,3 vaak aangeduid als ‘Cox-regressie’, om inzicht te krijgen in de voorspellende waarde van bepaalde risicofactoren voor de overleving van individuen.

Sterftetabellen zijn al heel oud. Beroemde namen op dit gebied zijn Johan de Witt,4 Halley,5 en Arbuthnott.6 De eerste toepassingen van sterftetabellen lagen op het gebied van de levensverzekeringswiskunde en ze zijn ook heel lang het exclusieve speelgoed van de actuarissen gebleven.

De klassieke statistiek maakte haar belangrijkste ontwikkelingen door in de periode tussen beide wereldoorlogen, met als mijlpalen Fishers ‘Statistical methods for research workers’,7 en ‘The design of experiments’,8 maar de analyse van overlevingsduurgegevens werd pas later ontwikkeld. Markeringspunten voor deze ontwikkeling zijn achtereenvolgens de publikaties van Kaplan en Meier,9 Mantel,10 Cox,11 en Gill.12 Het werk van Gill geeft de mathematische fundering van alle eerder ontwikkelde statistische methoden en sluit daarmee in zekere zin de ontwikkeling af. Mede voor zijn werk op dit terrein is hem in 1990 door de Vereniging voor Statistiek de Van Dantzig-prijs toegekend.

Dit artikel is bedoeld om meer inzicht te geven in het concept ‘overlevingscurve’, de Kaplan-Meier-methode om die te schatten en de logrank-toets om twee overlevingscurven met elkaar te vergelijken. Ten slotte zal iets gezegd worden over het idee achter ‘proportional hazards’-regressie.

De overlevingscurve

Het Centraal Bureau voor de Statistiek (CBS) produceert regelmatig ‘Sterftetafels voor Nederland’.13 De sterftetabellen voor mannen en vrouwen gebaseerd op de onderzoeksperiode 1966-70 zijn gedeeltelijk overgenomen in tabel 1.

De tabel geeft de overlevingskansen weer als functie van de leeftijd voor een kind dat in de onderzoeksperiode geboren is. De getallen in deze tabellen zijn in zekere zin fictief, omdat ze berusten op de veronderstelling dat de sterftekansen in de toekomst dezelfde zullen zijn als in de onderzoeksperiode.

Grafische weergave van de volledige gegevens leidt tot figuur 1. Dit is een mooi voorbeeld van een set overlevingscurven. Uit de grafiek is zowel voor mannen als voor vrouwen af te lezen wat de kans is om bij een bepaalde leeftijd nog in leven te zijn, ofwel wat de kans bij de geboorte is om minstens deze leeftijd te halen. De gegevens die niet in tabel 1 zijn terug te vinden, zijn in principe uit de grafiek af te lezen. In een overlevingscurve wordt de horizontale as meestal aangeduid met het symbool t voor ‘tijd’ en de verticale as met S voor ‘overleving’ (Engels: survival). Soms wordt S gegeven als percentage, en soms als fractie of als kans, dat wil zeggen als een getal tussen 0 en 1. Wij zullen beide mogelijkheden door elkaar gebruiken. De overlevingskans als functie van de tijd wordt aangeduid met S(t).

Uit de overlevingscurve is ook af te lezen bij welke leeftijd nog 90, 80, ..., 10 in leven is. Deze percentielen, die afgelezen kunnen worden uit figuur 1, worden gegeven in tabel 2. Een veelgebruikt percentiel is het 50e percentiel, ook wel aangeduid als de mediane overlevingsduur, of kortweg de mediaan. Dit is de leeftijd waarbij nog 50 in leven is. In figuur 2 is schematisch weergegeven hoe de mediaan uit de overlevingscurve kan worden afgelezen.

Voor de gegevens van figuur 1 is de overlevingsduur equivalent met de gewone leeftijd. Dit is de gebruikelijke situatie in de populatie-epidemiologie, waarvan de sterftetafels van het CBS een goed voorbeeld zijn. Bij klinisch onderzoek ligt de situatie meestal anders. Bij onderzoek naar het effect van een bepaalde therapie bekijkt men de overlevingsduur vanaf het moment van de diagnose of vanaf de start van de behandeling. De leeftijd op het beginmoment kan van persoon tot persoon verschillen. Het is vaak een onderwerp van studie om na te gaan of de leeftijd invloed heeft op de overlevingskansen van de patiënt. Verder behoeven het niet altijd levensduren te zijn die worden bestudeerd. Verschillende eindpunten kunnen worden gehanteerd, die elk hun eigen ‘overlevingsduur’ definiëren. Bij oncologisch onderzoek kan het eindpunt zijn het optreden van recidief, bij transplantatie-onderzoek de afstoting van het transplantaat. Men spreekt in dit geval van respectievelijk ‘ziektevrije overleving’ en ‘transplantaatoverleving’. Voorbeelden van beginpunten en eindpunten bij diverse soorten van onderzoek zijn beschreven.14

Bij overlevingsduren van dit meer algemene type behoeft de overlevingscurve niet noodzakelijk tot de horizontale as te dalen. In figuur 3 is zo'n curve getekend voor ziektevrije overleving. De asymptoot stemt overeen met de fractie patiënten die blijvend genezen is. In zo'n geval is de gemiddelde overlevingsduur niet zinvol gedefinieerd (strikt genomen is die oneindig groot). Zelfs de bepaling van de mediaan kan op problemen stuiten als meer dan 50 blijvend genezen is.

Een andere toepassing van overlevingscurven zien wij bijvoorbeeld in de orthopedie, waar het startpunt de botbreuk is en het eindpunt het moment van volledig herstel. In die situatie heeft ‘overlevingsduur’ een negatieve betekenis. Hoe langer de ‘overleving’ duurt, hoe erger. De asymptoot in figuur 3 correspondeert dan met het deel van de patiënten dat niet geneest. Ondanks dit verschil in interpretatie kan een ‘overlevingscurve’ een heel goede manier zijn om het herstelproces te beschrijven.

Hoewel de overlevingscurve in principe alle beschikbare informatie weergeeft, kan de vergelijking van 2 of meer groepen op basis van deze curven soms lastig zijn en niet zo eenvoudig te interpreteren. Het kan dan nuttig zijn om te kijken naar de sterftekansen en die te vergelijken. Bij de bepaling van overlevingskansen uit empirische gegevens en bij het toetsen op verschil spelen deze sterftekansen ook een belangrijke begripsmatige rol. Reden om eerst stil te staan bij het begrip ‘sterftekans’ (Engels: hazard) voordat wij verder ingaan op het schatten van overlevingscurven uit empirische gegevens. Als voorbeeld nemen wij de gegevens van tabel 1 en figuur 1.

In woorden wordt de ‘sterftekans per jaar’ gedefinieerd als de kans op overlijden in een bepaald jaar van de individuen die aan het begin van dat jaar nog in leven waren. Hoe zo'n sterftekans bepaald wordt voor de gegevens van tabel 1 wordt gedemonstreerd in tabel 3. Om ruimte te besparen, wordt de berekening van de sterftekans niet voor alle jaren gegeven. Terwille van de eenvoud wordt in tabel 3 uitgegaan van 100.000 levendgeboren mannen en 100.000 levendgeboren vrouwen. De sterftekans wordt aangeduid met het symbool h. Het resultaat van de volledige berekening wordt gegeven in figuur 4 (omwille van de leesbaarheid loopt de grafiek tot de leeftijd van 70 jaar; daarna lopen de sterftekansen namelijk snel op).

In figuur 5 is de verhouding van de sterftekansen van mannen en vrouwen weergegeven. Wij zien dat deze verhouding maximaal is rond de leeftijd van 20 jaar en dat de verhouding nagenoeg 1 wordt op hogere leeftijd. De verhouding van de sterftekansen geeft een soort leeftijdsgebonden relatief overlijdensrisico van mannen ten opzichte van vrouwen. In een formule wordt de sterftekans per jaar gegeven door

Immers, S(i) is de fractie van de oorspronkelijke populatie die aan het begin van jaar i nog in leven is, en S(i)-S(i1) is de fractie van de oorspronkelijke populatie die in jaar i overlijdt. Merk op dat het eerste levensjaar hier wordt aangeduid als jaar 0, het tweede als jaar 1, enzovoorts. De overlevingkansen S(i) zijn ook weer terug te rekenen uit de sterftekansen h(i) via de zogenaamde produktregel

In tabel 3 is eenvoudig na te gaan dat dit klopt, maar ook intuïtief is dit wel duidelijk: bijvoorbeeld, de kans om de eerste 3 jaar te blijven leven is gelijk aan de kans om de eerste twee jaar te blijven leven maal de kans om ook het derde jaar te overleven. De eerste kans is S(2), de tweede is gelijk aan 1-h(2).

In deze beschouwingen is de tijd in zekere zin gediscretiseerd, dat wil zeggen in blokjes van steeds een jaar opgedeeld. Willen wij het proces nog nauwkeuriger beschrijven, dan zouden wij nog kleinere en zelfs heel kleine intervallen moeten bekijken. Dat leidt tot het begrip ‘instantane sterftekans’ (Engels: hazard rate), met als symbool h(t), waarop wij in dit bestek niet al te diep willen ingaan. Voor de geïnteresseerde lezer vermelden wij dat de formele definitie gegeven wordt door

waarbij S‘(t) staat voor de afgeleide van S(t) naar de tijd. Het is mogelijk dat h(t) >1. Dat zit besloten in de definitie van h(t) als sterftekans per tijdseenheid. Het eenvoudigste voorbeeld is waar h(t) constant is, zeg h(t) = ?. Dit leidt tot de exponentieel afnemende overlevingskans S(t) = e-?t

Het schatten van overlevingscurven uit empirische gegevens

Overlevingscurven zijn eenvoudig te schatten als alle overlevingsduren van de individuen in het onderzoek exact bekend zijn. Als gefingeerd voorbeeld bekijken wij de situatie waarin een historisch demograaf onderzoek verricht naar de overleving van de jongens die in 1880 in Amsterdam geboren zijn. Uit het bevolkingsregister trekt hij een steekproef van 20 jongens en gaat door zorgvuldig speurwerk na hoe lang die zijn blijven leven. Dit leidt tot de volgende overlevingsduren in jaren:

1;2;18;21;25;33;43;45;50;55;57;58;61;65;67;68;70;72;75;85.

Door na te gaan welk deel van de hele groep bij een bepaalde leeftijd nog in leven is, is de overlevingscurve eenvoudig te schatten. Bijvoorbeeld:

De caret op S geeft aan dat het hier om geschatte overlevingskansen gaat, gebaseerd op een steekproef. De bijbehorende overlevingscurve is getekend in figuur 6.

De sprongen in de overlevingscurve zijn steeds 120 = 5. In de sprongpunten is de overlevingskans strikt genomen gelijk aan de laagste waarde. Verbinden van deze punten door rechte lijnen zou echter een onjuiste indruk geven van de overlevingscurve. Het beste is om het springerige karakter maar te accepteren; in de literatuur zijn dit soort springerige curven ook zeer gebruikelijk.

Bij de interpretatie van figuur 6 dient men zich er wel van bewust te zijn dat deze figuur slechts gebaseerd is op een steekproef van 20 jongens uit het cohort van alle jongens die in 1880 in Amsterdam geboren werden. De geschatte kansen zijn dan ook verre van nauwkeurig. De onnauwkeurigheid wordt gegeven door de

Deze formule is van toepassing als alle overlevingsduren bekend zijn. Met behulp van deze formule kan een 95-betrouwbaarheidsband om de geschatte overlevingscurve bepaald worden. In figuur 6 is deze band getekend.

Uit deze betrouwbaarheidsband wordt het duidelijk dat in een onderzoek met niet meer dan 20 individuen de overlevingskansen slechts met een zeer beperkte nauwkeurigheid te bepalen zijn. In de literatuur ontbreken deze betrouwbaarheidsbanden vaak, wat kan leiden tot een te absolute interpretatie van de kansen zoals die uit de overlevingscurve zijn af te leiden. In de voorgaande berekeningen en formules is ervan uitgegaan dat alle overlevingsduren exact bekend zijn. In de praktijk is dat zelden het geval, omdat (gelukkig) meestal veel individuen nog in leven zijn op het moment dat een onderzoek wordt afgesloten. Wanneer de historisch demograaf uit ons gefingeerde onderzoek zich gericht zou hebben op het cohort van alle jongens die in 1930 in Amsterdam geboren waren, dan zou hij in problemen zijn gekomen omdat velen nog in leven zijn en zou hij dus niet in staat zijn geweest om de overlevingscurve op dezelfde manier te bepalen als voor het cohort van 1880. Tot de levensduur van 61 jaar is de curve nog te bepalen, maar daarna ontbreekt de benodigde informatie. Van allen die nog in leven zijn, is alleen bekend dat zij minstens 61 oud geworden zijn.

Dit verschijnsel wordt aangeduid als ‘censurering’. Bij klinisch follow-up-onderzoek doet het zich ook veelvuldig voor en vaak in een nog ingewikkelder vorm. In figuur 7 wordt een voorbeeld getoond van dergelijk onderzoek. Vanaf de start van het onderzoek worden patiënten sequentieel opgenomen. Elke patiënt kan slechts gevolgd worden tot het moment dat het onderzoek wordt afgesloten. Is de patiënt op het moment van beëindiging van het onderzoek nog in leven, dan levert dat een gecensureerde waarneming op. De ‘overlevingsduur’ die dan bepaald wordt, is de lengte van het tijdsinterval vanaf het moment van opname in het onderzoek tot het moment van overlijden of van censurering.

Censurering kan ook optreden door andere oorzaken, in de 1e plaats door bijvoorbeeld het verdwijnen van de patiënt uit het onderzoek vanwege verhuizing, emigratie, gebrek aan bereidheid om verder aan het onderzoek deel te nemen, niet meer verschijnen voor controle, en dergelijke. In al die gevallen wordt dat ook als een gecensureerde waarneming beschouwd, met als moment van censurering het laatste tijdstip waarop bekend was dat de patiënt nog in leven was. Hierbij is het risico levensgroot dat er vertekening (‘bias’) optreedt omdat de censurering verband houdt met het overlijden. Het kan zijn dat de patiënt niet meer meewerkt omdat hij zijn einde voelt naderen en niet verder behandeld wenst te worden. Het kan ook zijn dat hij zich volledig hersteld voelt en verdere controle zinloos acht. In beide gevallen treedt vertekening op. Het is aan de onderzoeker om zich ervan te verzekeren dat de ‘loss-to-follow-up’ geen verband houdt met het overlijden. De statistische methoden die wij hierna zullen bespreken, gaan er namelijk van uit dat het censureringsmechanisme in wezen hetzelfde is als in de situatie van figuur 7 en dat gecensureerde patiënten op het moment van censurering dezelfde overlevingskansen hebben als patiënten die vanaf een vergelijkbaar moment nog verder gevolgd worden.

Een 2e oorzaak van censurering treedt op bij de bestudering van ziekte-specifiek overlijden. Als men alleen geïnteresseerd is in het overlijden ten gevolge van een bepaalde ziekte, zou men het overlijden aan andere ziekten als een vorm van censurering kunnen beschouwen. Dat ook dit een vertekening kan veroorzaken, mag duidelijk zijn: denk slechts aan bepaalde vormen van suïcide die best verband kunnen houden met de prognose van de patiënt, en dus met de ziekte, maar die niet als zodanig geregistreerd worden.

Alhoewel bestudering van ziekte-specifiek overlijden wetenschappelijk van groot belang kan zijn, dient men zich bewust te zijn van de mogelijke vertekening. Bij het vergelijken van therapieën beperkt men zich dan ook meestal tot overlijden-ongeacht-de-oorzaak om niet de verdenking op zich te laden van manipulatie van de gegevens.

Om overlevingscurven te schatten in geval van gecensureerde waarnemingen zijn er twee methoden. Met de actuariële methode gaat men uit van een opdeling van de tijdas in perioden, schat per periode de sterftekans en daaruit weer de overlevingscurve met de produktregel (formule 2). Dit geeft schattingen van de overlevingskansen aan het begin en het einde van iedere periode. De overlevingskansen voor de tussenliggende tijdstippen worden geschat door middel van lineaire interpolatie. De sterftekans in een bepaalde periode wordt als volgt geschat:

waarbij

: geschatte sterftekans,

d: aantal overleden in de periode,

r: aantal in leven aan het begin van de periode (aantal ‘at risk’),

c: aantal gecensureerden (‘lost-to-follow-up’) in de periode.

Een voorbeeld van een dergelijke berekening voor de gegevens over patiënten met ovariumkanker in een gevorderd stadium is te vinden in tabel 4.3 Omdat de minimale follow-up-duur 4 jaar was, vindt er in de eerste 4 jaar geen censurering plaats. De grafische weergave van de actuariële overlevingscurve is te vinden in figuur 8.

Nadeel van de actuariële methode is dat de opdeling in perioden iets arbitrairs heeft en dat het verloop van de overlevingscurve in 1 periode alleen door interpolatie geschat wordt. De methode van Kaplan-Meier gebruikt de originele gegevens zonder die per periode te groeperen. De redenering erachter is als volgt:

– De enige momenten waarop sterfte kan optreden, zijn de waargenomen echte sterftetijdstippen. Tijdstippen waarop censurering is opgetreden, zijn hierbij niet relevant.

– De sterftekans per tijdstip wordt geschat met de formule

Merk op dat er geen correctie voor gecensureerde waarnemingen plaatsvindt. Mochten censureringstijdstippen en sterftetijdstippen samenvallen, dan worden de gecensureerde waarnemingen geacht te horen bij patiënten die op dat moment nog in leven zijn.

– De overlevingskans voor en na elk tijdstip wordt geschat met de produktregel (formule 2). Tussen de echte sterftetijdstippen in is de geschatte overlevingskans constant.

Als voorbeeld van de berekening van de Kaplan-Meier-overlevingscurve bekijken wij een gefingeerde set gegevens met de overlevingsduren in maanden van een groep van 15 patiënten. De waarnemingen zijn:

3; 4; 8; 9; 10, 10; 12; 13; 14; 15; 15; 17; 18; 20; 24.

(Een plusteken achter een getal duidt een gecensureerde waarneming aan.) De berekening van de Kaplan-Meier-overlevingskansen wordt gegeven in tabel 5; de resultaten zijn grafisch weergegeven in figuur 9. De curve kan in principe doorgetrokken worden tot de laatste waarneming. Is dit een echt sterftetijdstip, dan zakt de curve daar tot nul. Betreft het een gecensureerde waarneming, dan krijgt de curve een ‘open’ eind.

De nauwkeurigheid van de geschatte overlevingskans kan worden bepaald met de formule van Greenwood voor de standaardafwijking van S(t).15 De formule zelf laten wij hier achterwege. In het geval van geen censurering levert dit weer de eenvoudige formule die wij eerder zagen (formule 5). Statistische software voor de berekening van de Kaplan-Meier-curve geeft meestal ook deze standaardafwijking (‘standard error’) van de schatting. De standaarddeviatie kan weer gebruikt worden om een 95-betrouwbaarheidsband om S(t) aan te brengen. In figuur 9 is deze band ook getekend.

Als er veel censurering optreedt, wordt de staart van de overlevingscurve relatief onnauwkeuriger. Het kan daarom zinvol zijn om de gecensureerde waarnemingen weer te geven op de wijze waarop dat in figuur 9 gedaan is. Dat geeft wel enige informatie, maar persoonlijk prefereer ik de betrouwbaarheidsband.

Het nadeel van de Kaplan-Meier-methode is dat deze geen goede schatting van de sterftekansen geeft. Bij de berekening van de curve wordt ervan uitgegaan dat sterfte alleen optreedt op de geobserveerde echte sterftetijdstippen. Dat levert een correcte schatting van de overlevingskansen op, maar een vertekend beeld van de sterftekansen. Om uit de Kaplan-Meier-curve sterftekansen te kunnen distilleren, moet deze eerst ‘glad getrokken’ worden. Hoe dat precies gaat, valt buiten het kader van dit artikel. De actuariële methode geeft wel redelijke schattingen van de sterftekansen, zij het dat die per constructie constant zijn binnen elke periode.

Het vergelijken van twee overlevingscurven

Vaak is men niet zozeer geïnteresseerd in één overlevingscurve, maar meer in de vergelijking van 2 overlevingscurven, zoals bij gerandomiseerde klinische onderzoeken. Laten de groepen die men vergelijkt, aangeduid worden met A en B, dan is men geïnteresseerd in de vraag of de overleving in A statistisch significant verschilt van die in B, in die zin dat de overleving in A grosso modo korter (of juist langer) is dan die in B. In termen van overlevingscurven komt dat erop neer dat de echte (in tegenstelling tot de geschatte) overlevingscurve van A onder of boven die van B ligt. Indien er geen censurering optreedt, kan dit getoetst worden met de t-toets van Student of de Wilcoxon-Mann-Whitney-toets. In geval van censurering wordt de toets wat lastiger. Een mogelijkheid is om een vast tijdstip to te kiezen en met behulp van de geschatte standaardafwijkingen te toetsen of de overlevingskans op dat tijdstip verschilt tussen de beide groepen. Dit heeft natuurlijk iets arbitrairs vanwege de keuze van t0. Uitvoering van deze toets bij meerdere tijdstippen leidt echter weer tot inflatie van de gevonden significanties ten gevolge van het herhaald toetsen.

Om die redenen is een globale toets ontwikkeld die aangeduid wordt met ‘logrank-toets’. Deze is gebaseerd op de redenering dat als er geen verschil is tussen A en B, de sterftekansen op elk tijdstip ook gelijk moeten zijn. De toetsingsgrootheid is een soort gewogen som van de verschillen in sterftekans, gesommeerd over alle echte sterftetijdstippen. Als er geen verschil is tussen A en B, wordt de sterftekans hA voor dat tijdstip geschat door

waarin rA en rB staan voor het aantal patiënten at risk vlak voor het sterftetijdstip in respectievelijk groep A en groep B, en dA en dB voor het op dat sterftetijdstip overleden aantal patiënten.

Gebaseerd op deze sterftekans en het aantal patiënten at risk rA wordt de verwachte sterfte EA in groep A voor het beschouwde tijdstip gegeven door

Door dA te vergelijken met EA kan per tijdstip enige indruk worden verkregen of de sterftekansen gelijk zijn of niet. Een globale toetsingsgrootheid wordt verkregen door de verschillen over alle sterftetijdstippen op te tellen:

Als D > 0, dan duidt dat erop dat de sterftekans in A groter is dan die in B. Als D 2) van D. In het geval de sterftetijdstippen niet samenvallen, dat wil zeggen dA dB = 1, is deze bijdrage eenvoudig gelijk aan EA (1-EA ). De uitvoering van de toets kan worden gebaseerd op

of op Z2. De eerste toetsingsgrootheid (Z) heeft bij benadering een standaardnormale verdeling, de tweede een ?2-verdeling met 1 vrijheidsgraad. Z2 is de gebruikelijke toetsingsgrootheid in de literatuur en de statistische software, maar Z heeft het voordeel dat je de richting van het verschil eraan kunt aflezen. Als voorbeeld van de uitvoering van de logrank-toets bekijken wij de volgende set gegevens:

11; 15; 26; 30; 31; 35 (overlevingsduren in groep A);

12; 25; 29; 33; 36; 40 (overlevingsduren in groep B).

De berekeningen voor de logrank-toets worden gegeven in tabel 6. Uit de resultaten van deze tabel volgt met formule 10 dat

Het verschil in overleving is verre van significant (p = 0,43). Dat is ook niet verwonderlijk, omdat de steekproeven in dit voorbeeld maar klein zijn.

Zoals eerder opgemerkt is, is de logrank-toets gebaseerd op het vergelijken van de sterftekansen. Met behulp van de logrank-toets kan men vaststellen of in de ene groep de sterftekansen systematisch (dat wil zeggen over de gehele bestudeerde periode) hoger of lager zijn dan in de andere groep. Als dat zo is, zijn ook de overlevingskansen in de ene groep systematisch lager of hoger dan in de andere groep. Het omgekeerde behoeft niet waar te zijn. Als de sterftekansen bij behandeling A eerst groter zijn dan bij behandeling B, maar later juist kleiner, dan kan toch de overlevingscurve voor A over het gehele traject onder die van B liggen. Men spreekt in dat geval van kruisende hazards of sterftekansen. Met de logrank-toets zal men in zo'n geval het verschil in overleving tussen A en B moeilijk vast kunnen stellen. In een dergelijke situatie verdienen generalisaties van de Wilcoxon-toets voor gecensureerde gegevens de voorkeur.

Statistische modellen

In het voorgaande hebben wij wel getoetst of er verschil in overlevingkansen is tussen 2 groepen, maar nagelaten om een maat aan te geven waarin dat verschil kan worden uitgedrukt. Natuurlijk kan het verschil in overleving in zekere zin afgelezen worden van de Kaplan-Meier-curven voor beide groepen, maar dit is een meer kwalitatieve vergelijking, die niet eenvoudig leidt tot 1 enkel getal dat het verschil tussen de groepen weergeeft. Om te komen tot een dergelijke maat, veronderstellen wij dat het quotiënt van de sterftekans in A en de sterftekans in B constant is in de tijd (wij noemen dat quotiënt RR). Het symbool RR duidt het relatieve risico aan van A ten opzichte van B. Merk op dat risico hier gedefinieerd wordt in termen van de sterftekansen of hazards en niet in de termen van ‘x’-jaarsoverlevingskansen. Voor het eerste deel van de overlevingscurve vallen deze twee begrippen voor ‘relatief risico’ trouwens zo goed als samen.

In de Engelse literatuur staat deze assumptie bekend als ‘proportional hazards’. Verdere statistische modellering van overleving is meestal gebaseerd op deze veronderstelling.11 Statistische software is in staat om uit empirische gegevens het relatieve risico RR te schatten en de onnauwkeurigheid daarvan aan te geven. Voor de gegevens van tabel 6 vinden wij RR = 1,84 met 95-betrouwbaarheidsinterval 0,40-8,45. Ten gevolge van de kleine steekproefomvangen is het betrouwbaarheidsinterval voor RR zo breed, dat wij niet kunnen concluderen dat er een significant verschil tussen de overleving in beide groepen is, ondanks de vrij grote waarde van de schatting van RR.

Per definitie is RR asymmetrisch. Bij verwisseling van de rol van A en B correspondeert 12 met 2, 14 met 4, etcetera. Daarom kan het handiger zijn om over te stappen op

Voor de logaritme wordt in de statistische literatuur en in de statistische software altijd de natuurlijke logaritme genomen, soms ook aangeduid met In of elog.

De berekening van het 95-betrouwbaarheidsinterval voor RR gaat ook altijd via LRR en de standaardfout (‘standard error’) van LRR. Het vermelde betrouwbaarheidsinterval voor de gegevens van tabel 6 is ook zo berekend. De schatting voor RR is dan ook het meetkundig gemiddelde van de betrouwbaarheidsgrenzen.

Er is een direct verband met de logrank-toets. De conclusies over significantie gebaseerd op de logranktoets dan wel het 95-betrouwbaarheidsinterval voor RR stemmen nagenoeg altijd overeen.

Het vergelijken van twee groepen en het bepalen van RR en het 95-betrouwbaarheidsinterval voor RR, vormen het eenvoudigste voorbeeld van toepassing van het ‘proportional hazards model’ ofwel Cox‘ regressiemodel.

In een meer algemene onderzoekssituatie zijn er verschillende variabelen die het verschil in overleving tussen patiënten verklaren. In het geval van het onderzoek naar de overleving van patiënten met ovariumkanker in een gevorderd stadium,1-3 zijn dat onder meer de Karnovsky-index, het stadium volgens de indeling van de Internationale Federatie voor Gynaecologie en Obstetrie (FIGO) en de grootte van de overblijvende tumor na operatief ingrijpen. Om een model voor de overleving van de individuele patiënt te maken, wordt het volgende model gebruikt:

Dat wil zeggen dat de sterftekans voor een bepaalde patiënt wordt bepaald uit een algemene achtergrondsterftekans h0(t), die in de tijd kan variëren en een relatief risico RRi dat constant is in de tijd. Het relatieve risico van één patiënt ten opzichte van een andere patiënt is constant in de tijd en wordt gegeven door de verhouding van de 2 RRi 's.

Als S0(t) de overlevingscurve aanduidt die correspondeert met de achtergrond-sterftekans h0(t), dan wordt de overlevingscurve van een afzonderlijke patiënt gegeven door

Om na te gaan welke factoren de overleving beïnvloeden, moet een model gemaakt worden voor het relatieve risico RRi. Dat gebeurt via een regressiemodel voor de logaritme van RRi. Laten X1, X2 etcetera een symbolische aanduiding voor verklarende variabelen (covariaten) in zo'n model zijn, dan wordt zo'n model iets als

In zo'n model kan worden nagegaan welke verklarende variabelen een significante bijdrage leveren aan de voorspelling van de overleving van een individuele patiënt. Als een bevredigend model gevonden is voor het relatieve risico, dan wordt vervolgens de achtergrond-overleving S0(t) geschat om daarmee overlevingscurven voor afzonderlijke patiënten te kunnen schatten. Wij demonstreren deze aanpak voor de gegevens van de ovariumkankerpatiënten. Wij gebruiken slechts de verklarende variabelen Karnovsky-index, FIGO-stadium en diameter van de overblijvende tumor. Voor een uitgebreidere analyse wordt de lezer verwezen naar het oorspronkelijke artikel.3 Statistische analyse leert dat elk van deze verklarende variabelen een sterk significante bijdrage levert aan de voorspelling van de overleving. De statistische analyse levert ook voor elke verklarende variabele de relatieve risico's van de verschillende waarden van de variabelen. De resultaten worden gegeven in tabel 7. Merk op dat sommige waarden van de variabelen waartussen de verschillen zeer gering waren, zijn samengevoegd.

Zoals uit deze tabel blijkt, is de achtergrond-patiënt iemand met een Karnovsky-index ? 80, slechts microscopische resttumor en FIGO-stadium 3. Het relatieve risico voor een willekeurige patiënt wordt in dit model verkregen door de relatieve risico's van de diverse verklarende variabelen met elkaar te vermenigvuldigen. Zo wordt het relatieve risico voor een patiënt met Karnovsky-index ? 80, microscopische resttumor ? 1 cm en FIGO-stadium 4 gelijk aan 1 x 1,41 x 1,70 = 2,40. Het blijkt dat de patiënten kunnen worden opgedeeld in 5 groepen waarbinnen het relatieve risico vrij constant is (tabel 8).

De Cox-regressie levert behalve de relatieve risico's ook een schatting van de overlevingscurve voor elk van deze 5 groepen. Deze curven lijken op de Kaplan-Meier-curven voor elk van de groepen apart, maar zijn met name voor de kleinere groepen gladder, dat wil zeggen minder springerig. Dit komt doordat bij de schatting van de overlevingskansen in elke groep ook de gegevens van de andere groepen worden gebruikt. Dat is mogelijk dankzij de veronderstelling dat de verhouding van de sterftekansen constant is, de zogenaamde ‘proportional hazards’-veronderstelling. De curven van de geschatte overlevingskansen in de groepen worden getoond in figuur 10.

Dit voorbeeld demonstreert de mogelijkheden van Cox-regressie. De belangrijkste facetten zijn:

– mogelijkheid om na te gaan of een verklarende variabele van onafhankelijke prognostische waarde is,

– kwantificering van het effect van een verklarende variabele op het relatieve risico, rekening houdend met het effect van andere variabelen,

– mogelijkheid om te komen tot schattingen van overlevingskansen op het niveau van het individu, rekening houdend met de beschikbare informatie op het begintijdstip.

Er zijn nog allerlei verfijningen en uitbreidingen van de Cox-regressie mogelijk. Die vallen echter buiten het bestek van dit artikel, waarin gepoogd werd enige indruk te geven van de concepten die ten grondslag liggen aan de analyse van overlevingscurven.

Literatuur
  1. Neijt JP, Bokkel Huinink WW ten, Burg ME van der, et al.Randomised trial comparing two combination chemotherapy regimens (Hexa-CAF vsCHAP-5) in advanced ovarian carcinoma. Lancet 1984; ii: 594-600.

  2. Neijt JP, Bokkel Huinink WW ten, Burg ME van der, et al.Randomized trial comparing two combination chemotherapy regimens (CHAP-5 vCP) in advanced ovarian carcinoma. J Clin Oncol 1987; 5: 1157-68.

  3. Houwelingen JC van, Bokkel Huinink WW ten, Burg ME vander, Oosterom AT van, Neijt JP. Predictability of the survival of patientswith advanced ovarian cancer. J Clin Oncol 1989; 7: 769-73.

  4. Witt J de. Waerdije van lijfrenten: naer proportie vanlosrenten. 's-Gravenhage, 1671.

  5. Halley E. An estimate of the degrees of the mortality ofmankind, drawn from curious tables of the births and funerals at the city ofBreslaw; with an attempt to ascertain the price of annuities upon lives.Philosophical Transactions of the Royal Society of London 1693; 17:596-610.

  6. Arbuthnott J. An argument for divine providence, takenfrom the constant regularity observed in the births of both sexes.Philosophical Transactions of the Royal Society of London, 1710; 27: 186-90(reprinted in Kendall and Plackett, 1977: 30-4).

  7. Fisher RA. Statistical methods for research workers.Edinburgh: Olive and Boyd, 1925.

  8. Fisher RA. The design of experiments. Edinburgh: Olive andBoyd, 1935.

  9. Kaplan EL, Meier P. Nonparametric estimation fromincomplete observations. J Am Stat Assoc 1958; 53: 457-81.

  10. Mantel N. Evaluation of survival data and two new rankorder statistics arising in its consideration. Cancer Chemother Rep 1966; 50:163-70.

  11. Cox DR. Regression models and life tables. J R Stat Soc B1972; 34: 187-220.

  12. Gill RD. Censoring & stochastic integrals. MC tract124. Amsterdam: Centrum voor Wiskunde en Informatica, 1980.

  13. Centraal Bureau voor de Statistiek. Sterftetafels voorNederland, afgeleid uit de waarnemingen over 1966-70. 's-Gravenhage:Staatsuitgeverij, 1972.

  14. Hop WCJ, Hermans J. Statistische analyse vanoverlevingsduren. Tijdschrift voor Sociale Geneeskunde 1981; 59:279-88.

  15. Armitage P, Berry G. Statistical methods in medicalresearch. 2nd ed. Oxford: Blackwell, 1987: 427.

Auteursinformatie

Rijksuniversiteit, afd. Medische Statistiek, Postbus 9512, 2300 RA Leiden.

Prof.dr.J.C.van Houwelingen, statisticus.

Gerelateerde artikelen

Reacties