Enkele grondbegrippen uit de statistiek. VIII. Het toetsen voor correlatie

Klinische praktijk
Chr.L. Rümke
Citeer dit artikel als
Ned Tijdschr Geneeskd. 1989;133:1773-6
Download PDF

In een voorgaand artikel beschreven wij hoe voor iedere groep waarnemingsparen een correlatiecoëfficiënt kan worden berekend.1 De correlatiecoëfficiënt karakteriseert het verband tussen paren waarnemingen in een groep, zoals het gemiddelde en de standaardafwijking dat doen voor de ligging van het centrum en de spreiding van een groep waarnemingen. Zoals zo vaak bij medisch-wetenschappelijk onderzoek wenst men ook bij het onderzoek naar verbanden nogal eens conclusies te trekken over een populatie op grond van een bij een steekproef verkregen uitkomst.2 In dit geval wil men dan op grond van een voor de correlatiecoëfficiënt in een steekproef gevonden waarde r een uitspraak doen over de parameter ?, de correlatiecoëfficiënt in de populatie waaruit deze steekproef kwam. Kan op grond van een statistische toetsing inderdaad de conclusie worden getrokken dat er in deze populatie een verband tussen x en y bestaat, d.w.z. dat ? ongelijk aan 0 is?

Dergelijke uitspraken zijn, zoals steeds, alleen mogelijk indien de onderzochte groep elementen een aselecte steekproef vormt uit deze populatie.3 Bovendien moet bekend zijn, wat de variabiliteit van r is wanneer vele aselecte steekproeven van een bepaalde omvang worden genomen uit een populatie waarin ? = 0 is. Hierover is men slechts goed geïnformeerd voor het geval dat x en y een zogenaamde tweedimensionaal normale verdeling bezitten (en daarmee ook elk afzonderlijk normaal zijn verdeeld). In dat geval is zowel de regressie van y op x als die van x op y rechtlijnig. Conclusies uit toetsingen gelden strikt genomen daarom uitsluitend indien de steekproef aselect was en indien x en y tweedimensionaal normaal zijn verdeeld. Bij niet-normaal zijn van de verdelingen van x en y moet men er rekening mee houden dat deze conclusies onjuist kunnen zijn. In dergelijke gevallen kan r een slechte maat zijn voor de correlatie. Op grote schaal uitgevoerd simulatie-onderzoek logenstraft de in oudere statistische literatuur gepubliceerde optimistische opvattingen over de ongevoeligheid van de toets voor correlatie tegen afwijkingen van de genoemde verdeling.4

Helaas stellen in veel gevallen de waarnemingen niet in staat te verifiëren of aan de genoemde voorwaarden is voldaan. Vooral bij een relatief kleine omvang van een steekproef zal de voornaamste informatie over de juistheid van het gekozen model in veel gevallen moeten berusten op andere gegevens dan die uit het onderzoek beschikbaar zijn. De op grond van toetsing gedane conclusies gelden dan onder het voorbehoud dat het gekozen model juist is. Dit voorbehoud komt overeen met hetgeen wij eerder voor overeenkomstige situaties beschreven.5

Toepassing van een verdelingsvrije toets voor correlatie, bijvoorbeeld de toets van Spearman, biedt bij onzekerheid over de normaliteit van de verdelingen een goed alternatief. Dit geldt onder andere bij het toetsen of frequenties van bepaalde gebeurtenissen met de tijd toenemen of afnemen.

Uitvoering van de toetsing

Wij beschouwen in dit artikel alleen het veel voorkomende geval dat men de nulhypothese wil toetsen dat er in de populatie geen correlatie is tussen x en y. Men toetst deze nulhypothese ? = 0 tegen de (tweezijdige) alternatieve hypothese dat ? ? 0 is. Hiervoor kan men gebruik maken van een tabel met kritieke waarden van r. Dit zijn de laagste (positieve) waarden van r waarbij de nulhypothese kan worden verworpen indien de steekproef de omvang n heeft en men toetst bij de onbetrouwbaarheidsdrempel ?. Omdat de verdelingen van r symmetrisch om 0 zijn, kan men voor een negatieve voor r gevonden waarde bij toetsing te werk gaan alsof deze positief is. In de tabel geven wij voor een beperkt aantal waarden van ? en n kritieke waarden van r. Uitgebreidere tabellen vindt men in statistische leerboeken en tabellenverzamelingen. Bij beschouwing van de tabel blijkt dat bij een bepaalde waarde van n de kritieke waarden van r hoger zijn bij lagere waarden van de onbetrouwbaarheidsdrempel ?. Bij een bepaalde waarde van ? worden de kritieke waarden lager wanneer n groter is. Dat betekent dat bij een grote omvang van de steekproef zelfs een zeer lage waarde van r in statistische zin nog significant kan worden bevonden. In iedere beschrijving van de uitkomst van een toetsing dient daarom te staan wat de omvang van de steekproef was en welke waarde men koos voor de onbetrouwbaarheidsdrempel ?. Wanneer men uitsluitend vermeldt dat een significante correlatie werd gevonden, laat men de lezer in het duister over de sterkte van de gevonden correlatie en over de onbetrouwbaarheid van de conclusie.

In het voorbeeld in figuur 1 in het voorgaande artikel werd bij n = 13 waarnemingsparen voor r de waarde 0,93 gevonden.1 Veronderstel dat deze gegevens afkomstig zijn van een aselecte steekproef uit een bepaalde populatie en dat men voor deze populatie de nulhypothese ? = 0 tweezijdig wil toetsen bij de gebruikelijke onbetrouwbaarheidsdrempel van 5. Uit de tabel blijkt dat de bij ? = 0,05 en n = 13 behorende kritieke waarde 0,553 is. De nulhypothese kan dus worden verworpen, want de voor r gevonden waarde is veel groter. (Zelfs bij ? = 0,001 zou dit nog het geval zijn geweest, want de gevonden waarde is groter dan 0,801.) In een verslag van dit onderzoek zou men kunnen schrijven dat de voor r gevonden waarde 0,93 significant van 0 verschilt (men schrijft ook wel kortweg: significant is) bij toetsing bij ? = 0,05. Wanneer men getoetst heeft met behulp van de bij ? = 0,05 behorende kritieke waarde, kan men desgewenst ook schrijven dat de overschrijdingskans p

Betrouwbaarheidsintervallen

De in het gegeven voorbeeld gevonden waarde r = 0,93 is een puntschatting van de waarde van de correlatiecoëfficiënt ? in de populatie. Van de nauwkeurigheid van deze schatting kan men een indruk krijgen door het berekenen van de grenzen van een betrouwbaarheidsinterval voor ? op grond van de voor r gevonden waarde. In het verleden heeft men dit meestal achterwege gelaten. De laatste jaren dringt men er echter om begrijpelijke redenen dikwijls op aan in wetenschappelijke publikaties in plaats van de voor de overschrijdingskans p gevonden waarde een betrouwbaarheidsinterval op te geven.6-10 In het aanhangsel beschrijven wij de klassieke methode voor het berekenen van betrouwbaarheidsintervallen voor een correlatiecoëfficiënt. Hier volstaan wij met het vermelden van de uitkomst van een dergelijke berekening voor het geval dat in een steekproef van n = 13 waarnemingsparen r = 0,93 werd gevonden: de grenzen van het 95-betrouwbaarheidsinterval voor de correlatiecoëfficiënt in de populatie zijn dan 0,78 en 0,98. Met 95 zekerheid kan men dus stellen dat de correlatiecoëfficiënt in de populatie een waarde heeft die ‘ergens’ tussen 0,78 en 0,98 ligt. Ook deze uitspraak geldt onder het voorbehoud dat het gekozen model juist is. Uit het feit dat het interval de waarde 0 niet bevat, kan men met een onbetrouwbaarheid van 5 concluderen dat ? ? 0 is. Daarom maakt het opgeven van een 95-betrouwbaarheidsinterval het overbodig te vermelden dat p

Niet alleen rekenen maar ook tekenen!

In de naar Anscombe getekende figuur 1 zijn de uitkomsten van vier steekproeven met n = 11 weergegeven, waarbij steeds r = 0,82 werd gevonden.11 Toetsing met behulp van de tabel leidt bij de onbetrouwbaarheidsdrempel ? = 0,05 tot de conclusie, dat in de populatie ? ? 0 is. De bij ? = 0,05 en n = 11 behorende kritieke waarde is immers 0,602; de voor r gevonden waarde is veel groter. Ook bij ? = 0,01 zou r nog significant zijn, want de daarbij behorende kritieke waarde is 0,735, maar niet bij ? = 0,001, want 0,82

Figuur 1a doet vermoeden dat r een reële betekenis heeft als maat voor de sterkte van een verondersteld lineair verband. Bij 1c kan men zich afvragen of de volledige positieve correlatie door één afwijkende waarneming wordt verstoord. Bij 1b lijkt echter een kromlijnig verband veel waarschijnlijker dan een lineair verband. Bij 1d behoort bij op één na alle y's dezelfde waarde van x; een rechtlijnig verband is ook hier zeer onwaarschijnlijk. figuur 1 demonstreert dus dat achter dezelfde cijfers zeer verschillende situaties schuil kunnen gaan. Deze komt men pas op het spoor indien men tekeningen maakt van de waarnemingsuitkomsten.

De correlatiecoËfficiËnt is geen maat voor overeenstemming!

In het voorgaande artikel wezen wij er op, dat de correlatiecoëfficiënt uitsluitend informatie geeft over de sterkte van het (lineair veronderstelde) verband tussen x en y, maar niet over de overeenstemming van de waarden van deze grootheden.1 Bij het vergelijken van de uitkomsten van twee bepalingsmethoden voor eenzelfde grootheid wordt dit nogal eens uit het oog verloren.12 Wij laten daarom met een aan Feinstein ontleend voorbeeld zien hoe de waarde van correlatiecoëfficiënten hier op een dwaalspoor kan brengen.13 In de figuren 2a, 2b en 2c zijn op de y-as de hypothetische resultaten afgezet van de uitkomsten van drie nieuwe bepalingsmethoden ter vergelijking met de op de x-as op dezelfde schaal afgezette uitkomsten met de oude methode. Voor de correlatiecoëfficiënt vond men bij 2a, 2b en 2C hoge waarden, nl. 0,96, 0,97 en 0,95. (Het bij r = 0,97 en n = 10 behorende 95-betrouwbaarheidsinterval heeft 0,87 en 0,99 als grenzen.) Het is echter duidelijk dat er ondanks de hoge voor r gevonden waarden en het betrekkelijk smalle 95-betrouwbaarheidsinterval in geen van deze drie gevallen een voor een nieuwe bepalingsmethode redelijke overeenstemming bestaat met de oude methode. Dat er een goed verband tussen de op verschillende wijze verkregen uitkomsten bestaat, is wel het minste wat men van een nieuwe bepalingsmethode mag verwachten. Dat is echter geen argument om te concluderen dat de nieuwe methode een goede vervanger is van de oude. In de praktijk wordt het vinden van een hoge waarde van r vaak nog in de hand gewerkt doordat men geneigd is in de vergelijking het gehele gebruikelijke meettraject met lage en met hoge waarden op te nemen. Methoden voor het bepalen van overeenstemming tussen uitkomsten van metingen staan in het artikel van Bland en Altman.12

Aanhangsel berekening van betrouwbaarheidsintervallen voor correlatiecoËfficiËnten

Indien x en y tweedimensionaal normaal verdeeld zijn, kunnen betrouwbaarheidsintervallen voor de correlatiecoëfficiënt ? worden berekend.14 De in een aselecte steekproef voor r gevonden waarde dient daartoe eerst te worden getransformeerd tot een grootheid z, die wèl bij benadering normaal is verdeeld. De waarde van z volgt uit de formule

Deze grootheid z heeft als standaardafwijking

Voor het bepalen van de grenzen van een 95-betrouwbaarheidsinterval berekent men eerst

Vervolgens transformeert men z1 en z2 terug om de grenzen van het 95-betrouwbaarheidsinterval voor ? te vinden. Deze grenzen worden gevormd door

(Voor intervallen met een andere betrouwbaarheid dan 95 vervangt men de waarde 1,96 door een aan een tabel van de gestandaardiseerde normale verdeling ontleende waarde.)

In ons voorbeeld was r = 0,93. We berekenen eerst z:

Bij n = 13 is de standaardafwijking van z

Hieruit volgt:

De gezochte grenzen zijn dan:

of afgerond 0,78 en 0,98.

Ook voor de rangcorrelatiecoëfficiënt van Spearman kunnen op de beschreven wijze betrouwbaarheidsintervallen worden berekend.

De vorige artikelen in deze reeks verschenen op bl. 1383, bl. 1384, bl. 1422, bl. 1472, bl. 1523, bl. 1575 en bl. 1603 van de 132e jaargang (1988), en op bl. 1730 van de 133e jaargang (1989).

Literatuur
  1. Rümke ChrL. Enkele grondbegrippen uit de statistiek.VII. Correlatie. Ned TijdschrGeneeskd 1989; 133: 1730-3.

  2. Rümke ChrL. Enkele grondbegrippen uit de statistiek.II. Populaties. Ned Tijdschr Geneeskd1988; 132: 1422-4.

  3. Rümke ChrL. Enkele grondbegrippen uit de statistiek;III. Aselecte steekproeven en aselecte toewijzing.Ned Tijdschr Geneeskd 1988; 132:1472-5.

  4. Kowalski CJ. On the effects of non-normality on thedistribution of the sample product-moment correlation coefficient. AppliedStatistics 1972; 21: 1-12.

  5. Rümke ChrL. Enkele grondbegrippen uit de statistiek;VI. Statistische toetsing en de onbetrouwbaarheid van op grond daarvangetrokken conclusies. Ned TijdschrGeneeskd 1988; 132: 1603-6.

  6. Gardner MJ, Altman DG. Confidence intervals rather than Pvalues: estimation rather than hypothesis testing. Br Med J 1986; 292:746-50.

  7. Bulpitt CJ. Confidence intervals. Lancet 1987; i:494-7.

  8. Evans SJW, Mills P, Dawson J. The end of the p value? BrHeart J 1988; 60: 177-80.

  9. Anonymus. Confidence intervals extract clinically usefulinformation from data (editorial). Ann Intern Med 1988; 108: 296-8.

  10. International committee of medical journal editors.Uniform requirements for manuscripts submitted to biomedical journals. Br MedJ 1988; 296: 401-5.

  11. Anscombe FJ. Regression and correlation. The AmericanStatistician 1973; 27: 17-21.

  12. Bland JM, Altman DG. Statistical methods for assessingagreement between two methods of clinical measurement. Lancet 1986; i:307-10.

  13. Feinstein AR. Clinical Biostatistics XXXVII, Demeanederrors, confidence games, nonplussed minuses, inefficient coefficients, andother statistical disruptions of scientific communication. Clin PharmacolTher 1976; 20: 617-31.

  14. Altman DG, Gardner MJ. Calculating confidence intervalsfor regression and correlation. Br Med J 1988; 296:1238-42.

Auteursinformatie

Prof.dr.Chr.L.Rümke, oud-hoogleraar in de medische statistiek, De Ruyschlaan 207, 1181 PE Amstelveen.

Gerelateerde artikelen

Reacties