Dwalingen in de methodologie. XXXVII. Onbedoelde populatieselectie in het genetische patiënt-controleonderzoek

Klinische praktijk
J.J. Hottenga
J.J. Houwing-Duistermaat
C.M. van Duijn
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2002;146:17-5
Abstract
Download PDF

Samenvatting

- De selectie van de juiste patiënten- en controlegroep is van essentieel belang voor de uitkomst van studies, ook binnen de genetische epidemiologie.

- Een probleem binnen het genetische patiënt-controleonderzoek is vertekening van de studieresultaten ten gevolge van onbedoelde populatieselectie. De kans op deze vertekening wordt bepaald door de verschillen in selectie tussen patiënten en controlepersonen uit verschillende bevolkingsgroepen en de genetische achtergrond van deze bevolkingsgroepen.

- Ook in follow-uponderzoek kan populatieselectie tot vertekening van resultaten leiden.

- Recente ontwikkelingen in de statistiek en de genetica maken het mogelijk om redelijk eenvoudig op populatieselectie te testen in patiënt-controleonderzoek, zodat deze vertekening kan worden voorkomen.

artikel

Genetisch onderzoek wordt in toenemende mate verricht door vergelijking van de frequenties van genetische varianten (polymorfismen en genetische markers) bij patiënten met de frequenties bij controlepersonen. Selectie van de juiste patiënten- en controlegroepen is niet alleen belangrijk voor omgevingsdeterminanten of klinische determinanten, maar ook voor de genetische.1 Een van de belangrijkste verstorende variabelen (‘confounders’) in dit type onderzoek is de genetische achtergrond van de patiënten en de controlepersonen.2

‘confounding’ door genetische achtergrond

Een klassiek voorbeeld dat het probleem illustreert, is de studie in een populatie Pima-indianen met betrekking tot de rol van de Gm-marker en diabetes mellitus.3 De indianen hebben generaties lang geleefd als een aparte groep die zich nog niet mengde met de andere bewoners van het Noord-Amerikaanse continent. Hierdoor is hun genetische achtergrond anders dan die van blanken. Door invloed van zowel omgevingsfactoren als genetische factoren is de stofwisseling van de indianen zo veranderd dat zij een lage tolerantie hebben voor glucose. Hierdoor hebben zij, in verhouding tot mensen met een blanke achtergrond, een sterk toegenomen kans op het krijgen van diabetes. Hoe deze situatie tot problemen met onderzoek leidt, is als volgt te zien.

Stel dat men een genetisch onderzoek doet in een populatie met zowel blanken als indianen, zonder rekening te houden met de genetische achtergrond. Met behulp van een patiënt-controleonderzoek wordt de samenhang tussen diabetes en een fictief polymorfisme met 2 variaties (allelen A en B) onderzocht. Voor zowel de patiënten- als de controlegroep zijn 1000 personen verzameld. Gegeven dat iedere persoon 2 chromosomen van de ouders heeft en dus 2 kopieën van de allelen, geeft dit 3 mogelijke genotypen voor de personen in de populatie: AA, AB en BB. Voor de analyse moeten we een allel kiezen dat samenhang vertoont met het ontstaan van diabetes. Doorgaans kiezen we daarvoor het minst frequente allel (het is namelijk onwaarschijnlijk dat een frequent allel een risicofactor is, want de meeste mensen zijn nu eenmaal niet ziek); stel in dit geval allel A. De te toetsen hypothese is dan dat dragers van allel A (AA en AB) oververtegenwoordigd zijn bij diabetespatiënten in vergelijking met controlepersonen. De mate van samenhang tussen het krijgen van de ziekte en het dragen van het A-allel wordt weergegeven met het relatief risico, in patiënt-controleonderzoek veelal geschat via de oddsratio.4 Indien de verhouding tussen allel-A-dragers en niet-allel-A-dragers gelijk is bij patiënten en controlepersonen, is het relatief risico of de oddsratio 1; er is dan geen samenhang. In het geval van een positieve samenhang zal het relatief risico groter zijn dan 1.

Het resultaat van de fictieve studie naar het ontstaan van diabetes en het polymorfisme is weergegeven in tabel 1. Op basis van de gegevens in de tabel lijkt er een samenhang te bestaan tussen het krijgen van diabetes en het dragen van allel A. Allel-A-dragers hebben namelijk een 1,76 maal verhoogd risico op het krijgen van diabetes ten opzichte van de niet-allel-A-dragers, dit met een 95-BI van 1,47 tot 2,10. De ?2-toets, die de allel-A-dragersfrequentie van beide groepen vergelijkt, geeft een zeer significante p-waarde: p

Stratificatie achteraf op basis van genetische achtergrond

Bij de analyse van tabel 1 is echter geen rekening gehouden met de genetische achtergrond van de patiënten en de controlepersonen; er is uitgegaan van één populatie met een uniforme genetische achtergrond. In werkelijkheid waren de patiënten- en de controlegroep echter samengesteld uit zowel indianen als blanken. Vanwege het verschil in incidentie van diabetes in deze bevolkingsgroepen is de verhouding tussen de subpopulaties binnen de patiënten- en de controlegroep verschillend. Stel dat we de de gegevens achteraf opsplitsen naar bevolkingsgroep (stratificatie), dan blijkt bijvoorbeeld dat van de 1000 patiënten er 200 blank zijn en 800 indiaans, en van de controlepersonen 700 blank en 300 indiaans (tabel 2). Wanneer nu hetzelfde relatieve risico voor het dragen van allel A en het krijgen van diabetes voor indianen en blanken afzonderlijk wordt berekend, wordt er in beide subpopulaties een risico van 1 gevonden. Er is wat de allel-A-dragersfrequenties betreft wel verschil tussen de populaties, maar niet tussen zieken en gezonden binnen de populaties. Het is daarmee onaannemelijk geworden dat er een samenhang bestaat tussen diabetes en het dragen van het A-allel. In tabel 1 is er confounding van de resultaten, ontstaan door het verschil in selectie van personen uit de beide genetisch verschillende populaties binnen de patiënten- en de controlegroep.

Matchen van patiënten en controlepersonen

Zoals bij elke confounder kan men voorkomen dat achteraf populatiestratificatie moet worden verricht door bij de inclusie van controlepersonen rekening te houden met de genetische achtergrond. Tijdens de opzet kunnen patiënten en controlepersonen namelijk op genetische achtergrond gematcht worden. Hierdoor wordt het effect van de confounder op het relatief risico veelal geminimaliseerd.5 In de analyse moet dan wel met de matching rekening gehouden worden. Een alternatief is gegevens over de etnische achtergrond te verzamelen en deze te modelleren in de analyse. Het lastige probleem van de populatiestratificatie is echter dat het vaak kostbaar en soms onmogelijk is om gegevens over de populatieachtergrond volledig te verzamelen voor zowel patiënten als controlepersonen. Vragen over de etnische achtergrond leiden doorgaans tot onbetrouwbare antwoorden. Ook kan door menging van beide populaties soms niet goed worden aangegeven waar iedere persoon qua genetische achtergrond thuishoort.

Effect van genetische achtergrond

Een belangrijke vraag is hoe groot de verschillen in genetische achtergrond dienen te zijn om tot vertekening te leiden. Specifieker geformuleerd: hoe groot dient het verschil in de allel-A-dragersfrequentie en daarmee het verschil in de selectie van populaties binnen de patiënten- en de controlegroep te zijn om te leiden tot een relatief risico dat als een substantieel vertekend beeld beschouwd kan worden? Dit is weergegeven in figuur 1. Hier is het effect van 2 verschillende populaties onderzocht met een 2-allelpolymorfisme; de allelen zijn wederom A en B genoemd. De proportie personen uit populatie 2 – P voor patiënten en Q voor controlepersonen – en de frequentie van allel-A-dragers (F1 voor populatie 1 en F2 voor populatie 2) zijn uitgezet tegen het resulterende relatieve risico. Het is belangrijk dat we aannemen dat er binnen de populaties geen samenhang bestaat tussen allel A en de ziekte (in de figuur is het relatief risico 1 als F1 = F2). Het in de figuur weergegeven relatieve risico is dus het directe effect van de in het onderzoek ontstane populatieselectie. Uit de figuur wordt duidelijk dat de verschillen van zowel P en Q als F1 en F2 groot dienen te zijn om het relatief risico sterk te laten afwijken van 1. Wat gezien moet worden als een ‘substantiële’ vertekening is arbitrair. Wij gebruiken hier de waarde 1,5 als afkapwaarde voor ‘substantiële confounding’. Stel dat in een studie 50 van de patiënten uit populatie 2 afkomstig is en van de controlegroep slechts 40 (zie figuur 1a). Om voor deze verdeling een relatief risico van 1,5 te doen ontstaan moeten de populaties 1 en 2 sterk verschillen in genetische achtergrond (F1 = 0,10 en F2 = 1,00). Een dergelijk verschil is biologisch gezien zeer zeldzaam, want het betekent dat bevolkingsgroepen vele generaties lang van elkaar gescheiden moeten hebben geleefd. Men verwacht dergelijke verschillen alleen bij groepen zoals de Pima-indianen. Bij een groter verschil in populatieselectie tussen patiënten en controlepersonen wordt de vertekening in het relatief risico sterker (zie figuur 1b-d). In zorgvuldig opgezette onderzoeken echter, waar patiënten- en controlegroep zoveel mogelijk worden geselecteerd uit één populatie, zijn deze verschillen niet aannemelijk. De weergegeven bevindingen zijn in overeenkomst met in werkelijkheid gevonden resultaten.6 Ook in die studie is gevonden dat onbedoelde populatieselectie niet een vaak voorkomende bron van fout-positieve resultaten kan zijn.

consequenties voor onderzoek in nederland

In de Nederlandse situatie is het niet waarschijnlijk dat een studie met patiënten en controlepersonen resulteert in een fout-positieve bevinding als gevolg van genetische populatieselectie. Ter preventie is het evenwel verstandig om enigszins zorgvuldig de controlepersonen te kiezen ten opzichte van de patiënten in relatie tot hun etniciteit. Gegeven de toenemende etnische diversiteit in de Nederlandse bevolking, is het denkbaar dat in sommige regio's vertekening door onbedoelde populatieselectie ontstaat. Wanneer genetisch patiënt-controleonderzoek in een heterogene populatie wordt uitgevoerd is het testen op of corrigeren van deze populatieselectie aan te bevelen.7

Testen op genetische populatieselectie

Het testen op populatieselectie berust op het feit dat verschillen in genetische achtergrond tussen twee populaties betrekking zullen hebben op het hele genoom. Wanneer er bijvoorbeeld gekeken wordt naar de samenhang tussen eten-met-stokjes en HLA-klasse in San Francisco, dan zal eten-met-stokjes samenhangen met een verhoogde frequentie van het HLA-10-allel.2 Dit allel komt meer voor bij mensen van Aziatische origine dan bij mensen van Europese afkomst, en de groep personen die met stokjes eet, zal in dit geval veel meer mensen van Aziatische origine bevatten dan de controlegroep. Maar ook wanneer men andere genetische markers zou testen, zou men verschillen vinden, bijvoorbeeld in de frequenties van allelen voor polymorfismen en genen die betrokken zijn bij bijvoorbeeld oogleden en haarkleur. Dit geldt ook voor genen die niets te maken hebben met het uiterlijke fenotype. Het testen op populatieselectie is op dit gegeven gebaseerd: elke willekeurige marker in het genoom zal leiden tot een (fout-)positieve bevinding van de studie ingeval populatieselectie is opgetreden. Met behulp van genotypering van markers op verschillende chromosomen is het dus mogelijk om na te gaan in welke mate de patiënten- en controlegroepen verschillen in genetische achtergrond. Het testen van ongeveer 15 informatieve markers die niet samenhangen met de ziekte en ook niet met elkaar, moet hiervoor voldoende zijn.8 Het aangehaalde artikel bevat meer details over deze methode en analyse.8 Hiermee wordt het mogelijk om niet alleen populatieselectie op te sporen, maar ook voor deze selectie te corrigeren; deze methoden zijn echter nog in ontwikkeling.7 9

Confounding door populatieselectie in prospectief onderzoek

Hoewel follow-uponderzoek doorgaans veel minder gevoelig is voor confounding is ook dit type studies gevoelig voor populatieselectie. Een voorbeeld hiervan in een cohortstudie is weergegeven in tabel 3. Wederom is de relatie tussen het polymorfisme met de allelen A en B en het risico op het ontstaan van diabetes onderzocht. De genetisch gemengde studiecohort bestaat uit 2000 personen van populatie 1 en 22.000 personen van populatie 2. De 2 populaties hebben een verschillende ziekte-incidentie van diabetes, namelijk 0,03 voor populatie 1 en 0,01 voor populatie 2. Tevens hebben beide populaties een verschillende allel-A-dragersfrequentie: 75 in populatie 1 en 19 in populatie 2. Uit tabel 3 valt af te lezen dat er binnen de 2 populaties geen samenhang is van het polymorfisme en het ontstaan van diabetes: het risico van het dragen van het A-allel en het krijgen van diabetes is in beide populaties gelijk. Echter, in de gemengde populatie wordt voor allel-A-dragers een 1,36 maal verhoogd risico gevonden. De frequenties van het dragen van het A-allel zijn verschillend, hetgeen uitsluitend wordt veroorzaakt door het vermengen van de populaties 1 en 2 in de onderzoeksgroep. Ook in follow-uponderzoek dient men dus rekening te houden met populatieselectie. Ook hiervoor is een test ontwikkeld.8

voorkómen van onbedoelde populatieselectie

Effectieve methoden die populatieselectie voorkomen, zijn ontwikkeld in de genetische epidemiologie. Deze methoden gebruiken controlegegevens die zijn verkregen bij familieleden. Een voorbeeld van een andere studiemethode is het gebruik van ouders als controlepersonen.10 Bij deze test wordt vergeleken welke allelen wel en niet door de ouders worden overgedragen op de patiënt. De niet-overgedragen allelen worden gebruikt als controleallel (figuur 2). Hierdoor is het probleem van populatieselectie op een elegante manier opgelost, want de kunstmatige ‘controlepersoon’, met de 2 niet doorgegeven allelen, is per definitie van dezelfde genetische achtergrond als de patiënt. Patiënt en controlepersoon zijn als het ware perfect gematcht. Een vereiste is wel dat de genotypen van de ouders bekend zijn. Deze methode is daarom bijzonder geschikt voor onderzoek van ziekten die zich ontwikkelen op jonge leeftijd. In het geval van ziekten die zich op late leeftijd ontwikkelen, zal toepassing moeilijk zijn omdat de ouders dan meestal niet meer leven.11 12

conclusie

Onbedoelde populatieselectie is een erkende, doch niet zeer relevante bron van fouten in genetisch onderzoek. Hoewel het aannemelijk is dat dit probleem in een populatie als de Nederlandse in de meeste gevallen niet of nauwelijks een relevante vertekening zal geven, is het raadzaam om er rekening mee te houden wanneer patiënten- en controlegroep bestaan uit mensen met een verschillende etnische achtergrond. Met genotypering van extra genetische markers in de patiënten- en de controlegroep kan het probleem worden opgespoord en gekwantificeerd. Een alternatieve oplossing is familieleden in het onderzoek te betrekken.

Drs.L.A.Sandkuijl leverde een bijdrage aan dit artikel. Het werk dat is beschreven in dit artikel werd ondersteund door een subsidie van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO).

Literatuur
  1. Bosch MAAJ van den, Tanis BC, Kemmeren JM. Dwalingen in demethodologie. XVIII. Selecteren van controlegroepen.Ned Tijdschr Geneeskd2000;144:797-800.

  2. Lander ES, Schork NJ. Genetic dissection of complextraits. Science 1994;265:2037-48.

  3. Knowler WC, Williams RC, Pettitt DJ, Steinberg AG.Gm3;5,13,14 and type 2 diabetes mellitus: an association in American Indianswith genetic admixture. Am J Hum Genet 1988;43:520-6.

  4. Miettinen O. Estimability and estimation in case-referentstudies. Am J Epidemiol 1976;103:226-35.

  5. Vandenbroucke JP, Hofman A. Grondslagen der epidemiologie.6e dr. Maarssen: Elsevier; 1999. p. 262.

  6. Wacholder S, Rothman N, Caporaso N. Populationstratification in epidemiologic studies of common genetic variants andcancer: quantification of bias. J Natl Cancer Inst 2000;92:1151-8.

  7. Pritchard JK, Stephens M, Donnelly P. Inference ofpopulation structure using multilocus genotype data. Genetics2000;155:945-59.

  8. Pritchard JK, Rosenberg NA. Use of unlinked geneticmarkers to detect population stratification in association studies. Am J HumGenet 1999;65:220-8.

  9. Devlin B, Roeder K. Genomic control for associationstudies. Biometrics 1999;55:997-1004.

  10. Spielman RS, McGinnis RE, Ewens WJ. Transmission test forlinkage disequilibrium: the insulin gene region and insulin-dependentdiabetes mellitus (IDDM). Am J Hum Genet 1993;52:506-16.

  11. Spielman RS, Ewens WJ. The TDT and other family-basedtests for linkage disequilibrium and association. Am J Hum Genet1996;59:983-9.

  12. Spielman RS, Ewens WJ. A sibship test for linkage in thepresence of association: the sib transmission/disequilibrium test. Am J HumGenet 1998;62:450-8.

Auteursinformatie

Erasmus Medisch Centrum, afd. Epidemiologie & Biostatistiek, Postbus 1738, 3000 DR Rotterdam.

Drs.J.J.Hottenga en mw.dr.C.M.van Duijn, genetisch epidemiologen; mw.drs.J.J.Houwing-Duistermaat, genetisch statisticus.

Contact mw.dr.C.M.van Duijn (vanduijn@epib.fgg.eur.nl)

Gerelateerde artikelen

Reacties