Analyse de Données en Génomique des Populations

Projet ACI IMPBio 2004-42-ADGP


ParticipantsParticipants

Contexte scientifiqueContexte Scientifique

ProjetsObjectifs

ObjectifsProjets

avancees du projet, resultatsAvancees du projet, resultats

CalendrierCalendrier

Publications et logicielsPublications et logiciels

 

 

Participants

Equipe Génomique des Populations et Biodiversité - Laboratoire d'Ecologie Alpine
UMR CNRS 5553, BP 53, 2223 rue de la piscine, Grenoble 38041, France

Oscar E. Gaggiotti, Professor, Coordinateur du Projet
Stephanie Blanc-Manel, Maître de conférence
Gordon Luikart, Chargé de Recherche CNRS
Matthieu Foll, Ph.D. student
Pierre Faubert, MSc. student

Techniques de l’Imagerie de la modélisation et de la cognition
UMR CNRS-INPG-UJF 5525, Faculté de Médecine, Domaine de la Merci, 38706 La Tronche Cedex

Olivier François, Professor, Responsable équipe 1
Mickael Blum, Ph.D. student

Laboratoire de Physique et Modélisation des Milieux Condensés
UMR CRS 5493, Maison des Magisteres, CNRS, 38042 GRENOBLE Cedex

Françoise Berthoud, Ingénieur de recherche, Responsable équipe 2

 


Contexte Scientifique

L’étude de la structure spatiale de la diversité génétique des populations est influencée par la sélection naturelle et la migration entre populations. Son étude a des applications importantes dans le domaine de la conservation, de l'amélioration des récoltes et des espèces agricoles, et de l'identification des gènes impliqués dans le déterminisme de maladies génétiques ou dans la résistance à des pathogènes chez l'homme et les espèces économiquement importantes. Une bonne compréhension de la structure génétique des populations est fondamentale dans ces applications. Par exemple, dans le domaine de la conservation de la biodiversité, la connaissance de la structure génétique permet d'identifier les unités de gestion qui devraient être la cible des mesures de conservation. La compréhension des facteurs qui influencent la structure génétique des populations peut également aider à concevoir de meilleures stratégies de gestion pour la conservation de la diversité génétique.

    L'amélioration des récoltes et des espèces agricoles et l'identification des gènes de maladie ou de résistance nécessite d'identifier les gènes sous sélection. Une technique fréquemment utilisée dans ce domaine est la cartographie d’association qui localise les marqueurs dont quelques allèles sont plus fréquents parmi les individus affectés que les individus non affectés (Risch and Merikangas 1996). Cependant, l'existence d’une structure cachée dans la population peut mener à de fausses associations entre un phénotype (résistance à la maladie ou à un caractère bénéfique) et une région chromosomique non liée (Pritchard and Rosenberg 1999). La présence d’une structure cachée mène également à de faux résultats positifs dans les tests de neutralité, utilisés pour déterminer la présence de sélection dans les séquences d'ADN (e.g. Ford 2002 ; Wakeley 2003). Ainsi, l'identification de la structure d’une population est un préalable indispensable à l'identification précise des gènes sous sélection.
 
    L'identification des gènes sélectionnés est également importante dans le contexte de la conservation de la biodiversité. Par exemple, un but important de la génétique de la conservation est l’identification des gènes ou des régions de génome responsables des traits phénotypiques qui peuvent augmenter l'adaptation locale ou les traits qui peuvent faciliter l'adaptation au futur changement climatique. Cette connaissance peut alors être utilisée pour concevoir des stratégies de conservation donnant priorité à la conservation des populations qui ont une fréquence élevée de ces gènes ou d’une combinaison de ces gènes.
De nombreuses méthodes statistiques développées en génétique des population ont été contraintes par un manque de puissance informatique. Ceci a fortement limité le développement de méthodes pour l’estimation des taux de migration et la détection de la sélection dans des populations naturelles. La puissance des ordinateurs n’est plus maintenant un  facteur limitant et permet d’envisager d’élaborer des méthodes génétiques statistiques plus appropriées pour l'étude des populations naturelles.

    Ces dernières années, plusieurs méthodes ont été développées pour estimer le taux de migration et la sélection. Les méthodes pour estimer les taux de migration sont de deux types: les méthodes basées sur le coalescent et les méthodes basées sur l’analyse des génotypes de multilocus. Les premières fondées sur le coalescent exploitent l'information généalogique contenue dans les séquences d'ADN et estiment le nombre efficace de migrants (Beerli et Felsenstein, 2001). C'est un paramètre qui mesure l'effet à long terme de la migration dans des conditions d'équilibre des populations et par conséquent a peu d'importance dans les populations naturelles, en général  pas en équilibre. Les méthodes basées sur l’analyse des génotypes multilocus (par exemple Wilson et Rannala 2003) utilisent l'information du déséquilibre gamétique et estiment des taux actuels de migration. Ces méthodes ne nécessitent pas de supposer que les populations sont à l'équilibre et par conséquence, sont plus appropriées pour l'étude des populations naturelles.

    Deux types de méthodes sont également disponibles pour détecter les gènes sélectionnés : les méthodes de neutralité et les méthodes identifiant des loci « outliers ». Les tests de neutralité recherchent des signes de sélection au niveau de l'ADN dans des échantillons de populations. L’hypothèse nulle est basée sur la théorie neutraliste : une évolution neutre des sites (Kimura 1968 ; Kreitman 2000). Les écarts aux prévisions de la théorie neutraliste peuvent indiquer la présence de sélection agissant sur un ou plusieurs des sites étudiés ou sur un site étroitement lié. L’inconvénient majeur de ces méthodes est que les déviations significatives de l’hypothèse neutre peuvent être dues non seulement à la sélection, mais également aux processus démographiques tels que des goulots d'étranglement, des expansions et des subdivisions de populations (Wakeley 2004). Les méthodes de détection des loci « outliers » sont basées sur l’observation de loci avec un niveaux atypiquement bas ou élevé de différentiation entre populations (e.g. Beaumont et Balding 2004). Le principe de cette approche est que le niveau de différentiation aux différents loci neutres devrait être identique en raison de leur histoire démographique partagée.

    Malheureusement les méthodes actuelles ne permettent pas d’analyser simultanément l’information issue de différents types de marqueurs moléculaires (e.g. SNPs, AFLPs, CATs, et ESTs), qui permettent pourtant de couvrir une grande partie du génome. Il est donc indispensable de développer des méthodes qui analysent simultanément tous les types de marqueurs disponibles.


Back to the topback to the top

Objectifs

L’objectif de ce projet est de développer des méthodes informatiques intensives qui permettront d’évaluer le rôle de la sélection naturelle et de la migration dans la structure spatiale et la diversité génétique des populations naturelles. Plus précisément les deux axes suivants seront abordés :
(i) Développement de méthode d’analyses des marqueurs sélectionnés,
(ii) Développement de méthodes statistiques pour identifier les facteurs environnementaux à l’origine des distributions génétiques et du pattern de dispersion.
La nature différente des méthodes développées nécessite l’utilisation de deux bases de données différentes : une base de données des ours de Scandinavie et une base de données de plusieurs races de chèvre et mouton qui habitent dans des environnements avec des caractéristiques extrêmes.


Back to the topback to the top

Projets

1) Développement des méthodes d’analyses des marqueurs sélectionnés

Nous proposons de développer des méthodes d’analyses des marqueurs sélectionnés appartiennant aux deux catégories décrites auparavant

(a) tests de neutralité

L'objectif de cette partie est de développer des tests statistiques de neutralité fondés sur la théorie de la coalescence. Fu et Li (1993) ont introduit un test désormais populaire s'appuyant sur la longueur totale des branches externes de l'arbre de coalescence neutre. Nous proposons un test fondé sur le degré de connectivité entre les feuilles de l'arbre au sens de la théorie des graphes. La statistique de test repose en premier lieu sur une reconstruction phylogénétique correcte de l'arbre des gènes d'un échantillon d'individus. Elle calcule la distribution empirique des degrés de connectivité des feuilles dans l'arbre reconstruit, puis elle renvoie la moyenne. Le résultat obtenu s'apparente dans l'esprit à la statistique de Sackin, souvent utilisée avec pertinence dans les tests de déséquilibre des phylogénies (Shao et Sokal, 1990; Moers et Heard, 1997).  Elle possède une connexion évidente avec la statistique de Fu et Li.

(b) identification de loci outliers.

L’objectif de cet axe est de développer des tests d’identification de loci outliers. Ces tests ont d’abord été introduits par Lewontin and Krakauer (1973) puis modifiés ultérieurement (e.g. Bowcock et al. 1991; Beaumont and Nichols 1996). Récemment, Beaumont and Balding (2004) ont développé une méthode de vraisemblance basée sur cette approche.  Ils ont utilisé la distribution multinomiale de Dirichlet comme fonction de vraisemblance pour modéliser la fréquence des allèles. Le paramètre d’échelle de la distribution de Dirichlet peut-être défini comme une fonction de FST. Finalement le FST lui-même peut être modélisé par un modèle de régression logistique incluant des paramètres de régression qui décrivent les effets des locus .
Ces méthodes seront utilisées pour analyser la base de données de races de chèvres et moutons.

2) Développement des méthodes statistiques pour identifier les facteurs environnementaux à l’origine des distributions génétiques et du pattern de dispersion

Nous proposons deux types des méthodes:

a) Identification des facteurs écologiques et environnementaux qui régissent le degré de différentiation génétique chez les populations fragmentées 

La méthode pour identifier l'effet de différents facteurs sur le degré de différentiation génétique sera basée sur une approche Bayésienne hiérarchique (e.g. Gelman et al. 1995) qui relie la distribution a priori de FST avec les différents facteurs présumés d’influencer la différentiation génétique. L'influence des différents facteurs sur FST sera décrite par des hyperparamètres incorporés dans un modèle linéaire généralisé. Différents modèles alternatifs peuvent être définis selon les hyperparamètres et la probabilité postérieure de chacun de ces modèles sera estimée en utilisant la technique de Monte Carlo par Chaîne de Markov à saut réversible (e.g. King et Brooks 2001; Gaggiotti et al. 2004).

b) Estimation des taux de dispersion

Nous développerons des méthodes statistiques pour estimer les taux de migration chez les populations fragmentées, qui peuvent employer simultanément différents types de marqueurs génétiques et intégrer l'information de données non-génétiques.
Les méthodes récentes pour l'étude des processus de dispersion (migration, colonisation) sur une échelle de temps écologique (Pritchard et al. 2000; Wilson et Rannala 2003; Gaggiotti et al. 2002, 2004) sont basées sur l’analyse des génotypes multilocus et des approches probabilistes. Nous avons l'intention de combiner et généraliser ces méthodes existantes de sorte que: (i) elles pourront  utiliser simultanément différents types de marqueurs génétiques; et (ii) elles pourront intégrer et combiner  l'information issue des données génétiques, des données démographiques, écologiques et environnementales.


Back to the topback to the top

Avancees du projet, resultats

Projet

Status

Méthodes d’analyses des marqueurs sélectionnés

  1. Tests de  neutralité
  2. Outlier loci

 

  • accompli
  • en exécution

Méthodes pour l'étude de la structure spatiale et la dispersion

  1. Structure génétique
  2. Migration

 

  • en exécution
  • en exécution

 

 


Back to the topback to the top

Calendrier

 

Date

Objet

Participantes

Exposés

9/12/2004

coordination des activités

présentation de résultats partiels

Matthieu Foll, Olivier François, Stéphanie Manel, Oscar Gaggiotti

Matthieu Foll : estimation de la différentiation génétique entre populations

17/3/2005

présentation de résultats partiels

Sophie Schbath, Françoise Bertoud, Pierre Faubert, Matthieu Foll, Olivier François, Oscar Gaggiotti, Gilles Guillot, Stéphanie Manel

 

Oscar Gaggiotti : Présentation du projet ADGP

Olivier François : Un champ de Markov caché pour dét ecter la structure génétique spatiale des populations

Matthieu Foll : Une méthode Bayésienne pour identifier les facteurs environnementaux à l’origine de la différentiation génétique entre populations

Gilles Guillot :

9/6/2005

préparation de la réunion du 5 juillet à Lyon

 

 

 30/1/2006

présentation de résultats partiels

Matthieu Foll, Pierre Faubet, Olivier François, Oscar Gaggiotti, Stéphanie Manel

Matthieu Foll, Pierre Faubet

 

 


Back to the topback to the top

Publications et logiciels

In press
Blum, M.G.B. and O.Francois 2006. Which random processes describe the Tree of Life? A large-scale study of phylogenetic databases. Systematic Biology, to appear.
Foll, M and OE Gaggiotti. 2006. Identifying the environmental factors that determine the genetic structure of populations. Genetics (accepted).

2006

Bortolussi, N., E. Durand, M. Blum, O.Francois. 2006. APTreeshape: Statistical analysis of phylogenetic tree shape, Bioinformatics, 22: 363-364.
Emily, M. and O.Francois. 2006. Conditional coalescent trees with two mutation rates and their application to genomic instability, Genetics 2006 172: 1809-1820.
Gaggiotti, OE. 2006.  Where the Vikings immune to HIV? Heredity, 96: 280-281.
Waples, RS and OE Gaggiotti. 2006. What is a population? An empirical evaluation of some genetic methods for identifying the number of gene pools and their degree of connectivity. Molecular Ecology, 15:1419-1439.

 

2005

Blum M. and O. Francois. 2005. On statistical tests of phylogenetic imbalance: the Sackin and other indices revisited, Mathematical Biosciences, 195 2:141-153.
Foll, M and OE Gaggiotti. 2005. COLONISE : a computer program to study colonisation processes in metapopulations.
Molecular Ecology Notes, 5:705-707. Lien vers le site de téléchargement

Manel, S, OE Gaggiotti and RS Waples. 2005. Assignment methods:  matching biological questions with appropriate techniques. Trends in Ecology and Evolution, 20: 136-142.

 

Submitted
Blum, M., O.Francois, S. Janson . The mean, variance and joint distribution of two statistics sensitive to phylogenetic tree balance, submitted.
Blum, M.G.B., E. Heyer, O.Francois, F. Austerlitz.  Matrilineal fertility inheritance detected in Hunter-Gatherer populations using the imbalance of gene genealogies, submitted.
Cercueil, A., O.Francois and S.Manel . The Genetical Bandwith Mapping: a Wombling-based approach to assess the spatial genetic structure of populations, submitted.