|
|
|
|
Analyse de Données en Génomique des Populations
Projet
ACI IMPBio 2004-42-ADGP

|
Equipe Génomique des Populations et Biodiversité - Laboratoire
d'Ecologie Alpine |
|
Oscar E. Gaggiotti,
Professor, Coordinateur du Projet |
|
Techniques de l’Imagerie de la modélisation et de la
cognition |
|
Olivier François,
Professor, Responsable équipe 1 |
|
Laboratoire de Physique et Modélisation des Milieux Condensés |
|
Françoise Berthoud,
Ingénieur de recherche, Responsable
équipe 2 |
L’étude de la structure
spatiale de la diversité génétique des populations est influencée par la
sélection naturelle et la migration entre populations. Son étude a des
applications importantes dans le domaine de la conservation, de l'amélioration
des récoltes et des espèces agricoles, et de l'identification des gènes
impliqués dans le déterminisme de maladies génétiques ou dans la résistance à
des pathogènes chez l'homme et les espèces économiquement importantes. Une
bonne compréhension de la structure génétique des populations est fondamentale
dans ces applications. Par exemple, dans le domaine de la conservation de la
biodiversité, la connaissance de la structure génétique permet d'identifier les
unités de gestion qui devraient être la cible des mesures de conservation. La
compréhension des facteurs qui influencent la structure génétique des
populations peut également aider à concevoir de meilleures stratégies de
gestion pour la conservation de la diversité génétique.
L'amélioration des récoltes et des espèces agricoles et
l'identification des gènes de maladie ou de résistance nécessite d'identifier
les gènes sous sélection. Une technique fréquemment utilisée dans ce domaine
est la cartographie d’association qui localise les marqueurs dont
quelques allèles sont plus fréquents parmi les individus affectés que les
individus non affectés (Risch and Merikangas 1996). Cependant, l'existence
d’une structure cachée dans la population peut mener à de fausses
associations entre un phénotype (résistance à la maladie ou à un caractère
bénéfique) et une région chromosomique non liée (Pritchard and Rosenberg 1999).
La présence d’une structure cachée mène également à de faux résultats
positifs dans les tests de neutralité, utilisés pour déterminer la présence de
sélection dans les séquences d'ADN (e.g. Ford 2002 ; Wakeley 2003). Ainsi,
l'identification de la structure d’une population est un préalable
indispensable à l'identification précise des gènes sous sélection.
L'identification des gènes sélectionnés est également importante
dans le contexte de la conservation de la biodiversité. Par exemple, un but
important de la génétique de la conservation est l’identification des
gènes ou des régions de génome responsables des traits phénotypiques qui
peuvent augmenter l'adaptation locale ou les traits qui peuvent faciliter
l'adaptation au futur changement climatique. Cette connaissance peut alors être
utilisée pour concevoir des stratégies de conservation donnant priorité à la
conservation des populations qui ont une fréquence élevée de ces gènes ou
d’une combinaison de ces gènes.
De nombreuses méthodes statistiques développées en génétique des population ont
été contraintes par un manque de puissance informatique. Ceci a fortement
limité le développement de méthodes pour l’estimation des taux de
migration et la détection de la sélection dans des populations naturelles. La
puissance des ordinateurs n’est plus maintenant un facteur limitant
et permet d’envisager d’élaborer des méthodes génétiques
statistiques plus appropriées pour l'étude des populations naturelles.
Ces dernières années, plusieurs méthodes ont été développées
pour estimer le taux de migration et la sélection. Les méthodes pour estimer
les taux de migration sont de deux types: les méthodes basées sur le coalescent
et les méthodes basées sur l’analyse des génotypes de multilocus. Les
premières fondées sur le coalescent exploitent l'information généalogique
contenue dans les séquences d'ADN et estiment le nombre efficace de migrants
(Beerli et Felsenstein, 2001). C'est un paramètre qui mesure l'effet à long
terme de la migration dans des conditions d'équilibre des populations et par
conséquent a peu d'importance dans les populations naturelles, en général
pas en équilibre. Les méthodes basées sur l’analyse des génotypes
multilocus (par exemple Wilson et Rannala 2003) utilisent l'information du
déséquilibre gamétique et estiment des taux actuels de migration. Ces méthodes
ne nécessitent pas de supposer que les populations sont à l'équilibre et par
conséquence, sont plus appropriées pour l'étude des populations naturelles.
Deux types de méthodes sont également disponibles pour
détecter les gènes sélectionnés : les méthodes de neutralité et les méthodes
identifiant des loci « outliers ». Les tests de neutralité recherchent des
signes de sélection au niveau de l'ADN dans des échantillons de populations.
L’hypothèse nulle est basée sur la théorie neutraliste : une évolution
neutre des sites (Kimura 1968 ; Kreitman 2000). Les écarts aux prévisions de la
théorie neutraliste peuvent indiquer la présence de sélection agissant sur un
ou plusieurs des sites étudiés ou sur un site étroitement lié.
L’inconvénient majeur de ces méthodes est que les déviations
significatives de l’hypothèse neutre peuvent être dues non seulement à la
sélection, mais également aux processus démographiques tels que des goulots
d'étranglement, des expansions et des subdivisions de populations (Wakeley
2004). Les méthodes de détection des loci « outliers » sont basées sur
l’observation de loci avec un niveaux atypiquement bas ou élevé de
différentiation entre populations (e.g. Beaumont et Balding 2004). Le principe
de cette approche est que le niveau de différentiation aux différents loci
neutres devrait être identique en raison de leur histoire démographique
partagée.
Malheureusement les méthodes actuelles ne permettent pas
d’analyser simultanément l’information issue de différents types de
marqueurs moléculaires (e.g. SNPs, AFLPs, CATs, et ESTs), qui permettent
pourtant de couvrir une grande partie du génome. Il est donc indispensable de
développer des méthodes qui analysent simultanément tous les types de marqueurs
disponibles.
L’objectif de ce projet est
de développer des méthodes informatiques intensives qui permettront
d’évaluer le rôle de la sélection naturelle et de la migration dans la
structure spatiale et la diversité génétique des populations naturelles. Plus précisément
les deux axes suivants seront abordés :
(i) Développement de méthode d’analyses des marqueurs sélectionnés,
(ii) Développement de méthodes statistiques pour identifier les facteurs
environnementaux à l’origine des distributions génétiques et du pattern
de dispersion.
La nature différente des méthodes développées nécessite l’utilisation de
deux bases de données différentes : une base de données des ours de Scandinavie
et une base de données de plusieurs races de chèvre et mouton qui habitent dans
des environnements avec des caractéristiques extrêmes.
Nous proposons de développer des
méthodes d’analyses des marqueurs sélectionnés appartiennant aux deux
catégories décrites auparavant
L'objectif de cette partie est de
développer des tests statistiques de neutralité fondés sur la théorie de la
coalescence. Fu et Li (1993) ont introduit un test désormais populaire
s'appuyant sur la longueur totale des branches externes de l'arbre de
coalescence neutre. Nous proposons un test fondé sur le degré de connectivité
entre les feuilles de l'arbre au sens de la théorie des graphes. La statistique
de test repose en premier lieu sur une reconstruction phylogénétique correcte
de l'arbre des gènes d'un échantillon d'individus. Elle calcule la distribution
empirique des degrés de connectivité des feuilles dans l'arbre reconstruit,
puis elle renvoie la moyenne. Le résultat obtenu s'apparente dans l'esprit à la
statistique de Sackin, souvent utilisée avec pertinence dans les tests de déséquilibre
des phylogénies (Shao et Sokal, 1990; Moers et Heard, 1997). Elle possède
une connexion évidente avec la statistique de Fu et Li.
L’objectif de cet axe est de
développer des tests d’identification de loci outliers. Ces tests ont
d’abord été introduits par Lewontin and Krakauer (1973) puis modifiés
ultérieurement (e.g. Bowcock et al. 1991; Beaumont and Nichols 1996).
Récemment, Beaumont and Balding (2004) ont développé une méthode de
vraisemblance basée sur cette approche. Ils ont utilisé la distribution
multinomiale de Dirichlet comme fonction de vraisemblance pour modéliser la
fréquence des allèles. Le paramètre d’échelle de la distribution de
Dirichlet peut-être défini comme une fonction de FST. Finalement le FST
lui-même peut être modélisé par un modèle de régression logistique incluant des
paramètres de régression qui décrivent les effets des locus .
Ces méthodes seront utilisées pour analyser la base de données de races de
chèvres et moutons.
Nous proposons deux types des
méthodes:
La méthode pour identifier l'effet
de différents facteurs sur le degré de différentiation génétique sera basée sur
une approche Bayésienne hiérarchique (e.g. Gelman et al. 1995) qui relie la
distribution a priori de FST avec les différents facteurs présumés
d’influencer la différentiation génétique. L'influence des différents
facteurs sur FST sera décrite par des hyperparamètres incorporés dans un modèle
linéaire généralisé. Différents modèles alternatifs peuvent être définis selon
les hyperparamètres et la probabilité postérieure de chacun de ces modèles sera
estimée en utilisant la technique de Monte Carlo par Chaîne de Markov à saut
réversible (e.g. King et Brooks 2001; Gaggiotti et al. 2004).
Nous développerons des méthodes
statistiques pour estimer les taux de migration chez les populations
fragmentées, qui peuvent employer simultanément différents types de marqueurs
génétiques et intégrer l'information de données non-génétiques.
Les méthodes récentes pour l'étude des processus de dispersion (migration,
colonisation) sur une échelle de temps écologique (Pritchard et al. 2000;
Wilson et Rannala 2003; Gaggiotti et al. 2002, 2004) sont basées sur
l’analyse des génotypes multilocus et des approches probabilistes. Nous
avons l'intention de combiner et généraliser ces méthodes existantes de sorte
que: (i) elles pourront utiliser simultanément différents types de
marqueurs génétiques; et (ii) elles pourront intégrer et combiner
l'information issue des données génétiques, des données démographiques,
écologiques et environnementales.
|
Projet |
Status |
|
Méthodes
d’analyses des marqueurs sélectionnés
|
|
|
Méthodes pour l'étude de
la structure spatiale et la dispersion
|
|
|
Date |
Objet |
Participantes |
Exposés |
|
9/12/2004 |
coordination des activités présentation de résultats
partiels |
Matthieu Foll, Olivier
François, Stéphanie Manel, Oscar Gaggiotti |
Matthieu Foll : estimation de la différentiation génétique entre populations |
|
17/3/2005 |
présentation de résultats
partiels |
Sophie Schbath, Françoise Bertoud, Pierre Faubert, Matthieu Foll, Olivier François, Oscar Gaggiotti, Gilles Guillot, Stéphanie Manel |
Oscar Gaggiotti : Présentation du projet ADGP Olivier François : Un champ de Markov caché pour dét ecter la structure génétique spatiale des populations Matthieu Foll : Une méthode Bayésienne pour identifier les facteurs environnementaux à l’origine de la différentiation génétique entre populations Gilles Guillot : |
|
9/6/2005 |
préparation de la réunion
du 5 juillet à Lyon |
|
|
|
30/1/2006 |
présentation de résultats
partiels |
Matthieu Foll, Pierre
Faubet, Olivier François, Oscar Gaggiotti, Stéphanie Manel |
Matthieu Foll, Pierre Faubet |
In press
Blum, M.G.B. and O.Francois 2006. Which random processes describe the Tree of
Life? A large-scale study of phylogenetic databases. Systematic Biology,
to appear.
Foll, M and OE Gaggiotti. 2006. Identifying the environmental factors that
determine the genetic structure of populations. Genetics (accepted).
2006
Bortolussi,
N., E. Durand, M. Blum, O.Francois. 2006. APTreeshape: Statistical analysis of
phylogenetic tree shape, Bioinformatics, 22: 363-364.
Emily, M. and O.Francois. 2006. Conditional coalescent trees with two mutation
rates and their application to genomic instability, Genetics 2006 172:
1809-1820.
Gaggiotti, OE. 2006. Where the Vikings immune to HIV? Heredity,
96: 280-281.
Waples, RS and OE Gaggiotti. 2006. What is a population? An empirical
evaluation of some genetic methods for identifying the number of gene pools and
their degree of connectivity. Molecular Ecology, 15:1419-1439.
2005
Blum
M. and O. Francois. 2005. On statistical tests of phylogenetic imbalance: the
Sackin and other indices revisited, Mathematical Biosciences, 195
2:141-153.
Foll, M and OE Gaggiotti. 2005. COLONISE : a computer program to study
colonisation processes in metapopulations. Molecular
Ecology Notes, 5:705-707. Lien vers
le site de téléchargement
Manel,
S, OE Gaggiotti and RS Waples. 2005. Assignment methods: matching
biological questions with appropriate techniques. Trends in Ecology and
Evolution, 20: 136-142.
Submitted
Blum, M., O.Francois, S. Janson . The mean, variance and joint distribution of
two statistics sensitive to phylogenetic tree balance, submitted.
Blum, M.G.B., E. Heyer, O.Francois, F. Austerlitz. Matrilineal fertility
inheritance detected in Hunter-Gatherer populations using the imbalance of gene
genealogies, submitted.
Cercueil, A., O.Francois and S.Manel . The Genetical Bandwith Mapping: a
Wombling-based approach to assess the spatial genetic structure of populations,
submitted.