Arbre phylogénétique - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Définition et méthodes de construction - L'arbre phylogénétique du vivant

Introduction

Un arbre phylogénétique est un arbre schématique qui montre les relations de parentés entre des entités supposées avoir un ancêtre commun. Chacun des nœuds de l'arbre représente l'ancêtre commun de ses descendants ; le nom qu'il porte est celui du clade formé des groupes frères qui lui appartiennent, non celui de l'ancêtre qui reste impossible à déterminer. L'arbre peut être enraciné ou pas, selon qu'on est parvenu à identifier l'ancêtre commun à toutes les feuilles.

Les arbres phylogénétiques ne considèrent pas les transferts horizontaux, et un nouveau modèle se développe en phylogénie, celui de graphe ou réseau phylogénétique qui permet de les prendre en compte, ainsi que les recombinaisons.

Il existe plusieurs techniques de construction des arbres phylogénétiques, plus ou moins rapides et plus ou moins fiables.

Définition et méthodes de construction

Méthodes

On peut chercher à optimiser plusieurs critères dans l'arbre : la distance, la parcimonie, ou la vraisemblance.

Pour les méthodes de distance, il s'agit tout d'abord de choisir le critère de distance entre les futures feuilles de l'arbre. Par exemple, si ces feuilles sont des séquences d'ADN, on peut choisir comme distance entre deux d'entre elles le nombre de nucléotides qui diffèrent. Pour déterminer cette valeur, on est amené à en effectuer un alignement.
Puis on peut utiliser la méthode UPGMA ou celle du Neighbour Joining pour en déduire l'arbre.

Les méthodes de parcimonie, aujourd'hui majoritairement représentées par la cladistique , sont plus utilisées pour les études morphologiques. En ce qui concerne les approches moléculaires, la parcimonie consistent à trouver l'arbre qui minimise le nombre de mutations, délétions, ou insertions ponctuelles pour passer d'une séquence à l'autre. Cette méthode recherche donc le réseau le plus économique en substitutions. Ainsi, si les longueurs des rameaux sont proportionnelles aux nombres de substitutions survenues, le réseau ayant la longueur totale la plus courte sera sélectionné. Ce principe sous entend que les phénomènes de convergence évolutive et de réversibilité (retour d'un caractère à l'état ancestral) soient relativement rares. Ainsi l'arbre présentant le moins d'étapes évolutives est celui qui minimise l'existence de ces deux phénomènes.

Cette méthode est divisée en trois étapes:

A rechercher tous les arbres phylogénétiques possibles pour les différents taxons étudiés,
B mesurer la longueur totale de chaque arbre,
C sélectionner celui ou ceux qui présentent la longueur la plus petite.

Les arbres fournis par cette méthode sont non polarisés, cependant l'utilisation de "Out Groups" (espèces externes aux groupes étudiés) permet dans un deuxième temps de polariser l'arbre.

C'est une méthode très lente si l'on génère tous les arbres possibles pour en calculer la parcimonie.

Enfin, les méthodes de vraisemblance sont plus probabilistes. En se fondant sur le taux de substitution pour chaque élément de base (nucléotide pour des séquences d'ADN) au cours du temps, on estime la vraisemblance de la position et de la longueur des branches de l'arbre.

Racine

Si l'on a obtenu un arbre non enraciné par une des méthodes ci-dessus, on peut tenter d'en trouver la racine par la méthode de l'outgroup ou du point médian. Celle de l'outgroup consiste à ajouter aux séquences traitées, avant le calcul de l'arbre, une très éloignée : le nœud-racine sera le père de cette séquence. Celle du point médian consiste à affecter à chaque nœud de l'arbre une séquence correspondant au consensus de ses fils, et choisir comme racine le nœud dont la séquence est la plus proche de la séquence consensus de toutes les feuilles.