PhyML, un logiciel pour remonter la piste du COVID-19

Publié par Isabelle le 26/03/2020 à 14:00
Source: CNRS INS2I

http://virological.org/t/phylodynamic-analysis-176-genomes-6-mar-2020/356 © Andrew Rambaut, University of Edinburgh
Face à un virus encore mal connu, la recherche a besoin de tous les moyens pour lutter contre le COVID-19. Conçu, hébergé et maintenu à jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux nuits, pendant laquelle les rayons du Soleil éclairent le ciel. Son début (par rapport à minuit heure locale) et...) par des chercheurs et des ingénieurs du LIRMM (CNRS/Université de Montpellier), PhyML est un logiciel (En informatique, un logiciel est un ensemble d'informations relatives à des traitements effectués automatiquement par un appareil informatique. Y sont inclus les instructions de traitement, regroupées sous forme de...) qui compare les séquences d'ADN pour en tirer des arbres phylogénétiques et expliquer l'évolution qui a permis leur apparition. Partout dans le monde (Le mot monde peut désigner :), des équipes s'en emparent pour remonter le fil de l'épidémie.

Utilisé par les biologistes depuis plus de quinze ans, le logiciel PhyML fait partie de l'arsenal d'outils disponibles pour mieux comprendre et combattre le coronavirus SARS-CoV-2, responsable de l'épidémie COVID-19. Créé et maintenu par Stéphane Guindon, chargé de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche scientifique...) CNRS (Le Centre national de la recherche scientifique, plus connu sous son sigle CNRS, est le plus grand organisme de recherche scientifique public français (EPST).) au Laboratoire d'informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement automatique de l'information par...), de robotique et de microélectronique de Montpellier (LIRMM, CNRS/Université de Montpellier), PhyML compare des séquences génétiques pour établir leurs liens de parentés évolutives.

Les différences que l'on observe, sur des portions d'un même gène ou d'un chromosome (Le chromosome (du grec khroma, couleur et soma, corps, élément) est l'élément porteur de l'information génétique. Les chromosomes contiennent les gènes et permettent leur distribution égale dans les deux...), proviennent de l'accumulation de mutations de l'ADN au cours de l'évolution, détaille Stéphane Guindon. On reconstruit alors l'arbre (Un arbre est une plante terrestre capable de se développer par elle-même en hauteur, en général au delà de sept mètres. Les...) évolutif, ou arbre phylogénétique, en se basant sur l'idée que plus des séquences sont similaires, moins leur ancêtre commun (En phylogénie, un ancêtre commun à plusieurs espèces est l'individu le plus proche dans le temps dont descendent toutes les espèces en question. Par exemple, l'homme et le...) est ancien. Cela fonctionne pour des virus (Un virus est une entité biologique qui nécessite une cellule hôte, dont il utilise les constituants pour se multiplier. Les virus existent sous une forme extracellulaire ou...), des espèces animales... L'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un...) du vivant est concerné.

Début février, PhyML a été appliqué à la comparaison de cinquante-six génomes complets de souches de SARS-CoV-2, soit autant de chaînes d'environ 30 000 nucléotides. Ces travaux ont montré que l'origine de l'épidémie provenait d'un premier groupe d'infectés à Wuhan, début décembre 2019, à la suite d'une seule contamination par un animal (Un animal (du latin animus, esprit, ou principe vital) est, selon la classification classique, un être vivant hétérotrophe, c’est-à-dire qu’il se nourrit de substances organiques. On réserve...). L'analyse phylogénétique confirme qu'il n'y a pas eu ensuite d'autres transmissions de l'animal à l'humain. Le corpus a depuis été porté à 176 souches virales, et continue de grandir. Ces études sont menées par différentes équipes internationales, par exemple les universités d'Édimbourg ou de Melbourne.

PhyML a cependant besoin (Les besoins se situent au niveau de l'interaction entre l'individu et l'environnement. Il est souvent fait un classement des besoins humains en trois grandes...) de signal ( Termes généraux Un signal est un message simplifié et généralement codé. Il existe sous forme d'objets ayant des formes particulières. Les signaux...) pour fonctionner: lorsque les séquences sont trop similaires, l'arbre phylogénétique ne peut pas être reconstruit avec précision. C'est d'ailleurs une des difficultés rencontrées dans l'analyse du SARS-Cov-2. Le virus étant extrêmement récent, il a peu muté et présente donc une diversité génétique (La diversité génétique est une caractéristique décrivant le niveau de variétés des gènes au sein d'une même espèce (voire sous-espèce). On parle de...) encore relativement faible. Il livre moins facilement ses secrets: par exemple, certaines souches françaises et chinoises sont à peine discernables.

Cela n'empêche bien sûr pas la recherche d'avancer. Une publication dans la revue Nature a ainsi réfuté les théories selon lesquelles SARS-CoV-2 aurait été fabriqué en laboratoire. Les scientifiques ont repéré les mutations qui ont permis au virus d'attaquer aussi efficacement les humains. Reste encore à savoir si cette mutation est apparue avant ou après la transmission à notre espèce (Dans les sciences du vivant, l’espèce (du latin species, « type » ou « apparence ») est le taxon de base de la systématique. L'espèce est un concept flou dont il...), car le premier cas multiplierait les risques de réémergences de la maladie (La maladie est une altération des fonctions ou de la santé d'un organisme vivant, animal ou végétal.).

Créé en 2003 à partir des travaux de thèse (Une thèse (du nom grec thesis, se traduisant par « action de poser ») est l'affirmation ou la prise de position d'un locuteur, à l'égard du sujet ou du thème qu'il évoque.) de Stéphane Guindon, encadrés par Olivier Gascuel (1), PhyML comporte aujourd'hui environ 100 000 lignes de code. Il utilise le principe statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de l'application...) du maximum de vraisemblance. "On essaye de trouver l'arbre phylogénétique qui maximise la probabilité d'observer les séquences dont on dispose, détaille Stéphane Guindon. C'est un problème d'optimisation complexe, sans algorithme exact, qui fait donc appel à des heuristiques."

Le logiciel est presque quotidiennement mis à jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux nuits, pendant laquelle les rayons du Soleil éclairent le ciel. Son début (par rapport à minuit heure locale) et sa...) grâce aux retours d'une large communauté d'utilisateurs. Il est en effet cité (La cité (latin civitas) est un mot désignant, dans l’Antiquité avant la création des États, un groupe d’hommes sédentarisés libres (pouvant avoir des esclaves),...) dans pas moins de 25 000 publications scientifiques, principalement liées à la biologie (La biologie, appelée couramment la « bio », est la science du vivant. Prise au sens large de science du vivant, elle recouvre une partie des sciences naturelles et de l'histoire naturelle des...) et à l'étude de l'évolution. Les améliorations visent surtout à implémenter des algorithmes de calcul plus rapides, et à s'adapter à l'accroissement du volume (Le volume, en sciences physiques ou mathématiques, est une grandeur qui mesure l'extension d'un objet ou d'une partie de l'espace.) des données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.).

Il y a dix ans, on ne pouvait pas comparer plus de vingt génomes de la taille de celui du SARS-CoV-2 alors qu'aujourd'hui nous pouvons aller jusqu'à 176 et bien au-delà.

Pour utiliser PhyML, les chercheurs du monde entier déposent leurs séquences sur le site dédié (2). Les calculs sont alors effectués en ligne sur le serveur de la plateforme de bioinformatique ACGT du LIRMM, qui y consacre environ 350 000 heures (L'heure est une unité de mesure  :) d'équivalent de temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) de calcul par an. En fonction de leur volume, certaines analyses prennent plusieurs jours, voire semaines.

La classification phylogénétique servait à l'origine uniquement à classifier les espèces, mais elle va maintenant bien plus loin. Avec l'amélioration du traitement des données moléculaires, les approches phylogénétiques fournissent aussi des estimations des taux auxquels les espèces vivantes apparaissent et s'éteignent, ou la taille de populations au sein d'une famille d'espèces. Elles permettent par ailleurs de déterminer l'origine géographique des évènements de contamination. "Les arbres phylogénétiques nous donnent la possibilité de remonter les chaînes de transmission virale ", précise Stéphane Guindon.

Avec ses collègues, il aimerait à présent intégrer PhyML à un "tableau de bord" de suivi d'épidémies. Les chercheurs veulent notamment visualiser les arbres phylogénétiques de manière dynamique (Le mot dynamique est souvent employé désigner ou qualifier ce qui est relatif au mouvement. Il peut être employé comme :) et les combiner à différentes informations géographiques, ainsi que d'autres données disponibles à propos l'épidémie. Cet outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son efficacité naturelle dans l'action. Cette augmentation se traduit par la simplification des actions entreprises, par une plus...) intégré faciliterait le suivi de l'épidémie à grande échelle (La grande échelle, aussi appelée échelle aérienne ou auto échelle, est un véhicule utilisé par les sapeurs-pompiers, et qui emporte...) et aiderait les épidémiologistes à mieux comprendre sa dynamique temporelle et spatiale.

Notes
(1) Directeur de l'unité de recherche du Département de Biologie Computationnelle de l'Institut Pasteur (L’Institut Pasteur est une fondation française privée à but non lucratif qui se consacre à l'étude de la biologie, des microorganismes, des maladies et des vaccins. Il est ainsi nommé d'après...) (CNRS/Institut Pasteur)
(2) http://www.atgc-montpellier.fr/phyml/


Contact:
Stéphane Guindon - Chargé de recherche CNRS au LIRMM - guindon at lirmm.fr
Cet article vous a plus ? Vous souhaitez nous soutenir ? Partagez-le sur les réseaux sociaux avec vos amis et/ou commentez-le, ceci nous encouragera à publier davantage de sujets similaires !
Page générée en 0.228 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique