Structure de l'ARN - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Structure 3D d'un ARN régulateur (riboswitch)

La structure de l'ARN décrit l'arrangement des paires de bases et de la conformation de l'ARN en trois dimensions. L'ARN étant trouvé le plus souvent sous forme de simple-brin dans la cellule, il se replie en effet sur lui-même en formant des appariements Watson-Crick intramoléculaires. Ceci conduit à la formation de régions localement en hélice et de régions en boucle où les bases ne sont pas appariées. Cette topologie des appariements constitue ce qu'on appelle la structure secondaire de l'ARN. En plus de ces appariements standard, l'ARN peut former des interactions non-canoniques et des interactions à longue distance qui contribuent à donner un repliement 3D à certains ARN structurés, comme les ARNt ou les ARN ribosomiques, on parle alors de la structure tertiaire des ARN.

L'existence de structures secondaires et tertiaires bien définies dans les ARN est un des éléments importants de la fonction d'un certain nombre d'entre eux. Ces structures leur permettent de former des sites de liaison pour des ligands séléctifs, petites molécules ou protéines, et, pour les ribozymes, elles leur permettent d'assurer des fonctions catalytiques. La formation ou la fusion de ces structures en réponse à une variation de l'environnement peut-être aussi être un signal déclenchant une réponse cellulaire.

L'analyse et la prédiction de la structure des ARN, et en particulier de leur structure secondaire, est un champ de recherche très actif, à la fois dans le domaine de la biologie moléculaire et de la bio-informatique. En particulier, l'existence de règles plus formalisées que pour la structure des protéines (dans les paires Watson-Crick, A s'apparie avec U, et G avec C) est une des raisons du succès de ces méthodes prédictives.

Structure secondaire

Structure en tige et boucle formée par une séquence répétée inversée sur l'ARN

La structure secondaire d'un ARN est la description de l'ensemble des appariements internes au sein d'une molécule simple brin. Cet ensemble d'appariements induit une topologie particulière, composée de région en hélice (tiges) et de régions non-appariées (boucles). Par extension, la structure secondaire recouvre également la description de cette topologie.

L'élément moteur de la formation de structures secondaires au sein d'un ARN simple-brin est l'existence de régions contenant des séquences répétées inversées, qui peuvent s'apparier pour former localement une structure en double hélice. Par exemple, si l'ARN contient les deux séquences suivantes : --GUGCCACG----CGUGGCAC--, celles-ci forment un motif répété inversé, les nucléotides du second segment étant les complémentaires de ceux du premier, après inversion de leur sens de lecture. Ces deux segments peuvent donc s'apparier de manière antiparallèle pour former une région localement en duplex. La région entre les deux segments forme alors une boucle reliant les deux brins du duplex. On parle alors de structure en tige et boucle ou en épingle à cheveux.

Topologie des différentes structures secondaires rencontrées dans l'ARN

Dans des ARN de longueur plus importante, il peut exister des structures plus complexes, qui résultent de l'appariement de plusieurs régions complémentaires ou séquences répétées inversées. En fonction de la manière dont sont "emboîtées" ces différentes régions, on obtient des éléments topologiques variés, avec des tiges ou régions appariées, et divers types de boucles :

  • Les boucles terminales, situées à l'extrémité d'une tige.
  • Les boucles internes, qui connectent deux tiges.
  • Les boucles multiples, qui connectent trois tiges ou plus et constituent des points de branchement de la structure.
  • Les hernies (en anglais bulge) ou boucles latérales qui sont sur un seul des deux brins d'une hélice. La continuité de l'hélice n'est en général pas affectée et l'ensemble des bases reste empilé de manière coaxiale, de part et d'autre de la hernie.

Il n'existe pas toujours une structure unique stable pour une séquence donnée et il arrive que certains ARN puissent adopter plusieurs conformations alternatives en fonction de la liaison d'un ligand (protéine, petite molécule...) ou des conditions physico-chimiques (force ionique, pH).

Déterminants de stabilité

La stabilité de la structure des ARN est principalement déterminée par trois types d'interactions :

  • Une contribution électrostatique liée à la formation des liaisons hydrogènes entre les bases.
  • L'empilement des plateaux des paires de bases (stacking) qui donne naissance à des interactions de van der Waals.
  • L'interaction avec le solvant aqueux et les ions de la solution. En particulier, la présence de cations divalents comme le magnésium, Mg2+, est souvent nécessaire pour neutraliser la charge des groupements phosphate du squelette de l'ARN. Le repliement et la formation d'une structure tridimensionnelle par l'ARN implique en particulier le rapprochement de ces groupements phosphate, ce qui serait électrostatiquement défavorable en l'absence de contre-ions.

Le groupement 2'-hydroxyle (-OH) porté spécifiquement par les riboses de l'ARN (mais absent dans l'ADN) joue parfois également un rôle dans la stabilité et la formation de la structure, en formant des liaisons hydrogènes avec les bases.

Paramètres thermodynamiques

L'étude de la stabilité des ARN est basée sur la mesure de courbes de fusion par spectrophotométrie, en suivant l'effet hyperchrome dont on peut extraire les paramètres thermodynamiques de la formation des paires de bases. On utilise en général des courts oligonucléotides de 10 à 20 bases de long, ce qui permet d'avoir des températures de fusion comprises entre 30 et 70 degrés Celsius. Dans l'exemple simplifié d'un oligonucléotide de séquence palindromique, qui est donc son propre brin complémentaire, cela revient à étudier l'équilibre :

duplex \rightleftharpoons 2\; brin

La résolution des équations d'équilibre permet de calculer la température de fusion, Tm en fonction des valeurs standards des fonctions d'état (enthalpie et entropie). On trouve :

T_m=\frac{\Delta H^0}{\Delta S^0+R\log([ARN_{total}])}

Avec R, la constante des gaz parfaits et [ARNtotal], la concentration totale de brins d'ARN (appariés ou non) dans la solution.

En mesurant expérimentalement la température de fusion pour plusieurs valeurs de concentration de l'oligonucléotide, il est possible, par ajustement de l'expression ci-dessus, de déterminer les valeurs de l'entropie et de l'enthalpie standard (ΔS0 et ΔH0) et donc de l'enthalpie libre ΔG0 à la température souhaitée.

En mesurant cette valeur pour un ensemble suffisamment important et diversifié de courts duplex d'ARN, il est possible de définir des règles permettant de calculer a priori l'enthalpie libre standard associée à la formation de chaque paire de base. Dans la pratique, pour tenir compte des interactions d'empilement entre bases consécutives, on estime empiriquement la variation d'entalphie libre standard (ΔΔG0) obtenue lorsqu'on empile une paire de base X-Y en 3' d'une paire de base V-W. Cette variation d'enthalpie libre combine la contribution liée à la formation des liaisons hydrogène entre les deux bases de l'appariement additionnel et la contribution d'empilement, qui dépend de la nature des paires X-Y et V-W.

Ces paramètres ont été tabulés pour différentes conditions de tampon et peuvent être utilisées pour calculer l'enthalpie libre standard associée à la formation d'une hélice d'ARN, avec une marge d'incertitude de l'ordre de 10%. La table suivante donne les valeurs obtenues à 37 °C, en présence d'une concentration de 1M NaCl (règles de Freier-Turner). A ces valeurs, il faut ajouter un coût de nucléation, d'origine entropique, de +3,4 kcal/mol.

Enthalpie libre standard associée aux appariements de bases (1 M NaCl, 37 °C)
séquence 5'AA3'

3'UU5'

5'AU3'

3'UA5'

5'UA3'

3'AU5'

5'CA3'

3'GU5'

5'CU3'

3'GA5'

5'GA3'

3'CU5'

5'GU3'

3'CA5'

5'CG3'

3'GC5'

5'GC3'

3'CG5'

5'GG3'

3'CC5'

ΔΔG0 kcal/mol -0,9 -0,9 -1,1 -1,8 -1,7 -2,3 -2,1 -2,0 -3,4 -2,9

On peut ainsi calculer a priori l'enthalpie libre standard associé à la formation d'une hélice d'ARN, en additionnant tous les ΔΔG0 d'empilement. Par exemple, pour le duplex de 7 paires de bases suivant, il faut additionner les 6 ΔΔG0 d'empilement et le coût de nucléation.

      5'-AGGCUUC-3'      3'-UCGCAAG-5'      

En prenant les valeurs de la table ci-dessus, on trouve ΔG0= - 1,7 - 2,9 - 3,4 - 1,7 - 0,9 - 2,3 + 3,4nuc = -9,5 kcal/mol

Des règles ont également été déterminées pour les différents types de boucles, en fonction de leur longueur. Ces calculs d'enthalpie libre sur les boucles sont toutefois d'une précision moindre, en particulier parce que certaines boucles peuvent adopter des conformations stables particulières qui ne sont pas prises en compte dans ce modèle simplifié.Cet ensemble de règles empiriques est exhaustif, il est permet faire un calcul prédictif l'enthalpie libre associée à n'importe quelle structure secondaire.

Analyse et prédiction de structure secondaire

Un ARN de longueur suffisante peut en principe adopter un grand nombre de conformations différentes, correspondant à un grand nombre de structures secondaires alternatives différentes. En théorie, la configuration la plus stable est celle qui correspond à l'enthalpie libre standard minimale. Les calculs thermodynamiques décrits ci-dessus permettent de calculer théoriquement cette enthalpie, pour toute configuration de structure secondaire d'un ARN donné. Le problème qui est posé est trouver la structure d'énergie minimale parmi toutes les configurations possibles. Le nombre de combinaisons possibles est cependant très grand, pour une structure de longueur 2 n, il croit comme le nombre de Catalan :

C_n=\frac{(2n)!}{n! (n+1)!}

De plus, l'imprécision sur les calculs empiriques d'énergie rend la prédiction difficile. Pour résoudre ce problème, on associe en général des méthodes expérimentales, comparatives et bio-informatiques. Les approches combinées permettent ainsi d'obtenir des analyses fiables, où la prédiction est corroborée par des arguments expérimentaux et évolutifs.

Méthodes expérimentales

Il est possible d'analyser la structure secondaire des ARN au moyen de méthodes chimiques et enzymatiques. Cette technique est basée sur la réactivité différentielle de l'ARN, en fonction de son état de structuration. Par exemple, certaines ribonucléases, comme la nucléase S1, ne clivent l'ARN que dans les régions qui sont simple brin, tandis que d'autres, à l'inverse, ne coupent que dans les régions en double-brin. On traite l'ARN étudié par l'une ou l'autre de ces enzymes dans des conditions de digestion très partielle, où il ne se produit que zéro ou une coupure par molécule d'ARN. En analysant par électrophorèse les fragments d'ARN ainsi produits, on peut localiser les sites de coupure et donc les régions qui sont en duplex ou bien non-appariées.

L'utilisation de sonde chimiques permet d'avoir une information encore plus précise, en localisant quelles positions de chaque base sont accessibles au réactif. On utilise par exemple du sulfate de diméthyle (DMS) qui réagit avec la position N3 de la cytidine et la position N7 de la guanine. La première, le N3 dans les C, est impliquée dans une liaison hydrogène avec le G dans des appariements Watson-Crick et n'est réactive que si le C correspondant n'est pas apparié.

Méthodes phylogénétiques

Exemple de covariations (en jaune) d'appariements de bases dans la structure secondaire de d'un même ARN chez deux espèces.

Lorsqu'on compare les ARN remplissant la même fonction chez plusieurs espèces, on observe en général une conservation forte de la structure secondaire. Les différentes régions en hélice et leur topologie est conservée même si la nature exacte des appariements de bases qui les constituent peut varier. Par exemple, à une position donnée, on pourra trouver un appariement G-C dans une espèce, remplacé par un appariement A-U dans une autre, ce qui ne modifie pas la topologie globale. Cette contrainte d'appariement est une conséquence de la pression de sélection sur la fonction de l'ARN, qui est en général fortement dépendante de sa structure tridimensionnelle : pour conserver la fonction, il faut conserver la forme et donc la topologie.

Dans des alignements de séquence d'ARN homologues, cette conservation structurale globale de la conduit à l'apparition de covariations entre positions qui sont normalement appariées dans le repliement. Ces covariations peuvent être identifiées systématiquement par des analyses statistiques sur un ensemble de séquences d'ARN homologues et utilisées pour construire des modèles de structure secondaire. Il est également possible de vérifier a posteriori si un modèle de structure secondaire est compatible avec les covariations observées dans l'évolution. C'est en grande partie ainsi qu'ont été validés les modèles de structure secondaire des ARN ribosomiques.

Prédictions bio-informatiques

La disponibilité de données expérimentales permettant de calculer l'enthalpie libre associée à un repliement donné de l'ARN a ouvert la voie à la prédiction ab initio de sa structure secondaire. L'objectif étant de trouver la ou les conformations d'énergie minimale, qui correspondent à l'état le plus stable du système.

Un des premiers algorithmes performants pour prédire la structure secondaire de l'ARN a été développé par Ruth Nussinov et est basé sur l'utilisation de la programmation dynamique pour limiter la complexité combinatoire. L'algorithme de Nussinov ne cherche qu'à maximiser le nombre total d'appariements de base dans la structure formée, sans critères énergétiques, ni prise en compte des interactions d'empilements entre paires de bases. Une version améliorée de cet algorithme de base a été proposée en 1981 par Michael Zuker, qui incorpore les données thermodynamiques et en particulier les interactions d'empilement.

Ces deux algorithmes, très proches dans leur principe, sont performants et permettent de prédire le repliement optimal d'un ARN jusqu'à quelques milliers de nucléotides de longueur. Leur complexité algorithmique est de l'ordre de O(N3), où N est la longueur de la séquence. Tout deux souffrent de cependant de deux limitations importantes :

  • Ils ne permettent de prédire que des topologies canoniques, excluant en particulier la possibilité de former des pseudonœuds. Ceci n'est pas un défaut majeur, car les pseudonœuds sont à la fois peu fréquents et de longueur limitée (voir plus bas). On peut donc en général les ajouter a posteriori sur la prédiction de structure classique de type Zuker/Nussinov.
  • Ils ne prédisent que la structure d'énergie théorique minimale, et pas les solutions dont le score énergétique peut être très proche de l'optimum. C'est une limitation importante, car les paramètres énergétiques empiriques ne sont précis qu'au mieux à 5 à 10% près, et, à cause de cette incertitude, la structure la plus stable en réalité peut se trouver dans ces solutions légèrement sous-optimales.

Un algorithme permettant la prédiction de structures sous-optimales a ensuite été développé par Zuker et constitue la version actuelle du programme mfold, disponible en ligne, qui est actuellement un des outils standards de la prédiction de structure secondaire d'ARN.

Plusieurs variantes de ce programme existent, et permettent d'affiner les prédictions, en tenant compte de données phylogénétiques ou expérimentales, ainsi que de la reconnaissance de motifs structuraux spécifiques, comme les tétraboucles (voir ci-après).

Page générée en 0.400 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise