Structure secondaire - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Protéines - Alignement - Acides nucléiques

Protéines

La structure secondaire des protéines consiste en un réseaux d'interactions locales entre résidus d'acides aminés, par l'intermédiaire ou non de liaisons hydrogènes. Les structures secondaires les plus courantes sont les hélices α et les feuillets β. D'autres types d'hélices, comme les hélices 3₁₀ et les hélices π sont prédites comme ayant des arrangements favorables de liaisons hydrogènes, mais ne sont observées que de manière exceptionnelle dans les protéines naturelles, sauf à l'extrémité des hélices α. Ceci résulte d'un empilement défavorable du squelette peptidique au centre de ces hélices. D'autres structures étendues comme l'hélice polyproline et le feuillet α sont rares dans la conformation native des protéines, mais pourraient jouer un rôle important dans le processus de repliement des protéines. Des coudes, région où le squelette change brutalement de direction, et des régions flexibles et irrégulières connectent entre eux les éléments réguliers que sont les hélices et les feuillets. La pelote aléatoire n'est pas à proprement parler une structure secondaire, mais plutôt une catégorie par défaut, dans laquelle on classe les conformations qui ne correspondent pas à une structure secondaire régulière.

Les acides aminés diffèrent dans leur capacité à former les différents types de structure secondaire. La proline et la glycine sont parfois considérées comme des "briseuses d'hélice", parce qu'elles détruisent la régularité du squelette de l'hélice α. En revanche, elles ont des capacités conformationnelles particulières et se retrouvent fréquemment dans les coudes. Les acides aminés qui favorisent la formation des hélices sont la méthionine, l'alanine, la leucine, le glutamate et la lysine ("MALEK" en code acide aminé à une lettre). À l'inverse, les "gros" acides aminés aromatiques (tryptophane, tyrosine et phénylalanine) et les acides aminés branchés en C^β (isoleucine, valine et threonine) privilégient la conformation en feuillet β. Cependant, ces tendances ne sont pas suffisamment marquées pour pouvoir servir de base à la prédiction de structure secondaire, sur la base de la seule séquence en acides aminés.

L'algorithme DSSP

Distribution obtenue à partir d'un jeu de structures non redondant de la protein data bank (mars 2006); Structures secondaires assignées par DSSP, après réduction des 8 états conformationnels à trois possibilités : H=HGI, E=EB, C=STC; On peut observer des superpositions de distributions gaussiennes, résultant également de la réduction des états DSSP

Il y a plusieurs méthodes pour définir la structure secondaire d'une protéine (par exemple STRIDE, DEFINE), mais la méthode du dictionnaire de structure secondaire de protéines (DSSP) est couramment utilisée pour décrire la structure des protéines en utilisant des codes à une lettre. La structure secondaire est déterminée sur la base de l'arrangement des liaisons hydrogènes, selon le schéma initial proposé par Corey et Pauling en 1951 (avant même qu'aucune structure de protéine ne soit résolue expérimentalement). Il existe huit types de structures secondaires définies par DSS :

G = hélice 3₁₀Le carbonyle -CO du résidu i forme une liaison hydrogène avec l'amide du résidu i+3 (longueur minimale, 3 résidus).
H = hélice α. Le carbonyle -CO du résidu i forme une liaison hydrogène avec l'amide du résidu i+4 (longueur minimale, 4 résidus).
I = hélice π. Le carbonyle -CO du résidu i forme une liaison hydrogène avec l'amide du résidu i+5 (longueur minimale, 5 résidus).
T = coude fermé par une liaison hydrogène (3, 4 ou 5 résidus)).
E = brin β étendu au sein d'un feuillet parallèle ou antiparallèle (longueur minimale, 2 résidus).
B = résidu isolé dans un pont β (paire isolée formant une liaison hydrogène de type feuillet β).
S = coude (sans liaison hydrogène).

Les résidus d'acides aminés qui ne sont dans aucune des conformations ci-dessus sont classées dans la huitième catégorie, 'pelote', souvent représentée par ' ' (espace), C (en:Coil) ou '-' (tiret). Les hélices (G, H et I) et les feuillets doivent tous avoir une longueur minimale raisonnable. Ceci signifie que deux résidus consécutifs dans la structure doivent former le même type de liaisons hydrogène. Si l'hélice ou le feuillet est trop court, les résidus correspondant sont classés T ou B, respectivement. Il existe d'autres catégories de structures secondaires (coudes aigus, boucles oméga...), mais elles sont utilisées moins fréquemment.

Définition des liaisons hydrogènes par DSSP

La structure secondaire est définie par l'arrangement des liaisons hydrogènes, en conséquence, la définition exacte de celles-ci est cruciale. Dans DSSP, la définition standard d'une liaison hydrogène dérive d'un modèle purement électrostatique. DSSP attribue des charges partielles q₁ de +0,42e et -0,42e sur le carbone et l'oxygène du carbonyle (C=O) et q₂ de +0,20e et -0,20e sur l'hydrogène et l'azote de l'amide (NH), respectivement. L'énergie électrostatique est définie par :

Selon DSSP, une liaison hydrogène existe si et seulement si E est inférieur à -0,5 kcal/mol. Bien que le calcul utilisé par DSSP soit une approximation relativement grossière de l'énergie physique, elle est généralement acceptée pour la détermination de la structure secondaire des protéines.

Prédiction de structure secondaire des protéines

La prédiction de la structure tertiaire d'une protéine à partir de sa seule séquence en acides aminés est un problème très difficile. En revanche, la simplification permise par les définitions de structures secondaires plus restreintes ci-dessus à permis de rendre la question plus accessible et la prédiction de structure secondaire des protéines a été l'objet de recherches actives depuis de nombreuses années.

Bien que le codage DSSP à huit états soit déjà une simplification par rapport aux 20 acides aminés présents dans les protéines, la majorité des méthodes de prédiction de structure secondaire réduisent encore le problème aux trois états principaux : Hélice, Feuillet et Pelote. La manière de passer de 8 à 3 états varie suivant les méthodes. Les premières approches prédictives étaient fondées sur les propensions individuelles de chacun des acides aminés à former des hélices ou des feuillets, parfois couplées avec des règles pour estimer l'enthalpie libre associée à la formation de ces structures secondaires. De telles méthodes avaient une précision de l'ordre de ~60% pour la prédiction de l'état (hélice/feuillet/pelote) adopté par un résidu. Un gain substantiel de précision (jusqu'à environ ~80%) a été permis grâce à l'exploitation des alignements de séquences multiples entre protéines homologues. La connaissance de la distribution complète des acides aminés observée à une position donnée (et dans son voisinage, typiquement jusqu'à 7 résidus de chaque côté) au travers de l'évolution donne une image bien plus précise des tendances structurales autour de cette position. Par exemple, une protéine donnée pourrait avoir une glycine à une position donnée, ce qui, isolément, pourrait suggérer la présence d'une région en pelote. Cependant, un alignement multiple de séquences pourrait révéler que des résidus favorables à la formation d'une hélice sont présents à cette position (et aux positions voisines) dans 95% des protéines homologues, chez des espèces distantes de près d'un milliard d'années dans l'évolution. De surcroît, en examinant l'hydrophobicité à cette position et aux positions voisines, le même alignement multiple pourrait également suggérer une distribution de l'accessibilité au solvant cohérente avec une hélice α présentant une face hydrophobe et une face hydrophile. Globalement, ces facteurs suggéreraient que le résidu glycine de la protéine étudiée fait partie d'une hélice α, plutôt que d'une région en pelote. Différents types de méthodes sont utilisées pour combiner l'ensemble des données disponibles pour formuler cette prédiction à 3 états : les réseaux de neurones, les modèles de Markov cachés ou les machines à vecteurs de support. Toutes les méthodes modernes fournissent en plus une évaluation de la fiabilité de la prédiction à chaque position (score de confiance).

Les méthodes de prédiction de structure secondaire font l'objet d'évaluations constantes, par exemple l'expérience EVA. Après environ 270 semaines de test, les méthodes les plus précises sont pour l'instant PsiPRED, SAM, PORTER, PROF et SABLE. Le principal secteur où des gains de précision sont possibles semble être la prédiction des feuillets β. Les résidus prédits avec une confiance élevée en conformation β sont le plus souvent de manière correcte, mais les différentes méthodes disponibles ont tendance à rater certaines zones en feuillet (faux négatifs). Il est probable que la limite supérieure de la précision de ces prédictions se situe autour de ~90%, en raison des particularités spécifiques de DSSP pour catégoriser les différentes classes de structures secondaires.

La précision de la prédiction de structure secondaire est un élément clé de la prédiction de structure tertiaire, dans tous les cas où la modélisation à partir de la structure d'une protéine homologue. Par exemple, une prédiction fiable d'un motif de six éléments de structure secondaire avec un enchaînement βαββαβ est la signature caractéristique d'un repliement de type ferrédoxine.