En biologie, les protéines LSm sont une famille de protéines se liant à l'ARN trouvées dans pratiquement tous les organismes. LSm est une contraction de Like Sm (« comme Sm »), parce que les premiers membres identifiés de cette famille ont été les protéines Sm. Les protéines LSm sont définies par leur structure tridimensionnelle caractéristique et leur assemblage en anneaux de six ou sept molécules.
Ces protéines ont été découvertes comme des antigènes ciblés par des anticorps anti-Sm chez une patiente ayant une forme de lupus érythémateux disséminé (LED), une maladie auto-immune débilitante. Elles ont été nommées Sm en hommage à cette patiente, Stéphanie Smith. D'autres protéines ayant des structures très similaires ont ensuite été découvertes et nommées protéines LSm. De nouvelles protéines LSm continuent d'être découvertes.
Les protéines avec des structures similaires sont regroupées en hiérarchie : famille, super-famille et folds (type de repliement). La structure des protéines LSm est un exemple de protéines pliées en feuillets bêta en forme de tube court. Chaque protéine s'assemble en un cycle de six ou sept sous-unités formant un tore qui se lie généralement à une petite molécule d'ARN pour former un complexe ribonucléoprotéique. Le tore aide la molécule d'ARN à conserver sa structure tridimensionelle. Selon le type de protéines et d'ARN impliqués, ces complexes facilitent une grande variété d'étapes de la maturation de l'ARN dont la dégradation, l'édition, l'épissage et la régulation.
D'autres noms équivalents comme LSm folds, Sm-like, LSm sont fréquemment utilisés et tout aussi acceptables.
L'histoire de la découverte des premières LSm commence avec une jeune femme, Stéphanie Smith, chez qui fut diagnostiqué en 1959 un lupus érythémateux disséminé (LED) et qui finit par succomber des complications de la maladie en 1969 à l'âge de 22 ans. Pendant cette période, elle fut traitée au New York Hospital de l'Université Rockefeller par les docteurs Henry Kunkel et Eng Tan. Les patients atteints de cette maladie auto-immune produisent des anticorps contre des antigènes situés dans le noyau de leurs cellules, le plus souvent contre leur propre ADN. Toutefois, les Dr Kunkel et Tan constatèrent en 1966 que Mme Smith produisait des anticorps contre un ensemble de protéines nucléaires, qu'ils ont appelé l'« antigène Smith » (Sm Ag). Environ 30% des patients atteints de LED produisent des anticorps contre ces protéines, par opposition à ceux qui en fabriquent contre l'ADN double brin. Cette découverte a amélioré les tests diagnostiques de LED mais la nature et la fonction de cet antigène étaient inconnues.
Les recherches se sont poursuivies pendant les années 1970 et 1980. L'antigène Smith s'est révélé être un complexe d'acide ribonucléique (ARN) et de multiples protéines. De petits fragments d'ARN nucléaire non codants riches en uridine -les actuels snRNAs- faisaient partie de ce complexe et ont reçu les noms U1, U2, U4, U5 et U6. Puis on a découvert que quatre de ces snRNAs (U1, U2, U4 et U5) étaient étroitement liées à plusieurs petites protéines nommées SmB, SmD, SmE, SmF et SmG par ordre décroissant de taille. SMB possède un variant à pliage antiparallèle appelé SmB', et une protéine très similaire, SmN, remplace SmB/B' dans certains tissus (surtout nerveux). On a aussi découvert que SmD était un mélange de trois protéines, nommées SmD1, SmD2 et SmD3. Ces neuf protéines (SmB, SmB', SmN, SmD1, SmD2, SmD3, SmE, SmF et SmG) sont connues sous le nom de Sm core proteins ou tout simplement de protéines Sm. Le snRNAs forment des complexes avec des protéines Sm et d'autres protéines pour former dans le noyau de la cellule des particules appelées petites ribonucléoprotéines nucléaires ou Small Nuclear Ribonucleoproteins (snRNP). Au milieu des années 1980,on a compris que ces snRNP participaient à la formation d'un grand (4,8 MD de poids moléculaire) complexe protidique, le splicéosome, autour du pré-ARNm, coupant (excision) des parties du pré-ARNm appelées introns et épissant les parties codantes (exons). Après quelques modifications supplémentaires, le pré-ARNm épissé devient l'ARN messager (ARNm) qui est ensuite exporté du noyau vers le corps cellulaire et sera traduit en une protéine par les ribosomes.
L'ARN splicéosomal U6 (contrairement aux autres ARN du même groupe) ne s'associe pas aux protéines Sm, même si le snRNP U6 est un élément central du splicéosome. En 1999, on a identifié un complexe protéique qui se lie spécifiquement à U6 et qui se compose de sept protéines clairement homologues aux protéines Sm. On a appelé ces protéines LSm (Like Sm, « comme Sm ») (LSm1, LSm2, LSm3, LSm4, LSm5, LSm6 et LSm7) avec la protéine LSm8 qui sera découverte ultérieurement. Le génome de Saccharomyces cerevisiae (la levure de boulanger) a été séquencée au milieu des années 1990, fournissant une ressource précieuse pour identifier des homologues de ces protéines humaines. Par la suite comme on a su séquencer les génomes d'autres eucaryotes, on a constaté que les eucaryotes, en général, possédaient des protéines homologues à la série des sept Sm et des huit LSm. Peu de temps après, des protéines homologues aux protéines LSm des eucaryotes ont été trouvées chez les archées (Sm1 et Sm2) et chez les bactéries (Hfq et YlxS). Fait intéressant, les LSm des Archées sont plus proches des LSm des eucaryotes que de celles des bactéries. Les LSm décrites jusqu'ici sont plutôt de petites protéines, allant de 76 acides aminés (8.7 kD de poids moléculaire) pour la SmG humaine à 231 acides aminés (29 kD de poids moléculaire) pour la SmB humaine. Mais récemment, on a découvert de plus grosses protéines possédant un domaine structurel LSm en plus d'autres domaines structurels (telles que LSm10, LSm11, LSm12, LSm13, LSm14, LSm15, LSm16, ataxin-2 ainsi que la Sm3 des archées).
Vers 1995, les comparaisons entre les diverses LSm identifiées ont mis en évidence deux séquences de motifs, l'une de 32 et l'autre de 14 acides aminés, très similaires dans les différentes molécules et séparées par une région variable de longueur variable. Cela montrait l'importance de ces deux motifs de séquence (nommés Sm1 et Sm2) et suggérait que tous les gènes des LSm évoluaient à partir d'un gène ancestral commun. En 1999, on a pu obtenir des cristaux de protéines recombinantes Sm permettant, par diffractométrie de rayons X, la détermination leur structure atomique en trois dimensions. On a ainsi pu constater qu'elles se composaient toutes d'une structure tridimensionnelle formée d'une courte hélice α et de un à cinq feuillets β, structure dénommée par la suite LSm fold. D'autres études ont montré que les protéines LSm s'assemblaient en un tore (sorte d'anneau) de six ou sept protéines et que l'ARN se fixait à l'intérieur du tore, avec un nucléotide lié à chaque protéine.