LES DIFFERENTES REPRESENTATIONS DES MOTIFS BIOLOGIQUES

<< lien vers l'introduction

Pour rechercher un motif dans des séquences personnelles ou dans des banques de données, il va exister différentes façons de l'écrire en fonction de sa complexité. De même, pour découvrir un motif conservé dans jeu de séquences, le motif identifié sera retourné sous différents formats d'écriture selon le logiciel utilisé.

Pourquoi existe-t-il différentes façons d'écrire les motifs ?


La différence de complexité des alphabets protéique et nucléique La complexité des structures primaires est très inégale entre les acides nucléiques composés d'un alphabet à quatre lettres et les protéines composées d'un alphabet à vingt lettres. Cette situation engendre des disparités que l'on retrouve au niveau des éléments et des méthodes de description des motifs.
Par exemple, la structure primaire d'un motif protéique est souvent suffisante pour caractériser un site biologiquement actif, même si celui-ci est ambigu à certaines positions. C'est pour cette raison que l'utilisation à grande échelle, de méthodes de recherche de similarité à travers les banques protéiques, donne des résultats intéressants dans l'identification de motifs protéiques conservés.
Par contre, la faible complexité des motifs nucléiques conduit à une définition, en terme de structure primaire, souvent insuffisante. De ce fait, pour les séquences nucléiques, les représentations et les méthodes de repérage de motifs utilisées pour les motifs protéiques constituent un formalisme de base qu'il est souvent nécessaire d'étoffer. Ceci est d'autant plus vrai pour les sites impliqués dans des systèmes de régulation complexes, comme notamment les sites nucléiques de fixation protéique.
La différence de complexité des motifs eux mêmes Les formalismes de base des motifs ne permettent pas toujours l'intégration de critères nécessaires pour affiner la définition d'un motif ambigüe. Il existe alors façons de représenter des motifs en prennant en compte : simplement la ressemblance par rapport à un motif exact (le motif est représenté par une séquence), ou des critères plus complexes comme par exemple:

l'ensemble des bases permises à une position donnée ou la composition d'un motif en plusieurs sous-motifs séparés par des régions variables : le formalisme utilisé dans ce cas sera l'expression régulière, par exemple le format PROSITE.
l'ensemble des bases les plus fréquemment trouvées à une position donnée : les formalismes utilisés dans ce cas seraient une table de fréquence, une matrice de pondération (ou profile ou PWMs) ou une matrice consensus donnant la probabilité de chaque base à chaque position dans le motif.
Un ensemble de bases suivi de leurs complémentaires respectifs pour décrire des structures plus complexes (par exemple des structures tige-boucle) : le formalisme utilisé sera basé sur l'utilisation d'une grammaire à variables de chaînes (exemple : STAN).

Les représentations de motifs nucléiques


La définition d'un motif nucléique commence en général par l'analyse d'un alignement multiple de toutes les séquences connues comme étant actives pour la fonction étudiée.
Exemple d'alignement multiple:


source : Hélène Touzet, LIFL, Lille

Cela permet de connaître pour chaque position la variabilité en bases. L'alignement de ces séquences peut servir à produire une séquence consensus, une table de fréquences ou une matrice de pondération des éléments qui composent le motif.

1. Le consensus et les expressions régulières :
La séquence consensus rend compte de la ou des bases les plus fréquemment rencontrées pour chaque position. La séquence consensus est construite à partir de l'alphabet IUPAC ou en retenant une seule base, la plus fréquente, pour chacune des positions de la séquence. Exemple en utilisant l'alaphabet IUPAC :

source : Hélène Touzet, LIFL, Lille

Il existe une représentation graphique de ces motifs : le principe des logos. dans cette représentation la taille de la base est proportionnelle à sa fréquence sur la position. L'exemple ci-dessous a été réalisé avec avec le programme WEBLOGO :


source : Hélène Touzet, LIFL, Lille

Dans le cas de séquences très spécifiques, cette simple séquence consensus suffit pour décrire de manière satisfaisante un motif simple. Malheureusement, dans la plupart des cas comme pour les facteurs de transcription, elle ne suffit pas pour identifier les sites biologiquement actifs car elle n'est pas forcément celle qui est le plus souvent rencontrée comme signal. Au pire elle peut elle-même ne pas exister en tant que signal ! Ceci est du au fait que celle-ci ne représente qu'un résumé de toutes les séquences.
Pour limiter ce problème, la possibilité d'accepter plusieurs bases ou d'en exclure à certaines positions du motif peut être incorporée dans sa représentation.
Dans ce cas on peut utiliser des expressions régulières pour écrire un motif en utilisant par exemple la grammaire PROSITE résumée dans le tableau ci-dessous:



Exemple : <[AT]-G-x(3)-A-T>, ce motifs signifie qu'en première position il y a un A ou un T, puis un G puis 3 bases inconnues puis A puis T en dernière position.
Ainsi, les expressions régulières permettent de visualiser uniquement les bases possibles à chaque position dans le motif et ne prennent pas en compte les statistiques représentant la variation des bases à chaque position.
Remarque : les motifs de la base de données PROSITE sont en partie représentés par des expressions régulières.

2. La matrice de pondération : PWMs : Position Weight Matrice ou PSSMs : Position specific scoring Matrice, ou profile:
Pour exprimer l'ambiguïté et la complexité d'un motif, on peut également déduire de l'alignement des séquences une table de fréquences en comptabilisant les occurrences de chaque base à chaque position du motif.

source : Hélène Touzet, LIFL, Lille

De cette table de fréquence il est possible de calculer la probabilité d'apparition des bases pour chaque position du motif.
La transformation de la table des fréquences en tenant compte éventuellement de critères supplémentaires donne alors naissance à une matrice de pondération. Celle-ci est généralement construite en prenant le logarithme de la fréquence de chaque base à chaque position pour optimiser les différences contenues dans la table des fréquences.
Ensuite, pour augmenter la fiabilité des probabilités, des critères supplémentaires intrinsèques aux séquences peuvent être pris en compte, comme par exemple la fréquence attendue des bases selon la région où se trouve le motif. On peut ainsi par exemple, considérer que l'apparition d'une cytosine est plus significative que l'apparition d'une guanine dans une zone riche en guanine. Pour prendre en compte ce critères supplémentaires chacune des valeurs logarithmiques pourra être divisée par la fréquence génomique de la base observée.


source : Hélène Touzet, LIFL, Lille


Remarque : les motifs des banques de données BLOCKS TRANSFAC et PROSITE sont représentés sous la représentation de profiles.

3. Les Modèles de Markov cachés (HMMs):
Les profiles HMM sont des modèles statistiques (comme les profiles) d'alignements multiples de séquences. Ils tiennent compte de toutes les informations concernant la conservation de chaque positions dans chaque colonne d'un alignement en assignant une probabilité représentant les résidus préférés par position, ainsi que les insertions-délétions. Ce modèle est souvent utilisé pour représenter les modules de régulation : les groupes de motifs qui interagissent. En effet, les modules de cis-régulation impliquent souvent des clusters de sites de fixation pour un ou plusieurs facteurs de transcription (exemple: gène EVE de Drosophile).
Dans un HMM, représenté dans la figure ci-dessous, chaque boite est un état et reconnait des bases biologiques avec les pobabilités d'occurences inscrites sous les rectangles. Pour la représentation de modules de cis régulation la représentation est plus complexe. Dans ce modèle on pourra modéliser les insertions-délétions, gaps grâce à des scores.


source : Hélène Touzet,LIFL, Lille

On peut également ajouter aux HMMs les dépendances qu'il pourrait y avoir entre les positions. Dans l'exemple présenté dans la ficgure ci-dessous : si un A est présent en seconde position on aura un C en troisième position et non un G.

source : Hélène Touzet,LIFL, Lille




Les représentations de motifs protéiques


La description des motifs protéiques se fait généralement de la même manière en fonction de leurs complexités.
1. Consensus/expressions régulières :
Pour établir une séquence consensus basée sur les expressions régulières, on peut réunir toutes les séquences appartenant à une même famille (par exemple les kinases). On recherche ensuite les zones spécifiques qui peuvent être considérées comme caractéristiques de ces séquences, ceci en s'aidant des données disponibles dans la littérature et si possible d'experts de la famille considérée.
Les motifs ainsi obtenus sont alors systématiquement recherchés dans une banque de séquences protéiques pour estimer leur fiabilité qui repose sur le nombre de faux positifs et de faux négatifs identifiés. Une bonne définition doit minimiser ces deux nombres. C'est une des méthodes qu'utilise Amos Bairoch pour constituer la banque de motifs protéiques PROSITE (Bairoch, 1993).
On peut également utiliser pour définir un motif protéique une méthode globale qui, à partir d'un grand ensemble hétérogène de séquences, permet de regrouper des séquences possédant le même motif. Cette démarche est appliquée pour établir la base PRODOM (Sonnhammer et Kahn, 1994).
Les séquences de la banque Swissprot sont comparées deux à deux avec le programme BLAST pour permettre de regrouper tous les segments protéiques similaires. On parle ici de domaine protéique qui caractérise statistiquement une famille de protéines. Ces domaines peuvent être employés comme motifs spécifiques pour savoir si une nouvelle séquence s'apparente ou pas à l'un de ces domaines.
Enfin, comme pour les séquences nucléiques, on peut aussi effectuer un alignement multiple des régions qui caractérisent une fonction et en déduire un motif consensus protéique.

2. L'alignement multiple :
La deuxième manière de définir un motif protéique est de fournir directement l'ensemble des sous-séquences qui ont servi à établir ou à valider le motif consensus. Ainsi la banque BLOCKS (Henikoff et Henikoff, 1991) donne sous forme d'alignements multiples sans insertion-délétion (ou blocs) les sous-séquences de Swissprot qui correspondent à des régions conservées. Ces régions sont des segments protéiques trouvés durant l'analyse de groupes spécifiques de protéines comme les kinases. L'intérêt d'une telle définition est qu'elle donne pour chaque position le degré de conservation ou de variabilité des acides aminés concernés.

3. La matrice de pondération ou profile :
La matrice de poids permet de prendre en compte les signaux plus faible pour lesquels le consensus n'est pas adapté (exemple : domaines d'immunoglobuline).

4. Les Modèles de Markov cachés (HMMs):
Les HMMs sont décrits dans la partie traitant les représentations de motifs nucléiques. Les motifs de domaines protéiques de la banque de données PFAM (Sonnhammer et al., 1997;Bateman et al,2002) ou SMART (Letunic et al.2002) dans InterPro consortium (Mulder et al, 2003) sont représentés sous la forme de HMMs.

Pour conclure ...


Finalement, on peut considérer qu'il existe principalement 2 façons de représenter l'information contenue dans les motifs. Une assez résumée où les séquences consensus et les expressions régulières sont utilisés et l'autre, qui permet de considérer davantages les variations à chaque position, incluant les matrices de fréquences/pondération, modèles de Markov caché et alignements multiples (pour les protéines).


<< lien vers l'introduction