La définition d'un motif nucléique commence en général par l'analyse d'un alignement multiple de toutes les séquences connues comme étant actives pour la fonction étudiée.
Exemple d'alignement multiple:
source : Hélène Touzet, LIFL, Lille
Cela permet de connaître pour chaque position la variabilité en bases. L'alignement de ces séquences peut servir à produire une séquence consensus, une table de fréquences ou une matrice de pondération des éléments qui composent le motif.
1. Le consensus et les expressions régulières :
La séquence consensus rend compte de la ou des bases les plus fréquemment rencontrées pour chaque position. La séquence consensus est construite à partir de l'alphabet IUPAC ou en retenant une seule base, la plus fréquente, pour chacune des positions de la séquence. Exemple en utilisant l'alaphabet IUPAC :
source : Hélène Touzet, LIFL, Lille
Il existe une représentation graphique de ces motifs : le principe des logos. dans cette représentation la taille de la base est proportionnelle à sa fréquence sur la position. L'exemple ci-dessous a été réalisé avec avec le programme
WEBLOGO :
source : Hélène Touzet, LIFL, Lille
Dans le cas de séquences très spécifiques, cette simple séquence consensus suffit pour décrire de manière satisfaisante un motif simple.
Malheureusement, dans la plupart des cas comme pour les facteurs de transcription, elle ne suffit pas pour identifier les sites biologiquement actifs car elle n'est pas forcément celle qui est le plus souvent rencontrée comme signal. Au pire elle peut elle-même ne pas exister en tant que signal ! Ceci est du au fait que celle-ci ne représente qu'un résumé de toutes les séquences.
Pour limiter ce problème, la possibilité d'accepter plusieurs bases ou d'en exclure à certaines positions du motif peut être incorporée dans sa représentation.
Dans ce cas on peut utiliser des expressions régulières pour écrire un motif en utilisant par exemple la grammaire
PROSITE résumée dans le tableau ci-dessous:
Exemple : <[AT]-G-x(3)-A-T>, ce motifs signifie qu'en première position il y a un A ou un T, puis un G puis 3 bases inconnues puis A puis T en dernière position.
Ainsi, les expressions régulières permettent de visualiser uniquement les bases possibles à chaque position dans le motif et ne prennent pas en compte les statistiques représentant la variation des bases à chaque position.
Remarque : les motifs de
la base de données PROSITE sont en partie représentés par des expressions régulières.
2. La matrice de pondération : PWMs : Position Weight Matrice ou PSSMs : Position specific scoring Matrice, ou profile:
Pour exprimer l'ambiguïté et la complexité d'un motif, on peut également déduire de l'alignement des séquences une table de fréquences en comptabilisant les occurrences de chaque base à chaque position du motif.
source : Hélène Touzet, LIFL, Lille
De cette table de fréquence il est possible de calculer la probabilité d'apparition des bases pour chaque position du motif.
La transformation de la table des fréquences en tenant compte éventuellement de critères supplémentaires donne alors naissance à une matrice de pondération. Celle-ci est généralement construite en prenant le logarithme de la fréquence de chaque base à chaque position pour optimiser les différences contenues dans la table des fréquences.
Ensuite, pour augmenter la fiabilité des probabilités, des critères supplémentaires intrinsèques aux séquences peuvent être pris en compte, comme par exemple la fréquence attendue des bases selon la région où se trouve le motif. On peut ainsi par exemple, considérer que l'apparition d'une cytosine est plus significative que l'apparition d'une guanine dans une zone riche en guanine. Pour prendre en compte ce critères supplémentaires chacune des valeurs logarithmiques pourra être divisée par la fréquence génomique de la base observée.
source : Hélène Touzet, LIFL, Lille
Remarque : les motifs des banques de données
BLOCKS
TRANSFAC et
PROSITE sont représentés sous la représentation de profiles.
3. Les Modèles de Markov cachés (HMMs):
Les profiles HMM sont des modèles statistiques (comme les profiles) d'alignements multiples de séquences. Ils tiennent compte de toutes les informations concernant la conservation de chaque positions dans chaque colonne d'un alignement en assignant une probabilité représentant les résidus préférés par position, ainsi que les insertions-délétions. Ce modèle est souvent utilisé pour représenter les modules de régulation : les groupes de motifs qui interagissent. En effet, les modules de cis-régulation impliquent souvent des clusters de sites de fixation pour un ou plusieurs facteurs de transcription (exemple: gène EVE de Drosophile).
Dans un HMM, représenté dans la figure ci-dessous, chaque boite est un état et reconnait des bases biologiques avec les pobabilités d'occurences inscrites sous les rectangles. Pour la représentation de modules de cis régulation la représentation est plus complexe. Dans ce modèle on pourra modéliser les insertions-délétions, gaps grâce à des scores.
source : Hélène Touzet,LIFL, Lille
On peut également ajouter aux HMMs les dépendances qu'il pourrait y avoir entre les positions. Dans l'exemple présenté dans la ficgure ci-dessous : si un A est présent en seconde position on aura un C en troisième position et non un G.
source : Hélène Touzet,LIFL, Lille