TUTORIEL SUR L'ETUDE DES MOTIFS BIOLOGIQUES


Introduction

    Définitions
    Pourquoi s'intéresse-t-on aux motifs?
    La découverte de motifs
    L'utilisation des banques de motifs
    La recherche de motifs

Les différentes représentations des motifs biologiques

    Pourquoi existe-t-til différentes façons d'écrire les motifs?
    Les représentations des motifs nucléiques
    Les représentations de motifs protéiques

La recherche de motifs

    Les algorithmes de recherche exploitant les expressions régulières ou les consensus
    Les algorithmes de recherche exploitant les tables de fréquences ou de probabilité ou les HMMs
    Les algorithmes de recherche exploitant les alignements multiples
    Les outils de recherche de motifs

Les découverte de motifs

    Les méthodes dites purement algorithmiques
    Les méthodes dites d'optimisation stochastiques
    Les outils de découverte de motifs
    Les méthodes utilisées pour le cas particuliers de la découverte de sites de fixation de facteur de transcription

La découverte de sites de fixation de facteurs de transcription

    Découverte de motifs sur-représentés significativement dans les zones promotrices de gènes co-régulés
    Utilisation d'empreintes phylogénétiques
    Les méthodes avec a priori
    conclusions
    Les outils de découverte de sites de fixation de facteurs de transcription

Annnexes

    Les banques de données de séquences protéiques et de motifs protéiques et nucléiques
    Les outils de découverte de motifs
    Les outils de découverte de sites de fixation de facteurs de transcription
    Les outils de prédiction de promoteurs
    Les outils de recherche de motifs

LES MOTIFS BIOLOGIQUES

Définitions


Dans la littérature les motifs biologiques sont qualifiés en terme anglo-saxon de "pattern" ou "motifs".

Un "motif" désigne un élément de structure secondaire responsable d'une fonction spécifique (exemple : motif en doigt de Zinc).
Un "pattern" ou "signature" est caractéristique de séquences homologues. Il doit être bordé par des régions très conservées dans toutes les séquences considérées. Une signature doit être courte, très spécifique et sensible. Un motif peut être composé de signatures.
Nous emploierons le terme générique français "motif" pour désigner ces deux définitions.

Pourquoi s'intéresse-t-on aux motifs ?


Les motifs sont généralement impliqués dans des systèmes de régulation ou définissent des fonctions biologiques.
Il existe donc différentes raisons de les chercher comme par exemple :
la détermination de la fonction d'une nouvelle séquence (par exemple en en localisant un ou plusieurs motifs répertoriés dans des banques de données de motifs. (ex : PROSITE, Transfac...)
l'identification de régions codantes dans une séquence nucléique (par exemple en repérant les codons d'initiation et de terminaison,...)
la recherche d'un élément transposable dans une séquence
la recherche d'un sites de fixation de facteur de transcription dans une séquence
la recherche d'un sites de coupure d'une enzyme de restriction dans une séquence
l'extraction de famille de séquences à partir d'une banque de données (exemple : extraire des séquences possédant le même signal de régulation, donc un même motif)
etc. Il est donc évident qu'il existe des niveaux de complexité très différents dans la description des motifs. Certains sont précis et non ambigus (comme les codons stop ou les sites de coupure d'enzyme de restriction) d'autres peuvent être beaucoup plus flous et complexes (comme les motifs consensus liés à des familles de protéines ou les sites de fixation de facteurs de transcription).

Donc pour rechercher des motifs dans des séquences personnelles ou dans une banque de données il va exister différentes façons de les écrire. De même, pour découvrir des motifs conservés dans jeu de séquences, les logiciels les retourneront sous différents format d'écriture. >>Les différentes représentations des motifs

La découverte de motifs



Dans ce premier cas le motif est inconnu, on va donc chercher à le construire à partir de séquences dans lesquelles il sera conservé. On parlera alors d'inférence, de découverte de motifs ou de pattern discovery. Différentes méthodes ont été développées selon le format et la taille des séquences en entrée, les différents paramètres à prendre en compte concernant le motif, et la représention des motifs retournés. Cela a donné lieu à un panel de logiciels de découverte de motifs.

la découverte de sites de fixation de facteurs de transcription ou TFBS (Transcription Factor Binding Site) dans les régions promotrices ( >> outils d'extraction de promoteurs ) est un cas particulier du domaine de la découverte de motifs. Pour cette thématique des méthodes spécifiques ont été développées ( >> voir les outils de découverte de TFBS ).

L'utilisation des banques de données


Ensuite, pour vérifier qu'un motif découvert est bien caractéristique d'une famille de séquences nous pouvons le tester contre une banque de séquences (par exemple : SwissProt, banque annotée par des experts; où la fonction des protéines est donnée systématiquement et de manière fiable).
Dans ses résultats, si le motif est bon (c'est à dire suffisament expressif), l'utilisateur :
- retrouve toutes les séquences de la famille considérée ou presque.
- ne retrouve aucune séquence d'une autre famille ou presque.

Il est également possible de le tester contre une banque de motifs pour vérifier si le motif découvert a déjà été identifié. S'il existe ses propriétés biologiques sont décrites. Cela permet alors de caractériser son jeu de séquences ou de vérifier la cohérence de ses résultats.
Par exemple si le motif découvert est un site de fixation de facteur de transcription il peut être intéressant d'observer la cohérence entre les gènes étudiés et les informations concernant le(s) facteur(s) de transcription identifiés. Ces informations sont générallement contenues dans les banques de facteurs de transcription, de TFBS ou de modules de régulation.

La recherche de motifs


Dans ce second cas le motif est connu. Celui-ci provient par exemple d'une banque de motifs ou d'une étude bibliographique, on connait alors ses propriétés et on va rechercher ses occurrences dans les séquences que l'on veut étudier. On parlera de recherche de motifs ou de pattern matching ( >> voir les outils ).