Le principe de la découverte de motif est de détecter, parmi un ensemble de séquences biologiques que l'on suppose impliquées dans un même mécanisme, une ou plusieurs zones préservées par l'évolution. Il existe deux types de méthodes.
1. Les méthodes dites " purement algorithmiques
Elles reposent sur une une définition formelle précise des motifs. Dans ce cas on obtient
une séquence consensus ou une expression régulière après
alignement multiple de séquences.
Pour rendre cette plateforme plus fonctionnelle, nous avons été amenés à développer d'autres modules pour l'exploitation et l'interprétation des résultats. Afin de faciliter l'interprétation des résultats, nous avons intégré des modules de visualisation, de recherche de motifs dans des banques de séquences biologiques, des génomes ou des séquences courtes. Pour certaines méthodes nous avons réduit le nombre de paramètres pertinents à régler et mis au point des filtres visant à supprimer les résultats non pertinents.
Un inventaire des algorithmes déjà existant a été réalisé en les classant selon plusieurs dimensions, incluant en particulier la complexité du langage d'expression du motif variant de la classe A à I, I étant la plus générale. La
plateforme Genouest regroupe plusieurs algorithmes d'extraction de motifs pour une recherche plus fiable et plus rapide des motifs en comparant et associant les résultats de l'ensemble des méthodes disponibles.
2. Les méthodes dites " d'optimisation stochastique " (probabilistes)
Elles sont basées sur une modélisation statistique des motifs :
PWM (ou profile) ou HMM. Des liens vers des outils externes basés sur ce type de méthode sont disponibles sur la
plateforme Genouest.
3. Les outils de découverte de motifs
La plateforme Genouest a sélectionné quelques de outils de découverte de motifs.
Voir ces outils >>
4. Les méthodes utilisées pour le cas particulier de la découverte de sites de fixation de facteurs de transcription
Parmi les méthodes utilisées pour la découverte de motifs certaines sont adaptées à l'identification de motifs courts et dégénérés et peuvent être utilisées pour ce cas particulier. Mais celles-ci génèrent énormement de faux-positifs. Pour diminuer le nombre de faux positifs d'autres méthodes plus spécifiques ont été développées (recherche de motifs sur-représentés, empreinte phylogénétique, recherche de modules de régulation, etc.).