I- dfinition, description, dmarche et principales tapes
Dfinition La bioinformation est l'information lie aux molcules biologiques : leurs structures, leurs fonctions, leurs liens de "parent", leurs interactions et leur intgration dans la cellule. Divers domaines d'tudes permettent d'obtenir cette bioinformation : la gnomique structurale, la gnomique fonctionnelle, la protomique, la dtermination de la structure spatiale des molcules biologiques, la modlisation molculaire ... La bioinformatique est l'analyse de la bioinformation. Description C'est une discipline rcente (quelques dizaines d'annes). C'est une discipline "hybride" : elle est fonde sur des concepts et des formalismes issus de la biologie, de l'informatique, des mathmatiques et de la physique. C'est une discipline qui utilise toutes les potentialits de traitement de l'informatique : modles thoriques, algorithmes et programmes, ordinateurs, rseau Internet, bases de donnes ... Dmarche 1. Compilation et organisation des donnes biologiques dans des banques de donnes : ces banques sont soit gnralistes (elles contiennent le plus d'information possible sans expertise particulirede l'information dpose), soit spcialises dans un domaine autour de thmes prcis. 2. Traitements systmatiques des donnes : l'objectif principal est de reprer et de caractriser une fonction et/ou une structure biologique importante. Les rsultats de ces traitements constituent de nouvelles donnes biologiques obtenues "in silico". 3. Elaboration de stratgies : le but est d'apporter des connaissances biologiques supplmentaires en combinant les donnes biologiques initiales et les donnes biologiques obtenues "in silico". ces connaissances permettent, leur tour, de dvelopper de nouveaux concepts en biologie. ces connaissances permettent, leur tour, de dvelopper de nouveaux concepts en biologie. concepts qui ncessitent l'laboration de nouvelles thories et outils en mathmatiques et en informatique.
Principales tapes en biologie molculaire, en informatique et en bioinformatique 1965 Premire compilation de protines ("Atlas of Protein Sequences") : Margaret Dayhoff et al. 1967 Article : "Construction of Phylogenetic Trees" - Fitch & Margoliash 1970 Algorithme pour l'alignement global de squences : Needleman & Wunsch 1971 Premier microprocesseur Intel 4004 1972 Clonage de fragments d'ADN dans un virus, l'ADN recombin : Paul Berg, David Jackson, Robert Symons 1973 Dcouverte des enzymes de restriction qui coupe spcifiquement l'ADN. Mthode de transfection (introduction d'un ADN tranger) des cellules eucaryotes grce un virus (vecteur). 1974 Programme de prdiction de structures secondaires des protines : "Prediction of Protein Conformation" - Chou & Fasman 1977 Micro-ordinateurs Techniques de squenage d'ADN : Frederick Sanger / Maxam & Gilbert 1978 - 1980 Mutagnse dirige : Michael Smith Squenage du 1er gnome ADN, le bactriophage phiX174 : Frederick Sanger Premires bases de donnes : EMBL, GenBank, PIR 1980 Accs tlphonique la base de donnes PIR 1981 : 370.000 nuclotides GenBank : 270 squences Micro-ordinateur IBM-PC 8088 Programme d'alignement local de squences : Smith & Waterman 1983 IBM-XT disque dur (10 Mb) 1984 Amplification de l'ADN : raction de polymrisation en chane (PCR) - Karry Mullis MacIntosh : interface graphique & souris 1985 "FASTA" : Programme d'alignement local de squences - Pearson & Lipman 1987 Nouveau vecteur permettant de cloner des fragments d'ADN 20 fois plus grands : le YAC (Yeast Artificial Chromosome). Rend possible l'tude de grands gnomes. 1988 Taq polymrase, enzyme thermostable pour la PCR. 1989 INTERNET succde ARPANET 1990 Clonage positionnel et premier essai de thrapie gnique. "BLAST" : Programme d'alignement local de squences - Altschul et al. 1992 Squenage complet du chromosome III de levure 1996 Squenage complet de la levure (consortium europen) 1997 11 gnomes bactriens squencs 1998 Squenage de 2 millions de nuclotides par jour 2000 Squenage du 1er gnome de plante : Arabidopsis thaliana 2001 Squence "premier jet" complte du gnome humain Janvier 2012 Plus de 393.000.000.000 nuclotides ! Plus de 3040 gnomes eucaryotes et procaryotes squencs et des milliers en projet (Genomes OnLine) ! Voir le dveloppement de la banque de donnes EMBL (banque europenne cre en 1980) Voir le dveloppement de la banque de donnes Genbank (cre en 1982 et diffuse par le National Center for Biotechnology Information) A quelles fins la bioinformatique est-elle utilise ? L'acquisition des donnes biologiques Bases ou banques de donns & internet les squences nuclotidiques et les squences polypeptidiques les gels bidimensionnels et les diffrentes mthodes de spectromtrie de masse (protomique) les donnes de puce ADN les donnes de structures tridimensionnelles la bibliographie stocker, trier, organiser, corriger et annoter les donnes dvelopper des protocoles de communication interactive (internaute - banques ou entre banques) grer la diversit des formats des fichiers pour optimiser les changes de donnes Une grande partie du traitement des donnes s'appuie sur la comparaison de squences pour trouver des similarits, des motifs connus. Les buts sont multiples (liste non exhaustive) : Acides nucliques la recherche de phase de lecture ouverte (gne) et de signaux de rgulation de la transcription et de la traduction, dtection de bornes introns/exons la recherche de rgions transcrites (EST) - profil d'expression des gnes (puces ADN, analyse d'images) la dtection de polymorphismes de nuclotide simple ou d'insertion / dltion la reconstruction d'arbres phylogniques l'analyse de gnomes entiers (gnomique structurale, syntnie) l'ontologie : l'organisation hirarchique de la connaissance sur un ensemble d'objets par leur regroupement en sous-catgories suivant leurs caractristiques essentielles.
Protines traduction in silico taux de synthse des protines (protomique) prdiction de modification post- traductionnelles recherche de motifs structuraux : dtection de sites actifs (enzymes), de domaines, de types de repliement (famille de protines) prdiction de structures secondaires modlisation de structure tridimensionnelles l'ontologie : l'organisation hirarchique de la connaissance sur un ensemble d'objets par leur regroupement en sous- catgories suivant leurs caractristiques essentielles. Pour boucler la boucle : dveloppement de thories, de modles, d'algorithmes, de programmes, de langages pour rpondre aux besoins qui prcdent Buts plus gnraux moyen terme : biologie intgrative (mtabolisme, rseaux d'interactions entre molcules), modliser le fonctionnement global d'une cellule Applications : thrapie gnique, pharmacognomique (cibles pour la mise au point de molcules actives), analyse d'images (IRM) L'industrie de la sant est devenue la premire industrie mondiale avec un chiffre d'affaires de 2000 milliards d'euros en l'an 2000, et une perspective de 4000 milliards en 2010. On value le march de la bioinformatique plus de 1,1 milliard d'euros en 2005, avec un taux de croissance annuel de 15,8% pour atteindre 3 milliard d'euros en 2010. Essentiellement pour des investissements en : dveloppement de logiciels d'analyses et services chimie informatique (recherche de mdicaments) pharmacognomique (test de mdicaments) En ce qui concerne l'Europe, le march de la bioinformatique devrait passer de 257 millions d'euros en 2004 598 millions d'euros en 2011, avec un taux de croissance annuel de 14.4% essentiellement en protomique. (Source : "Genetic Engineering News")
Source : "Business Communications Company"
Les domaines d'tude en "ome" ou "omique" Le plein essor de la bioinformatique (telle qu'on la conoit maintenant) a commenc avec la gnomique (dbut des annes 80) marque par des vnements phares comme le squenage du gnome humain. Puis la quantit et la multiplicit d'informations biologiques obtenues de mme que les avances technologiques ont fait apparatre au fur et mesure d'autres domaines d'tude en "ome" ou "omique". Leur dfinition volue ce qui explique qu'elle puisse diffrer selon les sources. Domaine d'tude source dfinition Gnomique Les Actions Concertes Incitatives Ministre de la Recherche La gnomique est une nouvelle discipline de la biologie qui vise l'analyse molculaire et physiologique complte du matriel hrditaire des organismes vivants. [...] il s'agit de dduire les fonctions des gnes et leurs interactions partir de leurs squences, ce qui facilite l'intgration de la gnomique dans la physiologie. [...] La gnomique repose sur des techniques qui voluent une vitesse prodigieuse et l'ensemble des bases de donnes obtenues, qui reprsente des dizaines de milliards de caractres rpartis en dizaines de milliers de fichiers, pose dj aux informaticiens des problmes considrables pour classer et interprter cette norme masse de donnes. Rapport sur Gnomique et informatique L'impact sur les thrapies et sur l'industrie pharmacaeutique F. Srusclat - Snateur (1999) La gnomique est l'tude exhaustive des gnomes et en particulier de l'ensemble des gnes, de leur disposition sur les chromosomes, de leur squence, de leur fonction et de leur rle. La cartographie physique est le positionnement de repres sur le gnome. Le squenage : pour connatre les "instructions " que renferme un fragment d'ADN, on lit la succession des bases puriques et pyrimidiques (A, T, G, C) de l'enchanement. Cette lecture est appele squenage. Gnomique structurale Voir les cours : Gnomique fonctionnelle vgtale et Protomique Elle dcrit l'organisation du gnome, ralise son squenage et dresse l'inventaire des gnes : prdiction des rgions codantes d'un gne - dentification des sites de rgulation de la transcription - identification d'exons et d'introns ... Dfinition : la gnomique structurale s'attle dterminer la structure 3D des protines codes par le gnome. Selon cette dfinition, elle devrait s'appeler "protomique structurale"... Gnomique fonctionnelle ou post- gnomique La gnomique fonctionnelle ou post-gnomique tudie le transcriptome (ensemble des ARN messagers transcrits partir du gnome). Le but est de dterminer la fonction des gnes partir de leurs produits d'expression (ARN et protines) et d'tudier leur mode de rgulation et leurs interactions. On inclue souvent la protomique dans la gnomique fonctionnelle. Protomique La protomique tudie le protome : ensemble des protines identifies partir d'un gnome. Toutes les cellules de l'organisme possdent le mme gnome, mais ont un protome diffrent selon l'organe et le moment du dveloppement de l'individu. La protomique s'attache dterminer la localisation, la structure et la fonction de ces protines. Elle analyse leurs interactions et leurs modifications au cours du temps. Les autres "omes" et "omiques" Mtabolomique : description de la population des diffrents mtabolites d'une cellule dans un stade physiologique donn. Interactome - interactomique : description des interactions entre toutes les macromolcules d'une cellule. On trouve aussi dans la liitrature : lipidome, protasome, rgulome, spliceosome, prdictome, ractome
Liens Internet Revue scientifique : "Bioinformatics" Revue scientifique : "Nucleic Acids Research" Revue scientifique : "OMICS: A Journal of Integrative Biology" Bioinformatics NAR OMICS Fields & Johnston (2002) "Genomics : A Crisis in Postgenomic Nomenclature" Science 296, 671 - 672 Kanehisa & Bork (2003) "Bioinformatics in the post-sequence era" Nature Genetics 33, 305 - 310 Article Article
II. molcules support, types et obtention 1. Deux types de molcules support de la bioinformation : les acides nucliques et les protines
ADN : Acide DsoxyriboNuclique macromolcule : chane nuclotidique constitue par un enchanement d'units lmentaires : les dsoxyribonuclotide s forme de stockage de l'information gntique. Cette information est reprsente par une suite linaire de gnes forme de deux brins complmentaires enrouls en double hlice ce qui lui permet de se dupliquer en deux molcules identiques entre elles et identiques la molcule mre On distingue : l'ADN du gnome du noyau l'ADN du gnome mitochondrial l'ADN du gnome chloroplastique
ARN : Acide RiboNuclique macromolcule : chane nuclotidique constitu par un enchanement d'units lmentaires : les ribonuclotides forme qui permet de transfrer et de traiter l'information dans la cellule le plus souvent form d'un simple brin On distingue : les ARN messagers ou ARNm : ils sont transcrits partir d'un gne (ADN). Ils sont ensuite traduits en protines. les ARN de transfert les ARN ribosomaux les ARN nuclaires les ARN cytoplasmiques Protine macromolcule : chane polypeptidique constitu par un enchanement d'units lmentaires : les acides amins l'ensemble des protines assurent les principales fonctions cellulaires se replie sur elle- mme et adopte une conformation ou structure particulire dans l'espace. Cette structure tridimensionnelle est l'origine de la fonction de la protine et de la spcificit de cette fonction. 2. Deux types de bioinformation : la squence des nuclotides et la squence des acides amins Les chanes nuclotidiques (ADN, ARN) et les chanes polypeptidiques (protines) sont des polymres d'units lmentaires : ADN : 4 dsoxyribonuclotides = dCMP, dGMP, dAMP, dTMP ARN : 4 ribonuclotides = CMP, GMP, AMP, UMP protines : 20 acides amins = Ala (A), Cys (C), Asp (D), Glu (E), Phe (F), Gly (G), His (H), Ile (I), Lys (K), Leu (L), Met (M), Asn (N), Pro (P), Gln (Q), Arg (R), Ser (S), Thr (T), Val (V), Trp (W), Tyr (Y) Elles possdent 2 extrmits distinctes et sont donc orientes : de l'extrmit dite 5' vers l'extrmit dite 3' pour les chanes nuclotidiques de l'extrmit dite N-terminale vers l'extrmit dite C-terminale pour les chanes polypeptidiques En consquence : les chanes nuclotidiques et polypeptidiques sont une succession ordonne et oriente d'units lmentaires les squences sont leur transcription sous forme d'une succession ordonne et oriente de lettres qui correspondent ces units lmentaires Site : "L'information gntique" - Simple et didactique.
Exemple de squence nuclotidique Exemple de squence polypeptidique aattccggca tagaaactca aatcaaagag gaagaaacac cgattctcct tttctctctc taaacaacta gatcagatct ctgagtttaa ggaagctttc agcctattcg ataaggatgg cgatggttgc atcacaacca aggagcttgg aactgttatg cgatcattgg gacaaaaccc aactgaagca
MADQLTDDQI SEFKEAFSLF DKDGDGCITT KELGTVMRSL GQNPTEAELQ DMINEVDADG NGTIDFPEFL NLMARKMKDT DSEEELKEAF RVFDKDQNGF ISAAELRHVM TNLGEKLTDE EVDEMIREAD VDGDGQINYE EFVKVMMAK Les squences constituent l'un des principaux types de bioinformation qu'analyse la bioinformatique. Exemples d'autres types de bioinformation (directe ou obtenue "in silico") Les structures tridimensionnelles des protines et aussi, malgr leur nombre plus restreint, des acides nucliques (en particulier les ARN de transfert). Protein Data Bank Les donnes obtenues en protomique (gels d'lectrophorse bidimensionnel). SWISS- 2DPAGE Le changement d'un nuclotide dans un gne quelconque ("Single Nucleotide SNP Polymorphism"). La taxonomie (classification) des organismes. Taxonomy Les rseaux d'interactions qu'tablissent les molcules biologiques. BioCarta L'ontologie : l'organisation hirarchique de la connaissance sur un ensemble d'objets par leur regroupement en sous-catgories suivant leurs caractristiques essentielles. GO Les donnes bibliographiques (diffusion des rsultats de la recherche par les articles). PubMed 3. L'obtention des squences Squence des nuclotides par la mthode de F. Sanger (1977) au dpart puis par des techniques de plus en plus sophistiques, automatises et de masse
Squence des acides amins par lamthode de P. Edman (1950) au dpart puis par traduction "in silico" des squences nuclotidiques
III. les banques de donnes Les fichiers contenant l'information biologique sous la forme de squences est l'lment central autour duquel les banques de donnes se sont constitues l'origine. On peut distinguer : les bases de donnes gnralistes : elles correspondent une collecte des donnes la plus exhaustive possible et qui offrent un ensemble plutt htrogne d'informations les bases de donnes spcialises : elles correspondent des donnes plus homognes tablies autour d'une thmatique et qui offrent une valeur ajoute Il existe un grand nombre de bases de donnes d'intrt biologique : voir une liste quasi exhaustive avec les liens vers les bases de donnes 1. Les banques gnralistes Les banques gnralistes sont indispensables la communaut scientifique car elles regroupent des donnes et des rsultats essentiels dont certains ne sont plus reproduits dans la littrature scientifique. Dans le cadre de l'analyse des squences, par exemple, le fait que la majorit des squences connues soit runie en un seul ensemble est un lment fondamental pour la recherche de similitudes avec une nouvelle squence. D'autre part, la grande diversit d'organismes qui y est reprsente permet d'aborder des analyses de type volutif. Leur principale mission est de rendre publiques les squences et tout autre type d'information. Cette notion de mise la disposition du public a t capitale dans le cas par exemple de la diffusion des rsultats du squenage du gnome humain. On y trouve galement de l'information qui accompagne les squences (annotations, bibliographie, ...) et une expertise biologique directement lies aux squences traites. La prsence de rfrences d'autres bases permet d'avoir accs d'autres informations. Par exemple, la banque SWISSPROT est particulirement riche en rfrences croises avec d'autres banques et en annotations. Les multiples liens entre les groupes de donnes dans les banques gnralistes sont d'une complexit tonnante. Voir les exemples de Genbank ou ExPASy. La qualit des donnes contenues dans ces bases prsente un certain nombre de lacunes. Les organismes responsables de la maintenance de ces banques ont pris conscience de la ncessit de vrifications des donnes soumises ou saisies (surtout pour les squences anciennes). Maintenant, de nombreuses vrifications sont faites systmatiquement ds la soumission de la squence : c'est la "curation". Il existe dsormais un recueil de squences rfrences, annotes et "contrles" : The Reference Sequence (RefSeq) collection Exemple de grandes bases de donnes gnralistes
Ces banques s'changent systmatiquement leur contenu depuis 1987 et adoptent un systme de conventions communes (The DDBJ/EMBL/GenBank Feature Table Definition). EMBL - EBI : Banque europenne cre en 1980 et finance par l'EMBO (European Moleculary Biology Organisation). Elle est aujourd'hui diffuse par l'EBI ("European Bioinformatics Institute", Cambridge). Genbank - NCBI : Cre en 1982 par la socit IntelliGenetics et diffuse maintenant par le NCBI ("National Center for Biotechnology Information", Bethesda - Marylandet). DDBJ (DNA Data Bank of Japan) : Cre en 1986 et diffuse par le NIG ("National Institute of Genetics", Japon). Swissprot & TrEMBL : Elle a t constitue l'Universit de Genve partir de 1986. Elle est maintenant dveloppe par le SIB (Swiss Institute of Bioinformatics) et l'EBI. Elle regroupe (entre autres) des squences annotes de la PIR-NBRF ainsi que les squences codantes traduites de l'EMBL (TrEMBL). PIR-NBRF ("Protein Information Ressource") : banque de protines cre sous l'influence du NBRF ("National Biomedical Research Foundation") Washington. Elle diffuse maintenant des donnes issues du MIPS ("Martinsried Institute for Protein Sequences"), de la base Japonnaise JIPID ("Japan International Protein Information Database") et des donnes propres de la NBRF. UniProt ("Universal Protein Resource") : c'est la base de donnes des protines : ExPASy Proteomics Server. Consortium [EBI - SIB - PIR] GOLD: "Genomes OnLine Database" - base de donnes qui recensse les milliers de gnomes squencs ou en voie de squenage. "The Quick Guide" : autre base de donnes qui recensse des gnomes squencs (descriptions des organismes, liens vers les centres de squenage et vers la bibliographie). 2. Les banques spcialises Pour des besoins spcifiques lis l'activit d'un groupe de personnes, ou encore par compilations bibliographiques, de nombreuses bases de donnes spcifiques ont t cres au sein des laboratoires. Certaines sont inconnues ou mal connues et attendent qu'on les exploite davantage. Les bases de donnes spcialises sont d'intrt divers et la masse des donnes qu'elles contiennent peut varier d'une base une autre. Ces bases correspondent des amliorations ou des regroupements par rapport aux donnes issues des bases gnralistes. Exemples de banques spcialises Late Embryogenesis Abundant Proteins database (LEAPdb - G. Hunault & E. Jaspard) : cette base de donnes contient un grand nombre d'informations sur les proines LEA impliqus dans la tolrance de nombreux stress, notament la dshydratation et le froid. Pour l'instant, on les a mises en vidence principalement chez les plantes. Disulfide Bridge DataBase (DBDB - J.-M. Richer, G. Hunault & E. Jaspard) : cette base de donnes contient un grand nombre d'informations structurales sur les cystines de plus de 400 protines cristallises. Elle a aussi pour but de servir la mise au point d'un logiciel de prdiction des cystines impliques dans la formation de pont disulfure. RESID Database : Base de donnes sur les acides amins peu frquents (sous-partie de la base de donnes PIR)
Les bases de motifs L'utilisation de bases spcialises comme les bases de motifs est devenue un outil essentiel dans l'analyse des squences pour tenter de dterminer la fonction de protines inconnues ou savoir quelle famille appartient une squence non encore caractrise. a. Les bases de motifs nucliques La plupart de ces bases consiste recenser dans des catalogues les squences des diffrents motifs pour lesquels une activit biologique a t identifie. Certains motifs sont simples et non ambigus, d'autres correspondent des activits biologiques plus complexes et engendrent donc des squences moins prcises. Pour ces derniers types de motifs, des compilations ont t tablies pour donner des listes annotes de motifs qui peuvent tre communs plusieurs squences. Il existe principalement deux bases de motifs nucliques qui sont rgulirement actualises et qui correspondent un travail de synthse bibliographique : il s'agit des bases de facteurs de transcription TFD (Ghosh, 1993) et TRANSFAC (Knppel et al., 1994). b. Les bases spcialises de motifs protiques La base PROSITE (ExPASy Proteomics Server) peut tre considre comme un dictionnaire qui recense des motifs protiques ayant une signification biologique. Elle est tablie en regroupant, quand cela est possible, les protines contenues dans Swissprot par famille comme par exemple les kinases ou les protases. On recherche ensuite, au sein de ces groupes, des motifs consensus susceptibles de les caractriser spcifiquement. La conception de la base PROSITE repose sur quatre critres essentiels : collecter le plus possible de motifs significatifs avoir des motifs hautement spcifiques pour caractriser au mieux une famille de protines donner une documentation complte sur chacun des motifs rpertoris faire une rvision priodique des motifs pour s'assurer de leur validit par rapport aux dernires exprimentations Voir un exemple : motif "EF-hand" des protines fixant le calcium comme la calmoduline par exemple. 3. Projet "Embrace" : standardiser l'accs aux donnes bioinformatiques en Europe
Depuis la premire bauche du squenage du gnome humain, en 2001, les biologistes produisent toujours plus de donnes bioinformatiques. Pour les stocker, ils multiplient les bases de donnes, mais aucune standardisation n'existe encore dans ce domaine. En consquence, les donnes ne sont pas toutes prsentes sous la mme forme. De plus, les protocoles d'accs sont diffrents, de mme que les algorithmes qui traitent les donnes. D'o le projet de rseau bioinformatique europen (dbut fvrier 2005), dot par la commission europenne de 8,28 millions d'euros pour cinq ans, il rassemble 16 partenaires de 11 pays, dont 3 quipes du CNRS. Le but du projet "Embrace" est de standardiser l'accs aux innombrables donnes issues des projets de gnomique, et leurs mthodes d'tude, afin que les chercheurs puissent les consulter et les exploiter facilement. Embrace utilisera la "technologie de grille" (grid), o un grand nombre d'ordinateurs gographiquement loigns les uns des autres travaillent en rseau afin d'offrir une importante capacit de stockage et de calcul. 4. Liens Internet et rfrences bibliographiques
Base de donnes sur les acides amins peu frquents (sous-partie de la base de donnes "Protein Information Resource" - PIR) RESID Database Bases de donnes sur les proprits physico-chimiques des acides amins (sous-partie de la base de donnes "Expasy - Swiss-Prot") ProtScale Swiss-Prot Base de donnes PROWL : proprits physico - chimiques des acides amins, peptides, protines. PROWL Cours : "Les banques de squences biologiques l'Institut Pasteur" Aller au site
IV Quelques formats de fichiers dans les banques de donnes Exemples de formats lis aux logiciels de traitement des squences 1. Format FASTA Sans doute le plus rpandu et l'un des plus pratiques car trs simple. La squence, sous forme de lignes de 80 caractres maximum, est prcde d'une ligne de titre (nom, dfinition ...) qui doit commencer par le caractre ">". Plusieurs squences peuvent tre mises dans un mme fichier. >1YYCA 174 bp GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDF KGVTRD GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPV KVA YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF Example of a FASTA record >gi|22777494|dbj|BAC13766.1| glutamate dehydrogenase [Oceanobacillus iheyensis] MVADKAADSSNVNQENMDVLNTTQTIIKSALDKLGYPEEVFELLKEPMRILTVRI PVRMDDGNVKVFTGY RAQHNDAVGPTKGGIRFHPNVTETEVKALSIWMSLKSGIVDLPYGGAKGGIICD PREMSFRELEALSRGY VRAVSQIVGPTKDIPAPDVFTNSQIMAWMMDEYSKIDEFNNPGFITGKPIVLGGS HGRESATAKGVTIVL NEAAKKKGIDIKGARVVIQGFGNAGSFLAKFLHDAGAKVVAISDAYGALYDPEG LDIDYLLDRRDSFGTV TKLFNNTISNDALFELDCDIIVPAAVENQITRENAHNIKASIVVEAANGPTTMEAT KILTERDILIVPDV LASAGGVTVSYFEWVQNNQGFYWSEEEIDNKLHEIMIKSFNNIYNMSKTRRIDM RLAAYMVGVRKMAEAS
1. With the FASTA format, a single file can contain several records (sequences). Each record begins with ">". 2. gi|22777494 : the GenInfo Identifier number is the sequence identification number for a protein or a nucleotide sequence. If a sequence changes in any way, a new GI number will be assigned. 3. dbj|BAC13766.1| : one record could exist in different databases and may have many identifiers. The table gives the explanation of database name and identifier syntax. In this example, this record exists in the DNA Database of Japan under dbj|BAC13766.1. 4. dbj|BAC13766.1| : Database sequence identifiers run parallel to the new accession version system as sequence identifiers. In this example, the ".1" indicates that the sequence has been revised one time. 5. glutamate dehydrogenase [Oceanobacillus iheyensis] : description of the sequence. In this example, "glutamate dehydrogenase" is the name of the protein and Oceanobacillus iheyensis the organism from which it has been determined.
2. Format ClustalW- suffixe ".aln" Doit commencer avec "CLUSTAL W" sans autre information. Une ou plusieurs lignes vides. Un ou plusieurs blocs de squences. Chaque bloc contient : o une ligne pour chaque squence. Chaque ligne consiste : 1. le nom de la squence 2. espace blancs white space 3. jusqu' 60 caractres o Une ligne indiquant le degr de conservation (via des caractres spciaux : "*", ":", ".") pour les colonnes de l'alignement pour ce bloc. o Une ou plusieurs lignes vides. CLUSTAL W (1.8) multiple sequence alignment
1YYCA GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDF KGVTRD 1YYCA GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPV KVA 1YYCA YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF
3. Format GCC/MSF ("Pileup") - ("Genetics Computer Group" - GCG fondu dans "Accelrys") Database Name Identifier syntax GenBank gb|accession|locus EMBL Data Library emb|accession|locus DDBJ, DNA Database of Japan dbj|accession|locus NBRF PIR pir||entry SWISS-PROT sp|accession|entry name Brookhaven Protein Data Bank (PDB) pdb|entry|chain NCBI Reference Sequence ref|accession|locus Protein Research Foundation prf||name Local Sequence identifier lcl|identifier GenInfo Backbone Id bbs|number General database identifier gnl|database|identifier Patents pat|country|number Le format adopt par le package GCG permet la fois de commenter les donnes et de vrifier l'intgrit de la squence par une valeur (=Checksum) calcule sur celle-ci. Le format GCG n'autorise qu'une seule squence par fichier.. Le fichier est constitu de la manire suivante: o avant les ".." : commentaires o ligne signal avec identificateur et "Check #### .." o aprs les ".." : squence. o 1YYCA o 1YYCA Length: 174 Feb 14, 2011 10:21 Check: 9268 .. o 1 GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD o 51 DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP o 101 DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP o 151 VVGDITIPVS TQGEIKLPSL RDFF
4. Format NBRF/PIR Une ligne qui commence par le caractre ">" et un code 2 lettres qui dsigne le type de squence : P1, F1, DL, DC, RL, RC ou XX. Un point-virgule suivi par le code li la base de donne (dans l'exemple suivant : ";1YYCA"). Une ligne qui dcrit la squence. La squence elle-mme. Cette partie doit finir par une astrisque. Plusieurs squences peuvent tre mises dans un mme fichier. >P1;1YYCA 1YYCA 174 bases GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF*
5. Format Staden Le plus ancien et le plus simple : suite des lettres de la squence par lignes termines par un retour la ligne (80 caractres maximum par ligne). Ce format n'autorise qu'une squence par fichier. SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKADVMVVVAYGL 6. Format Stanford / IG la 1re ligne est une ligne de commentaires prcde par le caractre ";" la 2e contient l'identificateur (nom de la squence) dans les 10 premires colonnes les lignes suivantes contiennent la squence (80 caractres maximum par ligne) termine par le caractre "1" (squence linaire) ou "2" (squence circulaire) ;1YYCA 174 bases 1YYCA GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVD DVDFKGVTRDGVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIP DPGSLVGSGTTVLDVPVKVAYSIAVSLMKDMCTDWDIDYQLDIGLTFDIP VVGDITIPVSTQGEIKLPSLRDFF1 7. Autres formats
Le format MSF ("Multiple Sequence Format") contient plusieurs squences dans un fichier. Il est issu d'un alignement multiple produit par les programmes PileUp, LineUp - MSF et reformat -MSF de GCG. Le format PHYLIP : deux formats de base sont proposs. 2. Exemples de formats lis aux banques de donnes
a. Format GenBank Chaque ligne indique le nom du champs et dans chaque champs on trouve des informations.
b. Format EMBL Chaque entre de la base EMBL est compose de lignes qui commencent par un code deux caractres (champs) suivi de 3 blancs eux mme suivis dinformations. ID 1YYCA STANDARD; PRT; 174 AA. SQ SEQUENCE 174 AA; C11E4F3E CRC32; GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD DVDFKGVTRD 60 GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT TVLDVPVKVA 120 YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF 174 // Aller : "Entrez" - NCBI - taper "28377945" dans "Search across databases" Description fichier GenBank Aller : EBI dbfetch - taper "PS13882" dans "search item" Description codes entre fichier EMBL
c. Format PROSITE La syntaxe pour la description d'un motif structural ou signature ("pattern") de la base de donnes PROSITE est la suivante : lettres A-Z correspondant aux acides amins (minuscules ou majuscules) [] indique une ambiguite inclusive. Exemple : [ILVM] {} ambiguite exclusive. Exemple : {FWY} X caractre positionnel indiffrent (n) rptition n fixe d'un sous-motif. Exemple : [RD](2) X(n,m) insertions min-max (insertion variable). Exemple : X(2,4) < au dbut du motif : le motif est cadr gauche de la squence > la fin du motif : le motif est cadr droite de la squence le caractre '-' spare chaque position le caractre '+' indique que la suite du motif continue la ligne suivante Exemples de motifs PROSITE : D - x - [DNS] - {ILVFYW} - [DENSTG] - [DNQGHRK] - {GP} - [LIVMC] - [DENQSTAGC] - x(2) - [DE] - [LIVMFYW] 3. Les outils de conversion de formats 1. ReadSeq ("Biosequence conversion tool") : Programme de l'EBI. Il permet le reformatage gnral des squences. De nombreux formats de sortie sont proposs par Readseq. 2. Sequence Utilities ("BCM Search Launcher") : Attention cocher la ... bonne case.
V-Algorithmes et programmes de comparaison de squences Interprtation des rsultats : E-value, P-value 1. Dfinitions Il existe 3 grandes classes d'algorithmes de comparaison de squences : mthode de programmation dynamique mthode heuristique mthode d'apprentissage machine Alignement : processus par lequel deux (ou n) squences sont compares afin d'obtenir le plus de correspondances (identits ou substitutions conservatives) possibles entre les lettres qui les composent. alignement local : alignement des squences sur une partie de leur longueur alignement global : alignement des squences sur toute leur longueur
alignement optimal : alignement des squences qui produit le plus haut score possible alignement multiple : alignement global de trois squences ou plus brches ou "gap" : espace artificiel introduit dans une squence pour contre-balancer et matrialiser une insertion dans une autre squence. Il permet d'optimiser l'alignement entre les squences
indel : "in" = insertion et "del" = dltion
similarit : c'est le pourcentage d'identits et/ou de substitutions conservatives entre des squences. Le degr de similarit est quantifi par un score. Le rsultat de la recherche d'une similarit peut tre utilis pour infrer l'homologie de squences. homologie : 2 squences sont homologues si elles ont un anctre commun. L'homologie se mesure par la similarit : une similarit significative est signe d'homologie sauf si les squences prsentent une faible complexit. faible complexit ("low-complexity regions") : rgions qui contiennent peu de caractres diffrents. Exemples : (a) FFFPPPPPVVV, 3 acides amins diffrents seulement (rgion riche en proline) - queue poly-A des ARN. Ces rgions posent des problmes dans l'analyse des squences car elles gnrent un score biais. Exemple de programme qui analyse ce type de rgions : "SEG".
msappariement : non correspondance entre deux lettres. Un msappariement peut tre : soit la substitution d'un caractre par un autre, c'est--dire une mutation soi l'introduction d'un "gap" score : un score global permet de quantifier l'homologie. Il rsulte de la somme des scores lmentaires calculs sur chacune des positions en vis vis des deux squences dans leur appariement optimal. C'est le nombre total de "bons appariements" pnalis par le nombre de msappariements. score lmentaire : ADN : la valeur du score lmentaire est de 1 (les deux bases sont identiques, bon appariement) ou de 0 (les deux bases sont diffrentes, mauvais appariement). protines : cette valeur est extraite d'une matrice de substitution 2. Algorithme de Needleman & Wunsch et algorithme de Smith & Waterman Tous deux sont des algorithmes de programmation dynamique utiliss pour obtenir l'alignement global ou local (respectivement) optimal de deux squences protiques ou d'acides nucliques. La programmation dynamique est une mthode dveloppe par R. Bellman (1955) qui permet de rsoudre de nombreux problmes dont la solution directe n'est pas possible puisque de complexit exponentielle. Exemple : calcul de la distance d'dition entre deux chanes de caractres (squences protiques ou d'acides nucliques). La programmation dynamique une mthode de rsolution ascendante qui dtermine une solution optimale du problme partir des solutions de tous les sous-problmes. L'algorithme de Needleman & Wunsch et l'algorithme de Smith & Waterman se droulent globalement en deux tapes : la construction, ou descente, qui permet de calculer le meilleur score, c'est dire le cot de la transformation de la premire squence en la seconde (tape de programmation dynamique) la construction de l'alignement lui-mme, ou remonte Ces algorithmes n'utilisent pas d'heuristique : il sont donc sensibles mais longs.
F(i,j) : valeur la position (i,j) de la matrice. s(x i ,y j ) : valeur obtenue partir de la matrice de substitution pour les nuclotides ou les acides amins (x i ,y j ) correspondant la position (i,j) de la matrice. C'est donc le score correspondant l'alignement des lettres x i et y j . Ce score prend, par exemple, les valeurs suivantes : identit : +3 non identit : -1 Algorithme de Needleman & Wunsch alignement global optimal de 2 squences Algorithme de Smith & Waterman alignement local optimal de 2 squences
La ligne i = 0 et la colonne j = 0 sont initialises aux valeurs de pnalit des gaps. La fonction de rcurrence ne rinitialise pas la valeur 0 si aucune valeur positive n'est prsente. La ligne i = 0 et la colonne j = 0 sont initialises 0. N'importe quelle case de la matrice de comparaison peut tre un point de dpart pour le cacul des scores finaux. Si ce score devient infrieur zro, la fonction de rcurrence rinitialise la valeur 0 et la case peut tre utilise comme un nouveau point de dpart. s(x i ,-) et s(-,y j ) est la fonction simple de pnalit de l'alignement d'un rsidu avec un gap : -5 Remarque : si on opte pour d'autres valeurs, on obtient d'autres alignements optimaux, d'o le choix crucial de la meilleure matrice de substitution lors des alignements. La fonction de pnalit d'un gap est dfinie par : f(n) = d + [e . (n-1)], o : n = longueur du gap d = pnalit d'ouverture d'un gap e = pnalit d'extension d'un gap Exemple : un gap de longueur n = 3, avec une pnalit d'ouverture d = -10 et d'extension e = - 2, aura un score de f(3) = -10 + (-2 x 2) = -14 Application : alignement de la squence 1 =ACGCT avec la squence 2 =ACT On remplit la 1re ligne et la 1re colonne de la matrice qui correspondent un gap la 1re position : l'alignement du A de la squence 2 avec l'insertion d'un gap dans la squence 1 cote : -5 celui du C de la squence 2 avec l'insertion d'un second gap de la squence 1 cote : -5 + -5 = -10 et ainsi de suite ... F(1,1) aura pour valeur la valeur maximale de l'une des possibilits suivantes : F(0,0) + s(A,A) = 0 + 3 = 3 F(0,1) + s(A,-) = -5 + -5 = -10 F(1,0) + s(-,A) = -5 + -5 = -10 Et ainsi de suite.
j 0 1 2 3 i - (gap) A C T 0 - (gap) 0 -5 -10 -15 1 A -5 3 -2 -7 2 C -10 -2 6 1 3 G -15 -7 1 5 4 C -20 -12 -4 0 5 T -25 -17 -9 -1 F(2,1) aura pour valeur la valeur maximale de l'une des possibilits suivantes : F(1,0) + s(C,A) = -5 + -1 = -6 F(1,1) + s(C,-) = 3 + -5 = -2 F(2,0) + s(-,A) = -10 + -5 = -15
Pour reconstituer l'alignement, on dmarre de la dernire case (5,3) et on dtermine la case partir de laquelle cette case a t atteinte : a. la valeur -1 de la case (5,3) ne peut-tre obtenue qu'en ajoutant +3 (soit une identit) la valeur -4 [(case (4,2)]. Cel correspond l'alignement du "T" de la squence 1 avec le "T" de la squence 2.
b. la valeur -4 de la case (4,2) peut tre obtenue de 2 manires : en ajoutant +3 (soit une identit) la valeur -7 [(case (3,1)]. Cel correspond l'alignement du "C" de la squence 1 avec le "C" de la squence 2. en ajoutant -5 (soit un gap) la valeur 1 [(case (3,2)]. Cel correspond l'alignement du "C" de la squence 1 avec un gap dans la squence 2. c. Et ainsi de suite. Ds lors, on obtient 2 alignements optimaux qui ont le mme score de +1.
3. Diversit des programmes - spcificit selon le type de donnes annalyses Seq1 A C G C T Seq2 A - - C T Seq1 A C G C T Seq2 A C - - T Voir l'extrme diversit des programmes. Type de squences Protines ou acides nucliques (ADN et/ou ARN) ou les deux Type d'alignement Local ou global Accessibilit Serveur Web ou implment sur l'ordinateur (lignes de commandes) Spcialisation de plus en plus prononce du champs recherche dans des bases de donnes alignement de squences 2 2 ("paiwise alignment") alignement de squences multiples analyse de gnome recherche de motifs (sous-squences spcifiques "signature") : ScanProsite
d'application des algorithmes / programmes alignement de millions de courtes squences (voir les nouvelles technologies de squenage) modlisation de structures homologues et superposition de structures 3D de protines ("homology modeling"- "protein threading") ... Les "benchmarks" sont de vastes ensembles de donnes (homognes, cures, testes) qui permettent de comparer les performances d'algorithmes / programmes. Exemples de "benchmarks": BAliBASE : le premier "benchmark" construit d'alignements de squences protiques HOMSTRAD ("HOMologous STRucture Alignment Database") : curated database of structure-based alignments for homologous protein families. PFAM ("Protein FAMilies") : contient toutes les familles de protines identifies (environ 14.000 en 2012). Chacune est reprsente par un alignement multiple des squences de la famille considre auquel est adjoint un profil HMM ("Hidden Markov Model"). Affycomp : pour l'analyse de l'expression de gnes - puces ADN Affymetrix "The Protein Classification Benchmark collection" : pour l'annotation fonctionnelle par apprentissage machine Figure ci-contre : comparaison des performances de plusieurs programmes d'alignement de squences ClustalW Muscle ("MUltiple Sequence Comparison by Log-Expectation") Dialign kalign Mafft (2 versions testes : fftns2 / linsi v. 6.815) Probcons T-Coffee ("Tree-based Consistency Objective Function For alignment Evaluation") Bleu : efficacit / Orange : rapidit (chelle log) Programme score d'efficacit temps de calcul Probcons 79.4% 2.7 jours T-Coffee 79.4% 2.7 jours Mafft (linsi) 81.6% 1.2 heures Kalign 74.3% 3 minutes !
Source : Thompson et al. (2011) Les programmes sont de plus en plus spcifiques du type de donnes biologiques traites ou du type d'analyse effectue : analyse de gnomes ou assemblage d'EST en contigs construction d'arbres phylogntiques dtection de SNP ("Single Nucleotide Polymorphism") recherche dans des banques gnralistes ou spcialises analyse de paramtres physico-chimiques d'acides amins de protines squences consensus conserves ("pattern") recherche de motifs structuraux analyse d'expression des gnes annotations ... Illustration : la comparaison de structures et la modlisation par homologie On a de plus en plus d'informations qui tendent dmontrer que le nombre de repliements des protines dans la nature est limit (quelques milliers). On peut donc regrouper les protines selon le type de repliement qu'elles adoptent. Voir les bases de donnes CATH et SCOP, par exemple. Remarque : les protines dites "intrinsquement non structures" sont part. Le pralable de la modlisation par homologie ("homology modeling"- "protein threading") est de disposer d'au moins une protine dont la structure 3D a t dtermine. Elle sert de "modle" pour modliser la structure 3D potentielle d'une protine pour laquelle on ne dispose que de la squence. Cette squence doit bien sr tre proche (homologue) de celle de la protine modle. Il faut donc d'abord effectuer des alignements de squences. Exemple de logiciel / interface Web qui renvoie un fichier au format PDB : ESyPred3D. Exemples d'autres programmes de modlisation structurale par homologie : 1. DeepView 2. Chimera 3. MolIDE
Figure ci-contre : Procdure de "PyMod" qui intgre divers types de donnes et d'analyses : recherche dans une base de donnes de similarits avec la squence requte alignement multiple de squences modlisation de structures 3D par homologie avec le logiciel Modeller. Chaque "bloc de procdure" est indpendant des autres : on peut donc, par exemple, effectuer un alignement multiple de squences sans recherche pralable dans une base de donnes.
Source : Bramucci et al. (2012)
4. Programmes d'alignement local a. Prambule Les mthodes de programmation dynamique permettent de calculer, sous un systme de scores donn, l'alignement optimal, global ou local, entre deux squences en un temps proportionnel au produit des longueurs des deux squences. Appliques une banque de squences, le temps de calculs de ces mthodes augmente linairement avec la taille de la banque. On dfinit 2 caractristiques pour une mthode de comparaison de squences : la sensibilit : c'est l'aptitude dtecter toutes les similarits considres comme significatives et donc gnrer le minimum de faux-ngatifs. la slectivit : c'est l'aptitude ne slectionner que des similarits considres comme significatives et donc gnrer le minimum de faux-positifs. Les programmes des familles Fasta et BLAST sont des heuristiques qui rduisent le facteur temps en "sacrifiant" un peu de sensibilit. L'un et l'autre simplifient le problme : en pr-slectionnant les squences de la banque susceptibles de prsenter une similarit significative avec la squence requte et en localisant les rgions potentiellement similaires dans les squences Ces tapes slectives permettent : de n'appliquer les mthodes de comparaison, coteuses en temps, qu' un sous- ensemble des squences de la banque et de restreindre le calcul de l'alignement optimal des parties des squences Cette logique de recherche plus rapide dans son excution, comporte donc le risque d'liminer des squences qui ont une similarit plus difficile dtecter ou d'aboutir des alignements sub-optimaux. La sensibilit et la slectivit se rfrent une notion de rsultat significatif ou non. Les programmes mesurent une signification statistique des rsultats par rapport un modle alatoire : un rsultat est considr comme significatif si la probabilit de l'obtenir par hasard est trs faible. Les systmes de score partent du postulat que les rsultats les plus significatifs du point de vue statistique sont aussi les plus pertinents du point de vue biologique. Or ce n'est pas toujours le cas car des rsultats biologiquement intressants peuvent tre non significatfs sur un plan statistique. En d'autres termes, la signification biologique d'une similarit entre des squences n'est pas forcment estimable sur la seule valeur d'un score. b. Programme FASTA - Pearson & Lipman (1988) Le programme ne considre que les squences prsentant une rgion de forte similitude avec la squence recherche. Il applique ensuite localement chacune de ces meilleures zones de ressemblance un algorithme d'alignement optimal. La codification numrique des squences, c'est--dire la dcomposition de la squence en courts motifs (nomms uplets) transcods en entiers, confre l'algorithme l'essentiel de sa rapidit. Etape 1 (figure ci-contre) Les rgions les plus denses en identits entre les deux squences sont recherches. Ces rgions sont appels points chauds ou "hot spots". C'est le paramtre "ktup" qui dtermine le nombre minimum de rsidus conscutifs identiques. Gnralement : ktup = 2 pour les protines - ktup = 6 pour l'ADN. Recherche des meilleures diagonales : plusieurs "hot spots" dans une mme rgion gnre des diagonales de similarit sans insertion ni dltions. Ces diagonales sont les rgions ayant le plus de similarit. Elles sont reprsentes par un graphique de points ou "dotplot". Lorsqu'une squence est compare une base de donnes, la premire tape est effectue pour chaque squence prsente dans cette base de donnes.
Etape 2 Les dix meilleures diagonales sont rvalues l'aide d'une matrice de substitution et les extrmits de ces diagonales sont coupes afin de conserver les rgions ayant les plus hauts scores seulement. Cette recherche de similitude est faite sans insertions ni dltions. Le score le plus lev obtenu est appel le score "init1". Il est attribu la rgion ayant le plus fort score parmi les 10 analyses. Etape 3 Les diagonales trouves l'tape 1 dont le score dpasse un certain seuil ("cutoff"), sont relies entre elles pour tendre la meilleure similarit. Ces nouvelles rgions contiennent des insertions et/ou des dltions Le score des nouvelles rgions est calcul en combinant le score des diagonales relies diminu d'un score de pnalit de jonction des diagonales. Le score le plus lev obtenu cette tape s'appelle le score "initn". Cette tape permet d'liminer les segments peu probables parmi ceux dfinis l'tape prcdente. Etape 4 (figure ci-contre) La rgion initiale qui a gnr le score"init1" est de nouveau value avec un algorithme de programmation dynamique sur une fentre de rsidus dont la largeur est dtermine par le paramtre "ktup". Le nouveau score est "opt". Les squences de la base de donnes sont classes selon leurs scores "initn" ou "opt". Les squences sont alignes avec la squence cible l'aide de l'algorithme de Smith & Waterman : le score final est le score Smith & Waterman.
Interprtation des rsultats La sortie de FASTA se dcompose en trois parties : colonne 1 : chelle de valeurs colonne 2 : nombre de squences dans la banque donnant un "z-score" = valeur colonne 3 : nombre de squences dans la banque donnant une "E-value" = valeur "init1" = "initn" = "opt" : 100% de similarit "initn" > "init1" : plusieurs rgions de similarit relies par des gaps "initn" > "opt" : pas de similarit c. Les programmes BLAST (Basic Local Alignment Search Tool) - Altschul et al. (1990) Mthode heuristique qui utilise la mthode de Smith & Waterman. C'est un programme qui effectue un alignement local entre deux squences nucliques ou protiques. La rapidit de BLAST permet la recherche des similarits entre une squence requte et toutes les squences d'une base de donnes. Voir une description de l'algorithme de BLAST
Les diffrents programmes BLAST Acides nucliques 1. "MEGABLAST" est l'outil de choix pour identifier une squence. 2. "Standard nucleotide BLAST" est mieux adapt la recherche de squences similaires mais pas identiques la squence requte. 3. L'option "Search for short and near exact matches" de "Nucleotide BLAST" est adapt la recherche d'amorces ("primer") ou de courts motifs nuclotidiques. Program Word Size DUST Filter Setting Expect Value Standard blastn 11 On 10 Search for short and near exact matches 7 Off 1000 Protines 1. Il n'y a pas d'quivalent de "MEGABLAST" pour les requtes protiques. 2. "Standard protein BLAST" est le mieux adapt la recherche de squences protiques. 3. "PSI-BLAST (Position-Specific Iterated-BLAST)" est adapt la recherche de similarit fine entre squences protiques. A utiliser quand une recherche BLAST a chou ou renvoy des rsultats tels que : "hypothetical protein" or "similar to...". 4. "PHI-BLAST (Pattern-Hit Initiated-BLAST)" est adapt la recherche de squences protiques qui contiennent un motif spcifi par l'utilisateur ET sont similaires la squence requte dans le voisinage proche du motif. 5. "Search for short nearly exact matches" de "Protein BLAST" est adapt la recherche de similarit dans le cas de courtes squences peptidiques. Les valeurs des paramtres "Expect value cutoff" et "word size" sont modifis la matrice PAM30 (plus stringente) remplace la matrice BLOSUM62. Une squence requte infrieure 5 acides amins est dconseille. Program Word Size SEG Filter Expect Value Score Matrix Standard protein BLAST 3 On 10 BLOSUM62 Search for short and near exact matches 2 Off 20000 PAM30 6. "Nucleotide query - Protein db [blastx]" est adapt pour trouver des squences protiques similaires celles codes par une squence requte nuclotidique. Trs utile pour l'analyse massive de squence d'EST ("Expressed Sequence Tags"). 7. "Protein query - Translated db [tblastn]" est adapt pour trouver des rgions codantes des protines homologues dans un ensemble de squences nuclotidique non- annotes. Trs utile pour l'analyse de squence d'EST et de brouillons de gnomes (HTG). 8. "Conserved Domain Database (CDD)": ce service utilise le programme "Reverse Position Specific BLAST (RPS-BLAST)" pour identifier des domaines protiques conservs en comparant la squence requte contre des bases d'alignements de domaines conservs obtenues avec des matrices de scores de position spcifiques "Position specific scoring matrices (PSSMs)". Les bases de donnes sont : "SMART", "PFAM" et "LOAD" ("Library Of Ancient Domains"). 9 "Conserved Domain Architecture Retrieval Tool (CDART)" permet d'examiner la structure en domaine de toutes les protines de la base de donnes BLAST. Plus sensible qu'une recherche BLAST classique car CDART est li au programme RPS- BLAST ("Reverse Position-Specific BLAST") qui est lui-mme une "variation" du programme "PSI-BLAST ". 10. "BLAST 2 Sequences" permet la comparaison de 2 squences requte. Ne recquiert pas de format particiliers des squences. La squence entre en second est considre comme la "base de donne" contre laquelle est effectue la comparaison. First sequence Second Sequence Program Nucleotide Nucleotide blastn or tblastx Nucleotide Protein blastx Protein Nucleotide tblastn Protein Protein blastp 11. Dernier "n" des programmes de la famille : DELTA-BLAST ("Domain Enhanced Lookup Time Accelerated BLAST"). Une recherche rapide de type RPS-BLAST permet de construire un profil PSSM ("Position Specific Scoring Matrix") puis de rechercher ce PSSM dans une base de donnes BLAST. Les rsultats de DELTA- BLAST peuvent servir de point de dpart pour une recherche de type PSI-BLAST. Un nouveau programme : CS-BLAST ("context-specific BLAST"). Pour chaque acide amin, CS-BLAST tient compte de l'influence de la squence en acides amins qui l'entoure, sur la probabilit de mutation de l'acide amin en question. En 2 itrations de recherche, CS-BLAST donne un rsultat plus sensible que 5 itrations avec PSI-Blast ("Position specific iterative BLAST"). Altschul S. F. et al. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs" Nucleic Acids Res. 25, 3389 - 3402 Biegert A. & Soding J.(2009) "Sequence context-specific profiles for homology searching" (Proc Natl Acad Sci USA 106, 3770 - 3775) Les programmes FASTA et BLAST suivants sont quivalents : Comparaison de squence nuclique / banque nuclique : FASTA - BLASTN Comparaison de squence protique / banque protique : FASTA - BLASTP Comparaison de squence protique / banque nuclique (traduite dans les 6 phases) : TFASTA - TBLASTN Complment sur PHI-Blast Choix des diffrentes bases de donnes de squences de protines Bases de donnes Description nr Non-redundant GenBank CDS translations + PDB + SwissProt + PIR + PRF, excluding those in env_nr. refseq Protein sequences from NCBI Reference Sequence project. swissprot Last major release of the SWISS-PROT protein sequence database (no incremental updates). pat Proteins from the Patent division of GenBank. month All new or revised GenBank CDS translations + PDB + SwissProt + PIR + PRF released in the last 30 days. pdb Sequences derived from the 3-dimensional structure records from the Protein Data Bank. env_nr Non-redundant CDS translations from env_nt entries. Smart v4.0 663 PSSMs from Smart, no longer actively maintained. Pfam v11.0 7255 PSSMs from Pfam, not the latest. COG v1.00 4873 PSSMs from NCBI COG set. KOG v1.00 4825 PSSMs from NCBI KOG set (eukaryotic COG equivalent). CDD v2.05 11399 PSSMs from NCBI curated cd set. Ce programme prend en entre une squence requte protique et un motif dfini par une expression rgulire. PHI-Blast est adapt la recherche de squences protiques qui contiennent un motif spcifi par l'utilisateur (fentre "PHI pattern" de la section "Algorithm") ET sont similaires la squence requte (fentre "Search") dans le voisinage proche du motif. La syntaxe du motif doit suivre la syntaxe de PROSITE. Exemple 1 de syntaxe de motif : [KR]-[LIM]-K-[DE]-K-[LIM]-P-G Exemple 2 de syntaxe de motif : S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)- [KR](4) Application : Aller BLAST dans la fentre du haut ("Enter accession number(s)") : entrer le numro d'accession AAC05356 choisir PHI-BLAST et dans la fentre qui apparat, entrer le profil : DSD (caratristique des protines LEA de la classe 4) Complment sur PSI-Blast PSI-Blast est adapt : la recherche de similarit fine entre squences protiques la dtection de membres loigns d'une famille protique l'tude de la fonction de protines inconnues PSI-Blast construit un profil partir de l'alignement multiple des squences qui ont obtenu les meilleurs scores avec la squence requte. Ce profil est compar la banque interroge et est affin au fur et mesure des itrations. Ainsi, la sensibilit du programme est augmente. Un profil est un tableau des frquences observes des acides amins (ou nuclotides) chaque position dans un alignement multiple. Exemple (trs simple) d'alignement multiple de 2 squences de 4 acides amins : DWKD DWNG Le profil de probabilits correspondant : 1 2 3 4 D 1.0 0.0 0.0 0.5 G 0.0 0.0 0.0 0.5 K 0.0 0.0 0.5 0.0 N 0.0 0.0 0.5 0.0 W 0.0 1.0 0.0 0.0 Ce qui ce signifie : probabilit de trouver D en position 1 = 1.0 (un D en premire position de chaque squence) probabilit de trouver G en position 1 = 0.0 (aucun G en premire position) etc ... L'utilisation d'un profil permet une recherche beaucoup plus sensible de squences homologues loignes que l'utilisation d'une squence seule car le profil contient de l'information sur la variabilit des diffrentes positions parmi les protines connues. En contrepartie un profil est moins spcifique qu'une simple squence seule. Si on utilise PSI-Blast sur un sous ensemble particulier de squences, il est probable que l'on ne trouve pas tous les homologues, surtout si leur squence est peu conserve par rapport la squence requte. Pour amliorer la sensibilit de la dtection des homologues loignes , il est prfrable d'effectuer un alignement avec PSI-Blast sur une banque de squences plus grande. Mais la sensibilit est diminue si la banque de donnes est trop grande puisque la frquence d'observation d'un score particulier (la "E-value") augmente avec la taille de la banque de donnes. Or, pour un alignement de 2 squences, plus le score est petit, plus la probabilit que ces 2 squences soient homologues est grande. Il est donc prfrable de chercher d'abord dans une banque "nettoye" ("curated") comme la base de donnes non-redondante ("nr") o toutes les squences identiques ont t limines sauf un exemplaire. Si plusieurs squences sont dans cette banque, on peut calculer un profil et l'utiliser pour effectuer une nouvelle recherche dans ce sous ensemble. On augmente ainsi la sensibilit de la recherche d'homologues. Naumoff D.G. & Carreras M. (2009) "PSI Protein Classifier: a new program automating PSI- BLAST search results" Molecular Biology (Engl Transl) 43, 652 - 664 Profils et "Position Specific Scoring Matrice" (PSSM) La construction de ces profils est base sur la frquence de chaque rsidu d'acide amin une position spcifique d'un alignement multiple
Colonne 1 : frquence (A, 1) = 0/5 = 0 ; frquence (G, 1) = 5/5 = 1 ; ... Colonne 2 : frquence (A, 2) = 0/5 = 0 ; frquence (H, 2) = 5/5 = 1 ; ... ... Colonne 15 : frquence (A, 15) = 2/5 = 0,4 ; frquence (C, 15) = 1/5 = 0,2 ; ... Certaines frquences sont gales 0 du fait du nombre de squence dans l'alignement multiple. Une telle frquence pourrait entraner une "exclusion" de l'acide amin concern cette position. On contourne ce biais en ajoutant une "petite valeur" toutes les frquences observes. Cette faible "frquence non-observe" s'appelle un "pseudo-count". En reprenant l'exemple prcdent avec un "pseudo-count" de 1 : Colonne 1 : f' (A, 1) = (0+1)/(5+20) = 0,04 ; f' (G, 1) = (5+1)/(5+20) = 0,24 ; ... Colonne 2 : f' (A, 2) = (0+1)/(5+20) = 0,04 ; f' (H, 2) = (5+1)/(5+20) = 0,24 ; ... ... Colonne 15 : f' (A, 15) = (2+1)/(5+20) = 0,12 ; f' (C, 15) = (1+1)/(5+20) = 0,08 ; ... La frquence de chaque acide amin dtermine chaque position est compare la
frquence laquelle chaque acide amin est attendu dans une squence au hasard. On fait l'hypothse que chaque acide amin est observ avec une frquence identique dans une squence au hasard. Le score est calcul partir du logarithme du rapport (frquences observes) / (frquences attendues) : score ij = log (f' ij / q i ) o : score ij est le score pour le rsidu i la position j f' ij est la frquence relative pour le rsidu i la position j, corrige par les "pseudo- count" q i est la frquence relative attendue pour le rsidu i dans une squence au hasard Ci-contre : la matrice PSSM "Position Specific Scoring Matrice" complte calcule partir de l'exemple prcdent
La matrice PSSM est ensuite applique la squence requte en utilisant une "fentre glissante". A chaque position, un score PSSM est ca lcul en sommant les scores de toutes les colonnes. Le plus haut score est retenu
Source figures : Pagni M. (2003) "An introduction to Patterns, Profiles, HMMs and PSI- BLAST" / SIB Course Conclusion PSSM Avantages Inconvnients Bonne mthode pour de courtes rgions conserves. Approche statistique (base sur la taille des banques) / interprtation des rsultats sur la base d'une "e-value". Insertions et dltions interdites avec les matrices PSSm . Sinon, il faut utiliser des "profils gnraliss". Les squences correspondant de longues regions ne peuvent tre dcrites avec cette mthode.
A utiliser pour modliser de courtes rgions avec une forte variabilit mais de longueurs constantes. Outils : "The MEME Suite" : Motif-based sequence analysis tools Profils gnraliss : suite "Pftools" "InterProScan" : outils de InterPro Bases de donnes : "Prosite" : Database of protein domains, families and functional sites "PRINTS": PSSM database "Pfam": protein domain database "SMART ": protein domain database "ProDom ": protein domain database "InterPRO ": protein "signatures" database Application PSI-Blast 1. Une recherche standard BLAST est effectue contre une base de donnes en utilisant une matrice de substitution. 2. Une matrice PSSM est construite automatiquement partir d'un alignement multiple des squences ayant le plus haut score ("hits") dans cette premire recherche BLAST. positions trs conserves : scores levs positions faiblement conserves : scores faibles 3. La matrice PSSM remplace la matrice initiale et on effectue une 2me recheche BLAST. 4. Les tapes 3 et 4 sont rptes et chaque fois, les squences nouvellement trouves sont ajoutes afin de construire une nouvelle matrice PSSM. 5. On considre que le programme PSI-BLAST a converg quand aucune nouvelle squence n'est ajoute. 5. Programme d'alignement multiple progressif : Clustal W La complexit des algorithmes de programmation dynamique croit de faon exponentielle avec le nombre de squences traiter, ce qui rend difficile leur utilisation pour plusieurs squences. Pour contourner ce problme, plusieurs heuristiques ont t proposes. Le programme ClustalW utilise un algorithme d'alignement multiple progressif. Etape 1 La similarit de chaque squence est value par rapport toutes les squences. Un score de similitude est calcul pour chaque paire de squences selon un alignement approximatif global rapide : seuls les fragments exactements apparis et les diagonales avec un grand nombre d'appariements sont pris en compte. On obtient ainsi une matrice de distances. Etape 2 Un dendrogramme ("guide tree") est construit : il s'agit d'un arrangement traduisant les relations globales de parent entre les squences. Cet arbre phylognique est construit selon la mthode "Neighbour-Joining". Il indique l'ordre partir duquel l'alignement multiple graduel sera tabli. Etape 3 Le programme construit un premier alignement multiple (par programmation dynamique ou par une mthode semblable celle de FASTA): les 2 squences les plus similaires servent de base pour l'laboration de cet alignement multiple primaire. On obtient une premire squence consensus qui est aligne avec la 3e squence la plus similaire. Toutes les squences (des plus proches aux plus distantes) sont ainsi progressivement ajoutes par construction de consensus successifs jusqu' l'alignement multiple final.
(Source : La Base de Connaissances en Bio-informatique) Le risque le plus important en ce qui concerne les alignements multiples progressifs est qu'un alignement erron l'tape initiale engendre une erreur qui est amplifie dans l'alignement multiple global. Le programme ClustalW comporte des particularits qui minimisent ce risque : le poids des squences est ajust des matrices de substitution appropries sont utilises selon l'tape de l'alignement et la divergence des squences l'introduction de gap est favorise des endroits spcifiques
Application Aller "Sequence Manipulation Suite". Gnrer 10 squences ADN alatoires de 20 paires de base. Faire un copier-coller des 2 premires dans un diteur de texte. Item : "Random Sequences". Choisir : "-Random DNA Sequence" Aller "Clustal W" - EBI et coller les 2 squences dans la fentre de soumission. Lancer l'application. Quel est le rsultat et pourquoi ? "ERROR: Multiple sequences found with same name, random (first 30 chars are significant)" Modifier le nom des squences dans l'diteur de texte et coller les 2 squences dans la fentre de soumission. Modifier les paramtres des gap et le choix des matrices. et relancer l'application. Voir l'alignement : "Alignment file" - Lien "clustalw - xxxxxxxxx.aln" Voir le score :"Output file" - Lien : "clustalw - xxxxxxxxxxx.output" 6. Interprtation des rsultats : E-value, P-value La signification des alignements est un point capital. Elle repose sur des valeurs spcifiques mais aussi et (peut-tre surtout ?) sur une inspection visuelle du rsultat par l'exprimentateur et donc sur son expertise quant aux squences sur lesquelles il travaille. Cette signification est value statistiquement en fonction de la longueur et de la composition de la squence, de la taille de la banque et de la matrice de scores utilise. "Sequences producing a significant alignment" : squences ayant un alignement significatif. A chacune de ces squences sont attribus plusieurs valeurs spcifiques qui sont une indication de la qualit de l'alignement. "High-Scoring Segment Pairs" ou "HSP" : les couples de squences les plus longues dont les scores ne peuvent tre amliors aprs extension d'un segment initial (Voir une description de l'algorithme de BLAST). a. "E-Value" pour un score S (E =Expected)
Pour des squences de longueurs m et n, la statistique d'un score HSP est caractrise par 2 paramtres de la distribution des valeurs extrmes produites par l'algorithme de Smith-Waterman : K et "E-Value" est le nombre d'alignements diffrents que l'on peut esprer trouver dans les banques avec un score suprieur ou gal S. C'est donc la probabilit d'observer au hasard ce score dans les banques de squences considres. E-Value = K.m.n. e -S
(1) "bit score S'" : ce score est driv du score brut S de l'alignement aprs normalisation. Il est utilis pour comparer des scores provenant de recherches diffrentes : S' = .S - Ln K / Ln 2 E-Value = m.n. 2 -S'
"E-Value" Interprtation Plus la "E-Value" est faible, plus l'alignement est significatif. Pour des squences requtes trs courtes, la "E-Value" est leve, mme pour les squences dont l'alignement obtenu est significatif. < 1 e -100
La probabilit de trouver par hasard un alignement comme celui qui est obtenu est infrieure 1 e -100
--> appariement exact : mme squence, mme origine 1 e -100 < E < 1 e -50 squences quasiment identiques : allles, mutations, espces voisines 1 e -50 < E < 0,1 une ventuel lien entre la squence requte et celles qui ont t trouves > 0,1 squences de l'alignement rejeter, sans lien avec la squences requte
b. "P-Value" pour un score S Le nombre d'HSP avec un score suprieur ou gal S et obtenus par hasard suit une distribution selon la loi de Poisson.
La probabilit de ne trouver aucun HSP avec un score suprieur ou gal S est : E est la "E-Value" pour le score S calcule avec l'quation (1). P = e -E
Donc, la probabilit de trouver au moins 1 HSP avec un score suprieur ou gal S est : P-Value = 1 - e -E
E P-Value 10 0,99995 5 0,993 trs faible valeurs de "E-Value" et de "P-Value" peu prs gales BLAST renvoie la "E-Value" plutot que la "P-Value". En effet, il est plus facile de comprendre la diffrence entre "E-Value" = 5 et "E-Value" = 10 qu'entre "P-Value" = 0.993 et 0.99995. 7. Liens Internet et rfrences bibliographiques "Cours d'autoformation en bioinformatique" - Universit Paris 5 : Trs bien fait et didactique. Avec exercices corrigs d'autovaluation. Aller au site "Sequence Manipulation Suite" : ensemble d'applications Java pour manipuler les squences. Trs bien fait et didactique pour se familiariser rapidement. Superbe Aller au site "An introduction to Bionformatics Algorithms" Aller au site "The Statistics of Sequence Similarity Scores" - Altschul, S.F. NCBI - Blast Needleman, S.B. & Wunsch, C.D. (1970) "A general method applicable to the search for similarities in the amino acid sequence of two proteins" J. Mol. Biol. 48, 443 - 453 Smith, T. & Waterman M. (1981) "Identification of common molecular subsequences" J. Mol. Biol. 147, 195 - 197 Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) "Basic local alignment search tool" J. Mol. Biol. 215, 403 - 410 BLAST Article Pearson, W.R. & Lipman, D.J. (1988) "Improved tools for biological sequence comparison" Proc. Natl. Acad. Sci. USA 85, 2444 - 244 FASTA Thompson, J.D., Higgins, D.G. & Gibson, T.J. (1994) "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice" Nucleic Acids Res. 22, 4673 - 4680 ClustalW Article Corpet, F. (1988) "Multiple sequence alignment with hierarchical clustering" Nucleic Acids Res. 16, 10881 - 10890 Multalin Sonnhammer et al. (1998) "Pfam: multiple sequence alignments and HMM- profiles of protein domains" Nucleic Acids Res. 26, 320 - 322 PFAM Article Altschul S. F. et al. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs" Nucleic Acids Res. 25, 3389 - 3402 Naumoff D.G. & Carreras M. (2009) "PSI Protein Classifier: a new program automating PSI-BLAST search results" Molecular Biology (Engl Transl) 43, 652 - 664 Edgar, R.C. (2004) "MUSCLE: multiple sequence alignment with high accuracy and high throughput" Nucleic Acids Res. 32, 1792 - 1797 Biegert A. & Soding J. (2009) "Sequence context-specific profiles for homology searching" Proc Natl Acad Sci USA 106, 3770 - 3775 Thompson et al. (2011) "A Comprehensive Benchmark Study of Multiple Sequence Alignment Methods: Current Challenges and Future Perspectives" PLoS ONE 6, e18093 Article Article Article Eswaret et al. (2006) "Comparative protein structure modeling using MODELLER" Curr. Protoc. Bioinformatics Chapter 5, unit 5.6 Bramucci et al. (2012) "PyMod: sequence similarity searches, multiple sequence-structure alignments, and homology modeling within PyMOL" BMC Bioinformatics 13, S2 Braberg et al. (2012) "SALIGN: a web server for alignment of multiple protein sequences and structures" Bioinformatics 28, 2072 - 2073
Article Article CATH ("Class, Architecture, Topology and Homology") SCOP ("Structural Classification Of Proteins") CATH SCOP
CHAPITRE V : La phylognie Introduction L'volution de la structure gnrale du gnome conduit des contraintes volutives (composition en bases, vitesse d'volution, par exemple) qui s'exercent simultanment sur tous ou un grand nombre de gnes indpendamment de la fonction particulire de chaque gne. La phylognie tente de reconstituer les filiations volutives (arbres) aboutissant aux squences tudies. Elle permet, partir de squences alignes, la suggestion d'un arbre phylogntique qui tente de reconstruire l'histoire des divergences successives durant l'volution, entre les diffrentes squences et leur anctre. V-1- Quelques dfinitions Horloge molculaire : http://www.univ-tours.fr/genet/gen13.html (GENET) Distance volutive : nombre de substitutions au cours de lvolution entre squences. Transition/transversion : http://anthropologie.unige.ch/evolution/transpos.html
V-2- Mthodes de reconstruction partir de squences Ces mthodes comme cela vient dtre dit tente de suggrer un arbre phylogntique. Chaque nud dun arbre est une estimation de lanctre des lments inclus. IL faut toujours garder lesprit que lon obtient toujours seulement une estimation de larbre. Cela revient dire quen pratique les arbres sont imparfaits et que leur prcision doit toujours tre statistiquement tablie. a) Principe de base de toutes les mthodes On dispose dun ensemble de squences. Les diffrentes tapes sont : 1) Aligner proprement les squences 2) Appliquer des mthodes de gnration d'arbres 3) Evaluer statistiquement la robustesse des arbres. V-3- Les diffrentes mthodes de gnration darbres a) Mthode de parcimonie Elle construit l'arbre le plus parcimonieux (le plus court), ayant le minimum de pas (de substitutions, insertions, dltions pour les squences, ou de changements d'tats pour les caractres discrets ). Autrement dit, l'arbre le meilleur est celui qui a besoin du minimum de changements
b) Mthode de vraisemblance Cette mthode s'applique quand le taux de changements est trs lev (d'o une approche statistique). Les bases ou AA de toutes les squences chaque site sont considres sparment et le log de la vraisemblance est calcul pour une topologie donne en utilisant un modle de probabilit. Ce log de la vraisemblance est cumul sur tous les sites et la somme est maximise pour estimer la longueur de branche de l'arbre. Cette procdure est rptes pour toutes les topologies possibles et la topologie ayant la plus haute vraisemblance est choisie.
c) Mthode des distances Les distances volutives (voire dfinitions) sont 2 2 dfinies. Elles doivent tre indpendantes et sont considres dans la mthode comme additives. Elles minimisent la somme des carres des diffrences entre distances observes et calcules. On convertit donc les donnes de squences en valeurs de distances arranges en matrice. La topologie de l'arbre est construite par une mthode de classification (comme UPGMA ou Neighbor joining (NJ)). La mthode donne une estimation de la distance pour chaque paire de longueurs de branche dans le chemin d'une squence vers une autre. * avantages : Facile gnrer. Calculs rapides. Bon rsultats pour des squences de forte similitude.. * inconvnients : les squences ne sont pas considres en tant que telles. Les sites sont traits de manire quivalentes. Pas applicable aux squences trs divergentes. Les diffrentes distances volutives Distance de Jukes et Cantor Distance de Kimura Distance de Poisson entre squences protiques
V-4- Fiabilit et robustesse des topologies Comme cela a t dit, la prcision des arbres doit toujours tre statistiquement tablie. Pour cela deux grandes mthodes sont utilises : Bootstrap Jacknife Dans les deux cas, on value par chantillonnage au hasard des donnes alignes (avec rptition), la robustesse des topologies. Une bonne vrification ncessite au moins 100 chantillonnages. On gnre donc partir d'un jeu de squences alignes, un ensemble alatoire de N jeu de squences alignes. Des arbres sont calculs partir des diffrentes mthodes et un arbre consensus est obtenu. V-5- Les outils et programmes a) Choix du programme Il dpend : 1) de la nature des donnes 2) des suppositions biologiques et choix de l'algorithme 3) du type de rsultats attendus b) Les logiciels Alignement multiple des squences ClustalW, MultiAlin, Mthodes de gnration darbre Mthode de parcimonie protpars pour les protines dnapars pour ADN/ARN Mthode de vraisemblance Dnaml pour ARN/ADN fastDNAML plus rapide (et intgr dans le package phylo_win) Mthode des distances fitch Matrice de distances (Dans FITCH les segments ne sont pas proportionnel au temps coul) kitsch Matrice de distances neighbor Neighbor-joining (NJ) et UPGMA NJ est probablement la meilleure mthode et la plus simple utiliser : prodist (ou nucdist), puis neighbor Reprsentation graphique de larbre Les programmes drawgram, drawplot (PHYLIP) , njplot (Mac, PC ou Unix), treetool (Xwindow) ou growtree (GCG) permettent des reprsentations graphiques. Evaluation de larbre Seqboot V-6- Les principaux packages en phylognie GCG La chane de programmes dans GCG est la suivante : pileup (Alignement multiple) => distances (Construction arbre) => growtree (Reprsentation graphique) Le calcul des distances 2 2 entre les squences alignes par pileup peut tre fait selon plusieurs mthodes : 1 Uncorrected distance 2 Jukes-Cantor distance 3 Kimura protein distance
CLUSTALW
Dans les diffrentes rubriques de ClustalW on trouve : 1. Multiple alignments qui permet daligner les squences 2. Phylogenetic trees 1. Draw tree qui permet la cration de larbre selon la mthode de NJ 2. Bootstrap qui permet lvaluation de larbre Larbre ainsi gnr pourra tre repris dans les logiciels ddition graphique darbre comme Njplot. Environnement PHYLIP Ensemble de plus de 40 programmes concernant la phylognie molculaire Documentation gnrale : http://www.infobiogen.fr/docs/PHYLIPdoc/ Alignement multiple : utiliser un logiciel comme clustalW, en utilisant loption de sortie des fichiers au format Phylip. Mthodes de construction darbres Parcimonie : dnapars (dna), protpars (prot) Distances : dnadist (Kimura ; ML ; JC), Protdist, fitch, kitsch, neighbor Vraisemblance : dnaml Evaluation de larbre : seqboot, consens
Des serveurs bien utiles Avant la fin de ce cours, il est important de vous donner quelques liens vers des serveurs vous permettant de devenir encore plus autonome pour analyser vos squences. Ces serveurs vous permettent de retrouver la plupart des outils dcrits dans ce cours, vous proposeront des moteurs de recherche si vous souhaitez des complments dinformations, ainsi que des liens vers dautres serveurs proposant des services utiles en analyses de squences. Serveur propos par Infobiogen : http://www.infobiogen.fr et en particulier le dambulum. Serveur de lInstitut Pasteur : http://www.pasteur.fr.
Epigénétique pour les intermédiaires. L'exploration la plus complète de l'impact pratique, social et éthique de l'ADN sur notre société et notre monde.