Академический Документы
Профессиональный Документы
Культура Документы
PLAN DU COURS
Définitions élémentaires
génomique = science des génomes séquencés
CGATGCCAAGCATGATAGTTGTT
MPSMIVVQKPNTAVHY
Protéine
ARN
Signal régulateur
gène = toute séquence codant une information etc…
Février 2004 Bernard Labedan 2
Introduction à la Génomique
Définition expérimentale du génome d’un organisme
Procaryote Eucaryote
3 (génomes) = 1
(pro)phage
plaste
chromosome
Flux
plasmide bidirectionnel
mitochondrie
Escherichia coli
4,7 Mb noyau
4200 gènes
5 chromosomes
bactériophage T4
168,8 kB
environ 150 gènes Arabidopsis thaliana
125 Mb
25.500 gènes
Février 2004
Virus Bernard Labedan 3
Introduction à la Génomique
identification des codons cg ATG CCA AGC ATG ATA GTT GTT
application du code génétique Met Pro Ser Met Ile Val Val
M P S M I V V
F C 12
E
D
chaque segment découpé en fragments de taille
ménagée afin d’avoir un grand recouvrement
avalanche de génomes
Février 2004
Une accélération technologique impressionnante Bernard Labedan 18
Introduction à la Génomique
PLAN DU COURS
Génomique fonctionnelle
Un nouveau champ
Protéomique
d’investigation avec de
Étude globale d’un organisme
nombreuses retombées
Génomique structurale
2. Annotation
Une fois la séquence d’un génome obtenue, il s’agit de la faire parler
• Première étape
identifier tous les gènes codant pour CGATGCCAAGCATGATAGTTGTT
des ARN (ribosomique, de transfert)
• Deuxième étape
identifier la nature et la alanine déshydrogénase
fonction des produits de
tous les gènes détectés lors
de la première étape
2. Annotation
2.1. Identifier un gène dans un génome
Séquence Suite de bases (lettres) On connait (partiellement) la
Il faut retrouver les mots gènes syntaxe et la grammaire
promoteur
ATG................................TAA
site de terminaison de
site de fixation
du ribosome
cadre ouvert de lecture (CDS) la transcription
(open reading frame ou ORF)
traduction en protéine
MTAGLVSPT.......................
2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.1. Mise au point de programmes automatiques :
• Approche conceptuelle basée sur des études linguistiques des séquences d’ADN :
• On connait (partiellement) la syntaxe et la grammaire
utilisation de modèles de Markov cachés qui, après apprentissage sur un
organisme donné, vont différencier les régions géniques des régions intergéniques
2. Annotation
• Une étude préliminaire sur quelques centaines de gènes montrait que 75%
des gènes annotés chez A. thaliana avaient été mal identifiés : on avait
soit des gènes qui ont été interprétés comme deux gènes voisins
soit l’inverse
• Une étude plus récente (janvier 2003) et exhaustive de réannotation
manuelle du génome de la drosophile confirme l’ampleur du problème
2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.2. Efficacité de ces programmes automatiques :
détestable chez les eucaryotes complexes
Une étude très récente de réannotation manuelle du génome de la drosophile
confirme l’ampleur du problème :
• le nombre global de gènes reste pratiquement inchangé : 13.601 13.676
mais 727 (trouvés par l'ancien programme GENIE) étaient erronés et ont
disparu et 802 nouveaux ont été trouvés par un nouveau programme,
GENSCAN, et ajoutés
• la structure de 85% des gènes (45% des protéines) a été modifiée
• 1531 gènes initialement indépendants ont été fusionnés en seulement
602 nouveaux gènes
• 322 gènes ont été morcelés en 675 nouveaux gènes
• 93 gènes ont été réinterprétés complètement avec des mélanges de
fusion et morcellement
2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.3. Apports de la réannotation manuelle :
Cette étude de réannotation manuelle du génome de la drosophile montre
aussi les points suivants :
• nombre moyen d’exons par gènes : 4.6, comme chez C. elegans (4,5),
Arabidopsis (4,6) mais loin de l’homme (8,9)
• expression alternative des gènes : quatre fois plus importante (861 4.743)
que la déduction faite lors de la première annotation
• immense majorité = épissage alternatif
• 13% = promoteurs alternatifs
• 6% = sites de polyadénylation alternatifs
2. Annotation
2.3. Les surprises du dénombrement des gènes
• Janvier 2001 : publication du génome humain (copie de brouillon)
on tablait sur au moins 100.000 gènes
2. Annotation
2.4. Prises de conscience
1. ce résultat inattendu a sans doute été trop médiatisé
• On pensait qu'il y avait 100.000 gènes parce que l'on estimait qu'il y
avait environ 100.000 protéines humaines
• De très récentes études confirment cette estimation
2. on ne sait pas estimer combien de protéines un gène peut coder :
• différents modes d'épissage
chez C. elegans 4 gènes codent 4 myosines différentes
chez la drosophile 1 seul gène code les 7 myosines connues
• promoteurs alternatifs
3. on ne sait pas identifier l’état d’expression d’un gène
• information essentielle chez les organismes complexes où l’évolution se
fait par la modulation de l’expression plus que par l'augmentation du
nombre de gènes
• les jeux de protéines synthétisées vont être très différents d'un tissu à
l'autre
Il est donc clair que le nombre total de gènes identifiés ne
reflète pas le niveau de complexité des organismes étudiés
Février 2004 Bernard Labedan 29
Introduction à la Génomique
2. Annotation
Une fois la séquence d’un génome obtenue, il s’agit de la faire parler
• Première étape
identifier tous les gènes CGATGCCAAGCATGATAGTTGTT
2. Annotation
2.5. Identifier la fonction de tous les gènes détectés
2.5.1. Méthodologie : Identification par homologie :
2. Annotation
2.5. Identifier la fonction de tous les gènes détectés
2.5.2. Recherche automatique de l’homologie :
2. Annotation
2.5. Identifier la fonction de tous les gènes détectés
2.5.3. Identification par homologie :
le seuil minimum d’identité doit être placé suffisamment haut pour que
l’homologie apparaisse incontestable
Homologie :
• évidente
• complète
• la protéine inconnue du
génome bactérien que nous
venons de séquencer
ressemble beaucoup au gène
purA qui code l’adénylo-
succinate synthétase
IMP AMP
Voie de
biosynthèse
des purines
Février 2004 Bernard Labedan 34
Introduction à la Génomique
2. Annotation
2.6. Assigner la fonction de tous les gènes détectés
2.6.1. Déduction fonctionnelle :
Principe
toute protéine virtuelle (cadre ouvert de lecture) inconnue ayant un
pourcentage d’identité suffisamment élevé avec au moins une protéine
connue dont la fonction est identifiée se verra attribuer cette fonction
Exemple
le cadre ouvert de lecture (ORF) de mon génome fraichement séquencé
ressemblant beaucoup au gène purA qui code l’adénylosuccinate
synthétase sera annoté comme l’adénylosuccinate synthétase de cet
organisme bien qu'il n'y ait pas eu de démonstration expérimentale
2. Annotation
2.6. Assigner la fonction de tous les gènes détectés
2.6.2. Problèmes d’assignation : risques d'erreurs des programmes automatiques
Niveau conceptuel : Méthodologie basée sur l'hypothèse (qui est
loin d'être toujours vraie) :
similitude de séquence similitude de fonction
2. Annotation
2.6. Assigner la fonction de tous les gènes détectés
2.6.3. Problèmes d’assignation : biais dans les bases de données
2. Annotation
2.7. La surprise des gènes orphelins
2.7.1. mise en évidence :
• chez tous les génomes séquencés, y compris ceux
d’organismes pour lesquels on croyait connaitre presque tout,
comme E. coli ou la levure, on a trouvé un stock très
important (de 40% à 70% du total) de gènes inconnus qui ne
ressemblent à rien de précédemment connu.
gènes orphelins
2. Annotation
2.7. La surprise des gènes orphelins
2.7.2. Example de la levure :
2. Annotation
2.7. La surprise des gènes orphelins
2.7.3. Vue globale
Fonction
douteuse
2. Annotation
2.8. Problèmes à résoudre
• Les gènes inconnus : on les trouve de manière constante dans tous les
génomes nouvellement séquencés. A l'heure actuelle, on a plus de 20.000 gènes
orphelins présents dans les génomes microbiens.
• Les problèmes d’assignation : beaucoup de gènes annotés par homologie
distante et/ou à des gènes eux-mêmes mal caractérisés notation floue
Solution
identifier leur fonction en utilisant des approches expérimentales
Étape la Génomique
obligatoire fonctionnelle
PLAN DU COURS
3. Génomique fonctionnelle
3.1. Deux approches complémentaires
3.1.1. inactivation systématique, un à un, de tous les gènes inconnus ou
potentiellement mal identifiés
analyse systématique du phénotype obtenu
Exemples : projets effectués pour S. cerevisiae et pour B. subtilis
par les consortiums qui ont participé précedemment au séquençage
Transcriptome Protéome
Février 2004 Bernard Labedan 43
Introduction à la Génomique
3. Génomique fonctionnelle
3.2. Inactivation systématique des gènes inconnus
Example de S. cerevisiae
• Méthodologie
1. 1994-1998 : Approches de génétique classique : inactivation de chaque gène
(répartition des tâches dans un consortium de labo = EuroFan)
2. 1997-2001 : Approches plus génomiques : construction d’outils (à base de
transposon) permettant d’inactiver un grand nombre de gènes puis d’analyser
globalement les milliers de souches mutantes obtenues dans plusieurs dizaines de
conditions physiologiques
3. 1999-2002 : Construction d’une collection de délétions couvrant 96% des ORFs
annotées
• Résultats
1. Ces différentes approches n’ont pas résolu le mystère d’un nombre significatif des
gènes orphelins : pas d’attribution fonctionnelle claire
2. Cependant, on a pu regrouper beaucoup d’entre eux avec des gènes connus qui
s’expriment dans les mêmes conditions (même profil d’expression)
3. La collection de délétions a montré qu’un nombre très important (> 80%) des 6200
gènes sont « non-essentiels » dans les conditions du laboratoire. Cependant, la
construction systématique de 4700 double-mutants montre un très haut niveau
d’interaction fonctionnelle entre la majorité de ces gènes « non-essentiels ».
Février 2004 Bernard Labedan 44
Introduction à la Génomique
3. Génomique fonctionnelle
3.3. Analyse du transcriptome
3.3.1. Utilisation des puces à ADN : principe
3. Génomique fonctionnelle
3.3. Analyse du transcriptome
3.3.2. example de la levure Global Response of Saccharomyces cerevisiae
to an Alkylating Agent
Scott A. Jelinsky and Leona D. Samson (PNAS, 1999, 96 :1486-1491)
We simultaneously examine how ~6,200
Saccharomyces cerevisiae gene transcript levels,
representing the entire genome, respond to
environmental change.
Using chips bearing oligonucleotide arrays,
we show that
• ~325 gene transcript levels are increased,
• ~76 are decreased, upon exposure to
alkylating agent.
Of the 21 genes that were already known to be induced by a DNA damaging
agent, 18 can be scored as inducible in this data set, and surprisingly,
most of the newly identified inducible genes are even more
strongly induced than these.
Février 2004 Bernard Labedan 46
Introduction à la Génomique
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.1. Les grandes étapes
Démarche classique
1. Électrophorèse 2D de l'ensemble des protéines
2. Identification des protéines connues par rapport à des
échantillons témoins les contenant
3. Identification des protéines inconnues par spectrométrie de
masse
Nouvelles approches
1. Mesurer les niveaux d'expression :
a. Quantifier les différents jeux de protéines par
spectrométrie de masse
b. Puces à protéines
2. Détecter les modifications post-traductionnelles.
High M range of the E. coli gel image with scales of 250-33 kDa and a pI between
Février 2004
r
3 and 10
Bernard Labedan 48
Introduction à la Génomique
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.3. Identification des protéines inconnues par spectrométrie de masse
• Principe :
• Les protéines inconnues séparées par électrophorèse 2D sont éluées une à une
(spot par spot), protéolysées par la trypsine
• Si le spot élué contient une seule protéine, la séquence de chaque peptide peut
être déterminée par spectrométrie de masse et comparée directement avec les
séquences génomiques Approche de type Maldi-TOF (Matrix-assisted laser
desorption ionization – time of flight)
• Sinon, on fait une protéolyse de l'ensemble des protéines (approche de type
shotgun) puis on sépare les différents peptides par chromatographie sur colonne,
avant de faire l'analyse en spectrométrie de masse avec de nombreuses
réitérations Approche de type MUDPIT (multidimensional protein identification
technology)
MUDPIT 2D + Maldi-TOF
une hypothèse raisonnable est que, dans la foule des protéines qui
encombrent en permanence le cyoplasme, les interactions ne peuvent se
faire par rencontre au hasard
il faut donc imaginer un mécanisme de transfert d'information
permettant des interactions préprogrammées entre protéines
PLAN DU COURS
Génomique fonctionnelle
Un nouveau champ
Protéomique
d’investigation avec de
Étude globale d’un organisme
nombreuses retombées
Génomique structurale
• Principe
On essaye de reconstituer à partir des assignations de fonctions les principales
voies métaboliques (glycolyse, cycle de Krebs, voies de biosynthèse et
dégradation, etc..).
Cette démarche est fondamentale pour mieux cerner la physiologie
d’organismes sur lesquels il n’y a eu aucune étude biochimique
Elle permet aussi de contrôler l’étape d’annotation
• Exemples :
absence d’une enzyme-clé dans une voie métabolique où
toutes les autres étapes en amont et en aval ont été détectées
5. Étude globale
d’un organisme
5.2. Reconstitution
virtuelle du métabolisme :
cas de Borrelia burgdorferi
• Apparent absence of genes for
the synthesis of amino acids, fatty
acids, enzyme cofactors, and
nucleotides.
• Genes encoding all of the
enzymes of the glycolytic pathway
were identified.
•Analysis of the metabolic pathway
suggests that B. burgdorferi uses
glucose as a primary energy
source, although other
carbohydrates, including glycerol,
may be used in glycolysis.
•Pyruvate produced by glycolysis
is converted to lactate, consistent
with the microaerophilic nature of
B. burgdorferi.
Février 2004 Bernard Labedan 65
Introduction à la Génomique
Transferts horizontaux
Présence de nombreux (>20) gènes ressemblant à des gènes de plantes
En fait, on a montré très récemment que ces gènes de plantes sont localisés dans le
chloroplaste, ce qui suggère une relation phylogénétique plus étroite que l’on ne pensait
entre les cyanobactéries et les chlamydiae.
La présence de ces gènes ne serait donc pas dû à quelque mécanisme de
transfert horizontal.
PLAN DU COURS
Génomique fonctionnelle
Un nouveau champ
Protéomique
d’investigation avec de
Étude globale d’un organisme
nombreuses retombées
Génomique structurale
Buts :
meilleure caractérisation de la fonction des ORFs inconnues
recherche d’homologues très distants
construction d’une base de données de tous les modes de repliement
détermination de nouvelles cibles d’intérêt thérapeutique (cibles
pour antibiotiques, anticancéreux), ou biotechnologique
Un effort international :
Devant l'ampleur de la tâche, il a été décidé en 2001 de coordonner les
efforts des différents consortiums qui s'étaient mis en place et de partager
l'ensemble des données obtenues pour gagner en efficacité
01/03 • 232 oui • 194 oui • 117 oui • 60 oui • 16 oui • 0 oui • 3 oui
• 7 en cours • 28 non • 65 non • 0 non • 2 non • 0 non • 0 non
• 6 en cours • 13 en cours • 99 en cours • 26 en cours • 2 en • 4 en
cours cours
• 259 oui • 215 oui • 131 oui • 83 oui • 23 oui • 0 oui • 13 oui
01/04 • 11 en cours • 27 non • 71 non • 0 non • 3 non • 0 non • 0 non
• 12 en cours • 14 en cours • 95 en cours • 40 en cours • 2 en • 2 en
cours cours
• Premières structures
• tous projets confondus, 117 structures ont été publiées après 18 mois
d'effort
• ce jeu de protéines contient statistiquement plus de nouveaux repliements
qu'un jeu équivalent de protéines résolues par des groupes indépendants
PLAN DU COURS
7. Génomique comparative
Dès que l’on a disposé de plusieurs génomes entièrement séquencés, on a eu envie de
les comparer : démarche classique en Recherche Fondamentale
Plasticité du synténie
génome
Organisation Ilôts de
des gènes pathogénicité
transferts
Dynamique des horizontaux
génomes
Évolution moléculaire Évolution
des protéines
Biochimie des
organismes Arbre du vivant
Dernier ancêtre
commun universel
Incidence :
informations sur les relations fonctionnelles, le métabolisme, la physiologie
d'organismes peu ou pas étudiés
mise en évidence de différents types de gènes : informationnel,
opérationnel
mise en évidence de phénomènes de transfert horizontal
Février 2004 75
Bernard Labedan
Introduction à la Génomique
7. Génomique comparative
Grands points abordés Résultats éclairant les mécanismes
évolutifs sous-tendants
1. Les différents types de gènes
a. au niveau homologie
La régulation homéostatique
b. au niveau fonctionnel
du nombre de gènes
divergence par
spéciation
A B1 B2 A B1 B2
A B1 B2 A B1 B2 A B1 B2 A B1 B2
• Perte de gènes
– Élimination des gènes "non nécessaires"
• Adaptation à un mode de vie dépendant
• Processus naturel de régulation de la taille du génome
génome
ancestral
gènes spécifiques
à M. leprae
• Rupture de la synténie
1. Apport extérieur
• incorporation d'ilôts génomiques par transfert horizontal
2. Mécanisme interne physiologique
• translocations réciproques au cours de la réplication
bidirectionnelle
pathogène
ilots génomiques échangés entérohémorrhagique
par transfert horizontal
K12 d’une souche à l’autre :
• certains identiques
4,6 Mb
• d’autres spécifiques
souche de laboratoire
non pathogène
CFT073
Structure génomique 5,2 Mb
de type mosaïque
pathogène
urinaire
Modèle de travail
7. Génomique comparative
7.4. Contexte génétique
7.4. 3. Méthode de la pierre de Rosette : Application à l’annotation de gènes inconnus dans
les génomes entièrement séquencés
Fig. 1. Correspondence between
functional associations and genes linked
by the fusion method. Independent
genes in one genome may be found as
M. genitalium one continuous gene in other genomes.
These fusion links can confirm known
functional relationships between genes:
M. genitalium genes phosphoglycerate
kinase (PGK), triosephosphate
isomerase (TPIA), and glyceraldehyde-3-
phosphate dehydrogenase (GAP), all
sequential agents in glycolysis, are
linked by fusion events elsewhere.
These links may be used to infer
putative functions when one of the
component genes is of an unknown
function.
Analyse systématique sur 30 génomes microbiens (travail effectué en 2001) :
• 72 % des fusions correspondent au même type de fonction (comme ci-dessus)
• 661 gènes inconnus ont pu être annotés en leur attribuant un rôle potentiel dans une
grande catégorie fonctionnelle
Février 2004 Bernard Labedan 96
Introduction à la Génomique
7. Génomique comparative
Grands points abordés Résultats éclairants les mécanismes
sous-tendants
1. Les différents types de gènes
a. au niveau homologie
La régulation homéostatique
b. au niveau fonctionnel
du nombre de gènes
Modèle de travail
– Tout gène non essentiel est contre-sélectionné et éliminé
rapidement, laissant la taille du génome inchangée
– Perte de gènes = processus constant et naturel de
régulation de la taille du génome
Février 2004 Bernard Labedan 98
Introduction à la Génomique
7. Génomique comparative
7.6. plasticité des génomes
Apport de gènes
par duplication Rigidité
7. Génomique comparative
7.8. Notion de génome minimal
7.8.1. Approches conceptuelle et expérimentale
• Concept
Rechercher le jeu de gènes minimal permettant une vie autonome
permettrait de se représenter le contenu génétique des premiers organismes
ancestraux
5,3 Mb
pathogène
entérohémorrhagique
CFT073
K12
Noyau commun de gènes 5,2 Mb
4,6 Mb
génome minimal putatif
souche de laboratoire pathogène
non pathogène urinaire
PROCARYOTES EUCARYOTES
Thermus Sulfolobus
Deinococcus Archaeglobus
Physarum
Euglena
Pyrodictium
Methanopyrus Vairimorpha
Microsporidies (Giardia)
Thermotoga
Titrichomonas
Aquifex
Dernier Ancêtre Commun Universel
Apports de la génomique
mise en évidence de nombreux transferts horizontaux
vérification de la topologie
A terme
nature et contenu du dernier ancêtre commun universel
8. L'approche Bioinformatique
8.1. Un outil indispensable
La bioinformatique est devenue un outil indispensable et intervient à
tous les stades de la génomique chaine de prédictions
8. L'approche Bioinformatique
8.2. Des services irremplaceables
9. Quelques perspectives
9.1. La Génomique, une Science à haut débit
• Projets déjà bien établis :
génomique stucturale : une douzaine de projets internationaux
puces à ADN : commencent à être utilisées de manière routinière
protéomique : de plus en plus généralisée
• Projets en émergence
interaction entre complexes protéiques interactome
annotation fonctionnelle sur les eucaryotes par mutagénèse par
transposon : exemple du chromosome X de la drosophile : 130 gènes
inconnus ont été inactivés par le transposon P. Prévision déduite : le
chromosome X contiendrait # 820 gènes essentiels
application inattendue des puces : une bactérie symbionte de la
mouche tsé-tsé, proche de E. coli, a pu être étudiée extensivement.
650 orthologues (85% du génome du symbionte) ont pu être
identifiés en utilisant des puces construites pour E. coli.
9. Quelques perspectives
9.2. Retombées appliquées
• Pharmacogénomique et Médecine :
recherche de nouvelles cibles thérapeutiques
antibiotiques de nouvelle génération
drogues anti-cancéreuses plus spécifiques …
9. Quelques perspectives
9.3. Une nouvelle littérature
• Eclosion de nombreux nouveaux journaux spécialisés
• La plupart des journaux existants ont ajouté une division
"Génomique" à leurs champs de compétences
• Beaucoup de Congrès et Symposiums ont aussi ajouté des sessions dites
de Génomique, même si cela est quelquefois très artificiel
9. Quelques perspectives
9.4. Une nouvelle manière holistique (globale) de faire de la Biologie
• Après de très nombreuses années de réductionnisme (un gène une
fonction), on est passé à des niveaux d'intégration de plus en plus élevés
• interaction de protéines pour créer des machines cellulaires
• interaction de ces machines cellulaires pour créer des réseaux intégrés
• interaction de ces réseaux intégrés pour créer des organites
Génome
Et puis Transcriptome Proteome Interactome Metabolome
Mais aussi …