Coursnewintro 2004

Introduction à la Génomique
PLAN DU COURS
* Définition : les différents génomes
* Séquençage Un immense pas en avant qui

* Annotation révolutionne la Biologie
* L’Après-Séquençage
Un nouveau Génomique fonctionnelle
champ Transcriptome
d’investigation Protéome
avec de Étude globale d’un organisme
nombreuses
retombées Génomique structurale
Une nouvelle vision

Génomique comparative
du Monde Vivant
Février 2004 Bernard Labedan 1
Définitions élémentaires
génomique = science des génomes séquencés
génome = ensemble des séquençage = détermination

gènes appartenant à de l’enchaînement des
résidus constituant une
un organisme molécule informative
CGATGCCAAGCATGATAGTTGTT
MPSMIVVQKPNTAVHY
 Protéine
 ARN
 Signal régulateur
gène = toute séquence codant une information  etc…
Définition expérimentale du génome d’un organisme
Procaryote Eucaryote
3 (génomes) = 1
(pro)phage
plaste
chromosome
Flux
plasmide bidirectionnel
mitochondrie
Escherichia coli
4,7 Mb noyau
4200 gènes
5 chromosomes
bactériophage T4
168,8 kB
environ 150 gènes Arabidopsis thaliana
125 Mb
25.500 gènes
Février 2004
Virus Bernard Labedan 3
1. Séquençage des génomes

• Maxam et Gilbert (1977)
1.1. Notions de base : Séquençage chimique d’un gène • Sanger et coll. (1977)
1.1.1. détermination de l’enchaînement

CGATGCCAAGCATGATAGTTGTT
des bases sur l’un des brins d’ADN
1.1.2. déduction de l’autre brin (+) CGATGCCAAGCATGATAGTTGTT

par complémentarité (-) GCTACGTTTCGTACTATCAACAA
1.1.3. recherche de la meilleure phase ouverte de lecture codée par ce gène
identification des codons cg ATG CCA AGC ATG ATA GTT GTT
application du code génétique Met Pro Ser Met Ile Val Val
M P S M I V V
1.1.4. déduction de la séquence en acides aminés de la protéine correspondante


1.2. Passage du séquençage d’un gène à celui d’un génome
Cette étape a été entamée dès que l’on maitrisé le séquençage :
Exemple des virus

Virus Année Taille (kb)
X174 1977 5,38

SV40 1978 5,24
hépatite B 1979 5,0
lambda 1982 48,5
Epstein Barr 1984 172
varicelle 1986 124
HSV-1 1988 152
cytomegalovirus 1990 229


1.3. Premiers efforts sur deux organismes "modèles"
"modèles" = dont la génétique et la biochimie sont bien connues
Escherichia coli Saccharomyces cerevisiae

4,7 Mb environ 4000 gènes 12 Mb environ 6000 gènes
(2,05 Mb déjà séquencés par de nombreux labos) 16 chromosomes + 85 kb de génome mitochondrial
Séquençage entrepris par un seul groupe Séquençage entrepris par un consortium

(Blattner à Madison, USA) essentiellement européen (35 puis 80 labos)
mais s’appuyant sur quelque 250 “volontaires”
Séquençage débute en 1989
Séquençage débute en 1991
91,4 kb en 1992 Chromosome III (315 kb) en 1992
environ 1 Mb
408,5 kb en 1993
(21 % du génome
225,4 kb en 1994 Chromosomes II, VIII et XI (2,04 Mb) en 1994
entier) en 5 ans
338,5 kb en 1995 Chromosomes I, VI, IX, X et XI (2,61 Mb) en 1995
séquence complète (12,155 Mb) en 1996
séquence complète (4639,2 kb) en 1997


1.4. Méthode classique
1.4.1. carte physique découpage en grands segments
C
A
G B 12
F C 12
E
D
chaque segment découpé en fragments de taille
ménagée afin d’avoir un grand recouvrement
1.4.2. assemblage progressif des régions contigues

1.4.3. reconstitution des fragments, puis des segments
1.4.4. finition (bouchage des trous) par marche sur le chromosome
CETTE MÉTHODE DEMANDE PLUSIEURS ANNÉES


1.5. Méthode nouvelle (shotgun)
1.5.1. cassage physique aléatoire
1.5.2. séquençage de
tous les fragments
1.5.3. assemblage progressif
de l’ensemble des fragments
en utilisant des logiciels
informatiques ad hoc
1.5.4. finition (bouchage des trous) par marche sur le chromosome
Méthode créée par le groupe de Craig Venter (TIGR puis CELERA)
CETTE MÉTHODE DEMANDE ENVIRON 2

MOIS POUR UN PETIT GÉNOME (2 Mb)

1.5. Méthode nouvelle (shotgun)
1.5.5. Un succès foudroyant !!
Cette méthode révolutionnaire mise au point au TIGR marche

remarquablement bien !
publication pour la
première fois de la
séquence complète du
Naissance de la Génomique,
génome d'un être vivant, le 28 juillet 1995
celui de Haemophilus
influenzae
Méthode de shotgun immédiatement appliquée
avalanche de génomes


avalanche de génomes
Une croissance exponentielle en nombre de génomes

finis ou en cours de séquençage

Une croissance exponentielle en nombre
1.6. Situation au 2/2/04 de génomes qui va en s'accélérant
• Génomes terminés et publiés 169

• 131 Bactéries
• 17 Archaea
• 21 Eucaryotes
• Génomes en cours de séquençage 958

• 404 Bactéries
• 22 Archaea
• 360 Eucaryotes
• Génomes attendus dans le (proche) futur 1127

• 535 Bactéries
• 39 Archaea
• 381 Eucaryotes

1.6. nouvelles tendances
1.6.1. cas des procaryotes
1. la variété dans la répétition :

• souches différentes appartenant à la même espèce
4 souches différentes d’E. coli
• espèces différentes appartenant au même genre Mise en évidence d'une

variabilité insoupçonnée
 3 Pyrococcus
 5 Chlamydia
 8 Streptococcus
 etc …



• espèces différentes appartenant au même genre
2. une plus grande diversité biologique et phylogénétique
A. moins de pathogènes
• La proportion relative est passée en 2003 de 90% à 50%
• Cependant, beaucoup de compagnies privées continuent à en
séquencer beaucoup mais sans les publier. Par example, on
estime que 14 souches différentes de Bacillus anthracis auraient
été séquencées en 2002 aux Etats-Unis


B. représentants d’embranchements peu ou pas étudiés
Example : Chlorobium tepidum,

bactérie modèle du phylum Chlorobia Intérêts : mieux comprendre
C’est un thermophile qui fixe l’azote

atmosphérique et qui réduit des les grands cycles comment est
composés soufrés comme source énergétiques à apparue la
d’énergie pour faire de la photosynthèse l’échelle planétaire photosynthèse
en conditions anaérobies
C. plus de bactéries « utiles » :
• Shewanella oneidensis, Geobacter metallidurens métabolise
dépollution l’uranium et de nombreux autres métaux lourds
• Geobacter produit de plus de l'électricité
commensaux Bifidobacterium longum bactérie intestinale hydrolysant des

polymères végétaux
intérêt agricole Pseudomonas putida croît dans la rhizosphère et dépollue les sols
intérêt industriel Nombreux organismes thermophiles source d’enzymes faciles

à purifier et très efficaces

C. plus de bactéries « utiles » :
3. des génomes de plus en plus gros (qui sont faits de plus en plus vite) :
Streptomyces coelicolor Bradyrhizobium japonicum

(8,7 Mb, 7567 protéines) (9,1 Mb, 8317 protéines)
contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes

simples comme les levures (12 Mb mais moins de 6000 protéines)

1.6.2. cas des eucaryotes
1. objectifs primaires :
• Grands organismes modèles et les organismes proches pouvant aider à
l’annotation de leurs génomes
• Pathogènes, intérêt médical ou agronomique
Saccharomyces cerevisiae Magnaporthe grisea
Schizosaccharomyces pombe Candida albicans
Arabidopsis thaliana Oryza sativa
Caenorhabditis elegans
Plasmodium falciparum
Drosophila melanogaster Anopheles gambiae Plasmodium yoelii yoelii
malaria
Fugu rubripes
Tetrahodon
Homo sapiens
souris, rat Encephalitozoon cuniculi
Microsporidie, pathogène
chimpanzé des voies respiratoires
Ciona intestinalis  ascidies (chordés invertébrés marins)

 copie de brouillon
1.6.2. cas des eucaryotes
1. objectifs primaires :
• Grands organismes modèles et les organismes proches pouvant aider
à l’annotation de leurs génomes
• Pathogènes
2. Une ambition incroyable :
• microsporidies, nématodes, nombreux protozoaires, algues, Chlamydomonas
• nombreux champignons (40)
• plusieurs insectes (abeille, bombyx, ), mollusques, oursin
• plusieurs poissons, Xenope, poulet, dinde, bœuf, porc, chien, chat, cheval,
mouton, kangourou, etc…
• Chou, café, blé, maïs, sorgho, coton, tomate, pomme de terre, haricot, canne
à sucre, etc…
• pins (3), eucalyptus, chêne
Février 2004
Une accélération technologique impressionnante Bernard Labedan 18

1.7. Les progrès technologiques
Pas de révolution dans les techniques de séquençage
Mais, progrès impressionnant dans le temps nécessaire pour réaliser un projet :
• au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie,
il ne faut plus que 2-3 jours
• le séquençage du génome de la souris a été réalisé en un temps incroyablement
court, et le chimpanzé vient d'être fini en moins d'un an
Progrès énormes dans les temps de calcul
En 1995, pour H. influenzae, l’assemblage des contigs avait demandé 11 jours
de temps de calcul
Aujourd’hui, le même type de travail demande quelques minutes
La génomique va plus vite que l’informatique

En 1965, Moore avait prédit que la puissance des ordinateurs doublerait tous
les deux ans. Jusqu’ici cette « loi » a été parfaitement respectée
Depuis 2 ans, la croissance de l’information contenue dans les séquences
génomiques a pris une vitesse de doublement bien supérieure et semble même
encore s’accélerer

1.8. Le problème de la qualité : deux écoles
Une séquence doit être complète et de Approche de type
très haute qualité recherche fondamentale
• C'est la stratégie initialement adoptée pour les microorganismes, y compris la
levure.
• Cependant, dans le cas de régions difficile à séquencer, cette exigence est très
coûteuse en temps. Si quelques jours sont suffisants pour avoir un recouvrement
de haute qualité de 90-95% d'un génome de procaryote, plusieurs semaines, voire
plusieurs mois, seront nécessaires pour obtenir les 5-10% restants.
Une séquence peut rester incomplète si Approche de type

une large majorité des gènes a été trouvée recherche appliquée
• C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels
qui recherchent avant tout de nouvelles molécules. Ces données génomiques ne
seront généralement pas publiées.
• C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas
de l'hétérochromatine ou des régions trop répétées et apparemment vides de
gènes.  copies dites "de brouillon" (draft genome).

PLAN DU COURS

Génomique fonctionnelle
Un nouveau champ
Protéomique
d’investigation avec de
Étude globale d’un organisme
nombreuses retombées
Génomique structurale
Une nouvelle vision

du Monde Vivant

2. Annotation
Une fois la séquence d’un génome obtenue, il s’agit de la faire parler
• Première étape
identifier tous les gènes codant pour CGATGCCAAGCATGATAGTTGTT
des ARN (ribosomique, de transfert)
des protéines MPSMIVVAKIWTQAL
• Deuxième étape
identifier la nature et la alanine déshydrogénase
fonction des produits de
tous les gènes détectés lors
de la première étape

2. Annotation
2.1. Identifier un gène dans un génome
Séquence Suite de bases (lettres) On connait (partiellement) la
Il faut retrouver les mots gènes syntaxe et la grammaire
Exemple des procaryotes : un gène code une protéine
promoteur
ATG................................TAA
site de terminaison de
site de fixation
du ribosome
cadre ouvert de lecture (CDS) la transcription
(open reading frame ou ORF)
traduction en protéine
MTAGLVSPT.......................

2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.1. Mise au point de programmes automatiques :
• Approche conceptuelle basée sur des études linguistiques des séquences d’ADN :
• On connait (partiellement) la syntaxe et la grammaire
utilisation de modèles de Markov cachés qui, après apprentissage sur un
organisme donné, vont différencier les régions géniques des régions intergéniques
 programmes adaptés aux procaryotes et marchant GeneMark,

bien chez les eucaryotes ayant très peu d’introns (levure) GLIMMER
 programmes adaptés aux GeneMark.hmm, HMMgene,

eucaryotes ayant beaucoup d’introns Eugene, GENIE, etc...
utilisés en conjonction avec des algorithmes neuronaux déterminant
le départ de transcription (qui n’est pas toujours un ATG) Netstart
les sites d’épissage Netgene2, SpliceNet, etc...
2. Annotation

2.2.2. Efficacité de ces programmes automatiques :
 excellente chez les procaryotes (rendement de 98-99%)
 détestable chez les eucaryotes complexes
• Une étude préliminaire sur quelques centaines de gènes montrait que 75%
des gènes annotés chez A. thaliana avaient été mal identifiés : on avait
 soit des gènes qui ont été interprétés comme deux gènes voisins
 soit l’inverse
• Une étude plus récente (janvier 2003) et exhaustive de réannotation
manuelle du génome de la drosophile confirme l’ampleur du problème

2. Annotation
2.2.2. Efficacité de ces programmes automatiques :
 détestable chez les eucaryotes complexes
Une étude très récente de réannotation manuelle du génome de la drosophile
confirme l’ampleur du problème :
• le nombre global de gènes reste pratiquement inchangé : 13.601  13.676
mais 727 (trouvés par l'ancien programme GENIE) étaient erronés et ont
disparu et 802 nouveaux ont été trouvés par un nouveau programme,
GENSCAN, et ajoutés
• la structure de 85% des gènes (45% des protéines) a été modifiée
• 1531 gènes initialement indépendants ont été fusionnés en seulement
602 nouveaux gènes
• 322 gènes ont été morcelés en 675 nouveaux gènes
• 93 gènes ont été réinterprétés complètement avec des mélanges de
fusion et morcellement
Règles régissant la structure et l’organisation des gènes

eucaryotes beaucoup plus complexes que ce que l’on imaginait
2. Annotation
2.2.3. Apports de la réannotation manuelle :
Cette étude de réannotation manuelle du génome de la drosophile montre
aussi les points suivants :
• nombre moyen d’exons par gènes : 4.6, comme chez C. elegans (4,5),
Arabidopsis (4,6) mais loin de l’homme (8,9)
• expression alternative des gènes : quatre fois plus importante (861  4.743)
que la déduction faite lors de la première annotation
• immense majorité = épissage alternatif
• 13% = promoteurs alternatifs
• 6% = sites de polyadénylation alternatifs
• nombre inattendu (1038) de gènes « emboités » dont 55% transcrits en sens

opposés

2. Annotation
2.3. Les surprises du dénombrement des gènes
• Janvier 2001 : publication du génome humain (copie de brouillon)
on tablait sur au moins 100.000 gènes
On a trouvé "seulement" 27.462 gènes
Prise de conscience de plusieurs problèmes fondamentaux

2. Annotation
2.4. Prises de conscience
1. ce résultat inattendu a sans doute été trop médiatisé
• On pensait qu'il y avait 100.000 gènes parce que l'on estimait qu'il y
avait environ 100.000 protéines humaines
• De très récentes études confirment cette estimation
2. on ne sait pas estimer combien de protéines un gène peut coder :
• différents modes d'épissage
 chez C. elegans 4 gènes codent 4 myosines différentes
 chez la drosophile 1 seul gène code les 7 myosines connues
• promoteurs alternatifs
3. on ne sait pas identifier l’état d’expression d’un gène
• information essentielle chez les organismes complexes où l’évolution se
fait par la modulation de l’expression plus que par l'augmentation du
nombre de gènes
• les jeux de protéines synthétisées vont être très différents d'un tissu à
l'autre
Il est donc clair que le nombre total de gènes identifiés ne
reflète pas le niveau de complexité des organismes étudiés
2. Annotation
Une fois la séquence d’un génome obtenue, il s’agit de la faire parler
• Première étape
identifier tous les gènes CGATGCCAAGCATGATAGTTGTT
• Deuxième étape MPSMIVVAKIWTQAL
identifier la fonction des

produits de tous les gènes
alanine déshydrogénase
détectés lors de la
première étape

2. Annotation
2.5. Identifier la fonction de tous les gènes détectés
2.5.1. Méthodologie : Identification par homologie :
• Définition Deux protéines sont dites homologues

si elles dérivent d'un ancêtre commun
• Conséquences  l’homologie est toujours une hypothèse

 l’homologie est une propriété de tout ou rien
la recherche d'homologie se fait de manière

• Approche opérationnelle indirecte par la mesure du pourcentage
d’identité entre deux séquences
Recherche automatique de l’homologie

2. Annotation
2.5.2. Recherche automatique de l’homologie :
principe : comparaison de la séquence en acides aminés de chaque

cadre ouvert de lecture avec les séquences d’une banque de protéines
outils informatiques : Blast, Fasta, etc...  recherche heuristique
(donc très rapide) de protéines homologues basée sur un
alignement local de la séquence requête avec toutes les séquences
cibles
détermination automatique de l’homologie : basée sur le nombre de
résidus identiques entre la séquence requête et la séquence cible
le seuil minimum d’identité doit être placé suffisamment haut

pour que l’homologie apparaisse incontestable

2. Annotation
2.5.3. Identification par homologie :
le seuil minimum d’identité doit être placé suffisamment haut pour que
l’homologie apparaisse incontestable
•Valeurs habituellement admises
• > 27% d’identité Homologie évidente
• entre 20 et 27% d’identité Homologie douteuse
• < 20% d’identité Pas d’homologie

Example de recherche d’homologie par Blast
Homologie :
• évidente
• complète
• la protéine inconnue du
génome bactérien que nous
venons de séquencer
ressemble beaucoup au gène
purA qui code l’adénylo-
succinate synthétase
IMP AMP
Voie de
biosynthèse
des purines
2. Annotation
2.6. Assigner la fonction de tous les gènes détectés
2.6.1. Déduction fonctionnelle :
Principe
toute protéine virtuelle (cadre ouvert de lecture) inconnue ayant un
pourcentage d’identité suffisamment élevé avec au moins une protéine
connue dont la fonction est identifiée se verra attribuer cette fonction
Exemple
le cadre ouvert de lecture (ORF) de mon génome fraichement séquencé
ressemblant beaucoup au gène purA qui code l’adénylosuccinate
synthétase sera annoté comme l’adénylosuccinate synthétase de cet
organisme bien qu'il n'y ait pas eu de démonstration expérimentale

2. Annotation
2.6.2. Problèmes d’assignation : risques d'erreurs des programmes automatiques
Niveau conceptuel : Méthodologie basée sur l'hypothèse (qui est
loin d'être toujours vraie) :
similitude de séquence similitude de fonction
Niveau technique : homologie partielle non détectée

séquence requête X
Protéine à deux
séquence cible A B domaines fonctionnels
fonction inconnue fonction connue
On donnera à X la fonction du domaine

B alors qu'elle est uniquement homologue erreur dramatique
au domaine A
2. Annotation
2.6.3. Problèmes d’assignation : biais dans les bases de données
Premier biais : avant le séquençage systématique, les données

correspondaient à un choix limité d’organismes.
Deuxième biais : l’entrée massive de protéines virtuelles
(annotées uniquement par homologie) dans les banques de
séquences a entrainé un autre biais encore plus rhédibitoire à
chaque fois qu’elles correspondent aux meilleurs scores
les erreurs d’assignation

Troisième biais, le plus grave :
ont un effet boule de neige

2. Annotation
2.7. La surprise des gènes orphelins
2.7.1. mise en évidence :
• chez tous les génomes séquencés, y compris ceux
d’organismes pour lesquels on croyait connaitre presque tout,
comme E. coli ou la levure, on a trouvé un stock très
important (de 40% à 70% du total) de gènes inconnus qui ne
ressemblent à rien de précédemment connu.
 gènes orphelins
On a immédiatement pris conscience que des pans entiers de

la biologie des organismes avaient échappé jusqu’ici aux
approches classiques de la génétique et de la biochimie

2. Annotation
2.7.2. Example de la levure :
Protéines ayant un homologue connu 3451 54,3 %

Protéines ayant une faible similarité avec
une protéine connue 866 13,6 %
Protéines ayant une similarité avec une 790 12,4 %

protéine inconnue
Protéines sans similarité (orphelins) 803 12,6 %
Cadres ouverts de lecture douteux 447 7,0 %

A questionable ORF is defined by a combination of the following attributes: low CAI value, partial overlap to a longer or known ORF, no
similarity to other ORFs.

2. Annotation
2.7.3. Vue globale
Pour la majorité des génomes,

on a une répartition 50/50 Fonction
entre le connu et l'inconnu déterminée
Gènes
orphelins expérimen-
(orfans) talement
Gènes à
fonction
inconnue et
spécifiques de Fonction assignée
l'organisme par homologie
sans ambiguité
Fonction
douteuse

2. Annotation
2.8. Problèmes à résoudre
• Les gènes inconnus : on les trouve de manière constante dans tous les
génomes nouvellement séquencés. A l'heure actuelle, on a plus de 20.000 gènes
orphelins présents dans les génomes microbiens.
• Les problèmes d’assignation : beaucoup de gènes annotés par homologie
distante et/ou à des gènes eux-mêmes mal caractérisés  notation floue
Solution
identifier leur fonction en utilisant des approches expérimentales
Étape la Génomique
obligatoire fonctionnelle

PLAN DU COURS


champ Transcriptome
nombreuses
Une nouvelle vision

du Monde Vivant
3. Génomique fonctionnelle
3.1. Deux approches complémentaires
3.1.1. inactivation systématique, un à un, de tous les gènes inconnus ou
potentiellement mal identifiés
analyse systématique du phénotype obtenu
Exemples : projets effectués pour S. cerevisiae et pour B. subtilis
par les consortiums qui ont participé précedemment au séquençage
3.1.2. analyse globale de l’expression d’ensembles de gènes
analyse en une étape des variations analyse en électrophorèse 2D et

d’expression de nombreux gènes par spectrométrie de masse des
la technique des puces à ADN protéines correspondantes
Transcriptome Protéome
3.2. Inactivation systématique des gènes inconnus
Example de S. cerevisiae
• Méthodologie
1. 1994-1998 : Approches de génétique classique : inactivation de chaque gène
(répartition des tâches dans un consortium de labo = EuroFan)
2. 1997-2001 : Approches plus génomiques : construction d’outils (à base de
transposon) permettant d’inactiver un grand nombre de gènes puis d’analyser
globalement les milliers de souches mutantes obtenues dans plusieurs dizaines de
conditions physiologiques
3. 1999-2002 : Construction d’une collection de délétions couvrant 96% des ORFs
annotées
• Résultats
1. Ces différentes approches n’ont pas résolu le mystère d’un nombre significatif des
gènes orphelins : pas d’attribution fonctionnelle claire
2. Cependant, on a pu regrouper beaucoup d’entre eux avec des gènes connus qui
s’expriment dans les mêmes conditions (même profil d’expression)
3. La collection de délétions a montré qu’un nombre très important (> 80%) des 6200
gènes sont « non-essentiels » dans les conditions du laboratoire. Cependant, la
construction systématique de 4700 double-mutants montre un très haut niveau
d’interaction fonctionnelle entre la majorité de ces gènes « non-essentiels ».
3.3. Analyse du transcriptome
3.3.1. Utilisation des puces à ADN : principe
sporulating vegetative yeast cells
Figure 1: Gene expression

analysis using a DNA
microarray.
For example, the greater

the cDNA sequences representing each abundance of the TEP1
individual transcript hybridize specifically mRNA in the sporulating
with the corresponding gene sequence in cells results in a high
the array ratio of red–labelled to
green–labelled copies of
the corresponding cDNA,
Thus, the relative abundance in

sporulating as compared with vegetative
yeast cells of the transcripts from each
gene is reflected by the ratio of 'red' to
'green' fluorescence measured at the
array element representing that gene.

3.3. Analyse du transcriptome
3.3.2. example de la levure Global Response of Saccharomyces cerevisiae
to an Alkylating Agent
Scott A. Jelinsky and Leona D. Samson (PNAS, 1999, 96 :1486-1491)
We simultaneously examine how ~6,200
Saccharomyces cerevisiae gene transcript levels,
representing the entire genome, respond to
environmental change.
Using chips bearing oligonucleotide arrays,
we show that
• ~325 gene transcript levels are increased,
• ~76 are decreased, upon exposure to
alkylating agent.
Of the 21 genes that were already known to be induced by a DNA damaging
agent, 18 can be scored as inducible in this data set, and surprisingly,
most of the newly identified inducible genes are even more
strongly induced than these.
3.4. Analyse du protéome
3.4.1. Les grandes étapes
 Démarche classique
1. Électrophorèse 2D de l'ensemble des protéines
2. Identification des protéines connues par rapport à des
échantillons témoins les contenant
3. Identification des protéines inconnues par spectrométrie de
masse
 Nouvelles approches
1. Mesurer les niveaux d'expression :
a. Quantifier les différents jeux de protéines par
spectrométrie de masse
b. Puces à protéines
2. Détecter les modifications post-traductionnelles.
Une nouvelle vision de l'Univers des Protéines

3.4.2. Électrophorèse 2D des protéines de grande taille de E. coli
High M range of the E. coli gel image with scales of 250-33 kDa and a pI between
Février 2004
r
3 and 10
Bernard Labedan 48
3.4.3. Identification des protéines inconnues par spectrométrie de masse
• Principe :
• Les protéines inconnues séparées par électrophorèse 2D sont éluées une à une
(spot par spot), protéolysées par la trypsine
• Si le spot élué contient une seule protéine, la séquence de chaque peptide peut
être déterminée par spectrométrie de masse et comparée directement avec les
séquences génomiques  Approche de type Maldi-TOF (Matrix-assisted laser
desorption ionization – time of flight)
• Sinon, on fait une protéolyse de l'ensemble des protéines (approche de type
shotgun) puis on sépare les différents peptides par chromatographie sur colonne,
avant de faire l'analyse en spectrométrie de masse avec de nombreuses
réitérations  Approche de type MUDPIT (multidimensional protein identification
technology)

Schéma comparatif (example de la levure)
MUDPIT 2D + Maldi-TOF
500.000 peptides tryptiques 20.000 protéines
5.500 peptides analysés 800 protéines séparées sur gel 2D
1.500 protéines identifiés 200 protéines identifiées

3. Génomique fonctionnelle Fig. 1. Multidimensional Protein
Identification Technology (MudPIT). The
3.4. Analyse du protéome complex mixture of proteins present in a
whole cell lysate is fragmented with
Approche de type MUDPIT immobilized trypsin, after dilution to 2 M
urea, generating a highly complex
mixture.
The peptides are collected on a strong
cation exchange (SCX) column that is
positioned immediately upstream of a
reverse-phase (RP) column. Successive
peptide fractions are released, depending
on their isoelectric point, with salt steps
of increasing concentration at low
organic solvent concentrations and
captured by the second-dimension
reverse-phase column.
The reverse-phase column is eluted with
a gentle gradient of increasing organic
solvent concentration between each salt
step to displace the peptides, depending
on their hydrophobicity, into the mass
spectrometer.
The ion-trap mass spectrometer (LCQ-
DECA, ThermoFinnigan, San Jose, CA)
employs data-dependent acquisition
software to limit the time spent
sequencing any particular peptide, so
that as many different peptides as
possible are sequenced, regardless of
their abundance.

• Evolution technologique importante sur les 5 dernières années
• appareils de plus en plus sensibles, moins chers, plus faciles à utiliser
pour les non-spécialistes
  croissance exponentielle de leur utilisation
• Dans le proche futur, on pourrait ne plus avoir besoin de l'étape
électrophorèse 2D
Vers une analyse quantitative

de tout un protéome

4. Analyse du protéome
4.1. Analyse quantitative par spectrométrie de masse
 Résolution de problèmes
inhérents au protéome (qui est plus complexe que le génome)
qui ne peuvent être résolus par les puces à ADN
 pas de bonne corrélation entre quantités d'ARNm et
quantités de protéines
 modifications post-traductionnelles
 Mesure de l'expression des gènes par quantification des protéines.
 Deux approches :
• puces à protéines
• spectrométrie de masse quantitative de protéomes entiers
extraits à différents stades d'expression et traités à la trypsine
permet d'identifier de très nombreuses protéines sans aucune
purification. Example pour la levure : plus de 800 protéines

4.2. Etude des complexes protéiques
Utilisation de différentes approches technologiques nouvelles pour

• comprendre les interactions entre protéines  interactome
• mettre en évidence des complexes protéiques qui pourraient assurer
un rôle physiologique bien précis  machines cellulaires

4.2.1. Mise en évidence et charactérisation de
complexes protéiques formant des « machines
cellulaires » assurant une (supra)fonction
physiologique.
Protocole expérimental
Figure 1: Analysing protein interactions. In the 'co-
precipitation/mass spectrometry' approach used by
Gavin et al.1 and Ho et al.2, an 'affinity tag' is first
attached to a target protein (the 'bait'; a). b, Bait
proteins are systematically precipitated, along with
any associated proteins, on an 'affinity column'. c,
Purified protein complexes are resolved by one-
dimensional SDS–PAGE. d, Proteins are excised
from the gel, digested with the enzyme trypsin, and
analysed by mass spectrometry. Database-search
algorithms (bioinformatics) are then used to identify
specific proteins from their mass spectra.
Nature 415, 141 - 147 (2002) 55
Février 2004 Bernard Labedan
Functional organization of the yeast proteome by systematic analysis of protein complexes
Méthode "TAP-TAG" Tandem-affinity purification (TAP) and mass

spectrometry were used in a large-scale approach to
characterize multiprotein complexes in S. cerevisiae.
1,739 genes, including 1,143 human orthologues of
relevance to human biology, were purified as 589
protein assemblies. Bioinformatic analysis of these
assemblies defined 232 distinct multiprotein
complexes and proposed new cellular roles for 344
proteins, including 231 proteins with no previous
functional annotation. Comparison of yeast and
human complexes showed that conservation across
species extends from single proteins to their
molecular environment. Our analysis provides an
outline of the eukaryotic proteome as a network of
protein complexes at a level of organization beyond
binary interactions. This higher-order map contains
fundamental biological information and offers the
context for a more reasoned and informed approach
to drug discovery.
Figure 3 Primary validation of complex composition by 'reverse'
purification: the polyadenylation machinery. a , A similar band
pattern is observed when different components of the polyadenylation
machinery complex are used as entry points for affinity purification.
Underlined are new components of the polyadenylation machinery
complex for which a physical association has not yet been described.
The bands of the tagged proteins are indicated by arrowheads. b,
Proposed model of the polyadenylation machinery.
Nature 415,
Février 2004141 - 147 (2002) Bernard Labedan 56
4.2. Etude des complexes protéiques 4.2.2. Relations entre les complexes
protéiques : un réseau de fonctions
et de régulations.
Figure 4 The protein complex
network, and grouping of connected
complexes. Links were established
between complexes sharing at least
one protein. For clarity, proteins found
in more than nine complexes were
omitted. In the upper panel, cellular
roles of the individual complexes are
colour coded: red, cell cycle; dark
green, signalling; dark blue,
transcription, DNA maintenance,
chromatin structure; pink, protein and
RNA transport; orange, RNA
metabolism; light green, protein
synthesis and turnover; brown, cell
polarity and structure; violet,
intermediate and energy metabolism;
light blue, membrane biogenesis and
traffic. The lower panel is an example
of a complex (yeast TAP-C212) linked
to two other complexes (yeast TAP-
C77 and TAP-C110) by shared
components. It illustrates the
connection between the protein and
complex levels of organization. 57
Février 2004 Bernard Labedan
4.2.3. Perspectives sur l'étude des interactomes
 une hypothèse raisonnable est que, dans la foule des protéines qui
encombrent en permanence le cyoplasme, les interactions ne peuvent se
faire par rencontre au hasard
 il faut donc imaginer un mécanisme de transfert d'information
permettant des interactions préprogrammées entre protéines
 notionnouvelle de code protéomique, inscrit dans

le génome, qu'il va falloir découvrir

PLAN DU COURS

Un nouveau champ
Protéomique
Une nouvelle vision

du Monde Vivant

5. Étude globale d’un organisme
De nombreuses informations cruciales peuvent être obtenues à
partir des données de la génomique
Quelques exemples parmi beaucoup d’autres :
mise en évidence des opérons et autres régulons
mise en évidence des sites d’initiation et de terminaison

de la réplication
reconstruction putative de l’ensemble du métabolisme
reconstitution progressive de la physiologie et du mode de

vie de l’organisme

5.1. Mise en évidence des sites d’initiation et de terminaison de la réplication chez
les procaryotes
5.1.1. Principe du biais de GC (GC skew)
• Principe basé sur les travaux de Jean Lobry (1996)
 Il y a un biais dans la composition en GC des brins

 en théorie [C] =[G]
 en pratique, un brin plus riche en C ou G
 calcul du biais par la formule G-C

G+C
 Cette déviation change de signe au passage de
l’origine et de la terminaison de la réplication
L’analyse de la distribution en GC va donc permettre une

localisation virtuelle de l’origine de réplication du
chromosome chez des organismes jamais étudiés
5.1. Mise en évidence des sites d’initiation et de terminaison de la réplication
5.1.2. cas de E. coli
Figure 2. Base composition

is not randomly distributed in
the E. coli genome.
G-C skew [(G - C)/(G + C)] is plotted

as a 10-kb window average for one
strand of the entire E. coli genome.
Skew plots for the three codon
positions are presented separately;
leftward genes, rightward genes, and
non-protein-coding regions are
shown in lines 5, 6, and 7. Two
vertical lines through the plots show
the location of the origin and terminus
of replication.

5.1. Mise en évidence des sites d’initiation et
de terminaison de la réplication
5.1.3. Déductions basées sur le biais
de GC et extensions de l’approche
Identification of putative chromosomal

origins of replication in Archaea
Philippe Lopez, Hervé Philippe, Hannu Myllykallio & Patrick Forterre
Ces prédictions ont ensuite été

vérifiées expérimentalement
dans le cas de Pyrococcus

5.2. Reconstitution virtuelle du métabolisme d’organismes peu ou pas étudiés
• Principe
 On essaye de reconstituer à partir des assignations de fonctions les principales
voies métaboliques (glycolyse, cycle de Krebs, voies de biosynthèse et
dégradation, etc..).
 Cette démarche est fondamentale pour mieux cerner la physiologie
d’organismes sur lesquels il n’y a eu aucune étude biochimique
 Elle permet aussi de contrôler l’étape d’annotation
• Exemples :
 absence d’une enzyme-clé dans une voie métabolique où
toutes les autres étapes en amont et en aval ont été détectées
 absence d’un constituant d’une machinerie cellulaire

comme le moteur du flagelle

5. Étude globale
d’un organisme
5.2. Reconstitution
virtuelle du métabolisme :
cas de Borrelia burgdorferi
• Apparent absence of genes for
the synthesis of amino acids, fatty
acids, enzyme cofactors, and
nucleotides.
• Genes encoding all of the
enzymes of the glycolytic pathway
were identified.
•Analysis of the metabolic pathway
suggests that B. burgdorferi uses
glucose as a primary energy
source, although other
carbohydrates, including glycerol,
may be used in glycolysis.
•Pyruvate produced by glycolysis
is converted to lactate, consistent
with the microaerophilic nature of
B. burgdorferi.

5.3. Autres apports sur le mode de vie de l’organisme
5.3.1. Exemple du pathogène Chlamydia trachomatis
Remise en cause de résultats expérimentaux que l’on croyait bien établis
Chlamydia est capable de synthétiser son propre ATP
Chlamydia est capable de synthétiser son peptidoglycane
Des protéines “essentielles” sont absentes
Cas de la S-adénosylméthionine transférase, de FtsZ...
Transferts horizontaux
Présence de nombreux (>20) gènes ressemblant à des gènes de plantes
En fait, on a montré très récemment que ces gènes de plantes sont localisés dans le
chloroplaste, ce qui suggère une relation phylogénétique plus étroite que l’on ne pensait
entre les cyanobactéries et les chlamydiae.
La présence de ces gènes ne serait donc pas dû à quelque mécanisme de
transfert horizontal.

5.3. Autres apports sur le mode de vie de l’organisme
5.3.2. Exemple du symbionte Buchnera sp. : évolution vers un organite
• Buchnera, un symbionte des cellules de certains hyménoptères, est très proche de Escherichia
coli mais n’a conservé que 21% des gènes présents dans l’ancêtre commun
• Élimination drastique de tous les gènes faisant double emploi avec l’hôte, mais maintien de
ceux qui sont indispensables au métabolisme de la cellule-hôte Shinegobu et al, 2000 Nature 407:81
Buchnera is missing most of the genes that code for

protective cell walls, as well as those needed to repair
damaged DNA. This indicates that aphid cells shelter
the bacteria from the rough and tumble of the outside
world.
Buchnera doesn't have 'regulatory' genes any more.
Presumably it doesn't need them, because the
environment inside the aphids is constant.
Buchnera also lack many of the common genes needed
to respire. They use energy produced in the aphid cells
instead.
But the flow of resources is not just one way. Aphids
need 10 essential 'amino acids' which they get from
Buchnera.
The Buchnera genome presents a fascinating

picture of an organism that sits half-way between
a true organelle and a free-living symbiont

PLAN DU COURS

Un nouveau champ
Protéomique
Une nouvelle vision

du Monde Vivant

6. Génomique structurale
6.1. Une approche très ambitieuse : science à haut débit
 Objectif : cristallisation progressive de toutes les protéines codées par un
génome afin de déterminer leur structure 3D par résonance magnétique
nucléaire (RMN) ou par rayons X
 Buts :
 meilleure caractérisation de la fonction des ORFs inconnues
 recherche d’homologues très distants
 construction d’une base de données de tous les modes de repliement
 détermination de nouvelles cibles d’intérêt thérapeutique (cibles
pour antibiotiques, anticancéreux), ou biotechnologique
 Un effort international :
 Devant l'ampleur de la tâche, il a été décidé en 2001 de coordonner les
efforts des différents consortiums qui s'étaient mis en place et de partager
l'ensemble des données obtenues pour gagner en efficacité

6.2. L'approche locale : cas de la levure
• projet multidisciplinaire réunissant plusieurs groupes de biologistes et de
physiciens à Orsay, Gif-sur-Yvette, Saclay et Jouy-en-Josas
• première étape (hiver 2000) : choix des meilleures phases ouvertes de

lecture. Recherche basée sur des critères d’homologie et de taille (pas
de protéines multi-domaines)
• deuxième étape (reste de l'année 2000) : projet pré-pilote sur 20

protéines : mise au point de conditions optimales pour exprimer et
purifier ces protéines
• troisième étape (années 2001-2003) : passage au projet pilote sur

environ 400 protéines : mise en place d’un rythme de croisière pour
 obtenir un haut débit de production de cristaux
 enregistrer tous les problèmes dans les différentes étapes pour
automatiser au maximum leur résolution future

6.2. L'approche locale : évolution de l'approche à haut débit
Clonage Expression Solubilité Purification Cristaux RMN X
• 134 oui • 111 oui • 62 oui • 35 oui • 7 oui • 0 oui •1 oui

12/01 • 40 en cours • 16 non • 44 non • 0 non • 0 non • 0 non • 0 non
• 5 en cours • 5 en cours • 50 en cours • 17 en cours • 1 en • 3 en
cours cours
01/03 • 232 oui • 194 oui • 117 oui • 60 oui • 16 oui • 0 oui • 3 oui
• 7 en cours • 28 non • 65 non • 0 non • 2 non • 0 non • 0 non
cours cours
• 259 oui • 215 oui • 131 oui • 83 oui • 23 oui • 0 oui • 13 oui
01/04 • 11 en cours • 27 non • 71 non • 0 non • 3 non • 0 non • 0 non
cours cours

6.3. L'effort international : premier bilan
• Nouvelles approches technologiques  haut débit
• mise au point de méthodes automatiques (robotiques) pour tester la
solubilité des protéines à crystalliser
• mise au point de nouveaux systèmes d'expression
• in vivo dans E. coli ou la levure Pichia pastoris pour les
microorganismes
• in vitro pour les eucaryotes complexes (Arabidopsis, homme, souris)
• utilisation de la RMN pour une analyse directe de petites protéines sans
purification
• Premières structures
• tous projets confondus, 117 structures ont été publiées après 18 mois
d'effort
• ce jeu de protéines contient statistiquement plus de nouveaux repliements
qu'un jeu équivalent de protéines résolues par des groupes indépendants

PLAN DU COURS

champ Transcriptome
nombreuses
Une nouvelle vision

du Monde Vivant
7. Génomique comparative
Dès que l’on a disposé de plusieurs génomes entièrement séquencés, on a eu envie de
les comparer : démarche classique en Recherche Fondamentale
Plasticité du synténie
génome
Organisation Ilôts de
des gènes pathogénicité
transferts
Dynamique des horizontaux
génomes
Évolution moléculaire Évolution
des protéines
Biochimie des
organismes Arbre du vivant
Dernier ancêtre
commun universel
Voies métaboliques Systèmes d’information

Vue d'ensemble :
• comparaison des données issues du séquençage de génomes d'organismes
variés peut se faire à différents niveaux :
 comparer les jeux de gènes (protéines) entre génomes  informations
sur la dynamique des génomes à courte et longue distance
 comparer les gènes (protéines) homologues entre eux au niveau de leur
séquence  notion de gènes paralogues et orthologues
 comparer la position des gènes et leur voisinage sur le chromosome
 notion de synténie
 notion de contexte génétique
Incidence :
 informations sur les relations fonctionnelles, le métabolisme, la physiologie
d'organismes peu ou pas étudiés
 mise en évidence de différents types de gènes : informationnel,
opérationnel
 mise en évidence de phénomènes de transfert horizontal
Février 2004 75
Bernard Labedan
Grands points abordés Résultats éclairant les mécanismes
évolutifs sous-tendants
1. Les différents types de gènes
a. au niveau homologie
 La régulation homéostatique
b. au niveau fonctionnel
du nombre de gènes
2. Acquisition et perte de gènes  L'évolution des protéines

a. Duplication  L'évolution des génomes
b. Transfert horizontal
c. Dégradation en pseudogènes  La topologie de l'Arbre du
Vivant et la nature du dernier
3. Conservation de l'ordre des gènes ancêtre commun universel
a. Mécanisme de rupture de la
synténie
b. Contexte génétique : déduction
fonctionnelle

7.1. Les différents types de espèce ancestrale
gènes homologues A B
duplication interne
7.1.1. Modèle de Fitch du gène B et
divergence des
deux copies
A B1 B2
divergence par
spéciation
A B1 B2 A B1 B2
divergence par spéciation
A B1 B2 A B1 B2 A B1 B2 A B1 B2
espèce 1 espèce 2 espèce 3 espèce 4
Les homologues de A Les homologues de B1

sont des et de B2 sont des
Gènes Gènes
Février 2004
Orthologues Paralogues Bernard Labedan 77
7.1. Les différents types de gènes homologues
7.1.2. Comparaison interspécifique (orthologues) et intraspécifique (paralogues)
• Recherche des relations de parentés entre les gènes appartenant à différents
génomes
• Deux types de comparaison menés en parallèle pour
 constituer des familles de gènes homologues
 identifier les gènes uniques à chaque génome
1 Comparaison intragénomique Comparaison intergénomique
2 familles de gènes paralogues familles de gènes orthologues
Dénombrement des gènes

Dénombrement des gènes
présents dans l'ancêtre
3 issus d'une duplication
commun aux espèces
ancestrale
comparées
7.1. Les différents types de gènes
7.1.3. Comparaison au niveau fonctionnel
• Résultat obtenu au cours de comparaisons intergénomiques
• Mode d'évolution différent selon les trois Domaines du Vivant
Gènes opérationnels Gènes informationnels

 métabolisme  réplication
 transport actif  recombinaison
 grandes fonctions cellulaires  transcription
 secrétion  traduction
• Les gènes informationnels des archaea sont homologues de ceux des

eucaryotes mais n'ont pas de parenté avec ceux des bactéries
• Les gènes opérationnels s'échangent plus facilement par transfert horizontal

du nombre de gènes

synténie
fonctionnelle

7.2. Acquisition et perte de gènes : les grands mécanismes internes et externes
• Augmentation du nombre de gènes

1. Apport extérieur
• Transfert horizontal
2. Création interne de novo
• Duplication de gènes, de fragments chromosomiques
• Perte de gènes
– Élimination des gènes "non nécessaires"
• Adaptation à un mode de vie dépendant
• Processus naturel de régulation de la taille du génome

7.2.1. mécanismes internes d'acquisition de nouvelles fonctions : duplication de gènes et/ou fusion
duplication d’un gène puis

divergence des copies fusion de
par accumulation de deux gènes
mutations voisins
génome
ancestral
apparition de fonctions plus apparition de nouvelles

spécialisées par évolution fonctions par évolution
progressive des copies de gènes progressive des produits de
dupliqués fusion de gènes voisins
7.2.2. mécanismes internes de perte de fonctions devenues superflues : gènes  pseudogènes
le cas des Mycobactéries Pseudogènes = ORFs
interrompus ayant des
orthologues fonctionnels
chez M. tuberculosis
gènes spécifiques
à M. leprae
Mycobacterium tuberculosis leprae
Taille 4,41 Mb 3,27 Mb

Nb de gènes attendus # 4000 # 3000
Nb de gènes trouvés 3924 1604
Nb de pseudogènes 9 1116
identifiés

7.2.3. mécanismes moléculaires de la conversion gènes  pseudogènes chez les Rickettsiae : résumé
Ogata et al, , 2001

1. gène (ORF) intact Science 293:2093
2. gène morcelé en plusieurs ORFs

(transcrits indépendants)
3. gène morcelé en ORFs qui ne sont plus

transcrits
4. gène très dégradé avec des ORFs encore

reconnaissables
5. disparition complète sous forme de

région intergénique
du nombre de gènes

synténie
fonctionnelle

7.3. Conservation de l'ordre des gènes et rupture de la synténie
• Rupture de la synténie
1. Apport extérieur
• incorporation d'ilôts génomiques par transfert horizontal
2. Mécanisme interne physiologique
• translocations réciproques au cours de la réplication
bidirectionnelle
• Conservation de l'ordre des gènes

– Maintien de certaines relations de voisinage
• Pour des raisons fonctionnelles
• Pour des raisons de régulation commune de l'expression des
gènes voisins

7.3. Rupture de la synténie
7.3.1. mécanisme de transfert horizontal
ilots génomiques (groupe de gènes)

• apportant des fonctionnalités
nouvelles
• repérés par leur usage de
codon différent
Découverte progressive de types

d'ilots à finalité différente
7.3.2. Extension des catégories d'ilots
• Observés pour la première fois

dans le cas des pathogènes
• Concept d'ilôts étendu à tout
bloc de gènes capables de
bouger d'un génome à l'autre
et de s'y maintenir parce que
les gènes étrangers
augmentent les capacités
d'adaptation de l'organisme à
des environnements variés

7.3.3. Exemple des ilots de
O157:H7 EDL933
pathogénicité : cas de E. coli
5,3 Mb
pathogène
ilots génomiques échangés entérohémorrhagique
par transfert horizontal
K12 d’une souche à l’autre :
• certains identiques
4,6 Mb
• d’autres spécifiques
souche de laboratoire
non pathogène
CFT073
Structure génomique 5,2 Mb
de type mosaïque
pathogène
urinaire

7.3.4. Mécanisme interne
• Chez les procaryotes, la synténie est très vite perdue.

• Un mécanisme moléculaire qui pourrait être responsable
de ce phénomène a été proposé :
• les régions de translocation apparaissent symmétriques par rapport
à l'axe de réplication
• Hypothèse : c'est au moment du passage des deux fourches de
réplication que se feraient les échanges de segments chromosomiques
par recombinaison réciproque

7.3.5. Gradient de synténie en fonction de la distance phylogénétique entre espèces

7.3.5. Mécanisme interne : la réplication aurait un rôle majeur
• les régions de translocation apparaissent

symmétriques par rapport à l'axe de réplication
• c'est au moment du passage des deux fourches de
réplication que se feraient les échanges de segments
chromosomiques par recombinaison réciproque
du nombre de gènes

synténie
fonctionnelle

7.4. Contexte génétique
7.4.1. Problèmes de voisinage
Conservation de l'ordre de certains gènes malgré la rupture de la synténie

 Maintien strict de relations de voisinage pour certaines associations de gènes
 Notion de contexte génétique
 Gènes ayant une régulation commune de leur expression
– Cas des opérons
 Gènes codant des protéines ayant des relations fonctionnelles cruciales
– approche "pierre de Rosette"

7.4.2. Le voisinage peut indiquer un lien fonctionnel
Modèle de travail
If two genes (blue and yellow in the

figure) are found to be neighbours
in several different genomes, a
functional linkage may be inferred
between the proteins they encode.
The method is most robust for
microbial genomes but may work to
some extent even for human genes
where operon-like clusters are
observed
Eisenberg et al, 2000, Nature 405:823

7.4. 3. Méthode de la pierre de Rosette : Application à l’annotation de gènes inconnus dans
les génomes entièrement séquencés
Fig. 1. Correspondence between
functional associations and genes linked
by the fusion method. Independent
genes in one genome may be found as
M. genitalium one continuous gene in other genomes.
These fusion links can confirm known
functional relationships between genes:
M. genitalium genes phosphoglycerate
kinase (PGK), triosephosphate
isomerase (TPIA), and glyceraldehyde-3-
phosphate dehydrogenase (GAP), all
sequential agents in glycolysis, are
linked by fusion events elsewhere.
These links may be used to infer
putative functions when one of the
component genes is of an unknown
function.
Analyse systématique sur 30 génomes microbiens (travail effectué en 2001) :
• 72 % des fusions correspondent au même type de fonction (comme ci-dessus)
• 661 gènes inconnus ont pu être annotés en leur attribuant un rôle potentiel dans une
grande catégorie fonctionnelle
Grands points abordés Résultats éclairants les mécanismes
sous-tendants
du nombre de gènes

synténie
fonctionnelle

7.5. Conservation de la taille des génomes : modèle de travail
Observations sur les génomes de procaryotes:

1. Corrélation entre taille du génome et nombre de
gènes
2. Pratiquement, tous les gènes codent une protéine
dont la fonction est utile au mode de vie de
l’organisme
3. Acquisition de nouveaux gènes = évènements
fréquents
4. Cependant, la taille globale n’augmente pas
Mira et al, 2001 TIG 17:589
Modèle de travail
– Tout gène non essentiel est contre-sélectionné et éliminé
rapidement, laissant la taille du génome inchangée
– Perte de gènes = processus constant et naturel de
régulation de la taille du génome
7.6. plasticité des génomes
Apport de gènes
par duplication Rigidité
Apport de gènes et Perte programmée

rupture de synténie de gènes
par transfert latéral
rupture de synténie certains gènes ne

par mouvement
peuvent être séparés :
incessant des gènes
contexte génétique
Fluidité
Un équilibre résultant de la neutralisation réciproque

de forces motrices antagonistes
7.6. évolution des génomes : un résumé
État homéostatique où gain et perte de gènes s'équilibrent
Génome perte programmée

multipotent de gènes
autosuffisant
acquisition de gènes
a ux Génome
st r gènes contemporains
a nc
e " minimal "
s codant de nombreuses
è ne dépendant
s g
de fonctions variées et
n
utio sophistiquées
o l
év
ne contient que les gènes
contemporains codant les
Génome ancestral fonctions nécessaires à des
états particuliers comme la
gènes ancestraux codant
pathogénicité ou la
quelques fonctions
symbiose
primordiales
7.8. Notion de génome minimal
7.8.1. Approches conceptuelle et expérimentale
• Concept
 Rechercher le jeu de gènes minimal permettant une vie autonome
 permettrait de se représenter le contenu génétique des premiers organismes
ancestraux
• Premières approches expérimentales

 génomique comparative des premiers petits génomes séquencés (H. influenzae
et M. genitalium) biais car pathogènes n’ont pas de vie autonome
 256 gènes prédits
 analyse expérimentale sur M. genitalium  265-350 gènes indispensables
 analyse expérimentale sur H. influenzae  259 gènes indispensables
 cas récent de B. subtilis (4200 gènes), un organisme capable de mener une
réelle vie autonome environ 300 gènes seulement seraient essentiels
• Donc, grande convergence !!

O157:H7 EDL933
5,3 Mb
pathogène
entérohémorrhagique
CFT073
K12
Noyau commun de gènes  5,2 Mb
4,6 Mb
génome minimal putatif
souche de laboratoire pathogène
non pathogène urinaire

Noyau commun de gènes (2996)  génome minimal putatif
Projet de construction expérimentale d’un E. coli minimal (souche

poussant parfaitement sur milieu minimum dans les conditions du
laboratoire)
• délétions de toutes les régions de pathogénie
• délétions de toutes les régions extrachromosomiques (prophages, IS,
etc…)
• délétion systématique de tous les gènes chromosomiques pour tester s’ils
sont indispensables

7.9. Retentissement sur l'arbre du Vivant
PROCARYOTES EUCARYOTES
BACTERIA ARCHAEA EUCARYA

Escherichia Mitochondries
Rickettsia Bacillus
Helicobacter Streptomyces Thermoplasma ANIMAUX
Fusobacterium Mycobacterium Halophiles

Chlamydiae Methanococcus Paramecium CHAMPIGNONS
Brevibacterium Methanobacterium
PLANTES
Bactéries vertes Treponema Corynebacterium Pyrococcus Methanosarcina
Entamoeba
Thermoproteus
sulfureuses Borrelia Pyrobaculum Dictyostelium
Desulfurococcus
Cyanobactéries Bactéries vertes
non sulfureuses Trypanosoma
Thermus Sulfolobus
Deinococcus Archaeglobus
Physarum
Euglena
Pyrodictium
Methanopyrus Vairimorpha
Microsporidies (Giardia)
Thermotoga
Titrichomonas
Aquifex
Dernier Ancêtre Commun Universel
Apports de la génomique
mise en évidence de nombreux transferts horizontaux
vérification de la topologie
A terme
nature et contenu du dernier ancêtre commun universel

7.10. Les arbres génomiques
Les distances séparant les espèces
sont déterminées selon différentes
données génomiques.
On a successivement pris en compte
• le contenu en gènes dans chaque
génome
• la conservation du voisinage des
gènes dans les génomes
• les distances séparant les familles
d’orthologues
• et d’autres approches plus
phylogénétiques (super-arbres,
etc…)
Arbre consensus des arbres obtenus

avec ces différentes méthodes
Wolf, Rogozin, Grishin and Koonin (2002) TIG
8. L'approche Bioinformatique
8.1. Un outil indispensable
La bioinformatique est devenue un outil indispensable et intervient à
tous les stades de la génomique chaine de prédictions
gène protéine fonction

séquence structure
quelques problèmes d’automatisation :

identification des gènes chez Example de la drosophile, peu de gènes ont été
les eucaryotes correctement identifiés au niveau intron/exon
relation séquence/structure Plus de 1.00.000 séquences dans GenBank/EMBL
2.500 structures dans la PDB
identification des fonctions mieux estimer l’homologie
ortho/para
domaine/module “bricolage”
définitions souvent trop vagues problèmes d’ontologie
bases de données bases de connaissances

8. L'approche Bioinformatique
8.2. Des services irremplaceables
Mise en place d'une panoplie sans cesse élargie de services accessibles

par Internet. Quelques examples :
• des bases de données généralistes ou spécialisées
• de plus en plus de serveurs permettant de faire des calculs en ligne
sans avoir à maitriser le fonctionnement des différents algorithmes
• en quelques clics on peut enchainer une suite de recherches
successives relativement complexes
• arme à double tranchant : beaucoup reçoivent les résultats
obtenus avec une confiance aveugle, sans aucun esprit critique
• des bases de connaissances de mieux en mieux faites
• initiative internationale : développer une ontologie unique
pour l'ensemble de la Génomique (en fait de la Biologie)

9. Quelques perspectives
9.1. La Génomique, une Science à haut débit
• Projets déjà bien établis :
 génomique stucturale : une douzaine de projets internationaux
 puces à ADN : commencent à être utilisées de manière routinière
 protéomique : de plus en plus généralisée
• Projets en émergence
 interaction entre complexes protéiques  interactome
 annotation fonctionnelle sur les eucaryotes par mutagénèse par
transposon : exemple du chromosome X de la drosophile : 130 gènes
inconnus ont été inactivés par le transposon P. Prévision déduite : le
chromosome X contiendrait # 820 gènes essentiels
 application inattendue des puces : une bactérie symbionte de la
mouche tsé-tsé, proche de E. coli, a pu être étudiée extensivement.
650 orthologues (85% du génome du symbionte) ont pu être
identifiés en utilisant des puces construites pour E. coli.

9.2. Retombées appliquées
• Pharmacogénomique et Médecine :
 recherche de nouvelles cibles thérapeutiques
 antibiotiques de nouvelle génération
 drogues anti-cancéreuses plus spécifiques …
 recherche de prédispositions génétiques à différentes maladies
• Retombées juridiques et éthiques :

 aurons-nous chacun un jour notre carte génomique personnelle ?
 protection contre les employeurs
 protection contre les assureurs

9.3. Une nouvelle littérature
• Eclosion de nombreux nouveaux journaux spécialisés
• La plupart des journaux existants ont ajouté une division
"Génomique" à leurs champs de compétences
• Beaucoup de Congrès et Symposiums ont aussi ajouté des sessions dites
de Génomique, même si cela est quelquefois très artificiel

9.4. Une nouvelle manière holistique (globale) de faire de la Biologie
• Après de très nombreuses années de réductionnisme (un gène une
fonction), on est passé à des niveaux d'intégration de plus en plus élevés
• interaction de protéines pour créer des machines cellulaires
• interaction de ces machines cellulaires pour créer des réseaux intégrés
• interaction de ces réseaux intégrés pour créer des organites
L'étude de ces assemblages de machines cellulaires pourrait

• aider à mieux déchiffrer la relation complexe entre génotype et
phénotype
• renouveler les approches appliquées (médecine,
pharmacogénomique) ou fondamentales (biologie structurale) pour
comprendre et mieux définir les vraies cibles des interactions entre un
effecteur (médicament) et une protéine

10. Une nouvelle terminologie

Le monde des « omes » et des « omiques »
Génome
Et puis Transcriptome Proteome Interactome Metabolome
Mais aussi …
Orfeome Foldome Secretome Regulome
… Et d’autres horreurs qu’il vaut mieux ne pas citer

Coursnewintro 2004

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Coursnewintro 2004

Загружено:

Авторское право:

Доступные форматы

Introduction à la Génomique

* Définition : les différents génomes

* Séquençage Un immense pas en avant qui

Une nouvelle vision

génome = ensemble des séquençage = détermination

1. Séquençage des génomes

1.1.1. détermination de l’enchaînement

1.1.2. déduction de l’autre brin (+) CGATGCCAAGCATGATAGTTGTT

1.1.3. recherche de la meilleure phase ouverte de lecture codée par ce gène

1.1.4. déduction de la séquence en acides aminés de la protéine correspondante

Février 2004 Bernard Labedan 4

1. Séquençage des génomes

Exemple des virus

X174 1977 5,38

Février 2004 Bernard Labedan 5

1. Séquençage des génomes

Escherichia coli Saccharomyces cerevisiae

Séquençage entrepris par un seul groupe Séquençage entrepris par un consortium

Février 2004 Bernard Labedan 6

1. Séquençage des génomes

1.4.2. assemblage progressif des régions contigues

CETTE MÉTHODE DEMANDE PLUSIEURS ANNÉES

Février 2004 Bernard Labedan 7

1. Séquençage des génomes

1.5.4. finition (bouchage des trous) par marche sur le chromosome

Méthode créée par le groupe de Craig Venter (TIGR puis CELERA)

CETTE MÉTHODE DEMANDE ENVIRON 2

1. Séquençage des génomes

Cette méthode révolutionnaire mise au point au TIGR marche

Méthode de shotgun immédiatement appliquée

Février 2004 Bernard Labedan 9

1. Séquençage des génomes

Une croissance exponentielle en nombre de génomes

Février 2004 Bernard Labedan 10

• Génomes terminés et publiés 169

• Génomes en cours de séquençage 958

• Génomes attendus dans le (proche) futur 1127

1. Séquençage des génomes

1. la variété dans la répétition :

4 souches différentes d’E. coli

• espèces différentes appartenant au même genre Mise en évidence d'une

Février 2004 Bernard Labedan 12

1. Séquençage des génomes

1. la variété dans la répétition :

Février 2004 Bernard Labedan 13

1. la variété dans la répétition :

Example : Chlorobium tepidum,

C’est un thermophile qui fixe l’azote

commensaux Bifidobacterium longum bactérie intestinale hydrolysant des

intérêt industriel Nombreux organismes thermophiles source d’enzymes faciles

1. la variété dans la répétition :

Streptomyces coelicolor Bradyrhizobium japonicum

contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes

Février 2004 Bernard Labedan 16

Ciona intestinalis  ascidies (chordés invertébrés marins)

1. Séquençage des génomes

La génomique va plus vite que l’informatique

1. Séquençage des génomes

Une séquence peut rester incomplète si Approche de type

Février 2004 Bernard Labedan 20

* Définition : les différents génomes

* Séquençage Un immense pas en avant qui

Une nouvelle vision