Вы находитесь на странице: 1из 112

Introduction à la Génomique

PLAN DU COURS

* Définition : les différents génomes

* Séquençage Un immense pas en avant qui


* Annotation révolutionne la Biologie
* L’Après-Séquençage
Un nouveau Génomique fonctionnelle
champ Transcriptome
d’investigation Protéome
avec de Étude globale d’un organisme
nombreuses
retombées Génomique structurale

Une nouvelle vision


Génomique comparative
du Monde Vivant
Février 2004 Bernard Labedan 1
Introduction à la Génomique

Définitions élémentaires
génomique = science des génomes séquencés

génome = ensemble des séquençage = détermination


gènes appartenant à de l’enchaînement des
résidus constituant une
un organisme molécule informative

CGATGCCAAGCATGATAGTTGTT
MPSMIVVQKPNTAVHY

 Protéine
 ARN
 Signal régulateur
gène = toute séquence codant une information  etc…
Février 2004 Bernard Labedan 2
Introduction à la Génomique
Définition expérimentale du génome d’un organisme

Procaryote Eucaryote
3 (génomes) = 1
(pro)phage
plaste
chromosome
Flux
plasmide bidirectionnel
mitochondrie
Escherichia coli
4,7 Mb noyau
4200 gènes
5 chromosomes

bactériophage T4
168,8 kB
environ 150 gènes Arabidopsis thaliana
125 Mb
25.500 gènes

Février 2004
Virus Bernard Labedan 3
Introduction à la Génomique

1. Séquençage des génomes


• Maxam et Gilbert (1977)
1.1. Notions de base : Séquençage chimique d’un gène • Sanger et coll. (1977)

1.1.1. détermination de l’enchaînement


CGATGCCAAGCATGATAGTTGTT
des bases sur l’un des brins d’ADN

1.1.2. déduction de l’autre brin (+) CGATGCCAAGCATGATAGTTGTT


par complémentarité (-) GCTACGTTTCGTACTATCAACAA

1.1.3. recherche de la meilleure phase ouverte de lecture codée par ce gène

identification des codons cg ATG CCA AGC ATG ATA GTT GTT

application du code génétique Met Pro Ser Met Ile Val Val
M P S M I V V

1.1.4. déduction de la séquence en acides aminés de la protéine correspondante

Février 2004 Bernard Labedan 4


Introduction à la Génomique

1. Séquençage des génomes


1.2. Passage du séquençage d’un gène à celui d’un génome
Cette étape a été entamée dès que l’on maitrisé le séquençage :

Exemple des virus


Virus Année Taille (kb)

X174 1977 5,38


SV40 1978 5,24
hépatite B 1979 5,0
lambda 1982 48,5
Epstein Barr 1984 172
varicelle 1986 124
HSV-1 1988 152
cytomegalovirus 1990 229

Février 2004 Bernard Labedan 5


Introduction à la Génomique

1. Séquençage des génomes


1.3. Premiers efforts sur deux organismes "modèles"
"modèles" = dont la génétique et la biochimie sont bien connues

Escherichia coli Saccharomyces cerevisiae


4,7 Mb environ 4000 gènes 12 Mb environ 6000 gènes
(2,05 Mb déjà séquencés par de nombreux labos) 16 chromosomes + 85 kb de génome mitochondrial

Séquençage entrepris par un seul groupe Séquençage entrepris par un consortium


(Blattner à Madison, USA) essentiellement européen (35 puis 80 labos)
mais s’appuyant sur quelque 250 “volontaires”
Séquençage débute en 1989
Séquençage débute en 1991
91,4 kb en 1992 Chromosome III (315 kb) en 1992
environ 1 Mb
408,5 kb en 1993
(21 % du génome
225,4 kb en 1994 Chromosomes II, VIII et XI (2,04 Mb) en 1994
entier) en 5 ans
338,5 kb en 1995 Chromosomes I, VI, IX, X et XI (2,61 Mb) en 1995
séquence complète (12,155 Mb) en 1996
séquence complète (4639,2 kb) en 1997

Février 2004 Bernard Labedan 6


Introduction à la Génomique

1. Séquençage des génomes


1.4. Méthode classique
1.4.1. carte physique découpage en grands segments
C
A
G B 12

F C 12
E
D
chaque segment découpé en fragments de taille
ménagée afin d’avoir un grand recouvrement

1.4.2. assemblage progressif des régions contigues


1.4.3. reconstitution des fragments, puis des segments
1.4.4. finition (bouchage des trous) par marche sur le chromosome

CETTE MÉTHODE DEMANDE PLUSIEURS ANNÉES

Février 2004 Bernard Labedan 7


Introduction à la Génomique

1. Séquençage des génomes


1.5. Méthode nouvelle (shotgun)
1.5.1. cassage physique aléatoire
1.5.2. séquençage de
tous les fragments
1.5.3. assemblage progressif
de l’ensemble des fragments
en utilisant des logiciels
informatiques ad hoc

1.5.4. finition (bouchage des trous) par marche sur le chromosome

Méthode créée par le groupe de Craig Venter (TIGR puis CELERA)

CETTE MÉTHODE DEMANDE ENVIRON 2


MOIS POUR UN PETIT GÉNOME (2 Mb)
Février 2004 Bernard Labedan 8
Introduction à la Génomique

1. Séquençage des génomes


1.5. Méthode nouvelle (shotgun)
1.5.5. Un succès foudroyant !!

Cette méthode révolutionnaire mise au point au TIGR marche


remarquablement bien !
publication pour la
première fois de la
séquence complète du
Naissance de la Génomique,
génome d'un être vivant, le 28 juillet 1995
celui de Haemophilus
influenzae

Méthode de shotgun immédiatement appliquée

avalanche de génomes

Février 2004 Bernard Labedan 9


Introduction à la Génomique

1. Séquençage des génomes


avalanche de génomes

Une croissance exponentielle en nombre de génomes


finis ou en cours de séquençage

Février 2004 Bernard Labedan 10


Introduction à la Génomique
1. Séquençage des génomes
Une croissance exponentielle en nombre
1.6. Situation au 2/2/04 de génomes qui va en s'accélérant

• Génomes terminés et publiés 169


• 131 Bactéries
• 17 Archaea
• 21 Eucaryotes

• Génomes en cours de séquençage 958


• 404 Bactéries
• 22 Archaea
• 360 Eucaryotes

• Génomes attendus dans le (proche) futur 1127


• 535 Bactéries
• 39 Archaea
• 381 Eucaryotes
Février 2004 Bernard Labedan 11
Introduction à la Génomique

1. Séquençage des génomes


1.6. nouvelles tendances
1.6.1. cas des procaryotes

1. la variété dans la répétition :


• souches différentes appartenant à la même espèce

4 souches différentes d’E. coli

• espèces différentes appartenant au même genre Mise en évidence d'une


variabilité insoupçonnée
 3 Pyrococcus
 5 Chlamydia
 8 Streptococcus
 etc …

Février 2004 Bernard Labedan 12


Introduction à la Génomique

1. Séquençage des génomes


1.6. nouvelles tendances
1.6.1. cas des procaryotes

1. la variété dans la répétition :


• souches différentes appartenant à la même espèce
• espèces différentes appartenant au même genre
2. une plus grande diversité biologique et phylogénétique
A. moins de pathogènes
• La proportion relative est passée en 2003 de 90% à 50%
• Cependant, beaucoup de compagnies privées continuent à en
séquencer beaucoup mais sans les publier. Par example, on
estime que 14 souches différentes de Bacillus anthracis auraient
été séquencées en 2002 aux Etats-Unis

Février 2004 Bernard Labedan 13


Introduction à la Génomique
1. Séquençage des génomes
1.6. nouvelles tendances
1.6.1. cas des procaryotes

1. la variété dans la répétition :


• souches différentes appartenant à la même espèce
• espèces différentes appartenant au même genre
2. une plus grande diversité biologique et phylogénétique
A. moins de pathogènes
B. représentants d’embranchements peu ou pas étudiés

Example : Chlorobium tepidum,


bactérie modèle du phylum Chlorobia Intérêts : mieux comprendre

C’est un thermophile qui fixe l’azote


atmosphérique et qui réduit des les grands cycles comment est
composés soufrés comme source énergétiques à apparue la
d’énergie pour faire de la photosynthèse l’échelle planétaire photosynthèse
en conditions anaérobies
Février 2004 Bernard Labedan 14
Introduction à la Génomique
1. Séquençage des génomes
1.6. nouvelles tendances
1.6.1. cas des procaryotes
1. la variété dans la répétition :
• souches différentes appartenant à la même espèce
• espèces différentes appartenant au même genre
2. une plus grande diversité biologique et phylogénétique
A. moins de pathogènes
B. représentants d’embranchements peu ou pas étudiés
C. plus de bactéries « utiles » :
• Shewanella oneidensis, Geobacter metallidurens métabolise
dépollution l’uranium et de nombreux autres métaux lourds
• Geobacter produit de plus de l'électricité

commensaux Bifidobacterium longum bactérie intestinale hydrolysant des


polymères végétaux
intérêt agricole Pseudomonas putida croît dans la rhizosphère et dépollue les sols

intérêt industriel Nombreux organismes thermophiles source d’enzymes faciles


à purifier et très efficaces
Février 2004 Bernard Labedan 15
Introduction à la Génomique
1. Séquençage des génomes
1.6. nouvelles tendances
1.6.1. cas des procaryotes

1. la variété dans la répétition :


• souches différentes appartenant à la même espèce
• espèces différentes appartenant au même genre
2. une plus grande diversité biologique et phylogénétique
A. moins de pathogènes
B. représentants d’embranchements peu ou pas étudiés
C. plus de bactéries « utiles » :
3. des génomes de plus en plus gros (qui sont faits de plus en plus vite) :

Streptomyces coelicolor Bradyrhizobium japonicum


(8,7 Mb, 7567 protéines) (9,1 Mb, 8317 protéines)

contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes


simples comme les levures (12 Mb mais moins de 6000 protéines)

Février 2004 Bernard Labedan 16


Introduction à la Génomique
1. Séquençage des génomes
1.6. nouvelles tendances
1.6.2. cas des eucaryotes
1. objectifs primaires :
• Grands organismes modèles et les organismes proches pouvant aider à
l’annotation de leurs génomes
• Pathogènes, intérêt médical ou agronomique
Saccharomyces cerevisiae Magnaporthe grisea
Schizosaccharomyces pombe Candida albicans
Arabidopsis thaliana Oryza sativa
Caenorhabditis elegans
Plasmodium falciparum
Drosophila melanogaster Anopheles gambiae Plasmodium yoelii yoelii
malaria
Fugu rubripes
Tetrahodon
Homo sapiens
souris, rat Encephalitozoon cuniculi
Microsporidie, pathogène
chimpanzé des voies respiratoires

Ciona intestinalis  ascidies (chordés invertébrés marins)


 copie de brouillon
Février 2004 Bernard Labedan 17
Introduction à la Génomique
1. Séquençage des génomes
1.6. nouvelles tendances
1.6.2. cas des eucaryotes
1. objectifs primaires :
• Grands organismes modèles et les organismes proches pouvant aider
à l’annotation de leurs génomes
• Pathogènes
2. Une ambition incroyable :
• microsporidies, nématodes, nombreux protozoaires, algues, Chlamydomonas
• nombreux champignons (40)
• plusieurs insectes (abeille, bombyx, ), mollusques, oursin
• plusieurs poissons, Xenope, poulet, dinde, bœuf, porc, chien, chat, cheval,
mouton, kangourou, etc…
• Chou, café, blé, maïs, sorgho, coton, tomate, pomme de terre, haricot, canne
à sucre, etc…
• pins (3), eucalyptus, chêne

Février 2004
Une accélération technologique impressionnante Bernard Labedan 18
Introduction à la Génomique

1. Séquençage des génomes


1.7. Les progrès technologiques
Pas de révolution dans les techniques de séquençage
Mais, progrès impressionnant dans le temps nécessaire pour réaliser un projet :
• au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie,
il ne faut plus que 2-3 jours
• le séquençage du génome de la souris a été réalisé en un temps incroyablement
court, et le chimpanzé vient d'être fini en moins d'un an
Progrès énormes dans les temps de calcul
En 1995, pour H. influenzae, l’assemblage des contigs avait demandé 11 jours
de temps de calcul
Aujourd’hui, le même type de travail demande quelques minutes

La génomique va plus vite que l’informatique


En 1965, Moore avait prédit que la puissance des ordinateurs doublerait tous
les deux ans. Jusqu’ici cette « loi » a été parfaitement respectée
Depuis 2 ans, la croissance de l’information contenue dans les séquences
génomiques a pris une vitesse de doublement bien supérieure et semble même
encore s’accélerer
Février 2004 Bernard Labedan 19
Introduction à la Génomique

1. Séquençage des génomes


1.8. Le problème de la qualité : deux écoles
Une séquence doit être complète et de Approche de type
très haute qualité recherche fondamentale
• C'est la stratégie initialement adoptée pour les microorganismes, y compris la
levure.
• Cependant, dans le cas de régions difficile à séquencer, cette exigence est très
coûteuse en temps. Si quelques jours sont suffisants pour avoir un recouvrement
de haute qualité de 90-95% d'un génome de procaryote, plusieurs semaines, voire
plusieurs mois, seront nécessaires pour obtenir les 5-10% restants.

Une séquence peut rester incomplète si Approche de type


une large majorité des gènes a été trouvée recherche appliquée
• C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels
qui recherchent avant tout de nouvelles molécules. Ces données génomiques ne
seront généralement pas publiées.
• C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas
de l'hétérochromatine ou des régions trop répétées et apparemment vides de
gènes.  copies dites "de brouillon" (draft genome).

Février 2004 Bernard Labedan 20


Introduction à la Génomique

PLAN DU COURS

* Définition : les différents génomes

* Séquençage Un immense pas en avant qui


* Annotation révolutionne la Biologie

Génomique fonctionnelle
Un nouveau champ
Protéomique
d’investigation avec de
Étude globale d’un organisme
nombreuses retombées
Génomique structurale

Une nouvelle vision


Génomique comparative
du Monde Vivant

Février 2004 Bernard Labedan 21


Introduction à la Génomique

2. Annotation
Une fois la séquence d’un génome obtenue, il s’agit de la faire parler

• Première étape
identifier tous les gènes codant pour CGATGCCAAGCATGATAGTTGTT
des ARN (ribosomique, de transfert)

des protéines MPSMIVVAKIWTQAL

• Deuxième étape
identifier la nature et la alanine déshydrogénase
fonction des produits de
tous les gènes détectés lors
de la première étape

Février 2004 Bernard Labedan 22


Introduction à la Génomique

2. Annotation
2.1. Identifier un gène dans un génome
Séquence Suite de bases (lettres) On connait (partiellement) la
Il faut retrouver les mots gènes syntaxe et la grammaire

Exemple des procaryotes : un gène code une protéine

promoteur
ATG................................TAA
site de terminaison de
site de fixation
du ribosome
cadre ouvert de lecture (CDS) la transcription
(open reading frame ou ORF)
traduction en protéine
MTAGLVSPT.......................

Février 2004 Bernard Labedan 23


Introduction à la Génomique

2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.1. Mise au point de programmes automatiques :
• Approche conceptuelle basée sur des études linguistiques des séquences d’ADN :
• On connait (partiellement) la syntaxe et la grammaire
utilisation de modèles de Markov cachés qui, après apprentissage sur un
organisme donné, vont différencier les régions géniques des régions intergéniques

 programmes adaptés aux procaryotes et marchant GeneMark,


bien chez les eucaryotes ayant très peu d’introns (levure) GLIMMER

 programmes adaptés aux GeneMark.hmm, HMMgene,


eucaryotes ayant beaucoup d’introns Eugene, GENIE, etc...
utilisés en conjonction avec des algorithmes neuronaux déterminant
le départ de transcription (qui n’est pas toujours un ATG) Netstart
les sites d’épissage Netgene2, SpliceNet, etc...
Février 2004 Bernard Labedan 24
Introduction à la Génomique

2. Annotation

2.2. Identifier tous les gènes dans un génome


2.2.2. Efficacité de ces programmes automatiques :
 excellente chez les procaryotes (rendement de 98-99%)
 détestable chez les eucaryotes complexes

• Une étude préliminaire sur quelques centaines de gènes montrait que 75%
des gènes annotés chez A. thaliana avaient été mal identifiés : on avait
 soit des gènes qui ont été interprétés comme deux gènes voisins
 soit l’inverse
• Une étude plus récente (janvier 2003) et exhaustive de réannotation
manuelle du génome de la drosophile confirme l’ampleur du problème

Février 2004 Bernard Labedan 25


Introduction à la Génomique

2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.2. Efficacité de ces programmes automatiques :
 détestable chez les eucaryotes complexes
Une étude très récente de réannotation manuelle du génome de la drosophile
confirme l’ampleur du problème :
• le nombre global de gènes reste pratiquement inchangé : 13.601  13.676
mais 727 (trouvés par l'ancien programme GENIE) étaient erronés et ont
disparu et 802 nouveaux ont été trouvés par un nouveau programme,
GENSCAN, et ajoutés
• la structure de 85% des gènes (45% des protéines) a été modifiée
• 1531 gènes initialement indépendants ont été fusionnés en seulement
602 nouveaux gènes
• 322 gènes ont été morcelés en 675 nouveaux gènes
• 93 gènes ont été réinterprétés complètement avec des mélanges de
fusion et morcellement

Règles régissant la structure et l’organisation des gènes


eucaryotes beaucoup plus complexes que ce que l’on imaginait
Février 2004 Bernard Labedan 26
Introduction à la Génomique

2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.3. Apports de la réannotation manuelle :
Cette étude de réannotation manuelle du génome de la drosophile montre
aussi les points suivants :

• nombre moyen d’exons par gènes : 4.6, comme chez C. elegans (4,5),
Arabidopsis (4,6) mais loin de l’homme (8,9)

• expression alternative des gènes : quatre fois plus importante (861  4.743)
que la déduction faite lors de la première annotation
• immense majorité = épissage alternatif
• 13% = promoteurs alternatifs
• 6% = sites de polyadénylation alternatifs

• nombre inattendu (1038) de gènes « emboités » dont 55% transcrits en sens


opposés

Février 2004 Bernard Labedan 27


Introduction à la Génomique

2. Annotation
2.3. Les surprises du dénombrement des gènes
• Janvier 2001 : publication du génome humain (copie de brouillon)
on tablait sur au moins 100.000 gènes

On a trouvé "seulement" 27.462 gènes

Prise de conscience de plusieurs problèmes fondamentaux

Février 2004 Bernard Labedan 28


Introduction à la Génomique

2. Annotation
2.4. Prises de conscience
1. ce résultat inattendu a sans doute été trop médiatisé
• On pensait qu'il y avait 100.000 gènes parce que l'on estimait qu'il y
avait environ 100.000 protéines humaines
• De très récentes études confirment cette estimation
2. on ne sait pas estimer combien de protéines un gène peut coder :
• différents modes d'épissage
 chez C. elegans 4 gènes codent 4 myosines différentes
 chez la drosophile 1 seul gène code les 7 myosines connues
• promoteurs alternatifs
3. on ne sait pas identifier l’état d’expression d’un gène
• information essentielle chez les organismes complexes où l’évolution se
fait par la modulation de l’expression plus que par l'augmentation du
nombre de gènes
• les jeux de protéines synthétisées vont être très différents d'un tissu à
l'autre
Il est donc clair que le nombre total de gènes identifiés ne
reflète pas le niveau de complexité des organismes étudiés
Février 2004 Bernard Labedan 29
Introduction à la Génomique

2. Annotation
Une fois la séquence d’un génome obtenue, il s’agit de la faire parler

• Première étape
identifier tous les gènes CGATGCCAAGCATGATAGTTGTT

• Deuxième étape MPSMIVVAKIWTQAL

identifier la fonction des


produits de tous les gènes
alanine déshydrogénase
détectés lors de la
première étape

Février 2004 Bernard Labedan 30


Introduction à la Génomique

2. Annotation
2.5. Identifier la fonction de tous les gènes détectés
2.5.1. Méthodologie : Identification par homologie :

• Définition Deux protéines sont dites homologues


si elles dérivent d'un ancêtre commun

• Conséquences  l’homologie est toujours une hypothèse


 l’homologie est une propriété de tout ou rien

la recherche d'homologie se fait de manière


• Approche opérationnelle indirecte par la mesure du pourcentage
d’identité entre deux séquences

Recherche automatique de l’homologie


Février 2004 Bernard Labedan 31
Introduction à la Génomique

2. Annotation
2.5. Identifier la fonction de tous les gènes détectés
2.5.2. Recherche automatique de l’homologie :

principe : comparaison de la séquence en acides aminés de chaque


cadre ouvert de lecture avec les séquences d’une banque de protéines
outils informatiques : Blast, Fasta, etc...  recherche heuristique
(donc très rapide) de protéines homologues basée sur un
alignement local de la séquence requête avec toutes les séquences
cibles
détermination automatique de l’homologie : basée sur le nombre de
résidus identiques entre la séquence requête et la séquence cible

le seuil minimum d’identité doit être placé suffisamment haut


pour que l’homologie apparaisse incontestable

Février 2004 Bernard Labedan 32


Introduction à la Génomique

2. Annotation
2.5. Identifier la fonction de tous les gènes détectés
2.5.3. Identification par homologie :

le seuil minimum d’identité doit être placé suffisamment haut pour que
l’homologie apparaisse incontestable

•Valeurs habituellement admises

• > 27% d’identité Homologie évidente

• entre 20 et 27% d’identité Homologie douteuse

• < 20% d’identité Pas d’homologie

Février 2004 Bernard Labedan 33


Introduction à la Génomique
Example de recherche d’homologie par Blast

Homologie :
• évidente
• complète
• la protéine inconnue du
génome bactérien que nous
venons de séquencer
ressemble beaucoup au gène
purA qui code l’adénylo-
succinate synthétase

IMP AMP
Voie de
biosynthèse
des purines
Février 2004 Bernard Labedan 34
Introduction à la Génomique

2. Annotation
2.6. Assigner la fonction de tous les gènes détectés
2.6.1. Déduction fonctionnelle :
Principe
toute protéine virtuelle (cadre ouvert de lecture) inconnue ayant un
pourcentage d’identité suffisamment élevé avec au moins une protéine
connue dont la fonction est identifiée se verra attribuer cette fonction

Exemple
le cadre ouvert de lecture (ORF) de mon génome fraichement séquencé
ressemblant beaucoup au gène purA qui code l’adénylosuccinate
synthétase sera annoté comme l’adénylosuccinate synthétase de cet
organisme bien qu'il n'y ait pas eu de démonstration expérimentale

Février 2004 Bernard Labedan 35


Introduction à la Génomique

2. Annotation
2.6. Assigner la fonction de tous les gènes détectés
2.6.2. Problèmes d’assignation : risques d'erreurs des programmes automatiques
Niveau conceptuel : Méthodologie basée sur l'hypothèse (qui est
loin d'être toujours vraie) :
similitude de séquence similitude de fonction

Niveau technique : homologie partielle non détectée


séquence requête X
Protéine à deux
séquence cible A B domaines fonctionnels
fonction inconnue fonction connue

On donnera à X la fonction du domaine


B alors qu'elle est uniquement homologue erreur dramatique
au domaine A
Février 2004 Bernard Labedan 36
Introduction à la Génomique

2. Annotation
2.6. Assigner la fonction de tous les gènes détectés
2.6.3. Problèmes d’assignation : biais dans les bases de données

Premier biais : avant le séquençage systématique, les données


correspondaient à un choix limité d’organismes.
Deuxième biais : l’entrée massive de protéines virtuelles
(annotées uniquement par homologie) dans les banques de
séquences a entrainé un autre biais encore plus rhédibitoire à
chaque fois qu’elles correspondent aux meilleurs scores

les erreurs d’assignation


Troisième biais, le plus grave :
ont un effet boule de neige

Février 2004 Bernard Labedan 37


Introduction à la Génomique

2. Annotation
2.7. La surprise des gènes orphelins
2.7.1. mise en évidence :
• chez tous les génomes séquencés, y compris ceux
d’organismes pour lesquels on croyait connaitre presque tout,
comme E. coli ou la levure, on a trouvé un stock très
important (de 40% à 70% du total) de gènes inconnus qui ne
ressemblent à rien de précédemment connu.
 gènes orphelins

On a immédiatement pris conscience que des pans entiers de


la biologie des organismes avaient échappé jusqu’ici aux
approches classiques de la génétique et de la biochimie

Février 2004 Bernard Labedan 38


Introduction à la Génomique

2. Annotation
2.7. La surprise des gènes orphelins
2.7.2. Example de la levure :

Protéines ayant un homologue connu 3451 54,3 %


Protéines ayant une faible similarité avec
une protéine connue 866 13,6 %

Protéines ayant une similarité avec une 790 12,4 %


protéine inconnue
Protéines sans similarité (orphelins) 803 12,6 %

Cadres ouverts de lecture douteux 447 7,0 %


A questionable ORF is defined by a combination of the following attributes: low CAI value, partial overlap to a longer or known ORF, no
similarity to other ORFs.

Février 2004 Bernard Labedan 39


Introduction à la Génomique

2. Annotation
2.7. La surprise des gènes orphelins
2.7.3. Vue globale

Pour la majorité des génomes,


on a une répartition 50/50 Fonction
entre le connu et l'inconnu déterminée
Gènes
orphelins expérimen-
(orfans) talement
Gènes à
fonction
inconnue et
spécifiques de Fonction assignée
l'organisme par homologie
sans ambiguité

Fonction
douteuse

Février 2004 Bernard Labedan 40


Introduction à la Génomique

2. Annotation
2.8. Problèmes à résoudre
• Les gènes inconnus : on les trouve de manière constante dans tous les
génomes nouvellement séquencés. A l'heure actuelle, on a plus de 20.000 gènes
orphelins présents dans les génomes microbiens.
• Les problèmes d’assignation : beaucoup de gènes annotés par homologie
distante et/ou à des gènes eux-mêmes mal caractérisés  notation floue

Solution
identifier leur fonction en utilisant des approches expérimentales

Étape la Génomique
obligatoire fonctionnelle

Février 2004 Bernard Labedan 41


Introduction à la Génomique

PLAN DU COURS

* Définition : les différents génomes

* Séquençage Un immense pas en avant qui


* Annotation révolutionne la Biologie

Un nouveau Génomique fonctionnelle


champ Transcriptome
d’investigation Protéome
avec de Étude globale d’un organisme
nombreuses
retombées Génomique structurale

Une nouvelle vision


Génomique comparative
du Monde Vivant
Février 2004 Bernard Labedan 42
Introduction à la Génomique

3. Génomique fonctionnelle
3.1. Deux approches complémentaires
3.1.1. inactivation systématique, un à un, de tous les gènes inconnus ou
potentiellement mal identifiés
analyse systématique du phénotype obtenu
Exemples : projets effectués pour S. cerevisiae et pour B. subtilis
par les consortiums qui ont participé précedemment au séquençage

3.1.2. analyse globale de l’expression d’ensembles de gènes

analyse en une étape des variations analyse en électrophorèse 2D et


d’expression de nombreux gènes par spectrométrie de masse des
la technique des puces à ADN protéines correspondantes

Transcriptome Protéome
Février 2004 Bernard Labedan 43
Introduction à la Génomique

3. Génomique fonctionnelle
3.2. Inactivation systématique des gènes inconnus
Example de S. cerevisiae
• Méthodologie
1. 1994-1998 : Approches de génétique classique : inactivation de chaque gène
(répartition des tâches dans un consortium de labo = EuroFan)
2. 1997-2001 : Approches plus génomiques : construction d’outils (à base de
transposon) permettant d’inactiver un grand nombre de gènes puis d’analyser
globalement les milliers de souches mutantes obtenues dans plusieurs dizaines de
conditions physiologiques
3. 1999-2002 : Construction d’une collection de délétions couvrant 96% des ORFs
annotées

• Résultats
1. Ces différentes approches n’ont pas résolu le mystère d’un nombre significatif des
gènes orphelins : pas d’attribution fonctionnelle claire
2. Cependant, on a pu regrouper beaucoup d’entre eux avec des gènes connus qui
s’expriment dans les mêmes conditions (même profil d’expression)
3. La collection de délétions a montré qu’un nombre très important (> 80%) des 6200
gènes sont « non-essentiels » dans les conditions du laboratoire. Cependant, la
construction systématique de 4700 double-mutants montre un très haut niveau
d’interaction fonctionnelle entre la majorité de ces gènes « non-essentiels ».
Février 2004 Bernard Labedan 44
Introduction à la Génomique

3. Génomique fonctionnelle
3.3. Analyse du transcriptome
3.3.1. Utilisation des puces à ADN : principe

sporulating vegetative yeast cells

Figure 1: Gene expression


analysis using a DNA
microarray.

For example, the greater


the cDNA sequences representing each abundance of the TEP1
individual transcript hybridize specifically mRNA in the sporulating
with the corresponding gene sequence in cells results in a high
the array ratio of red–labelled to
green–labelled copies of
the corresponding cDNA,

Thus, the relative abundance in


sporulating as compared with vegetative
yeast cells of the transcripts from each
gene is reflected by the ratio of 'red' to
'green' fluorescence measured at the
array element representing that gene.

Février 2004 Bernard Labedan 45


Introduction à la Génomique

3. Génomique fonctionnelle
3.3. Analyse du transcriptome
3.3.2. example de la levure Global Response of Saccharomyces cerevisiae
to an Alkylating Agent
Scott A. Jelinsky and Leona D. Samson (PNAS, 1999, 96 :1486-1491)
We simultaneously examine how ~6,200
Saccharomyces cerevisiae gene transcript levels,
representing the entire genome, respond to
environmental change.
Using chips bearing oligonucleotide arrays,
we show that
• ~325 gene transcript levels are increased,
• ~76 are decreased, upon exposure to
alkylating agent.
Of the 21 genes that were already known to be induced by a DNA damaging
agent, 18 can be scored as inducible in this data set, and surprisingly,
most of the newly identified inducible genes are even more
strongly induced than these.
Février 2004 Bernard Labedan 46
Introduction à la Génomique
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.1. Les grandes étapes
 Démarche classique
1. Électrophorèse 2D de l'ensemble des protéines
2. Identification des protéines connues par rapport à des
échantillons témoins les contenant
3. Identification des protéines inconnues par spectrométrie de
masse

 Nouvelles approches
1. Mesurer les niveaux d'expression :
a. Quantifier les différents jeux de protéines par
spectrométrie de masse
b. Puces à protéines
2. Détecter les modifications post-traductionnelles.

Une nouvelle vision de l'Univers des Protéines


Février 2004 Bernard Labedan 47
Introduction à la Génomique
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.2. Électrophorèse 2D des protéines de grande taille de E. coli

High M range of the E. coli gel image with scales of 250-33 kDa and a pI between
Février 2004
r
3 and 10
Bernard Labedan 48
Introduction à la Génomique
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.3. Identification des protéines inconnues par spectrométrie de masse
• Principe :
• Les protéines inconnues séparées par électrophorèse 2D sont éluées une à une
(spot par spot), protéolysées par la trypsine
• Si le spot élué contient une seule protéine, la séquence de chaque peptide peut
être déterminée par spectrométrie de masse et comparée directement avec les
séquences génomiques  Approche de type Maldi-TOF (Matrix-assisted laser
desorption ionization – time of flight)
• Sinon, on fait une protéolyse de l'ensemble des protéines (approche de type
shotgun) puis on sépare les différents peptides par chromatographie sur colonne,
avant de faire l'analyse en spectrométrie de masse avec de nombreuses
réitérations  Approche de type MUDPIT (multidimensional protein identification
technology)

Février 2004 Bernard Labedan 49


Introduction à la Génomique
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.3. Identification des protéines inconnues par spectrométrie de masse

Schéma comparatif (example de la levure)

MUDPIT 2D + Maldi-TOF

500.000 peptides tryptiques 20.000 protéines

5.500 peptides analysés 800 protéines séparées sur gel 2D

1.500 protéines identifiés 200 protéines identifiées

Février 2004 Bernard Labedan 50


Introduction à la Génomique
3. Génomique fonctionnelle Fig. 1.   Multidimensional Protein
Identification Technology (MudPIT). The
3.4. Analyse du protéome complex mixture of proteins present in a
whole cell lysate is fragmented with
Approche de type MUDPIT immobilized trypsin, after dilution to 2 M
urea, generating a highly complex
mixture.
The peptides are collected on a strong
cation exchange (SCX) column that is
positioned immediately upstream of a
reverse-phase (RP) column. Successive
peptide fractions are released, depending
on their isoelectric point, with salt steps
of increasing concentration at low
organic solvent concentrations and
captured by the second-dimension
reverse-phase column.
The reverse-phase column is eluted with
a gentle gradient of increasing organic
solvent concentration between each salt
step to displace the peptides, depending
on their hydrophobicity, into the mass
spectrometer.
The ion-trap mass spectrometer (LCQ-
DECA, ThermoFinnigan, San Jose, CA)
employs data-dependent acquisition
software to limit the time spent
sequencing any particular peptide, so
that as many different peptides as
possible are sequenced, regardless of
their abundance.

Février 2004 Bernard Labedan 51


Introduction à la Génomique
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.3. Identification des protéines inconnues par spectrométrie de masse
• Evolution technologique importante sur les 5 dernières années
• appareils de plus en plus sensibles, moins chers, plus faciles à utiliser
pour les non-spécialistes
  croissance exponentielle de leur utilisation
• Dans le proche futur, on pourrait ne plus avoir besoin de l'étape
électrophorèse 2D

Vers une analyse quantitative


de tout un protéome

Février 2004 Bernard Labedan 52


Introduction à la Génomique
4. Analyse du protéome
4.1. Analyse quantitative par spectrométrie de masse
 Résolution de problèmes
inhérents au protéome (qui est plus complexe que le génome)
qui ne peuvent être résolus par les puces à ADN
 pas de bonne corrélation entre quantités d'ARNm et
quantités de protéines
 modifications post-traductionnelles
 Mesure de l'expression des gènes par quantification des protéines.
 Deux approches :
• puces à protéines
• spectrométrie de masse quantitative de protéomes entiers
extraits à différents stades d'expression et traités à la trypsine
permet d'identifier de très nombreuses protéines sans aucune
purification. Example pour la levure : plus de 800 protéines

Février 2004 Bernard Labedan 53


Introduction à la Génomique
4. Analyse du protéome
4.2. Etude des complexes protéiques

Utilisation de différentes approches technologiques nouvelles pour


• comprendre les interactions entre protéines  interactome
• mettre en évidence des complexes protéiques qui pourraient assurer
un rôle physiologique bien précis  machines cellulaires

Février 2004 Bernard Labedan 54


Introduction à la Génomique
4. Analyse du protéome
4.2. Etude des complexes protéiques
4.2.1. Mise en évidence et charactérisation de
complexes protéiques formant des « machines
cellulaires » assurant une (supra)fonction
physiologique.
Protocole expérimental
Figure 1: Analysing protein interactions. In the 'co-
precipitation/mass spectrometry' approach used by
Gavin et al.1 and Ho et al.2, an 'affinity tag' is first
attached to a target protein (the 'bait'; a). b, Bait
proteins are systematically precipitated, along with
any associated proteins, on an 'affinity column'. c,
Purified protein complexes are resolved by one-
dimensional SDS–PAGE. d, Proteins are excised
from the gel, digested with the enzyme trypsin, and
analysed by mass spectrometry. Database-search
algorithms (bioinformatics) are then used to identify
specific proteins from their mass spectra.
Nature 415, 141 - 147 (2002) 55
Février 2004 Bernard Labedan
Introduction à la Génomique
Functional organization of the yeast proteome by systematic analysis of protein complexes

Méthode "TAP-TAG" Tandem-affinity purification (TAP) and mass


spectrometry were used in a large-scale approach to
characterize multiprotein complexes in S. cerevisiae.
1,739 genes, including 1,143 human orthologues of
relevance to human biology, were purified as 589
protein assemblies. Bioinformatic analysis of these
assemblies defined 232 distinct multiprotein
complexes and proposed new cellular roles for 344
proteins, including 231 proteins with no previous
functional annotation. Comparison of yeast and
human complexes showed that conservation across
species extends from single proteins to their
molecular environment. Our analysis provides an
outline of the eukaryotic proteome as a network of
protein complexes at a level of organization beyond
binary interactions. This higher-order map contains
fundamental biological information and offers the
context for a more reasoned and informed approach
to drug discovery.
Figure 3 Primary validation of complex composition by 'reverse'
purification: the polyadenylation machinery. a , A similar band
pattern is observed when different components of the polyadenylation
machinery complex are used as entry points for affinity purification.
Underlined are new components of the polyadenylation machinery
complex for which a physical association has not yet been described.
The bands of the tagged proteins are indicated by arrowheads. b,
Proposed model of the polyadenylation machinery.
Nature 415,
Février 2004141 - 147 (2002) Bernard Labedan 56
Introduction à la Génomique
4.2. Etude des complexes protéiques 4.2.2. Relations entre les complexes
protéiques : un réseau de fonctions
et de régulations.
Figure 4 The protein complex
network, and grouping of connected
complexes. Links were established
between complexes sharing at least
one protein. For clarity, proteins found
in more than nine complexes were
omitted. In the upper panel, cellular
roles of the individual complexes are
colour coded: red, cell cycle; dark
green, signalling; dark blue,
transcription, DNA maintenance,
chromatin structure; pink, protein and
RNA transport; orange, RNA
metabolism; light green, protein
synthesis and turnover; brown, cell
polarity and structure; violet,
intermediate and energy metabolism;
light blue, membrane biogenesis and
traffic. The lower panel is an example
of a complex (yeast TAP-C212) linked
to two other complexes (yeast TAP-
C77 and TAP-C110) by shared
components. It illustrates the
connection between the protein and
complex levels of organization. 57
Février 2004 Bernard Labedan
Introduction à la Génomique
4. Analyse du protéome
4.2. Etude des complexes protéiques
4.2.3. Perspectives sur l'étude des interactomes

 une hypothèse raisonnable est que, dans la foule des protéines qui
encombrent en permanence le cyoplasme, les interactions ne peuvent se
faire par rencontre au hasard
 il faut donc imaginer un mécanisme de transfert d'information
permettant des interactions préprogrammées entre protéines

 notionnouvelle de code protéomique, inscrit dans


le génome, qu'il va falloir découvrir

Février 2004 Bernard Labedan 58


Introduction à la Génomique

PLAN DU COURS

* Définition : les différents génomes

* Séquençage Un immense pas en avant qui


* Annotation révolutionne la Biologie

Génomique fonctionnelle
Un nouveau champ
Protéomique
d’investigation avec de
Étude globale d’un organisme
nombreuses retombées
Génomique structurale

Une nouvelle vision


Génomique comparative
du Monde Vivant

Février 2004 Bernard Labedan 59


Introduction à la Génomique
5. Étude globale d’un organisme
De nombreuses informations cruciales peuvent être obtenues à
partir des données de la génomique

Quelques exemples parmi beaucoup d’autres :

mise en évidence des opérons et autres régulons

mise en évidence des sites d’initiation et de terminaison


de la réplication
reconstruction putative de l’ensemble du métabolisme

reconstitution progressive de la physiologie et du mode de


vie de l’organisme

Février 2004 Bernard Labedan 60


Introduction à la Génomique
5. Étude globale d’un organisme
5.1. Mise en évidence des sites d’initiation et de terminaison de la réplication chez
les procaryotes
5.1.1. Principe du biais de GC (GC skew)

• Principe basé sur les travaux de Jean Lobry (1996)

 Il y a un biais dans la composition en GC des brins


 en théorie [C] =[G]
 en pratique, un brin plus riche en C ou G

 calcul du biais par la formule G-C


G+C
 Cette déviation change de signe au passage de
l’origine et de la terminaison de la réplication

L’analyse de la distribution en GC va donc permettre une


localisation virtuelle de l’origine de réplication du
chromosome chez des organismes jamais étudiés
Février 2004 Bernard Labedan 61
Introduction à la Génomique
5. Étude globale d’un organisme
5.1. Mise en évidence des sites d’initiation et de terminaison de la réplication
5.1.2. cas de E. coli

Figure 2. Base composition


is not randomly distributed in
the E. coli genome.

G-C skew [(G - C)/(G + C)] is plotted


as a 10-kb window average for one
strand of the entire E. coli genome.
Skew plots for the three codon
positions are presented separately;
leftward genes, rightward genes, and
non-protein-coding regions are
shown in lines 5, 6, and 7. Two
vertical lines through the plots show
the location of the origin and terminus
of replication.

Février 2004 Bernard Labedan 62


Introduction à la Génomique
5. Étude globale d’un organisme
5.1. Mise en évidence des sites d’initiation et
de terminaison de la réplication
5.1.3. Déductions basées sur le biais
de GC et extensions de l’approche

Identification of putative chromosomal


origins of replication in Archaea
Philippe Lopez, Hervé Philippe, Hannu Myllykallio & Patrick Forterre

Ces prédictions ont ensuite été


vérifiées expérimentalement
dans le cas de Pyrococcus

Février 2004 Bernard Labedan 63


Introduction à la Génomique
5. Étude globale d’un organisme
5.2. Reconstitution virtuelle du métabolisme d’organismes peu ou pas étudiés

• Principe
 On essaye de reconstituer à partir des assignations de fonctions les principales
voies métaboliques (glycolyse, cycle de Krebs, voies de biosynthèse et
dégradation, etc..).
 Cette démarche est fondamentale pour mieux cerner la physiologie
d’organismes sur lesquels il n’y a eu aucune étude biochimique
 Elle permet aussi de contrôler l’étape d’annotation

• Exemples :
 absence d’une enzyme-clé dans une voie métabolique où
toutes les autres étapes en amont et en aval ont été détectées

 absence d’un constituant d’une machinerie cellulaire


comme le moteur du flagelle

Février 2004 Bernard Labedan 64


Introduction à la Génomique

5. Étude globale
d’un organisme
5.2. Reconstitution
virtuelle du métabolisme :
cas de Borrelia burgdorferi
• Apparent absence of genes for
the synthesis of amino acids, fatty
acids, enzyme cofactors, and
nucleotides.
• Genes encoding all of the
enzymes of the glycolytic pathway
were identified.
•Analysis of the metabolic pathway
suggests that B. burgdorferi uses
glucose as a primary energy
source, although other
carbohydrates, including glycerol,
may be used in glycolysis.
•Pyruvate produced by glycolysis
is converted to lactate, consistent
with the microaerophilic nature of
B. burgdorferi.
Février 2004 Bernard Labedan 65
Introduction à la Génomique

5. Étude globale d’un organisme


5.3. Autres apports sur le mode de vie de l’organisme
5.3.1. Exemple du pathogène Chlamydia trachomatis
Remise en cause de résultats expérimentaux que l’on croyait bien établis
Chlamydia est capable de synthétiser son propre ATP
Chlamydia est capable de synthétiser son peptidoglycane
Des protéines “essentielles” sont absentes
Cas de la S-adénosylméthionine transférase, de FtsZ...

Transferts horizontaux
Présence de nombreux (>20) gènes ressemblant à des gènes de plantes

En fait, on a montré très récemment que ces gènes de plantes sont localisés dans le
chloroplaste, ce qui suggère une relation phylogénétique plus étroite que l’on ne pensait
entre les cyanobactéries et les chlamydiae.
La présence de ces gènes ne serait donc pas dû à quelque mécanisme de
transfert horizontal.

Février 2004 Bernard Labedan 66


Introduction à la Génomique
5. Étude globale d’un organisme
5.3. Autres apports sur le mode de vie de l’organisme
5.3.2. Exemple du symbionte Buchnera sp. : évolution vers un organite
• Buchnera, un symbionte des cellules de certains hyménoptères, est très proche de Escherichia
coli mais n’a conservé que 21% des gènes présents dans l’ancêtre commun
• Élimination drastique de tous les gènes faisant double emploi avec l’hôte, mais maintien de
ceux qui sont indispensables au métabolisme de la cellule-hôte Shinegobu et al, 2000 Nature 407:81

Buchnera is missing most of the genes that code for


protective cell walls, as well as those needed to repair
damaged DNA. This indicates that aphid cells shelter
the bacteria from the rough and tumble of the outside
world.
Buchnera doesn't have 'regulatory' genes any more.
Presumably it doesn't need them, because the
environment inside the aphids is constant.
Buchnera also lack many of the common genes needed
to respire. They use energy produced in the aphid cells
instead.
But the flow of resources is not just one way. Aphids
need 10 essential 'amino acids' which they get from
Buchnera.

The Buchnera genome presents a fascinating


picture of an organism that sits half-way between
a true organelle and a free-living symbiont

Février 2004 Bernard Labedan 67


Introduction à la Génomique

PLAN DU COURS

* Définition : les différents génomes

* Séquençage Un immense pas en avant qui


* Annotation révolutionne la Biologie

Génomique fonctionnelle
Un nouveau champ
Protéomique
d’investigation avec de
Étude globale d’un organisme
nombreuses retombées
Génomique structurale

Une nouvelle vision


Génomique comparative
du Monde Vivant

Février 2004 Bernard Labedan 68


Introduction à la Génomique
6. Génomique structurale
6.1. Une approche très ambitieuse : science à haut débit
 Objectif : cristallisation progressive de toutes les protéines codées par un
génome afin de déterminer leur structure 3D par résonance magnétique
nucléaire (RMN) ou par rayons X

 Buts :
 meilleure caractérisation de la fonction des ORFs inconnues
 recherche d’homologues très distants
 construction d’une base de données de tous les modes de repliement
 détermination de nouvelles cibles d’intérêt thérapeutique (cibles
pour antibiotiques, anticancéreux), ou biotechnologique

 Un effort international :
 Devant l'ampleur de la tâche, il a été décidé en 2001 de coordonner les
efforts des différents consortiums qui s'étaient mis en place et de partager
l'ensemble des données obtenues pour gagner en efficacité

Février 2004 Bernard Labedan 69


Introduction à la Génomique
6. Génomique structurale
6.2. L'approche locale : cas de la levure
• projet multidisciplinaire réunissant plusieurs groupes de biologistes et de
physiciens à Orsay, Gif-sur-Yvette, Saclay et Jouy-en-Josas

• première étape (hiver 2000) : choix des meilleures phases ouvertes de


lecture. Recherche basée sur des critères d’homologie et de taille (pas
de protéines multi-domaines)

• deuxième étape (reste de l'année 2000) : projet pré-pilote sur 20


protéines : mise au point de conditions optimales pour exprimer et
purifier ces protéines

• troisième étape (années 2001-2003) : passage au projet pilote sur


environ 400 protéines : mise en place d’un rythme de croisière pour
 obtenir un haut débit de production de cristaux
 enregistrer tous les problèmes dans les différentes étapes pour
automatiser au maximum leur résolution future

Février 2004 Bernard Labedan 70


Introduction à la Génomique
6. Génomique structurale
6.2. L'approche locale : évolution de l'approche à haut débit
Clonage Expression Solubilité Purification Cristaux RMN X

• 134 oui • 111 oui • 62 oui • 35 oui • 7 oui • 0 oui •1 oui


12/01 • 40 en cours • 16 non • 44 non • 0 non • 0 non • 0 non • 0 non
• 5 en cours • 5 en cours • 50 en cours • 17 en cours • 1 en • 3 en
cours cours

Clonage Expression Solubilité Purification Cristaux RMN X

01/03 • 232 oui • 194 oui • 117 oui • 60 oui • 16 oui • 0 oui • 3 oui
• 7 en cours • 28 non • 65 non • 0 non • 2 non • 0 non • 0 non
• 6 en cours • 13 en cours • 99 en cours • 26 en cours • 2 en • 4 en
cours cours

Clonage Expression Solubilité Purification Cristaux RMN X

• 259 oui • 215 oui • 131 oui • 83 oui • 23 oui • 0 oui • 13 oui
01/04 • 11 en cours • 27 non • 71 non • 0 non • 3 non • 0 non • 0 non
• 12 en cours • 14 en cours • 95 en cours • 40 en cours • 2 en • 2 en
cours cours

Février 2004 Bernard Labedan 71


Introduction à la Génomique
6. Génomique structurale
6.3. L'effort international : premier bilan
• Nouvelles approches technologiques  haut débit
• mise au point de méthodes automatiques (robotiques) pour tester la
solubilité des protéines à crystalliser
• mise au point de nouveaux systèmes d'expression
• in vivo dans E. coli ou la levure Pichia pastoris pour les
microorganismes
• in vitro pour les eucaryotes complexes (Arabidopsis, homme, souris)
• utilisation de la RMN pour une analyse directe de petites protéines sans
purification

• Premières structures
• tous projets confondus, 117 structures ont été publiées après 18 mois
d'effort
• ce jeu de protéines contient statistiquement plus de nouveaux repliements
qu'un jeu équivalent de protéines résolues par des groupes indépendants

Février 2004 Bernard Labedan 72


Introduction à la Génomique

PLAN DU COURS

* Définition : les différents génomes

* Séquençage Un immense pas en avant qui


* Annotation révolutionne la Biologie
Un nouveau Génomique fonctionnelle
champ Transcriptome
d’investigation Protéome
avec de Étude globale d’un organisme
nombreuses
retombées Génomique structurale

Une nouvelle vision


Génomique comparative
du Monde Vivant
Février 2004 Bernard Labedan 73
Introduction à la Génomique

7. Génomique comparative
Dès que l’on a disposé de plusieurs génomes entièrement séquencés, on a eu envie de
les comparer : démarche classique en Recherche Fondamentale

Plasticité du synténie
génome
Organisation Ilôts de
des gènes pathogénicité
transferts
Dynamique des horizontaux
génomes
Évolution moléculaire Évolution
des protéines

Biochimie des
organismes Arbre du vivant
Dernier ancêtre
commun universel

Voies métaboliques Systèmes d’information

Février 2004 Bernard Labedan 74


Introduction à la Génomique
7. Génomique comparative
Vue d'ensemble :
• comparaison des données issues du séquençage de génomes d'organismes
variés peut se faire à différents niveaux :
 comparer les jeux de gènes (protéines) entre génomes  informations
sur la dynamique des génomes à courte et longue distance
 comparer les gènes (protéines) homologues entre eux au niveau de leur
séquence  notion de gènes paralogues et orthologues
 comparer la position des gènes et leur voisinage sur le chromosome
 notion de synténie
 notion de contexte génétique

Incidence :
 informations sur les relations fonctionnelles, le métabolisme, la physiologie
d'organismes peu ou pas étudiés
 mise en évidence de différents types de gènes : informationnel,
opérationnel
 mise en évidence de phénomènes de transfert horizontal
Février 2004 75
Bernard Labedan
Introduction à la Génomique
7. Génomique comparative
Grands points abordés Résultats éclairant les mécanismes
évolutifs sous-tendants
1. Les différents types de gènes
a. au niveau homologie
 La régulation homéostatique
b. au niveau fonctionnel
du nombre de gènes

2. Acquisition et perte de gènes  L'évolution des protéines


a. Duplication  L'évolution des génomes
b. Transfert horizontal
c. Dégradation en pseudogènes  La topologie de l'Arbre du
Vivant et la nature du dernier
3. Conservation de l'ordre des gènes ancêtre commun universel
a. Mécanisme de rupture de la
synténie
b. Contexte génétique : déduction
fonctionnelle

Février 2004 Bernard Labedan 76


Introduction à la Génomique
7. Génomique comparative
7.1. Les différents types de espèce ancestrale
gènes homologues A B
duplication interne
7.1.1. Modèle de Fitch du gène B et
divergence des
deux copies
A B1 B2

divergence par
spéciation

A B1 B2 A B1 B2

divergence par spéciation

A B1 B2 A B1 B2 A B1 B2 A B1 B2

espèce 1 espèce 2 espèce 3 espèce 4

Les homologues de A Les homologues de B1


sont des et de B2 sont des
Gènes Gènes
Février 2004
Orthologues Paralogues Bernard Labedan 77
Introduction à la Génomique
7. Génomique comparative
7.1. Les différents types de gènes homologues
7.1.2. Comparaison interspécifique (orthologues) et intraspécifique (paralogues)
• Recherche des relations de parentés entre les gènes appartenant à différents
génomes
• Deux types de comparaison menés en parallèle pour
 constituer des familles de gènes homologues
 identifier les gènes uniques à chaque génome

1 Comparaison intragénomique Comparaison intergénomique

2 familles de gènes paralogues familles de gènes orthologues

Dénombrement des gènes


Dénombrement des gènes
présents dans l'ancêtre
3 issus d'une duplication
commun aux espèces
ancestrale
comparées
Février 2004 Bernard Labedan 78
Introduction à la Génomique
7. Génomique comparative
7.1. Les différents types de gènes
7.1.3. Comparaison au niveau fonctionnel
• Résultat obtenu au cours de comparaisons intergénomiques
• Mode d'évolution différent selon les trois Domaines du Vivant

Gènes opérationnels Gènes informationnels


 métabolisme  réplication
 transport actif  recombinaison
 grandes fonctions cellulaires  transcription
 secrétion  traduction

• Les gènes informationnels des archaea sont homologues de ceux des


eucaryotes mais n'ont pas de parenté avec ceux des bactéries
• Les gènes opérationnels s'échangent plus facilement par transfert horizontal

Février 2004 Bernard Labedan 79


Introduction à la Génomique
7. Génomique comparative
Grands points abordés Résultats éclairant les mécanismes
évolutifs sous-tendants
1. Les différents types de gènes
a. au niveau homologie
 La régulation homéostatique
b. au niveau fonctionnel
du nombre de gènes

2. Acquisition et perte de gènes  L'évolution des protéines


a. Duplication  L'évolution des génomes
b. Transfert horizontal
c. Dégradation en pseudogènes  La topologie de l'Arbre du
Vivant et la nature du dernier
3. Conservation de l'ordre des gènes ancêtre commun universel
a. Mécanisme de rupture de la
synténie
b. Contexte génétique : déduction
fonctionnelle

Février 2004 Bernard Labedan 80


Introduction à la Génomique
7. Génomique comparative
7.2. Acquisition et perte de gènes : les grands mécanismes internes et externes

• Augmentation du nombre de gènes


1. Apport extérieur
• Transfert horizontal
2. Création interne de novo
• Duplication de gènes, de fragments chromosomiques

• Perte de gènes
– Élimination des gènes "non nécessaires"
• Adaptation à un mode de vie dépendant
• Processus naturel de régulation de la taille du génome

Février 2004 Bernard Labedan 81


Introduction à la Génomique
7. Génomique comparative
7.2. Acquisition et perte de gènes : les grands mécanismes internes et externes
7.2.1. mécanismes internes d'acquisition de nouvelles fonctions : duplication de gènes et/ou fusion

duplication d’un gène puis


divergence des copies fusion de
par accumulation de deux gènes
mutations voisins

génome
ancestral

apparition de fonctions plus apparition de nouvelles


spécialisées par évolution fonctions par évolution
progressive des copies de gènes progressive des produits de
dupliqués fusion de gènes voisins
Février 2004 Bernard Labedan 82
Introduction à la Génomique
7. Génomique comparative
7.2. Acquisition et perte de gènes : les grands mécanismes internes et externes
7.2.2. mécanismes internes de perte de fonctions devenues superflues : gènes  pseudogènes
le cas des Mycobactéries Pseudogènes = ORFs
interrompus ayant des
orthologues fonctionnels
chez M. tuberculosis

gènes spécifiques
à M. leprae

Mycobacterium tuberculosis leprae

Taille 4,41 Mb 3,27 Mb


Nb de gènes attendus # 4000 # 3000
Nb de gènes trouvés 3924 1604
Nb de pseudogènes 9 1116
identifiés

Février 2004 Bernard Labedan 83


Introduction à la Génomique
7. Génomique comparative
7.2. Acquisition et perte de gènes : les grands mécanismes internes et externes
7.2.3. mécanismes moléculaires de la conversion gènes  pseudogènes chez les Rickettsiae : résumé

Ogata et al, , 2001


1. gène (ORF) intact Science 293:2093

2. gène morcelé en plusieurs ORFs


(transcrits indépendants)

3. gène morcelé en ORFs qui ne sont plus


transcrits

4. gène très dégradé avec des ORFs encore


reconnaissables

5. disparition complète sous forme de


région intergénique
Février 2004 Bernard Labedan 84
Introduction à la Génomique
7. Génomique comparative
Grands points abordés Résultats éclairant les mécanismes
évolutifs sous-tendants
1. Les différents types de gènes
a. au niveau homologie
 La régulation homéostatique
b. au niveau fonctionnel
du nombre de gènes

2. Acquisition et perte de gènes  L'évolution des protéines


a. Duplication  L'évolution des génomes
b. Transfert horizontal
c. Dégradation en pseudogènes  La topologie de l'Arbre du
Vivant et la nature du dernier
3. Conservation de l'ordre des gènes ancêtre commun universel
a. Mécanisme de rupture de la
synténie
b. Contexte génétique : déduction
fonctionnelle

Février 2004 Bernard Labedan 85


Introduction à la Génomique
7. Génomique comparative
7.3. Conservation de l'ordre des gènes et rupture de la synténie

• Rupture de la synténie
1. Apport extérieur
• incorporation d'ilôts génomiques par transfert horizontal
2. Mécanisme interne physiologique
• translocations réciproques au cours de la réplication
bidirectionnelle

• Conservation de l'ordre des gènes


– Maintien de certaines relations de voisinage
• Pour des raisons fonctionnelles
• Pour des raisons de régulation commune de l'expression des
gènes voisins

Février 2004 Bernard Labedan 86


Introduction à la Génomique
7. Génomique comparative
7.3. Rupture de la synténie
7.3.1. mécanisme de transfert horizontal

ilots génomiques (groupe de gènes)


• apportant des fonctionnalités
nouvelles
• repérés par leur usage de
codon différent

Découverte progressive de types


d'ilots à finalité différente
Février 2004 Bernard Labedan 87
Introduction à la Génomique
7. Génomique comparative
7.3. Rupture de la synténie
7.3.2. Extension des catégories d'ilots

• Observés pour la première fois


dans le cas des pathogènes
• Concept d'ilôts étendu à tout
bloc de gènes capables de
bouger d'un génome à l'autre
et de s'y maintenir parce que
les gènes étrangers
augmentent les capacités
d'adaptation de l'organisme à
des environnements variés

Février 2004 Bernard Labedan 88


Introduction à la Génomique
7. Génomique comparative
7.3. Rupture de la synténie
7.3.3. Exemple des ilots de
O157:H7 EDL933
pathogénicité : cas de E. coli
5,3 Mb

pathogène
ilots génomiques échangés entérohémorrhagique
par transfert horizontal
K12 d’une souche à l’autre :
• certains identiques
4,6 Mb
• d’autres spécifiques
souche de laboratoire
non pathogène

CFT073
Structure génomique 5,2 Mb
de type mosaïque
pathogène
urinaire

Février 2004 Bernard Labedan 89


Introduction à la Génomique
7. Génomique comparative
7.3. Rupture de la synténie
7.3.4. Mécanisme interne

• Chez les procaryotes, la synténie est très vite perdue.


• Un mécanisme moléculaire qui pourrait être responsable
de ce phénomène a été proposé :
• les régions de translocation apparaissent symmétriques par rapport
à l'axe de réplication
• Hypothèse : c'est au moment du passage des deux fourches de
réplication que se feraient les échanges de segments chromosomiques
par recombinaison réciproque

Février 2004 Bernard Labedan 90


Introduction à la Génomique
7. Génomique comparative
7.3. Rupture de la synténie
7.3.5. Gradient de synténie en fonction de la distance phylogénétique entre espèces

Février 2004 Bernard Labedan 91


Introduction à la Génomique
7. Génomique comparative
7.3. Rupture de la synténie
7.3.5. Mécanisme interne : la réplication aurait un rôle majeur

• les régions de translocation apparaissent


symmétriques par rapport à l'axe de réplication
• c'est au moment du passage des deux fourches de
réplication que se feraient les échanges de segments
chromosomiques par recombinaison réciproque
Février 2004 Bernard Labedan 92
Introduction à la Génomique
7. Génomique comparative
Grands points abordés Résultats éclairant les mécanismes
évolutifs sous-tendants
1. Les différents types de gènes
a. au niveau homologie
 La régulation homéostatique
b. au niveau fonctionnel
du nombre de gènes

2. Acquisition et perte de gènes  L'évolution des protéines


a. Duplication  L'évolution des génomes
b. Transfert horizontal
c. Dégradation en pseudogènes  La topologie de l'Arbre du
Vivant et la nature du dernier
3. Conservation de l'ordre des gènes ancêtre commun universel
a. Mécanisme de rupture de la
synténie
b. Contexte génétique : déduction
fonctionnelle

Février 2004 Bernard Labedan 93


Introduction à la Génomique
7. Génomique comparative
7.4. Contexte génétique
7.4.1. Problèmes de voisinage

Conservation de l'ordre de certains gènes malgré la rupture de la synténie


 Maintien strict de relations de voisinage pour certaines associations de gènes
 Notion de contexte génétique
 Gènes ayant une régulation commune de leur expression
– Cas des opérons
 Gènes codant des protéines ayant des relations fonctionnelles cruciales
– approche "pierre de Rosette"

Février 2004 Bernard Labedan 94


Introduction à la Génomique
7. Génomique comparative
7.4. Contexte génétique
7.4.2. Le voisinage peut indiquer un lien fonctionnel

Modèle de travail

If two genes (blue and yellow in the


figure) are found to be neighbours
in several different genomes, a
functional linkage may be inferred
between the proteins they encode.
The method is most robust for
microbial genomes but may work to
some extent even for human genes
where operon-like clusters are
observed

Eisenberg et al, 2000, Nature 405:823

Février 2004 Bernard Labedan 95


Introduction à la Génomique

7. Génomique comparative
7.4. Contexte génétique
7.4. 3. Méthode de la pierre de Rosette : Application à l’annotation de gènes inconnus dans
les génomes entièrement séquencés
Fig. 1.   Correspondence between
functional associations and genes linked
by the fusion method. Independent
genes in one genome may be found as
M. genitalium one continuous gene in other genomes.
These fusion links can confirm known
functional relationships between genes:
M. genitalium genes phosphoglycerate
kinase (PGK), triosephosphate
isomerase (TPIA), and glyceraldehyde-3-
phosphate dehydrogenase (GAP), all
sequential agents in glycolysis, are
linked by fusion events elsewhere.
These links may be used to infer
putative functions when one of the
component genes is of an unknown
function.
Analyse systématique sur 30 génomes microbiens (travail effectué en 2001) :
• 72 % des fusions correspondent au même type de fonction (comme ci-dessus)
• 661 gènes inconnus ont pu être annotés en leur attribuant un rôle potentiel dans une
grande catégorie fonctionnelle
Février 2004 Bernard Labedan 96
Introduction à la Génomique
7. Génomique comparative
Grands points abordés Résultats éclairants les mécanismes
sous-tendants
1. Les différents types de gènes
a. au niveau homologie
 La régulation homéostatique
b. au niveau fonctionnel
du nombre de gènes

2. Acquisition et perte de gènes  L'évolution des protéines


a. Duplication  L'évolution des génomes
b. Transfert horizontal
c. Dégradation en pseudogènes  La topologie de l'Arbre du
Vivant et la nature du dernier
3. Conservation de l'ordre des gènes ancêtre commun universel
a. Mécanisme de rupture de la
synténie
b. Contexte génétique : déduction
fonctionnelle

Février 2004 Bernard Labedan 97


Introduction à la Génomique
7. Génomique comparative
7.5. Conservation de la taille des génomes : modèle de travail

Observations sur les génomes de procaryotes:


1. Corrélation entre taille du génome et nombre de
gènes
2. Pratiquement, tous les gènes codent une protéine
dont la fonction est utile au mode de vie de
l’organisme
3. Acquisition de nouveaux gènes = évènements
fréquents
4. Cependant, la taille globale n’augmente pas

Mira et al, 2001 TIG 17:589

Modèle de travail
– Tout gène non essentiel est contre-sélectionné et éliminé
rapidement, laissant la taille du génome inchangée
– Perte de gènes = processus constant et naturel de
régulation de la taille du génome
Février 2004 Bernard Labedan 98
Introduction à la Génomique
7. Génomique comparative
7.6. plasticité des génomes

Apport de gènes
par duplication Rigidité

Apport de gènes et Perte programmée


rupture de synténie de gènes
par transfert latéral

rupture de synténie certains gènes ne


par mouvement
peuvent être séparés :
incessant des gènes
contexte génétique
Fluidité

Un équilibre résultant de la neutralisation réciproque


de forces motrices antagonistes
Février 2004 Bernard Labedan 99
Introduction à la Génomique
7. Génomique comparative
7.6. évolution des génomes : un résumé
État homéostatique où gain et perte de gènes s'équilibrent

Génome perte programmée


multipotent de gènes
autosuffisant
acquisition de gènes
a ux Génome
st r gènes contemporains
a nc
e " minimal "
s codant de nombreuses
è ne dépendant
s g
de fonctions variées et
n
utio sophistiquées
o l
év
ne contient que les gènes
contemporains codant les
Génome ancestral fonctions nécessaires à des
états particuliers comme la
gènes ancestraux codant
pathogénicité ou la
quelques fonctions
symbiose
primordiales
Février 2004 Bernard Labedan 100
Introduction à la Génomique

7. Génomique comparative
7.8. Notion de génome minimal
7.8.1. Approches conceptuelle et expérimentale
• Concept
 Rechercher le jeu de gènes minimal permettant une vie autonome
 permettrait de se représenter le contenu génétique des premiers organismes
ancestraux

• Premières approches expérimentales


 génomique comparative des premiers petits génomes séquencés (H. influenzae
et M. genitalium) biais car pathogènes n’ont pas de vie autonome
 256 gènes prédits
 analyse expérimentale sur M. genitalium  265-350 gènes indispensables
 analyse expérimentale sur H. influenzae  259 gènes indispensables
 cas récent de B. subtilis (4200 gènes), un organisme capable de mener une
réelle vie autonome environ 300 gènes seulement seraient essentiels

• Donc, grande convergence !!


Février 2004 Bernard Labedan 101
Introduction à la Génomique
7. Génomique comparative
7.8. Notion de génome minimal
7.8.2. cas de E. coli
O157:H7 EDL933

5,3 Mb

pathogène
entérohémorrhagique

CFT073
K12
Noyau commun de gènes  5,2 Mb
4,6 Mb
génome minimal putatif
souche de laboratoire pathogène
non pathogène urinaire

Février 2004 Bernard Labedan 102


Introduction à la Génomique
7. Génomique comparative
7.8. Notion de génome minimal
7.8.2. cas de E. coli
Noyau commun de gènes (2996)  génome minimal putatif

Projet de construction expérimentale d’un E. coli minimal (souche


poussant parfaitement sur milieu minimum dans les conditions du
laboratoire)
• délétions de toutes les régions de pathogénie
• délétions de toutes les régions extrachromosomiques (prophages, IS,
etc…)
• délétion systématique de tous les gènes chromosomiques pour tester s’ils
sont indispensables

Février 2004 Bernard Labedan 103


Introduction à la Génomique
7. Génomique comparative
7.9. Retentissement sur l'arbre du Vivant

PROCARYOTES EUCARYOTES

BACTERIA ARCHAEA EUCARYA


Escherichia Mitochondries
Rickettsia Bacillus
Helicobacter Streptomyces Thermoplasma ANIMAUX

Fusobacterium Mycobacterium Halophiles


Chlamydiae Methanococcus Paramecium CHAMPIGNONS
Brevibacterium Methanobacterium
PLANTES
Bactéries vertes Treponema Corynebacterium Pyrococcus Methanosarcina
Entamoeba
Thermoproteus
sulfureuses Borrelia Pyrobaculum Dictyostelium
Desulfurococcus
Cyanobactéries Bactéries vertes
non sulfureuses Trypanosoma

Thermus Sulfolobus

Deinococcus Archaeglobus
Physarum
Euglena
Pyrodictium

Methanopyrus Vairimorpha

Microsporidies (Giardia)
Thermotoga
Titrichomonas
Aquifex
Dernier Ancêtre Commun Universel

Apports de la génomique
mise en évidence de nombreux transferts horizontaux

vérification de la topologie
A terme
nature et contenu du dernier ancêtre commun universel

Février 2004 Bernard Labedan 104


Introduction à la Génomique
7. Génomique comparative
7.10. Les arbres génomiques
Les distances séparant les espèces
sont déterminées selon différentes
données génomiques.
On a successivement pris en compte
• le contenu en gènes dans chaque
génome
• la conservation du voisinage des
gènes dans les génomes
• les distances séparant les familles
d’orthologues
• et d’autres approches plus
phylogénétiques (super-arbres,
etc…)

Arbre consensus des arbres obtenus


avec ces différentes méthodes
Wolf, Rogozin, Grishin and Koonin (2002) TIG
Février 2004 Bernard Labedan 105
Introduction à la Génomique

8. L'approche Bioinformatique
8.1. Un outil indispensable
La bioinformatique est devenue un outil indispensable et intervient à
tous les stades de la génomique chaine de prédictions

gène protéine fonction


séquence structure

quelques problèmes d’automatisation :


identification des gènes chez Example de la drosophile, peu de gènes ont été
les eucaryotes correctement identifiés au niveau intron/exon
relation séquence/structure Plus de 1.00.000 séquences dans GenBank/EMBL
2.500 structures dans la PDB
identification des fonctions mieux estimer l’homologie
ortho/para
domaine/module “bricolage”
définitions souvent trop vagues problèmes d’ontologie
bases de données bases de connaissances

Février 2004 Bernard Labedan 106


Introduction à la Génomique

8. L'approche Bioinformatique
8.2. Des services irremplaceables

Mise en place d'une panoplie sans cesse élargie de services accessibles


par Internet. Quelques examples :
• des bases de données généralistes ou spécialisées
• de plus en plus de serveurs permettant de faire des calculs en ligne
sans avoir à maitriser le fonctionnement des différents algorithmes
• en quelques clics on peut enchainer une suite de recherches
successives relativement complexes
• arme à double tranchant : beaucoup reçoivent les résultats
obtenus avec une confiance aveugle, sans aucun esprit critique
• des bases de connaissances de mieux en mieux faites
• initiative internationale : développer une ontologie unique
pour l'ensemble de la Génomique (en fait de la Biologie)

Février 2004 Bernard Labedan 107


Introduction à la Génomique

9. Quelques perspectives
9.1. La Génomique, une Science à haut débit
• Projets déjà bien établis :
 génomique stucturale : une douzaine de projets internationaux
 puces à ADN : commencent à être utilisées de manière routinière
 protéomique : de plus en plus généralisée
• Projets en émergence
 interaction entre complexes protéiques  interactome
 annotation fonctionnelle sur les eucaryotes par mutagénèse par
transposon : exemple du chromosome X de la drosophile : 130 gènes
inconnus ont été inactivés par le transposon P. Prévision déduite : le
chromosome X contiendrait # 820 gènes essentiels
 application inattendue des puces : une bactérie symbionte de la
mouche tsé-tsé, proche de E. coli, a pu être étudiée extensivement.
650 orthologues (85% du génome du symbionte) ont pu être
identifiés en utilisant des puces construites pour E. coli.

Février 2004 Bernard Labedan 108


Introduction à la Génomique

9. Quelques perspectives
9.2. Retombées appliquées
• Pharmacogénomique et Médecine :
 recherche de nouvelles cibles thérapeutiques
 antibiotiques de nouvelle génération
 drogues anti-cancéreuses plus spécifiques …

 recherche de prédispositions génétiques à différentes maladies

• Retombées juridiques et éthiques :


 aurons-nous chacun un jour notre carte génomique personnelle ?
 protection contre les employeurs
 protection contre les assureurs

Février 2004 Bernard Labedan 109


Introduction à la Génomique

9. Quelques perspectives
9.3. Une nouvelle littérature
• Eclosion de nombreux nouveaux journaux spécialisés
• La plupart des journaux existants ont ajouté une division
"Génomique" à leurs champs de compétences
• Beaucoup de Congrès et Symposiums ont aussi ajouté des sessions dites
de Génomique, même si cela est quelquefois très artificiel

Février 2004 Bernard Labedan 110


Introduction à la Génomique

9. Quelques perspectives
9.4. Une nouvelle manière holistique (globale) de faire de la Biologie
• Après de très nombreuses années de réductionnisme (un gène une
fonction), on est passé à des niveaux d'intégration de plus en plus élevés
• interaction de protéines pour créer des machines cellulaires
• interaction de ces machines cellulaires pour créer des réseaux intégrés
• interaction de ces réseaux intégrés pour créer des organites

L'étude de ces assemblages de machines cellulaires pourrait


• aider à mieux déchiffrer la relation complexe entre génotype et
phénotype
• renouveler les approches appliquées (médecine,
pharmacogénomique) ou fondamentales (biologie structurale) pour
comprendre et mieux définir les vraies cibles des interactions entre un
effecteur (médicament) et une protéine

Février 2004 Bernard Labedan 111


Introduction à la Génomique

10. Une nouvelle terminologie


Le monde des « omes » et des « omiques »

Génome
Et puis Transcriptome Proteome Interactome Metabolome

Mais aussi …

Orfeome Foldome Secretome Regulome

… Et d’autres horreurs qu’il vaut mieux ne pas citer

Février 2004 Bernard Labedan 112

Вам также может понравиться