Академический Документы
Профессиональный Документы
Культура Документы
molculaire
et la bio-informatique
Cours de Master Recherche M2, 2004/2005
Jean-Philippe Vert
Jean-Philippe.Vert@mines.org
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.1/76
Plan
Organismes et cellules
Molcules de la vie
Gnes et gnomes
Technologies et donnes
Challenges en bio-informatique
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.2/76
Organismes et cellules
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.3/76
Cellules
Tout organisme vivant est compos de cellules
Une cellule est une solution contenant diffrentes
molcules entoure dune membrane
Il y a des organismes unicellulaires (bactries, levure...)
ou multicellulaires.
Exemple: il y a environ 6 1023 cellules dans un humain,
de 320 types diffrents (peau, muscles, neurones...)
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.4/76
Cellules
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.5/76
Classification des organismes
On distingue gnralement les eukaryotes des
prokaryotes
Les prokaryotes (eux-memes subiviss en bactries et
archens) sont unicellulaires, de petite taille
(typiquemet 1m), et ont une structure simple
Les eukaryotes sont uni- ou multicellulaires, plus
grands, et ont une structure plus complexes
La vie est apparue il y a 3, 8 milliards dannes, tous les
organismes proviennent dun anctre commun
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.6/76
La cellule eukaryote
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.7/76
Caractristiques de la cellule
La plupart des cellules sont capables de grossir et de
se diviser (exception: neurones)
Elles ont un mtabolisme, i.e., importent des nutriments
et les convertissent en molcules utiles et nergie
Elles peuvent ragir leur environnement
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.8/76
Les molcules de la vie
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.9/76
Types de molcules
On les regroupe en 4 grandes familles:
les petite molcules
les protines
lADN
lARN
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.10/76
Dans la cellule
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.11/76
Petites molcules
Petites molcules ayant un rle: AT P , N ADP H
stockent lenergie
Sucres, lipides (sources denergie, structure des
membranes)
Acides amins et nuclotides, qui sont les blocs de
base pour former les protines et lADN/ARN.
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.12/76
Protines
Les protines reprsentent 20% du poids de la cellule
(eau=70%). Elles ont de multiples fonctions:
Structurale : ex: le collagene relie les os et les tissus
Catalytique: les enzymes catalysent une multitude de
ractions biochimique (formant le mtabolisme). Ex: la
bexokinase permet la conversion du glucose au
glucose-6-phosphate
Les protines membranaires maintiennent
lenvironnement cellulaire, rgulent le volume de la
cellule, crent des gradients ioniques pour les muscles
et le systeme nerveux...
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.13/76
Protine = polymre dacides amins
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.14/76
Structure primaire
Il y a 20 acides amins. On peut donc reprsenter la
structure chimique dune protine comme un texte sur un
alphabet de 20 lettre.
Exemple: linsuline:
FVNQHLCGSHLVEALYLVCGERGFFYTPKA
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.15/76
Structure secondaire
Hlice Feuillet
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.16/76
Structure tertiaire
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.17/76
Structure quaternaire
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.18/76
ADN
Lacide desoxyribonuclique (ADN) est la molcule,
prsente dans toutes les cellules, qui contient
linformation gntique transmise entre gnrations.
LADN peut tre en simple brin ou double brin.
Un brin simple (aussi appel polynuclotide) est un
polymre linaire compos de 4 nuclotides: adnosine
(A), cytosine (C), guanine (G) et thymine (T)
On reprsente un polynuclotide par une squence
oriente de lettres:
5 -A-T-T-C-A-G-G-C-A-T-T-A-G-C- 3
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.19/76
ADN double brin
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.20/76
Structure de lADN (Watson et Crick, 1953)
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.21/76
ADN et information
La double hlice est stable, quelle que soit la squence
de nuclotides
Parfait pour stocker 2 bits/base
Distance entre 2 bases = 0.34nm, donc 6.107 bits/cm =
75ko/cm
Par repliement de lADN en 3D, on peut thoriquement
monter 2.1021 bits/cm3
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.22/76
ARN
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.23/76
ARN
LARN (acide ribonuclique) ressemble beaucoup lADN
mais:
Le sucre de lADN (dsoxyribose) est remplac par une
autre sucre dans lARN (ribose)
La thymine (T) de lADN est remplace par luracile (U)
dans lARN.
LARN peut sapparier avec un ARN complmentaire,
mais les ARN sont gnralement simple brin et sont
donc le sige dappariements intramolculaires.
On connait depuis longtemps 3 types dARN: ARN
messagers (ARNm), ARN ribosomiques (ARNr), ARN
de transfert (ARNt). Mais on en dcouvre de nouveaux
depuis quelques annes...
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.24/76
Gnes et gnomes
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.25/76
ADN et chromosomes
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.26/76
Gnome
Toutes les cellules dun organisme ont ( peu prs) le
mme ADN, appel gnome
Organisme Chromosomes Taille du gnome (bp)
Bactries 1 400,000 a 10,000,000
Levure 12 14,000,000
Mouche 4 300,000,000
Homme 46 6,000,000,000
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.27/76
Gnomes humains
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.28/76
Squencage
Squencer = dterminer la squence des lettres dun
ADN
1995: premier gnome bactrien squenc
levure (1997), mouche (2000), homme (2003)...
Approche shotgun: les plus grands problmes pour le
squencage des eukaryotes suprieurs sont
informatique (assemblage)!
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.29/76
Gne
Une partie continue dun brin dADN, partir de laquelle une
machinerie molculaire complexe peut lire de linformation
(encode dans les lettes A,C,G,T) et crer une protine par-
ticulire
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.30/76
Dogme central
transcription translation
DNA mRNA Protein
1 nucleotide to 1 nucleotide 1 codon (3 nucleotides) to 1 amino acid
according to the genetic code
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.31/76
ARN messager
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.32/76
De lADN aux protines
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.33/76
Gnes
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.34/76
Code gntique
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.35/76
De lADN la protine
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.36/76
Contrle de lexpression (induction)
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.37/76
Contrle de lexpression (rpression)
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.38/76
Exemple: B-globine humaine
La B-globin joue un rle important dans le dveloppement des cellules rouges du sang. Cer-
taines protines rgulatrices, comme CP1, sont prsentes dans de nombreuses cellules,
mais dautres, comme GATA-1, ne se trouvent que dans quelques types de cellules, dont les
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.40/76
Rseau de rgulation
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.41/76
Autres contrles: du gne la protine active
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.42/76
Epissage
spliced mRNA
5'UTR C DS 3'UTR
start stop
codon codon
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.43/76
Epissage alternatif
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.44/76
Nouveau dogme
Avant: 1 gene = 1 ARNm = 1 protine
Maintenant: 1 gene = x ARNm = xy protines
Rappel: 30,000 genes (?) chez lhomme
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.45/76
Technologies et donnes
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.46/76
Squenceur
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.47/76
Microarrays
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.48/76
Transcriptome
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.49/76
Protome
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.50/76
Interactome
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.51/76
Mtabolome
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.52/76
Data types and representations
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.53/76
Data types and representations
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.54/76
Data types and representations
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.55/76
Data types and representations
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.56/76
Data types and representations
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.57/76
Data types and representations
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.58/76
Data types and representations
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.59/76
Sequence sources
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.60/76
Sequence sources
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.61/76
Sequence sources
General portals
- EBI www.ebi.ac.uk European
Bioinformatics
Institute
- Entrez www.ncbi.nlm.nih.gov/Entrez/ U.S. National
Bioinf. Institute
- Ex- www.expasy.org Expert Pro-
PASy tine Analysis
System
- SRS srs.ebi.ac.uk Sequence Re-
trieval System
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.62/76
Expression sources
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.63/76
Protine properties sources
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.64/76
Protine properties sources
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.65/76
Protine properties sources
Protine functions
- GO www.geneontology.org controlled
vocabulary
- EC enzyme
www.chem.qmul.ac.uk/iubmb/enzyme/
numbers
- MIPS mips.gsf.de/proj/yeast/ yeast gene
catalogs/funcat/ functions
Protine expression
- us.expasy.org/ch2d/ 2D gel elec-
2DPAGE trophoresis
data
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.66/76
Challenge en bio-informatique
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.67/76
Gnomique
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.68/76
Protomique
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.69/76
Pharmacognomique
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.70/76
Caractristiques
Beaucoup de donnes...
mais beaucoup de bruit
Donnes htrogenes (squences, structures,
vecteurs, graphes...)
Small n large p
problmes souvent mal poss (data mining)
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.71/76
Pour vous motiver
discipline nouvelle (les donnes nexistaient pas il y a
10 ans)
application (therapeutique, biologie fondamentale)
besoin de math/info de plus en plus pointu (voir
volution rcente du domaine)
peu de spcialistes...
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.72/76
But du cours
Proposer une thorie et des outils pour
reprsenter les donnes dans un cadre mathmatique
cohrent...
...avec des mthodes danalyse performantes...
...en pleine expansion actuellement.
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.73/76
Contenu du cours
Introduction la biologie molculaire et la gnomique
Noyaux positifs: dfinition, proprits, espaces de
Hilbert noyau reproduisant, kernel trick, thorme du
representant
Mthodes noyau: kernel PCA, SVM, LS-SVM, kernel
CCA
Noyaux: pour squences, pour graphes, noyau de
diffusion, noyau de convolution, noyau de semi-groupe
Applications: classification de squences, infrence sur
des graphes, slection de genes
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.74/76
Crdits
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.75/76
Source des images et tables
Alex Zien, A primer on molecular biology, Kernel
Methods in Computational Biology (B. Scholkopf, K. Tsuda, J.-P.
Vert ed.), MIT Press, 2004
Image gallery:
http://www.accessexcellence.org/AB/GG/
A quick introduction to elements of biology - cells,
molecules, genes, functional genomics, microarrays, by
Alvis Brazma, Helen Parkinson, Thomas Schlitt,
Mohammadreza Shojatalab
http://www.ebi.ac.uk/microarray/biology_intro.ht
.. et quelques images trouves sur le web
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.76/76