Вы находитесь на странице: 1из 76

Introduction la biologie

molculaire
et la bio-informatique
Cours de Master Recherche M2, 2004/2005
Jean-Philippe Vert
Jean-Philippe.Vert@mines.org

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.1/76
Plan
Organismes et cellules
Molcules de la vie
Gnes et gnomes
Technologies et donnes
Challenges en bio-informatique

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.2/76
Organismes et cellules

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.3/76
Cellules
Tout organisme vivant est compos de cellules
Une cellule est une solution contenant diffrentes
molcules entoure dune membrane
Il y a des organismes unicellulaires (bactries, levure...)
ou multicellulaires.
Exemple: il y a environ 6 1023 cellules dans un humain,
de 320 types diffrents (peau, muscles, neurones...)

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.4/76
Cellules

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.5/76
Classification des organismes
On distingue gnralement les eukaryotes des
prokaryotes
Les prokaryotes (eux-memes subiviss en bactries et
archens) sont unicellulaires, de petite taille
(typiquemet 1m), et ont une structure simple
Les eukaryotes sont uni- ou multicellulaires, plus
grands, et ont une structure plus complexes
La vie est apparue il y a 3, 8 milliards dannes, tous les
organismes proviennent dun anctre commun

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.6/76
La cellule eukaryote

Diffrents organelles. Un noyau qui contient lADN (chromo-


somes).

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.7/76
Caractristiques de la cellule
La plupart des cellules sont capables de grossir et de
se diviser (exception: neurones)
Elles ont un mtabolisme, i.e., importent des nutriments
et les convertissent en molcules utiles et nergie
Elles peuvent ragir leur environnement

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.8/76
Les molcules de la vie

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.9/76
Types de molcules
On les regroupe en 4 grandes familles:
les petite molcules
les protines
lADN
lARN

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.10/76
Dans la cellule

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.11/76
Petites molcules
Petites molcules ayant un rle: AT P , N ADP H
stockent lenergie
Sucres, lipides (sources denergie, structure des
membranes)
Acides amins et nuclotides, qui sont les blocs de
base pour former les protines et lADN/ARN.

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.12/76
Protines
Les protines reprsentent 20% du poids de la cellule
(eau=70%). Elles ont de multiples fonctions:
Structurale : ex: le collagene relie les os et les tissus
Catalytique: les enzymes catalysent une multitude de
ractions biochimique (formant le mtabolisme). Ex: la
bexokinase permet la conversion du glucose au
glucose-6-phosphate
Les protines membranaires maintiennent
lenvironnement cellulaire, rgulent le volume de la
cellule, crent des gradients ioniques pour les muscles
et le systeme nerveux...

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.13/76
Protine = polymre dacides amins

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.14/76
Structure primaire
Il y a 20 acides amins. On peut donc reprsenter la
structure chimique dune protine comme un texte sur un
alphabet de 20 lettre.
Exemple: linsuline:
FVNQHLCGSHLVEALYLVCGERGFFYTPKA

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.15/76
Structure secondaire
Hlice Feuillet

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.16/76
Structure tertiaire

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.17/76
Structure quaternaire

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.18/76
ADN
Lacide desoxyribonuclique (ADN) est la molcule,
prsente dans toutes les cellules, qui contient
linformation gntique transmise entre gnrations.
LADN peut tre en simple brin ou double brin.
Un brin simple (aussi appel polynuclotide) est un
polymre linaire compos de 4 nuclotides: adnosine
(A), cytosine (C), guanine (G) et thymine (T)
On reprsente un polynuclotide par une squence
oriente de lettres:
5 -A-T-T-C-A-G-G-C-A-T-T-A-G-C- 3

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.19/76
ADN double brin

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.20/76
Structure de lADN (Watson et Crick, 1953)

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.21/76
ADN et information
La double hlice est stable, quelle que soit la squence
de nuclotides
Parfait pour stocker 2 bits/base
Distance entre 2 bases = 0.34nm, donc 6.107 bits/cm =
75ko/cm
Par repliement de lADN en 3D, on peut thoriquement
monter 2.1021 bits/cm3

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.22/76
ARN

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.23/76
ARN
LARN (acide ribonuclique) ressemble beaucoup lADN
mais:
Le sucre de lADN (dsoxyribose) est remplac par une
autre sucre dans lARN (ribose)
La thymine (T) de lADN est remplace par luracile (U)
dans lARN.
LARN peut sapparier avec un ARN complmentaire,
mais les ARN sont gnralement simple brin et sont
donc le sige dappariements intramolculaires.
On connait depuis longtemps 3 types dARN: ARN
messagers (ARNm), ARN ribosomiques (ARNr), ARN
de transfert (ARNt). Mais on en dcouvre de nouveaux
depuis quelques annes...
Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.24/76
Gnes et gnomes

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.25/76
ADN et chromosomes

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.26/76
Gnome
Toutes les cellules dun organisme ont ( peu prs) le
mme ADN, appel gnome
Organisme Chromosomes Taille du gnome (bp)
Bactries 1 400,000 a 10,000,000
Levure 12 14,000,000
Mouche 4 300,000,000
Homme 46 6,000,000,000

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.27/76
Gnomes humains

22 paires de chromosomes + chromosomes X/X ou X/Y =


46 chromosomes.

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.28/76
Squencage
Squencer = dterminer la squence des lettres dun
ADN
1995: premier gnome bactrien squenc
levure (1997), mouche (2000), homme (2003)...
Approche shotgun: les plus grands problmes pour le
squencage des eukaryotes suprieurs sont
informatique (assemblage)!

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.29/76
Gne
Une partie continue dun brin dADN, partir de laquelle une
machinerie molculaire complexe peut lire de linformation
(encode dans les lettes A,C,G,T) et crer une protine par-
ticulire

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.30/76
Dogme central
transcription translation
DNA mRNA Protein
1 nucleotide to 1 nucleotide 1 codon (3 nucleotides) to 1 amino acid
according to the genetic code

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.31/76
ARN messager

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.32/76
De lADN aux protines

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.33/76
Gnes

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.34/76
Code gntique

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.35/76
De lADN la protine

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.36/76
Contrle de lexpression (induction)

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.37/76
Contrle de lexpression (rpression)

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.38/76
Exemple: B-globine humaine

La B-globin joue un rle important dans le dveloppement des cellules rouges du sang. Cer-

taines protines rgulatrices, comme CP1, sont prsentes dans de nombreuses cellules,

mais dautres, comme GATA-1, ne se trouvent que dans quelques types de cellules, dont les

prcurseurs des cellules rouges.


Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.39/76
Coordination du contrle

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.40/76
Rseau de rgulation

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.41/76
Autres contrles: du gne la protine active

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.42/76
Epissage

promoter transcribed region


intron intron
transcription exon
factor binding
sites exon

spliced mRNA
5'UTR C DS 3'UTR

start stop
codon codon

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.43/76
Epissage alternatif

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.44/76
Nouveau dogme
Avant: 1 gene = 1 ARNm = 1 protine
Maintenant: 1 gene = x ARNm = xy protines
Rappel: 30,000 genes (?) chez lhomme

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.45/76
Technologies et donnes

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.46/76
Squenceur

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.47/76
Microarrays

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.48/76
Transcriptome

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.49/76
Protome

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.50/76
Interactome

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.51/76
Mtabolome

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.52/76
Data types and representations

Data Type and Details Representation


Sequences
- DNA: genome (hereditary in- string over nucleotides
formation) {A,C,G,T}
- full length mRNAs: spliced string over ribonucleotides
gene copies {A,C,G,U}
- ESTs (expressed sequence string over ribonucleotides
tags): partial mRNAs {A,C,G,U}
- proteins string over amino acids
(size 20)

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.53/76
Data types and representations

Data Type and Details Representation


Structures
- metabolites: positions and labeled graph embedded
bonds of atoms into 3D-space
- macromolecules (proteins, labeled graph embedded
RNAs, DNA) into 3D-space

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.54/76
Data types and representations

Data Type and Details Representation


Interactions
- proteins with metabolites: re- real vectors (binding ener-
ceptors or enzymes binding gies)
ligands
- proteins with DNA: transcrip- binary (bipartite graph)
tion factors; etc.
- proteins with proteins: com- binary (graph); Petri-net
plexes; etc.

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.55/76
Data types and representations

Data Type and Details Representation


Expression / Localization Data
- gene expression: abun- real vectors or matrices
dances of mRNAs
- protein expression: abun- real vectors or matrices
dances of proteins
- metabolite (small molecule) ex- real vectors or matrices
pression: concentrations of
metabolites
- protein localization: compart- categorical
ment of presence

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.56/76
Data types and representations

Data Type and Details Representation


Cell / Organism Data
- genotype: single nucleotide vector of nucleotides
polymorphisms {A,C,G,T}
- phenotype: cell type; size; vector of real and categori-
gender; eye color; etc. cal attributes
- state / clinical data: disease; vector of real and categori-
blood sugar; etc. cal attributes
- environment: nutrients; tem- vector of real and categori-
perature; etc. cal attributes

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.57/76
Data types and representations

Data Type and Details Representation


Population Data
- linkage disequilibrium: LOD- real numbers
scores
- pedigrees certain (tree-like) graphs
- phylogenies: pedigree of trees or generalizations of
species trees

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.58/76
Data types and representations

Data Type and Details Representation


Scientific Texts
- Texts: articles, abstracts, natural language texts (in
web-pages English)

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.59/76
Sequence sources

Database URL (http://. . . ) Remark


Nucleotide sequence databases
- DDBJ www.ddbj.nig.ac.jp these three
databases . . .
- EMBL www.ebi.ac.uk/embl/ . . . synchronize
their . . .
- Gen- www.ncbi.nlm.nih.gov . . . contents
Bank daily
Protine sequence databases
- Swis- www.expasy.org/sprot/ curated
sProt
- TrEMBL www.expasy.org/sprot/ not curated

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.60/76
Sequence sources

(Some) Sequence motif databases


- eMotif
motif.stanford.edu/emotif/ protein regular
expression pat-
terns
- smart.embl-heidelberg.de/ protein domain
SMART HMMs
- transfac.gbf.de/TRANSFAC/ transcription
TRANS- factor binding
FAC sites

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.61/76
Sequence sources

General portals
- EBI www.ebi.ac.uk European
Bioinformatics
Institute
- Entrez www.ncbi.nlm.nih.gov/Entrez/ U.S. National
Bioinf. Institute
- Ex- www.expasy.org Expert Pro-
PASy tine Analysis
System
- SRS srs.ebi.ac.uk Sequence Re-
trieval System

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.62/76
Expression sources

Database URL (http://. . . ) Remark


General databases
- ArrayEx- www.ebi.ac.uk/arrayexpress/ by the EBI
press
- GEO www.ncbi.nlm.nih.gov/geo/ by the
NCBI
Organism specific databases
- MGI GXD www.informatics.jax.org mouse
- TAIR Mi- www.arabidopsis.org arabidopsis
croarray
- WormBase www.wormbase.org C. elegans

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.63/76
Protine properties sources

Database URL (http://. . . ) Remark


Protine structures
- PDB www.rcsb.org/pdb/ 3D struc-
tures
- SCOP scop.mrc-lmb.cam.ac.uk/scop/ structural
classification
- CATH www.biochem.ucl.ac.uk/bsm/cath/structural
classification

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.64/76
Protine properties sources

Molecular interactions and networks


- BIND www.bind.ca interaction
network
- KEGG www.genome.ad.jp/kegg/ metabolic
pathways
- DIP dip.doe-mbi.ucla.edu interacting
proteins

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.65/76
Protine properties sources

Protine functions
- GO www.geneontology.org controlled
vocabulary
- EC enzyme
www.chem.qmul.ac.uk/iubmb/enzyme/
numbers
- MIPS mips.gsf.de/proj/yeast/ yeast gene
catalogs/funcat/ functions
Protine expression
- us.expasy.org/ch2d/ 2D gel elec-
2DPAGE trophoresis
data

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.66/76
Challenge en bio-informatique

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.67/76
Gnomique

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.68/76
Protomique

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.69/76
Pharmacognomique

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.70/76
Caractristiques
Beaucoup de donnes...
mais beaucoup de bruit
Donnes htrogenes (squences, structures,
vecteurs, graphes...)
Small n large p
problmes souvent mal poss (data mining)

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.71/76
Pour vous motiver
discipline nouvelle (les donnes nexistaient pas il y a
10 ans)
application (therapeutique, biologie fondamentale)
besoin de math/info de plus en plus pointu (voir
volution rcente du domaine)
peu de spcialistes...

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.72/76
But du cours
Proposer une thorie et des outils pour
reprsenter les donnes dans un cadre mathmatique
cohrent...
...avec des mthodes danalyse performantes...
...en pleine expansion actuellement.

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.73/76
Contenu du cours
Introduction la biologie molculaire et la gnomique
Noyaux positifs: dfinition, proprits, espaces de
Hilbert noyau reproduisant, kernel trick, thorme du
representant
Mthodes noyau: kernel PCA, SVM, LS-SVM, kernel
CCA
Noyaux: pour squences, pour graphes, noyau de
diffusion, noyau de convolution, noyau de semi-groupe
Applications: classification de squences, infrence sur
des graphes, slection de genes

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.74/76
Crdits

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.75/76
Source des images et tables
Alex Zien, A primer on molecular biology, Kernel
Methods in Computational Biology (B. Scholkopf, K. Tsuda, J.-P.
Vert ed.), MIT Press, 2004
Image gallery:
http://www.accessexcellence.org/AB/GG/
A quick introduction to elements of biology - cells,
molecules, genes, functional genomics, microarrays, by
Alvis Brazma, Helen Parkinson, Thomas Schlitt,
Mohammadreza Shojatalab
http://www.ebi.ac.uk/microarray/biology_intro.ht
.. et quelques images trouves sur le web

Master Recherche M2
c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.76/76

Вам также может понравиться