Вы находитесь на странице: 1из 156

Ecole doctorale Sciences Physiques, Math

ematiques et de l Information pour lIng


enieurSPMII

tel-00917605, version 1 - 12 Dec 2013

Une architecture semi-supervis


ee et
adaptative pour le filtrage dalarmes
dans les syst`
emes de d
etection
dintrusions sur les r
eseaux
`
THESE
presentee et soutenue publiquement le 19/07/2007
pour lobtention du

Doctorat de lInstitut National des Sciences Appliqu


ees de Rouen
(sp
ecialit
e informatique)
par

Ahmad FAOUR

Composition du jury
Rapporteurs :

Benferhat Salem
Hamad Denis

Professeur des Universites, CRIL, Universite dArtois


Professeur des Universites, Universite du Littoral Cote dOpale

Examinateurs :

Canu Stephane
Zoaeter Mohammed
Leray Philippe
Eter Bassam

Professeur des Universites, LITIS, INSA de Rouen


Professeur des Universites, LPM, Universite Libanaise
Matre de Conferences, LITIS, INSA de Rouen
Matre de Conferences, LPM, Universite Libanaise

Laboratoire dInformatique, de Traitement de lInformation et des Syst`


emes - EA 4108

Mis en page avec la classe thloria.

tel-00917605, version 1 - 12 Dec 2013

tel-00917605, version 1 - 12 Dec 2013

Remerciements
Ce travail a t ralis au sein de lquipe LITIS de lInsa de Rouen. Il naurait pas pu voir le jour
sans le soutien de nombreuses personnes que je tiens remercier.
Je tiens tout dabord remercier mes deux directeurs de thse Stphane Canu et Mohammed Zoaeter.
Stphane Canu qui ma permis dintgrer dans le laboratoire LITIS. Mais surtout Philippe Leray, qui
grce son disponibilit et rigoureux conseils, jai pu entamer, dvelopper et mener terme ce travail.
Quils trouvent ici lexpression de toute ma gratitude.
Je remercie sincrement tous ceux qui ont bien voulu prendre part ce jury :
Salem Benfarhat et Denis Hamad qui ont accept dtre les rapporteurs de ma thse. Je les
remercie pour le temps consacr ce travail ainsi qu leurs remarques et suggestions qui ont
contribues amliorer le rapport
Bassam Eter qui a accept dexaminer cette thse. Je le remercie pour tout lintrt quil a
manifest pour ce travail
Je remercie galement les membres de dpartement ASI. A Florence et Brigitte pour leur assistance et
leur patience, et mes collgues de bureau prsents et passs avec qui jai pass de si bons moments :
Olivier, Vincent, Fabien, Gaelle, Firass, Karina, Filip et Iyyad. Je tiens remercier trs fortement mes
collgues de Laboratoire LPM : Maher et Iyyad. Jamais je ne peux pas oublier les moments quon a
pass ensemble.
Enfin, cest avec beaucoup dmotion que je remercie maman, papa et surtout Mona, pour sa patience,
sa volont, son support et toutes les difficults quelle a support tout au long cet grand "escalier".

ii

tel-00917605, version 1 - 12 Dec 2013

tel-00917605, version 1 - 12 Dec 2013

Je ddie cette thse


mes parents,
Mona,
Mohammad, Ali, et Hussein.

iii

iv

tel-00917605, version 1 - 12 Dec 2013

Table des matires

tel-00917605, version 1 - 12 Dec 2013

Liste des tableaux

xv

Chapitre 1
Introduction Gnrale
1.1

Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3

Organisation de la thse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Chapitre 2
Introduction la Scurit Informatique

2.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2

Objectifs de la scurit informatique . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3

Ncessit dune approche globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.4

Mise en place dune politique de scurit . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5

Protection du systme dinformation . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5.1

Pare-feux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5.2

Scanners de vulnrabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5.3

Outils darchivage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5.4

Cryptographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5.5

Pots de miel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.5.6

Systmes de dtection dintrusions . . . . . . . . . . . . . . . . . . . . . . . . .

10

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

2.6

Chapitre 3
La Dtection dIntrusions
3.1

13

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v

13

Table des matires


3.2

3.3

tel-00917605, version 1 - 12 Dec 2013

3.4

3.5

Les mthodes dattaque et dintrusion . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

3.2.1

Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

3.2.2

Les diffrentes formes et mthodes dattaques . . . . . . . . . . . . . . . . . . .

14

La dtection dintrusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

3.3.1

Les systmes de dtection dintrusions . . . . . . . . . . . . . . . . . . . . . . .

15

3.3.2

Modle gnrique dun IDS . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

Outils de dtection dintrusion : taxonomie . . . . . . . . . . . . . . . . . . . . . . . . .

17

3.4.1

Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

3.4.2

Stratgie de Contrle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

3.4.3

Sources dInformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

3.4.4

Comportement en cas dattaque dtecte . . . . . . . . . . . . . . . . . . . . . .

20

3.4.5

Frquence dutilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

3.4.6

Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

Les techniques de dtection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

3.5.1

23

Approche comportementale . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1.1

3.5.2

seule mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

3.5.1.2

Analyse de squences des vnements . . . . . . . . . . . . . . . . .

26

3.5.1.3

Occurence des vnements multiples . . . . . . . . . . . . . . . . . .

28

Approche par abus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

3.5.2.1

3.6

3.7

3.8
vi

Combinaison des mesures danomalie individuelles pour obtenir une

Utilisation de la probabilit conditionnelle pour prvoir des intrusions


dabus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

3.5.2.2

Analyse de transition dtat. . . . . . . . . . . . . . . . . . . . . . . .

29

3.5.2.3

Systmes base de rgles. . . . . . . . . . . . . . . . . . . . . . . . .

29

3.5.2.4

Rseaux de Petri. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

3.5.2.5

Rgles dassociation . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

SNORT : Un Systme de Dtection dIntrusions dans les Rseaux . . . . . . . . . . . .

31

3.6.1

Vue gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

3.6.2

Les rgles SNORT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

Sur la difficult de la dtection dintrusion . . . . . . . . . . . . . . . . . . . . . . . . .

33

3.7.1

Origines de linondation dalerte . . . . . . . . . . . . . . . . . . . . . . . . . .

34

3.7.2

Vers un meilleur IDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

3.7.3

Traitement et corrlation des alertes . . . . . . . . . . . . . . . . . . . . . . . .

35

3.7.3.1

Corrlation implicite . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

3.7.3.2

Corrlation explicite . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

3.7.3.3

Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

Notre application de filtrage des alertes . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.9

3.8.1

Fonctionnement gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.8.2

Les donnes utilises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

Chapitre 4
Prtraitement et Dcouverte des Comportements types

tel-00917605, version 1 - 12 Dec 2013

4.1

Une introduction au Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

4.1.1

Indice de proximit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

4.1.2

Un survol des mthodes de Clustering . . . . . . . . . . . . . . . . . . . . . . .

44

4.1.3

Qualit du Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

4.1.4

K-moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

4.1.5

La Carte auto-organisatrice de Kohonen (SOM) . . . . . . . . . . . . . . . . . .

47

4.1.5.1

Lalgorithme SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

4.1.5.2

Les cartes auto-organisatrice adaptatives . . . . . . . . . . . . . . . .

49

Clustering dune SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

4.1.6.1

Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

4.1.6.2

Rglage de k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

4.2.1

Prtraitement temporel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

4.2.1.1

Choix de la fentre . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

4.2.1.2

Aggrgation des donnes . . . . . . . . . . . . . . . . . . . . . . . .

54

4.2.1.3

Normalisation des donnes . . . . . . . . . . . . . . . . . . . . . . .

55

Prtraitement Spatial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

4.2.2.1

Gravit des alertes . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

4.2.2.2

Dcouverte des comportements-types . . . . . . . . . . . . . . . . . .

57

Dcouverte de comportements-types par SOM et K-Moyennes . . . . . . . . . . . . . .

57

4.3.1

Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

4.3.2

Analyse des comportements types obtenus . . . . . . . . . . . . . . . . . . . . .

61

4.3.2.1

Analyse quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

4.3.2.2

Analyse qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

Dcouverte de comportements-types par GHSOM . . . . . . . . . . . . . . . . . . . . .

69

4.4.1

Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

4.4.2

Analyse des rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

4.4.2.1

Analyse quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

4.4.2.2

Analyse qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

4.1.6

4.2

4.2.2

4.3

4.4

4.4.3
4.5

43

vii

Table des matires


Chapitre 5
Dtection dAttaques
5.1

5.2

La Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

5.1.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

5.1.2

Classification binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

5.1.3

Evaluation des classifieurs binaires . . . . . . . . . . . . . . . . . . . . . . . .

76

Les Rseaux Baysiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

5.2.1

Infrence dans les rseaux baysiens . . . . . . . . . . . . . . . . . . . . . . . .

78

5.2.2

Apprentissage dans les rseaux baysiens . . . . . . . . . . . . . . . . . . . . .

78

5.2.2.1

Apprentissage de structure . . . . . . . . . . . . . . . . . . . . . . .

79

5.2.2.2

Apprentissage des paramtres . . . . . . . . . . . . . . . . . . . . . .

79

Structures de rseaux baysiens pour la classification . . . . . . . . . . . . . . .

80

5.2.3.1

Structure de Bayes nave . . . . . . . . . . . . . . . . . . . . . . . .

80

5.2.3.2

Structure augmente (BNA) . . . . . . . . . . . . . . . . . . . . . . .

80

5.2.3.3

Multi-net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

80

5.2.3.4

Maximum Weighted Spanning Tree (MWST) . . . . . . . . . . . . .

81

5.2.3.5

Structures de rseaux baysiens avec variables latentes . . . . . . . . .

81

Les SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

5.3.1

Donnes linairement sparables . . . . . . . . . . . . . . . . . . . . . . . . . .

82

5.3.2

Donnes non-linairement sparables . . . . . . . . . . . . . . . . . . . . . . .

83

Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

5.4.1

Approches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

5.4.2

Application des Rseaux Baysiens . . . . . . . . . . . . . . . . . . . . . . . .

85

5.4.2.1

Modlisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

5.4.2.2

Approche Brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

5.4.2.3

Approche Modulaire . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

5.4.2.4

Structures gnriques . . . . . . . . . . . . . . . . . . . . . . . . . .

87

5.4.2.5

Structures dtermines partir des donnes . . . . . . . . . . . . . . .

89

5.4.2.6

Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

5.4.2.7

Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

5.4.3

Application des SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

5.4.4

Comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

tel-00917605, version 1 - 12 Dec 2013

5.2.3

5.3

5.4

5.5

viii

75

Chapitre 6
Evolutivit de lArchitecture
6.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97

6.2

Reconnaissance des formes statistique et notion de Rejet . . . . . . . . . . . . . . . . .

98

6.2.1

Introduction et dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

6.2.2

Mthodes paramtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6.2.3

Rejet dambigut . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6.2.2.2

Rejet de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Mthodes non paramtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

6.3

Tests dhypothses et analyse de donnes . . . . . . . . . . . . . . . . . . . . . . . . . 101

6.4

Surveillance de ligne de base (Baseline Monitoring) . . . . . . . . . . . . . . . . . . . . 102


6.4.1

tel-00917605, version 1 - 12 Dec 2013

6.2.2.1

6.5

6.6

6.7

Ligne de base dun systme de scurit . . . . . . . . . . . . . . . . . . . . . . 103

Evolution du rseau ou du NIDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103


6.5.1

Problme 1 : intgration des nouveaux quipements rseaux . . . . . . . . . . . 103

6.5.2

Problme 2 : Apparition de nouveaux types dalertes . . . . . . . . . . . . . . . 104

Evolution des comportements types . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105


6.6.1

Ligne de base (SOM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

6.6.2

Dcision de rejet et clustering des points rejets . . . . . . . . . . . . . . . . . . 106


6.6.2.1

Dcision avec rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6.6.2.2

Clustering des points rejets . . . . . . . . . . . . . . . . . . . . . . . 108

Dcision de r-apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108


6.7.1

6.7.2

Reconnatre plusieurs situations . . . . . . . . . . . . . . . . . . . . . . . . . . 108


6.7.1.1

Pourcentage des points rejets . . . . . . . . . . . . . . . . . . . . . . 109

6.7.1.2

Gravit des clusters danomalie . . . . . . . . . . . . . . . . . . . . . 109

6.7.1.3

Rpartition des points dans les clusters danomalie . . . . . . . . . . . 110

6.7.1.4

Glissement des comportements-types de la SOM . . . . . . . . . . . . 110

Dcision multi-critre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

6.8

Exprimentations et rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

6.9

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

Chapitre 7
Conclusions et Perspectives

119

7.1

Sommaire et Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

7.2

Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

Annexes

121
ix

Table des matires


121

Annexe B Adquation entre les scnarios dattaques et les clusters

127

Bibliographie

129

tel-00917605, version 1 - 12 Dec 2013

Annexe A Caractristiques des clusters

tel-00917605, version 1 - 12 Dec 2013

Table des figures

3.1
3.2
3.3
3.4

3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
4.1
4.2
4.3
4.4

4.5
4.6
4.7

Organisation dun modle gnrique dun IDS . . . . . . . . . . . . . . . . . . . . . . . 16


Taxonomie des IDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Un profil du nombre doccurences des appels systme dcrivant le comportement dun
programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Un Rseau Baysien simple connectant des variables relis une intrusion. Les CPT associes sont toutes les lois P(Xi ) si Xi na pas de parent ou P(Xi |Pa(Xi ) : )P(Intrusion), P(CPU|Intrusion, T oo
etc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
SVM dcomposant lespace des composants en deux classes (ils reprsentent par exemple
le comportement normal et anormal) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Un rseau de neurones simple avec fentre qui prvoie la commande suivante en fonction
des 3 commandes passes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Un scnario dattaque dcrit par un rseau de Petri . . . . . . . . . . . . . . . . . . . . 30
Architecture de SNORT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Une liste deux dimensions qui dcrit la syntaxe des rgles de SNORT . . . . . . . . . 32
Rgle de dtection dattaque de SNORT . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Fonctionnement gnral du systme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Chane de traitement, des donnes brutes la dcision. On voit ici les tches utiles la
prise de dcision, savoir le pr-traitement temporel, spatial et enfin la classification. . 40
Extrait du fichier de log gnr par SNORT. . . . . . . . . . . . . . . . . . . . . . . . . 41
Lalgorithme des K-moyennes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Valeur de la fonction de voisinage autour de la bmu pour une carte linaire. . . . . . . .
Options de croissance de noeud dans GSOM :(a) un nouveau noeud, (b) deux nouveaux
noeuds et (c) trois nouveaux noeuds. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Le premier niveau dabstraction est obtenu en crant un ensemble de vecteurs prototypes en utilisant, par exemple, SOM. Le Clustering de la SOM cre le deuxime niveau
dabstraction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Principe de la fentre glissante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Le jeu de paramtres utiliss pour SOM . . . . . . . . . . . . . . . . . . . . . . . . . .
Comparaison de la qualit de Clustering entre les donnes normalises et non-normalises
suivant les trois indicateurs (a) QE :Quantization Error (b) TE :Topographic Error et (c)
DB :indice de Davies-Bouldin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi

47
49
50

52
53
58

60

Table des figures


4.8

4.9

4.10

4.11
4.12

tel-00917605, version 1 - 12 Dec 2013

4.13
4.14
4.15

4.16
4.17
4.18
5.1
5.2
5.3
5.4
5.5

Les cartes obtenues en projetant les donnes non-normalises sur une carte de taille 5*5
avec (a) aucune pondration (b) une pondration de niveau 1 (c) une pondration de
niveau 2 et (d) une pondration de niveau 3. . . . . . . . . . . . . . . . . . . . . . . . .
Les cartes obtenues en projettant les donnes non-normalises sur une carte de taille
(7*7) avec (a) aucune pondration (b) une pondration de niveau 1 (c) une pondration
de niveau 2 et (d) une pondration de niveau 3. . . . . . . . . . . . . . . . . . . . . . .
Lindex de Davies-bouldin calcul pour le couplage SOM+Kmeans (a) carte de taille
5*5 (b) carte de taille 7*7, en fonction de nombre de clusters. Dans chaque graphe laxe
horizontal reprsente le nombre des clusters et laxe vertical lindex DB. Chaque figure
contient 4 courbes pour 4 niveaux de pondration. . . . . . . . . . . . . . . . . . . . .
La carte SOM cre par des donnes sans pondration : (a) aprs lapprentissage et (b)
aprs la phase de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La carte SOM cre par des donnes de niveau de pondration 1 : (a) aprs lapprentissage et (b) aprs la phase de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La carte SOM cre par des donnes de niveau de pondration 2 : (a) aprs lapprentissage et (b) aprs la phase de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La carte SOM cre par des donnes de niveau de pondration 3 : (a) aprs lapprentissage et (b) aprs la phase de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les rsultats obtenus pour u = 0.03 et 0.4 > m > 0.1 : laxe dabscisse indique le
pourcentage des faux positifs et laxe dordonn indique le pourcentage de dtection des
attaques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les rsultats obtenus pour m = 0.3 et 0.03 > u > 0.01. . . . . . . . . . . . . . . . . .
Expansion verticale de la carte mre dans le premier niveau grce la dgradation de
u de 0.03 0.02. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Expansion verticale de la carte mre dans le deuxime niveau grce la dgradation de
u de 0.02 0.01 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Rseau baysien naf (BN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


Rseau baysien naf augment (par un arbre) . . . . . . . . . . . . . . . . . . . . . . .
Approche multinet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modles latents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemple des diffrents plans possibles qui peuvent sparer des points appartenant deux
classes diffrentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6 Exemple des donnes non sparables tel que nous pouvons trouver quelques points mal
classs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7 Exemple de projection des donnes non linaires dans une forme linaire dans un nouvel
espace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.8 Modlisation brute : utilisation dun rseau baysien naf pour dterminer sil y a une
attaque sur le rseau en fonction des comportements-types estims pour chaque machine
IPinterne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.9 Modlisation modulaire : utilisation dun rseau baysien hirarchique pour dterminer tout dabord ltat (LOC) de chaque machine IPinterne du rseau en fonction des
comportements-types estims et des caractristiques de cette machine, puis finalement
sil y a une attaque sur le rseau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.10 Les trois structures naves cres par les variables de : (a) Expert1, (b) Expert2 et (c)
Combinaison des deux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.11 Les trois structures naves cres par les variables spcifiques chaque machine locale
et les variables de : (a) Expert1, (b) Expert2 et (c) Combinaison des deux. . . . . . . . .
xii

60

61

62
64
64
64
65

70
71
72
72
80
80
81
81
82
83
84

87

88
89
89

5.12 Les structures obtenues par lalgorithme MWST pour les donnes de deux experts. Les
noeuds (1 25) sont les variables mesures par les experts et le noeud LOC est le noeud
classe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.13 Les deux structures obtenues par le modle multinet partir des donnes normales (
gauche) et donnes attaques ( droite) pour les variables (1 25) mesures par lexpert1. 91
6.1
6.2

tel-00917605, version 1 - 12 Dec 2013

6.3
6.4
6.5

6.6
6.7
6.8
6.9

6.10
6.11

6.12
6.13

Observation situe prs de la frontire de dcision entre deux classes. . . . . . . . . . . 99


Application du rejet de distance. La nouvelle observation X ne correspond aucune des
classes connues. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Surveillance de ligne de base. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Une signature SNORT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Procdure de dtection et dvolution des comportements types. La premire partie de
la figure indique la phase de ligne de base. Dans la deuxime partie les donnes invalides sont identifies et regroupes dans des clusters danomalie et dans la troisime la
dcision de re-apprentissage est prise suivant les indicateurs. . . . . . . . . . . . . . . . 106
Illustration de mcanisme de validation des donnes en trois dimensions. . . . . . . . . 107
Graphe dindpendance de rseau baysien naf utilis comme fonction de dcision. . . . 112
Estimation de la probabilit p(Indicator | FEU) laide dun expert. . . . . . . . . . . 112
La rgle de dcision applique lindicateur des donnes invalides (sans re-apprentissage) :
(a) graphe de pourcentage des points invalides, (b) erreur de quantification de la carte
et (c) tat actuel du systme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
La rgle de dcision applique lindicateur des donnes invalides (avec re-apprentissage).115
La rpartition des donnes rejetes dans notre exprience. La figure (a) montre ltat de
lalarme, la figure (b) donne la probabilit de la rpartition non uniforme et la figure (c)
prsente la distribution des donnes entre les clusters. . . . . . . . . . . . . . . . . . . . 116
Comportement de systme suivant lindicateur de glissement (sans r-apprentissage) :
(a) tat de lalarme, (b) erreur de quantification et (c) probabilit de glissement. . . . . . 117
Comportement de systme suivant lindicateur de glissement (avec r-apprentissage) :
(a) tat de lalarme, (b) erreur de quantification et (c) probabilit de violation. . . . . . 118

xiii

tel-00917605, version 1 - 12 Dec 2013

Table des figures

xiv

tel-00917605, version 1 - 12 Dec 2013

Liste des tableaux

3.1
3.2

Les champs des en-ttes des paquets . . . . . . . . . . . . . . . . . . . . . . . . . . . .


Description des scnariis dattaques qui se trouvent dans nos donnes dexprience . . .

4.1

Distances inter-clusters S (Qk ) et distances intra-clusters d(Qk , Ql ) ; xP


i , xi 0 Qk , i , i0,
x Q xi
x j Ql , k , l. Nk est le nombre dexemples dans le cluster Qk et ck = iNkk
. . . . . .
Les tapes principales pour lextension horizontal et hirarchique de GHSOM. . . . . .
Extrait des donnes avant la phase daggrgation . . . . . . . . . . . . . . . . . . . . .
Les donnes rsumes aprs la phase daggrgation . . . . . . . . . . . . . . . . . . . .
Les meilleurs rsultats obtenus pour chaque taille de la carte, QE :Quantization Error,
TE :Topographic Error, DBI :Davies-Bouldin Index et K : nombre de clusters obtenu
aprs application des K-moyennes. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les meilleurs rsultats obtenus avec des grilles diffrentes et des cartes non carres. . .
Rsultats obtenus sur des donnes normalises. . . . . . . . . . . . . . . . . . . . . . .
Rsultats obtenus sur des donnes non-normalises. . . . . . . . . . . . . . . . . . . .
Les scnariis dattaques avec trois alertes significatives de ces attaques. . . . . . . . . .
Rsultats de lanalyse quantitative durant lapprentissage de la carte SOM sur les quatre
niveaux de pondration : pourcentage de dtection des scnariis dattaques et de classification des points normaux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rsultats de lanalyse quantitative durant la phase de test sur les quatre niveaux de
pondration : pourcentage de dtection des scnariis dattaques et de classification des
points normaux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les rsultats obtenus pour les 3 indicateurs pour la base dapprentissage sur tous les
niveaux de pondration. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les rsultats obtenus pour les 3 indicateurs pour la base de test sur tous les niveaux de
pondration. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Adquation(2
) entre les scnariis dattaques de la base dapprentissage (haut) et la base
de test (bas) et le TOP(i) caracteristique du cluster correspondant (carte 0). . . . . . . .
Adquation(2
) entre les scnariis dattaques de la base dapprentissage (haut) et la base
de test (bas) et le TOP(i) caracteristique du cluster correspondant (carte 1). . . . . . . .
Influence de la variation du paramtre m sur larchitecture de la carte obtenue. . . . . .
Les rsultats obtenus pour u = 0.03 et 0.4 > m > 0.1. TD : taux de dtection des
attaques et FP : pourcentage des faux positifs . . . . . . . . . . . . . . . . . . . . . . .
Influence de la variation du paramtre u larchitecture de la carte obtenue. . . . . . .
Les rsultats obtenus pour m = 0.3 et 0.03 > u > 0.01. . . . . . . . . . . . . . . . . .

4.2
4.3
4.4
4.5

4.6
4.7
4.8
4.9
4.10

4.11

4.12
4.13
4.14
4.15
4.16
4.17
4.18
4.19

xv

41
42

46
51
54
55

58
58
59
59
63

65

65
66
66
67
68
69
70
70
71

Liste des tableaux


4.20 Adquation(A) entre les scnariis dattaques de la base dapprentissage (haut) et la base
de test (bas) et le TOP(1) caractristique du cluster correspondant. . . . . . . . . . . . .
4.21 Comparison des rsultas (donnes de test) obtenus par GHSOM et SOM : Taux de dtection (TD), faux positifs (FP) et pourcentage des donnes dattaques bien dcrites par
le Top(i) characteristique de leur projection. . . . . . . . . . . . . . . . . . . . . . . . .
5.1
5.2
5.3
5.4
5.5
5.6

tel-00917605, version 1 - 12 Dec 2013

5.7
5.8

5.9

Msures utiliss pour lvaluation dun classifieur binaire (cas dun test mdical) . . . .
Variables utiliss dans nos rseaux baysiens. . . . . . . . . . . . . . . . . . . . . . . .
Rsultats de limplmentation de lapproche brute sur les donnes de deux experts. . . .
Rsultats des diffrents modles sur les variables mesures par lexpert1. Le signe (+)
indique lintgration des deux variables contextuelles OS et type. . . . . . . . . . . . . .
Rsultats des diffrents algorithmes. Le signe (+) indique lintgration des deux variables contextuelles OS et type. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Influence de la probabilit priori de la classe sur les rsultats de classification. Le
signe (+) indique lintgration des deux variables contextuelles OS et type. . . . . . . . .
Rsultats obtenus en utilisant le noyau linaire. HR : pourcentage de dtection dattaques, FP : pourcentage des faux positifs et PCC : pourcentage de bonne classification.
Rsultats obtenus en utilisant le noyau polynomial. HR : pourcentage de dtection dattaques, FP : pourcentage des faux positifs. C : le taux derreurs admissibles et Param :
exposant du fonction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rsultats obtenus en utilisant le noyau base radiale. HR : pourcentage de dtection
dattaques, FP : pourcentage des faux positifs, C : le taux derreurs admissibles et Param : variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A.1 Les Top(5) caractristiques des clusters classifis comme attaque obtenus lors de lapprentissage de la carte partir des donnes sans pondration. . . . . . . . . . . . . . .
A.2 Les TOP(5) caractristiques des clusters classifis comme attaque obtenus lors de lapprentissage de la carte partir des donnes de pondration de niveau 1. . . . . . . . . .
A.3 Les Top(5) caractristiques des clusters classifis comme attaques obtenus lors de lapprentissage de la carte partir des donnes de pondration de niveau 2. . . . . . . . . .
A.4 Les Top(5) caractristiques des clusters classifis comme attaques obtenus lors de lapprentissage de la carte partir des donnes de pondration de niveau 3. . . . . . . . . .

73

73
77
86
90
91
92
92
93

94

94
122
123
124
125

B.1 Adquation(2
) entre les scnarios dattaques de la base dapprentissage (haut) et la base
de test (bas) et le TOP(i) caractristique du cluster correspondant (donnes pondres
de niveau 2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
B.2 Adquation(2
) entre les scnarios dattaques de la base dapprentissage (haut) et la base
de test (bas) et le TOP(i) caractristique du cluster correspondant (donnes pondres
de niveau 3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

xvi

Chapitre

Introduction Gnrale
tel-00917605, version 1 - 12 Dec 2013

1.1 Motivation
Au cours des dix dernires annes, le nombre et la svrit des attaques rseau ont significativement
augment [3]. Par consquent, les technologies classiques de scurit informatique telles que lauthentification et la cryptographie ont gagn en importance. Simultanment, la dtection dintrusion a merg
comme une approche nouvelle et efficace pour protger les systmes informatiques [45]. Dans cette
approche, les systmes de dtection dintrusion (IDS) sont employs pour surveiller les systmes informatiques et reconnatre des signes des violations de scurit. Aprs avoir dtect de tels signes, les IDS
dclenchent des alarmes qui sont prsentes un oprateur humain. Ensuite, cet oprateur value la menace et lance une rponse adquate. Les rponses possibles incluent par exemple des reconfigurations de
pare-feu, ou la rparation des vulnrabilits dcouvertes. Evaluer les alarmes gnres par les systmes
de dtection dintrusion et concevoir une rponse approprie sest avre une tche pleine de dfis. En
fait, les praticiens [127] aussi bien que les chercheurs [12, 30, 94] ont observ que les IDS peuvent facilement gnrer des milliers dalarmes par jour, dont 99% sont des faux positifs (c..d alarmes qui ont t
dclenches de manire errone par des vnements bnins). Cette inondation de faux positifs rend trs
difficile lidentification des vrais positifs cachs (c..d les alarmes qui sont les vrais signes dattaques).
Par exemple, la recherche manuelle sur les alarmes sest avre trs difficile et source derreurs [41, 127].
Des outils pour automatiser la gestion dalarmes sont dvelopps [41, 47, 175], mais il ny a actuellement
aucune solution optimale ce problme.
Cette thse prsente une nouvelle approche automatique pour manipuler plus efficacement les
alarmes gnres par les systmes de dtection dintrusion. Le point central de cette approche est la
notion de comportements types1 des machines attaques. Intuitivement, le comportement des machines en cas dattaque est diffrent de celui en cas normal. Nous croyons que les diffrents types
dalarmes gnres par un NIDS pour chaque couple de machines en connexion dans un intervalle de temps peuvent tre reprsentatives de la nature de cette session. En plus, ce comportement
peut tre similaire pour plusieurs machines en connexion dans des priodes diffrentes. Alors, le
regroupement de ces comportements similaires en un nombre de comportements types peut crer
un groupement des donnes cohrent qui peut tre significatif des scnariis dattaques potentiels.
A partir de ces comportements types, nous proposons ensuite de dterminer le comportement (i.e.,
attaque ou normal) des machines internes du rseau surveill et ne prsenter finalement ladministrateur de scurit que les alarmes correspondantes aux vraies attaques et filtrer les autres.
1

en terme dalarmes gnres

Chapitre 1. Introduction Gnrale

1.2 Contribution
Nous tudions les limites actuelles des systmes de traitement des alarmes gnres par les NIDS
et proposons une nouvelle approche automatique qui amliore le mcanisme de filtrage. Nos principales
contributions se rsument ainsi :

tel-00917605, version 1 - 12 Dec 2013

1. Proposition dune architecture de filtrage : nous avons propos une architecture de filtrage des
alarmes qui analyse les journaux dalertes dun NIDS et essaye de filtrer les faux positifs. Cette
architecture est compose de deux phases principales que nous avons initialement propos lors de
de latelier modles graphiques probabilistes organis en 2005 dans la confrence Extraction et
Gestion des Connaissances (EGC [62] :
Phase de prtraitement : dans cette phase, nous partons des journaux dalarmes gnrs par le
NIDS. Dabord, pour chaque couple de machines en connexion, nous calculons le nombre de
diffrents types dalarmes gnres dans une fentre de temps mobile. Ces vecteurs rsums sont
reprsentatifs des scnarios dattaques potentiels visant les machines internes du rseau. Ensuite
nous dterminons un certain nombre de comportements types partir de ces vecteurs rsums en
utilisant des mthodes de classification non-supervise. Dans ltape suivante, nous proposons
une mthode danalyse de ces comportements dans laquelle nous pouvons distinguer les comportements attaques et les comportements normaux. Une autre mthode danalyse qualitative
est propose pour indiquer le type de scnarios dattaques reprsents par ces comportements
types. Les diffrents modles tudis dans cette phase ont t respectivement prsents lors de la
confrence IEEE ICTTA 2006 : International Conference on Information and Communication
Technologies from theory to applications [60] et NTMS 2007 : International Conference on
New Technologies, Mobility and Security [61].
Phase de filtrage : dans cette phase, nous calculons pour chaque machine interne le nombre de
comportement type dtect. A partir de ces informations nous essayons de dtecter si une machine interne est attaque ou non en utilisant des mthodes de classification supervise. De cette
facon, nous filtrons toutes les alarmes qui ne correspondent pas aux vraies attaques. Les rsultats concernant cette phase ont fait lobjet dune prsentation pendant la confrence SAR-SSI
2006 : First Joint Conference on Security in Network Architectures and Security of Information
Systems [59].
2. Etude de lvolutivit de cette architecture : dans cette phase, nous tudions laspect dynamique
de larchitecture propose. Lexploitation de larchitecture en temps rel pose plusieurs dfis sur
ladaptation de cette architecture par rapport aux changements qui peuvent arriver au cours du
temps. Nous avons distingu trois problme rsoudre : (1) adaptation de larchitecture vis vis
de lvolution du rseau surveill : intgration des nouvelles machines, des nouveaux routeurs,
etc., (2) adaptation de larchitecture vis vis de lapparition de nouveaux types dattaques et (3)
adaptation de larchitecture avec lapparition ou le glissement des comportements types. Pour rsoudre ces problmes, nous utilisons la notion de rejet en distance propose en reconnaissance des
formes et les tests dhypothses statistiques .
Toutes nos propositions sont implmentes et ont donn lieu des exprimentations que nous dcrivons tout au long du document. Ces expriences utilisent des alarmes gnres par SNORT, un systme
de dtection des intrusions bas-rseau qui surveille le rseau du Rectorat de Rouen et qui est dploy
dans un environnement oprationnel. Ce point est important pour la validation de notre architecture
puisque elle utilise des alarmes issues dun environnement rel plutt quun environnement simul ou de
laboratoires qui peuvent avoir des limitations significatives [129].
2

1.3. Organisation de la thse

tel-00917605, version 1 - 12 Dec 2013

1.3 Organisation de la thse


Nous prsentons dans le Chapitre 2 les solutions de scurit actuelles telles que les pare feux et les
pots de miels. Nous soulignons les limites de chacune de ces solutions afin de dterminer lintrt des
systmes de dtection dintrusions.
Nous exposons dans le Chapitre 3 un tat de lart sur la dtection dintrusions. Nous nous focalisons
sur le filtrage des alarmes gnres par les NIDS qui reprsente notre axe de recherche. Nous soulignons galement les limites actuelles des systmes de traitement des alarmes avant de prsenter notre
proposition dune architecture pour un systme de filtrage des alarmes. Il sagit dune solution gnrale
qui se base sur la couplage entre des mthodes de classification non-supervise et dautres mthodes de
classification supervise qui seront explicits dans les chapitres suivants.
Le Chapitre 4 commence par un tat de lart sur les mthodes de Clustering. Ensuite, nous prsentons les deux premires phases de larchitecture propose : prtraitement temporel et spatial. Dans la
premire phase, nous abordons le choix des fentres temporelles et la normalisation des donnes. Dans
la seconde, nous appliquons deux mthodes de classification non-supervise SOM et GHSOM pour la
cration dun nombre de clusters ou comportements types qui peuvent tre significatifs des scnarios
dattaque potentiels. Pour lanalyse des clusters obtenus, nous proposons deux mthodes : la premire
quantitative dans laquelle nous indiquons sommairement la nature des clusters obtenus, c..d attaque ou
normale. La deuxime est qualitative et indique le type des scnarios dattaques projets dans ce cluster.
Le Chapitre 5 traite la dtection des vraies attaques et le filtrage des faux positifs. Il commence par
une revue sur la classification supervise et prsente les deux mthodes utilises : les rseaux baysiens et
les machines vecteurs de support. Nous prsentons ensuite lapplication des rseaux baysiens sur notre
problmatique, testons plusieurs types de modles et tudions leurs performances. Enfin, nous prsentons
lapplication des SVM sur la mme problmatique et comparons les rsultats obtenus.
Ensuite nous consacrons le Chapitre 6 tudier laspect dynamique et volutif de larchitecture
de filtrage. Ayant soulign les problmes rencontrs, nous proposons une solution pour rsoudre ces
problmes. Cette solution est base sur lutilisation de la notion de rejet en distance utilise en reconnaissance de formes et lapplication de cette notion sur les cartes de Kohonen. De plus, pour essayer de
dtecter lvolution des comportements types au cours de temps, nous utilisons quelques tests dhypothses statistiques.
Nous concluons notre travail au Chapitre 7 puis prsentons nos diffrentes perspectives.

tel-00917605, version 1 - 12 Dec 2013

Chapitre 1. Introduction Gnrale

Chapitre

tel-00917605, version 1 - 12 Dec 2013

Introduction la Scurit Informatique


Le seul systme informatique qui est vraiment sr est un systme
teint et dbranch, enferm dans un blockhaus sous terre, entour par des gaz mortels et des gardiens
hautement pays et arms. Mme dans ces conditions, je ne parierais pas ma vie dessus.
Gene Spafford.

Sommaire
2.1
2.2
2.3
2.4
2.5
2.6

Introduction . . . . . . . . . . . . . . . .
Objectifs de la scurit informatique . . .
Ncessit dune approche globale . . . . .
Mise en place dune politique de scurit
Protection du systme dinformation . . .
Conclusion . . . . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

. 5
. 6
. 7
. 7
. 8
. 11

2.1 Introduction
Avec le dveloppement de lutilisation dinternet, de plus en plus dentreprises ouvrent leur systme
dinformation leurs partenaires ou leurs fournisseurs. Il est donc essentiel de connatre les ressources
de lentreprise protger et de matriser le contrle daccs et les droits des utilisateurs du systme dinformation. Il en va de mme lors de louverture de laccs de lentreprise sur internet. Par ailleurs, avec
le nomadisme, consistant permettre aux personnels de se connecter au systme dinformation partir
de nimporte quel endroit, les personnels sont amens transporter une partie du systme dinformation
hors de linfrastructure scurise de lentreprise. La scurit informatique se compose de trois grands
domaines : la prvention des incidents, la dtection des problmes et la rparation des dommages [44].
La prvention vise rduire la probabilit dapparition dun incident. Cest lune des plus anciennes
5

Chapitre 2. Introduction la Scurit Informatique

tel-00917605, version 1 - 12 Dec 2013

proccupations des administrateurs de systmes informatiques, et un champ de recherche trs important


et trs actif. Elle est perue par les utilisateurs par lintermdiaire du mcanisme "login-password" prsent dans la plupart des systmes dexploitation modernes qui les oblige sidentifier et sauthentifier
auprs du systme avant de pouvoir y accder. De manire beaucoup plus large, la prvention couvre des
domaines aussi diffrents que la gestion des droits et des privilges, le contrle daccs, la cryptographie
et les modles formels de scurit. La dtection sintresse la recherche dlments indiquant quune
activit suspecte est en cours sur le systme informatique ou le rseau. Cette recherche se fait partir
des journaux de bord gnrs par les systmes dexploitation, qui enregistrent les diffrentes actions des
utilisateurs de manire plus ou moins dtaille. Les journaux de bord existants lheure actuelle sont
souvent orients vers le dcompte ou limputation de ressources, mais il existe aussi des mcanismes de
journalisation ddis la scurit qui enregistrent des informations trs dtailles sur le comportement
de lutilisateur. La rparation des dommages subis se fait par des mthodes traditionnelles utilises galement en sret de fonctionnement. Les sauvegardes priodiques et les matriels de secours sont utiliss
pour ramener le systme informatique un tat prcdent considr comme stable et non compromis.
Ceci implique en gnral la perte de lactivit ralise depuis ce point de reprise.
Le risque en terme de scurit est gnralement caractris par lquation suivante :
Risque =

Menace Vulnerabilite
ContreMesure

(2.1)

La menace (en anglais threat) reprsente le type daction susceptible de nuire dans labsolu, tandis que la vulnrabilit (en anglais vulnerability, appele parfois faille ou brche) reprsente le niveau
dexposition face la menace dans un contexte particulier. Enfin la contre-mesure est lensemble des
actions mises en oeuvre en prvention de la menace. Les contre-mesures mettre en uvre ne sont pas
uniquement des solutions techniques mais galement des mesures de formation et de sensibilisation
lintention des utilisateurs, ainsi quun ensemble de rgles clairement dfinies. Afin de pouvoir scuriser
un systme, il est ncessaire didentifier les menaces potentielles, et donc de connatre et de prvoir la
faon de procder de lennemi.

2.2 Objectifs de la scurit informatique


Le systme dinformation est gnralement dfini par lensemble des donnes et des ressources matrielles et logicielles de lentreprise permettant de stocker ou de faire circuler ces donnes. Le systme
dinformation reprsente un patrimoine essentiel de lentreprise, quil convient de protger. La scurit
informatique, dune manire gnrale, consiste assurer que les ressources matrielles ou logicielles
dune organisation sont uniquement utilises dans le cadre prvu. La scurit informatique vise gnralement cinq principaux objectifs :
Lintgrit : cest--dire garantir que les donnes sont bien celles que lon croit tre. Vrifier
lintgrit des donnes consiste dterminer si les donnes nont pas t altres durant la communication (de manire fortuite ou intentionnelle) ;
La confidentialit : la confidentialit consiste rendre linformation inintelligible dautres
personnes que les seuls acteurs de la transaction. Ceux qui ne doivent pas connatre certaines
informations ne doivent pas avoir la possibilit de le faire. Le chiffrement brut dun fichier entre
dans cette catgorie.
La disponibilit : lobjectif de la disponibilit est de garantir laccs un service ou des ressources. Il renvoie la ncessit de garantir 24h sur 24h le fonctionnement dun ordinateur ou
dun rseau, si cest une exigence stratgique. Ceci est le domaine par excellence de la scurit
physique (alimentation en courant lectrique, chaleur, dure de vie des composants, vols, etc...),
6

2.3. Ncessit dune approche globale


mais cest aussi un peu le domaine de la scurit logique au travers des plans de secours destins
assurer la continuit de service.
La non rpudiation : la non-rpudiation de linformation est la garantie quaucun des correspondants ne pourra nier la transaction. Des transactions permettent de prouver de faon certaine
et non contestable par les parties en prsence que telle ou telle action a bien t effectue par une
personne et non par une autre. Ce nest pas vous de prouver que vous navez pas achet un yacht
Monaco il y a 8 jours avec votre carte bancaire, mais votre banque de fournir la preuve que
vous avez bien tap votre code PIN sur le terminal du vendeur de bateau...
Lauthentification : lauthentification consiste assurer lidentit dun utilisateur, cest--dire de
garantir chacun des correspondants que son partenaire est bien celui quil croit tre. Un contrle
daccs peut permettre (par exemple par le moyen dun mot de passe qui devra tre crypt) laccs
des ressources uniquement aux personnes autorises.

tel-00917605, version 1 - 12 Dec 2013

2.3 Ncessit dune approche globale


La scurit dun systme informatique fait souvent lobjet de mtaphores. En effet, on la compare
rgulirement une chane en expliquant que le niveau de scurit dun systme est caractris par le
niveau de scurit du maillon le plus faible. Ainsi, une porte blinde est inutile dans un btiment si les
fentres sont ouvertes sur la rue. Cela signifie que la scurit doit tre aborde dans un contexte global et
notamment prendre en compte les aspects suivants :
la sensibilisation des utilisateurs aux problmes de scurit,
la scurit logique, cest--dire la scurit au niveau des donnes, notamment les donnes de lentreprise, les applications ou encore les systmes dexploitation,
la scurit des tlcommunications : technologies rseau, serveurs de lentreprise, rseaux daccs,
etc,
la scurit physique, soit la scurit au niveau des infrastructures matrielles : salles scurises,
lieux ouverts au public, espaces communs de lentreprise, postes de travail des personnels, etc.

2.4 Mise en place dune politique de scurit


La scurit des systmes informatiques se cantonne gnralement garantir les droits daccs aux
donnes et ressources dun systme en mettant en place des mcanismes dauthentification et de contrle
permettant dassurer que les utilisateurs des dites ressources possdent uniquement les droits qui leur ont
t octroys. La scurit informatique doit toutefois tre tudie de telle manire ne pas empcher les
utilisateurs de dvelopper les usages qui leur sont ncessaires, et de faire en sorte quils puissent utiliser
le systme dinformation en toute confiance. Cest la raison pour laquelle il est ncessaire de dfinir
dans un premier temps une politique de scurit, dont la mise en oeuvre se fait selon les quatre tapes
suivantes :
Identifier les besoins en terme de scurit, les risques informatiques pesant sur lentreprise et leurs
ventuelles consquences ;
Elaborer des rgles et des procdures mettre en oeuvre dans les diffrents services de lorganisation pour les risques identifis ;
Surveiller et dtecter les vulnrabilits du systme dinformation et se tenir inform des failles sur
les applications et matriels utiliss ;
Dfinir les actions entreprendre et les personnes contacter en cas de dtection dune menace ;
La politique de scurit est donc lensemble des orientations suivies par une organisation ( prendre au
sens large) en terme de scurit. A ce titre elle se doit dtre labore au niveau de la direction de lorga7

Chapitre 2. Introduction la Scurit Informatique


nisation concerne, car elle concerne tous les utilisateurs du systme. A cet gard, il ne revient pas aux
seuls administrateurs informatiques de dfinir les droits daccs des utilisateurs mais aux responsables
hirarchiques de ces derniers. Le rle de ladministrateur informatique est donc de sassurer que les ressources informatiques et les droits daccs celles-ci sont en cohrence avec la politique de scurit
dfinie par lorganisation. De plus, tant donn quil est le seul connatre parfaitement le systme, il
lui revient de faire remonter les informations concernant la scurit sa direction, ventuellement de
conseiller les dcideurs sur les stratgies mettre en oeuvre, ainsi que dtre le point dentre concernant la communication destination des utilisateurs sur les problmes et recommandations en terme de
scurit.

tel-00917605, version 1 - 12 Dec 2013

2.5 Protection du systme dinformation


Les attaquants peuvent appliquer un plan dattaque bien prcis pour russir leurs exploits [75]. Leurs
objectifs sont distincts et multiples. On distingue lattaquant hacker, qui dans un but dapprofondissement
de connaissances, essaie de dcouvrir les failles de scurit dans un systme informatique. Cette personne
partage librement ses dcouvertes et vite la destruction intentionnelle des donnes. Le deuxime type
dattaquant, appel cracker, cherche violer lintgrit du systme. Gnralement, il est facilement identifiable cause de ses actions nuisibles. Nanmoins il faut distinguer un expert qui cherche les exploits et
conoit lui mme les programmes, dun gamin scripteur (script kiddy) qui utilise la technologie existante
dans un but malveillant. Les diffrents types dattaquants cherchent dcouvrir les proprits du rseau
cible avant de lancer les attaques. On parle gnralement de la reconnaissance qui peut tre passive ou
active. Ayant rcolt les informations ncessaires, ils lancent leurs vraies attaques pour exploiter le systme. Ensuite ils crent des portes drobes pour garantir des futurs accs faciles au systme compromis.
Enfin ils effacent leurs traces des journaux de scurit.
Les attaquants disposent de plusieurs moyens pour russir chaque phase dattaque. La disponibilit
des outils dattaques et la richesse des sources dinformations accentuent le risque des intrusions. Par
consquent les administrateurs scurisent de plus en plus leurs systmes informatiques. Ils sappuient sur
diverses solutions comme les pare feux, la cryptographie, les scanners de vulnrabilits et les systmes
de dtection dintrusions. Nous dtaillons dans la suite chacune de ces mthodes et nous soulignons leurs
limites.

2.5.1 Pare-feux
Un pare-feu (firewall) est un systme physique ou logique qui inspecte les flux entrant et sortant du
rseau. Il se base sur un ensemble de rgles afin dautoriser ou interdire le passage des paquets. Il existe
principalement trois types de pare-feux :
Pare-feu avec filtrage des paquets : ce pare-feu filtre les paquets en utilisant des rgles statiques
qui testent les champs des protocoles jusquau niveau transport.
Pare-feu filtrage des paquets avec mmoire dtats : ce modle conserve les informations des
services utiliss et des connexions ouvertes dans une table dtats. Il dtecte alors les situations
anormales suite des violations des standards protocolaires.
Pare-feu proxy : ce pare-feu joue le rle dune passerelle applicative. En analysant les donnes
jusquau niveau applicatif, il est capable de valider les requtes et les rponses lors de lexcution
des services rseaux.
Malgr leur grand intrt, les pare-feux prsentent quelques lacunes. En effet, un attaquant peut exploiter
les ports laisss ouverts pour pntrer le rseau local. Ce type daccs est possible mme travers des
pare feux proxy. Il suffit dutiliser un protocole autoris tel que HTTP pour transporter dautres types
8

2.5. Protection du systme dinformation


de donnes refuses. Ainsi lopration supplmentaire dencapsulation/dcapsulation des donnes permet lattaquant de contourner le pare feu. Les scripts constituent aussi des sources dintrusion que les
pare feux chouent dtecter. Par exemple la vulnrabilit du RDS (Remote Data Service) sur les serveurs web IIS (Internet Information Server) de Microsoft permet aux intrus dexcuter des commandes
distance sur des stations Serveur NT. Le script "msadc.pl" de Rain Forest Puppy (RFP) exploite cette
vulnrabilit. Il emploie des mthodes valides du protocole HTTP telles que GET et POST pour pouvoir
passer inaperu travers un pare-feu proxy.

tel-00917605, version 1 - 12 Dec 2013

2.5.2 Scanners de vulnrabilits


Les scanners de vulnrabilits automatisent la dcouverte des failles de scurit. Ils sont utiliss par
les attaquants pour localiser les faiblesses du rseau cible. De plus, les administrateurs peuvent en tirer
profit pour corriger les vulnrabilits de leurs systmes informatique. Nous citons titre dexemple Nessus [97], Whisker [151] et Saint [35]. Cependant les scanners prsentent quelques limites qui peuvent tre
rsumes en trois points : lexhaustivit, la mise jour et lexactitude. En effet, malgr le grand nombre
de vulnrabilits dtectes, les scanners daujourdhui sont inaptes dterminer toutes les faiblesses
possibles. De plus, la mise jour de ces produits ne suit pas le rythme de la dcouverte des nouvelles
vulnrabilits. Enfin, la modification des bannires des services scanns permet de dissuader facilement
le scanner ce qui entrane parfois un responsable de scurit chasser des vulnrabilits fantmes.

2.5.3 Outils darchivage


La plupart des systmes dexploitation fournissent des utilitaires darchivage. Par exemple le daemon
syslogd dUnix enregistre dans des fichiers journaux de scurit les oprations intressantes excutes
sur le systme. Parmi les fichiers log crs, trois sont susceptibles dtre manipuls par les attaquants
savoir wtmp, utmp et lastlog [132].
wtmp : contient un historique des connexions/dconnexions avec lheure, le service et le terminal
concern,
utmp : liste les utilisateurs connects un moment donn,
lastlog : contient un historique des dernires connexions.
Les attaquants effacent souvent les entres des journaux de scurit et principalement des trois fichiers voqus ci-dessus. De leur ct, les administrateurs vrifient lintgrit de ces fichiers afin de
dtecter les ventuelles modifications. Ils dupliquent galement les fichiers sur des machines distantes
inconnues par les attaquants. Enfin, et pour rsister aux arrts intentionnels des daemons darchivage, les
responsables de scurit varient les outils de sauvegarde. Par consquent les journaux de scurit constituent une source intressante pour analyser et dtecter les attaques. Cependant, ces fichiers contiennent
beaucoup dinformations normales et anormales. La taille norme de ces fichiers pose souvent des problmes de stockage et dexploration du contenu. Les administrateurs fournissent aussi un effort important
pour localiser dans ces fichiers les activits anormales, comprendre les objectifs des attaquants et dterminer les vulnrabilits exploites du systme.

2.5.4 Cryptographie
La cryptographie garantit la confidentialit, lintgrit, la non rpudiation et lauthenticit des donnes. Elle est frquemment utilise dans diverses applications rseaux telles que la messagerie, les
connexions distance, les rseaux privs et les serveurs web. Les administrateurs lutilisent pour scuriser leurs systmes informatiques mais elle ne constitue pas une solution unique et suffisante. Effectivement, diverses implmentations des protocoles de scurit se sont rvles vulnrables. De plus la
9

Chapitre 2. Introduction la Scurit Informatique


scurit peut tre rompue via plusieurs types dattaques. Par exemple lhomme du milieu (MITM) constitue une menace lors des crations des cls. Par ailleurs les mots de passe courts et simples utiliss comme
des cls de scurit par les algorithmes symtriques sont facilement cassables via des attaques par dictionnaires ou de recherche exhaustive. En outre la cryptographie empche lanalyse aise du contenu
des paquets et rend donc difficile la dtection des attaques si elles sont dj insres dans des protocoles
rseaux. Elle constitue mme un moyen de camoufler les attaques et par consquent de contourner les
pare-feux et les systmes de dtection dintrusions.

tel-00917605, version 1 - 12 Dec 2013

2.5.5 Pots de miel


Un pot de miel est une machine qui prsente ou simule des failles de scurit trs rpandues [167].
Disposant de moyens renforcs de surveillance, la machine peut servir dappt pour apprendre la stratgie
des attaquants et construire des signatures exactes dattaques. Par ailleurs la simulation du comportement
dune machine doit aussi tre raliste pour ne pas veiller les soupons des attaquants. Un pot de miel
dispose de plusieurs outils de surveillance et darchivage, ncessaires pour collecter les informations des
activits suspectes. Ces outils doivent tre maintenus en permanence puisquils sont dploys dans un
environnement frquent principalement par des attaquants. De plus, lisolation du pot de miel du reste
du rseau est indispensable pour quil ne se transforme pas en une base pour compromettre dautres
machines.

2.5.6 Systmes de dtection dintrusions


Une intrusion est toute activit qui menace la politique de scurit de lentreprise et mne sa violation [24]. Lorigine de lintrusion est multiple et peut tre due un espionnage industriel ou des attaques
lances par des gamins scripteurs. Ainsi un systme de dtection dintrusions (IDS) tente didentifier les
menaces diriges contre le rseau de lentreprise. Il sappuie sur plusieurs sources dinformations comme
les fichiers daudit, les journaux de scurit et le trafic rseau. Nous avons tudi dans les sous sections
prcdentes diverses solutions pour scuriser le rseau informatique et mentionn leurs intrts et leurs
limites. Il sest avr que ces outils ne peuvent pas prvenir toutes les attaques et ainsi assurer seuls une
scurit idale du rseau. Etant donne limpossibilit de stopper toutes les attaques, les systmes de
dtection dintrusions constituent une bonne solution pour dtecter celles qui passent inaperues. Placs
aprs les pare feux, les IDS constituent la dernire barrire de scurit. Ils analysent le trafic qui passe
travers les pare feux et supervisent les activits des utilisateurs sur le rseau local. Par ailleurs, placs
avant les pare feux, les IDS dcouvrent les attaques lentre du rseau. Les IDS sappuient gnralement
sur deux sources dinformation : les paquets transitant sur le rseau et les informations collectes sur les
machines. On parle alors de deux types de systmes de dtection dintrusions : les IDS bass rseau et les
IDS bass hte. Ces deux catgories dIDS emploient gnralement deux principes de dtection : lapproche comportementale et lapproche base sur la connaissance. La dtection par la connaissance dfinit
des signatures dattaques qui dcrivent les intrusions. Ces signatures ne sont autres que les empreintes
laisses par les intrus au cours de leurs exploits. La deuxime approche de dtection, comportementale,
se rfre au comportement normal et habituel des diffrents acteurs du systme protger (application,
utilisateur, etc.). Une dviation importante par rapport une situation normale reprsente une activit
suspecte et rvle ventuellement une attaque. Nous dtaillons les deux approches de dtection ainsi que
leurs limites dans le Chapitre 3.
10

2.6. Conclusion

2.6 Conclusion

tel-00917605, version 1 - 12 Dec 2013

Les attaquants suivent une stratgie dattaque pour russir leurs exploits. Ils disposent de plusieurs
sources dinformation et de divers outils pour compromettre le systme informatique. Par consquent, les
administrateurs dploient des solutions de scurit efficaces capables de protger le rseau de lentreprise.
Dans ce contexte, les systmes de dtection dintrusions constituent une bonne alternative pour mieux
scuriser le rseau informatique. Nous dtaillons dans le Chapitre 3 les qualits ncessaires aux systmes
de dtection dintrusions. Nous discutons aussi des approches proposes dans la littrature et ceci en nous
basant sur les deux principes de dtection savoir la dtection comportementale et la dtection par la
connaissance.

11

tel-00917605, version 1 - 12 Dec 2013

Chapitre 2. Introduction la Scurit Informatique

12

Chapitre

tel-00917605, version 1 - 12 Dec 2013

La Dtection dIntrusions

Sommaire
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les mthodes dattaque et dintrusion . . . . . . . . . . . . . . . .
La dtection dintrusion . . . . . . . . . . . . . . . . . . . . . . . .
Outils de dtection dintrusion : taxonomie . . . . . . . . . . . . .
Les techniques de dtection . . . . . . . . . . . . . . . . . . . . . .
SNORT : Un Systme de Dtection dIntrusions dans les Rseaux
Sur la difficult de la dtection dintrusion . . . . . . . . . . . . .
Notre application de filtrage des alertes . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

13
14
15
17
22
31
33
38
41

3.1 Introduction
Prvenir les intrusions est une tape fondamentale et indispensable. Mais face la persvrance et
lingniosit des pirates, il serait illusoire de croire que les protections mises en place sont impntrables.
Toute mesure de protection est potentiellement faillible car il est impossible dtre certain davoir envisag tous les cas possibles. De plus, les applications utilises sont ralises par des socits extrieures,
ce qui veut dire dans la plupart des cas, que lon ne possde pas les sources de ces logiciels. Il en dcoule
que des failles de scurit peuvent tre dcouvertes tout moment par les pirates et peuvent servir
pntrer nos dfenses.
Nous pourrions comparer la mise en place dun pare-feu avec la construction dun mur denceinte
autour de lentreprise. Le pare-feu a pour fonction de rejeter les tentatives dintrusions. En poursuivant
avec cette image, le dploiement dun systme de dtection dintrusions revient ajouter des quipes de
13

Chapitre 3. La Dtection dIntrusions


gardiens surveillant les alles et venues dans lentreprise, dans le but dintercepter les pirates qui seraient
parvenus franchir le mur denceinte.

3.2 Les mthodes dattaque et dintrusion

tel-00917605, version 1 - 12 Dec 2013

3.2.1 Dfinitions
De manire gnrale, il est possible de donner la dfinition suivante dune attaque [188] :
Une attaque est une action de malveillance consistant tenter de contourner les fonctions et les
mesures de scurit dun systme informatique.
De manire plus prcise, nous pouvons trouver les dfinitions suivantes :
Menace : possibilit potentielle de tentative non autorise et dlibre daccder linformation,
de manipuler linformation et de rendre un systme incertain ou inutilisable.
Attaque : dcouverte systmatique dinformations, tentative relle dintrusion ou de dni de service.
Intrusion : prise de controle totale ou partielle dun systme distant.
Lintrusion peut tre donc considre comme un type dattaque particulier.
Cependant, le rle des outils de dtection dintrusions (appels galement IDS pour Intrusion Detection System) consiste dtecter tout type dactivit non conforme la politique de scurit en vigueur
(intrusion relle ou attaque au sens large). Les IDS les plus courants sont les IDS rseau (aussi appels
NIDS pour Network IDS). Ils sont constitus dun logiciel install sur un ou plusieurs ordinateurs placs
des endroits stratgiques de rseau, et qui vont espionner toutes les communications. LIDS va raliser
une analyse des donnes captures et les comparer en temps rel ou en diffr avec un certain nombre de
rgles de scurit prdfinies. Ces rgles sont souvent appeles des signatures comme pour les antivirus.
Une signature dcrit les caractristiques de ce que lIDS doit considrer comme un trafic rseau anormal.

3.2.2 Les diffrentes formes et mthodes dattaques


Une attaque contre un systme informatique peut revtir diffrentes formes. De manire gnrale, les
attaques utilisent les mthodes numres ci-dessous quelles dcrivent en fonction de leurs besoins :
Le dni de service : galement appel DoS (Deny of Service), il vise empcher ou perturber
le fonctionnement normal dun quipement informatique de sorte quil ne rende pas le service
que lon attend de lui. Il existe une forme "distribue" de cette forme dattaque appele DDoS
(Distributed Deny of Service).
Laltration : elle vise modifier ou supprimer les donnes dun systme dinformation, dune
communication, ou bien encore de configurations dlments actifs (serveurs, routeurs, firewall,
etc).
Le renseignement / la rcupration : ils permettent de sapproprier des donnes confidentielles sur
un systme, un fichier, un utilisateur, ou encore sur une communication.
Lutilisation des ressources : il sagit dutiliser dune manire clandestine les ressources dun
systme (ex : hbergement de fichier, accs rseau, etc.)
Ces formes dattaques utilisent des outils qui leur sont propres. Ces derniers sont en gnral euxaussi des combinaisons et des drives de "mthodes gnriques dattaque" regroupes en sept grandes
catgories :
Le spoofing : usurpation didentit au niveau 2 ou 3 du modle OSI (adresse MAC ou IP).
Le flooding : inondation dun quipement rseau sous une multitude de paquets.
14

3.3. La dtection dintrusion


Le snifing : "capture" ou plus simplement "coute" des communications entre diffrents lments
actifs de manire en extraire des informations, ou en rajouter des squences.
Le scanning : recherche de vulnrabilits qui pourront ensuite tre exploites.
Lutilisation de virus ou de chevaux de Troie : prise de controle dun systme ou atteinte son
intgrit, sa stabilit.
Lexploitation de vulnrabilits systmes : exploitation des bugs, des faiblesses ou encore du
manque de scurisation du systme cible.
Lexploitation de vulnrabilits protocolaires : exploitation des bugs ou des faiblesses des protocoles utiliss ou de leur implmentation.

tel-00917605, version 1 - 12 Dec 2013

3.3 La dtection dintrusion


Nous avons vu dans la partie prcdente les grandes catgories dattaques que peuvent subir les
systmes informatiques. La scurisation dun systme informatique passe entre autre par le dploiement
doutils dont les rles complmentaires permettent dassurer une protection optimale mme si, comme le
souligne Gene Spafford, fondateur et directeur du "Computer Operations, Audit and Security Technology
(COAST) Laboratory" : aucun systme ne permet aujourdhui de garantir une scurit sans faille :
Le seul systme informatique qui est vraiment sr est un systme teint et dbranch, enferm dans un
blockhaus sous terre, entour par des gaz mortels et des gardiens hautement pays et arms. Mme dans
ces conditions, je ne parierais pas ma vie dessus. Gene spafford.
Nous allons nous attacher tudier les outils de dtection dintrusions, en dfinissant leur rle exact,
leurs principes de fonctionnement ainsi que les diffrentes familles qui les composent.

3.3.1 Les systmes de dtection dintrusions


Il y a plusieurs manires dviter dtre la cible, ou de ragir une intrusion [77] :
1. Prvention. Pour rduire proactivement la probabilit de lactivit intrusive en influenant la racine
cause du problme (par exemple, pour enlever des services inutiles dun serveur).
2. Premption. Pour parer rellement la source dattaque ou dintrusion avant quelle atteigne son
objectif.
3. Dissuasion.Pour persuader lattaquant darrter lattaque (par exemple, en utilisant des bannires
de systmes annoncant la prsence doutils de scurit installs sur le systme).
4. Dviation. Pour inciter lattaquant penser quil a russi (par exemple, laide des pots miel
[168]).
5. Utilisation de contre-mesures. Pour ragir lintrusion lorsquelle se dveloppe (par exemple, en
appliquant des patchs rapports et en modifiant le systme).
6. Dtection. Pour identifier des tentatives et des incidents intrusifs afin de garder le responsable
scurit inform (par exemple, rapportant les squences URL anormales reues par le serveur
Web).
Hors de ces ractions possibles, la dtection dintrusion par empchement (prvention) est lapproche
qui a t explore la plupart du temps [11]. En 1980, Anderson a crit un travail original qui a augment
lintrt pour la scurit des ordinateurs [8]. Quelques annes aprs, en 1987, le premier modle de
dtection dintrusion propos par Denning a ouvert le domaine et est par la suite devenu une rfrence
centrale aux multiples architectures de scurit dveloppes dans le monde [49]. La dtection dintrusion
est concerne par lidentification des activits qui ont t produites avec lintention de compromettre la
15

Chapitre 3. La Dtection dIntrusions

tel-00917605, version 1 - 12 Dec 2013

F. 3.1 Organisation dun modle gnrique dun IDS


scurit des ressources locales [6]. Un attaquant peut essayer daccder un systme de lextrieur du
rseau, mais il est aussi possible quun utilisateur interne lgitime maltraite le mcanisme de contrle
daccs afin de rvler des donnes sensibles ou modifier des fichiers sans avoir t autoris le faire. Le
systme de dtection dintrusion recueille et analyse des donnes de diffrentes sources dans le systme
afin didentifier lactivit qui peut tre indicatrice dune tentative de compromission [187]. Un outil de
dtection dintrusion alertera les administrateurs qui devront agir afin de limiter les dommages et rparer
nimporte quel trou de scurit dans le systme.

3.3.2 Modle gnrique dun IDS


Le modle gnrique dun IDS dcrit dans la figure 3.1 doit contenir au moins les lments suivants
[11] :
Collection daudit : les donnes utilises pour prendre la dcision de dtection des intrusions. Plusieurs parties du systme control peuvent etre utilises comme source de donnes : entres clavier,
journaux des commandes, journaux des applications, etc. Cependant, en pratique, les activits du
rseau et les journaux de scurit des htes (ou les deux) sont utiliss.
Stockage daudit : les donnes daudit sont stockes quelque part, soit indfiniment pour une
rfrence postrieure, soit temporairement en attente de traitement. Le volume de donnes, souvent excessivement grand, est un lement critique dans nimporte quel IDS. Ceci amne quelques
chercheurs du domaine proposer le problme de dtection dintrusions comme un problme de
rduction des donnes daudit [66].
Traitement : le bloc de traitement est le coeur dun IDS. Cest ici quun ou plusieurs algorithmes
sont excuts pour trouver la preuve (mme incertaine) de comportement souponneux dans les
journaux daudit. Le traitement se fait en gnral suivant deux approches principales : lapproche
par scnario et lapproche comportementale.
Donnes de configuration : tout ce qui affecte le fonctionnement du systme de dtection dintrusion en tant que tel. Comment et o rassembler des donnes daudit, comment rpondre aux
intrusions, etc . . . Cest ainsi le moyen principal de lofficier de scurit (SSO) de commander le
systme de dtection dintrusion. Ces donnes peuvent se rvler tonnamment grandes et complexes pour une installation relle de dtection dintrusion.
Donnes de rfrence : lunit de rfrence stocke les informations concernant les signatures des
intrusions et/ou les profils des comportements normaux. Dans le dernier cas, lunit de traitement
16

tel-00917605, version 1 - 12 Dec 2013

3.4. Outils de dtection dintrusion : taxonomie

F. 3.2 Taxonomie des IDS


met jour les profils ds que de nouvelles connaissances propos des comportements observs
sont disponibles. La mise jour est ralise dans des intervalles reguliers ou par bloc (batch mode).
Traitement actif des donnees llment de traitement doit frquemment stocker des rsultats intermdiaires, par exemple, les informations sur les signatures dintrusion partiellement accomplies.
Lespace requis pour stocker ces donnes actives peut se dvelopper normement.
Alerte : cette partie du systme gre toutes les sorties du systme, que ce soit la rponse automatise lactivit souponneuse, ou qui est le plus commun, la notification de lofficier de scurit
de site (SSO).

3.4 Outils de dtection dintrusion : taxonomie


La diffrenciation des outils de dtection dintrusion se ralise en fonction de cinq caractristiques
qui leur sont intrinsques. La taxonomie dcrite ci-dessous est inspire du travail fait par Axelsson [13].
La figure 3.2 prsente cette taxonomie.

3.4.1 Architecture
Larchitecture des IDS se rapporte la faon dont les composants fonctionnels des IDS sont arrangs
les uns par rapport aux autres. Les composants architecturaux principaux sont la machine hte, le systme
sur lequel le logiciel dIDS fonctionne, et la cible, le systme que lIDS surveille et contrle.
17

Chapitre 3. La Dtection dIntrusions


Co-location hte-cible Les premiers IDS ont fonctionn sur les systmes quils protgeaient. Cela tait
d au fait que la plupart des systmes taient des systmes dunit centrale, et le cot des ordinateurs
faisait dun systme spar dIDS une extravagance coteuse. Ceci a prsent un problme dun point
de vue de scurit, puisque nimporte quel attaquant qui attaquait avec succs le systme cible pourrait
aussi bloquer lIDS.
Sparation hte-cible Avec lapparition des ordinateurs personnels, la plupart des architectes des IDS
ont boug vers la sparation des IDS et des systmes cibles. Ceci a amlior la scurit de lIDS et permis
de cacher plus facilement lexistence de lIDS aux attaquants.

3.4.2 Stratgie de Contrle

tel-00917605, version 1 - 12 Dec 2013

La stratgie de contrle dcrit comment les lments de lIDS sont contrls, et en outre, comment
lentre et la sortie des IDS sont contrles.
Centralise Avec une stratgie de contrle centralise, la surveillance, la dtection et le reporting sont
commands directement dun endroit central.
Partiellement Distribue La surveillance et la dtection sont controles dun noeud local, avec un
mcanisme de rapport hirarchique un ou plusieurs noeud(s).
Entirement Distribu La surveillance et la dtection sont faites en utilisant une approche base sur
les agents, et les dcisions sont prises au moment de lanalyse.

3.4.3 Sources dInformation


La manire la plus commune de classifier les IDS est de les grouper par sources dinformation.
Certains IDS analysent les paquets rseau, capturs partir du rseau (backbone) ou de segments de
LAN, pour trouver des attaquants. Dautres IDS analysent les sources dinformation produites par les
systmes dexploitation ou des applications pour dtecter des signes dintrusion.
Network-Based IDS (NIDS) Les Network-based IDS utilisent comme source dinformation le trafic
circulant sur un segment rseau. Les paquets analyss sont considrs intressants sils correspondent
une signature donne, cette dernire pouvant appartenir lune des trois signatures types suivantes :
Les signatures de type "string" qui recherchent une chane (ou un ensemble de chanes) de caractres dans la trame (ex : "cat" ">/.rhosts")
Les signatures de port qui surveillent les connexions destination des ports les plus frquemment
utiliss et/ou attaqus (ex : telnet, ftp ou IMAP).
Les signatures den tte qui surveillent les combinaisons dangereuses ou illogiques dans les enttes des paquets (ex : winnuke).
Les avantages des NIDS sont :
Quelques NIDS bien placs peuvent surveiller un grand rseau.
Le dploiement des NIDS a peu dimpact sur le rseau existant. Les NIDS sont habituellement des
dispositifs passifs qui coutent sur un rseau sans interfrer avec son utilisation normale. Ainsi, il
est habituellement facile dintgrer un NIDS un rseau avec un effort minimal.
Les NIDS peuvent tre rendus trs scuriss contre lattaque et mme rendu invisibles beaucoup
dattaquants.
18

3.4. Outils de dtection dintrusion : taxonomie

tel-00917605, version 1 - 12 Dec 2013

Les inconvnients des NIDS sont :


Les NIDS peuvent avoir de la difficult traiter tous les paquets dans un grand rseau ou dans
un rseau surcharg et, donc, peuvent manquer de reconnatre une attaque se lanant pendant les
priodes de grand trafic. Certains solutions essaient de rsoudre ce problme en utilisant des IDS
compltement matriels, qui sont beaucoup plus rapides.
Les NIDS ne peuvent pas analyser des informations cryptes. Ce problme est augment par le
fait que de plus en plus dorganisations (et les attaquants) utilisent des rseaux virtuels privs et
donc crypts.
La plupart des NIDS ne peuvent pas reconnatre si une attaque est russie ; ils peuvent seulement
discerner quune attaque a t lance. Cela signifie que si un NIDS dcouvre une attaque, les
administrateurs doivent manuellement enquter sur chaque hte attaqu pour dterminer sil a t
effectivement pntr.
Quelques NIDS ont des problmes grer des attaques qui utilisent des paquets fragments. Ces
paquets mal forms peuvent perturber ltat des NIDS et les rendre instables.
Host-Based IDS (HIDS) Bass sur les htes, ils impliquent de charger un ou des blocs logiciels sur le
systme surveiller. Ceux-ci utilisent comme sources de donnes des fichiers logs et/ou des agents auditant le systme et permettent ainsi dobtenir des informations sur lensemble des paramtres systmes,
rseaux et applicatifs de lhte surveill. Ces informations incluent par exemple les accs et modification
des fichiers critiques du systme, les changements de privilge utilisateur, les connexions, les processus,
lusage disque, les sessions, etc.
Les avantages des HIDS sont :
Les HIDS, avec leur capacit surveiller des vnements locaux un serveur, peuvent dtecter les
attaques qui ne peuvent pas tre vues par des NIDS.
Les HIDS peuvent souvent fonctionner dans un environnement dans lequel le trafic de rseau est
encrypt.
Quand les HIDS oprent sur des audits de systme dexploitation, ils peuvent aider dtecter les
chevaux de Troie ou dautres attaques qui provoquent des infractions dans lintgrit des logiciels
et qui apparaissent comme des perturbations dans lexcution de processus.
Les inconvnients des HIDS sont :
Il est plus difficile de grer un HIDS car linformation doit tre configure et contrle pour chaque
hte surveill.
Comme les sources dinformation (et parfois une partie du moteur danalyse) dun HIDS rsident
sur la mme machine vise par les attaques, le HIDS peut tre attaqu et desactiv en tant quune
partie de lattaque. Ainsi, les HIDS peuvent tre desactivs par certaines attaques de dni-deservice.
Les HIDS ne sont pas bien adapts pour dtecter des balayages de rseau ou dautres surveillances
qui visent un rseau , parce que les HIDS ne voient que les paquets de rseau lui sont destins.
Quand un HIDS analyse les journaux daudit issus dun systme dexploitation, la quantit dinformation peut tre immense, ce qui ncessite laddition de nouvelles units de stockage.
Les HIDS utilisent des ressources des htes surveills, diminuant donc les performances de ces
systmes htes.
IDS bas sur les applications Les IDS bass sur les applications sont un sous-ensemble spcial des
HIDS qui analysent les vnements internes une application. Les informations communes employes
par les IDS bass sur les applications sont les journaux de transaction de lapplication. La capacit de
se connecter lapplication, directement avec des connaissances spcifiques lapplication et qui sont
19

tel-00917605, version 1 - 12 Dec 2013

Chapitre 3. La Dtection dIntrusions


inclus dans lanalyse, permet lIDS bas sur lapplication de dtecter des comportements anormaux des
utilisateurs autoriss excdant leur autorisation.
Les avantages sont :
Les IDS bass sur les applications peuvent surveiller linteraction entre lutilisateur et lapplication, ce qui permet souvent de tracer lactivit non autorise de diffrents utilisateurs.
Les IDS bass sur les applications peuvent souvent fonctionner dans les environnements crypts, puisquils se connectent lapplication aux points finaux de transaction, o linformation est
prsente aux utilisateurs sous forme decrypte.
Les inconvenients sont :
Les IDS bass sur les applications peuvent tre plus vulnrables que les HIDS aux attaques car
les journaux dapplications ne sont pas aussi bien protgs que les journaux daudit des systmes
dexploitation utilises par les HIDS.
Comme les IDS bass sur les applications surveillent souvent les vnements au niveau utilisateur,
ils ne peuvent pas habituellement dtecter les chevaux de Troie ou autres attaques de logiciel. Par
consquent, il est recommand demployer un IDS bas sur lapplication en combinaison avec un
HIDS et/ou un NIDS.

3.4.4 Comportement en cas dattaque dtecte


Ce comportement est la plupart du temps passif (loutil remontant simplement des alertes) mais peut
galement tre dans certains cas actif, loutil rpondant lattaquant soit directement, soit en reconfigurant les rgles de scurit du firewall.

3.4.5 Frquence dutilisation


La synchronisation se rapporte au temps coul entre les vnements qui sont surveills et lanalyse
de ces vnements.
Priodique (Batch Mode) : dans les IDS bass sur une mthode de dtection priodique, lcoulement de linformation des points de surveillance aux moteurs danalyse nest pas continu. En effet,
linformation est manipule dun mode semblable au "store and forward" utilis en communication.
Beaucoup de HIDS utilisent une mthode de dtection priodique, car ils analysent des logs issus des
systmes dexploitation qui sont gnrs sous forme de fichiers. Des tels IDS ne peuvent pas excuter de
rponses actives.
Continue (Real-Time) : les IDS "en temps rel" oprent en informations continues. Cest le paradigme prdominant pour les NIDS qui analysent le trafic des rseaux. La dtection excute par des NIDS
"en temps rel" donne des rsultats assez rapidement pour permettre aux IDS de prendre des actions qui
affectent le progrs de lattaque dtecte.

3.4.6 Analyse
Il y a deux approches principales pour analyser des vnements permettant de dtecter des attaques :
la dtection danomalies (approche comportementale) et la dtection par abus (approche par scnario). La
dtection par abus, dans laquelle lanalyse cherche une action connue pour tre "illgale", est la technique
employe par la plupart des systmes commerciaux. La dtection danomalies, dans laquelle lanalyse
recherche les modles anormaux de lactivit a t, et continue tre, le sujet de beaucoup de recherche.
La dtection danomalies est employe sous une forme limite par un certain nombre dIDS. Il y a des
points forts et des points faibles lies chaque approche, et il savre que les mthodes de dtection les
20

3.4. Outils de dtection dintrusion : taxonomie

tel-00917605, version 1 - 12 Dec 2013

plus efficaces sont dans la plupart du temps les mthodes de dtection par abus avec quelques composants
de dtection danomalies.
Approche comportementale Cette approche part du principe quune intrusion peut tre dtecte en
observant une modification du comportement normal ou prvu du systme ou des utilisateurs. Un modle dfinissant ce comportement normal et tenant lieu de rfrence doit donc tre construit. Lorsquune
dviation est observe, une alerte peut tre gnre en fonction de lcart constat. Contrairement
lapproche par scnario, tout ce qui na pas t pralablement vu est considr comme dangereux .
Ceci laisse entrevoir de nombreux avantages : toutes les tentatives dintrusion sont censes tre dtectes
y compris celles qui nont jamais t rfrences. En ce sens, cette approche peut mme contribuer
identifier de nouvelles formes dattaques. Ensuite, les attaques exploitant des abus de privilges peuvent
galement tre dtectes (attaques qui ne peuvent pas tre modlises sous la forme dune signature). Enfin, cette approche permet de se dgager des considrations relatives aux environnements dexploitation
(type et version dOS, dapplicatifs, etc).
Les mesures et les techniques utilises dans la dtection danomalie incluent :
La dtection de seuil, dans laquelle certaines caractristiques des utilisateurs et du comportement
du systme sont exprimes en terme numrique, avec des seuils de rfrence. De tels attributs de
comportement peuvent inclure le nombre de fichiers consults par un utilisateur dans une priode
de temps donne, le nombre de tentatives de login choues, la quantit de CPU utilise par un
processus, etc. . . Ce niveau peut tre statique ou heuristique (c..d., concu pour varier avec des
valeurs relles observes durant le temps).
Des mesures statistiques : paramtriques, o la distribution des attributs est suppose suivre un
modle particulier, et non paramtrique, o la distribution des attributs profils est "appris" partir
dun historique.
Des mesures bases sur les rgles, qui sont semblables aux mesures statistiques non paramtriques
du fait que les donnes observes dfinissent les modles acceptables dutilisation, mais diffrent
du fait que ces modles sont dcris par des rgles et non des quantits numriques.
Dautres mesures comme les rseaux de neurones, des algorithmes gntiques, et modles de systme immunologique.
Seuls les deux premires types de mesures sont utiliss dans les IDS actuels.
Avantages
Les IDS bass sur la dtection danomalies dcouvrent les comportements inhabituels et ont ainsi
la capacit de dcouvrir des symptmes dattaques sans aucune connaissance spcifique des dtails
[109].
Les dtecteurs danomalies peuvent produire des informations qui peuvent leur tour tre utilises
pour dfinir des signatures pour les dtecteurs base de scnario.
Inconvnients
Les approches de dtection danomalie produisent dhabitude un grand nombre de fausses alertes
en raison des profils imprvisibles des utilisateurs et des rseaux [3].
Les approches de dtection danomalies exigent souvent un apprentissage tendu sur les vnements de systme pour caractriser son profil normal.
le choix des paramtres modlisant le comportement est dlicat.
le comportement dun systme peut changer dans le temps, ncessitant pour lIDS des phases
de rapprentissage entranant son indisponibilit ou bien la remonte de faux-positifs supplmentaires.
21

Chapitre 3. La Dtection dIntrusions

tel-00917605, version 1 - 12 Dec 2013

le systme dinformation peut subir des attaques en mme temps que lIDS assimile son comportement. Ceci entrane la prsence, dans le profil comportemental de lIDS, de comportements
intrusifs qui seront considrs comme normaux (faux ngatifs) [57].
enfin, le temps de raction peut tre lev, et ncessite le changement de plusieurs variables associes au comportement afin dobserver une divergence significative [3, 11].
Approche par scnario Cette mthode est de loin la plus utilise dans les outils disponibles sur le
march. Egalement appele knowledge-based , elle a pour objectif de dtecter une attaque exploitant
une vulnrabilit connue et sappuie donc sur la connaissance des techniques employes par les attaquants. Chaque attaque est ainsi rpertorie et les actions indispensables leur ralisation forment leur
signature. On recherche ensuite ces dernires dans les traces daudit. En dautres termes, toute action
qui nest pas explicitement dclare comme tant une attaque est considre comme saine . Il en rsulte que lexactitude des systmes bass sur lapproche par scnario est considre comme bonne. En
contrepartie, seules les attaques dj identifies et entres dans le systme peuvent tre dtectes. La dtection dattaque par abus de privilge est donc extrmement difficile puisque aucune vulnrabilit nest
rellement exploite par lattaquant.
Cette recherche base sur la connaissance implique des mises jour rgulires. Ces dernires ncessitent lanalyse dtaille de chaque nouvelle vulnrabilit et de chaque attaque, ce qui reprsente une
lourde tche.
Cette tche est dautant plus importante quune vulnrabilit ou une attaque est troitement lie aux
systmes dexploitation, aux versions et aux applications.
Avantages
La dtection par scnario est trs efficace pour dtecter les attaques sans gnrer un nombre crasant de faux positives.
Lapproche par scnario peut diagnostiquer rapidement et dune facon fiable la mthode ou loutil utilis par une attaque. Ceci peut aider les administrateurs de scurit prioriser les mesures
correctives.
Inconvnients
Lapproche par scnario ne peut pas dtecter des "nouvelles" attaques. Les bases de signatures
doivent donc tre constamment mises jour.
Lapproche par scnario utilise des signatures trs prcises et clairement dfinies, ce qui empche
de dcouvrir des variantes des attaques classiques. Lapproche par scnario ( base dtat) peut
dpasser cette limite mais nest pas communment utilise dans les IDS actuels.

3.5 Les techniques de dtection


Plusieurs systmes de dtection dintrusions utilisent des techniques pour la dtection des intrusions
issues des deux approches : lapproche comportementale et lapproche par scnariis. Les techniques
employes dans ces systmes pour dtecter les anomalies sont varies. Certains sont bass sur des techniques de prvision de futurs modes de comportement, alors que dautres se fondent principalement sur
des approches statistiques pour dterminer le comportement anormal. Dans les deux cas, le comportement observ, qui ne sassortit pas ce qui est prvu, est distingu parce quune intrusion pourrait tre
indique.
Les efforts existants sur la dtection dintrusion ont considr principalement les attributs suivants
des activits dans des systmes dinformation :
22

3.5. Les techniques de dtection


1. loccurrence de diffrents vnements, e.g., vnements daudit, appels systme, commandes,
messages derreur, adresse source dIP, et ainsi de suite ;
2. le nombre doccurences ou la frquence dvnements individuels, e.g., nombre dchecs conscutifs de mot de passe.
3. la dure des vnements individuels. Considrons lexcution dun programme comme un venement, la dure de cet venement est le temps dexcution du programme. Un programme de cheval
de Troie peut se manifester par un changement du temps dexcution du programme.
4. loccurrence dvnements multiples, par exemple lutilisation du programme emacs avec un fichier C.

tel-00917605, version 1 - 12 Dec 2013

5. lordre ou les transitions entre les vnements individuels, par exemple la squence des appels
systme utiliss par un processus en cours dexcution.
Les attributs 1, 2, 4, et 5 apparaissent souvent dans les signatures dintrusion qui sont reprsentes
dans les rgles codes manuellement [122, 140] ou dans les rgles automatiquement apprises [116, 118]
dans quelques techniques de reconnaissance des formes. Les attributs 2 et 3 sont utiliss par les mthodes statistiques pour la cration de profils. Lattribut 5 apparat dans les diagrammes de transition
dtat [181, 54] et les rseaux de Ptri Colors [109] qui sont employs pour reprsenter des signatures
dintrusion. Ainsi, on peut classifier la manire suivant laquelle les mthodes de dtection dintrusions
(comportementale et par abus) traitent les attributs en trois catgories :
Combinaison entre les attributs ;
Analyse de la relation entre les attributs (vnements) ;
Analyse de lordre ou la squence des attributs.

3.5.1 Approche comportementale


La dtection dintrusions comportementale ou par anomalie repose sur lhypothse quune attaque
provoque une utilisation anormale des ressources ou manifeste un comportement trange de la part de
lutilisateur. Par consquent, les diffrentes approches qui ont t proposes apprennent le comportement
normal pour pouvoir dtecter toute dviation importante.
3.5.1.1 Combinaison des mesures danomalie individuelles pour obtenir une seule mesure
Si nous supposons que le bon ensemble de mtriques danomalie peut tre dtermin dune faon ou
dune autre, comment combinons-nous alors les valeurs danomalie de toutes ces mtriques pour obtenir
une valeur synthtique ? Une mthode est dutiliser une approche statistique ou un modle baysien. Une
approche alternative [123] est de combiner ces mtriques en utilisant les matrices de covariance.
Approche statistique Lanalyse statistique du comportement normal du systme est lune des premires approches adoptes en dtection dintrusions. Denning [49] prsente un modle dans lequel un
profil relie via une variable alatoire un sujet (utilisateur, processus) un objet (ressources). Si aprs
la cration du profil, la valeur de la variable alatoire dpasse le seuil tolr alors le comportement est
considr anormal. Divers systmes de dtection dintrusions utilisent ce concept. NIDES [123] calcule
des valeurs danomalie de plusieurs activits (temps CPU, bande passante, nombre et nature des services
sollicits, etc). Il effectue ensuite la pondration des carrs de ces valeurs afin de calculer un score danomalie global S (Eq. 3.1). Le score S est toujours positif et sil dpasse le seuil tolr M, alors il sagit
dun vnement suspect.
S = a1 S 12 + a2 S 22 + . . . + an S n2 ,

ai > 0

(3.1)
23

Chapitre 3. La Dtection dIntrusions

tel-00917605, version 1 - 12 Dec 2013

F. 3.3 Un profil du nombre doccurences des appels systme dcrivant le comportement dun programme
Si lapproche statistique bnficie dun grand nombre doutils largement tudis, elle se heurte la
difficult de dfinir adquatement le seuil optimal danomalie. De plus elle doit spcifier avec prcision
les mesures qui sont en relation avec lattaque recherche. Par ailleurs linterdpendance des mesures doit
tre considre pour mieux estimer le score global danomalie. Enfin lapproche est incapable dexprimer
toute seule la squence dvnements.
Exemple : Dtection base sur la frquence Cette approche est propose initialement par Denning [49]. Elle capture des modles de frquence des utilisateurs et des programmes par les profils qui
contiennent des valeurs danomalie P1 , P2 , . . . , Pn , correspondant un ensemble de n mesures de systme (c.--d., variables reprsentatives de systme). Afin de dterminer si le systme a rencontr un tat
instable, les valeurs observes fi de frquence sont combines par une expression comme :
= a1 f12 + a2 f22 + . . . + an fn2 ;

(3.2)

ce qui saisit linformation de frquence pour toutes les mesures en utilisant une srie de poids ai . Cette
technique dtecte des intrusions en calculant le niveau de scurit sur une base permanente et en le
comparant une seuil . Si > , une intrusion peut tre en cours [110, 159]. Si un programme est
dcrit par les appels systme quil utilise, un profil de frquence peut tre tabli afin de dcrire son
comportement (figure 3.3). Ce profil dcrit combien de fois le programme demande chacun des appels
systme quil utilise.
Les statistiques baysiennes Soient A1 , A2 , . . . , An n diffrentes variables de mesure utilises pour indiquer sil y a intrusion un moment donn. Chaque Ai mesure un aspect diffrent du systme, comme
par exemple, la quantit dactivit entre-sortie (I/O) sur disque, ou le nombre de "fausses" pages mmoire. Supposons que chaque mesure Ai a deux valeurs, 1 pour indiquer que la mesure est anormale, et 0
autrement. Soit I lhypothse que le systme subit une intrusion. La sensibilit de chaque mesure Ai est
dtermine par P(Ai = 1/I) et P(Ai = 1/I). En combinant ces probabilits nous pouvons dterminer la
probabilit de I tant donnes les valeurs des mesures :
P(I/A1 , A2 , . . . , An ) =

P(A1 , A2 , . . . , An /I) P(I)


P(A1 , A2 , . . . , An )

(3.3)

Ceci exige avoir la probabilit jointe des mesures donnes sachant I et I [110]. Le nombre de
probabilits jointes dterminer est exponentiel par rapport au nombre de variables. En supposant que
les variables sont indpendantes conditionnellement I ou I, nous obtenons :
24

3.5. Les techniques de dtection

tel-00917605, version 1 - 12 Dec 2013

F. 3.4 Un Rseau Baysien simple connectant des variables relis une intrusion.
Les CPT associes sont toutes les lois P(Xi ) si Xi na pas de parent ou P(Xi |Pa(Xi ) :
)P(Intrusion), P(CPU|Intrusion, T oo many users), etc.

P(A1 , A2 , . . . , An /I) =

n
Y

P(Ai /I)

(3.4)

P(Ai /I)

(3.5)

i=1

et
P(A1 , A2 , . . . , An /I) =

n
Y
i=1

ce qui donne :
Qn
P(Ai /I)
P(I/A1 , A2 , . . . , An )
P(I)
Q i=1
=
P(I/A1 , A2 , . . . , An ) P(I) ni=1 P(Ai /I)

(3.6)

Ainsi, nous pouvons dterminer les chances (odds)2 dune intrusion tant donne les valeurs de
diverses mesures danomalie, partir de la chance priori de lintrusion et de la vraisemblance que
P(Ai /I)
chaque mesure soit anormale sachant quune intrusion se produit, i.e. le terme P(A
.
i /I)
Un exemple plus raliste tient compte de linterdpendance des diverses variables. Lunt et al [123]
ont accompli ceci par lutilisation des matrices de covariance. Lanomalie compose du systme est
calcule en utilisant le vecteur A = [A1 , A2 , . . . , An ] par :
AT C 1 A

(3.7)

o la matrice C = [Ci j ] stocke linterdpendance entre chaque paire danomalies Ai et A j . Avec cette matrice de covariance il est possible de considrer le fait que les entres qui interviennent dans le diagnostic
de scurit sont corrles [142].
Les rseaux baysiens Les futurs systmes peuvent utiliser les rseaux baysiens pour combiner les
mesures danomalie. Les rseaux baysiens [147] permettent de reprsenter graphiquement des dpendances probabilistes entre les variables alatoires [155, 160]. Ils permettent de reprsenter les relations
entre les Ai et I et de manipuler facilement la loi jointe P(I, A1 , . . . , An ) pour obtenir odds(I) mme si
certains Ai ne sont pas mesurs.
2

odds(X) =

P(X)
P(X)

25

Chapitre 3. La Dtection dIntrusions

tel-00917605, version 1 - 12 Dec 2013

F. 3.5 SVM dcomposant lespace des composants en deux classes (ils reprsentent par exemple le
comportement normal et anormal)
La figure 3.4 montre un petit rseau baysien utilis pour rpondre des questions "quelle est la
probabilit de lintrusion sachant le niveau observ de la fragmentation de disque ?",ou "quelle est la probabilit dintrusion tant donn que le nombre dutilisateurs courants est lev et que la charge de lunit
centrale de traitement est faible ?". Chaque cercle reprsente une variable alatoire binaire avec des valeurs reprsentant sa condition normale ou anormale. Si nous pouvons observer les valeurs de certaines
de ces variables (Evdence), nous pouvons utiliser lsz algorithmes dinfrence des rseaux baysiens pour
dterminer P(Intrusion | Evidence).
Machines vecteurs support (SVM) Les SVM sont lune des mthodes dapprentissage supervise
les plus rcentes[136, 133]. Les donnes sont projetes dans un espace de vecteurs multidimensionnels
en utilisant des fonctions noyaux de sorte quelles puissent tre spares en deux classes. Certains de
ces vecteurs sont choisis pour dfinir la frontire entre les classes, et un hyperplan est calcul par la
rgression afin de dcomposer les donnes dentre.
La figure 3.5 montre un exemple dun SVM sur un espace bi-dimensionnel de composantes. Les
vecteurs vi = (xi , yi ) X Y {}1 (qui pourraient reprsenter par exemple la longueur et la somme
de paquet dattaque ou normaux) sont classifis par une fonction linaire qui a une distance marginale
variable dtermine par des vecteurs de support prs de la frontire. Cette marge doit tre maximale pour
que la classification soit prcise. Les SVM ont t employs par exemple pour classifier le comportement
de systme et les empreintes digitales [136].
3.5.1.2 Analyse de squences des vnements
Gnralisation Inductive La gnralisation inductive est une technique de dtection danomalie base
sur lhypothse que les squences dvenements ne sont pas alatoires, mais suivent un modle perceptible. Ceci a comme consquence une meilleure dtection des intrusions tenant compte de la corrlation
et de lordre des vnements.
Cette approche est base sur les rgles qui caractrise le comportement dun systme ou dun utilisateur en utilisant la gnralisation inductive dans la prtention que des vnements dun systme peuvent
tre prvus [82, 173]. Un ensemble de rgles de la forme :
Ea Eb Ec (Ed = 0.95, Ee = 0.05)
26

(3.8)

3.5. Les techniques de dtection

tel-00917605, version 1 - 12 Dec 2013

F. 3.6 Un rseau de neurones simple avec fentre qui prvoie la commande suivante en fonction des
3 commandes passes.
exprime la probabilit de voir un vnement apparatre la suite dune squence dautres vnements.
Par exemple, une fois les vnements a, b, et c apparus squentiellement, lvnement d a une probabilit de 95% dapparatre, et e apparatrait avec une probabilit de 5%. Ce sont tous les deux normaux
et acceptables. Les rgles aident savoir lavance la probabilit dtre sous lattaque en donnant un
ensemble de modles observs [173]. Des vnements seront marqus comme intrusifs quand ils correspondent au ct gauche dune rgle mais divergent sur les probabilits qui apparaissent dans le ct
droit. On rclame que si un intrus essaye de guider la phase de construire des rgles pour accepter lactivit irrgulire en tant que normale, la signification mme des rgles peut aider dterminer quelque
chose danormalit a t captur [173] (c.--d., les rgles sont facilement lues et interprtes par les administrateurs). Cette mthode base danomalies a une faiblesse importante : aucune attaque inconnue
ne correspond aucun ct gauche dune rgle ne sera pas considr pour davantage dinspection.
Rseaux de neurones. Les rseaux de neurones sont lune des mthodes qui utilisent la classification supervise pour dvelopper un classifieur qui prvoie des valeurs de sortie bases sur un ensemble
dattributs dentre.
Dans le cas de la dtection dintrusion, un rseau de neurones peut tre employ pour prvoir le
prochain vnement apparatre. Par exemple, lhistorique des commandes dun utilisateur peut tre
employ pour former un rseau de neurones. Une fois que lapprentissage est ralise, une fentre des k
commandes glissera en fonction du temps afin de surveiller lactivit de lutilisateur. Si on observe que le
rseau de neurones indique quaprs k vnements, lvnement e j devrait suivre mais que lon observe
un vnement diffrent, alors une alerte est active. La figure 3.6 montre un petit rseau qui prvoit la
prochaine commande partir des trois commandes passes. Les squences de commande doivent tre
divises en fentres glissantes. Dans ce cas, la fentre glissera dune commande la fois et emploiera
trois commandes en entre afin de dterminer laquelle des valeurs de sortie doit apparatre. Le temps
dapprentissage est la restriction principale de lapproche des rseaux de neurones pour le problme de
la dtection dintrusion. Cependant, ces modles traitent trs bien les donnes bruites [156].
Approche immunologique Forrest [64] a propos une approche immunologique pour modliser les
processus sur une machine. Sa mthode consiste dcrire le comportement normal via une squence finie
dappels systmes. Les squences appeles N-gram servent de base pour comparer les appels systmes
des processus lors dune phase de surveillance. Cette comparaison numre les diffrences entre les
paires dans une fentre de taille k (tide) [64] ou utilise des rgles de r bits contigus (stide) [83]. Wespi,
Dacier et Debar [185] considrent un cas plus gnral en analysant les vnements daudit. Ils gnrent
27

Chapitre 3. La Dtection dIntrusions

tel-00917605, version 1 - 12 Dec 2013

des squences dvnements de taille variable pour modliser ltat normal du systme. Ensuite un motif
est slectionn sil existe d motifs qui le suivent directement, sinon le score danomalie est incrment
de 1 et une alerte est dclenche lorsque le score dpasse le seuil tolr.
Marceau [128] optimise la reprsentation des N-gram sous forme de graphes orients sans circuits
(DAG) ce qui permet de rduire la base de profils dfinie par Forrest. De plus, il utilise le mcanisme
de fentre glissante pour comparer les motifs. Kosoresow [108] tudie les caractristiques des traces des
appels systmes et remarque que les diffrences entre motifs apparaissent dans des rgions de tailles
fixes. En divisant la trace en 3 parties : dbut, corps et fin, il russit gnrer de nouvelles squences de
motifs reprsentes par des machines tats finis. La mthode permet de rduire le nombre de squences.
Par exemple, 26 descriptions du processus sendmail suffisent au lieu de 147. Cependant lauteur propose
une construction manuelle de lautomate pour traduire ces motifs.
Warrender et Forest comparent dans [184] quatre approches immunologiques : la squence simple
dvnements (stide), la squence dvnements des frquences dapparition (t-stide), la gnration automatique des rgles inductives via RIPPER et le modle de Markov cach (HMM). Ils concluent quen
moyenne la modlisation HMM prsente des meilleurs performances. Mais il ne sagit pas dune supriorit absolue puisque les rsultats des expriences dpendent des programmes tests.
3.5.1.3 Occurence des vnements multiples
Rgles dassociation Lee et Xiang [120] utilisent la thorie dinformation pour comprendre la nature
des donnes audites et par suite construire des modles de dtection dintrusions comportementale. Les
techniques de fouilles de donnes (Data Mining) permettent galement de construire des modles de dtection adaptatifs. Les algorithmes utilises par Lee [117, 114] divisent les donnes en deux catgories :
des donnes normales et des donnes anormales. Cette classification permet de construire des rgles dassociation qui expriment des relations entre les enregistrements des fichiers de scurit. Par exemple, pour
un utilisateur particulier, lditeur Xemacs est le plus souvent associ des fichiers ".c". Lee souligne que
lextraction des vnements frquents permet de mieux analyser les traces dvnements. De plus une
mta-classification des analyses de plusieurs IDS garantit une meilleure dtection avec moins de faux
positifs. Ces diffrentes techniques sont implantes dans le systme de dtection dintrusions JAM [170].
De plus lanalyse de donnes porte sur des traces normales pour assurer une dtection comportementale
ou bien sur des traces dintrusions. Elle contribue donc construire des rgles de dtection dattaques
utilisables lors dune dtection dintrusions par abus.
ADAM est un autre systme de dtection dintrusions qui utilise les rgles dassociation. Il est bas
sur les travaux de Barbara [15, 16] et effectue deux tapes dapprentissage. La premire tape utilise des
donnes hors ligne pour construire des rgles dassociation modlisant les profils normaux. La deuxime
tape considre des donnes en ligne et emploie les rgles dassociation dj construites pour crer un
classificateur dvnements suspects. Lobjectif de cette phase est de rendre le systme de dtection
dintrusions plus apte distinguer les vraies attaques des faux positifs.

3.5.2 Approche par abus


La dtection dintrusion par abus se rapporte la dtection des intrusions en les dfinissant avec prcision sous forme des signatures et lobservation de leur occurence. Les signatures dintrusion indiquent
les dispositifs, les conditions, les arrangements et les corrlations parmi les vnements qui mnent
une pntration ou un autre abus. En gnral, les mthodes de dtection dintrusions par abus les plus
courantes utilisent des techniques qui manipulent des squences dvnements, en crant des rgles ou
des signatures qui dcrivent lordre des actions quun attaquant excute pour attaquer un systme. Dans
les sections suivantes nous dcrivons quelques approches utilises dans la dtection par abus.
28

3.5. Les techniques de dtection


3.5.2.1 Utilisation de la probabilit conditionnelle pour prvoir des intrusions dabus
Cette mthode de prdiction des intrusions est similaire celle dcrite dans 3.5.1.1 lexception que
l"vidence" est maintenant une squence des vnements externes pltot que des valeurs de mesures
danomalie. Pour la dtection par abus, nous sommes intresss par la dtermination de la probabilit
conditionnelle
P(Intrusion | EventPattern)
Comme prcdemment, en appliquant la formule de Bayes cette quation, nous obtenons

tel-00917605, version 1 - 12 Dec 2013

P(Intrusion | EventPattern) = P(EventPattern | Intrusion)

P(Intrusion)
P(EventPattern)

(3.9)

Considrons par exemple le rseau dun campus universitaire comme domaine dans lequel on va
prdire la probabilit conditionnelle dintrusion. Un expert de scurit responsable de ce campus pourrait
quantifier la probabilit priori doccurence dune intrusion dans le systme du campus, P(Intrusion), se
basant sur son exprience. Dautre part, la frquence relative doccurence dune squence dvenements
dans lensemble des donnes dintrusion donne la probabilit P(Eventsequence | Intrusion). De mme,
nous pouvons calculer la probabilit P(Eventsequence | Intrusion) partir dun ensemble de donnes
normales.
3.5.2.2 Analyse de transition dtat.
Lanalyse de transition dtat a t dveloppe par le Reliable Software Group luniversit de Californie [85]. Cette mthode est employe pour reprsenter un ordre des actions quun attaquant excute
pour attaquer un systme. Ces couples actions-conditions sont reprsentes par un diagramme de transitions dtat. Il est bas sur le fait que toutes les intrusions ont deux caractristiques communes : un attaquant obtient laccs un systme cible dune ou une autre manire, et il gagne par lintrusion quelques
capacits quil navait pas avant.
Dans cette approche qui est utilise par STAT [148] et implmente pour Unix dans USTAT [85], les
attaques sont reprsentes comme une squence des transitions dtat dun systme surveill. Les tats
dans le modle dattaque correspondent aux tats de systme et ont des affirmations boolennes lies
entre elles et qui doivent tre satisfaites pour passer dun tat un autre. Les tats successifs sont lis par
des arcs qui reprsentent les vnements ncessaires pour changer ltat.
3.5.2.3 Systmes base de rgles.
Les systmes experts ont t galement employs dans la dtection des intrusion par abus [87, 111,
159]. Ces systmes incarnent la connaissance dun expert afin didentifier les donnes anormales et les
actions irrgulires. Ils appartiennent la famille de dtection base de scnariis car ils indiquent explicitement les motifs rechercher [109]. Le succs de ces mthodes est directement li deux facteurs :
(1) lexpertise de ladministrateur de scurit qui sera employ comme entre au mcanisme de dtection, et (2) lefficacit de limplmentation pour structurer avec cohrence lexpertise de lhumain dans
un logiciel. Dans de tels systmes, comme dans nimporte quel autre systme expert, la connaissance
dclarative lie aux intrusions est separe du moteur dinfrence excutant un raisonnement au sujet de
la base de fait. En dautres termes, il signifie que, en gnral, trois composants principaux peuvent tre
distingus :
la base des faits qui contient les venements sur les tats de systme.
la base des rgles qui contient les rgles qui reprsentent les scnariis dintrusions.
29

Chapitre 3. La Dtection dIntrusions

F. 3.7 Un scnario dattaque dcrit par un rseau de Petri


le moteur dinference qui fait le raisonnement en appliquant les rgles sur les venements pour
identifier les intrusions.
Le moteur dinfrence recherche dans la base des faits (vnements) ceux qui correspondent ce qui est
prvu par une rgle.

tel-00917605, version 1 - 12 Dec 2013

3.5.2.4 Rseaux de Petri.


[109] propose une technique de dtection dabus qui modlise les attaques par des rseaux de Ptri.
Les rseaux de Ptri sont des graphes composs par des tats et des conditions qui ont une smantique
bien dfinie. Les transitions dun tat de dbut un tat final dcrivent lvolution des attaques. Les
rseaux de Ptri ont t employs pour modliser des vnements de systme tels que les commandes
utilisateurs et les appels systme (deux types populaires de donnes employes pour dtecter lintrusion).
La reprsentation graphique fournie par un rseau de Ptri donne un arrangement intuitif des vnements
qui composent une attaque et tient aussi compte de la reprsentation de lordre partiel. Des automates
dtat fini ont t galement explors dune manire semblable [174]. Plutt que manipuler des squences
doprations fixes, les rseaux de Ptri peuvent dcrire une srie dvnements qui sont lchement relis
entre eux. Le schma 3.7 montre un rseau dcrivant un scnario dattaque. Les tapes qui composent
une attaque peuvent avoir des relations variables de priorit qui ne font partie dune squence dordre
absolu.
Les rseaux de Ptri nous permettent de dcrire et confronter une squence des ordres partielles
comme manire alternative de visualiser des scnariis dattaque. Un diagramme simple peut tre employ
pour reprsenter plusieurs scnariis dintrusion impliquant le mme ensemble dactions. Ceci simplifie
la modlisation et acclre la dtection.
3.5.2.5 Rgles dassociation
Quelques chercheurs ont tudi des manires pour appliquer le formalisme des rgles dassociation
la dtection dintrusion [116, 117]. Les modles ou les rgles impliqus permettent la prvision de
futurs rsultats, et, dans le cas de la dtection dintrusion o la quantit de donnes inspecter est tout
fait grande, ce genre de prvision peut aider dtecter des tentatives sournoises dviter la scurit dun
systme.
Par exemple, supposons que 10% des paquets reus par un serveur ont des drapeaux SYN et ACK
et que 30% des paquets qui ont le drapeau ACK ont galement le drapeau SYN. Ces deux variables ont
pu tre associes en utilisant une rgle ACK S Y N avec un degr de support s = 0.1 et une confiance
c = 0.3. Des rgles comme ceci peuvent tre calcules pour diffrents composants afin dtablir un profil
de normalit qui aide identifier des activits illicites [115].
Lintgration de la logique floue aux rgles dassociation permet dobtenir des modles plus abstraits
un niveau plus lev [21]. Plutt de dcrire une mesure par une gamme danomalie [a, b], un incident
de scurit peut tre dcrit en utilisant les termes tels que "high" ou "low" qui sont plus facilement
30

3.6. SNORT : Un Systme de Dtection dIntrusions dans les Rseaux


interprts par les humains [182]. En incorporant ce concept aux rgles dassociation, nous pouvons
avoir, par exemple, une rgle de la forme :
{S Y N = LOW, FIN = LOW} = {RES = LOW}

s = 0.5, c = 0.9

(3.10)

o S Y N est le nombre des drapeaux de synchronisation, FIN est le nombre des drapeaux de finalisation et RES est le nombre des drapeaux de remise zro dans une periode de temps. Au lieu davoir
des valeurs numriques qui dcrivent ces figures, des limites floues sont prsentes pour donner plus de
flexibilit la rgle. Des ensembles flous dcrivant ces limites (par exemple, LOW, HIGH) devraient tre
crs afin de tracer lentre avant deffectuer la dtection dintrusion [21].

tel-00917605, version 1 - 12 Dec 2013

3.6 SNORT : Un Systme de Dtection dIntrusions dans les Rseaux


Les donnes utilises dans la phase exprimentale de cette tude sont des journaux dalertes issus de
SNORT. SNORT est lun des outils de dtection dintrusions fonctionnant sur une approche par scnario
et exploitant plus particulirement la mthode de pattern matching. Ces outils sont actuellement les plus
courants sur le march.
Dans cette section, nous allons donner une description gnrale de ce NIDS et du processus de
dtection quil utilise. Dabord nous commencons par un survol gnral dans la sous section 3.6.1, puis
nous dcrivons dans la sous section 3.6.2 les rgles utilises par SNORT.

3.6.1 Vue gnrale


SNORT est un outil libre de dtection et de prvention des intrusions dans les rseaux (NIDS) capable
danalyser le trafic en temps rel dans les rseaux IP. Il a pour vocation deffectuer des analyses rseaux
et propose cet effet trois fonctions principales : sniffer en mode monitoring (affichage des paquets),
sniffer en mode capture (capture et enregistrements des paquets sur disque) et NIDS [188]. SNORT est
un sniffer de paquet qui surveille le trafic rseau en temps rel, contrlant chaque paquet troitement pour
dtecter un contenu dangereux ou des anomalies souponneuses. Par lanalyse des protocoles, SNORT
dtecte des varits dattaques, y compris le dni du service, les buffer overflow, les attaques CGI, les
scanning des ports, et les SMB probes. Ds quun comportement anormal est dtect, SNORT envoie
une alerte en temps rel au serveurs syslog, des serveurs SMB, un fichier d"alertes" spar, ou une
fentre "popup".
Larchitecture interne de SNORT est oriente pour apporter performance, simplicit et flexibilit.
SNORT est bas sur la librairie libpcap en mode promicious (pour la capture de paquet), un outil qui est
largement rpandu parmi les sniffers et les analyseurs du trafic TCP/IP et sur laquelle sappuient les trois
sous-systmes qui le composent [188] :
Le decodeur des paquets (Prprocesseurs) : Les procdures de dcodage sont appeles travers
la pile TCP/IP de la couche transport jusqu la couche applicative (via le sniffer en mode promicious). La plus grosse partie du travail de dcodage consiste placer des indicateurs dans le paquet
de donnes afin de permettre une analyse ultrieure par le moteur de dtection.
Le moteur de dtection (reconnaissance des signatures) : SNORT exploite ses rgles de dtection
laide dune liste deux dimensions compose de "chanes dentte" et de "chanes doptions".
Ce mcanisme est utilis pour acclrer la phase de dtection et sappue sur le fait que plusieurs
rgles peuvent avoir un ou plusieurs "dnominateurs communs". Il apparat alors pertinent de ne
pas chercher identifier systmatiquement une rgle par sa signature complte, mais de crer une
premire signature qui travaillera sur les troncs communs des rgles (il sagit de la chane dentte),
et de raffiner ensuite la dtection par la prise en compte des paramtres spcifiques chaque
31

Chapitre 3. La Dtection dIntrusions

tel-00917605, version 1 - 12 Dec 2013

F. 3.8 Architecture de SNORT

F. 3.9 Une liste deux dimensions qui dcrit la syntaxe des rgles de SNORT
rgle (il sagira alors de chaines doptions). Ces rgles sont appliques chaque paquet dans les
deux dimensions (figure 3.9). La premire des rgles du moteur de dtection qui correspond un
paquet dcod dclenche laction spcifie dans cette rgle et fait sortir le paquet du processus de
dtection.
Le sous-systme dalerte et de log (Postprocesseurs) : Il permet de spcifier ce qui doit tre fait
lorsquune attaque est dtecte. Les paquets peuvent ainsi tre loggs (sous diffrents formats)
ou gnrer une alerte pouvant prendre la forme dune fentre popup, dun message syslog, dun
fichier dalertes, de traps SNMP, etc. en fonction du module de sortie slectionn.

3.6.2 Les rgles SNORT


Une rgle de dtection dattaque contient les informations ncessaires pour dtecter une intrusion.
Ces informations se prsentent comme les empreintes laisses par les attaquants. SNORT dispose dune
large base de rgles qui couvre les diffrentes tapes dun scnario dattaque. tant donne la diversit
de ces rgles, plusieurs systmes de dtection dintrusions proposent des utilitaires de transformation de
ces signatures en leurs propres langages de dfinition dattaques. Nous citons titre dexemple les IDS
Bro [166], Realsecure [65] et le langage STATL [53, 54] utilis par divers IDS comme NetStat [181].
On peut diviser une rgle de dtection dattaque de SNORT en quatre parties : le type, le protocole,
lentte et le corps. On schmatise dans la figure 3.10 lemplacement de chaque partie sur une simple
rgle. Cette rgle est de type Alert et sapplique sur un trafic TCP. Elle inspecte le contenu des paquets
32

3.7. Sur la difficult de la dtection dintrusion


issus de nimporte quelles adresses et ports (Any Any) et reus sur le rseau 192.168.1.0/24 au port 111
(du RPC). La rgle envoie un message dalerte "mountd access" si le paquet contient le motif "|00 01 86
a5|". On gnralise dans la suite le rle de chaque partie dune rgle.

tel-00917605, version 1 - 12 Dec 2013

F. 3.10 Rgle de dtection dattaque de SNORT

Type : SNORT dfinit cinq types de base. Une rgle de type Alert enregistre le paquet dans un fichier journal et dclenche une alarme pour avertir ladministrateur. Le type Log sauvegarde simplement
le paquet alors que le type Pass ignore les paquets rpondant cette signature. Le type Active alerte
ladministrateur et active une autre rgle de type Dynamic. Ainsi ce dernier type permet de dsactiver
momentanment les rgles jusqu ce quun vnement soit dtect.
Protocole : ce paramtre sert identifier le protocole auquel sapplique la rgle. Actuellement, SNORT
gre quatre protocoles de trafic : TCP, UDP, ICMP et IP, qui sont les principaux protocoles utiliss pour
le trafic Internet. Lanalyse commence toujours par les rgles TCP,UDP ou ICMP et en cas dchec de
dtection, elle se poursuit en parcourant les rgles IP.
Entte : cette partie de rgle dfinit les paramtres des faux TCP et UDP, des messages ICMP et
des paquets IP analyser. Elle indique ladresse source, le port source, ladresse destination et le port
destination surveiller. De plus un oprateur de direction informe SNORT du sens dapplication de la
rgle. Loprateur -> dsigne une rgle unidirectionnelle alors que loprateur <> indique une rgle
bidirectionnelle. Notons que lentte dune rgle est stocke dans une structure spciale appele RTN
(Rule Tree Node) et chane avec les enttes des autres rgles pour former une liste de RTN.
Corps : cest la partie restante dune rgle qui comporte diverses options stockes dans une structure
spciale appele OTN (Option Tree Node). Les options servent la dtection (TTL : dure de vie, Flag :
drapeaux TCP, TOS : type de service, Content : contenu du paquet, etc), aux rponses actives des attaques
dtectes (mots cls REACT et RESP) et larchivage dans les fichiers de scurit (LOGTO : nom du
fichier log, msg : description de lattaque, etc).

3.7 Sur la difficult de la dtection dintrusion


Nos travaux ont t motivs par le fait que les IDS daujourdhui tendent dclencher des fausses
alertes la plupart du temps. Une des difficults majeures que rencontrent les administrateurs de scurit
en utilisant les IDS est le nombre norme dalertes dclenches chaque jour. Par nature, les IDS vont
remonter normment dalertes, sils ne sont pas configurs convenablement. Les grandes entreprises
33

Chapitre 3. La Dtection dIntrusions

tel-00917605, version 1 - 12 Dec 2013

recoivent des milliers dalertes chaque jour, parmi lesquelles plus que 99% sont des fausses alarmes
[127].
La consquence est que ladministrateur est oblig de revoir srieusement la hausse son seuil de
tolrance, ce qui va le conduire passer ct de beaucoup de problmes rels et permettre un pirate
de haut niveau de russir une attaque suffisamment discrte pour ne pas tre dtecte du tout. Ainsi, le
principal problme des IDS nest pas de laisser passer certaines attaques (dans la pratique ils en dtectent
la quasi totalit) mais de noyer ladministrateur sous un flot dinformation. En effet, les IDS ne sont pas
capables de juger de la pertinence, de la gravit et de la corrlation des attaques. Ils gnrent tellement
dalertes quil va tre trs difficile de dtecter les problmes graves au milieu de toutes les alertes.
Il est donc normal de sinterroger sur les raisons de cette inondation dalertes. La sous section 3.7.1
adresse cette question. La sous section 3.7.2 prsente les recherches vers un "meilleur" IDS, qui dclenche moins de faux positifs. La sous section 3.7.3 prsente lapplication des mthodes de fouilles de
donnes (Data mining) sur ce problme et conclut cette section avec une discussion sur la corrlation
dalerte.

3.7.1 Origines de linondation dalerte


Labondance dalertes en gnral, et de faux positifs en particulier, peut tre attribue trois facteurs
principaux :
Gnralit des signatures : Les signatures non-prcises (gnrales) vrifient les conditions ncessaires mais ne sont pas suffisantes pour dtecter les attaques. Par consquent, elles dclenchent
galement des fausses alarmes sur des vnements bnins. Par exemple, au lieu dutiliser des expressions rgulires complexes qui peuvent srement dtecter beaucoup dattaques, il nest pas
rare dutiliser des signatures simples de type "reconnaissance des chanes de caractres". Il y a
quatre raisons cela : tout dabord, les conditions de temps rel excluent gnralement lutilisation
de signatures prcises, qui prennent plus du temps se confronter aux donnes daudit [86, 150].
En second lieu, pour dtecter les variations des attaques, il est attrayant dutiliser les signatures
gnrales et non prcises [30, 47]. Troisiment, les sources daudit manquent frquemment de linformation utile pour la dtection dabus [149, 150]. Cela exige lutilisation de signatures qui ne
sont pas spcifiques. Quatrimement, lcriture des signatures de dtection dintrusion est difficile
par nature [109, 119, 135, 141], fait qui favorise la cration des signatures non prcises.
Intention-estimation des signatures : Ces signatures dclenchent des alertes sur des vnements
qui pourraient ou ne pourraient pas tre des attaques. Par exemple, les signatures qui dclenchent
des alertes sur des "failed users login", transferts de zone de DNS, fragmentation dIP sont devins
par intention parce quils supposent que ces activits sont malveillantes. Il a t montr que cette
supposition est frquemment fausse [17, 146]. Axelsson a observ que lutilisation de signatures
non-prcises ou estimes par intention mne facilement un nombre lev de faux positifs [12].
Manque dabstraction : Les IDS daujourdhui tendent dclencher des alertes multiples de bas
niveau de rapport un phnomne de niveau simple. Par exemple, une seule execution de loutil de
balayage nmap [70] dclenche des centaines dalertes, savoir une alerte pour chaque balayage.
De mme, un rseau avec une petite unit de transfert (MTU) [171] fragmente systmatiquement
des paquets IP. Nanmoins, la plupart des IDS dclenchent une alerte spare pour chaque paquet
fragment. Il est clair que ce manque dabstraction aggrave linondation dalerte.
Profil imprvisible : Pour la dtection dintrusion par anomalie, un profil qui dcrit le comportement normal dun utilisateur ou dun processus est construit comme rfrence avant la phase de
dtection. Durant la phase de dtection, nimporte quelle dviation est reporte comme intrusion.
Or cest une grande source des faux positifs de fait que ce comportement de rfrence peut subir
des variations au cours de temps.
34

3.7. Sur la difficult de la dtection dintrusion

3.7.2 Vers un meilleur IDS


Intuitivement, la manire la plus attrayante pour traiter les faux positifs est probablement de crer
des "meilleurs" IDS qui soient moins enclin aux faux positifs. Ce nest pas un effort facile parce quil est
intrinsquement difficile dadorder les points mentionns dans la section prcdente. Nanmoins, il y a
un nombre restreint de projets de recherche qui ont poursuivi dans cette voie :

tel-00917605, version 1 - 12 Dec 2013

Dtecteurs incorpors : Zamboni [187] dfinit les dtecteurs incorpors en tant quIDS bass sur les
htes, et qui sont intgrs dans le code source dune application ou du systme dexploitation. Ainsi, les
dtecteurs incorpors sont une forme dinstrumentation du code source. Un de leur avantages principaux
est leur capacit daccder nimporte quelle information ils ont besoin pour accomplir leur travail. De
plus, les dtecteurs incorpors sont excuts sur demande, ce qui est conomique, et libre des ressources
employer autrement, par exemple pour des signatures plus prcises. On sattend ce que les deux
avantages mnent peu de faux positifs [187, 5], mais une preuve rigoureuse est toujours attendue.
IDS Web : Almgren et al dcrivent des IDS base de signature pour dtecter des attaques de serveur
web en temps rel [4]. Les IDS sont bass sur les htes et utilisent des journaux des serveurs web
comme source daudit. Les signatures dattaque sont une variante des expressions rgulires, et peuvent
facilement tre accordes un environnement particulier. Cette adaptation sest avr utile pour rduire
le nombre de faux positifs.
NIDS spcialiss : Sekar et al prsentent un IDS bas sur les rseaux qui se concentre exclusivement
sur des attaques de bas niveau de rseau, telles que les balayages de reconnaissance et les attaques de
dni-de-service [161]. Le systme actuel diffre de la plupart des autres IDS bass-rseau parce quil
sabstient de nimporte quelle tentative de dtection des attaques au niveau application telles que des
attaques contre des serveurs Web.

3.7.3 Traitement et corrlation des alertes


Les systmes de corrlation dalertes (ACS) [36, 37, 41, 47, 169, 175] post-traitent les alertes des IDS
en temps rel et automatisent une partie du processus de traitement de ces alertes. Les alertes peuvent
correspondre aux tapes multiples dun scnario dattaque. Lessentiel rside dans le compromis effectu
entre la quantit dalertes remontes et la finesse de ces dernires. Les informations quelles contiennent
manquent de prcision et sont, de plus, parcellaires et de trs bas niveau. Ces alertes sont par consquent
dun intrt limit pour un oprateur humain. La corrlation dalertes semble tre une des cls de lvolution des systmes de dtection dintrusions. En corrlant les informations contenues dans les alertes,
ainsi que dventuelles informations additionnelles, on peut esprer rduire le volume dinformations
traiter, amliorer la qualit du diagnostic propos et dgager une meilleure vision globale de ltat de
scurit du systme en cas dintrusion [46].
Plus prcisement, les ACS tentent de grouper les alertes de sorte que les alertes du mme groupe
concernent le mme phnomne (i.e., la mme attaque). Puis, seuls les groupes dalerte sont expdis
loprateur de scurit. De cette faon, les ACS offrent une vue plus condense sur le problme de
scurit soulev par les IDS. En outre, ils le facilitent pour distinguer les vraies menaces de scurit des
faux positifs.
Les ACS sont clairement lis ce travail de thse parce quils abordent le mme problme. Dailleurs,
ils poursuivent une approche trs semblable, proche du "clustering en temps rel".
Les travaux autour de la corrlation dalertes dans le domaine de la dtection dintrusions sont relativement rcents. Ces travaux sont issus dobservations et dexprimentations terrain ; la base thorique
35

Chapitre 3. La Dtection dIntrusions


est encore en construction aujourdhui. Dans la littrature, on peut toutefois distinguer deux approches
principales pour traiter la corrlation. Pour une description assez complte et dtaille, on se rfrera
[46].
3.7.3.1 Corrlation implicite
La corrlation implicite consiste mettre en vidence des relations intrinsques entre les alertes,
sans schma prtabli. Lensemble des approches de corrlation implicite repose sur une dfinition de
similarit entre les alertes. La mesure de similarit permet dagrger les alertes, cest--dire effectuer des
regroupements dalertes juges plus ou moins proches en fonction de leurs attributs. Les fonctions de
similarit entre les alertes sont une combinaison de fonctions de similarit dfinies sur leurs attributs.
Les fonctions de similarit sur les attributs sont bases sur des connaissances expertes lies aux attaques
et lenvironnement [46]. On peut distinguer trois types daggrgation dalertes :

tel-00917605, version 1 - 12 Dec 2013

Groupement/Clustering des alertes : lide ici est de regrouper et fusionner les alertes similaires
en des groupes similaires [175, 40, 41]. Dans [175], Valdes et Skinner dfinissent une fonction de
similarit entre alertes, quils utilisent pour fusionner des alertes similaires. Un ensemble dalertes
fusionnes est appel mta-alerte. Le systme est incrmental, chaque nouvelle alerte est compare
la liste des mta-alertes existantes. Une nouvelle alerte est fusionne avec la mta-alerte la plus
proche condition que la similarit soit juge suffisante, sinon elle constitue une nouvelle mtaalerte. Lapproche de Dain et Cunningham [40, 41] est similaire celle de Valdes et Skinner. Leur
objectif est de former des groupes dalertes similaires. Lalgorithme est incrmental, les nouvelles
alertes sont ajoutes au groupe le plus proche ou font lobjet dun nouveau scnario. La mesure de
similarit entre les alertes et les groupes dalertes est probabiliste.
Dans [96, 94], Julisch propose dadapter une mthode de fouille de donnes connue sous le nom
dAOI (Attribute-Oriented Induction) pour grouper les alertes et identifier le phnomne lorigine
des groupes dalertes. De manire gnrale, lAOI consiste fusionner des donnes reprsentes
par des n-uplets dattributs en fonction de hirarchies de concepts (ou taxonomies), lies chaque
attribut. Dans lapproche de Julisch, les alertes sont des quadruplets (ident, source, cible, t) o
ident est lidentifiant de lattaque fourni par lIDS, source est ladresse IP source de lattaque, dest
ladresse IP destination et t la date doccurrence. Lapproche de Julisch na pas pour objectif de
construire des scnariis dattaques, mais plutt deffectuer des regroupements dalertes correspondant des tendances remarquables dans une base dalertes. Loprateur peut traiter les alertes par
lots et donc se concentrer sur les alertes ventuellement plus svres.
Pr-requis / Consquences : Cuppens propose dans [36] une technique dagrgation et de synthse dalertes similaires. Lobjectif est donc aussi similaire celui de Valdes et Skinner. Une des
diffrences entre les deux approches rside dans le fait que lapproche de Valdes et Skinner est probabiliste, alors que lapproche de Cuppens est base sur des rgles logiques. En dautres termes,
dans lapproche de Cuppens, deux alertes sont ou ne sont pas similaires ; lapproche de Valdes et
Skinner est plus souple dans le sens o les alertes possdent un degr de similarit. La similarit
des alertes est une combinaison de la similarit des attributs qui composent les alertes. Des rgles
dfinissant la similarit sont donc dfinies pour chaque type dattribut, afin de prendre en compte
leurs caractristiques propres.
Utilisation des rgles dassociation et dpisodes : Cette sous section prsente les projets de
recherche qui utilisent les rgles dassociation et dpisodes pour traiter les alertes.
36

3.7. Sur la difficult de la dtection dintrusion


Manganaris et al. extraient des rgles dassociation pour tablir un systme de dtection danomalie de niveau secondaire qui filtre les alertes "normales" et rduit la charge de loprateur de
scurit [127]. Implicitement, ce travail suppose que les alertes "normales" sont toujours des
faux positifs. Le modle rfrence du comportement normal dalertes est appris dans deux tapes.
Dabord, une squence temporelle et ordonne extraite dun journal historique des alertes est divis en des parties, et en second lieu, des rgles dassociation sont extraites partir de ces parties.
Les rgles rsultantes dassociation constituent ainsi le modle rfrence du comportement normal dalertes. Au moment de lexcution, les nouvelles alertes sont compares avec ce modle de
rfrence, et celles qui sont conformes ce modle sont considres normales et filtres.

tel-00917605, version 1 - 12 Dec 2013

Clifton and Gengo utilisent la fouille de donnes pour construire des modles dalertes comprhensibles par un expert et sur lesquels il peut agir [30]. Plus prcisement, ils extraient des rgles
dpisode partir des journals historiques dalertes, et utilisent ces rgles pour guider la construction des rgles de filtrage, qui filtrent automatiquement les faux positifs. Clifton et Gengo offrent
peu dexpriences pour valider leur approche.
Dans le domaine des rseaux de tlcommunication, Klemettinen utilise des rgles dassociation et des rgles dpisode pour dvelopper des systmes de corrlation dalerte [102]. Hellerstein
et Ma poursuivent le mme but au moyen de visualisation, analyse de priodicit, et m-patterns
(une variante des rgles dassociation qui exige limplication mutuelle) [81]. Ces projets de recherche nous ont convaincus que la visualisation, les rgles dpisode, et les rgles dassociation
exigent trop (en termes de temps et dexpertise humaine) pour tre employes sur une plus grande
chelle.
3.7.3.2 Corrlation explicite
lide de base consiste confronter le flux dalertes des scnariis dattaques connus a priori. La
corrlation explicite est donc rapprocher de lapproche par scnario, classique en dtection dintrusions.
Cependant, elle sen distingue en utilisant des signatures plus volues [46].
Lapproche de corrlation de Debar et Wespi, dcrite dans [47], est la premire solution de corrlation
dalertes implante dans un outil commercial, Risk Manager. Lune des fonctions du composant dagrgation et de corrlation (ACC) de Risk Manager est de former des groupes dalertes similaires, appels
situations. Les alertes manipules sont des triplets constitus dun identifiant dattaque, de la source et de
la cible de lattaque. Une situation est un ensemble dalertes ayant la mme projection selon un certain
nombre daxes, les axes tant reprsents par les attributs. La corrlation des alertes peut galement tre
excute en confrontant des scnariis dattaque indiqus par des languages dattaque. Des exemples de
telles languages incluent STATL[54], lambda[38], et JIGSAW[172].
3.7.3.3 Discussion
Julish a not dans son travail [95] quelques remarques sur les ACS que nous rsumons ici :
Profondeur danalyse En raison des conditions dures du temps rel, les ACS peuvent excuter une
quantit danalyse limite. Par exemple, considrons un phnomne qui se produit seulement le samedi
(par exemple faux positifs dus aux systmes de sauvgardes hebdomadaires). Les ACS ne sont pas capables de grouper et reporter les alertes resultantes car limplmentation est difficile en temps rel. En
plus, pour identifier un modle hebdomadaire dalarme, on doit observer au moins plusieurs semaines
des alertes.
37

Chapitre 3. La Dtection dIntrusions

tel-00917605, version 1 - 12 Dec 2013

Polarisation (Bias) Les ACS sont gnralement optimiss pour trouver les groupes dalerte qui rsultent des attaques. Cette polarisation centre-attaque a des consquences de grande envergure. Par
exemple, quelques ACS rvaluent la svrit des groupes dalertes et cartent des groupes dalertes qui
sont considrs bnins [47, 169]. Dautres ACS utilisent des techniques pour traiter des attaques avec
des IP sources usurpes (IP spoofing), des scnariis dattaque plusieurs tages (multi-stage attack),
ou des attaques furtives [37, 41, 175]. Dailleurs, les publications sur les ACS utilisent excusivement
des attaques pour valider leurs systmes. La plupart de ces groupes dalertes ne sont pas le rsultat des
attaques, et les ACS daujourdhui ne sont pas particulirement appropris pour les trouver et les carter.
Facilit dutilisation Les ACS daujourdhui sont difficiles configurer. Par exemple, quelques ACS
ont des douzaines de paramtres de configuration, dont le rglage ncessite une grande exprience [47,
175]. Dautres ACS exigent lutilisateur dindiquer les rgles de corrlation, ce qui nest pas envisegable
du point de vue de lingnierie cognitive [36, 37]. Les ACS de [41] apprennent des rgles de corrlation
partir de lutilisateur. A cet effet, lutilisateur doit corrler manuellement des alertes, de sorte que le
systme puisse apprendre ses capacits. Clairement, la corrlation manuelle dalertes est difficile et peut
tre une source derreurs.

3.8 Notre application de filtrage des alertes


3.8.1 Fonctionnement gnral
Nous avons prsent dans la section 3.7 les difficults principales que rencontrent les systmes de
dtection dintrusion et surtout le problme dinondation des alertes. Aussi, nous avons prsent les diffrentes solutions proposes pour resoudre ce problme. Ces solutions sont partages en deux catgories
principales. La premire vise lamlioration des IDS existants par lintgration des nouvelles mthodes de
statistique et dintelligence artificielle dans le moteur dinfrence pour rduire le pourcentage dalertes.
Tandis que la deuxime catgorie propose des solutions de post-traitement des alertes comme la corrlation des alertes pour atteindre ce but.
Nous rclamons que le meilleur positionnement pour une technologie de Data Mining dans un systme de dtection dintrusion nest pas dans le moteur de dtection, mais plutt comme couche danalyse
qui filtrera les faux positifs. La capacit des mthodes de Data Mining tablir des modles comportementaux reprsentant des comportements types des donnes est la plus approprie pour modliser les
donnes issues des moteurs de dtection dintrusion. Les NIDS sont en gnral capables de dtecter la
plupart des attaques utilises par les pirates. Par exemple, le logiciel libre de rfrence, SNORT, possde
une base de signatures trs complte et trs rgulirement mise jour. Le problme est que certaines
rgles produisent des faux positifs (parce quelles sont mal crites ou parce que des faux positifs sont
invitables pour certains types dattaques moins daccepter den laisser passer certaines, ce qui est pire
encore). Un NIDS sans post-traitement va lister simplement la liste des vnements indpendamment les
uns des autres. Lattaque sera noye au milieu des attaques de virus et des erreurs de manipulation des
utilisateurs lgitimes.
Dans cette section, nous proposons une architecture de filtrage des alertes issus des NIDS qui appartient du point de vue conceptuel la deuxime catgorie . Le but de notre systme est de partir des
alarmes gnres par un NIDS (figure 3.11), et dessayer de filtrer les alarmes pour dterminer sil y a eu
une attaque sur le rseau pendant un laps de temps fix. Ce filtre est une combinaison de plusieurs mthodes de Data mining comme les cartes auto-organisatrices de Kohonen [104] et les rseaux baysiens
[137].
Lapport de notre filtre sur les alertes gnres par un NIDS pourrait simplifier grandement la tche
38

3.8. Notre application de filtrage des alertes

tel-00917605, version 1 - 12 Dec 2013

de lingnieur scurit et diminuer sa charge de travail. Les diffrents objectifs que lon peut attendre de
cette approche sont :
la suppression des faux positifs et des vnements non significatifs pour lingnieur scurit.
la dtection dune variation du profil des machines de rseau interne (nouvelle attaque, variation
de la frquence dun type dattaque, variation de la frquence gnrale, etc.)
ltude des corrlations entre diffrentes alertes pour dtecter des comportements types des scnariis dattaque.
Une architecture volutive et adaptable aux changements (nouvelles machines intgres dans le
rseau, nouveaux types dattaques, etc.).
Notre systme se dcompose en trois tapes dtailles dans la figure (3.11).
1. Prtraitement temporel : en considrant quun scnario dattaque consiste en une srie dvnements se droulant dans un intervalle de temps, nous commenons par faire une synthse des
alarmes gnres par le NIDS dans une fentre temporelle fixe. Cette synthse nous donne un
rsum du comportement de toutes les machines externes (attaquantes ?) destination de toutes
les IP internes ventuellement attaques. Une tude dtaille est prsente dans le chapitre suivant
(4.2.1).
2. Prtraitement spatial : nous partons ensuite du principe que ce comportement peut tre similaire
pour plusieurs machines externes (qui tenteraient le mme genre dattaque vers une mme machine
interne), ou destination de plusieurs machines internes (une mme attaque pourrait tre dirige
vers plusieurs machines). Nous allons donc regrouper ces comportements en un certain nombre
de comportements-types, en utilisant une technique de classification non supervise classique, les
cartes auto-organisatrices de Kohonen (voir 4.2.2).
3. Classification : nous pouvons maintenant faire une synthse du nombre de comportements de
chaque type ayant eu lieu destination de chaque machine interne. Cette synthse nous rsume
les diffrents types dattaques potentielles visant chaque machine du rseau pendant notre fentre
de temps. Ces informations sont alors utilises pour dterminer si le rseau a rellement t attaqu.
Nous proposons de raliser cette tche de classification laide de diffrents rseaux baysiens ou
de machines vecteurs supports. Notre premire approche raisonne de manire "brute" partir de
toutes les informations. Lapproche suivante prendra en compte la structure du rseau, ou des caractristiques particulires des machines vises pour essayer damliorer les rsultats. Cette tche
de classfication est traite en dtail dans le chapitre 5 (5.4). La figure 3.12 illustre le diagramme
de travail en commencant des logs de SNORT jusqu ltape de discrimination.
Le filtre devrait tre capable de sadapter une configuration rseau donn (apprentissage non supervis), de classer les alertes de manire automatique, et dalerter en temps (pseudo-rel) lorsquun
problme survient. Ltude de lvolutivit de larchitecture est le sujet du chapitre 6.

3.8.2 Les donnes utilises


Les expriences implmentes dans ces travaux utilisent des journaux dalertes issus dun NIDS bas
sur lapproche de dtection par abus et dploy dans un environnement oprationnel (c.--d. en temps
rel).
Lutilisation des alertes des environnements rels plutt que des environnements simuls ou de laboratoire est considr comme point fort de notre validation car lutilisation de donnes simules a beaucoup de limites significatives [129].
Ces donnes sont des journaux extraits du NIDS SNORT qui surveille le rseau du rectorat de Rouen.
Le journal principal est le rsultat de 20 jours dalertes gnres entre 20/11/2005 et 10/12/2005. Cette
base contient approximativement 32000 alertes de 406 types diffrents. Nous voulons dire par type
39

Chapitre 3. La Dtection dIntrusions

tel-00917605, version 1 - 12 Dec 2013

F. 3.11 Fonctionnement gnral du systme.

Donnes
Brutes
Construction X1 Pondration
a1X1 Projection dans
un espace de
des
des
dimension
Caractristiques
Caractristiques
infrieures

y1

Construction de la
fonction de
dcision
Classe

ym
anXn

Xn
Fichiers
de Log

Vecteur Forme compos


de n variables

Vecteur Forme pondr


compos de n variables

Pondration

Prtraitement

Vecteur Forme de m
variables types

Projection

Classification

F. 3.12 Chane de traitement, des donnes brutes la dcision. On voit ici les tches utiles la prise
de dcision, savoir le pr-traitement temporel, spatial et enfin la classification.

dalertes la description que donne SNORT chaque alerte gnre lors dune tentative dattaque. Un
extrait dun journal issu de SNORT est donn par la figure 3.13 dans lequel le type dalerte est encadr.
Nous avons utilis le logiciel tcpdump pour collecter les en-ttes des paquets qui traversent le rseau.
Quelques champs dintrt contenus dans les en-ttes sont lists dans la table 3.1.
Ces alertes sont gnres lors des tentatives de connexions de 4638 machines externes vers 288
machines internes. Parmi toutes ces alertes, il y a effectivement 16 scnariis dattaques relles et les
autres sont des fausses alertes gnres par SNORT.
Le tableau 3.2 contient les informations dtailles de ces scnariis dattaques. Ces scnariis sont
tiquets par un expert de scurit. Notons que durant un intervalle de temps o une machine interne
est vise par une attaque il y a aussi des connexions qui sont normales et seules les connexions visant
la machine attaque sont tiquetes comme attaques et pas toutes les connexions durant lintervalle du
temps o se deroule lattaque.
40

3.9. Conclusion

F. 3.13 Extrait du fichier de log gnr par SNORT.

tel-00917605, version 1 - 12 Dec 2013

T. 3.1 Les champs des en-ttes des paquets


Champs
Timestamp
Source
Destination
Protocol
Source Ports
Destination Ports

Dfinition
le temps de rception du paquet par tcpdump
La machine qui a envoy le paquet
La machine qui a recu le paquet
Le protocole utilis pour envoyer le paquet
le service duquel le paquet est envoy
le service auquel le paquet est destin

3.9 Conclusion
Nous avons prsent tout au long de ce chapitre les qualits requises des systmes de dtection dintrusions. Afin de remplir ces objectifs, diverses mthodes de dtection dintrusions ont t proposes.
Elles se basent principalement sur deux principes de dtection : la dtection par anomalie et la dtection
par abus. Nous avons expliqu ces deux principes de dtection et avons soulign les limites des systmes
de dtection dintrusions bass rseau. Afin de rsoudre ces limites, nous proposons une architecture de
filtrage des alertes pour rduire lnorme pourcentage des faux positifs et donner ladministrateur de scurit les vrais scnariis dattaques. Le prochain chapitre sintresse la premire phase de larchitecture
c..d le prtraitement des journaux dalertes.

41

Chapitre 3. La Dtection dIntrusions

tel-00917605, version 1 - 12 Dec 2013

T. 3.2 Description des scnariis dattaques qui se trouvent dans nos donnes dexprience .

42

#
1
2

Date
20/11
21/11

Temps
22h22m24m
10h01m07m

IP source
26.129.74.64
166.142.155.109

IP destination
189.195.45.196
189.195.45.153

21/11

10h12m12h08m

52.193.19.174

189.195.45.153

21/11

18h09m27m

52.216.28.178

189.195.45.153

24/11

03h05m28m

164.208.69.215

189.195.45.196

01h55m05h07m
13h22h
15h04m15m

13.211.154.17

189.195.45.196

27/11
28/11
30/11

166.153.58.194

189.195.45.153

01/12

13h18m51m

13.239.107.150

189.195.45.111

9
10
11

01/12
03/12
06/12

14h51m17h45m
18h52m19h58m
00h58m01h27m

67.9.150.34
26.134.107.153
52.38.169.27

189.195.45.196
189.195.0.235
189.195.45.196

12

07/12

01h40m42m

164.224.118.173

189.195.45.196

13

08/12

01h23m39m

204.226.180.106

189.195.45.33

14

09/12

08h15m31m

67.97.250.21

189.195.45.153

15

09/12

16h29m33m

81.255.23.129

189.195.45.196

16

09/12

18h55m19h21m

189.195.45.196

Type dattaque
Force Brute
Force brute sur
POP3
Force brute sur
POP3
Trop derreurs
403
Force Brute sur
FTP
Crawler Web
Force brute sur
POP3
Scanner de Vulnrabilit
Force Brute
attaque SNMP
Force Brute sur
FTP
Scanner de Vulnrabilit
Attaque
Web
contre IIS
Force
Brute
contre POP3
Attaque
Web
IIS contre un
Apache
Fichiers MP3
echangs
via
FTP

Chapitre

tel-00917605, version 1 - 12 Dec 2013

Prtraitement et Dcouverte des


Comportements types
Comme cela a t voqu dans le chapitre prcdent, notre architecture est une combinaison de deux
mthodes de classification : la premire non supervise, dont le rle est de dcouvrir des comportements
types de lactivit des machines du rseau interne et la seconde supervise, utilisant ces comportements
pour dtecter si le rseau a t rellement attaqu. Ce chapitre prsente les diffrentes tudes que nous
avons faites sur la classification non supervise des alertes gnres par les NIDS. Nous prsentons
dabord une brve introduction sur le sujet du Clustering et les mthodes principales utilises. Nous dcrivons en dtail lalgorithme des K-moyennes, celui de la carte de Kohonen et leurs variantes. Ensuite,
nous prsentons lapplication du Clustering sur notre problme, application dans laquelle nous traitons
deux phases de prtraitement de donnes : temporel et spatial. Dans la premire phase, nous abordons
le choix des fentres temporelles et la normalisation de donnes. Dans la seconde nous appliquons trois
mthodes de Clustering : K-means, SOM et GHSOM et enfin nous analysons les rsultats obtenus.

Sommaire
4.1

Une introduction au Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.2

Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.3

Dcouverte de comportements-types par SOM et K-Moyennes . . . . . . . . . . . 57

4.4

Dcouverte de comportements-types par GHSOM . . . . . . . . . . . . . . . . . . 69

4.5

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

43

Chapitre 4. Prtraitement et Dcouverte des Comportements types

4.1 Une introduction au Clustering


Le Clustering cherche regrouper des objets dans des catgories (appeles clusters) de sorte que
les objets dans une catgorie donne soient semblables, alors quils sont diffrents des objets des autres
catgories [7, 9, 74, 88]. Le degr de similarit entre une paire dobjets est mesur par un indice de
proximit. Nous rcapitulons les indices de proximit les plus largement rpandus dans la section 4.1.1.
La section 4.1.2 donne une revue sur quelques mthodes populaires de Clustering. La section 4.1.3
discute la qualit de Clustering. Les sections 4.1.5, 4.1.4 prsentent deux mthodes de Clustering : Kmeans et SOM et leurs variantes.
Les notations sont comme suit : Soit D la base de donnes regrouper et n sa taille (i.e. n = |D|). Les
lments dans D sont dsigns sous le nom dobjets. Les objets xi D sont reprsents en vecteurs de
dimension p, i.e. xi = (xi1 , . . . , xip ), i = 1, . . . , n o xi1 , . . . , xip sont appels les attributs.

tel-00917605, version 1 - 12 Dec 2013

4.1.1 Indice de proximit


Lindice de proximit mesure le degr de similarit dune paire dobjets. Il existe deux types dindice de proximit, appels indice de similarit et indice de distance. Lindice de similarit, comme la
corrlation, retourne une grande valeur pour indiquer un degr lev de similarit, tandis que lindice de
distance (par exemple distance euclidienne) retourne une petite valeur pour ce cas. Une tude dtaille
des indices de proximit les plus gnralement utiliss peut tre trouve dans [7, 74, 78, 88]. Lindice de
distance le plus largement utilis est la mtrique de Minkowski. Spcifiquement, pour r 1, la distance
de Minkowski dr (xi , x j ) entre deux objets xi = (xi1 , . . . , xip ) et x j = (x j1 , . . . , x jp ) est dfinie par :
p
(1/r)
X
r

dr (xi , x j ) := xik x jk

(4.1)

k=1

Les deux mtriques de Minkowski les plus gnralement utilises sont la distance euclidienne et la
distance de Manhattan, qui sont obtenues respectivement pour r = 2, et r = 1.

4.1.2 Un survol des mthodes de Clustering


Les mthodes principales de Clustering [7, 79, 88, 90, 165] peuvent tre classifies en cinq catgories
dcrites ci-dessous. Chacune de ces catgories est elle-mme constitue dun grand nombre de sous-types
et dalgorithmes pour trouver les clusters.
Les mthodes hirarchiques procdent successivement en fusionnant de plus petits clusters en des
plus grands, ou en partitionnant le plus grand cluster. Les mthodes de Clustering diffrent par
la rgle dcidant que deux petits clusters sont fusionns ou que le grand cluster est partitionn.
Cure [76] et Chamelon [98] sont des exemples de clustering hirarchique. BIRCH [189] utilise la
mthode hirarchique dans sa premire phase. Il existe deux approches hirarchiques :
Lapproche agglomrative qui commence par chaque objet formant un cluster spar. Elle fusionne successivement les clusters semblables jusqu ce que tous les clusters soient fusionns
dans un seul au niveau le plus lev de la hirarchie.
Lapproche sparative qui commence par tous les objets dans le mme cluster. A chaque itration, un cluster est divis dans plusieurs petits clusters jusqu ce que chaque objet soit dans un
cluster simple ou jusqu ce quun critre darrt soit atteint.
Le rsultat de lalgorithme est un arbre de clusters appel un dendrogramme, qui montre comment
les clusters sont connects. En coupant le dendrogramme un niveau dsir, un regroupement des
donnes lmentaires dans des groupes disjoints est obtenu.
44

tel-00917605, version 1 - 12 Dec 2013

4.1. Une introduction au Clustering


Les mthodes par partition, dautre part, tentent de dcomposer directement lensemble de donnes dans des clusters disjoints. La fonction de critre que lalgorithme de clustering essaye de
minimiser peut souligner la structure locale des donnes, en assignant les clusters au maximum de
la fonction de densit de probabilit, ou la structure globale. Typiquement les critres globaux
impliquent de minimiser une certaine mesure de dissimilitude interne chaque cluster, tout en
maximisant la dissimilitude de diffrents clusters. Un exemple classique est lalgorithme K-means
[78] que nous dcrivons en dtail dans la partie 4.1.4.
Les mthodes bases sur la densit dont lide gnrale est dajouter des clusters aussi longtemps
que la densit, le nombre dobjets dans le voisinage du cluster excde un certain seuil. DBSCAN
[58] est un exemple de mthode de clustering base sur la densit.
Les mthodes bases sur un dcoupage en grille sparent lespace des objets en un nombre fini
de cellules qui forment une structure de grille. Effectuer toutes les oprations de clustering sur
la structure de grille amliore le temps de traitement. Sting [183] est un exemple typique de ces
mthodes.
Les mthodes bases sur un modle prsument un modle pour chaque cluster et trouvent le
meilleur ajustement des donnes ce modle. Les classifications sont souvent reprsentes par
des probabilits, un exemple est la mthode COWEB [63]. Une autre approche utilise les rseaux
de neurones [133]. Les cartes auto-organisatrices (SOM) [106] supposent quil y a une certaine
topologie ou ordre parmi les objets dentre et SOM essaye de prserver cette structure. Une tude
dtaille sur SOM et de ses variantes est prsente dans la partie 4.1.5.
Un problme avec les mthodes de clustering est que linterprtation des clusters peut tre difficile. La
plupart des algorithmes de clustering prfrent certaines formes de cluster, et les algorithmes assigneront
toujours les donnes aux clusters de telles formes mme sil ny avait aucune structure dans les donnes.
Par consquent, si le but nest pas simplement de compresser les donnes mais de faire galement des
infrences au sujet de la structure du cluster, il est essentiel danalyser si les donnes montrent une
tendance tre groupes. Les rsultats de lanalyse des clusters doivent tre valids. Ainsi Jain et Dubes
[88] proposent des mthodes pour ces deux buts. Un autre problme potentiel est que le choix du nombre
K de clusters peut tre critique : diffrents types de regroupement peuvent merger quand K varie. La
bonne initialisation des centres de clusters peut galement tre critique ; quelques clusters peuvent mme
tre laisss vides si leurs centres se trouvent initialiss loin de la distribution des donnes. Le clustering
peut tre employ pour rduire la quantit de donnes et pour induire une catgorisation. Dans lanalyse
exploratoire des donnes, cependant, les catgories ont seulement une valeur limite en tant que telle.
Les clusters doivent tre illustrs dune faon ou autre pour faciliter la comprhension de leur nature.

4.1.3 Qualit du Clustering


La validation du clustering est une question trs importante dans lanalyse des clusters parce que le
rsultat du clustering doit tre valid dans la plupart des applications. Dans la plupart des algorithmes de
clustering, le nombre de clusters est plac comme paramtre dentre. Une dfinition largement adopte
pour un regroupement optimal est de rduire au minimum les distances lintrieur des clusters (interclusters) et maximiser les distances entre les clusters (intra-clusters).
Cependant, ceci laisse beaucoup despace de variation : la distance (inter et intra) clusters peut tre
dfinie de plusieurs manires (voir table 4.1.) Le choix du critre de distance dpend de lapplication. Le
choix de la norme est encore un autre paramtre considrer. Dans cette tude, la norme euclidienne est
utilise car elle est largement utilise. De plus, le critre derreur moyenne est base sur cette norme.
Pour choisir le meilleur regroupement parmi diffrentes partitions, chacune de ces partitions peut tre
value en utilisant un genre dindice de validit. Plusieurs indices ont t proposs [18, 131], parmi eux
45

Chapitre 4. Prtraitement et Dcouverte des Comportements types


Distances inter-clusters

S (Qk )

distance moyenne (average distance)

Sa =

distance de plus proche voisin (nearest neighbor distance)


distance de centre (centroid distance)

S nn =

i,i0 k xi xi0 k
Nk (Nk 1)
P
i mini0 {k xi xi0 k}
Nk

Sc =

kxi xk k
Nk

d(Qk , Ql ) n
o
d s = mini, j xi x j
n
o
dco = maxi, j xi x j
P
k x x k
lien moyen (average linkage)
da = i, jNk Ni l j
lien au centre (centroid linkage)
dcl = kxc xl k
T. 4.1 Distances inter-clusters S (Qk ) et distances intra-clustersPd(Qk , Ql ) ; xi , xi 0 Qk , i , i0,
x Q xi
x j Ql , k , l. Nk est le nombre dexemples dans le cluster Qk et ck = iNkk

tel-00917605, version 1 - 12 Dec 2013

Distances intra-clusters
lien simple (single linkage)
lien complet (complete linkage)

citons : Dunns validity index, Davies-Bouldin index, Silhouette validation method, C index, GoodmanKruskal index, Isolation index, Jaccard index, Rand index, Class accuracy, etc.
Dans cette tude, nous avons utilis lindice de Davies-Bouldin [42], qui utilise les deux distances
(inter et intra-clusters). Selon lindice de validit de Davies-Bouldin, le meilleur clustering est celui qui
rduit au minimum la valeur :
)
(
K
S c (Q j ) + S c (Ql )
1X
max
K j=1 l, j
dcl (Q j , Ql )

(4.2)

o K est le nombre de clusters.

4.1.4 K-moyennes
Lalgorithme des K-moyennes est un algorithme classique de quantification vectorielle. Son principe
est le suivant : on dispose dun ensemble de n points D = {x1 , . . . , xn } de lespace des observations que
lon souhaite rassembler en K classes {C1 , . . . , Ck }, de facon ce quun critre de qualit de clustering
soit optimis. En supposant que les objets xi D sont tirs dun espace euclidien, lerreur quadratique
E K2 est le critre le plus gnralement utilis pour dterminer la qualit du clustering :
Ek2 (C1 , . . . , Ck ) :=

K X
X
k=1 xCk

o d2 (., .) est la distance euclidienne et mk = (1/|Ck |)

[d2 (x, mk )]2


P
xCk

(4.3)

(x) est le centre de cluster Ck .

Lalgorithme des K-moyennes (cf. figure 4.1) commence avec un ensemble de K centres de clusters
alatoirement choisis (tape 1) et affecte itrativement les objets aux classes les plus proches afin de
diminuer lerreur quadratique Ek2 (tapes 2 7). La relocalisation dobjet continue jusqu ce que les
clusters ne changent plus entre les itrations conscutives.
Il existe une preuve de convergence pour cet algorithme [162]. Cependant, il existe trois inconvnients de cet algorithme : le premier est quil est ncessaire de connatre le nombre de classes avant de
commencer la classification. Un deuxime inconvnient est la grande sensibilit aux conditions initiales,
qui se traduit ici par le choix des K rfrents initiaux. En effet, sils sont choisis de manire alatoire, la
convergence de lalgorithme vers un minimum "global" nest pas assure, ce qui impose, dans la pratique,
46

4.1. Une introduction au Clustering

tel-00917605, version 1 - 12 Dec 2013

F. 4.1 Lalgorithme des K-moyennes.


de multiplier les initialisations, et augmente dautant le temps de calcul [2, 162]. Enfin linconvnient
majeur de cette mthode est le suivant : en tudiant linterprtation probabiliste de cet algorithme, on
constate quil suppose que les classes suivent des lois de distribution normales de mme matrice de
variance-covariance 2 I, autrement dit, avec la mme importance dans toutes les directions de lespace.
Les variantes de la mthode des K-moyennes se sont principalement concentres sur trois aspects :
dabord, la stratgie utilise pour initialiser les centres de clusters [7, 20], le second, lordre dans lequel
les objets sont affects et les centres sont recalculs [7, 125], et le troisime, les manires heuristiques
dajustement automatique du nombre K de clusters [7, 14]. Dailleurs, des algorithmes gntiques et
dautres mthodes de recherche ont t utilises pour rsoudre le problme doptimisation pos par le
sujet du clustering [89].

4.1.5 La Carte auto-organisatrice de Kohonen (SOM)


La carte auto-organisatrice de Kohonen (SOM) est lune des mthodes les plus populaires de la
famille des rseaux de neurones. Cest un outil puissant de visualisation et danalyse des donnes de
grande dimension.
Une carte SOM est constitue en gnral dunits (neurones) placs sur une grille de dimension faible
(habituellement 1D ou 2D pour permettre la visualisation). La structure de la grille peut tre hexagonale
ou rectangulaire. Chaque unit i de la carte est reprsente par un vecteur prototype de p dimensions
wi = [wi1 , . . . , wip ], o p est gal la dimension de lespace dentre. Dans chaque tape dapprentissage,
un vecteur X de donnes est choisi et le vecteur prototype wb le plus proche de lui, lunit gagnante (bmu),
est choisie dans la carte. Le vecteur prototype gagnant et ses voisins sur la grille sont recompenss en
tant dplacs vers le vecteur dentre :
wi = wi + (t)hbi (t)(x wi )

(4.4)

o (t) est le pas dapprentissage et h(t) est une fonction de voisinage centre sur lunit gagnante.
Les deux paramtres, pas dapprentissage et rayon de la fonction de voisinage sont dcroissantes avec le
temps.
4.1.5.1 Lalgorithme SOM
Lalgorithme dcrivant ce modle est donc le suivant :
1. t 0, initialiser alatoirement les vecteurs prototypes, initialiser le nombre maximum dtapes
dapprentissage tmax ,
2. prsenter un vecteur x, pris alatoirement dans lensemble dapprentissage,
47

Chapitre 4. Prtraitement et Dcouverte des Comportements types


(a) slectionner la bmu :
d(x, wb ) = min d(x, wi )
i{1,...,N}

o d(x, wi ) est une mesure de la distance entre les vecteurs x et wi .


(b) modifier le vecteur prototype de chaque cellule :
wi (t + 1) = wi (t) + (t) hb,i (t) (x wi (t))
3. Si t < tmax, ALORS t t + 1, retourner au point 2, Sinon FIN.

tel-00917605, version 1 - 12 Dec 2013

Les rglages envisageables concernent :


- le pas dapprentissage (t) : cest une fonction qui doit tre positive, dcroissante et monotone. Le
but est de laisser les wi sordonner pendant les premires tapes et de consacrer le reste des tapes
laffinage des positions. On notera 0 sa valeur initiale. Kohonen [105] recommande de prendre
0 proche de 1 pour les 1000 premires tapes puis de le laisser dcrotre. Il prcise que la forme
de la fonction (linaire, exponentielle ou inversement proportionnelle t) na pas dimportance.
- la fonction de voisinage hb,i (t) : la mthode la plus simple consiste dfinir un rang de voisinage k
maximum pour dterminer la zone dinfluence du dplacement de la bmu de telle sorte que seules
les cellules prsentes dans Nk (b)3 , soient dplaces proportionnellement (t). On aura donc :
(

hb,i (t) = 1 si i Nk (b)


hb,i (t) = 0 si i < Nk (b)

(4.5)

La fonction de voisinage propose par Kohonen [103, 104] est directement inspire des modles
biologiques o une cellule active ses voisines les plus proches et inhibe les plus loignes. Dans
le cas dun rseau, les cellules les plus proches de la bmu voient leur vecteur prototype dplac
vers lentre proportionnellement (t) tandis que les vecteurs prototypes des cellules les plus
loignes sont repousss. La fonction utilise dans ce cas est celle du chapeau mexicain :
hb,i (t) = a exp(d(b, i)2 ) cos(c d(b, i))

(4.6)

o a et c reprsentent des amplitudes (cf. figure 4.2 o la valeur de la fonction de voisinage est
indique pour les 6 cellules autour de la bmu).
Cependant, Erwin et al. [56] ont montr quil est ncessaire dutiliser une fonction convexe pour
viter que la carte ne passe, en cours dapprentissage, par des tats stables, alors que les vecteurs prototypes nont pas encore atteint leur positions finales. Une telle situation peut amener un
blocage de lorganisation alors quelle nest pas termine. Depuis cette tude la fonction la plus
employe est de type gaussienne (cf. Figure 4.2) :


hb,i (t) = e

d(i,b)2
2(t)2

(4.7)

o (t) est galement une fonction dcroissante du temps, dfinissant le rayon dinfluence du
voisinage autour de la bmu. Il sera tout dabord grand pour permettre la carte de se dplier
puis se restreindra la seule bmu, ou ses voisines directes [18], pour affiner le placement des
vecteurs prototypes. Quelle que soit la fonction retenue, le choix du rayon dinfluence de hb,i (t)
a une grande importance car, si ltendue du voisinage de dpart est trop restreinte, la carte ne
3

48

dsigne un voisinage de b de rang maximum k

tel-00917605, version 1 - 12 Dec 2013

4.1. Une introduction au Clustering

F. 4.2 Valeur de la fonction de voisinage autour de la bmu pour une carte linaire.
pourra pas sordonner globalement. Pour viter de voir des zones de la carte dsordonnes il est
recommand [105] de prendre une valeur initiale hb,i (0) trs grande, voire mme plus grande que
la taille de la carte et de la laisser dcrotre jusqu 1 au cours de lapprentissage.
- le nombre ditrations effectuer tmax : Kohonen recommande, pour obtenir une bonne prcision
statistique, de prendre tmax au moins gal 500 fois le nombre de cellules constituant la carte.
En gnral pour valider la qualit du Clustering par lalgorithme SOM, deux mesures derreurs sont
calcules : la rsolution de la carte et la prservation de la topologie de la carte :
Quantization error (QE) : la distance moyenne entre chaque vecteur et son bmu. Cette mesure
indique la rsolution de la carte obtenue.
Topographic error (TE) : la proportion de tous les vecteurs pour lesquels le premier et le second
bmu ne sont pas adjacents. Cet indicateur mesure la prservation de la topologie de la carte.
4.1.5.2 Les cartes auto-organisatrice adaptatives
Dans la plupart des applications, SOM est utilis pour projeter des donnes dun espace dentre de
grand dimension dans un espace plus petit. Lutilit dune telle projection pour une application donne
va dpendre de la prcision de la reprsentation de ces donnes dans le nouvel espace. SOM est normalement represent comme une carte deux dimensions. En utilisant SOM, la taille de la carte et le
nombre des noeuds doivent tre prdtermins. Le besoin de la prdtermination de la structure de SOM
a comme consquence une limitation significative dans la carte finale. On connat souvent seulement
laccomplissement de la simulation quune carte diffrente aurait t plus approprie pour lapplication.
Donc, des simulations doivent tre excutes plusieurs fois sur des cartes de diffrentes tailles pour slectionner la carte optimale. Une autre limitation en utilisant SOM pour la dcouverte de connaissance
se produit en raison de lutilisateur ne se rendant pas compte de la structure actuelle dans les donnes.
Donc, il devient non seulement difficile de prdterminer la taille de la carte mais aussi de dire quand
la carte a t organise en structure approprie de clusters, car lutilisateur ne connait pas la structure
approprie elle-mme. La solution de ce problme est de dterminer la structure aussi bien que la taille
de la carte durant la phase dapprentissage. Plusieurs variantes de SOM sont proposes pour resoudre ces
49

Chapitre 4. Prtraitement et Dcouverte des Comportements types

F. 4.3 Options de croissance de noeud dans GSOM :(a) un nouveau noeud, (b) deux nouveaux noeuds
et (c) trois nouveaux noeuds.

tel-00917605, version 1 - 12 Dec 2013

deux problmes par lutilisation darchitectures adaptatives comme Growing Grid (GSOM) [68], Hierarchical Feature Map (HSOM) [130], Growing hierarchical SOM (GHSOM) [153, 50] ou Tree-structured
SOM (T-SOM) [107].
Growing Self-Organizing Map (GSOM) GSOM reprsente la carte auto-organisatrice croissante.
Cest une variante dynamique du SOM [1]. GSOM a t dveloppe pour aborder la question de la
dtermination dune taille approprie de SOM selon la distribution de donnes. Lalgorithme GSOM
commence par un nombre minimal de noeuds (habituellement 4) et ajoute de nouveaux noeuds sur la
frontire base sur une heuristique. La croissance de GSOM est controle par une valeur appele "facteur de diffusion (SF)". GSOM commence par 4 noeuds frontires : chaque noeud a la libert de se
dvelopper sur sa propre direction au dbut. Les nouveaux noeuds sont developps partir des noeuds
de frontire (figure 4.3).
Hierarchical SOM (H-SOM) Le modle hirarchique de SOM [124] se rapporte habituellement un
arbre des cartes, dont la racine agit en tant que prprocesseur pour des couches suivantes. En traversant
la hirarchie vers le haut, linformation devient de plus en plus plus abstraite.
HSOM se compose dun certain nombre de cartes organises dans une structure pyramidale. Notons
quil y a une relation stricte de hirarchie et de voisinage implicite dans cette architecture. La taille de
la pyramide, c.--d. le nombre des niveaux aussi bien que la taille des cartes chaque niveau, doit tre
dcide lavance, signifiant quil ny a aucune croissance dynamique de nouvelles cartes bases sur
le processus de formation lui-mme. Cependant, puisque la formation de la pyramide est excute un
niveau la fois, il est thoriquement possible dajouter un autre niveau sil y a lieu. En outre, notons que,
habituellement, le nombre de noeuds aux niveaux plus levs est petit par rapport dautres modles de
SOM en utilisant les cartes multiples.
Pendant le processus dapprentissage, les vecteurs dentre qui sont passs vers le bas dans la hirarchie sont "compresss" : si certains attributs des vecteurs dentre projets dans le mme noeud ne
prsentent aucune variance, alors ils sont considrs comme ne contenant aucune information additionnelle. Ceci mne la dfinition de diffrents vecteurs poids pour chaque carte, crs dynamiquement
durant lapprentissage.
Growing Hierarchical Self-Organizing Map (GHSOM) La carte hirarchique dynamique (GHSOM)
[9,30], qui est une extension de la carte dynamique GSOM [12] et de la carte hirarchique HSOM [23],
peut crer une hirarchie de plusieurs niveaux dont chaque niveau est compos de plusieurs cartes SOM
dynamiques et indpendantes. La taille de ces cartes et la profondeur de la hirarchie sont dtermines
durant lapprentissage selon la distribution des donnes. GHSOM se dveloppe dans deux dimensions :
50

4.1. Une introduction au Clustering


'

Etapes principales pour lextension horizontal :

1. Initialiser le vecteur de poids de chaque neurone avec des valeurs alatoires.


2. Excuter lalgorithme dapprentissage SOM pour un nombre fixe de
priodes.
3. Chercher lunit derreur e et son voisin le plus dissimilaire d. (notons
que lunit derreur e est le neurone avec la plus grande dviation entre
son vecteur poids et les vecteurs dentres quil reprsente.)
4. Insrer une nouvelle ligne ou une nouvelle colonne entre e et d. Les
vecteurs de poids de ces nouveaux neurones sont initialiss par la valeur
de la moyenne de leurs noeuds voisins.

tel-00917605, version 1 - 12 Dec 2013

5. Rpter les tapes 24 jusqu ce que lerreur moyenne de quantification


de la carte MQEm < 1 qeu o qeu , est lerreur de quantification du
neurone u dans le niveau prcdent de la hirarchie.
Etapes principales pour lextension hirarchique :
1. Pour chaque neurone vrifier si son qei > 2 qe0 , o qe0 est lerreur de
quantification du seul neurone de la couche 0, assigner alors un nouveau
SOM un niveau suivant de la hirarchie.
2. Apprendre la carte SOM avec les vecteurs dentre affects ce neurone.
%
T. 4.2 Les tapes principales pour lextension horizontal et hirarchique de GHSOM.
&

horizontalement (en augmentant la taille de chaque SOM) et hirarchiquement (en augmentant le nombre
de niveaux). Pour lextension horizontale, chaque SOM se modifie dune manire systmatique trs semblable GSOM [12] de sorte que chaque neurone ne reprsente pas un espace trop grand dentre. Pour
lextension hirarchique, le principe est de vrifier priodiquement si le plus bas niveau SOM prsente
bien la distribution des donnes dentre. Les tapes de base de lextension horizontale et hirarchique
du GHSOM sont rcapitules dans le tableau 4.2.
Le processus de formation du GHSOM est control par les quatre facteurs importants suivants :
Lerreur de quantification dun neurone i, qei , calcule comme la somme de la distance entre le
vecteur poids du neurone i et les vecteurs dentre projets sur ce neurone.
Lerreur de quantification moyenne de la carte (MQEm ), qui est la moyenne des erreurs de quantification de tous les neurones dans la carte.
Le seuil 1 qui indique le niveau du dtail montrer dans un SOM particulier.
Le seuil 2 qui indique la qualit dsire de la reprsentation de donnes dentre la fin de
lapprentissage.
Pour rcapituler, le processus de croissance du GHSOM est guid par deux paramtres 1 et 2 .
Le paramtre 2 indique la qualit dsire de la reprsentation de donnes dentre la fin du processus
dapprentissage. Chaque unit i avec (qei > 2 qe0 ) sera augment, c.--d. une carte est ajoute la
prochaine couche de la hirarchie, afin dexpliquer les donnes dentre en plus de dtail. Au contraire,
le paramtre 1 indique le niveau du dtail dsir qui doit tre montr dans un SOM particulier. En
dautres termes, de nouvelles units sont ajoutes un SOM jusqu ce que le MQEm de la carte soit une
certaine fraction, 1 , du qe de son unit prcdente. Par consquent, plus petit soit 1 , plus grand seront
les cartes naissantes. Rciproquement, plus grand soit 1 , le plus profond sera la hirarchie.
51

Chapitre 4. Prtraitement et Dcouverte des Comportements types

F. 4.4 Le premier niveau dabstraction est obtenu en crant un ensemble de vecteurs prototypes en
utilisant, par exemple, SOM. Le Clustering de la SOM cre le deuxime niveau dabstraction.

4.1.6 Clustering dune SOM

tel-00917605, version 1 - 12 Dec 2013

4.1.6.1 Principe
La carte auto-organisatrice (SOM) [105] est particulirement approprie lexploration de donnes
parce quelle a de bonnes proprits de visualisation. Elle cre un ensemble de vecteurs prototypes reprsentant les donnes et effectue une projection prservant la topologie des prototypes de lespace dentre
sur une grille de dimension infrieure. Cette grille ordonne peut tre employe comme outil de visualisation pour montrer les diffrentes caractristiques de la SOM (et ainsi des donnes), par exemple, la
structure des clusters [179]. Cependant, les visualisations peuvent seulement tre employes pour obtenir
des informations qualitatives. Pour produire une description quantitative des proprits des donnes, des
groupes intressants dunits de la carte doivent tre choisis parmi la SOM. Lexemple le plus vident
dun tel groupe est la carte entire. Tandis que ses proprits sont intressantes, des rsums bien plus
utiles peuvent tre prpars si la SOM (et ainsi les donnes) se composent rellement de plusieurs rgions
spares. Une autre option devrait considrer toutes les units de la carte individuellement, mais dans le
cas de grandes cartes, ceci pourrait avoir comme consquence un grand nombre de rsums. Ainsi, pour
pouvoir utiliser efficacement linformation fournie par le SOM, on aimerait pouvoir regrouper les units
de la carte. Le clustering est ainsi effectu deux niveaux, o les donnes sont dabord groupes en
utilisant SOM, et puis, les units de la SOM sont elles aussi regroupes. La figure (4.4) illustre cette
approche.
Dabord, un grand ensemble de prototypes (beaucoup plus grand que le nombre prvu de clusters)
est form en utilisant SOM. Les prototypes peuvent tre interprts en tant que "protoclusters", qui sont
combines dans la prochaine tape pour former les clusters rels. Lavantage principale de lapproche
deux niveaux est la rduction du cot (temps dexcution). Mme avec un nombre relativement petit dexemples, beaucoup dalgorithmes (en particulier les algorithmes hirarchiques) deviennent lourds.
Pour cette raison, il est recommand de grouper un ensemble de prototypes plutt que de faire le clustering directement sur les donnes [178]. Considrons le Clustering de N vecteurs en utilisant K-means.
Ceci implique de faire plusieurs preuves de clustering avec diffrentes valeurs de K. Le cot dexcution
P max
est proportionnel Ck=2
Nk , o Cmax est le nombre maximum de clusters choisi. Quand un nombre de
P
prototypes est utilis comme phase intermdiaire, la complexit sera proportionelle N M + k MK, o
M est le nombre de prototypes.
4.1.6.2 Rglage de k
La mthode utilise par lalgorithme
K-moyenne est la suivante : tout dabord il fixe un nombre

maximum de clusters crer K = N o N est la taille de la carte cre par SOM (i.e., par exemple
k = 5 pour une carte 55). Ensuite, il commence faire le Clustering pour m allant de 2 K. Pour chaque
52

4.2. Application

F. 4.5 Principe de la fentre glissante

tel-00917605, version 1 - 12 Dec 2013

valeur de m, il excute la procdure de clustering un nombre Maxiter , et il prend le meilleur Clustering


(pour chaque valeur de m) suivant la somme derreur quadratique (S S E). Aprs, il calcule lindice de
Davies-Bouldin (DB) (voir lquation 4.2) pour chaque Clustering et prend le minimum.

4.2 Application
Nous avons propos dans le chapitre prcdent (3.8) notre architecture de filtrage. Cette architecture
est compose de trois tapes princiales : prtraitement temporel, prtraitement spatial et classification.
Dans cette section nous allons traiter les deux premires phases laide essentiellement des mthodes de
clustering prcdentes. La troisime phase fera lobjet du chapitre suivant.

4.2.1 Prtraitement temporel


Le principe gnral consiste prendre un sous-ensemble des donnes brutes par exemple sur un
intervalle de temps, et extraire les variables caractristiques qui paraissent utiles pour modliser le
processus. On peut voir sur la figure 4.5 le principe gnral, appel fentre temporelle glissante qui
permet de passer des donnes brutes aux caractristiques utiles la modlisation.
Une attaque est souvent caractrise par une srie dvnements conscutifs tentant de violer la
politique de scurit dune machine ou dun rseau. Pour dtecter un tel scnario, nous nous plaons
dans un mode de dtection pseudo-rel, en effectuant une synthse des diffrents types dalertes gnres
par le NIDS pour chaque couple (IP source , IPdestination ) pendant une fentre temporelle.
4.2.1.1 Choix de la fentre
En gnral, les attaques sont diffrentes par nature. Une caractrisque commune entre toutes les attaques est que ce sont des sries dvnements conscutifs qui se droulent dans un intervalle de temps.
Le choix de lintervalle de temps utiliser pour excuter le processus de dtection dpend de la nature
des attaques et doit tre un paramtre dynamique et configurable par loprateur de scurit. Certaines
attaques comme les scans des ports (par exemple) o le dtecteur essaye de voir X paquets TCP ou UDP
envoys nimporte quel nombre de combinaisons hte/port partir dune source unique en Y secondes,
o X et Y sont deux valeurs dfinies par lutilisateur. Ici, la valeur Y est en gnral trs petite. Dautres
attaques (stealthy probes) peuvent prendre plusieurs heures pour ne pas tre repres par un NIDS. Donc,
le choix de la fentre de dtection dpend de la nature du problme surveiller et il est dynamiquement
configur par ladministrateur suivant ses besoins. Notre module de prtraitement temporel a t developp de facon que la taille de la fentre et loffset soient des paramtres redfinissables par loprateur.
53

Chapitre 4. Prtraitement et Dcouverte des Comportements types

tel-00917605, version 1 - 12 Dec 2013

T. 4.3 Extrait des donnes avant la phase daggrgation


Date

Source

Destination

14 :36 :37
14 :37 :35
14 :37 :47
14 :37 :51
14 :38 :11
14 :39 :16
14 :40 :25
14 :40 :48
14 :41 :12

52.252.19.137
166.60.229.245
57.77.111.88
166.40.120.72
166.40.120.72
166.40.120.72
189.138.192.11
189.138.192.11
166.40.120.176

189.195.45.71
189.195.45.196
189.195.45.196
189.195.45.71
189.195.45.71
189.195.45.71
189.195.45.196
189.195.45.196
189.195.45.71

type dalerte
VIRUS .pif file attachment
Attack responses 403 Forbidden
WEB-CGI finger access
VIRUS .exe file attachment
VIRUS .bat file attachment
VIRUS .scr file attachment
WEB-MISC http directory traversal
WEB-MISC http directory traversal
VIRUS .pif file attachment

# alerte

1
2
3
4
5
6
7
7
1

Les donnes que nous utilisons, dcrites dans le chapitre prcdent (3.8.2), contiennent des attaques
dont la dure varie dune facon norme allant de 2 secondes (pour le scnario 1) 9 heures (pour le
scnario 6). Notre expert de scurit a determin la longueur de la fentre 2 heures et loffset de ractualisation 10 minutes pour avoir un bon compromis entre la dure minimale ncessaire pour dtecter
les scnariis potentiels dattaque et une dure maximale au del de laquelle le systme est noy par les
alertes.
4.2.1.2 Aggrgation des donnes
Nous commencons par le journal des alertes gnres par SNORT. Ce fichier contient des informations pour chaque connexion comme la date, le type dalerte gnr, lIP/port source, lIP/port destination, le protocole, lACK 4 , etc. Nous ne tenons pas compte de la valeur du port externe (jug non
significatif par notre expert) ni du port interne ou du protocole (trs corrls avec le type dalerte gnr par le NIDS). A partir de ce fichier, nous comptabilisons -pour la fentre de temps considre - le
nombre dalertes de chaque type pour chaque valeur du couple (IP source ; IPdestination ). En dautre termes,
nous rsumons tout le trafic observ allant dune IP source vers une IPdestination dans une fentre de temps
particulire (ti ).
Sachant que nos donnes contiennent M = 406 types dalertes diffrents, le vecteur sommaire (ou
vecteur caractristque) obtenu sera de la forme suivante :
X(ti , IP s , IPd ) = (#alerte1i , #alerte2i , . . . , #alerte ji , . . . , #alerte Mi )
o #alerte ji est le nombre doccurence dalertes de type j dans la fentre temporelle ti pour le
couple de machines en connexion (IP s , IPd ).
Exemple La table 4.3 montre un extrait du fichier principal qui est le point de dpart du systme de
filtrage. Cette table contient 9 connexions de 6 IP source diffrentes vers 2 IPdestination diffrentes et dans
laquelle il y a 7 types dalertes diffrents. Dans cet exemple, nous prenons une fentre mobile de 3
minutes et un offset de 45 secondes.
Aprs la phase daggrgation, nous obtenons un nouveau fichier de 3 fentres mobiles comme indiqu par la table 4.4. Chaque fentre mobile ti contient les vecteurs sommaires de chaque couple
(IP source , IPdestination ) dont les attributs sont les diffrents types dalertes gnrs durant cet intervalle de
temps.
4

54

Acknowledgment

4.2. Application
T. 4.4 Les donnes rsumes aprs la phase daggrgation

t1

t2

tel-00917605, version 1 - 12 Dec 2013

t3

Cumul dalertes de type


1 2 3 4 5 6 7

Source

Destination

52.252.19.137
166.60.229.245
57.77.111.88
166.40.120.72

189.195.45.71
189.195.45.196
189.195.45.196
189.195.45.71

1
0
0
0

0
1
0
0

0
0
1
0

0
0
0
1

0
0
0
1

0
0
0
1

0
0
0
0

57.77.111.88

189.195.45.196

166.40.120.72

189.195.45.71

189.138.192.11

189.195.45.196

0
0
0

0
0
0

1
0
0

0
1
0

0
1
0

0
1
0

0
0
2

166.40.120.72
189.138.192.11

189.195.45.71
189.195.45.196

166.40.120.176

189.195.45.71

0
0
1

0
0
0

0
0
0

0
0
0

1
0
0

1
0
0

0
2
0

4.2.1.3 Normalisation des donnes


Comme mentionn prcdemment, les vecteurs rsums X(ti , IP s , IPd ) caractrisent lactivit observe dans chaque fentre mobile de temps ti pour chaque couple de machines. En gnral, les administrateurs des grands rseaux cachent la plupart de leurs serveurs de laccs publique. Des serveurs
transitoires sont les portes de ces rseaux. Seuls les serveurs Web et DNS sont connus de lextrieur.
Donc, la plupart des tentatives dattaques sont orientes vers quelques machines parmi les centaines des
machines qui constituent les grands rseaux. Par exemple, dans nos donnes dexpriences, parmi 288
machines vises par des connexions durant 20 jours, 98% des vraies attaques sont sur deux serveurs
HTTP et POP3. Donc la plupart du trafic rseau est concentr sur quelques machines et par suite il y a
un grand dphasage entre les valeurs des attributs des vecteurs caractristiques contruits durant la phase
dagggation. Dautre part, une machine peut tre attaque dans une priode de temps et puis tranquille
dans une autre longue priode de temps.
Pour pouvoir prendre en compte le trafic moyen destination dune machine interne et comparer les
profils de deux machines internes, nous proposons de normaliser les donnes. Ensuite, nous calculons
#alerte j (IPd ) le nombre moyen dalertes de type j destination de la machine IPd .
PN
#alerte j (IPd ) =

i=1 #alerte j,i,d

j = 1, . . . , M

(4.8)

o :
#alerte j,i,d : est lalerte de type j dans la fentre mobile ti et pour la machine interne IPd .
N : le nombre des fentres mobiles ti o IPd est "vise".
M : le nombre des diffrents types dalertes.
Ensuite, on divise chaque type dalerte alert j,i,d par son moyen #alerte j (IPd ).

4.2.2 Prtraitement Spatial


Dans cette partie, nous travaillons partir du nombre dalertes (normalis) de chaque type gnr
pour chaque couple (IP s ; IPd ) en supposant que ce vecteur est reprsentatif du comportement de chaque
55

Chapitre 4. Prtraitement et Dcouverte des Comportements types

tel-00917605, version 1 - 12 Dec 2013

machine IP s destination de chaque machine interne (IPd ).


En partant du principe que ce comportement peut tre similaire pour plusieurs machines externes
(qui tenteraient le mme genre dattaque vers une mme machine interne), ou destination de plusieurs
machines internes (une mme attaque pourrait tre dirige vers plusieurs machines), nous allons utiliser
une technique de classification non supervise classique pour regrouper ces comportements en un certain
nombre de comportements-types. Les vecteurs dalertes normaliss (de taille M, nombre total dalertes
diffrentes gnres par le NIDS) sont tout dabord projets sur une carte auto-organisatrice de Kohonen
de taille rduite (NS OM NS OM ). Cette projection dans un espace plus petit conserve les proprits de
voisinage : deux vecteurs dalertes proches seront projets soit sur la mme case de la carte de Kohonen,
soit une case proche. Ltape suivante consiste ventuellement en lapplication de lalgorithme des Kmoyennes pour regrouper les cases de Kohonen proches. Cette tape nous permet dobtenir un nombre K
de comportements types. A lissue de cette tape, le comportement de chaque machine IP s destination
de chaque machine IPd dans une fentre temporelle est associ lun des K comportements types. Nous
pourrons donc faire une synthse du nombre de comportements types dtects destination de chaque
IPd .
4.2.2.1 Gravit des alertes
La premire tape de la phase de prtraitement spatial est la classification des alertes suivant leur dangerosit. Plusieurs paramtres permettent de qualifier le niveau de dangerosit (risque) dune alerte/groupe
dalertes. Il est important de bien saisir leur signification afin de grer correctement les alertes selon leur
niveau dimportance. Winteregg et al [186] ont distingu trois paramtres pour la dtermination du risque
dune alerte.
Limportance : Il sagit l dune valeur permettant de dfinir limportance dune machine sur le
rseau. En effet, un serveur Web sera souvent une ressource plus prcieuse pour une entreprise
quune imprimante rseau. Il est ainsi possible de dfinir limportance de chaque machine.
La priorit : Cette valeur permet de mesurer la gravit dune alerte ou dun groupe dalertes isols.
En effet, celle-ci ne tient aucunement compte de lenvironnement ou de lhte protger. Ce niveau
est donc uniquement dpendant de lalerte ou du groupe dalertes.
La fiabilit quune alerte nest pas un faux positif. En terme de risque, ce paramtre pourrait
sappeler la "probabilit". Celui-ci est dfini pour chaque alerte indpendante. Il est ainsi possible
de qualifier la probabilit que lalerte se produise.
Dans cette tude, nous ne tenons compte que du second paramtre. Notre expert de scurit a classifi
les types dalertes suivant leur priorit en trois niveaux : Low, Medium et High. A chaque niveau de
risque est associ pour chaque type dalerte i un coefficient de pondration ai . En effet, si #alerte j,i,d est
le cumul du type dalerte j ( j = 1, . . . , M = 406) dans la fentre de temps ti pour la machine IPd et {ai }
lensemble des coefficients de pondration alors le vecteur caractristique pondr sera de la forme :
X(ti , IP s , IPd ) = (a1 #alerte1,i,d , a2 #alerte2,i,d , . . . , an #alerten,i,d ).
Durant les expriences, nous avons test quatre types de pondration :
1. Niveau 0 : sans pondration (i.e., ai (Low)=1, ai (Medium)=1 et ai (High)=1).
2. Niveau 1 (linaire) : ai (Low)=1, ai (Medium)=2 et ai (High)=3.

3. Niveau 2 (quadratique) : ai (Low)=1, ai (Medium)= 10 et ai (High)=10.


4. Niveau 3 (quadratique) : ai (Low)=1, ai (Medium)=10 et ai (High)=100.
Notons ici que les alertes les plus dangereuses sont en gnral les moins frquentes.
56

(4.9)

4.3. Dcouverte de comportements-types par SOM et K-Moyennes

tel-00917605, version 1 - 12 Dec 2013

4.2.2.2 Dcouverte des comportements-types


La base de donnes resultante de la phase de prtraitement contient 59397 vecteurs caractristiques
de la forme indique dans lquation 4.9. Chacun deux caractrise lactivit (ou le comportement) observ sur le rseau entre deux machines (IP s , IPd ) pendant une fentre de temps mobile. Ces vecteurs
sont distribus sur 1217 fentres mobiles, parmi lesquelles 170 fentres contiennent les 16 scnariis des
attaques relles dcrites dans la section 3.8.2.
Nous partons ici du principe que ces comportements peuvent tre similaires pour plusieurs machines
attaquantes qui tentent le mme genre dattaque vers la mme machine attaque (ou vers plusieurs machines), et ainsi essayer de regrouper les comportements similaires.
La base des vecteurs de comportements est dcompose en deux partie : base dapprentissage et base
de test. La base dapprentissage est compose de 800 fentres mobiles et contient 10 scnariis dattaques.
La base de test est compose de 417 fentres mobiles et contient 6 scnariis dattaques.
Nous proposons dans les sections suivantes deux mthodes de clustering sur ces donnes : tout
dabord une carte de Kohonen (SOM) sur laquelle on peut aussi appliquer les K-moyennes, puis lalgorithme GHSOM.
Nous allons donc passer en revue les diffrents facteurs influant sur ces tapes : caractristiques de la
carte, nature de donnes, etc. Nous proposerons ensuite deux mthodes danalyse des clusters obtenus.

4.3 Dcouverte de comportements-types par SOM et K-Moyennes


La procdure de regroupement (Clustering) se droule en deux tapes. Tout dabord les donnes sont
projetes sur un nombre (en gnral grand) de clusters grce aux cartes de Kohonen (SOM). La deuxime
tape est de regrouper les prototypes ainsi obtenus en un nombre rduit de clusters par lalgorithme Kmoyennes.

4.3.1 Apprentissage
Choix des paramtres Les facteurs influant sur cette tape de dcouverte de comportements types se
divisent en quatre familles :
1. Les caractristiques de la carte (SOM) dcrites dans 4.1.5.1.
2. La nature des donnes : normalises ou non (4.2.1.3).
3. La pondration des donnes (4.2.2.1).
4. Le couplage entre SOM et K-moyennes dcrit en 4.1.6.
Caractristiques de la carte La dtermination dune carte de Kohonen dpend de plusieurs paramtres : (a) initialisation des vecteurs poids, (b) taille de la carte, (c) fonction de voisinage utilise et
enfin (d) algorithme utilis pour apprendre la carte.
Pour choisir le meilleur jeu de paramtres, nous avons lanc une srie dexprimentations sur notre
base dapprentissage en utilisant tous les choix possibles comme indiqu dans la figure (4.6).
Les vecteurs dentre sont les vecteurs rsums groups (et normaliss) durant la phase de prtraitement temporelle. Ces vecteurs sont projets dans la carte de facon squentielle (online) ou par lot
(batch) selon lalgorithme choisi, et le bmu est calcul en utilisant la distance euclidienne. Dans cette
implmentation, nous avons utilis la toolbox Matlab SOMToolbox [180].
La deuxime tape consiste appliquer lalgorithme des K-moyennes sur la carte obtenue comme
indiqu dans la figure (4.4).
57

Chapitre 4. Prtraitement et Dcouverte des Comportements types

Taille

Initialization

5*5

Neighborhood

Algorithm

Gaussian
Linear

10*10
15*15

Seq

Cutgauss
Buble

20*20

Random

Batch

EP

25*25

F. 4.6 Le jeu de paramtres utiliss pour SOM

tel-00917605, version 1 - 12 Dec 2013

T. 4.5 Les meilleurs rsultats obtenus pour chaque taille de la carte, QE :Quantization Error, TE :Topographic Error, DBI :Davies-Bouldin Index et K : nombre de clusters obtenu aprs application des
K-moyennes.
SOM
Taille

5*5
10*10
15*15
20*20
25*25

Algorithme

Initialisation

seq
batch
batch
seq
batch

linear
random
random
random
random

K-moyennes

Voisinage

gaussian
buble
buble
cutgauss
cutgauss

QE
7.52
7.31
6.87
6.69
6.84

TE
0.0017
0.0032
0.024
0.011
0.03

DBI
8.22
3.12
3.11
3.27
2.27

K
2
2
2
2
2

DBI
0.18
0.24
0.25
0.36
0.34

Le tableau (4.5) prsente les meilleurs rsultats obtenus pour chaque taille de la carte. Les autres
rsultats sont dtaills dans lAnnexe A.
Les rsultats obtenus sur ce jeu de paramtres prouvent que pour nimporte quelle taille de carte et
type dinitialisation et pour les deux algorithmes dimplmentation de SOM (batch et sequential), il y a
accumulation des donnes dans deux clusters. Pour tester linfluence de la forme de la carte, nous lancons
un autre jeu dexpriences sur des cartes qui nont pas des tailles carrs et sur deux formes (Rectangular
et Hexagonal). Dans ce jeu dexpriences, nous testons trois nouvelles tailles de carte (10*5, 15*10 et
20*15). Le tableau 4.6 illustre les meilleurs rsultats obtenus pour chaque taille de la carte. Ces rsultats
confirment aussi le rsultat prcdent, i.e. une accumulation dans deux clusters quels que soient les
paramtres utiliss.
Daprs ce qui prcde, nous pouvons conclure que le meilleure rsultat obtenu suivant lindice
minimum de Davies-Bouldin est pour la carte de taille (5*5) avec une initialisation linaire des vecteurs
poids et pour une fonction de voisinage gaussienne et un algorithme squentiel.
T. 4.6 Les meilleurs rsultats obtenus avec des grilles diffrentes et des cartes non carres.
SOM
Grille

Rect
Hexa
Rect
58

Taille

10*5
15*10
20*15

Algo

seq
seq
seq

Init

random
random
random

K-moyennes

Vois

gauss
gauss
gauss

QE
12.51
11.39
11.37

TE
0.001
0.008
0.01

DBI
4.95
4.59
2.96

K
2
2
3

DBI
0.36
0.2823
0.2881

4.3. Dcouverte de comportements-types par SOM et K-Moyennes


T. 4.7 Rsultats obtenus sur des donnes normalises.
SOM
Taille

Algo.

Init.

Vois.

5*5
10*10
15*15
20*20
25*25

seq
seq
seq
seq
seq

linear
linear
linear
linear
linear

gauss
gauss
gauss
gauss
gauss

QE
7.5189
7.1084
6.6818
6.53
6.3122

TE
0.0017
0.0117
0.01
0.0264
0.0125

DBI
8.22
5.99
3.048
3.224
2.95

T. 4.8 Rsultats obtenus sur des donnes non-normalises.

tel-00917605, version 1 - 12 Dec 2013

SOM
Taille

Algo.

Init.

Vois.

5*5
10*10
15*15
20*20
25*25

seq
seq
seq
seq
seq

linear
linear
linear
linear
linear

gauss
gauss
gauss
gauss
gauss

QE
1.7857
1.2389
0.9801
0.8313
0.7582

TE
0.0084
0.0056
0.018
0.0449
0.0525

DBI
4.108
3.840
2.333
1.885
1.515

Nature des donnes La nature des donnes utilises dans la tche de clustering joue un rle dominant
sur tous les autres facteurs dans cette tche. Deux sortes de donnes sont exprimentes : donnes normalises (4.2.1.3) et donnes sans normalisation. Ltude exprimentale sest faite sur diffrentes tailles
de carte avec les paramtres dj fixs (i.e., linear, gaussian, seq). Les tableaux 4.7 et 4.8 prsentent les
rsultats obtenus sur ces deux genres de donnes. De mme la figure 4.7 montre les rsultats obtenus
pour les trois indicateurs de qualit de Clustering QE, T E et DB dcrits dans 4.1.5 et 4.2.
Daprs ces rsultats, il est clair que lutilisation des donnes non-normalises a donn des meilleurs
rsultats en terme de qualit de Clustering. Dans la suite, nos tests seront restreints sur les donnes
non-normalises.
Pondration des donnes Pour tudier linfluence de la pondration des donnes sur la qualit du
clustering, nous avons lanc un jeu dexpriences sur des donnes avec les quatre niveaux de pondration.
Les rsultats obtenus sont prsents dans la section 4.3.2.1.
Couplage entre SOM et K-moyennes Le dernier facteur tudier est le couplage entre SOM et Kmoyennes. Ce couplage peut tre intressant et donner des bons rsultats dans quelques problmes, mais
il peut donner parfois des rsultats inverses selon le problme trait. La nature des donnes dentre joue
un rle primordial dans la qualit du Clustering quel que soit lalgorithme utilis. Dans la suite nous
prsentons les rsultats obtenus avec le couplage entre SOM et Kmeans pour deux tailles de carte (5*5,
7*7) avec diffrentes pondrations des donnes.
Les figures 4.8 et 4.9 prsentent les rsultats obtenus pour la projection des donnes dentre sur
deux cartes de taille 5*5 et 7*7. Pour chaque carte les rsultats sont prsents de gauche droite suivant
le niveau de pondration. Notons ici que la lettre "N" indique que cette case contient majoritairement
des donnes "Normales" et la lettre "A" pour les cases qui contiennent des donnes "Attaques" et les
cases blanches sont des cases vides. Les clusters crs par lalgorithme K-moyennes sont indiqus par
des couleurs diffrentes.
59

Chapitre 4. Prtraitement et Dcouverte des Comportements types

F. 4.7 Comparaison de la qualit de Clustering entre les donnes normalises et non-normalises


suivant les trois indicateurs (a) QE :Quantization Error (b) TE :Topographic Error et (c) DB :indice de
Davies-Bouldin

tel-00917605, version 1 - 12 Dec 2013

N
N

(b)

(a)
N

(c)

(d)

F. 4.8 Les cartes obtenues en projetant les donnes non-normalises sur une carte de taille 5*5 avec
(a) aucune pondration (b) une pondration de niveau 1 (c) une pondration de niveau 2 et (d) une
pondration de niveau 3.
Comme lindiquent les figures 4.8 et 4.9, les clusters fusionns par lalgorithme des K-moyennes
contiennent la fois des units de deux sortes normales et attaques. Ce mauvais regroupement est d
plusieurs raisons :
(a) La nature des donnes : Comme mentionn plusieurs endroits, les vecteurs dentres sont
des vecteurs de taille 406 et rsument le comportement rel entre deux machines dans le rseau
dans une fentre de temps. Or une grande partie de notre base de donnes contient des donnes
normales et par suite les caractristiques des vecteurs sont trs proches. Comme SOM preserve la
topologie de lespace dentre, alors les vecteurs prototypes crs sont trs proches aussi.
(b) K-moyennes : Nous avons signal dans 4.1.4 que lalgorithme des K-moyennes converge vers
un minimum local et pas vers un minimum global. A chaque convergence, lindice de DaviesBouldin est calcul et le regroupement correspondant la valeur minimale de DB est choisi.
Or, dans la pratique, il est prfrable demployer les valeurs dindice comme directive plutt
quune vrit absolue. Comme indiqu dans la figure 4.10, les courbes dindex ont plusieurs minima locaux. Chaque minimum local pointu dans la courbe de lindex de validit est certainement
important puisquil indique que laddition dun cluster a permis lalgorithme de grouper mieux
les donnes. Lindex DB minimum correspond un regroupement de deux ou trois clusters dans
la plupart des cas, tandis quil existe dautres valeurs de DB trs proches au prcdent mais qui
60

4.3. Dcouverte de comportements-types par SOM et K-Moyennes

N
A

N
A

A
N

N
A

N
A

(b)

(a)
A

tel-00917605, version 1 - 12 Dec 2013

(c)

(d)

F. 4.9 Les cartes obtenues en projettant les donnes non-normalises sur une carte de taille (7*7)
avec (a) aucune pondration (b) une pondration de niveau 1 (c) une pondration de niveau 2 et (d) une
pondration de niveau 3.
correspondent un regroupement des cases en un nombre plus grand de clusters.

Comme conclusion, les rsultats de lalgorithme K-moyennes sur les prototypes de SOM ne sont
pas encourageants car les regroupements obtenus fusionnent des cases de la SOM qui contiennent des
donnes htrognes. Ces regroupements nous semblent moins bons que les cases de la SOM elle-mme.
Alors, nous restreindrons notre tude sur les comportements dtects par SOM. Lanalyse de ces comportements fera le sujet des sections suivantes.

4.3.2 Analyse des comportements types obtenus


Lanalyse des clusters est constitue typiquement de deux problmes distincts : (1) la dtermination
du nombre de clusters prsents dans les donnes ; et (2) lassignement des donnes observes dans les
clusters convenables. La prcision du bon clustering est mesure par le pourcentage des donnes qui
sont bien classifies. En dautres termes, combien les donnes projetes dans une case ou cluster sontelles similaires ? et dans le cas de SOM, le pourcentage de similarit entre les cases voisines ? Dans les
sections prcedentes, nous avons dtermin de bons paramtres pour notre problme de clustering : une
carte de taille (5*5) cre partir des donnes non-normalises avec initialisation linaire des vecteurs
poids et une fonction de voisinage gaussienne. Cette carte constitue la base des analyses suivantes.
En admettant que chaque vecteur prototype dun cluster est le reprsentant des vecteurs projets
dans ce cluster, nous pouvons essayer dinterprter la carte obtenue en dterminant les variables les plus
significatives pour chaque vecteur prototype. La variable la plus significative est celle qui a la valeur
maximale et ainsi de suite. Alors, nous rangeons ces variables par ordre dcroissant et choisissons les
5 variables les plus fortes "Top(5)". Comme chaque variable correspond une alerte spcifique, nous
obtiendrons donc les alertes caractristiques de chaque cluster.
Rappelons ici que la carte est cre partir de la base dapprentissage qui contient 10 scnariis
dattaques. Le pourcentage des donnes attaques est infrieur 1% de la totalit de donnes. La base
de test contient 6 scnariis dattaques qui constituent aussi moins que 1% de la totalit des donnes de
test. Les scnariis dattaques et les alertes significatives de ces scnariis sont illustrs dans le tableau 4.9.
61

Chapitre 4. Prtraitement et Dcouverte des Comportements types

tel-00917605, version 1 - 12 Dec 2013

F. 4.10 Lindex de Davies-bouldin calcul pour le couplage SOM+Kmeans (a) carte de taille 5*5 (b)
carte de taille 7*7, en fonction de nombre de clusters. Dans chaque graphe laxe horizontal reprsente
le nombre des clusters et laxe vertical lindex DB. Chaque figure contient 4 courbes pour 4 niveaux de
pondration.
Pour chaque scnario, sont indiqus trois exemples des alertes significatives de ce scnario.
Parmi les scnariis il y en a deux (8 et 12) qui correspondent nimporte quelle alerte daprs notre
expert de scurit.
Dans la suite nous prsentons une analyse dtaille pour les cartes obtenues selon les 4 niveaux
de pondration (0, 1, 2 et 3) dtaills en 4.2.2.1. Cette analyse se droule en deux phases : analyse
quantitative et analyse qualitative.
4.3.2.1 Analyse quantitative
Dans cette tape danalyse, les rsultats obtenus sont prsents suivant trois indicateurs :
1. Dtection globale des scnariis dattaques : cet indicateur indique le nombre de scnariis dattaques qui sont (globalement) dtects, c..d projets dans des cases ou clusters classifis comme
attaque. Une case est classifie comme attaque si la frquence des points attaques projets est plus
grande que la frquence totale des points attaques dans toute la base.
Nous avons aussi considr dans cette tude quun scnario dattaque est projet dans un cluster si
la majorit de ses points (vecteurs) est projete dans ce cluster.
2. Points normaux bien classifis : le pourcentage de points normaux qui sont projets dans des cases
normales.
3. Points attaques bien classifis : le pourcentage de points attaques qui sont projets dans des cases
attaques.
Les figures 4.11, 4.12, 4.13 et 4.14 prsentent les cartes SOM cres pour tous les niveaux de pondration durant la phase dapprentissage et aprs la phase de test. La lettre "A" indique que cette case
ou cluster contient des donns de types attaque, "N" pour les cases normales et les cases blanches sont
des cases vides. Le tableau 4.10 donne les rsultats obtenus durant la phase dapprentissage. Ces rsultats montrent que la carte SOM a pu classifier les donnes suivant attaques et normales (98% des points
attaques sont dtects et 81% des points normales sont bien classifis pour les donnes pondres au
niveau 2). En plus, tous les scnariis dattaques (100%) sont globalement dtects et projets dans des
cases considres comme attaques. Lavantage de cette tape de classification est quelle donne ladministrateur de scurit une ide globale sur les vnements se droulant sur son rseau. Il faut noter ici
62

Scnario
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

type de scnario
Access to unauthorized page
Brute Force POP3
Brute Force POP3
Access to unauthorized page
Brute Force FTP
Crawler Web
Brute Force POP3
Vulnerability Scanner
Brute Force FTP
SNMP attack
Brute Force FTP
Vulnerability Scanner
Web attack > IIS
Brute Force POP3
Web attack (IIS) > Apache
MP3 exchange files via FTP

Alerte 1
Attack-Responses 403 Forbidden
Incorrect Password POP
Incorrect Password POP
Attack-Responses 403 Forbidden
Access FTP admin
Attack-Responses 403 Forbidden
Incorrect Password POP
*.*
Access FTP admin
SNMP AgentX/tcp request
Access FTP admin
*.*
WEB-IIS *.*
Incorrect Password POP
WEB-IIS *.*
MP3 files via FTP
Incorrect User POP
*.*
Access FTP backup
SNMP private access UDP
Access FTP backup
*.*
WEB-IIS *.*
Incorrect User POP
WEB-IIS *.*

Access FTP backup

Incorrect User POP


Incorrect User POP

Alerte 2

Alerte 3

*.*
* FTP *
SNMP *
* FTP *
*.*
WEB-IIS *.*
WEB-IIS *.*

WEB-IIS *.*

* FTP *

Autres ...

*.*
Access FTP test
SNMP request TCP
Access FTP test
*.*
WEB-IIS *.*

Access FTP test

T. 4.9 Les scnariis dattaques avec trois alertes significatives de ces attaques.

tel-00917605, version 1 - 12 Dec 2013

4.3. Dcouverte de comportements-types par SOM et K-Moyennes

63

Chapitre 4. Prtraitement et Dcouverte des Comportements types

tel-00917605, version 1 - 12 Dec 2013

F. 4.11 La carte SOM cre par des donnes sans pondration : (a) aprs lapprentissage et (b) aprs
la phase de test.

F. 4.12 La carte SOM cre par des donnes de niveau de pondration 1 : (a) aprs lapprentissage
et (b) aprs la phase de test.

F. 4.13 La carte SOM cre par des donnes de niveau de pondration 2 : (a) aprs lapprentissage
et (b) aprs la phase de test.

64

4.3. Dcouverte de comportements-types par SOM et K-Moyennes


T. 4.10 Rsultats de lanalyse quantitative durant lapprentissage de la carte SOM sur les quatre
niveaux de pondration : pourcentage de dtection des scnariis dattaques et de classification des points
normaux.
Niveau pon- scnariis bien Points
normaux Points
attaques
dration
dtects
bien classifis
bien classifis
0
80%
87%
81%
1
90%
80%
87%
2
100%
81%
98%
3
100%
91%
90%

tel-00917605, version 1 - 12 Dec 2013

T. 4.11 Rsultats de lanalyse quantitative durant la phase de test sur les quatre niveaux de pondration : pourcentage de dtection des scnariis dattaques et de classification des points normaux.
Niveau pondration
0
1
2
3

scnariis
dtects
67%
84%
67%
67%

bien

Points
normales
bien classifis
91.5%
85%
86.4%
90%

Points
attaques
bien classifis
50%
70%
60%
60%

que cette tape est une tape intermdiaire dans laquelle nous ne voulons pas dtecter des scnariis spcifiques dattaques, mais dcouvrir des comportements types qui aident dtecter les attaques relles qui
se droulent sur le rseau. Cette approche est similaire de ce point de vue lapproche comportementale
utilise dans les NIDS.
Pour valuer la performance des cartes ainsi cres, nous projetons des nouvelles donnes de test
sur ces cartes. Ces donnes contiennent six scnariis dattaques numrots de 11 16. Le tableau 4.11
prsente les rsultats obtenus. Les meilleurs rsultats sont obtenus pour la carte apprise avec les donnes pondres au niveau 1. Cinq parmi six scnariis (84%) sont globalement dtects, 70% des points
attaques sont bien classs et 85% des points normaux sont bien classs.

F. 4.14 La carte SOM cre par des donnes de niveau de pondration 3 : (a) aprs lapprentissage
et (b) aprs la phase de test.
65

Chapitre 4. Prtraitement et Dcouverte des Comportements types


T. 4.12 Les rsultats obtenus pour les 3 indicateurs pour la base dapprentissage sur tous les niveaux
de pondration.
Niveau de pondration
0
1
2
3

TOP(1)
70%
70%
70%
40%

TOP(3)
100%
90%
90%
50%

TOP(5)
100%
90%
90%
70%

T. 4.13 Les rsultats obtenus pour les 3 indicateurs pour la base de test sur tous les niveaux de
pondration.

tel-00917605, version 1 - 12 Dec 2013

Niveau de pondration
0
1
2
3

TOP(1)
33%
33%
33%
50%

TOP(3)
50%
83%
33%
50%

TOP(5)
83%
83%
50%
50%

4.3.2.2 Analyse qualitative


Dans cette section, nous allons analyser le contenu des cases obtenues pour indiquer la qualit des
comportements types detects et la pertinence entre les points projets. Comme cela a prcdemment
t mentionn, les caractristiques de chaque comportement type dtect sont dtermines partir des 5
"top" variables du vecteur prototype. Une fois ces caractristiques dtermines, lanalyse sera effectue
suivant trois indicateurs :
1. TOP(1) : pourcentage des scnariis dattaques qui sont projets dans des clusters dont la premire
caractristique est parmi les caractristiques principales du scnario.
2. TOP(3) : pourcentage des scnariis dattaques qui sont projets dans des clusters dont les trois
premires caractristiques sont parmi les caractristiques principales du scnario.
3. TOP(5) : pourcentage des scnariis dattaques qui sont projets dans des clusters dont les cinq
premires caractristiques sont parmi les caractristiques principales du scnario.
Les tableaux 4.12 et 4.13 contiennent les rsultats obtenus suivant les trois indicateurs indiqus cidessus pour les donnes dapprentissage et de test. Ces rsultats montrent que lapplication de SOM a pu
crer des clusters ou comportements types qui contiennent des donnes pertinentes. Les meilleurs rsultats sont obtenus par les deux cartes (niveau 0 et 1). Dans la suite nous allons analyser en dtail la nature
des clusters obtenus pour ces deux cartes que nous appellerons carte(0) et carte(1). Nous prsentons dans
lannexe (B) deux tableaux (B.1, B.2) qui dcrivent ladquation entre les scnariis dattaque et les 5
Top caractristiques des clusters correspondants pour les cartes de pondration de niveaux 2 et 3.
Carte 0 La figure 4.11 montre la carte SOM cre partir des donnes sans pondration (niveau 0).
Durant lapprentissage, tous les scnariis dattaques sont projets dans des clusters pertinents. Comme
le montre la figure, les scnariis (1,4,6 et 8) sont projets dans le cluster 5. Ces scnariis sont tous
des tentatives daccs une page interdite. Or le signe de ces attaques, comme indiqu dans le tableau
4.9 est "Attack-responses 403 Forbidden" qui est aussi la premire caractristique du cluster 5 (voir le
tableau A.15 ). De mme, les scnariis 2 et 3 sont des attaques de "Force Brute" contre un serveur POP.
5
Nous avons plac dans lannexe A des tableaux qui contiennent pour chaque cluster de la carte les cinq premires caractristiques.

66

4.3. Dcouverte de comportements-types par SOM et K-Moyennes

tel-00917605, version 1 - 12 Dec 2013

T. 4.14 Adquation(2
) entre les scnariis dattaques de la base dapprentissage (haut) et la base de
test (bas) et le TOP(i) caracteristique du cluster correspondant (carte 0).
#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

type de scnario
Access to unauthorized page
Brute Force POP3
Brute Force POP3
Access to unauthorized page
Brute Force FTP
Crawler Web
Brute Force POP3
Vulnerability Scanner
Brute Force FTP
SNMP attack
Brute Force FTP
Vulnerability Scanner
Web attack > IIS
Brute Force POP3
Web attack (IIS) > Apache
MP3 exchange files via FTP

cluster
5
24
24
5
13
5
25
5
13
22
13
5
5
25
5
13

Top(1)
2

2

2

2


2

2

2






2




Top(2)

2

2




2

2






2

2



Top(3)




2



2

2

2

2

2






Top(4)







2





2


2



Top(5)







2







2



ils sont projets dans le cluster 24 qui a comme TOP(1) et TOP(3) deux signes de ce genre dattaques.
Le scnario 10 est projet dans le cluster 22. Or le TOP(3) caractristique de ce cluster est "SNMP TCP
request" qui est un signe de cette attaque. Le scnario 7 est une attaque de "Force Brute" sur POP3. il
est projet dans le cluster 25 qui a les caractristiques TOP(1) et TOP(2) correspondantes cette attaque.
Les scnariis 5 et 9 sont des attaques de "Force Brute" contre un serveur FTP. Ils sont projets dans le
cluster 13. Ce cluster a la caractristique "Policy FTP anonymous login attempt" comme TOP(3) qui est
aussi un signe de ces attaques. Notons ici, que le cluster 13 est classifi comme normal, bien que ces
deux scnariis sont projets dans un cluster pertinent, ils ne peuvent pas tre dtecter comme "attaque"
car ils sont noys entre les "faux positifs".
Pour valuer la performance des comportements types, nous projetons sur la carte les donnes de
test qui contiennent six scnariis dattaques. Les scnariis 12, 13 et 15 sont tous projets dans le cluster
5. Les scnariis 13 et 15 sont deux attaques Web contre un IIS et par suite ils ont TOP(4) et TOP(5)
significatif. Le scnario 12 est un scanner de vulnrabilit qui correspond nimporte quelle alerte parmi
les 5. Le scnario 14 est projet dans le cluster 25. Or ce scnario est une attaque de "Force Brute" contre
un serveur POP3. Le signe de cette attaque correspond au TOP(1) et TOP(2) du cluster 25. Le scnario
11 est une attaque "Force Brute" contre un serveur FTP et le scnario 6 est un attaque dchange de
fichiers mp3 via FTP. Ces deux scnariis sont projets dans le cluster 13 qui est un cluster "normal", ils
ont le TOP(3) comme signe dattaque mais ils ne sont pas dtects du tout car ils sont noys entre les
faux positifs qui se trouvent dans le cluster 13.
Le tableau 4.14 prsente ladquation entre les scnariis dattaque et les Top(5) des clusters correspondants.
Carte 1 La figure 4.12 prsente la carte cre durant la phase dapprentissage. Ces donnes sont pondres par les coefficients de niveau 1. La premire remarque importante quon peut dduire de cette
figure que parmi les 10 scnariis de la base dapprentissage, il y en a 9 qui sont projets dans des cases
classes comme attaques. Seul le scnario 9 est mal classifi. Donc la carte a pu globalement classifier
67

Chapitre 4. Prtraitement et Dcouverte des Comportements types

tel-00917605, version 1 - 12 Dec 2013

T. 4.15 Adquation(2
) entre les scnariis dattaques de la base dapprentissage (haut) et la base de
test (bas) et le TOP(i) caracteristique du cluster correspondant (carte 1).
#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

type de scnario
Access to unauthorized page
Brute Force POP3
Brute Force POP3
Access to unauthorized page
Brute Force FTP
Crawler Web
Brute Force POP3
Vulnerability Scanner
Brute Force FTP
SNMP attack
Brute Force FTP
Vulnerability Scanner
Web attack > IIS
Brute Force POP3
Web attack (IIS) > Apache
MP3 exchange files via FTP

cluster
5
11
11
5
3
5
22
5
13
1
3
5
5
22
5
13

Top(1)
2

2

2

2


2

2

2




2


2




Top(2)




2



2



2

2

2


2



Top(3)







2


2


2

2


2



Top(4)







2




2



2



Top(5)







2




2



2



les donnes suivant attaques et normales. Les scnariis 1, 4, 6 et 8 sont 4 scnariis dattaques qui tentent
daccder une page interdite. Ces 4 scnariis sont tous projets dans le cluster 5. Comme indiqu dans
la table (A.2), la premire caractristique de ce cluster est "Attack-Responses 403 Forbidden" qui est
significative de ces attaques. De mme, les scnariis 2 et 3 sont des attaques de "Force Brute" contre
POP3. Ils sont projets dans le cluster 11. La premire caractristique de ce cluster est aussi un signe de
ces attaques. Seul le scnario 9 nest pas projet dans une classe approprie. Il est projet dans le cluster
13.
Pour les donnes de test, 5 scnariis dattaques parmi 6 sont projets dans des cases classifies comme
attaques. Les rsultats obtenus prouvent une grande pertinence des comportements types dj crs. Par
exemple, le scnario 11 qui est une attaque "Force Brute sur FTP" est projet dans le cluster 3. Dans ce
cluster est projet aussi le scnario 5 qui est aussi une attaque "Force Brute sur FTP". De plus, le cluster
(3) a comme top(2) la caractristique de ce scnario dattaque. Un autre exemple est le scnario 14 qui est
projet dans le cluster 22 o tait projet le scnario 7. Ces deux scnariis sont deux attaques de "Force
Brute sur POP3" et le cluster 22 a le signe "Incorrect User POP" comme top(1).
Le tableau 4.15 prsente ladquation entre les scnariis dattaque et les Top(5) des clusters correspondants.
En consquence, lapplication de la carte auto-organisatrice SOM sur les vecteurs qui rsument le
comportement observ pour les machines en connexion suivant les paramtres dj dtermins dans
cette tude, a permis de dcouvrir des comportements types trs pertinents qui permettent dune part de
donner ladministrateur de scurit une figure globale de ltat de son rseau (attaque ou non ?), ce
qui est similaire lapproche comportementale utilis dans les NIDS, et dautre part ces comportements
types sont des significatifs des scnariis spcfiques dattaques ; et cette approche est similaire de cette
face lapproche par scnario.
68

4.4. Dcouverte de comportements-types par GHSOM

4.4 Dcouverte de comportements-types par GHSOM

tel-00917605, version 1 - 12 Dec 2013

4.4.1 Motivation
Nous avons prsent dans la section 4.3.2 lapplication de la carte SOM sur notre problmatique.
Les meilleurs rsultats sont obtenus pour les donnes pondres avec les coefficients de niveau 1. Nous
avons dtect 70% des vraies attaques et filtr 85% des fausses alarmes. Or ces rsultats ne semblent pas
suffisantes pour un administrateur de scurit, surtout que nous navons pas dtect 30% des attaques.
Nous croyons que la carte SOM na pa pu suffisamment prsenter la structure interne des donnes, vue sa
nature statique et la taille de la carte qui doit tre prdfinie auparavant. Le besoin de la prdtermination
de la structure et la taille de SOM a comme consquence une limitation significative dans la carte finale.
Pour lever ces hypothses, nous prsentons dans cette section lapplication de la carte dynamique et
hirarchique GHSOM sur la mme problmatique. Les donnes utilises pour cette application sont les
mmes donnes utilises pour SOM avec la pondration du type 1. La phase dapprentissage de la carte
seffectue avec la mme base dapprentissage dcrite en 4.3.2. Comme mentionn dans la section ??,
la qualit du clustering de GHSOM est gouverne par deux paramtres m et u . Le premier contrle la
diffusion horizontale (dynamique) de la carte (augmentation des noeuds) dans le mme niveau. Le second
contrle la diffusion verticale (hirarchique) de la carte. Pour choisir le meilleur couple des valeurs de
(m ,u ), nous avons lanc un jeu dexpriences en faisant varier ces deux paramtres et calculant le
pourcentage de dtection des attaques et le pourcentage des "faux positifs". La classification des clusters
obtenus suivant normale ou attaque suit le mme principe que pour les cartes SOM. Pour implmenter
GHSOM nous avons utilis le toolbox GHSOM cr par Alvin Chan et Elias Pampalk de lAustrian
Research Institute for Artificial Intelligence- OFAI [145].

4.4.2 Analyse des rsultats


4.4.2.1 Analyse quantitative
Expansion horizontale Nous commencons par fixer le paramtre u = 0.03, et nous varions le paramtre m entre 0.4 et 0.1 pour tudier linfluence de lexpansion horizontale de la carte. Plus la valeur
de m est petite, plus la carte grandit. Le tableau 4.16 prsente pour chaque valeur de m larchitecture
de la carte obtenue. Pour chaque carte nous indiquons le nombre de niveaux obtenu, la taille de la carte
principale et le nombre de cartes obtenus dans le deuxime niveau. Ensuite, le tableau 4.17 et la figure
4.15 prsentent les rsultats de classification obtenus pour la base dapprentissage (app) et la base de
validation (test). La valeur de m = 0.3 a donn les meilleurs rsultats. Plus de 95% des points attaques
sont projets dans des clusters classifis comme attaques et moins de 8% des donnes normales sont mal
classifies.
T. 4.16 Influence de la variation du paramtre m sur larchitecture de la carte obtenue.
m

# de niveaux

0.4
0.3
0.2
0.1

0.03
0.03
0.03
0.03

2
1
1
1

# de cases dans le premier niveau


81
132
143
143

# de cartes dans le second niveau


2
0
0
0

Expansion verticale Pour tudier linfluence de lexpansion verticale (hirarchique) de la carte sur la
reprsentation de la structure des donnes, nous fixons cette fois m = 0.3 et nous varions u entre 0.01
69

Chapitre 4. Prtraitement et Dcouverte des Comportements types


T. 4.17 Les rsultats obtenus pour u = 0.03 et 0.4 > m > 0.1. TD : taux de dtection des attaques
et FP : pourcentage des faux positifs

tel-00917605, version 1 - 12 Dec 2013

m
0.4
0.3
0.2
0.1

u
0.03
0.03
0.03
0.03

TD(app)
88%
95.2%
95.2%
95.2%

FP(app)
6.6%
7.3%
13%
13%

TD(test)
88%
96%
96%
96%

FP(test)
10%
8.4%
8.7%
8.7%

F. 4.15 Les rsultats obtenus pour u = 0.03 et 0.4 > m > 0.1 : laxe dabscisse indique le
pourcentage des faux positifs et laxe dordonn indique le pourcentage de dtection des attaques
et 0.03. Plus petit est u , plus profonde sera la hirarchie. Le tableau 4.18 prsente pour chaque couple
de valeur le nombre de cartes obtenues dans chaque niveau de la hirarchie.
T. 4.18 Influence de la variation du paramtre u larchitecture de la carte obtenue.
m
u
# de niveaux # dunits dans le pre- # cartes dans le
mier niveau
deuxime niveau
0.3 0.03
1
132
0
0.3 0.02
2
132
2
0.3 0.01
2
132
5
Les rsultats obtenus sont prsents dans le tableau 4.19 et la figure 4.16. Le meilleure rsultat est
obtenu pour le couple de valeur (m = 0.3,u = 0.01).
A partir des rsultats obtenus, nous pouvons constater linfluence du raffinement de la carte par la
dgradation de la valeur du paramtre u . En effet, pour u = 0.03, la carte obtenue est constitue dun
seul parent avec 132 clusters. A ce niveau, le taux de dtection tait gale 95.2% et le "faux positif" tait
gal 7.3%. Le cluster 18 classifi comme "normal" contient 1.2% des vecteurs appartenant au scnario
dattaque 9. Ces vecteurs sont noys entre les donnes normales qui se trouvent dans ce cluster et ainsi
ils ne sont pas dtects et considrs comme des faux negatifs. La dgradation de u de 0.03 0.02, a
donn naissance deux cartes (enfants) partir de deux clusters (18 et 68) de la carte mre. La premire
carte (enfant) contient 90 clusters et lautre contient 12 clusters (figure 4.17). Cette extension a permis
disoler les vecteurs attaque du scnario 9 dans un seul cluster classifi comme attaque dans la nouvelle
carte. Par suite le pourcentage de la dtection des attaques a augment 96.4%.
De mme, la dgradation de u de 0.02 0.01 a provoqu lajout de 3 nouvelles cartes (enfants) dans
le deuxime niveau. Ces 3 nouvelles cartes sont cres partir du cluster 130 qui est classifi comme
"attaque" et qui contient 3.33% des donnes "normales" caches entre les vecteurs "attaques" du scnario
10 contenus dans ce cluster (voir figure 4.18). Cette projection a permis de sparer les donnes normales
70

4.4. Dcouverte de comportements-types par GHSOM


T. 4.19 Les rsultats obtenus pour m = 0.3 et 0.03 > u > 0.01.
m
0.3
0.3
0.3

u
0.03
0.02
0.01

TD(app)
95.2%
96.4%
96.4%

FP(app)
7.3%
7.38%
4%

TD(test)
96%
96%
96%

FP(test)
8.4%
4.7%
4.7%

tel-00917605, version 1 - 12 Dec 2013

des donnes attaques, de les distribuer sur un grand nombre de nouveaux clusters classifis tous comme
"normales", et de distribuer les vecteurs du scnariis 10 en deux nouveaux clusters classifis comme
"attaques". Cette manire dexpansion ou de raffinement a diminu les "faux positifs" de 3.38% (voir
tableau 4.19).

F. 4.16 Les rsultats obtenus pour m = 0.3 et 0.03 > u > 0.01.

4.4.2.2 Analyse qualitative


Lanalyse qualitative permet de mesurer la qualit des clusters obtenus lors de la phase de clustering.
Dans lanalyse quantitative, nous avons classifi les donnes (vecteurs) individuellement suivant "normal" ou "attaque", sans savoir si ces donnes partagent dautres caractristiques comme par exemple sils
sont parties dun ou plusieurs scnariis dattaques. Dans cette section, nous allons analyser la nature des
clusters importants suivant les indicateurs utiliss dans lanalyse faite pour SOM dans la section 4.3.2.2.
Les rsultats obtenus prsentent que tous les scnariis dattaques sont projets dans des clusters
pertinents. En dautres termes, le pourcentage de scnariis qui ont obtenu TOP(1) est 90% et TOP(3)
est 100%. Le tableau 4.20 exprime pour chaque scnario, le cluster o est projet et aussi le TOP(1)
caractristique de ce cluster 6 .
Il faut noter ici une remarque importante : le vecteur protoype de la plupart des clusters obtenus
contient comme TOP(1) la caractristique des scnariis qui y sont projets et les autres 4 caractristiques
sont nulles. Ceci implique que GHSOM a russi isoler les vecteurs de chaque scnario dattaque dans
un cluster appropri sans la prsence de bruits des autres scnariis dattaques ou des donnes normales.
Pour les donnes de test, 5 parmi 6 scnariis ont obtenu TOP(1). Seul le scnario 16 nest pas dtect
du tout. Donc 83% des scnariis dattaques sont projets dans des clusters pertinents (voir le tableau
4.20).
6

Seul le scnario 10 obtient TOP(3) comme caractristique

71

Chapitre 4. Prtraitement et Dcouverte des Comportements types

tel-00917605, version 1 - 12 Dec 2013

F. 4.17 Expansion verticale de la carte mre dans le premier niveau grce la dgradation de u de
0.03 0.02.

F. 4.18 Expansion verticale de la carte mre dans le deuxime niveau grce la dgradation de u
de 0.02 0.01

4.4.3 Discussion
Lalgorithme GHSOM prsent ci-dessus utilise le concept de base de SOM mais possde une structure dynamique et hirarchique qui est gnre durant le processus dapprentissage. La diffrence principale entre les deux mthodes est que SOM essaye dadapter les donnes une structure prdtermine
par auto-organisation de ces vecteurs prototypes le plus possible suivant ses frontires fixes. Avec GHSOM, les frontires horizontales et verticales sont extensibles, par consquent, lensemble des donnes
peut gnrer de nouveaux noeuds ou cartes. Les rsultats obtenus par lapplication de GHSOM sur notre
problme a donn des rsultats trs intressants qui ont surpass ceux obtenus par SOM.
Le tableau 4.21 compare les rsultats obtenus par lapplication de GHSOM et SOM. Il est clair
que GHSOM a pu dtecter toutes les scnariis dattaques (100%) avec un pourcentage de faux positif
infrieur 5%.

4.5 Conclusion
Nous avons prsent, dans ce chapitre, lutilisation des mthodes de classification non-supervise
pour la dcouvertte de certains comportements types utiliser dans la phase de dtection des attaques
relles sur les rseaux.
72

4.5. Conclusion

tel-00917605, version 1 - 12 Dec 2013

T. 4.20 Adquation(A) entre les scnariis dattaques de la base dapprentissage (haut) et la base de
test (bas) et le TOP(1) caractristique du cluster correspondant.
#

Type de Scnario

Cluster

TOP(1)

access page denied

121

Attack-responses 403 forbidden

2


Brute force POP3

123

Incorrect Password POP

2


brute force POP3

123

Incorrect Password POP

2


Access to unauthorized page

121

Attack-responses 403 forbidden

2


brute force FTP

27

Access FTP test

2


Crawler Web

97

Attack-responses 403 forbidden

2


Brute force POP3

115

Incorrect User POP

2


vulnerability scan.

122

WEB-IIS _mem_bin access

2


brute force FTP

28

Access FTP admin

2


10

SNMP attack

130

Scan proxy attempt

11

brute force FTP

27

Access FTP test

2


12

Vulnerability scanner

81

Attack-responses 403 Forbidden access

2


13

Web attack

97

WEB-IIS cmd.exe

2


14

brute force POP3

114

Incorrect User POP3

2


15

Web attack

73

WEB-IIS*.*

2


16

Exchange MP3 files via FTP

18

Virus .bat file attachement

T. 4.21 Comparison des rsultas (donnes de test) obtenus par GHSOM et SOM : Taux de dtection
(TD), faux positifs (FP) et pourcentage des donnes dattaques bien dcrites par le Top(i) characteristique de leur projection.
Modle TD
FP
Top(1) Top(3) Top(5)
GHSOM96% 4.7%
90%
100% 100%
SOM
70% 15%
33%
83%
83%
Nous avons commenc par une brve introduction sur le Clustering et les mthodes utilises. Nous
sommes passs ensuite lapplication de quelques mthodes sur notre problmatique. Tout dabord,
nous avons trait une phase de prtraitement temporel dans laquelle nous avons illustr le choix des
fentres temporelles et tudi linfluence de la normalisation des donnes.
Ensuite, nous avons montr que lutilisation des cartes auto-organisatrices de Kohonen permet de
dcouvrir des comportements types significatifs des scnariis dattaques et donne ladministrateur une
ide globale sur les vnements qui se droulent sur le rseau.
Nous avons ensuite signal quelques limites rencontres en appliquant SOM. A partir de ces limites
nous avons appliqu une mthode alternative de SOM appele GHSOM. Cette mthode est caractrise
par une architecture dynamique et hirarchique qui peut sadapter la structure inhrente des donnes.
Les rsultats obtenus sont trs performants et surpassent celles obtenues par SOM.
Les comportements types ainsi dtects seront utiliss par des mthodes de classification supervise
comme les rseaux baysiens. Lapplication de ces mthodes sur ces comportements types fait lobjet du
chapitre suivant.
73

tel-00917605, version 1 - 12 Dec 2013

Chapitre 4. Prtraitement et Dcouverte des Comportements types

74

Chapitre

tel-00917605, version 1 - 12 Dec 2013

Dtection dAttaques
Nous avons montr dans le chapitre prcdent comment utiliser diverses techniques de clustering
pour dcouvrir un certain nombre de comportements types significatifs des scnarios dattaques ou normaux visant les machines internes dun rseau.
Ce chapitre sintresse maintenant la dtection relle des attaques sur le rseau. Nous proposons dutiliser les comportements types ainsi dtects pour raliser une sorte de filtrage des diffrentes
alarmes mises par le NIDS. Le filtrage dalarmes peut seffectuer grce des techniques de Classification supervise, comme les rseaux baysiens ou les machines vecteurs supports.

Sommaire
5.1
5.2
5.3
5.4
5.5

La Classification . . . .
Les Rseaux Baysiens
Les SVM . . . . . . . .
Application . . . . . . .
Conclusion . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

75
77
82
84
94

5.1 La Classification
5.1.1 Introduction
La classification est peut-tre la technique de fouille de donnes la plus familire et la plus populaire. Des exemples de classification incluent la reconnaissance des images et des formes, le diagnostic
mdical, la dtection de dfaut dans les applications industrielles, etc. Toutes les approches de classification assument une certaine connaissance sur les donnes. Souvent un ensemble dapprentissage est
utilis pour dterminer les paramtres du modle concern. Les donnes dapprentissage se composent
de paires dobjets dentre (typiquement vecteurs), et des sorties dsires. Le problme de classification
est prsent dans la dfinition suivante :
75

Chapitre 5. Dtection dAttaques


Dfinition 5.1 Etant donne une base de donnes D = {t1 , . . . , tn } des points (vecteurs) et un ensemble
de classes C = {C1 , . . . , Cm }, le problme de la classification est de dfinir une association f : D C
o chaque ti est assign une classe. Une classe, C j , contient prcisement les points associs : C j =
{ti | f (ti ) = C j , 1 i n, et ti D}.
Cette dfinition voit la classification comme une projection de la base de donnes sur lensemble des
classes. Notons que les classes sont prdfinies, et divisent la base de donnes entire. En gnral, le
problme de la classification se droule en deux phases :
1. cration dun modle spcifique partir de donnes dapprentissage ou en utilisant la connaissance
dexperts.

tel-00917605, version 1 - 12 Dec 2013

2. lapplication de ce modle sur les nouvelles donnes.


Comme discut dans [100], il existe trois mthodes principales pour rsoudre le problme de cration
du modle :
Identification des frontires. Ici la classification est effectue en divisant lespace dentre en
rgions o chaque rgion est associe une classe. Un exemple des techniques qui utilisent cette
mthode est les arbres de dcision.
Utilisation des distributions de probabilit. Pour chaque classe donne, C j , P(ti | C j ) est la
fonction de distribution de probabilit du point ti conditionnellement la classe. Si la probabilit
de chaque classe P(Ci ) est connue, alors P(C j )P(ti | C j ) est utilise pour estimer la probabilit de
la classe C j conditionnellement lexemple ti .
Utilisation de la probabilit postriori. Etant donne une valeur ti , nous voudrions dterminer
directement la probabilit P(C j | ti ) de la classe C j conditionnellement lexemple ti (probabilit
postriori). Une des approches de classification est de dterminer la probabilit postriori pour
chaque classe et assigner alors ti la classe avec la probabilit maximale. Les rseaux de neurones
sont un exemple de cette approche.

5.1.2 Classification binaire


La classification binaire est la tche de classifier les membres dun ensemble donn dobjets dans
deux groupes sur la base quils aient une certaine proprit ou pas. Quelques tches de classification
binaires typiques sont :
test mdical : pour dterminer si un patient a une certaine maladie ou pas (la proprit de classification est la maladie),
contrle de qualit dans les usines ; i.e. dcider si un nouveau produit est assez bon pour tre
vendu, ou sil est jet (la proprit de classification est assez bon),
dtection des intrusions sur les rseaux : dterminer si un venement ou une srie dvenements
constituent une attaque ou pas (la proprit de classification est lattaque).

5.1.3 Evaluation des classifieurs binaires


Pour mesurer la performance dun test mdical (par exemple), les concepts de sensibilit et spcificit sont souvent employs ; ces concepts sont aisment utilisables pour lvaluation de nimporte
quel classifieur binaire. Supposons que nous examinons certaines personnes pour dterminer la prsence
dune maladie. Certaines de ces personnes ont la maladie, et notre test indique quils sont positifs. Ils
sappellent les vrais positifs. Certains ont la maladie, mais le test indique linverse. Ils sappellent les
faux ngatifs. Certains nont pas la maladie, et le test indique quils ne lont pas - les vrais ngatifs.
Finalement, nous pourrions avoir des personnes en bonne sant qui ont les tests positifs -faux positifs-.
76

5.2. Les Rseaux Baysiens

tel-00917605, version 1 - 12 Dec 2013

La sensibilit (sensivity) est la proportion de personnes qui ont le test positif sur toutes les personnes positives examines ; cest : (vrais positifs) / (vrais positifs + faux ngatifs). Il peut tre vu
comme la probabilit que le test est positif tant donn que le patient est malade.
La spcificit (specificity) est la proportion de personnes qui ont le test ngatif sur toutes les
personnes ngatives examines ; cest : (vrais negatifs) / (vrais negatifs + faux positifs). Comme
la sensibilit, elle peut tre vue comme la probabilit que le test est ngatif tant donn que le
patient nest pas malade.
En thorie, la sensibilit et la spcificit sont indpendantes dans le sens quil est possible dobtenir
100% pour chacune. En pratique, il y a souvent un compromis obtenir entre les deux.
En plus de la sensibilit et de la spcificit, la performance dun test binaire de classification peut tre
mesure avec des valeurs prdictives positives et ngatives. la valeur positive de prdiction rpond la
question "quelle est la probabilit que jai vraiment la maladie, et que mon rsultat de test tait positif ?".
Il est calcul comme (vrais positifs) / (vrais positifs + faux positifs) ; cest--dire, cest la proportion des
vrais positifs parmi tous les rsultats positifs. La valeur ngative de prdiction est la mme, mais pour
des ngatifs , naturellement. La table 5.1 illustre la relation entre ces concepts pour lexemple dun test
mdical.
T. 5.1 Msures utiliss pour lvaluation dun classifieur binaire (cas dun test mdical)
Rsultat de
test

Positif
Ngatif

Vrai
Vrai Positif
Faux Ngatif

Sensitivit

Faux
Faux Positif
vrai Ngatif

Specificit

valeur de prdiction(+)
valeur de prdiction (-)

5.2 Les Rseaux Baysiens


Les modles graphiques probabilistes (et plus prcisment les rseaux baysiens) sont des outils de
reprsentation des connaissances permettant de prciser graphiquement les dpendances probabilistes
entre les variables [147]. Ils sont le mariage entre la thorie des probabilits et celle des graphes. Les
rseaux baysiens fournissent des outils intuitifs et naturels pour traiter des problmes dans lesquels
lincertitude et la complexit des donnes jouent un rle important. Les rseaux baysiens sont capables
de combiner les connaissances fournies par des experts avec les connaissances extraites de donnes
relles.
Ainsi, un rseau baysien reprsente un ensemble de variables avec une distribution de probabilit
jointe avec des suppositions explicites dindpendance. Il est dfini par [137] :
un graphe acyclique orient G, G = (X, E), o X est lensemble des noeuds de G, et E lensemble
des arcs de G,
un espace probabilis fini (, Z, p),
un ensemble de variables alatoires associs aux noeuds du graphe et dfinies sur (, Z, p), tel
que :
Pr(X1 , . . . , Xn ) =

n
Y

Pr(Xi | Pa(Xi ))

(5.1)

i=1

o Pa(Xi ) est lensemble des parents de Xi dans le graphe G.


77

Chapitre 5. Dtection dAttaques

tel-00917605, version 1 - 12 Dec 2013

5.2.1 Infrence dans les rseaux baysiens


Si nous appelons "connaissances" les relations entre les variables qui sont valables quelle que soit la
situation, et "information" les faits dcrivant une situation donne, linfrence est ce qui nous permet de
passer dun modle de connaissances et dune situation une conclusion [138].
Une fois le rseau baysien construit ( partir de connaissances de lexpert, des donnes, ou dune
combinaison des deux approches), tout calcul portant sur la distribution de probabilit associe ce
rseau relve de linfrence. Les mthodes de calculs sont plus ou moins complexes suivant la complexit
du graphe, cest dire selon le niveau de factorisation de la distribution de probabilit.
Linfrence peut tre interprte comme la propagation de certaines observations dans le rseau, ce
qui est un problme difficile. [33] a montr que le problme dinfrence est NP-complet.
Les mthodes dinfrence dans un rseau baysien se partagent en deux grandes familles de mthodes, les mthodes directes et les mthodes approches. Les mthodes directes consistent calculer
directement les distributions de probabilits qui nous intressent en se basant sur le thorme de Bayes
et le thorme dindpendance graphique. Citons par exemple [84, 143, 163] qui ont dvelopp un algorithme inversant les arcs dans la structure du rseau jusqu ce que la rponse la requte probabiliste
donne puisse tre directement calcule partir du graphe. Dans ces algorithmes, chaque renversement
dun arc consiste en lapplication du thorme de Bayes.
[147] a propos lalgorithme dinfrence le plus connu (Message Passing) dans les arbres et les polyarbres. Pour travailler avec un graphe plutt quun poly-arbre, [113, 92, 43] ont cr un algorithme qui
transforme le rseau baysien en un arbre (Junction Tree ou arbre de jonction) o chaque noeud correspond un sous-ensemble de variables du rseau. Lalgorithme exploite ensuite plusieurs proprits
mathmatiques de larbre obtenu pour calculer linfrence demande (i.e., de faon simplifie, en appliquant lalgorithme de Pearl larbre de jonction). La complexit de cet algorithme est exponentielle
suivant la taille dune clique7 . Notons que lalgorithme de larbre de jonction est lun des plus rpandus
dans les outils informatiques actuels. Pour un dveloppement avanc des algorithmes dinfrence exacte,
nous conseillons au lecteur de sorienter vers [164].
Pour les rseaux baysiens de trs grande taille ou fortement connects, il est prfrable dutiliser
des algorithmes dinfrence approche. Certaines mthodes dapproximation cherchent estimer la distribution de probabilit complte reprsente par le rseau baysien en effectuant des tirages alatoires
avec des lois simples. Lapproche la plus simple est celle de Monte-Carlo8 . Pour une explication dtaille
des mthodes de Monte Carlo, nous conseillons au lecteur les travaux de [139, 73] qui utilisent des techniques dchantillonnages. Dautres approches dveloppes plus rcemment utilisent des approximations
variationelles [?].

5.2.2 Apprentissage dans les rseaux baysiens


Daprs ce qui est dfini prcdemment, un rseau baysien est constitu la fois dun graphe (aspect
qualitatif) et dun ensemble de probabilits conditionnelles (aspect quantitatif). Lapprentissage dun
rseau baysien doit donc rpondre aux deux questions suivantes :
Comment estimer les lois de probabilits conditionnelles ?
Comment trouver la structure du rseau baysien ?
Donc, le problme dapprentissage est spar en deux parties :
Lapprentissage des paramtres, o la structure du rseau a t fixe, et o il faudra estimer les
probabilits conditionnelles de chaque noeud du rseau.
7

Une clique est dfinie par un ensemble de noeuds compltement connects. Elle est maximale si lajout de nimporte quel
autre noeud lensemble nest plus une clique.
8
Comme dans le cas de linfrence exacte, linfrence approche est encore un problme NP-complet [39]

78

5.2. Les Rseaux Baysiens


Lapprentissage de la structure, o le but est de trouver le meilleur graphe reprsentant la tche
rsoudre.
Comme tout problme dapprentissage, diffrentes techniques sont possibles selon la disponibilit
des donnes concernant le problme traiter, ou dexperts de ce domaine. Ces techniques peuvent se
partager en deux grandes familles :
apprentissage partir de donnes, compltes ou non, par des approches statistiques ou baysiennes,
acquisition de connaissances avec un expert de domaine.

tel-00917605, version 1 - 12 Dec 2013

5.2.2.1 Apprentissage de structure


Dans le cas le plus simple, un rseau baysien est dtermin par un expert et utilis pour faire linfrence. Dans dautres applications, la tche de dfinir le rseau est trop complexe pour des humains.
Dans ce cas, la structure de rseau doit tre apprise partir des donnes. Supposant que les donnes sont
produites dun rseau baysien et que toutes les variables sont mesures chaque itration, la mthode
de recherche base sur loptimisation peut tre employe pour trouver la structure du rseau. Cela exige
une fonction de score et une stratgie de recherche [34, 23, 80]. Une fonction de score commune est
la probabilit postrieure de la structure sachant les donnes dapprentissage. Le temps ncessaire pour
une recherche exhaustive de la structure qui maximise le score est superexponentiel avec le nombre de
variables ce qui est donc infaisable en pratique ds que le nombre de noeuds est suprieur 10.
Lapproche standard est donc dutiliser une procdure de recherche locale, comme par exemple
greedy hill-climbing [80] qui parcourt lespace de recherche en changeant un seul arc chaque itration [55]. Un algorithme global de recherche comme Markov chain Monte Carlo peut viter de tomber
dans des minima locaux [126].
5.2.2.2 Apprentissage des paramtres
Afin de dterminer entirement le rseau baysien et reprsenter ainsi la distribution jointe de probabilit, il est ncessaire de spcifier pour chaque noeud X la distribution de probabilit locale sachant
les parents de X. La distribution de probabilit de X sachant ses parents peut avoir plusieurs formes.
Il est commun de travailler avec des variables discrtes ou des variables continues avec des lois conditionnelles supposes gaussiennes. On peut distinguer ici deux cas : donnes compltes (i.e. totalement
observes) et donnes incompltes. Dans le cas o toutes les variables du domaine sont observes, la
mthode destimation des paramtres la plus connue et la plus utilise est lestimation statistique. Cette
approche, appele Maximum de vraisemblance (MV), consiste estimer la probabilit dun vnement
par la frquence dapparition de lvnement dans la base de donnes. Le principe de lestimation baysienne est quelque peu diffrent de lapproche par MV. Cela consiste rechercher le jeu de paramtres
posteriori (sachant que la base de donne a t observe) maximale (maximum a posteriori, MAP).
La maximisation directe de la vraisemblance (ou la probabilit postriori) est souvent complexe
sil y a des donnes incompltes [67]. Une approche classique ce problme est lalgorithme EM [48].
Lalgorithme EM sapplique la recherche des paramtres en rptant jusqu convergence les deux
tapes Esprance et Maximisation dcrites ci-dessous :
Esprance : estimation statistique des donnes manquantes, en calculant leur esprance suivant
les paramtres actuels du RB. Ce calcul est effectu par infrence (exacte ou approche) dans le
RB.
Maximisation : estimation des nouveaux paramtres du rseau partir des valeurs estimes
ltape prcdente, par exemple par Maximum de Vraisemblance ou par Maximum A Posteriori.
79

Chapitre 5. Dtection dAttaques

F. 5.1 Rseau baysien naf (BN)

tel-00917605, version 1 - 12 Dec 2013

F. 5.2 Rseau baysien naf augment (par un arbre)

5.2.3 Structures de rseaux baysiens pour la classification


Dans les tches de classification, une variable prcise correspond la classe quil faut "reconnatre"
partir des autres variables (les caractristiques). Dans la suite nous allons prsenter quelques structures
utilises dans la modlisation de notre problme.
5.2.3.1 Structure de Bayes nave
Le classifieur de Bayes naf correspond la structure la plus simple qui soit, en posant lhypothse que les caractristiques X1 . . . Xn1 sont indpendantes conditionnellement la classe Xc . Cela
nous donne la structure type de la figure 5.1. Cette structure, pourtant trs simple, donne de trs bons
rsultats dans de nombreuses applications [112].
5.2.3.2 Structure augmente (BNA)
Afin dallger lhypothse dindpendance conditionnelle des caractristiques, il a t propos daugmenter la structure nave en rajoutant des liens entre les caractristiques ([101],[67],[157]). Parmi les
diffrentes mthodes proposes pour augmenter le rseau baysien naf, citons T ANB (Tree Augmented Naive Bayes) qui utilise une structure nave entre la classe et les caractristiques et larbre optimal
entre les caractristiques. [71] a montr que la structure augmente - par un arbre - optimale sobtenait
facilement en utilisant MWS T 5.2.3.4 sur les caractristiques et en reliant la classe aux caractristiques
comme pour une structure nave.
5.2.3.3 Multi-net
Cette approche originale propose par [72] et [67] suppose que (1) les relations dindpendance
conditionnelle entre les variables ne sont pas forcment les mmes selon les modalits de la classe et (2)
la structure reprsentant les relations entre les caractristiques pour une modalit de la classe fixe est
souvent plus simple que la structure reprsentant les relations entre toutes les variables (caractristiques
et classe) [137]. Au lieu de rechercher la structure optimale englobant les n variables, classes comprises,
lapproche multi-net consiste chercher rc structures reliant uniquement les n 1 caractristiques, avec
une structure pour chaque modalit i de la classe (i [1 . . . rc ]), comme illustr dans la figure 5.3.
80

5.2. Les Rseaux Baysiens

tel-00917605, version 1 - 12 Dec 2013

F. 5.3 Approche multinet

F. 5.4 Modles latents


5.2.3.4 Maximum Weighted Spanning Tree (MWST)
Cet algorithme est propos initialement par Chow et Liu [29]. On recherche ici le meilleur rseau
baysien en forme darbre, cest--dire dans lequel chaque noeud a au plus un parent.Daprs Chow
et Liu, cette structure est obtenue en recherchant larbre couvrant de poids maximal o le poids dune
branche est mesur par :

W(Xi , X j ) =

X
ki ,k j

k
N(xiki , x j j ). log

N(xiki , x j j )
k

N(xiki ).N(x j j )

(5.2)

5.2.3.5 Structures de rseaux baysiens avec variables latentes


La connaissance apporte par un expert peut aussi se traduire par la cration de variables latentes
entre deux ou plusieurs noeuds, remettant en cause lhypothse de suffisance causale [121]. Cest le
cas par exemple pour des problmes de classification non supervise o la classe nest jamais mesure.
Il est donc possible de proposer lquivalent dun rseau baysien naf, le modle latent, mais o la
classe (reprsente en gris dans la figure 5.4-a) ne fait pas partie des variables mesures. Les modles
hirarchiques latents illustrs par la figure 5.4-b ont t suggrs par [19] pour la visualisation de
donnes et [142] pour la classification non supervise. Ils gnralisent la structure de modle latent en
faisant le parallle avec les arbres phylogntiques utiliss en bioinformatique ou avec les mthodes de
classification hirarchique.
Lapprentissage des paramtres pour le modle latent ou le modle hirarchique latent sappuie fortement sur lalgorithme EM. Cheeseman et al. ont ainsi dvelopp autoclass [27], un algorithme baysien
de classification non supervise utilisant lalgorithme EM. Attias et al. [10] ont utilis les approches
variationnelles popularises par Jordan et al. [93] pour gnraliser lalgorithme EM pour les modles
latents.
81

Chapitre 5. Dtection dAttaques

F. 5.5 Exemple des diffrents plans possibles qui peuvent sparer des points appartenant deux
classes diffrentes.

tel-00917605, version 1 - 12 Dec 2013

5.3 Les SVM


Une machine vecteurs de support (en anglais Support Vector Machine ou SVM) est une technique
de discrimination. Elle consiste sparer deux (ou plus) ensembles de points par un hyperplan. Selon
les cas et la configuration des points, la performance de la machine vecteurs de support peut tre suprieure celle dun rseau de neurones ou dun modle de mlange gaussien. Lide originale des SVM
a t publie par Vladimir Vapnik [177]. Elle est base sur lutilisation des fonctions dites noyaux qui
permettent une sparation optimale (sans problme doptimum local) des points du plan en diffrentes
catgories (le plus souvent deux, savoir les "positifs" et les "ngatifs"). Les fonctions noyaux ou machines noyaux constituent une classe dalgorithmes permettant dextraire de linformation partir de
donnes dans un cadre non paramtrique [25]. Lintrt suscit par ces mthodes tient dabord aux excellentes performances quelles ont permis dobtenir notamment sur les problmes de grande taille 9 . La
mthode fait appel un jeu de donnes dapprentissage, qui permet dtablir un hyperplan sparant au
"mieux" les points.

5.3.1 Donnes linairement sparables


Prenons un exemple pour bien comprendre le concept. Imaginons un plan (espace deux dimensions)
dans lequel sont rpartis deux groupes de points. Ces points sont associs un groupe : les points (+)
pour y > 0 et les points (-) pour y < 0. On peut trouver un sparateur linaire vident dans cet exemple :
il sagit videmment de laxe des abscisses. Le problme est dit linairement sparable.
La formulation mathmatique du problme est comme suit : A partir dun ensemble de points {xi , yi }
o i = 0 . . . l, xi est un vecteur de n dimensions, et yi est ou bien +1 ou 1, tels que y indique la classe
des points ; nous devons trouver lhyperplan :
< .x > +b = 0

(5.3)

o w est le vecteur normal au plan qui spare les donnes positives (y = +1) des donnes ngatives
(y = 1) de facon que les points satisfassent au critre suivant :
yi (< .x > +b)  1,

i = 1, 2, . . . , l

(5.4)

L pourrait exister beaucoup dhyperplans qui satisfont cette condition (le figure 5.5), ainsi qui est le
meilleur ? La rponse doit choisir celui qui peut tre associ la plus grande marge de rgion qui forme
la frontire entre les deux classes ce qui nous permet dobtenir le classifieur linaire de marge maximum.
Le calcul de la marge maximum aboutit un problme doptimisation qui peut tre transform par une
formulation de lagrange :
9
Dans cette tude, nous prsentons les SVM dune facon gnrale. Pour une tude dtaille sur lutilisation des machines
noyaux pour lapprentissage statistique, voir [25].

82

5.3. Les SVM

F. 5.6 Exemple des donnes non sparables tel que nous pouvons trouver quelques points mal classs.

X
1
L(w, b, ) = < . >
i [yi (< .x > +b) 1]
2
i=1

tel-00917605, version 1 - 12 Dec 2013

(5.5)

Nous devons minimiser L(w, b, ) ou en dautres termes maximiser le second terme de lgalit. Ce
problme peut tre rsolu en trouvant un vecteur qui maximize le second terme et minimiser le premier.
En drivant par rapport w et b et substituant les valeurs obtenues pour des drives nulles dans lgalit,
on obtient :
l
l
l
X
1 XX
L(w, b, ) =
yi y j i j < xi .x j >
(5.6)
i
2 i=1 j=1
i=1
P
avec un vecteur de poids w = li=1 i yi xi .
Si les donnes ne sont pas parfaitement sparables (figure 5.6), des variables dajustement sont introduites pour avoir une frontire dynamique entre les classes avec un taux derreur rduit, et la mme
P
mthode est applique avec peu de changement. Lide ici sera de minimiser ( 21 < . > +C i ) o :
P
i est une limite suprieure sur le nombre derreurs dapprentissage.
C est un paramtre qui contrle la diffrence entre lerreur et la marge. Plus C est grand, plus la
marge est petite et vice versa.

5.3.2 Donnes non-linairement sparables


Pour des problmes plus complxes, la caractrisation dun sparateur linaire peut tre trs complique et tout fait non optimale. Imaginons par exemple un plan dans lequel les points (+) sont regroups
en un cercle, avec des points (-) tout autour : aucun sparateur linaire en deux dimensions ne pourra
correctement sparer les groupes : le problme nest pas linairement sparable.
Afin de remdier au problme de labsence de sparateur linaire, lide des SVM est de reconsidrer le problme dans un espace de dimension suprieure. Dans ce nouvel espace, il existe un sparateur
linaire qui permet de classer au mieux nos points dans les deux groupes qui conviennent. On pourra ensuite projeter le sparateur linaire dans lespace dorigine pour visualiser le rsultat de la classification.
Le sparateur linaire obtenu est un hyperplan, cest dire la gnralisation n dimensions dune
ligne (1D) sparant un espace 2D, ou dun plan (2D) sparant un espace 3D.
Le changement despace se fait au moyen dune fonction rpondant au critre de Mercer. Ce critre
permet un changement "dans les deux sens" ce qui permet partir de lexpression de lhyperplan dans
lespace complexe de classer les lments dans lespace de description initial (figure 5.7). Ces fonctions
sont appeles fonctions noyaux.
Loptimisation de la marge prendra la mme forme de la formulation de Lagrange du problme mais
au lieu davoir le produit scalaire des vecteurs dans la formule ; elle est remplace par la fonction noyau
83

Chapitre 5. Dtection dAttaques

F. 5.7 Exemple de projection des donnes non linaires dans une forme linaire dans un nouvel
espace
elle-mme :
L(w, b, ) =

l
X

tel-00917605, version 1 - 12 Dec 2013

i=1

1 XX
i
yi y j i j K(xi .x j )
2 i=1 j=1
l

Les fonctions noyaux les plus utilises sont :


fonctions polynomiales :K(xi .x j ) = [xi .x j + 1]d

(5.7)

|x x |2

fonctions base radiale (RBF) :K(xi .x j ) = exp( i 2 j )


fonctions sigmodes :K(xi .x j ) = tanh((xi x j ) + c)

5.4 Application
Dans cette section, nous prsentons lapplication de deux mthodes de classification supervise :
les rseaux baysiens et les SVM sur notre problmatique. Nous commencons par la description des
variables utilises. Nous passons ensuite la description dtaille des algorithmes mis en oeuvre. Finalement, nous prsentons et discutons les rsultats obtenus.

5.4.1 Approches
Nous commencons partir des comportements types dtermins dans le chapitre prcdent (4.2.2.2)
pour dterminer une synthse de ces comportements types pour chaque machine interne (IPinterne ) durant
une fentre temporelle. Cette synthse est reprsentative de diffrents attaques potentielles visant chaque
machine interne dans cette fentre. Nous proposons deux manires pour raliser cette synthse :
(a) Expert1 : la distance entre chaque vecteur caractristique de type (ti , IPexterne , IPinterne ) qui
rsume le comportement de chaque couple de machines en connexion dans une fentre temporelle
et les centres des comportements types prsente le degr de similarit entre ce vecteur et les donnes qui y sont projetes. Alors, chaque vecteur a un degr de reprsentation ou similarit avec
chacun de ces comportements types. Par consquent, nous pouvons calculer pour chaque machine
interne le degr dappartenance chacun des comportements types. On obtient un vecteur de la
forme suivante :
X(windk , IPinterne ) = (

N
k,IP
X
j=1

o :
windk : fentre temporelle k,
84

dist2clust1 , . . . ,

N
k,IP
X
j=1

dist2clustn )

5.4. Application
clusti : le comportement type i,
dist2clusti : distance entre le vecteur S (windk , IPexterne , IPinterne ) et le centre du clusti ,
Nk,IP : nombre de vecteurs S (windk , , IPinterne ) visant la machine IPinterne dans la fentre temporelle windk .
Pour pouvoir comparer le profil de deux machines internes diffrentes, les vecteurs obtenus sont
normaliss en divisant chaque attribut par Nk,IP .
(b) Expert2 : dans la deuxime approche, chaque vecteur caractristique est reprsent par le bmu
du comportement o il est projet. Alors, nous pouvons calculer pour chaque machine interne le
nombre de comportements types associs dans une fentre temporelle. On obtient un vecteur de la
forme suivante :

tel-00917605, version 1 - 12 Dec 2013

Y(windk , IPinterne ) = [NBo f clust1 , . . . , NBo f clustn ] o NBo f clusti est le nombre de comportements types (i) dtects associ cette (IPinterne ) dans une fentre temporelle windk .
La synthse des comportement-types calculs pour chaque IPinterne est cense tre reprsentative des
divers types dattaques potentielles visant chaque machine interne du rseau dans une fentre temporelle. Nous proposons demployer ces informations pour dterminer si le rseau a t vraiment attaqu
(ATT=true ou false ?). Pour implmenter cette tche de classification, nous avons utilis deux outils de
classification : les rseaux baysiens et les SVM.

5.4.2 Application des Rseaux Baysiens


Rappelons que les rseaux baysiens sont des modles graphiques probabilistes utiliss pour la reprsentation des connaissances et le raisonnement dans lincertain [147, 91, 93]. Ils utilisent des graphes
acycliques dirigs pour reprsenter lindpendance conditionnelle entre les variables et les probabilits
conditionnelles (de chaque noeud sachant ses parents) pour exprimer lincertain. Lavantage de ce type
de rseaux se situe tout dabord dans lalgorithme dinfrence. Linfrence peut se faire dans nimporte
quel sens (et pas uniquement dans le sens entre-sortie). Lautre grand avantage des RB est de pouvoir
prendre en compte lincertitude que lon peut avoir sur les variables comme, par exemple, le fait que
certaines variables ne soient pas connues, ou soient ambigus.
Pour construire un rseau de ce type, il faut commencer par dfinir clairement les variables qui
nous intressent. La seconde tape consiste tablir le graphe dindpendance conditionnelle entre les
variables. Pour finir, il faut dterminer les distributions de probabilits conditionnelles de chaque noeud
du graphe.
Dfinition des variables Nous possdons quatre familles de variables : tout dabord les variables reprsentant ltat rel global du rseau (RESEAU), les variables reprsentants ltat rel des machines
internes locales (LOCi ), les mesures fournies par les deux experts (Xi et Yi ), le systme dexploitation
des machines locales (OS i ) et le type de serveur des machines locales (typei ). La liste de ces valeurs,
leurs types et les valeurs quelles peuvent prendre figurent dans la table (5.2). La densit de probabilit
conditionnelle des variables continues est suppose gaussienne.
Graphe dindpendance La structure (graphe) du rseau baysien est ou bien fixe lavance comme
le cas du rseau baysien naf, dtermine par un expert, ou apprise partir des donnes. Dans cette
tude, nous avons test plusieurs structures de rseaux baysiens correspondants la nature de la tche
implmente. Une tude dtaille sur ces structures est prsente dans la section 5.4.2.1.
85

Chapitre 5. Dtection dAttaques


Variable

Nature Valeurs possibles


discret Att, Norm
discret Att, Norm

tat rel global du rseau


tat rel de la machine interne (i)
Xi = {x1 . . . x25 } mesures obtenues pour les continu R
comportements types (Expert1) de IPinterne(i)
Yi = {y1 . . . y25 } mesures obtenues pour les continu R
comportements types (Expert2) de IPinterne(i)
OS i
Systme dexploitation de la discret Unix, Window
machine interne IPinterne(i)
typei
Le type de serveur install discret HTTP,
FTP,
sur cette machine IPinterne(i)
SMTP, ...
T. 5.2 Variables utiliss dans nos rseaux baysiens.

tel-00917605, version 1 - 12 Dec 2013

RESEAU
LOCi

Descriptif

Les probabilits conditionnelles De mme, les probabilits conditionnelles peuvent tre obtenues
partir dun expert ou tre apprises partir des donnes. Dans cette tude, toutes les probabilits sont
apprises partir des donnes en utilisant la mthode du maximum de vraisemblance MV.
Les donnes Les synthses des comportements types cacluls pour chaque machine interne par les
deux experts constituent les deux bases de donnes dexprimentations pour la phase de classification.
Chacune de ces deux bases est divise en deux parties : base dapprentissage et base de test. La base
dapprentissage contient 11763 vecteurs et la base de test est constitue de 3759 vecteurs.
Notons ici, que la majorit des donnes dans les bases dapprentissage et tests sont des donnes normales. Le pourcentage des vecteurs attaques est infrieur 1%. Ce pourcentage va beaucoup influencer
sur les performances obtenues.
5.4.2.1 Modlisation
Avant de dterminer la(es) structure(s) du(es) rseau(x) baysien(s) utilis(s), nous allons dfinir le
cadre dapplication des RB sur notre problmatique. Nous proposons deux approches. La premire "approche brute", consiste dtecter ltat global du rseau (i.e. attaque ou normal) sans savoir sur quelle
machine (IPinterne ) lattaque a t provoque. La seconde, appele "approche modulaire", consiste
dtecter une attaque localement (LOC) pour chaque machine du rseau en fonction du vecteur caractristique mesur par lun des deux experts et les caractristiques spcifiques de la machine locale. Les
dtections locales ventuelles sont ensuite utilises pour estimer sil y a une attaque globale sur le rseau.
5.4.2.2 Approche Brute
Dans cette approche, nous nous sommes intresss dtecter ltat global du rseau (i.e. attaque
ou normal) sans savoir sur quelle machine (IPinterne ) lattaque a t provoque. Nous avons test un
rseau baysien naf pour chaque expert. Chaque rseau est constitu dun noeud parent (RESEAU) et de
(A = NIPinterne X) noeuds enfants pour lexpert1 ou (A = NIPinterne Y) noeuds enfants pour lexpert2, avec
NIPinterne est le nombre de machines internes (figure 5.8). Ici, il existe une hypothse dindpendance forte
entre les noeuds enfants sachant ltat du noeud parent. Les variables mesures par les deux experts sont
86

5.4. Application

F. 5.8 Modlisation brute : utilisation dun rseau baysien naf pour dterminer sil y a une attaque
sur le rseau en fonction des comportements-types estims pour chaque machine IPinterne .

tel-00917605, version 1 - 12 Dec 2013

considres continues et suivent des lois gaussiennes avec des paramtres estims partir des donnes
dapprentissage. Le noeud parent est un noeud discret avec deux valeurs : attaque et normal (voir la table
5.2).
Nous cherchons ici calculer P(RES EAU | A). La formule de Bayes nous donne :
P(RES EAU | A) =

P(A | RES EAU) P(RES EAU)


P(A)

(5.8)

P(A | RES EAU) est la vraisemblance des donnes au rseau baysien et P(RES EAU) est la probabilit priori de la variable classe.
5.4.2.3 Approche Modulaire
Le second type de modlisation, plus modulaire, va incorporer dans la structure du rseau baysien
des informations spcifiques la tche rsoudre pour essayer damliorer les rsultats. Nous pouvons
par exemple prendre en compte la topologie du rseau informatique concern, le systme dexploitation
de chaque machine du rseau, le type de machine (serveur web, mail, etc . . . ). La figure 5.9 propose
un exemple de modlisation modulaire globale, o nous essayons de dtecter une attaque localement
(LOC) pour chaque machine du rseau en fonction du vecteur caractristique utilis prcdemment,
mais aussi de caractristiques spcifiques de la machine. Les dtections locales ventuelles sont ensuite
utilises pour estimer sil y a une attaque sur le rseau (ATT). Cette approche modulaire permet aussi de
localiser plus facilement quelles sont les machines vises par la tentative dattaque. Dans cette approche,
la structure de rseau baysien utilise est une structure hirarchique nave, dans laquelle le noeud global
(AT T ) est reli aux noeuds (LOC) des machines locales.
Chaque noeud local LOC constitue le noeud classe dun sous-rseau qui modlise ltat local dune
machine interne. La structure et les paramtres de ce sous-rseau sont les mmes pour toutes les machines
internes. Il suffit donc, de crer un sous-rseau gnrique et le recopier pour toutes les IPinterne . Dans la
figure 5.9, la structure des sous-rseaux locaux est une structure nave. Dautres structures ont aussi t
testes. Ces modles sont dtaills dans la section suivante.
5.4.2.4 Structures gnriques
Pour chaque machine locale (i.e. IPinterne ), nous avons notre disposition trois sources dinformations qui sont les variables utiliss pour la modlisation des classifieurs baysiens :
Les variables mesures fournies par lexpert1 et/ou les deux variables spcifiques lIPinterne et
ltat local de cette IPinterne . Dans ce cas lensemble de variables est = {Xi , OS i , typei , LOCi }.
Les variables mesures fournies par lexpert2 et/ou les deux variables spcifiques lIPinterne et
ltat local de cette IPinterne . Dans ce cas lensemble de variables est = {Yi , OS i , typei , LOCi }.
87

Chapitre 5. Dtection dAttaques

tel-00917605, version 1 - 12 Dec 2013

F. 5.9 Modlisation modulaire : utilisation dun rseau baysien hirarchique pour dterminer tout
dabord ltat (LOC) de chaque machine IPinterne du rseau en fonction des comportements-types estims
et des caractristiques de cette machine, puis finalement sil y a une attaque sur le rseau.
La combinaison entre les variables des deux experts et/ou les deux variables spcifiques lIPinterne
et ltat local de cette IPinterne . Alors = {Xi , Yi , OS i , typei , LOCi }
Il nexiste pas une structure optimale pour tous les problmes. Cependant, la nature du problme et
les donnes utilises jouent un rle important pour la dtermination de la structure approprie. Pour notre
problmatique, et comme nous ne possdons aucune information priori sur la relation entre les variables
(indpendantes ou pas), nous avons test plusieurs structures de RB pour les variables correspondants
aux deux experts. Ces structures sont groupes en deux catgories : structures prdfinies et structures
dtermines partir des donnes.
Structures Prdfinies Le procd du choix des structures des RB tests dans ce paragraphe est bas
sur les hypothses suivantes :
ltat local (LOCi ) de lIPinterne agit sur toutes les caractristiques mesures par les deux experts,
donc il y a relation entre le noeud LOCi et toutes les variables mesures.
la connaissance des variables mesures par un expert ne nous donne aucune connaissance sur celles
de lautre expert, et par consquent il y a indpendance entre ces deux groupes de variables (c..d
Xi est indpendant des Yi conditionnellement la classe).
La relation entre ltat local (LOCi ) dune machine interne et le systme dexploitation install sur
cette machine est changeable, c..d chacun parmi deux peut agir sur lautre. Certains systmes
dexploitation sont plus vulnrables un type dattaque que dautre. Aussi, la connaissance dune
certaine vulnrabilit dans un OS va agir sur la connaissance de ltat local de la machine. Ce
raisonnement reste aussi valable pour le serveur install sur cette machine.
A partir de ces hypothses, nous avons test les structures de RB suivantes :
Rseau Baysien Naf (BN) : Le classifieur de Bayes naf correspond la structure la plus simple
qui soit, en posant lhypothse que les caractristiques sont indpendantes conditionnellement la classe.
La figure 5.10 prsente les structures obtenues pour lexpert1, lexpert2 et la combinaison entre les deux.
Ici on cherche calculer la probabilit de la classe (LOC) sachant le vecteur caractristique () en
utilisant la rgle de Bayes.
P(LOC | ) =

P( | LOC) P(LOC)
P()

(5.9)

o est lensemble des mesures de lexpert1, de lexpert2 ou de la combinaison des deux. P( |


LOC) est la vraisemblance des donnes au modle et P(LOC) est la probabilit priori de la variable
classe.
88

5.4. Application

tel-00917605, version 1 - 12 Dec 2013

F. 5.10 Les trois structures naves cres par les variables de : (a) Expert1, (b) Expert2 et (c) Combinaison des deux.

F. 5.11 Les trois structures naves cres par les variables spcifiques chaque machine locale et les
variables de : (a) Expert1, (b) Expert2 et (c) Combinaison des deux.
Pour tudier linfluence des variables contextuelles (i.e. OS et type) sur les rsultats, les mmes
structures sont implmentes mais en intgrant cette fois les variables OS et type chaque structure. La
figure 5.11 prsente ces structures. Lquation calculer est alors :
P(LOC | , OS , type) =

P(, OS , type | LOC) P(LOC)


P(, OS , type)

(5.10)

o P(, OS , type) = P() P(OS ) P(type) comme ces variables sont considres indpendantes.
5.4.2.5 Structures dtermines partir des donnes
Dans ce paragraphe, nous prsentons lapplication de trois modles de rseaux baysiens utiliss pour
la classification et dont les structures sont dtermines partir des donnes. Ces modles, Tree Augmented Naive Bayesian (TANB), Maximum Weighted Spanned Tree (MWST) et Multinet sont prsents en
dtail dans la section 5.2.3.
La figure 5.12 prsente la structure obtenue par limplmentation de lalgorithme MWST. Les noeuds
de 1 25 sont les variables de lun des experts et le noeud LOC est le noeud classe. On recherche ici le
rseau baysien sous forme dun arbre, c..d dans lequel chaque noeud a au plus un parent.
Dans le modle Multinet, on obtient deux structures ; une cre par les donnes normales et lautre
cre par les donnes attaques. Ces deux structures sont cres par lalgorithme MWST. La figure 5.13
prsente les deux graphes obtenus pour les variables de lexpert1.
5.4.2.6 Rsultats
Avant de prsenter les rsultats obtenus, indiquons tout dabord les mesures de performance utilises
en fonction des indicateurs dj prciss dans le paragraphe 5.1.3. Ces indicateurs sont :
89

tel-00917605, version 1 - 12 Dec 2013

Chapitre 5. Dtection dAttaques

F. 5.12 Les structures obtenues par lalgorithme MWST pour les donnes de deux experts. Les noeuds
(1 25) sont les variables mesures par les experts et le noeud LOC est le noeud classe.
PCC : pourcentage de bonne classification (vrais positifs + vrais negatifs).
Hit Rate (HR) : pourcentage de dtection des points attaques (vrais positifs).
Faux Positifs (FP) : pourcentage des points normaux classifis comme attaques.
Un bon systme de classification binaire est celui qui donne un grand PCC. Par contre, pour un
systme de filtrage des alarmes issues dun NIDS ou en gnral pour un IDS, un bon systme de classification nest pas celui qui donne une valeur leve de PCC, mais celui qui peut dtecter dabord la
majorit des attaques (100% HR) tout en minimisant ensuite les faux positifs (0% FP).
Approche brute Le tableau 5.3 prsente les rsultats obtenus par lapplication de lapproche brute sur
les donnes de deux experts. Rappelons que le modle construit est celui du RB naf qui contient 7200
noeuds et le noeud classe (5.4.2.2). Nous cherchons ici dterminer ltat global du rseau en fonction
des variables mesures par les experts pour les machines internes du rseau. Ces rsultats montrent que
cette mthode de dtection nest pas efficace. Pour lexpert 1 (meilleurs rsultats) 50% des vraies attaques
ne sont pas dtectes et 38% des donnes normales sont mal classifies.
T. 5.3 Rsultats de limplmentation de lapproche brute sur les donnes de deux experts.
Expert
Expert1
Expert2

HR
50 %
45.65 %

FP
38.27 %
48.79 %

PCC
71.47 %
61.63 %

Approche modulaire
Influence des variables contextuelles (OS et type) Le tableau 5.4 prsente les rsultats obtenus
par limplmentation des diffrents modles sur les variables mesures par lexpert1. A partir de ces rsultats on peut facilement constater que lintgration des deux variables contextuelles OS et type avec les
autres variables na pas dinfluence sur les rsultats. Ce rsultat parat logique du point de vue dtection
dintrusions. En effet, et comme signal dans le chapitre 3 (3.8), le fonctionnement gnral de notre
90

tel-00917605, version 1 - 12 Dec 2013

5.4. Application

F. 5.13 Les deux structures obtenues par le modle multinet partir des donnes normales ( gauche)
et donnes attaques ( droite) pour les variables (1 25) mesures par lexpert1.
approche de filtrage est similaire lapproche comportementale dans les IDS. Dans cette architecture,
nous essayons de construire un profil des machines internes (IPinterne ) partir des alarmes gnres par
les NIDS et dterminer sil y a une attaque relle partir de ce profil. Lintgration des informations
contextuelles comme le systme dexploitation ou le type de serveur peut aider la dtection des scnarios spcifiques dattaques si ces systmes sont vulnrables contre ce genre dattaques. Par exemple,
si la machine est attaque par une attaque Web contre un serveur IIS, et son systme dexploitation est
Windows alors lintgration de cette information supplmentaire (i.e OS) va influencer sur le rsultat
final. Tandis que cette influence est ngligable si cette information est "Unix".
T. 5.4 Rsultats des diffrents modles sur les variables mesures par lexpert1. Le signe (+) indique
lintgration des deux variables contextuelles OS et type.
Modle
Naf
Naf+
TANB
TANB+
Multinet
Multinet+

HR
46 %
46 %
74 %
72%
0%
0%

FP
12 %
12 %
11 %
17%
0%
0%

PCC
87.4 %
87.4 %
88.8 %
83%
98.7 %
98.7 %

Comparaison entre les experts La table 5.5 prsente les rsultats obtenus pour lapplication des
diffrentes structures de RB sur les variables des deux experts et la combinaison des deux. En analysant
ces rsultats, on peut noter les remarques suivantes :
Les rsultats obtenus pour lexpert2 sont en gnral meilleurs que ceux de lexpert1 (en terme de
dtection dintrusions).
la combinaison entre les variables des deux experts a trs peu amlior les rsultats en diminuant
le taux de FP de 15% 10% avec le mme taux de HR u 60%.
Lalgorithme multinet appliqu lexpert2 a donn les meilleurs rsultats. Il a pu dtecter la plupart
des attaques (8% de faux ngatifs), et a filtr (64%) des points normaux (FP = 36%).
91

Chapitre 5. Dtection dAttaques


T. 5.5 Rsultats des diffrents algorithmes. Le signe (+) indique lintgration des deux variables
contextuelles OS et type.

tel-00917605, version 1 - 12 Dec 2013

Modle HR
Naf
46 %
Naf+
46 %
MWST 36 %
TANB 74 %
TANB+ 72%
Multinet 0 %
Multinet+ 0 %

Expert1
FP
PCC
12 % 87.4 %
12 % 87.44 %
3%
96.2 %
11 % 88.8 %
17%
83%
0 % 98.7 %
0%
98.7

HR
62 %
62 %
12 %
62 %
66%
92 %
92%

Expert2
FP
PCC
12 % 87.7 %
15 % 84.7 %
2%
96.9 %
17 % 82.7 %
19%
81.8%
36 % 64.4 %
48%
52.5%

HR
60 %
60 %
-

Combinaison
FP
PCC
11 % 88.7 %
10 % 89.70 %
-

Nature des donnes la nature des donnes joue un rle dominant sur les rsultats obtenus, surtout
quand les bases de donnes ne contiennent pas un nombre suffisant dexemples dattaques. On peut
remarquer linfluence de la nature des donnes surtout sur le modle Multinet. En effet, dans ces types de
structures (multinet), la probabilit priori de la variable classe est trs importante, en particulier quand
les deux vraisemblances P(A/C = normal) et P(A/C = attaque) sont proches. Le tableau 5.6 prsente
linfluence de la probabilit priori sur les rsultats. Il prsente les rsultats de classification avec la
rgle de dcision maximum postriori en tenant compte de la probabilit priori de la classe (P(C =
normal) = 0.99 et P(C = attaque) = 0.01) et avec la rgle de dcision de maximum de vraisemblance
(i.e. en considrant que la probabilit priori est uniforme). Dans ce cas, nous pouvons noter que les
rsultats sont meilleurs (HR = 100% et FP = 24%).
Donc, les structures multinet et surtout celle applique lexpert2 semblent les plus intressantes
cette problmatique. La cration dun rseau baysien pour chaque catgorie de donnes (normale et
attaque) a permis de ngliger linfluence de la dominance des donnes normales sur le modle construit,
et par consquent les donnes attaques sont mieux dtectes (vraisemblables) par le modle construit
partir des donnes attaques dapprentissage.
T. 5.6 Influence de la probabilit priori de la classe sur les rsultats de classification. Le signe (+)
indique lintgration des deux variables contextuelles OS et type.
Algorithme
Multinet(Expert1)
Multinet(Expert2)
Multinet+ (Expert1)
Multinet+ (Expert2)

Max de vraisemblance P(A/C)

Max postriori P(A/C)*P(C)

HR
84%
100%
80%
100%

HR
0%
92%
0%
92%

FP
14%
24%
15%
32%

FP
0%
36%
0%
48%

Nature des structures Les rsultats obtenus dans le tableau 5.5 montrent que les structures prdfinies telles que les structures naves ou naves+ ne sont pas adquates notre problmatique. Les
structures dtermines partir des donnes (et surtout les multinet) ont donn les meilleurs rsultats car
ces structures rfltent mieux la relation entre les variables.
92

5.4. Application
T. 5.7 Rsultats obtenus en utilisant le noyau linaire. HR : pourcentage de dtection dattaques,
FP : pourcentage des faux positifs et PCC : pourcentage de bonne classification.
C

HR

FP

PCC

0
1
10
100
1000

92%
96%
96%
100%
100%

20%
17.6%
64.5%
79%
79.8%

80.2%
82.5%
36.3%
22%
21.2%

tel-00917605, version 1 - 12 Dec 2013

5.4.2.7 Discussion
Les rsultats obtenus pour les deux approches brutes et modulaires montrent clairement que lapproche modulaire a amlior les performances dune facon importante. Cette consquence parait logique
pour les raisons suivantes :
Dans lapproche brute le modle est trs sommaire, c..d les variables de toutes les machines
internes sont regroupes et prsentes au modle sans aucune distinction.
Les rsultats de lapproche brute dpendent de toutes ces variables. En gnral, dans les grands
rseaux, un nombre limit de machines est vis par des attaques et par consquent, la plupart des
variables du rseau baysien rfltent les mesures de ltat normal. Donc le comportement des
machines attaques est noy dans le comportement de lensemble.
Dans lapproche modulaire, les variables de chaque machine interne sont prsentes part et ltat
de cette machine est calcul en fonction de ces variables. Donc il ny a pas influence de la part des
variables des autres machines.
Ltat global du rseau est dtermin dans lapproche modulaire en fonction des tats locaux des
machines internes et non pas directement des variables de mesures.
Dans lapproche modulaire, on peut dterminer la (les) machine (s) interne (s) cible (s) dune
attaque.

5.4.3 Application des SVM


Lapplication des SVM sur un problme de classification binaire revient surtout slectionner une
bonne famille des fonctions noyaux et rgler les paramtres de ces fonctions (par exemple lexposant
pour les fonctions noyau polynomiale, ou bien lcart-type pour les fonctions base radiale). Dans ces
expriences, nous avons test trois fonctions noyaux : linaire, polynomiale et gaussienne. Pour chacune
de ces fonctions, nous calculons le pourcentage de dtection des attaques (HR) et le pourcentage des
Faux Positifs (FP). Les tableaux 5.7, 5.8 et 5.9 prsentent les rsultats obtenus sur les donnes de test.
Ces rsultats sont calculs en variant le paramtre C qui rgle le taux derreur admissible dans lensemble
{0, 1, 10, 100, 1000}. Notons ici que pour C = 0, on peut faire autant derreurs que possible, et pour
C = , on nadmet aucune erreur.
Pour la fonction polynomiale, nous avons test trois valeurs de lexposant d = {1, 2, 4}. De mme
pour la fonction gaussienne, cinq valeurs sont testes : 2 = {0.05, 0.5, 1, 2, 4}. Les donnes utilises
pour lapprentissage et le test sont les mmes donnes utiliss dans lapplication des Rseaux baysiens
(section 5.4.2).
Les rsultats obtenus montrent que les donnes des deux classes sont approximativement linairement sparables. Le meilleur rsultat avec le noyau linaire est obtenu pour C = 1 (DR = 96% et
FP = 17.6%). En augmentant la valeur de C, le pourcentage de faux positifs augmente dune facon
norme. Pour un pourcentage de 100% de DR, on obtient 79% des FP. Ce rsultat montre que seulement
93

Chapitre 5. Dtection dAttaques


T. 5.8 Rsultats obtenus en utilisant le noyau polynomial. HR : pourcentage de dtection dattaques,
FP : pourcentage des faux positifs. C : le taux derreurs admissibles et Param : exposant de la fonction.
C
Param
1
2
4

0
HR

1
FP

HR

10
FP

92% 19.9% 96%


98% 20.9% 60%
100% 25% 68%

HR

FP

HR

17.7% 96% 60.6% 94%


17% 100% 96.4% 10%
20% 68% 20.8% 68%

100
FP

HR

1000
FP

51.6% 0%
0%
0%
100% 77.3%
20.8% 68% 20.8%

T. 5.9 Rsultats obtenus en utilisant le noyau base radiale. HR : pourcentage de dtection dattaques, FP : pourcentage des faux positifs, C : le taux derreurs admissibles et Param : variance

tel-00917605, version 1 - 12 Dec 2013

C
Param
0.05
0.5
1
2
4

10

HR

FP

HR

FP

HR

FP

100
HR
FP

98%
72%
70%
68%
46%

18.2%
9.7%
8.4%
6.9%
4.6%

94%
68%
68%
58%
30%

13.6%
8.7%
6.9%
5.2%
3.2%

72%
30%
40%
36%
28%

9.5%
2.6%
16%
4.2%
1.7%

58%
56%
54%
42%
28%

4.5%
19.3%
18.5%
15%
2%

1000
HR
FP
28%
56%
62%
56%
18%

1%
19.3%
21.5%
18.3%
1.2%

4% des donnes attaques sont noyes dans les donnes normales. Alors en augmentant vers le haut la
valeur de C pour bien classifier ces 4%, un grand nombre de points normaux est mal classifi ce qui
explique ce grand pourcentage des FP.
Pour le noyau polynomial, les meilleurs rsultats sont obtenus pour C = 0. laugmentation de lexposant de 1 4 a elev le HR de 92% 100% avec un pourcentage maximum de FP gal 25%.
Les rsultats obtenus en appliquant le noyau RBF donnent les meilleures performances en terme de
bonne classification ou PCC. Le pourcentage des FP est rduit normement. Dautre part, la valeur de
HR la plus intressante est obtenue pour C = 0 et 2 = 0.05. Laugmentation de 2 amliore PCC (c..d
en rduisant FP) mais diminue HR.

5.4.4 Comparaison
Les rsultats obtenus en appliquant les rseaux baysiens et les SVM sur notre problmatique montrent
que ces mthodes sont efficaces et peuvent donner de bonnes performances. Avec des donnes binaires
non quilibres, lobtention dun classifieur binaire performant nest pas une tche vidente. Les rseaux baysiens de type multinet ont donn un pourcentage de HR de 100% avec un pourcentage de
FP = 24%. Les SVM avec un noyau polynomial de degr 4 ont donn un pourcentage de DR = 100%
avec FP = 25%. En conclusion, les deux classifieurs ont donn approximativement les mmes performances.

5.5 Conclusion
Ce chapitre tait consacr la dtection des attaques qui se droulent sur le rseau et ainsi du
filtrage des fausses alarmes en utilisant des outils de classification supervise.
Le point de dpart tait une introduction gnrale sur les mthodes de classification supervise et
surtout la classification binaire. Ensuite, nous avons prsent brivement deux mthodes : les Rseaux
Baysiens et les SVM. Ltape suivante tait la modlisation du problme dans laquelle nous avons
94

5.5. Conclusion

tel-00917605, version 1 - 12 Dec 2013

cr deux synthses de comportements types pour chaque machine interne dans le rseau. Nous avons
test plusieurs modles des Rseaux baysiens pour amliorer les rsultats. Pour les SVM, une famille
de fonctions noyaux avec un ensemble de paramtres sont tests et compars. Finalement, nous avons
prsent les rsultats obtenus.
En conclusion, nous avons russi filtrer environ 75% des fausses alarmes et dtecter toutes les
attaques. Les deux classifieurs ont donn approximativement les mmes performances.

95

tel-00917605, version 1 - 12 Dec 2013

Chapitre 5. Dtection dAttaques

96

Chapitre

tel-00917605, version 1 - 12 Dec 2013

Evolutivit de lArchitecture
Nous avons prsent dans les chapitres prcdents notre architecture de filtrage des alarmes gnrs
par SNORT. Cette architecture est constitue dun couplage entre des mthodes de classification nonsupervise qui servent dtecter des comportements types et des mthodes de classification supervise,
qui utilisent ces comportements types pour dtecter les attaques relles se droulant dans le rseau.
Lapplication de cette architecture en temps rel va poser plusieurs dfis sur ladaptation de cette architecture aux changements qui peuvent arriver au cours du temps. Ce chapitre sintresse maintenant
lvolution de cette architecture de filtrage. Nous tudions les problmes dapparition de nouvelles
attaques, le changement darchitecture des rseaux surveills, lvolution des comportements types des
attaques, etc. . . .

Sommaire
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9

Introduction . . . . . . . . . . . . . . . . . . . . . . . . .
Reconnaissance des formes statistique et notion de Rejet .
Tests dhypothses et analyse de donnes . . . . . . . . .
Surveillance de ligne de base (Baseline Monitoring) . . .
Evolution du rseau ou du NIDS . . . . . . . . . . . . . .
Evolution des comportements types . . . . . . . . . . . .
Dcision de r-apprentissage . . . . . . . . . . . . . . . .
Exprimentations et rsultats . . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

97
98
101
102
103
105
108
113
117

6.1 Introduction
La dtection dintrusions dans les rseaux est un processus qui volue avec le temps. On peut classer
les exigences auxquelles un NIDS devrait rpondre en deux catgories : les exigences fonctionnelles (ce
que le NIDS se doit de faire), et les exigences de performance (comment il doit le faire). Un NIDS se
doit ainsi de raliser une surveillence permanente du/des lments contrls avec une prsence humaine
minimum. Il doit mettre des alarmes prcises et rapides (en temps rel) sur les vnements anormaux
et/ou brches de scurit afin de minimiser les dgats.
97

tel-00917605, version 1 - 12 Dec 2013

Chapitre 6. Evolutivit de lArchitecture


En outre, un NIDS doit galement pouvoir tre modulable et configurable de manire sadapter
parfaitement aux plates-formes et aux architectures rseaux quil surveille et sur lesquelles il doit paralllement avoir un impact minimum et ne pas interfrer. De plus, un NIDS doit tirer des leons de son
exprience afin de gnrer le moins de "faux ngatifs" possibles. Il doit paralllement possder un moteur
de filtrage fiable et performant remontant un faible taux de "faux positifs".
Un systme de filtrage des alarmes issus dun NIDS est le coeur de ce moteur. Il nest pas en ralit
un systme indpendant mais un module intgr au sein de ce systme comme un post-processeur dont
le but est de minimiser le pourcentage des "faux positifs". Laspect dynamique dun NIDS est alors
indispensable pour le systme de filtrage. Donc, un systme de filtrage doit aussi tre volutif et ainsi
sadapter parfaitement la dynamique des architectures quil surveille et des comportements quil tente
de reconnatre.
Dans les chapitres prcdents, nous avons propos une architecture automatique de filtrage des alertes
gnres par un NIDS. En rsum, nous sommes partis des journaux dalertes gnres par ce NIDS et
nous avons dtect un certain nombre de comportements types en utilisant des mthodes de classification non-supervise comme SOM ou GHSOM. Ltape suivante tait lutilisation de ces comportements
types pour dtecter les attaques relles se droulant dans le rseau par lintermdiaire des mthodes de
classification supervise comme les rseaux baysiens et les machines vecteurs de support. Cependant,
le fonctionnement de cette architecture est bas sur les hypothses suivantes :
1. La structure du rseau considr (surveill) est fixe, c..d il ny a pas apparition de nouveaux
quipements.
2. Le contexte permettant de reconnatre un comportement type nvolue pas. En dautre termes, il
ny a pas apparition de nouveaux types dalertes.
3. Les comportements types nvoluent pas.
Afin que cette architecture soit dynamique et volutive et par suite applicable en temps rel, il faut
proposer des solutions permettant de lever ces hypothses, en essayant de rsoudre les trois problmes
de manire dynamique partir dune approche "ligne de base (baseline)". Dautre part, il faut proposer
une approche capable de dterminer linstant o larchitecture nest plus valide et o il faut la mettre
jour. Cette approche doit tre paramtrable et configurable suivant les prfrences de ladministrateur. La
dcision de r-apprendre ou de mettre jour le systme peut tre base sur diffrentes causes possibles,
parmi lesquelles on peut citer :
lapparition dun nouveau type dattaque
la dtection dun nouveau comportement type
lvolution des comportements types existants
Le traitement de ces problmes nous amne utiliser les notions de rejet de distance et dambigut
introduites dans les systmes de reconnaissance de formes, et les tests dhypothses statistiques. Nous
allons donc prsenter une brve introduction sur ces sujets et montrer ensuite leurs applications notre
problmatique.

6.2 Reconnaissance des formes statistique et notion de Rejet


6.2.1 Introduction et dfinitions
En reconnaissance des formes statistiques chaque observation est reprsente par un vecteur x de
d paramtres rels, appel vecteur forme tel que x = (x1 , . . . , x j , . . . , xd )t . Ce vecteur sera reprsent
par un point dans lespace de dimension d, Rd , aussi appel espace de reprsentation. Supposons que
pour toute nouvelle forme nous ayons dcider parmi M formes types, considres comme tant des
prototypes. A cause du bruit de mesure, de la prcision des capteurs etc . . . , une nouvelle observation
98

6.2. Reconnaissance des formes statistique et notion de Rejet

tel-00917605, version 1 - 12 Dec 2013

F. 6.1 Observation situe prs de la frontire de dcision entre deux classes.

F. 6.2 Application du rejet de distance. La nouvelle observation X ne correspond aucune des classes
connues.
sera rarement identique lun des prototypes. Les classes (1 , . . . , M ) correspondent des zones dans
lespace, regroupant les formes semblables. Lobjectif en reconnaissance des formes est alors de dcider
laquelle des classes 1 , . . . , M doit tre associe une nouvelle forme.
Toutefois, laffectation ne doit pas tre systmatique car des erreurs peuvent tre commises. Lalgorithme de dcision doit donc bnficier de solutions alternatives afin de diminuer le risque de mauvaise
classification. Ces solutions sont fournies par les options de rejet dambigut et de distance. Il sagit
en ralit de diffrer la dcision car les observations dont lappartenance aux classes est ambgue ou
insuffisante pourraient tre prcurseurs de lapparition de nouvelles classes [51].
Le rejet dambigut est appliqu aux observations se situant lintersection de classes ou prs dune
frontire entre deux classes comme le montre la figure 6.1. Les vecteurs se trouvant dans cette situation
sont affects une nouvelle classe fictive 0 appele classe de rejet dambigut.
Le rejet de distance concerne les vecteurs situs dans des zones de lespace qui ne correspondent
aucune des classes connues de lensemble dapprentissage (figure 6.2). Cette autre alternative est ncessaire en diagnostic. Ces nouvelles mesures peuvent laisser prsager lapparition de certaines classes qui
taient jusque l inconnues. Les vecteurs rejets en distance seront affects une nouvelle classe fictive
d , appele classe de rejet en distance.
Globalement, la rgle de dcision incluant les deux options de rejet sera applique pour M+2 classes :
x i (i = 1, M) : x est class dans i
x est rejet en ambiguit alors : x 0
x est rejet en distance alors : x d

(6.1)

On distingue deux types dapproches pour la mise au point dune rgle de dcision. Le premier
type dapproche consiste utiliser des mthodes statistiques, paramtriques ou non paramtriques. La
deuxime approche, qui est analytique, consiste privilgier le calcul des frontires de dcision entre
99

Chapitre 6. Evolutivit de lArchitecture


classes.

6.2.2 Mthodes paramtriques


Les mthodes paramtriques supposent la connaissance des lois de probabilit des observations et des
classes. En effet, tout vecteur X de Rd suit, dans une classe donne i , une loi de probabilit f (X | i ).
Par ailleurs, les classes j ( j = 1, M) sont caractrises par leurs probabilits priori Pr( j ). Dans ce
contexte, la rgle de dcision le plus couramment utilise est la rgle de Bayes [51] :
Pr(i | X) =

f (X | i ) Pr(i )
M
P

tel-00917605, version 1 - 12 Dec 2013

j=1

(6.2)

f (X | j ) Pr( j )

Dans le cas paramtrique, il est assez courant dmettre lhypothse selon laquelle les classes obissent
des lois de Gauss multidimensionnelles. Les valeurs des probabilits priori et des densits de probabilit peuvent alors tre directement calcules. On dit alors que tout vecteur x de Rd obit une loi de
Gauss dans la classe i si sa densit de probabilit scrit [51] :
(
)
1
1
t 1
d/2
(6.3)
f (x | i ) = (2)
|S i | exp (x mi ) S i (x mi )
2
O mi et S i sont respectivement le vecteur moyenne et la matrice de variance-covariance de la classe
i .
6.2.2.1 Rejet dambigut
Cette option de rejet peut tre incluse dans la rgle de Bayes par lintroduction dun cot de rejet Cr
constant, relatif au rejet dun vecteur X dans la classe j ( j = 1, . . . , M). La rgle de dcision incluant le
rejet en ambigut est dfinie partir des probabilits postriori par :

X i si max (Pr( j | X)) 1 Cr

j=1,M

si
max (Pr( j | X)) < 1 Cr
0

j=1,M

(6.4)

0 dsigne la classe des observations rejetes en ambigut. Le rejet en ambigut sera possible pour
[69] :
1
0 Cr 1
(6.5)
M
6.2.2.2 Rejet de distance
Le rejet de distance peut tre exprim en fonction de probabilits postriori et de la densit de
mlange. En effet, la loi du vecteur x, quand sa classe dappartenance est inconnue, est donne par la
densit de mlange f (x). Ainsi tout vecteur x sera affect la classe de rejet de distance d si sa densit
de mlange est infrieure un seuil de densit Cd [26].
x d si f (x) =

M
X

Pr( j ) f (x | j ) < Cd

(6.6)

j=1

Plus Cd est grand, plus le rejet de distance est important. Cette valeur peut tre fixe dune manire
heuristique partir, par exemple, de lensemble dapprentissage (Xapp ). En effet la densit de mlange
100

6.3. Tests dhypothses et analyse de donnes


pouvant tre calcule pour tout vecteur de lensemble dapprentissage, il suffit de prendre pour Cd une
valeur infrieure au minimum des densits de mlange obtenues :
Cd min f (x)
xXapp

(6.7)

6.2.3 Mthodes non paramtriques

tel-00917605, version 1 - 12 Dec 2013

Il a t vu prcdemment que les mthodes paramtriques taient bases sur lexistence des lois de
probabilit rgissant les observations et les classes. Toutefois si cette connaissance est incomplte, il est
prfrable dorienter la procdure de dcision vers lestimation de la loi de probabilit ou de celle des
probabilits a postriori.
Parmi les estimateurs usuels, on distingue lestimateur de Parzen et lestimateur des k-plus proches
voisins (k ppv).

6.3 Tests dhypothses et analyse de donnes


En statistiques, un test dhypothse est une dmarche consistant rejeter ou accepter une hypothse statistique, appele hypothse nulle, en fonction dun jeu de donnes (chantillon). De manire
schmatique, on distingue gnralement les tests dhomognit et les tests de conformit [32] :
Dans le cas dun test dhomognit, on veut comparer deux chantillons. Lhypothse nulle H0
supposera lhomognit des deux chantillons. Par exemple on comparera deux moyennes.
Dans le cas dun test de conformit, on veut dterminer si un chantillon suit une loi statistique
connue. Lhypothse nulle H0 supposera ladquation de lchantillon cette loi.
Dans tous les cas, le test suit une succession dtapes dfinies [158] :
1. Enonc de lhypothse nulle H0 et de lhypothse alternative H1 .
2. Calcul dune variable de dcision correspondant une mesure de la distance entre les deux chantillons dans le cas de lhomognit, ou entre lchantillon et la loi statistique dans le cas de la
conformit. Plus cette distance sera grande et moins lhypothse nulle H0 sera probable.
3. Calcul de la probabilit dobtenir une valeur de la variable de dcision aussi extrme ou plus
extrme que la valeur obtenue, en supposant que H0 soit vraie. Cette probabilit, gnralement
appele risque de premire espce et note , correspond au risque de rejeter tort H0 si H0 est en
fait vraie.
La probabilit pour que H0 soit accepte alors quelle est fausse est , le risque de deuxime espce.
Cest le risque de ne pas rejeter H0 quand on devrait la rejeter. Sa valeur dpend du contexte, et est trs
difficilement valuable (voire impossible valuer), cest pourquoi seul le risque est utilis comme
critre de dcision.
Il existe de nombreux tests statistiques classiques parmi lesquels on peut citer :
le test de Student, parfois appel aussi test de Student-Fisher, qui sert la comparaison dune
moyenne observe avec une valeur attendue .
le test de Fisher, parfois appel aussi test de Fisher-Snedecor, qui sert la comparaison de deux
variances observes.
lanalyse de la variance ou ANOVA, qui sert comparer plusieurs moyennes observes entre-elles,
selon un plan exprimental prdtermin. Il se base sur une dcomposition de la variance en une
partie explicable et une partie erreur , suppose distribue selon la loi normale. Ce test est
101

tel-00917605, version 1 - 12 Dec 2013

Chapitre 6. Evolutivit de lArchitecture

F. 6.3 Surveillance de ligne de base.


particulirement utilis dans les sciences humaines et sociales (SHS), les sciences cognitives, les
sciences mdicales et les sciences du vivant.
le test du Khi-2, qui sert notamment la comparaison dun couple deffectifs observs, ou la comparaison globale de plusieurs couples deffectifs observs, et plus gnralement la comparaison
de deux distributions observes.
le test de Kolmogorov-Smirnov, qui comme le test de Khi-2 est un test dadquation entre des
chantillons observs et une distribution de probabilit. Il compare la fonction de rpartition observe et la fonction de rpartition attendue. Il est particulirement utile pour les variables alatoires
continues.

6.4 Surveillance de ligne de base (Baseline Monitoring)


La surveillance de ligne de base est un concept simple qui est appliqu dans plusieurs domaines
dans lesquels il y a besoin de surveiller et analyser des grandes quantits de donnes [152]. Passer en
revue toutes les donnes de temps en temps nest pas efficace. La surveillance de ligne de base est utile
en analysant le changement dans les donnes au lieu danalyser toutes les donnes. Cette surveillance
comprend les tapes suivantes (cf figure 6.3) :
1. Construction de la ligne de base : rassembler toutes les donnes appropries pour tablir une description de ltat actuel.
2. Analyse : rassembler des nouvelles donnes et les comparer la ligne de base en indiquant les
dviations par rapport ce point de base.
3. Action : en se basant sur les rsultats danalyse, toutes les dviations de la ligne de base doivent
tre tudies et justifies ou prises en compte.
4. Mise jour de ligne de base : avancer, rassembler les nouvelles donnes et mettre jour ou reconstruire la ligne de base.
La surveillance de ligne de base est particulirement efficace :
quand les donnes contiennent un grand pourcentage de rptitions avec ou sans variations.
102

6.5. Evolution du rseau ou du NIDS


quand les donnes contiennent des modles et peuvent tre composes, ainsi il est possible de
comparer de nouvelles donnes aux donnes de la ligne de base.
quand le rsultat de lanalyse nest pas smantique mais plutt diffrentiel, en dautres termes, "ce
qui est diffrent . . . " est la question intressante.

6.4.1 Ligne de base dun systme de scurit

tel-00917605, version 1 - 12 Dec 2013

La question cruciale concerne les informations qui devraient tre incluses dans la ligne de base.
On peut penser beaucoup de manires de dfinir ces informations : nombre total des alertes, nombre
dalertes par type dalerte, priodes et frquence des alertes, comportement des machines attaques et
des machines attaquantes, etc. . . .
Il est important de noter que si les donnes de scurit taient alatoires, il ny aurait aucune bonne
manire de reprsenter la ligne de base. Cependant, les donnes de scurit sont loin dtre alatoires.
Les donnes de chaque dploiement de scurit suivent certains rgles qui peuvent tre identifies et
dcrites. La ligne de base de donnes de scurit se compose ainsi de plusieurs types dentits :
1. Groupes comportementaux dalertes : Un groupe dalertes est un ensemble dalertes qui sont similaires et reprsentent le mme type dactivit. Les alertes dans les groupes dalertes ne sont pas
identiques, mais elles ont quelques similitudes qui diffrent dun groupe un autre.
2. Modles comportementaux (Behavior Patterns) : Bien quintuitivement nimporte qui peut comprendre le concept de ces modles, il est difficile de le dfinir formellement. En gnral, un modle
est un rapport logique qui dfinit le comportement caractristique des donnes. Par exemple "si la
source IP est 10.1.123.2 alors la destination IP est 12.2.143.2 ou 12.111.0.232".
3. Comportements types des machines attaques : Lide est de regrouper les tentatives dattaques
similaires entre deux ou plusieurs machines en connexion. On peut determiner ensuite le comportement de la machine attaque partir de ces comportements types dtects. Cest lapproche que
nous avons utilise au cours de cette tude (4.2.2).

6.5 Evolution du rseau ou du NIDS


6.5.1 Problme 1 : intgration des nouveaux quipements rseaux
Une des premires caractristiques principales pour quun systme de dtection dintrusions sur le
rseau (NIDS) ou un systme de filtrage dalarmes issues dun NIDS soit adaptatif, est sa capacit
tenir compte de toute modification de larchitecture du rseau quil surveille. Au cours du temps, des
nouvelles IPinterne (i.e., nouvelles machines, nouveaux quipements rseau routeurs, firewalls ou autres)
sont ajoutes au rseau, dautres sont enleves et ainsi de suite. Le NIDS ou le systme de filtrage doit tre
capable de se reconfigurer automatiquement de faon prendre en compte les nouvelles modifications et
les intgrer dans son architecture sans aucun arrt ou perturbation.
Rappelons que notre architecture de filtrage est compose de deux phases principales : prtraitement
et dtection. Dans la premire phase, un nombre de comportements types des IPinterne est dtermin
partir des vecteurs resums de chaque couple de machines en connexion (IPexterne , IPinterne ). Ces vecteurs
rsument les types dalarmes gnrs par SNORT durant une srie des fentres temporelles glissantes.
Ajouter ou supprimer des nouvelles IPinterne ne perturbe donc pas cette phase.
La deuxime phase de classification est modulaire, et il est trs facile de rajouter un nouveau module
de classification locale pour les nouvelles IPinterne et de le prendre ensuite en compte dans la classification
globale. En consquence, lintgration des nouvelles IPinterne ne pose pas aucun problme et naltre
donc pas le fonctionnement de notre architecture.
103

Chapitre 6. Evolutivit de lArchitecture


Preuve exprimentale Pour tester ladaptabilit de cette architecture, nous avons utilis des donnes
de test qui contiennent des nouveaux logs de SNORT dans lesquelles des nouvelles machines sont intgres dans le rseau du rectorat de Rouen. Par exemple, deux machines sont intgres aprs la collection
des donnes dapprentissage utilises lors de la cration de larchitecture. La premire machine est la
cible dune attaque Web contre un serveur IIS. Lalerte issue par SNORT est "WEB-IIS nsiislog.dll access", ce qui tait vraiment un "Faux positif" daprs notre expert de scurit. Lautre machine qui est
un serveur proxy, est la cible dun scan de port sur le port 80. Ces nouvelles donnes sont traites par
notre architecture sans aucun changement ou modification. En bref, laspect modulaire de notre architecture permet lintgration des nouveaux quipements rseaux sans aucun besoin de reconfigurer ou
r-apprendre larchitecture.

tel-00917605, version 1 - 12 Dec 2013

6.5.2 Problme 2 : Apparition de nouveaux types dalertes


Lapparition des nouveaux types dalertes est un vnement trs frquent dans le domaine de la
scurit informatique. Trs rgulirement, de nouvelles attaques sont dcouvertes et tudies par les administrateurs de scurit afin de mettre jour les bases de signatures utilises dans leurs NIDS. Alors,
pour chaque nouvelle attaque, une nouvelle alerte signe de cette attaque est utilise par les NIDS. Cependant, un tel vnement (issue des nouvelles alertes) pose un grand dfi sur le comportement de notre
architecture. Comme dcrit dans la section prcdente, la premire tape de larchitecture est la constitution des vecteurs rsums. Or, les attributs de ces vecteurs sont les diffrents types dalertes gnrs par
le NIDS et ces vecteurs sont ensuite utiliss par la mthode SOM pour crer les comportements types.
Les vecteurs prototypes des SOM ont comme dimension celle des vecteurs dentres. Le changement
de dimension de ces vecteurs (apparition des nouveaux types dalertes) va donc nous obliger rapprendre larchitecture toute entire, avec ventuellement une initialisation intelligente des prototypes de
la nouvelle carte partir des anciens.
Deux autres solutions sont aussi envisageables :
(a) Catgorisation des alertes : certains IDS associent aux signatures une catgorie dattaque.
Ces catgories peuvent tre utilises par les approches de corrlation dalertes pour qualifier les
attaques [134]. La catgorie dattaque de la signature SNORT de la figure 6.4 est web-applicationattack. Elle correspond une attaque contre une application de type web. On peut classifier les
alertes suivant un nombre de catgories dattaques. Ces catgories peuvent tre dfinies suivant
plusieurs taxinomies. Les taxinomies les plus simples nutilisent aucun critre de classification
particulier et proposent simplement un ensemble de catgories qui couvrent des aspects varis
des attaques. Des catgories relatives au mode opratoire (par exemple "cheval de Troie") ou aux
consquences des attaques (par exemple "Dnie de service") sont typiquement rencontres dans
ces approches. Elles sont tablies de manire empirique. Le nombre de catgories proposes varie selon les auteurs : Cohen propose 97 catgories [31], alors que Cheswick et Bellovin nen
proposent que 7 [28]. Dautres auteurs proposent un ou plusieurs critres de classification :
Effets : impact dune attaque russie sur le systme. Les valeurs peuvent tre relatives au type
de privilges acquis par lattaquant, comme propos par Kendall [99] : remote-to-local (accs
utilisateur partir dun accs rseau), user to root (accs administrateur partir dun accs utilisateur), remote-to-root (accs administrateur partir dun accs rseau). Les catgories dnis
de service et rvlation dinformations font aussi partie des effets.
Technique dattaque : nature de la vulnrabilit exploite. Elle peut tre de configuration, dimplmentation ou de spcification [99]. Lingnierie sociale fait aussi partie des techniques dattaques.
104

6.6. Evolution des comportements types


Action : nature de laction correspondant lattaque, comme par exemple balayage, lecture,
suppression.

tel-00917605, version 1 - 12 Dec 2013

F. 6.4 Une signature SNORT.


Quelque soit la mthode de catgorisation des alertes, lapparition dune nouvelle alerte est traite
suivant deux manires :
intgrer cette nouvelle alerte dans la catgorie correspondante, sans avoir changer les comportementstypes
le cas chant, ajouter une nouvelle catgorie.
(b) Svrit des alertes : la svrit des alertes est le degr de gravit de lattaque correspondante.
Actuellement, les informations contenues dans les alertes ne permettent pas un oprateur dvaluer la svrit des attaques sans recourir une analyse manuelle des vnements lorigine des
alertes. Dans les IDS, la svrit des alertes est donne sous la forme dun indice appartenant
une chelle de gravit. Pour les analyseurs des approches par scnario, les indices sont lis aux
signatures. Cependant, la svrit dune alerte dpend des modalits dattaques et non de la signature charge de dtecter ces attaques, qui concerne les proprits statiques des attaques. Durant les
expriences faites dans cette tude, nous avons test trois niveaux de svrit des alertes indiqus
par notre expert de scurit. Lide ici est de choisir les alertes les plus dangereuses comme attributs du vecteur sommaire. Cette liste des alertes sera mise jour au fur et mesure dapparition
des nouvelles alertes dangereuses indiques par lexpert de scurit.

6.6 Evolution des comportements types


6.6.1 Ligne de base (SOM)
Nous avons notre disposition un ensemble de K comportements types {1 , . . . , K } crs par un
ensemble dapprentissage X = {X1 , . . . , XN }. On peut voir la carte SOM comme une modlisation paramtrique de ces comportements types. Chaque comportement type est modlis par une fonction de
densit autour dun vecteur prototype.
Lexploitation de larchitecture en temps rel va poser plusieurs dfis sur son comportement grce
aux changements qui peuvent arriver au cours du temps. A cause de bruit de mesure, etc . . . , une nouvelle
observation sera rarement identique lun des comportements dj construits par lensemble dapprentissage. Laffectation dune nouvelle observation Xu recueillie un instant donn sur le systme peut
prendre deux cas :
La nouvelle observation est affecte lun des K comportements. Dans ce cas, le systme est encore valide et reprsentant des nouvelles observations. Cependant, il y a possibilit de "glissement"
105

tel-00917605, version 1 - 12 Dec 2013

Chapitre 6. Evolutivit de lArchitecture

F. 6.5 Procdure de dtection et dvolution des comportements types. La premire partie de la


figure indique la phase de ligne de base. Dans la deuxime partie les donnes invalides sont identifies
et regroupes dans des clusters danomalie et dans la troisime la dcision de re-apprentissage est prise
suivant les indicateurs.
des comportements types existants.
La nouvelle observation est projete dans une zone de lespace situe loin de tous les comportements. Alors, cette observation est considre comme invalide. Ces observations invalides sont des
donnes bruites ou des donnes cohrentes qui peuvent tre des nouveaux comportements types
quil faudrait alors dtecter.
En resum, on peut distinguer deux cas :
lapparition de nouveaux comportements types.
Le glissement des comportements types existants.
Nous proposons par la suite dutiliser le modle SOM pour dfinir une mthode de validation de
donnes. Le processus de validation des donnes et de traitement des donnes invalides est illustr dans
les deux premires parties de la figure 6.5.

6.6.2 Dcision de rejet et clustering des points rejets


6.6.2.1 Dcision avec rejet
Les cartes topologiques de Kohonen ne sont pas seulement une mthode de visualisation et de classification de donnes de grandes dimensions, mais elles peuvent galement tre utilises pour dtecter des
donnes atypiques en contrlant la distance entre chaque vecteur dentre x et la bmu10 . Cette technique
10

le prototype jug le plus reprsentatif

106

6.6. Evolution des comportements types


peut tre vue comme une variante du concept de rejet de distance dcrit par exemple par Dubuisson et
Masson [52].
La ligne de base est forme dune carte de Kohonen qui est constitue de K clusters. Soient {1 , . . . , K }
lensemble des K prototypes ou vecteurs de rfrence de ces clusters. Chaque prototype i est reprsentatif dune classe Ci de vecteurs de lensemble dapprentissage. Lespace de rfrence est ainsi divis en
K . Nous dfinissons "lactivation" du prototype i pour le vecteur dentre x en utilisant un
K classes (Ci )i=1
noyau gaussien :
ki (x) = exp(

1
k x i k2 )
22i

(6.8)

tel-00917605, version 1 - 12 Dec 2013

O i est un paramtre qui dfinit la rgion dinfluence du prototype i. i peut tre estim par la
moyenne empirique des variances des n vecteurs dentres activant le prototype (i). Plus i est grand,
plus la zone dinfluence de (i ) est grande et donc, plus lactivation ki (x) est proche de 1. Si lactivation
kb (x) du prototype (b ) le plus reprsentatif (i.e., le plus proche) est infrieure un certain seuil , le
vecteur x est alors considr comme invalide ( rejeter).

F. 6.6 Illustration du mcanisme de validation des donnes en trois dimensions.


Ce procd de rejet des donnes atypiques met en application une procdure de dtection de nouveaux chantillons quil faut peut-tre inclure dans lensemble dapprentissage. Le rejet peut tre d
une limitation de lensemble dapprentissage. Il est donc ncessaire de stocker ces vecteurs rejets pour
permettre une interprtation ultrieure par un utilisateur et un ventuel rapprentissage du systme.
Cette procdure de dtection peut recevoir une interprtation probabiliste. Les vecteurs dentre x
tant supposs suivre une distribution normale conditionnellement la classe de moyenne i et de variance 2i I (I matrice identit) . Lactivation du plus proche prototype (bmu) i par les vecteurs dentre
x peut tre considre comme la densit de probabilit conditionnelle de x sachant la classe i. Cette procdure de rejet des donnes invalides permet dliminer les vecteurs x qui paraissent peu vraisemblables
pour chacune de ces densits de classe (voir [154] page 25).
Dfinition du seuil de rejet Nous avons notre disposition lensemble de nA vecteurs x de lensemble
dapprentissage. Nous allons considrer que % de ces donnes sont invalides ou aberrantes. Nous calculons donc lactivation Kb (x) du plus proche prototype pour ces nA vecteurs en supposant que la dis107

Chapitre 6. Evolutivit de lArchitecture


tribution des donnes dans les diffrents classes est normale de mme variance . Nous considrons
donc que % des donnes de lensemble dapprentissage ont une activation trop faible pour tre considres comme valides [176]. Nous classons les donnes par ordre croissant dactivation. Le seuil de rejet
correspond donc lactivation Kb (x) de rang ( nA )/100.

tel-00917605, version 1 - 12 Dec 2013

6.6.2.2 Clustering des points rejets


Aprs la dfinition de la ligne de base du systme, les nouvelles donnes sont projetes dans la carte
et les dviations sont reportes et analyses. Pour chaque vecteur projet, on calcule lactivation du plus
proche prototype. Si cette activation est plus petite que celle dtermine en 6.6.2.1, alors ce vecteur est
considr comme invalide. Les donnes rejetes peuvent tre soient du bruit, soient dventuels nouveaux comportements. Ltape suivante consiste essayer de regrouper ces donnes et tudier la nature
des clusters obtenus que nous appellerons "clusters danomalie". Pour le regroupement des donnes nous
avons utilis une variante itrative de lalgorithme des K-moyennes. Le nombre de clusters nest pas
fix en avance mais dtermin en ligne suivant la nature des donnes. Aprs le regroupement des donnes invalides dans un nombre de cluster danomalies, il reste tudier la nature et limportance de ces
clusters.

6.7 Dcision de r-apprentissage


6.7.1 Reconnatre plusieurs situations
A lissue de la deuxime phase (i.e., identification et clustering des points invalides), les donnes
atypiques ou invalides sont regroupes dans plusieurs clusters danomalie. La dernire phase consiste
tudier la nature de ces clusters et prendre (si ncessaire) la dcision de mise jour du systme. La
dcision de mettre jour le systme est fonction de plusieurs paramtres. Le premier paramtre est la
similarit entre les nouvelles donnes projetes et les comportements types existants. Si au cours du
temps on remarque quun pourcentage important de donnes projetes est considr comme invalide,
alors les comportements types dj existants ne sont pas des bons reprsentants de ces nouvelles donnes
et par consquent il faut rapprendre le systme en tenant compte de ces nouvelles donnes.
Le deuxime paramtre intressant est limportance des clusters danomalie obtenus. Comme mentionn dans les chapitres prcdents, nous avons classifi les alertes suivant trois niveaux de dangrosit.
De plus, la nature de chaque comportement type est dtermin par les 5 Top alertes du vecteur prototype. Ainsi, nous pouvons aussi distinguer les clusters danomalie obtenus suivant leur dangerosit. La
prsence des nouveaux clusters dangereux est un indicateur pour reconfigurer le systme.
Le troisime paramtre tudier est la rpartition des points dans les clusters danomalie. Une accumulation des points dans un nombre limit de clusters danomalie est le signe dapparition de nouveaux
comportements types. Par contre, les clusters qui contiennent des points disperss correspondent plutt
du bruit.
Enfin, le glissement des vecteurs prototypes des clusters existants signifie que les anciens prototypes
ne sont plus les bons reprsentants des donnes projetes et par consquent, il est indispensable de
prendre ces nouvelles donnes en compte pour la dtermination des nouveaux centres ou prototypes.
En rsum, la dcision de r-apprendre la carte est fonction des quatres indicateurs suivants illustrs
dans la troisime partie de la figure 6.5 :
pourcentage des points rejets
gravit des clusters danomalie
rpartition des clusters danomalie
glissement des comportements types
108

6.7. Dcision de r-apprentissage


6.7.1.1 Pourcentage des points rejets
Soit pt le pourcentage des vecteurs dapprentissage qui sont considrs comme invalides. Maintenant,
suite la projection des nouveaux vecteurs, nous pouvons distinguer les donnes valides de celles qui ne
le sont pas. Cependant, un pourcentage important de donnes invalides est une signe de lincompatibilit
de la carte avec les nouvelles donnes projetes. La question qui se pose maintenant est : quelle instant
peut-on considrer la carte SOM insuffisante et la necessit de re-apprendre la carte ? En dautre termes,
pour quel pourcentage des donnes invalides est-il invitable de rapprendre le systme ?
Pour rpondre cette question, nous reformulons le problme sous la forme dun test dhypothse
statistique. La question est alors quel est le pourcentage acceptable de points invalides ? Ceci nous amne
faire un test de comparaison de deux pourcentages. Soient Po le pourcentage observ des donnes
invalides parmi les nouvelles donnes projetes et Pt le pourcentage thorique. Dans le cas dun test
unilatral droite, les hypothses se posent donc de la facon suivante :

tel-00917605, version 1 - 12 Dec 2013

H0 : Po = Pt
H1 : Po > Pt

Dans le cas dun chantillon de grande taille, le test dhypothses pour un pourcentage repose sur
les mmes principes que le test dhypothses pour une moyenne car un pourcentage peut tre considr
comme la moyenne dun ensemble de variables de Bernoulli. Comme nous ne travaillons quavec des
bases de grande taille (> 30), on peut considrer que la distribution dchantillonnage suit une loi normale. Nous trouverons donc la valeur de z correspondant au seuil de signification dsir dans la table
de Gauss.
Le rapport critique est exprim par :
R.C. =

|Po Pt |
p

avec

p =

Po (1 Po )

et n la taille de lchantillon des nouvelles donnes projetes. Si R.C. est infrieur la valeur de la
table de Gauss z correspondant au seuil de signification , alors on ne rejette pas lhypothse H0 . Une
autre manire est de calculer la fonction de rpartition pour la valeur R.C. : si F(R.C.) > F(z ) = alors
on rejete lhypothse.
6.7.1.2 Gravit des clusters danomalie
Pour linterprtation des clusters obtenus, rappelons que nous avons admis dans le chapitre 4 que
chaque vecteur prototype dun cluster est le reprsentant des vecteurs projets dans ce cluster et avons
dtermin les variables les plus significatives de chaque prototype (les 5 top variables). De mme, nous
avons class les alertes suivant trois niveaux de svrit :low (L), medium (M) et high (H). Cf. La section 4.2.2.1 pour des exemples de valeurs numriques testes pour L, MetH. Ici et partir de ces deux
suppositions, nous dfinissons la gravit dun cluster par la somme (normalise) des svrits des 5 top
variables du vecteur prototype de ce cluster. Supposons que xi (i = 1, . . . , 5) sont les 5 top variables
et N = {L, M, H} les trois niveaux de svrit, alors la gravit dun cluster est calcule par la formule
suivante :
P5
N(xi )
Gr(Cluster) = i=1
5.H
109

Chapitre 6. Evolutivit de lArchitecture


Lapparition dun nouveau cluster de gravit importante (i.e. proche de 1) peut tre le signe de lapparition dune nouvelle attaque grave qui nexiste pas dans lensemble dapprentissage.
6.7.1.3 Rpartition des points dans les clusters danomalie
Une fois les donnes invalides regroupes dans les clusters danomalie par lalgorithme "online
Kmeans", ltape suivante consiste tudier la rpartition des donnes dans ces clusters. Une rpartition non uniforme de ces points dans les clusters est le signe quune majorit des donnes est regroupe
dans quelques clusters et le reste est dispers dans les autres clusters. Ce cumul de points dans peu de
clusters peut tre le signe dapparition de nouveaux comportements types quil faut prendre en compte.
Comme pour les autres indicateurs, nous formulons ce problme sous forme dun test dhypothse statistique sous les hypothses suivantes :

tel-00917605, version 1 - 12 Dec 2013

H0 : rpartition uniforme des points dans les clusters


H1 : rpartition non uniforme

Le test classiquement utilis pour tudier ce genre de problme est le test de Khi2 (2 ). Le test du 2
fournit une mthode pour dterminer la nature dune rpartition, qui peut tre continue ou discrte. Nous
nous occuperons ici de dterminer si une rpartition est uniforme dans le cas discret.
Soit N lensemble des points considrs comme invalides par la dcision de rejet. Cet ensemble
constitue en effet lchantillon sujet de ce test. Cet chantillon est reparti dans K classes danomalie
distinctes (C1 , . . . , C K ). Soient oi (i = 1, . . . , K) les effectifs11 observs et ei les effectifs thoriques 12 .
PK (oi ei )2
On calcule Q = i=1
ei . La statistique Q donne une mesure de lcart existant entre les effectifs
thoriques attendus et ceux observs dans lchantillon 13 . On compare ensuite cette valeur Q avec une
valeur K1, , o K 1 est le nombre de degrs de libert et est la tolrance. Si Q > K1, , et si N est
suffisamment grand, alors lhypothse davoir effectivement affaire la rpartition thorique voulue est
rejeter avec une probabilit derreur dau plus .
6.7.1.4 Glissement des comportements-types de la SOM
En projetant de nouvelles donnes dans la carte, il peut arriver que le vecteur prototype de chaque
comportement type ne soit pas un bon reprsentant des donnes projetes. Le nombre de comportements
types peut rester le mme mais leur "description" peut voluer au cours de temps. Par consquent, il est
indispensable de prendre ces nouvelles donnes en compte pour la dtermination des nouveaux centres
ou prototypes. Rappelons que la distribution des points dans chaque comportement type est suppose
suivre une loi gaussienne centre au vecteur prototype. La variance est suppose la mme pour tous les
comportements-types.
Pour contrler lvolution des vecteurs prototypes et dtecter sil y a apparition des nouveaux chantillons de distribution diffrente, nous allons poser le problme sous forme dun test statistique inspir
du test CUSUM [144, 22].
En effet, soit {X1 , . . . , XnA } lensemble des donnes dapprentissage de taille nA . Pour chaque vecteur
Xi on calcule sa distance son bmu. Alors, on obtient un vecteur derreur ErrA dfini par :
ErrA = {E1 , . . . , EnA }t
11

Ei = dist(Xi , bmui )

oi : le nombre de points projets dans le cluster i


thoriquement chaque classe doit contenir le mme nombre de points en cas dune repartition uniforme
13
plus Q sera grand, plus le dsaccord sera important.
12

110

6.7. Dcision de r-apprentissage


et qui suit aussi la mme loi avec des paramtres (A ,). Lide ici est de comparer la distribution
du vecteur derreur ErrA des points dapprentissage avec le vecteur derreur form par le cumul de ErrA
et les erreurs des nouvelles donnes projetes. Comme nous travaillons sur des chantillons de grande
taille, alors le problme se rduit un test de comparaison de moyenne de deux chantillons qui suivent
une loi normale.
Soit ErrB = {E1 , E2 , . . . , EnA , EnA +1 , . . . , EnA +k } le vecteur derreur cumul et soient A et B les
moyennes respectifs des deux vecteurs alatoires ErrA et ErrB . Pour simplifier le problme nous allons
supposer que les deux vecteurs ont la mme variance. Les hypothses de test sont alors dfinies par :
(
H0 : A = B
H1 : A , B

tel-00917605, version 1 - 12 Dec 2013

Soient XA , XB les moyennes empiriques respectives de ErrA et ErrB . Alors, XA XB est une variable
alatoire qui suit une loi normale. Comme A et B sont connues et supposes gales, le rapport critique
se calcule suivant la formule :
R.C. =

|XA XB |
XA XB

o
s
XA XB =

2 2
+
nA n B

avec = A = B . La valeur de R.C est estime partir des donnes et compare avec la valeur
z/2 correspondante de la table de Gauss. Si R.C. < z/2 , lhypothse nulle nest pas rejete et dans le
cas contraire, R.C. > z/2 , lhypothse nulle est rejete. Une autre facon pour prendre la dcision est la
comparaison des valeurs de la fonction de repartition F(R.C.) et F(z/2 ) = /2. Si F(R.C.) > /2 alors
on rejete lhypothse.

6.7.2 Dcision multi-critre


La dernire tape du processus de traitement est la phase de dcision de r-apprentissage de la carte
SOM. On a dj mentionn que la dcision de mettre jour le systme est fonction des quatre indicateurs
dj tudis.
Nous proposons dutiliser un rseau baysien comme fonction de dcision. Pour construire un rseau
de ce type (cf chapitre 5), il faut commencer par dfinir clairement les variables qui nous intressent. La
seconde tape consiste tablir le graphe dindpendance conditionnelle entre les variables. Pour finir,
il faut dterminer les lois de probabilits conditionnelles de chaque variable.
Dfinition des variables Nous possdons deux familles de variables : tout dabord la variable de dcision que nous appelerons FEU, variable discrte qui peut prendre trois valeurs :
Vert : Le systme actuel est encore valide.
Orange : Il y a une sorte dincompatibilit avec les nouvelles donnes projetes.
Rouge : Il est indispensable de r-apprendre le systme et dintgrer les nouvelles donnes dans
lensemble dapprentissage.
Lautre famille de variables est constitue des quatre indicateurs statistiques dcrivant les situations
possibles de r-apprentissage :
Invalide : la probabilit que le pourcentage des donnes invalides dpasse le seuil accept.
Rpartition : la probabilit de rpartition non-uniforme des points dans les clusters danomalie.
111

Chapitre 6. Evolutivit de lArchitecture


Gravit : La gravit maximale des clusters danomalie.
Glissement : la probabilit de glissement des prototypes des clusters existants.
Toutes ces variables sont continues avec des valeurs comprises entre 0 et 1.

tel-00917605, version 1 - 12 Dec 2013

Graphe dindpendance Le moyen le plus pratique pour construire le rseau baysien, i.e. les liaisons
entre les diffrentes variables, est dutiliser une proprit de ces rseaux, le critre de d-sparation (cf.
chapitre 5). Nous proposons dutiliser un rseau baysien naf pour relier les variables (cf. figure 6.7). Ce
type de rseau est simple et a donn des bonnes performances dans diffrentes applications. Il est bas
sur une hypothse dindpendance entre les variables sachant la variable classe.

F. 6.7 Graphe dindpendance de rseau baysien naf utilis comme fonction de dcision.

Les probabilits conditionnelles Pour que le rseau baysien dfini dans la figure 6.7 soit complet, il
reste dterminer pour chaque noeud du graphe la distribution de probabilit conditionnelle p(noeud |
parent).
Pour la variable FEU, il revient dterminer la probabilit que le systme soit instable p(FEU =
Rouge) et ses complmentaires : p(Feu = Orange) et p(FEU = Vert). Comme nous ne possdons
aucune connaissance priori du noeud FEU, nous fixons une probabilit quiprobable P(FEU) =
[1/3, 1/3, 1/3].
Pour les autres variables indicateurs, il faut dterminer la distribution de probabilit p(Indicateur |
FEU). La variable Indicateur est une variable gnrique qui reprsente chacun des quatre indicateurs
statistiques. Nous dcidons de dterminer ces valeurs partir davis dexperts. Au lieu de demander directement lexpert ces valeurs, nous proposons de lui demander dindiquer les intervalles dans lesquels
il pense que la variable FEU est gale rouge, orange ou vert.

F. 6.8 Estimation de la probabilit p(Indicator | FEU) laide dun expert.


112

6.8. Exprimentations et rsultats


Pour estimer ces probabilits, nous procdons de la manire suivante :
Comme la variable Indicateur prend ses valeurs dans lintervalle [0; 1], alors nous dcomposons
cet intervalle en trois intervalles comme cest indiqu dans la figure 6.8. Les bornes de ces intervalles (i.e., a et b) sont des paramtres dfinir par lexpert.
En plus, nous supposons, de manire trs sommaire, que :
p(Indicateur | FEU = Vert) est une gaussienne de paramtres (1 , 1 ) avec 1 [0; a].
p(Indicateur | FEU = Orange) est une gaussienne de paramtres (2 , 2 ) avec 2 [a; b].
p(Indicateur | FEU = Rouge) est une gaussienne de paramtres (3 , 3 ) avec 3 [b; 1].
La variance est suppose identique pour les trois gaussiennes (1 = 2 = 3 = ).
Il reste alors dterminer (1 , 2 , 3 , ) en fonction de a et b.

tel-00917605, version 1 - 12 Dec 2013

Calcul des paramtres Les valeurs de 1 , 2 , 3 et sont maintenant calcules en fonction de a et b.


Notons ici que les valeurs de a et b ne sont pas obligatoirement identiques pour les quatres indicateurs.
Le calcul se fait ici dune facon paramtrique. Commencons par le calcul de 2 : nous choisissons 2
comme milieu de [a; b] comme indiqu dans la figure 6.8 :
2 =

a+b
2

(6.9)

En nous basant sur une proprit fondamentale de la loi normale :"lintervalle [ 2, + 2] est
la plage de normalit au niveau de confiance 95%", et en tenant compte que la distribution sur [a,b] est
normale, alors on peut prendre : b 2 = 2 (voir figure 6.8). De cette facon on obtient :
=

ba
4

(6.10)

1 =

3a b
2

(6.11)

3 =

3b a
2

(6.12)

Dautre part on a : 1 + 2 = a, alors :

et 3 = b + 2, donc :

6.8 Exprimentations et rsultats


Cette section est consacre la validation des indicateurs statistiques proposs et tudis dans la
section prcdente. On va calculer lintrt de la dcision de r-apprendre la carte SOM pour chaque
indicateur en comparant lerreur de quantification moyenne sur toute la carte avant le r-apprentissage et
celle calcule aprs le r-apprentissage.
Comme mentionn prcdement, le processus de traitement est partag en trois phases : (1) ligne
de base, (2) traitement des nouvelles donnes et (3) dcision de r-apprentissage. La premire phase est
constitue dune carte de Kohonen qui contient 25 comportements types et un seuil Kb () calcul en
fonction de = 5% pour dtecter les donnes invalides. Cette carte avait t dtermine partir de la
base dapprentissage qui contient 41877 vecteurs caractristiques distribus sur 800 fentres temporelles.
Les donnes utilises pour ces tests sont les mmes donnes utilises pour tous les tests implments
au cours de cette tude. Rappelons que cette base de test contient 18491 vecteurs caractristiques. Le
nombre de fentres mobiles est gal 417 fentres.
113

tel-00917605, version 1 - 12 Dec 2013

Chapitre 6. Evolutivit de lArchitecture

F. 6.9 La rgle de dcision applique lindicateur des donnes invalides (sans re-apprentissage) :
(a) graphe de pourcentage des points invalides, (b) erreur de quantification de la carte et (c) tat actuel
du systme.
Le processus de validation de donnes est continu ; c..d pour chaque nouveau vecteur projet X, son
bmu est calcul et la distance d(X, bmu) est compar au seuil Kb (). La distance utilise est la distance
euclidienne.
La dernire phase (dcision) est priodique ; c..d pour chaque priode fixe, les classes danomalie
sont construites et les quatre indicateurs statistiques sont calculs. La priode choisie ici est la fentre
temporelle utilise dans toutes les expriences passes (2 heures). En fonction des valeurs obtenues des
indicateurs, la fonction de dcision baysienne reflte ltat actuel du systme (i.e. Rouge, Orange ou
Vert). Nous prsentons dans la suite les rsultats obtenus en prsentant le rsultat de la dcision en
fonction de chaque indicateur et en comparant lerreur de quantification moyenne avant et aprs le rapprentissage.
Pourcentage des donnes invalides La figure 6.9 prsente les graphes obtenus lors de lapplication
de la rgle de dcision avec uniquement lindicateur de pourcentage des donnes invalides. Pour chaque
fentre temporelle, le test de pourcentage (dcrit en 6.7.1.1) est appliqu, et la probabilit que le pourcentage de donnes invalides dpasse le seuil (i.e. rejet de lhypothse nulle) est calcul. Le pourcentage
thorique (seuil) est pris gal pt = 5%. Les bornes [a,b] utilises dans lestimation des densits de
probabilits P(Indicateur | FEU) du rseau baysien sont a = 30% et b = 50%.
La figure 6.9 (a) prsente lvolution du pourcentage des donnes invalides en fonction du temps.
Laxe des x indique les fentres temporelles et laxe des y le pourcentage des donnes invalides. Une
fois que ce pourcentage dpasse le seuil, alors lalarme rouge est dclench comme indique le graphe
(c). Dans cette implmentation, le systme nest pas mis jour pour chaque dclenchement de lalarme
rouge. Pour cette raison on voit dans le graphe (c) que lalarme rouge est presque dclenche toutes
les fentres de temps. Le graphe (b) prsente lerreur de quantification calcule en fonction de chaque
fentre temporelle. Lerreur de quantification moyenne est gale la somme des erreurs de quantifica114

tel-00917605, version 1 - 12 Dec 2013

6.8. Exprimentations et rsultats

F. 6.10 La rgle de dcision applique lindicateur des donnes invalides (avec re-apprentissage).
tion pour chaque fentre temporelle divise par le nombre des fentres. La valeur obtenue dans cette
implmentation est gale 2.75.
La figure 6.10 prsente les mmes graphes que la figure 6.9 avec une seule diffrence : le systme
est r-initialis et mis jour lors de chaque dclenchement de lalarme rouge. Comme le dcrit la figure
6.10 (a), le systme est rinitialis trois fois : aprs la premire alarme rouge au temps correspondant la
fentre numro 810, puis la fentre 830 et finalement la fentre 931. Les petits cercles indiquent linstant o le systme devient instable et lalarme rouge est dclenche. A la fin, nous calculons lerreur de
quantification moyenne et nous trouvons quelle est rduit 2.6. Donc le r-apprentissage partir de cet
indicateur nous permet bien de rduire le pourcentage des donnes invalides et lerreur de quantification
moyenne de la carte. Par consquent, les comportements types reprsentent bien les donnes projetes.

Rpartition des clusters danomalie Comme pour lindicateur des donnes invalide, nous calculons
ici la probabilit de rpartition non uniforme des donnes dans les clusters danomalies (c..d la probabilit du rejet de lhypothse nulle du test statistique). Pour calculer les paramtres du rseau baysien,
les valeurs de a et b sont choisies gales 40% et 97%.
Une rpartition non uniforme entre les donnes regroupes dans les clusters danomalies est le signe
dune accumulation de ces donnes dans quelques clusters. Ces grands clusters sont des nouveaux comportements types potentiels. Pour dmontrer la capabilit de larchitecture dtecter des nouveaux comportements types, nous avons "annul" un cluster de la carte de Kohonen, en supposant que ce cluster
nexistait pas et regard comment les donnes correspondants cet "ancien" cluster taient traites dans
la phase de dtermination des clusters danomalies. Les nouvelles donnes appartenant ce cluster sont
considres comme invalides et rejetes. La figure 6.11 prsente la rpartition des donnes du cluster
13 utilis dans cet exemple. Comme on le remarque dans la figure (c), la plupart des donnes de ce
cluster (98%) sont regroupes dans un mme cluster danomalie et 2% des donnes sont disperses dans
les autres clusters. Le nombre de clusters danomalie construits est gal 5. Alors on voit daprs cet
exemple que cette architecture peut dtecter nimporte quel nouveau comportement type qui pourrait
apparatre dans les nouvelles donnes.
115

tel-00917605, version 1 - 12 Dec 2013

Chapitre 6. Evolutivit de lArchitecture

F. 6.11 La rpartition des donnes rejetes dans notre exprience. La figure (a) montre ltat de
lalarme, la figure (b) donne la probabilit de la rpartition non uniforme et la figure (c) prsente la
distribution des donnes entre les clusters.
Glissement des comportements-types A chaque priode de temps (fentre temporelle) et pour tester
la validit des clusters existants, le test statistique dhypothse dcrit en 6.7.1.4 est excut. Les bornes
dintervalle utilises pour calculer les paramtres du rseau baysien sont choisies gales {a = 40%, b =
95%}. Nous calculons la probabilit de rejet de lhypothse nulle, c..d la probabilit que les moyennes
des vecteurs derreurs soient diffrents.
Les figures 6.12 et 6.13 prsentent le comportement du systme en utilisant les donnes de tests.
Dans la figure 6.12, la rgle de dcision a dclench lalarme rouge deux fois dans lintervalle de temps
compris entre les deux fentres temporelles 900 et 950 (figure (a)). Dans cet intervalle, et comme on le
remarque dans la figure (c), la probabilit a dpass 90%. De mme, la figure (b) indique que lerreur de
quantification atteint la valeur maximale dans cet intervalle.
Une deuxime exprience est excute sur les mmes donnes, mais cette fois avec rapprentissage
du systme aprs chaque dclenchment de lalarme rouge. La figure 6.13 (a,b et c) illustre le comportement du systme. Aprs le premier dclenchement de lalarme rouge, le systme est rinitialis et la
carte de Kohonen est reconfigure avec les nouvelles donnes projetes. On remarque maintenant que le
systme na pas dclench la deuxime alarme rouge linstant o il la dclench dans la premire exprience (figure 6.13 (a)). La figure (b) montre le graphe de lerreur de quantification. Cette erreur passe
de 2.7 avant le r-apprentissage 2.3 aprs le re-apprentissage du systme. Alors on constate dune facon
claire que la mise jour du systme a amlior les performances du systme.

116

6.9. Conclusion

Rouge

Orange
800

850

900

950

1000

1050

1100

1150

1200

1250

(a) FEU: Vert, Orange et Rouge


2.65

2.6

2.55

2.5
700

800

900
1000
1100
(b) Erreur de Quantification

1200

1300

1
0.9

tel-00917605, version 1 - 12 Dec 2013

0.8
0.7
0.6
0.5
800

850

900

950 1000 1050 1100


(c) Probabilit de violation

1150

1200

1250

F. 6.12 Comportement de systme suivant lindicateur de glissement (sans r-apprentissage) : (a)


tat de lalarme, (b) erreur de quantification et (c) probabilit de glissement.

6.9 Conclusion
Dans ce chapitre, nous avons pass en revue laspect dynamique de larchitecture de filtrage et les
problmes qui peuvent se prsenter en appliquant cette architecture en temps rel.
Nous avons tout dabord prsent les notions de rejet en distance et ambiguit utiliss dans les systmes de reconnaissances de formes et montrer comment utiliser ces notions dans les cartes de Kohonen
pour dtecter les donnes abrrantes.
Nous avons dfini la notion de ligne de base de scurit et prsent les composants principaux dans
le cas de larchitecture de filtrage tudie.
Nous avons ensuite trait les trois problmes que lon rencontre en appliquant cette architecture en
temps rel et qui sont : (a) apparition des nouveaux IPinterne , (b) apparition des nouveaux types dalertes,
et (c) volution des comportements-types existants.
Le premier problme ne pose aucun changement dans larchitecture car cette dernire est modulaire
en fonction des IPinterne . Seul le profil des nouveaux IPinterne est dtermin en fonction des comportements types dj existants. Cependant le deuxime problme pose le reapprentissage de tout le systme
car lapparition dun nouveau type dalerte provoque un changement du nombre dattributs du vecteur
caractristique utilis pour crer les comportements types utiliss comme ligne de base de cette architecture.
117

Chapitre 6. Evolutivit de lArchitecture

Rouge

Orange
800

850

900

950

1000

1050

1100

1150

1200

1250

(a) FEU: Vert, Orange et Rouge


2.7
2.6
2.5
2.4
2.3
800

900

1000

1100

1200

1300

(b) Erreur de Quantification


1
0.9

tel-00917605, version 1 - 12 Dec 2013

0.8
0.7
0.6
0.5
800

850

900

950

1000

1050

1100

1150

1200

1250

(c) Probabilit de Violation

F. 6.13 Comportement de systme suivant lindicateur de glissement (avec r-apprentissage) : (a)


tat de lalarme, (b) erreur de quantification et (c) probabilit de violation.
Le troisime problme nous amne une tude statistique dans laquelle nous avons propos quatre
indicateurs statistiques et une fonction de dcision permettant de dterminer ltat actuel du systme.
Trois tats sont dfinis avec des seuils fixs par lexpert lui mme : (1) vert, c..d le systme est stable,
(2) orange, le systme commence tre insuffisant et (3) rouge, le systme est instable et il faut le
reapprendre.
Finalement et pour valuer ces indicateurs, le comportement du systme est tudi sur des donnes
de test. Les rsultats obtenus montrent que ces indicateurs peuvent donner ladministrateur une bonne
ide de lvolution du systme en fonction du temps et indiquer les moments critiques o il faudrait que
le systme se reconfigure.

118

Chapitre

tel-00917605, version 1 - 12 Dec 2013

Conclusions et Perspectives
Ce chapitre rcapitule nos travaux et passe en revue les contributions principales apportes. Des
directions de recherche possibles sont suggres.

7.1 Sommaire et Conclusions


Cette thse propose une nouvelle solution au problme dinondation dalarmes gnres par les systmes de dtection des intrusions sur les rseaux. Ces alarmes surchargent les oprateurs humains en
dclenchant des milliers de fausses alarmes chaque jour. Nous proposons une architecture de filtrage
qui utilise des mthodes de classification non-supervise comme les cartes de Kohonen statiques et dynamiques et des mthodes de classification supervise comme les rseaux baysiens et les machines
vecteurs de support. Cette architecture est compose de deux phases principales. Dans la premire phase,
nous avons commenc partir des donnes brutes gnres par le NIDS pour construire une base des
vecteurs caractristiques dont chacun rsume le comportement de deux machines en connexion dans une
fentre de temps glissante (4.2.1). Ensuite, en se basant sur le principe que ce comportement peut tre
similaire pour plusieurs machines en connexion et dans des temps diffrents, nous avons cherch dterminer un certain nombre de comportements types partir des vecteurs caractristiques en utilisant des
mthodes de classification non-supervise comme les cartes auto-organizatrices de Kohonen statiques et
dynamiques (4.2.2). Nous avons dmontr que ces comportements types peuvent tre significatifs des
scnariis dattaques potentiels (4.3.2).
Dans la deuxime phase, nous avons utilis les comportements types pour calculer le profil de chaque
machine interne dans le rseau (5.4.1). Ayant calcul ce profil, nous avons appliqu des mthodes de
classification supervise telles que les rseaux baysiens et les SVM pour dterminer si une machine
interne est vise par une attaque ou non (5.4.2). Les rsultats obtenus sont satisfaisants : pour un jeu de
donnes relles, nous avons dtect toutes les vraies attaques et filtr plus de 80% des fausses alarmes
(5.4.2.6).
La dernire partie de nos travaux concerne le traitement de laspect volutif de larchitecture. Ayant
dtermin trois problmes qui peuvent se prsenter lors de lutilisation de larchitecture en temps rel,
nous avons propos des solutions pour rsoudre ces problmes. Tout dabord, nous avons trait le problme dvolution de la plate forme surveille et avons montr que notre architecture peut sadapter
ces changements sans aucune altration (6.5.1). Ensuite, nous avons abord le problme dapparition
de nouvelles alarmes (volution du NIDS) et avons envisag deux voies de solution (6.5.2). Enfin, nous
avons tudi le problme dvolution des comportements types dj crs. Pour dtecter lapparition de
nouveaux comportements types ou lvolution des anciens comportements, nous avons dtermin quatre
119

Chapitre 7. Conclusions et Perspectives


indicateurs statistiques (6.7.1). Ces indicateurs sont utiliss par une fonction de dcision qui indique
lutilisateur la ncessit de reapprendre larchitecture. Cette fonction de dcision intgre les prfrences
de lutilisateur (6.7.2).

7.2 Perspectives
Larchitecture que nous avons progressivement mise au point nest pas une architecture fige. Elle
offre de nombreuses perspectives :

tel-00917605, version 1 - 12 Dec 2013

Catgorisation des types dattaques Nous avons signal dans le chapitre 6 (6.5.2) que lapparition
des nouveaux types dattaques entrane la reconfiguration de larchitecture toute entire pour tenir compte
de ces nouveaux types. Nous avons propos deux voies pour trouver une solution ce problme sans
pouvoir les implmenter dans cette tude. Une nouvelle tape pourrait tre, par exemple, dimplmenter
ces deux propositions.
Dcision de r-apprentissage Des perspectives sur le module de "suivi" de larchitecture et surtout
de la phase de r-apprentissage sont nombreuses. Pour linstant, les paramtres sont fixs par lexpert
et figs. Il serait possible de demander lutilisateur si notre dcision de r-apprentissage est sense,
et ventuellement corriger automatiquement les paramtres pour tenir compte dventuels carts entre
notre proposition de dcision et le choix de lexpert.
Architecture temps rel Le mode de traitement utilis dans la phase de prtraitement temporelle est
un mode pseudo-rel qui utilise les fentres temporelles glissantes pour extraire les vecteurs des caractristiques. Sachant quune attaque est caractrise par une suite dvnements conscutifs, nous pourrions
utiliser des outils de modlisation temporelle comme les rseaux baysiens temporels pour viter lutilisation des fentres temporelles. Une autre alternative pourrait tre le clustering de squences temporelles
par lutilisation des variantes de SOM qui traitent les squences temporelles.
Application aux journaux issus des HIDS Une dernire perspective, serait dappliquer notre architecture sur des journaux issus des systmes de dtection dintrusions bass-hte et qui utilisent lapproche
comportementale. Ces systmes crent des profils normaux pour les utilisateurs et dclenchent en cas de
dviation des alarmes. Or, un changement brusque du comportement est marqu en tant quirrgulier et
identifi comme intrusion. Ce mode de dtection est une grande source de fausses alarmes. Nous pouvons appliquer notre architecture de filtrage sur ce genre de donnes en crant des comportements types
des processus excuts par les utilisateurs.

120

Annexe

tel-00917605, version 1 - 12 Dec 2013

Caractristiques des clusters

121

SCAN
Socks
Proxy attempt
Scan Proxy Port
8080 attempt
SNMP
request
TCP
Incorrect password
POP

WEB-Frontpage ...
request

Incorrect Password
POP
SCAN
SOCKS
Proxy attempt
Scan Proxy Port
8080 attempt

Incorrect User POP

Attack-responses
403 Forbidden

Policy FTP anonymous login attempt

Incorrect User POP

Attack-responses
403 Forbidden
Scan nmap TCP
Policy FTP anonymous login attempt
Virus .exe file attachment

Backdoor typot trojan traffic

Incorrect Password
POP
Scan nmap TCP

WEB-IIS
nsiislog.dll access

T. A.1 Les Top(5) caractristiques des clusters classifis comme attaque obtenus lors de lapprentissage de la carte partir des donnes sans
pondration.
Cluster13
Cluster22
Cluster24
Cluster25
Attack-responses
403 Forbidden
WEB-Frontpage
shtml.dll access
Access FTP admin

Rang
Cluster5
dalerte
1

2
3

WEB-IIS
_mem_bin
access
WEB-Frontpage ...
request

122

tel-00917605, version 1 - 12 Dec 2013

Annexe A. Caractristiques des clusters

123

Scan
Proxy
8080 attempt

SNMP request
tcp

Mot de passe incorrect POP

Policy
FTP
anonymous
login attempt

T. A.2 Les TOP(5) caractristiques


pondration de niveau 1.
Rang
cluster 1
dalerte
1
Scan
Socks
Proxy attempt
Incorrect User
POP
Virus.exe file attachment
WEB-MISC
http directory
traversal
Virus .pif file attachment
Virus .bat file
attachment

Incorrect password POP


Virus.exe file attachment
Scan
Socks
Proxy attempt
Scan Proxy Port
8080 attempt
Virus .pif file attachment

AttackResponses
403 Forbidden
WEB-IIS
_mem_bin
access
WEBFrontpage
shtml.dll access
Policy
FTP
anonymous
login attempt
WEBFrontpage
...request

AttackResponses
403 Forbidden
Policy
FTP
anonymous
login attempt
Scan
Socks
Proxy attempt

Virus Mimail.E

Scan Proxy Port


8080 attempt

cluster22

cluster11

cluster5

cluster3

WEB-IIS nsiislog.dll access

Mot de passe incorrect POP

AttackResponses
403 Forbidden
Scan nmap TCP

Virus .exe file


attachment

cluster13

des clusters classifis comme attaque obtenus lors de lapprentissage de la carte partir des donnes de

tel-00917605, version 1 - 12 Dec 2013

Scan
SOCKS
Proxy
attempt
Scan Proxy
Port 8080 attempt

Attackresponses
403 Forbidden
SNMP
request tcp

Web-misc
http
directory
traversal
Web-iis
nsiislog.dll
access
nmap

Web-attacks
cc command
attemps

Attackresponses
403 Forbidden
Scan
SOCKS
Proxy
attempt
WebFrontpage
shtml.dll
access
Scan Proxy
Port 8080 attempt

Scan
TCP

T. A.3 Les Top(5) caractristiques des clusters classifis comme attaques


pondration de niveau 2.
Rand
Cluster1
Cluster3
Cluster13
Cluster14
dalerte
1
Incorrect
User POP

Attackresponses
403 Forbidden
Scan
SOCKS
Proxy
attempt
WebFrontpage
shtml.dll
access
Scan Proxy
Port 8080 attempt
SNMP
request tcp

Incorrect
User POP

Cluster19

Backdoor
typot trojan
trafiic

Incorrect
Password
POP

Cluster22

VIRUS Mimail.C

Incorrect
User POP

Cluster24

VIRUS Mimail.C

Virus-CGI
scriptalias
access

Incorrect
User POP

Cluster25

obtenus lors de lapprentissage de la carte partir des donnes de

VIRUS Mimail.C

Virus-CGI
scriptalias
access

Web-attacks
cc command
attemps

VIRUS Mimail.E

Incorrect
Password
POP

Web-CGI
test-cgi
access

Virus-CGI
scriptalias
access

Web-CGI
test-cgi
access

Web-attacks
cc command
attemps
Access FTP
admin

FTP
List
directory
traversal
attempty
Policy FTP
anonymous login
attempt

124

SNMP
request tcp

Virus .exe
file attachment

tel-00917605, version 1 - 12 Dec 2013

Annexe A. Caractristiques des clusters

125

Web-CGI
aglimpse
access

Web-CGI
alibaba.pl
access

WEB-IIS
doctodep.btr
access
Virus Mimail.C

Virus
.exe file
attachment

Virus
.exe file
attachment
MISC
source
port 53 to
<1024

SCAN
Proxy
Port 8080
attempt

Webattacks
id command
attempt

WEBCGI
htmlscript
attempt

WEBColdfusion
exprcalc
access

WEBFrontpage
service.cnf
access

Incorrect
User
POP

P2P BitTorrent
announce
request

or-

Web-Misc
der.log access

Web-CGI whoisraw.cgi arbitrary


command execution attempt

SNMP
Agent/tcp
request

Attackresponses
403 Forbidden

VIRUS
.hta file
attachement

VIRUS
.Reg file
attachment
VIRUS
.dll file
attachment
Attackresponses
403 Forbidden
SCAN
SOCKS
Proxy
attempt
Attackresponses
403 Forbidden
WEBAttacks
mail
command
attempt
WEBFrontpage
service.cnf
access
WEBMISC
long
basic
authorization
string
VIRUS
Mimail.E

Web-IIS
nsiislog.dll
access
IMAP
authenticate
literal
overflow
attempt
WEB-IIS
Codered
v2
root.exe
access
MISC
rsyncd
overflow
attempt
Incorrect
User
POP
WebMisc
order.log
access

Cluster24

Cluster22

Cluster16

Cluster15

Cluster13

lors de lapprentissage de la carte partir des donnes de

Bad-traffic
udp port 0
traffic

T. A.4 Les Top(5) caractristiques des clusters classifis comme attaques obtenus
pondration de niveau 3.
Rang
Cluster1
Cluster5
Cluster7
Cluster9
Cluster11
dalerte
AttackDNS zone Web-CGI formmail Web-IIS
1
Web-cgi
responses
transfer TCP arbitrary aommand nsiistest-cgi
403 Forbidlog.dll
execution attempt
access
den
access
Web-CGI
WebWeb-attacks Web-coldfusion
2
Web-IIs
Frontpage formmail
cc command exprcalc access
iisadmin
arbitrary
wriattempt
access
aommand
teto.cnf
execution
access
attempt
FTP
List
Policy FTP FTP List directory Web3
Access
directory
Misc
MKD. pos- traversal attempt
FTP
order.log traversal
sible warez
backup
attempt
access
site

tel-00917605, version 1 - 12 Dec 2013

tel-00917605, version 1 - 12 Dec 2013

Annexe A. Caractristiques des clusters

126

Annexe

tel-00917605, version 1 - 12 Dec 2013

Adquation entre les scnarios dattaques et


les clusters

127

Annexe B. Adquation entre les scnarios dattaques et les clusters


T. B.1 Adquation(2
) entre les scnarios dattaques de la base dapprentissage (haut) et la base de
test (bas) et le TOP(i) caractristique du cluster correspondant (donnes pondres de niveau 2).
Scnario
1

tel-00917605, version 1 - 12 Dec 2013

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

type de scnario
Access to unauthorized page
Brute Force POP3
Brute Force POP3
Access to unauthorized page
Brute Force FTP
Crawler Web
Brute Force POP3
Vulnerability Scanner
Brute Force FTP
SNMP attack
Brute Force FTP
Vulnerability Scanner
Web attack > IIS
Brute Force POP3
Web attack (IIS) >
Apache
MP3 exchange files
via FTP

cluster
1

Top(1)
2


Top(2)


Top(3)


Top(4)


Top(5)


22
22
1

2

2

2


















19
1
25
25
14
19
19
25
1
24
1


2

2

2




2


2






2




2








2




2

2







2




2


2






2



2

2





13

T. B.2 Adquation(2
) entre les scnarios dattaques de la base dapprentissage (haut) et la base de
test (bas) et le TOP(i) caractristique du cluster correspondant (donnes pondres de niveau 3).
Scnario
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

128

type de scnario
Access to unauthorized page
Brute Force POP3
Brute Force POP3
Access to unauthorized page
Brute Force FTP
Crawler Web
Brute Force POP3
Vulnerability Scanner
Brute Force FTP
SNMP attack
Brute Force FTP
Vulnerability Scanner
Web attack > IIS
Brute Force POP3
Web attack (IIS) >
Apache
MP3 exchange files
via FTP

cluster
11

Top(1)
2


Top(2)


Top(3)


Top(4)


Top(5)


24
24
11



2


















15
11
9
1
7
5
15
1
15
13
16


2


2




2

2

2






2




2



2





2




2

2


2




2

2




2



2





2




2





22

Bibliographie

tel-00917605, version 1 - 12 Dec 2013

[1] D. Alahakoon, S. K. Halgamuge, and B. Srinivasan. Dynamic self-organizing maps with controlled growth for knowledge discovery. IEEE Transactions on Neural Networks, 11(3) :601615,
May 2000.
[2] M. S. Aldenderfer and R. K. Cluster Analysis. Quantitative Applications in the Social Sciences.
Sage Publications, 1984.
[3] J. Allen, A. Christie, W. Fithen, J. McHugh, J. Pickel, and E. Stoner. State of the practice of
intrusion detection technologies. Technical report, Carnegie Mellon University, January 2000.
[4] M. Almgren, H. Debar, and M. Dacier. A lightweight tool for detecting web server attacks. In
Proceedings of the Network and Distributed System Security Symposium (NDSS 2000), pages
157170, February 2000.
[5] M. Almgren and U. Lindqvist. Application-integrated data collection for security monitoring. In
S. Verlag, editor, Proceedings of the 4th Workshop on Recent Advances in Intrusion Detection
(RAID), pages 2236, 2001.
[6] E. Amoroso. Intrusion Detection : An Introduction to Internet Surveillance, Correlation, Trace
Back, and Reponse. Intrusion.net Books, February 1999.
[7] M. R. Anderberg. Cluster Analysis for Applications. Academic Press, 1973.
[8] J. P. Anderson. Computer security threat monitoring and surveillance. Technical report, James P.
Anderson Company, Fort Washington, PA April 1980.
[9] P. Arabie, L. J. Hubert, and G. D. Soete. Clustering and Classification. World Scientific Publishing, 1996.
[10] H. Attias. Inferring parameters and structure of latent variable models by variational Bayes. In
I. K. B. Laskey and e. Henri Prade, editors, Proceedings of the 15th Conference on Uncertainty in
Artificial Intelligence (UAI-99), pages 2130, S.F., Cal., July-30-August 1999. Morgan Kaufmann
Publishers.
[11] S. Axelsson. Research in intrusion detection systems : A survey. Technical Report TR :98-17,
Departement of Computer Engineering, Chalmers University of Technology, Goteborg, Sweden,
August 1998.
[12] S. Axelsson. The base-rate fallacy and the difficulty of intrusion detection. ACM Transactions on
Information and System Security (TISSEC), 3(3) :186205, 2000.
[13] S. Axelsson. Intrusion detection systems : A survey and taxonomy. Technical report, Departement
of Computer Engineering, Chalmers University of Technology, Goteborg, Sweden, March 2000.
129

Bibliographie
[14] G. Ball and D. Hall. Isodata, a novel method of data analysis and pattern classification. Technical
report, Stanford Research Institute, Menlo Park, CA, 1965.
[15] D. Barbara, J. Couto, S. Jajodia, , and N. Wu. Adam : a testbed for exploring the use of data
mining in intrusion detection. SIGMOD Rec., 30(4) :1524, 2001.
[16] D. Barbara, J. Couto, S. Jajodia, , and N. Wu. Adam : a testbed for exploring the use of data
mining in intrusion detection. In Proceedings of the IEEE SMC Information Assurance Worksho,
West Point, NY, 2001.
[17] S. M. Bellovin. Packets found on an internet. Computer Communications Review, 23(3) :2631,
1993.
[18] J. C. Bezdek. Some new indexes of cluster validity. IEEE Trans. Syst., Man, Cybern., 28 :301315,
1998.

tel-00917605, version 1 - 12 Dec 2013

[19] C. Bishop and M. Tipping. A hierarchical latent variable model for data visualisation. IEEE
T-PAMI, 3(20) :281293, 1998.
[20] P. S. Bradley and U. M. Fayyad. Refining initial points for k-means clustering. In Proceedings of
the 15th International Conference on Machine Learning, pages 9199, 1998.
[21] D. Brugali and K. Sycara. Intrusion detection via fuzzy data mining. In 12th Annual Canadian
Information Technology Security Symposium, pages 109122, Ottawa, Canada, June 2000.
[22] F. Bryan, I. Darryl, and Mackenzie. Cusum environmental monitoring in time and space. Environmental and Ecological Statistics, 10 :231247, March 2003.
[23] W. L. Buntine. A guide to the literature on learning probabilistic networks from data. IEEE
Transactions on Knowledge and Data Engineering, 8 :195210, 1996.
[24] C. Cachin, M. Dacier, O. Deak, K. Julisch, B. Randell, J. Riordan, A. Tscharner, A. Wespi, and
C. West. Towards a taxonomy of intrusion detection systems and attacks. MAFTIA Project
IST-1999-11583, IBM Research, Septembre 2001.
[25] S. Canu. Machine noyaux pour lapprentissage statistique. Techniques de lingnieur, 5, 2007.
[26] R. Casimir. Diagnostic des dfauts des machines asynchrones par Reconnaissance des formes.
PhD thesis, Ecole centrale de Lyon, Dcembre 1992.
[27] P. Cheeseman and J. Stutz. Bayesian classification (autoclass) : Theory and results. Advances in
Knowledge Discovery and Data Mining, pages 607611, 1996.
[28] W. R. Cheswick and S. M. Bellovin. Firewalls and Internet Security : Repelling the Wily Hacker.
Addison-Wesley Publishing Company, 1994.
[29] C. K. Chow and C. Liu. Approximating discrete probability distributions with dependence trees.
IEEE Transactions on Information Theory, 3(14) :462467, 1968.
[30] C. Clifton and G. Gengo. Developing custom intrusion detection filters using data mining. In In
Military Communications International Symposium (MILCOM2000), October 2000.
[31] F. B. Cohen. Information system attacks : A preliminary classification scheme. In Computer and
Security, 1 :2946, 1997.
[32] J. Cohen. Statistical power analysis for the behavioral sciences. Lawrence Erlbaum Assoc.,
Hillsdale, New Jersey, 2nd edition edition, 1988.
[33] G. F. Cooper. The computational complexity of probabilistic inference using bayesian belief
networks. Artificial Intelligence, 42(2-3) :393405, 1990.
[34] G. F. Cooper and E. Herskovits. A bayesian method for the induction of probabilistic networks
from data. Machine Learning, 9 :309347, 1992.
130

[35] S. Corporation. Saint documentation contents. http ://www.saintcorporation.com/.


[36] F. Cuppens. Managing alerts in a multi-intrusion detection environment. In Proceedings of the
17th Annual Computer Security Applications Conference (ACSAC), pages 2231, 2001.
[37] F. Cuppens and A. Mige. Alert correlation in a cooperative intrusion detection framework. In
Proceedings of the 2002 IEEE Symposium on Security and Privacy, pages 202215, Oakland, CA,
May 2002.
[38] F. Cuppens and R. Ortalo. LAMBDA : A language to model a database for detection of attacks.
In Proc. of RAID 2000, pages 197216, 2000.
[39] P. Dagum and M. Luby. Approximating probabilistic inference in bayesian belief networks is
NP-hard. Artificial Intelligence, 60(1) :141153, 1993.
[40] O. Dain and R. K. Cuningham. Fusing hetergenous alert streams into scenarios. In Proceedings
of the Eighth (ACM) Conference on Computer and Communications Security, pages 113, 2001.

tel-00917605, version 1 - 12 Dec 2013

[41] O. M. Dain and R. K. Cunningham. Building scenarios from a heterogeneous alert stream. In
Proceedings of the IEEE SMC Information Assurance Workshop, West Point, NY, June 2001.
[42] D. Davies and D. Bouldin. A cluster separation measure. IEEE Transactions on Pattern Analysis
and Machine Learning, 1(2) :224227, 1979.
[43] A. P. Dawid. Applications of a general propagation algorithm for probabilistic expert systems.
Statistics and Computing, 2 :2536, 1992.
[44] H. Debar. Application des Rseaux de Neurones la dtection dintrusions sur les systmes
informatiques. PhD thesis, Universit PARIS 6, juin 1993.
[45] H. Debar, M. Dacier, and A. Wespi. A revised taxonomy for intrusion detection systems. Technical
Report 55(7-8), Annales des Tlcommunications, 2000.
[46] H. Debar, B. Morin, F. Cuppens, F. Autrel, L. M, B. Vivinis, S. Benferhat, M. Ducass, and
R. Ortalo. Dtection dintrusions : Corrlation dalertes. Revue Technique et Science Informatique
(TSI 23), pages 359390, 2004.
[47] H. Debar and A. Wespi. Aggregation and correlation of intrusion alerts. In L. S. Verlag, editor,
Proceedings of the 4th Workshop on Recent Advances in Intrusion Detection (RAID 2001), pages
85103, Berlin, 2001.
[48] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via the
em algorithm. Journal of the Royal Statistical Society, B(39) :139, 1977.
[49] D. E. Denning. An intrusion-detection model. IEEE Transaction on Software Engineering,
13(2) :222232, 1987.
[50] M. Dittenbach, A. Rauber, and D. Merkl. the hierarchical structure in data using the growing
hierarchical self-organizing map. Neurocomputing, 48(1-4) :199216, November 2002.
[51] B. Dubuisson. Diagnostic et reconnaissance des formes. Srie diagnostic et Maintenance. Herms,
Paris, 1990.
[52] B. Dubuisson and M. Masson. A statistical decision rule with incomplete knowledge about classes.
Pattern Recognition, 26(1) :155165, 1993.
[53] S. Eckmann. Translating snort rules to statl scenarios. In Proceedings of the 4th International
Workshop on the Recent Advances in Intrusion Detection (RAID2001), pages 6984, Octobre
2001.
[54] S. Eckmann, G. Vigna, and R. Kemmerer. STATL : An attack language for state-based intrusion
detection. Journal of Computer Security, 10(1/2) :71104, 2002.
131

Bibliographie
[55] G. Elidan and N. Friedman. Learning the dimensionality of hidden variables. In Proc. Seventeenth
Conf. on Uncertainty in Artificial Intelligence (UAI), 2001.
[56] E. Erwin, K. Obermayer, and K. J. Schulten. Convergence properties of self organizing maps. In
Proceedings of ICANN91, pages 409414, 1991.
[57] T. Escamilla. Intrusion Detection : Network Security Beyond the Firewall. John Wiley and Sons,
Inc., New York, NY., 1998.
[58] M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters
in large spatial databases with noise. In A. Press, editor, Proceedings of the 2nd International
Conference on Knowledge Discovery and Data Mining (KDD96), pages 226231, 1996.

tel-00917605, version 1 - 12 Dec 2013

[59] A. Faour, P. Leray, and B. Eter. Automated filtering of network intrusion detection alarms. In First
Joint Conference on Security in Network Architectures (SAR) and Security of Information Systems
(SSI), pages 277291, Seignosse, France, 2006.
[60] A. Faour, P. Leray, and B. Eter. A SOM and bayesian network architecture for alert filtering in
network intrusion detection systems. In 2nd IEEE International Conference On Information and
Communication Technologies : From Theory to Applications (ICTTA 2006), pages 11611166,
Damascus, Syria, 2006.
[61] A. Faour, P. Leray, and B. Eter. Growing hierarchical self-organizing map for alarm filtering in
network intrusion detection systems. In the first International Conference on New Technologies,
Mobility and Security (NTMS), Paris-France, May 2007. Elseiver.
[62] A. Faour, P. Leray, and C. Foll. Rseaux baysiens pour le filtrage dalarmes dans les systmes de
dtection dintrusions. In Atelier Modles Graphiques Probabilistes, 5mes journes dExtraction
et de Gestion des Connaissances (EGC 2005), pages 2533, Paris, France, jan. 2005.
[63] D. H. Fisher. Improving inference through conceptual clustering. In M. Kaufmann, editor, Proceedings of the Sixth National Conference on Artificial Intelligence, pages 461465, 1987.
[64] S. Forrest, S. A. Hofmer, A. Somayaji, and T. Longstaff. A sense of self for unix processes. In
I. Press, editor, IEEE Symposium on Security and Privacy, Oakland, CA, May 1996.
[65] J. C. Foster. Realsecure 7.0. iss matures its ids into an enterprise-class, best of breed solution.
Foundstone, Inc., Novembre 2002.
[66] J. Frank. Artificial intelligence and intrusion detection : Current and future directions. In Proceedings of the National 17th Computer Security Conference, 1994.
[67] N. Freidman, D. Geiger, and M. Goldszmidt. Bayesian network classifiers. Machine Learning,
29 :131163, 1997.
[68] B. Fritzke. Growing grid - a self-organizing network with constant neighborhood range and adaption strength. Neural Processing Letters, 2(5) :913, 1995.
[69] K. Fukunaga. Introduction to Statistical Pattern Recognition. Academic Press, New York, 1972.
[70] Fyodor. http ://www.insecure.org/nmap.
[71] D. Geiger. An entropy-based learning algorithm of bayesian conditional trees. In M. K. Publishers,
editor, Uncertainty in Artificial Intelligence : proccedings of the Eighth Conference (UAI-1992),
pages 9297, San Mateo, CA, 1992.
[72] D. Geiger and D. Heckerman. Knowledge representation and inference in similarity networks and
bayesian multinets. Artificial Intelligence, 82(1-2) :4574, 1996.
[73] W. Gilks, S. Richardson, and D. Spiegelhalter. Markov chain Monte Carlo in practice. Chapman
and Hall, 1996.
132

[74] A. D. Gordon. Classification. Chapman and Hall, 1999.


[75] R. Graham. Faq : Network intrusion detection systems. Version 0.8.3, March 2000.
[76] S. Guha, R. Rastogi, and K. Shim. Cure : An efficient clustering algorithm for large databases. In
A. Press, editor, Proceedings of the ACM SIGMOD International Conference on Management of
Data (SIGMOD 1998), pages 7384, 1998.
[77] L. Halme and K. R. Bauer. A taxonomy of anti-intrusion techniques. In 18th National Information
Systems Security Conference, pages 163172, Baltimore, MD October 1995.
[78] J. Han and M. Kamber. Data Mining : Concepts and Techniques. Morgan Kaufmann Publisher,
2000.
[79] J. Hartigan. Clustering Algorithms. Wiley, New york, NY, 1975.
[80] D. Heckerman, D. Geiger, and D. M. Chickering. Learning bayesian networks : The combination
of knowledge and statistical data. Machine Learning, 20 :197243, 1995.

tel-00917605, version 1 - 12 Dec 2013

[81] J. L. Hellerstein and S. Ma. Mining event data for actionable patterns. In The Computer Measurement Group, 2000.
[82] K. Hirata. A classification of abduction : Abduction for logic programming. Machine Intelligence,
Oxford University Press, 1(14) :397424, 1995.
[83] S. A. Hofmeyr, S. Forrest, and A. Somayaji. Intrusion detection using sequences of system calls.
Computer Security, 6 :151180, 1998.
[84] R. Howard and J. Matheson. Influence diagrams. Readings of the Principles and Applications of
Decision Analysis, 2 :721762, 1982.
[85] K. Ilgun, R. Kemmer, and P. Porras. State transition analysis : a rule-based intrusion detection
approach. IEEE Transactions on Software Engineering, 21(3), March 1995.
[86] K. Ilung. Ustat : A real-time intrusion detection system for unix. In the IEEE Symposium on
Security and Privacy, pages 1628, Oakland, CA, 1993.
[87] K. A. Jackson, D. H. DuBois, and C. A. Stallings. An expert system application for network intrusion detection. In 14th National Computer Security Conference, National Institute of Standards
and Technology/National Computer Security Center,, pages 215225, Washington, DC October
1991.
[88] A. K. Jain and R. C. Dubes. Algorithms for Clustering Data. Prentice-Hall, 1988.
[89] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering : A review. ACM Computing Surveys,
31(3) :264323, 1999.
[90] N. Jardine and R. Sibson. Mathematical Taxonomy. Wiley, London, 1971.
[91] F. V. Jensen. An introduction to Bayesian Networks. Taylor and Francis London, United Kingtom,
1996.
[92] F. V. Jensen. Bayesian Networks and Decision Graphs. Springer Verlag Ed., Berlin, Germany,
2001.
[93] M. Jordan, Z. Ghahramani, T. Jaakkola, and L. Saul. Learning in Graphical Models,, chapter
An introduction to variational methods for graphical models, pages 105162. Kluwer Academic
Publishers, Boston, 1998.
[94] K. Julisch. Mining alarm clusters to improve alarm handling efficiency. In Proceedings of the
17th Annual Computer Security Applications Conference (ACSAC), December 2001.
[95] K. Julisch. Using Root Cause Analysis to Handle Intrusion Detection Alarms. PhD thesis, Universit de Dortmond, Dortmond, 2003.
133

Bibliographie
[96] K. Julish and M. Dacier. Mining intrusion detection alarms for actionable knowledge. In 8th ACM
International Conference on Knowledge Discovery and Data Mining, pages 366375, 2002.
[97] J. Justen. Nessus 2.0.8. Technical report, Network and Systems Professionals Association Inc.,
2003.
[98] G. Karypis, E.-H. Han, and V. Kumar. Chameleon : Hierarchical clustering using dynamic modeling. IEEE Computer, 32(8) :6875, 1999.
[99] K. Kendall. A database of computer attacks for the evaluation of intrusion detection systems. Masters thesis, Department of Electrical Engineering and Computer Science, Massachusetts Institute
of Technology, June 1999.
[100] R. L. Kennedy, Y. Lee, B. V. Roy, C. D. Reed, and R. L. Lippman. Solving Data Mining Problems
Through Pattern Recognition. Prentice Hall, Englewood Cliffs, N.J, 1998.

tel-00917605, version 1 - 12 Dec 2013

[101] E. Keogh and M. Pazzani. Learning augmented bayesian classifiers : A comparaison of


distributed-based and classification-based approaches. In the Seventh International Workshop on
Artificial Intelligence and Statistics, pages 225230, 1999.
[102] M. Klemettinen. A Knowledge Discovery Methodology for Telecommunication Network Alarm
Data. PhD thesis, University of Helsinki, Finland, 1999.
[103] T. Kohonen. Self organized formation of topological correct feature maps. Biological Cybernetics,
43, 1982.
[104] T. Kohonen. Self organization and associative memory. Springer Verlag, 2nd ed edition, 1984.
[105] T. Kohonen. Self Organizing Maps. Springer Verlag, 1995.
[106] T. Kohonen. Self-Organizing Maps, volume 30 of Series in Information Sciences. Springer, Berlin,
third extended edition edition, 2001.
[107] P. Koikkalainen. Fast deterministic self-organizing maps. In Proc International Conf Neural
Networks, Paris, France, 1995.
[108] A. P. Kosoresow and S. A. Hofmeyr. Intrusion detection via system call traces. IEEE Softw.,
14(5) :3542, 1997.
[109] S. Kumar. Classification and Detection of Computer Intrusions. PhD thesis, Purdue University,
August 1995.
[110] S. Kumar and E. H. Spafford. An application of pattern matching in intrusion detection. Technical
report, Department of Comptuter Sciences, Purdue University, West Lafayette, IN, June 1994.
[111] S. Kumar and E. H. Spafford. A pattern matching model for misuse intrusion detection. In 17th
National Computer Security Conference, pages 1121, Baltimore, MD October 1994.
[112] P. Langely, W. Iba, and K. Thompson. An analysis of bayesian classifiers. In A. press, editor, the
Tenth National Conference on Artificial Intelligence, pages 223228, San Jose, CA, 1992.
[113] S. L. Lauritzen and D. J. Spiegelhalter. Local computations with probabilities on graphical structures and their application to expert systems. Journal of Royal Statistical Society, 50(2) :157224,
1988.
[114] W. LEE. A Data Mining Framework for Constructing Features and Models for Intrusion Detection
Systems. PhD thesis, Columbia University, 1999.
[115] W. Lee, R. A. Nimbalkar, K. K. Yee, S. B. Patil, P. H. Desai, T. T. Tran, and S. J. Stolfo. A data
mining and CIDF based approach for detecting novel and distributed intrusions. Lecture Notes in
Computer Science, 1907 :49, 2000.
134

[116] W. Lee and S. Stolfo. Data mining approaches for intrusion detection. In the 7th USENIX Security
Symposium, January 1998.
[117] W. Lee, S. Stolfo, and K. Mok. A data mining framework for building intrusion detection models.
In Proceedings of the 1999 IEEE Symposium on Security and Privacy, May 1999.
[118] W. Lee, S. Stolfo, and K. Mok. Mining in a data-flow environment : Experience in network intrusion detection. In Proceedings of the 5th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining (KDD-99), August 1999.
[119] W. Lee and S. J. Stolfo. A framework for constructing features and models for intrusion detection
systems. ACM Transactions on Information and System Security (TISSEC), 3(4) :227261, 2000.
[120] W. Lee and D. Xiang. Information-theoretic measures for anomaly detection. In Proceedings of
the IEEE Symposium on Security and Privacy, page 130. IEEE Computer Society, 2001.

tel-00917605, version 1 - 12 Dec 2013

[121] P. Leray. Rseaux baysiens : apprentissage et modlisation de systmes complexes. Habilitation


diriger les recherches, Universit de Rouen, Novembre 2006.
[122] U. Lindqvist and P. A. Porras. Detecting computer and network misuse through the productionbased expert system toolset (p-best). In Proceedings of the 1999 IEEE Symposium on Security
and Privacy, pages 146161, Oakland, California, may 1999. IEEE Computer Society Press, Los
Alamitos, California.
[123] T. Lunt, A. Tamaru, F. Gilham, R. Jagannathan, P. Neumann, H. Javitz, A. Valdes, and T. Garvey. A
real-time intrusion detection expert system (ides). Technical report, SRI International, Computer
Science Laboratory, February 1992.
[124] S. P. Luttrell. Hierarchical self-organizing networks. In Proceedings of the International Conference on Neural Networks (ICANN89), pages 26, London, U.K, 1989.
[125] J. MacQueen. Some methods for classification and analysis of multivariate observations. In
U. of California Press, editor, the fifth Berkley Symposium on Mathematical Statistics and Probability., volume 1 :Statistics, pages 281297, Berkely and Los Angeles, CA, 1967.
[126] D. Madigan, S. Andersson, M. Perlman, and C. Volinsky. Bayesian model averaging and model
selection for markov equivalence classes of acyclic graphs. Communications in Statistics : Theory
and Methods, 25 :24932519, 1996.
[127] S. Manganaris, M. Christenen, D. Zerkleand, and K.Hermiz. A data mining analysis of RTID
alarms. Computer Networks, 34(4) :571577, 2000.
[128] C. Marceau. Characterizing the behavior of a program using multiple-length n-grams. In A. Press,
editor, Proceedings of the 2000 workshop on New security paradigms, pages 101110, 2000.
[129] J. McHugh. Testing intrusion detection systems : A critique of the 1998 and 1999 darpa intrusion
detection system evaluations as performed by lincoln laboratory. ACM Transactions on Information and System Security (TISSEC), 3(4) :262294, 2000.
[130] R. Miikkulainen. Script recognition with hierarchical feature maps. Connection Science, 2 :83
101, 1990.
[131] G. W. Milligan and M. C. Cooper. An examination of procedures for determining the number of
clusters in a data set. Psychometrika, 50(2) :159179, June 1985.
[132] M.
Misc.
Nomad
mobile
www.nmrc.org/pub/faq/hackfaq/index.html.

research

center

the

hack

faq.

[133] T. M. Mitchell. Machine Learning. McGraw-Hill, 1997.


135

Bibliographie
[134] B. Morin. Corrlation dalertes issues doutils de dtection dintrusions avec prise en compte
dinformations sur le systme surveill. PhD thesis, INSA de Rennes, Fvrier 2004.
[135] A. Mounji. Languages and Tools for Rule-Based Distributed Intrusion Detection. PhD thesis,
Facults Universitaires Notre-Dame de la Paix, Namur (Belgium), 1997.
[136] S. Mukkamala, G. Janowsky, and A. H. Sung. Intrusion detection using neural networks and
support vector machines. In IEEE International Joint Conference on Neural Networks 2002,,
pages 17021707, Hawaii, May 2002.
[137] P. Naim, P. Wuillemin, P. Leray, O. Pourret, and A. Becker. Rseaux Baysiens. Eyrolles, Paris,
2004.
[138] P. Nam and A. Becker. Les rseaux baysiens : modles graphiques de connaissance. Eyrolles,
1999.

tel-00917605, version 1 - 12 Dec 2013

[139] R. Neal. Comments on a theoretical analysis of monte carlo algorithms for the simulation of gibbs
random field images. IEEE Transactions on Information Theory, 39 :310, 1993.
[140] P. G. Neumann and P. A. Porras. Experience with emerald to date. In Proc. Workshop Intrusion
Detection Network Monitoring, pages 7380, Santa Clara, CA, April 1999.
[141] P. Ning, S. Jajodia, and X. Wang. Abstraction-based intrusion detection in distributed environments. ACM Transactions on Information and System Security (TISSEC), 4(4) :407452, 2001.
[142] S. Northcutt and J. Novak. Network Intrusion Detection. New Riders. Indianapolis, IN, 3rd ed.
edition, September 2002.
[143] S. M. Olmsted. On representing and solving decision problems. PhD thesis, Department of
Engineering-Economic Systems, Stanford University, 1983.
[144] E. S. Page. Cumulative sum control charts. Technometrics, 3 :19, 1961.
[145] E. Pampalk. Ghsom. http ://www.ofai.at/ elias.pampalk/ghsom/overview.html.
[146] V. Paxson. Bro : A system for detecting network intruders in real-time. Computer Networks,
31(23-24) :24352463, 1999.
[147] J. Pearl. Probabilistic Reasoning in Intelligent Systems : Networks of Plausible Inference. Morgan
Kaufmann, 1988.
[148] P. Porras and A. Kemmerer. Penetration-state transition analysis- a rule-based intrusion dtection
approach. In I. C. society press, editor, Proceedings of the Eighth Annual Computer Security
Applications Conference, pages 220229, November-December 1992.
[149] K. E. Price. Host-based misuse detection and conventional operating systems audit data collection.
Masters thesis, Purdue University, 1997.
[150] T. H. Ptacek and T. N. Newsham. Insertion, evasion, and denial of service : Eluding network
intrusion detection. Technical report, Secure Networks, 1998.
[151] R. F. Puppy.
A look at whiskers anti-ids tactics.
http ://www.wiretrip.net/rfp/pages/whitepapers/whiskerids.html, 1999.

URL

[152] O. Rachman. Baseline analysis of security data. Securimine Software Inc., 2005.
[153] A. Rauber, D. Merkl, , and M. Dittenbach. The growing hierarchical self-organizing map : exploratory analysis of high-dimensional data. IEEE Transactions on Neural Networks, 13 :13311341,
2002.
[154] B. D. Ripley. Pattern Recognition and Neural Networks. Cambridge University Press, 1996.
[155] S. Russell and P. Norvig. Artificial Intelligence : A Modern Approach. Prentice Hall, Upper Saddle
River, 2nd ed. edition, January 1995.
136

[156] J. Ryan, M.-J. Lin, and R. Miikkulainen. Intrusion detection with neural networks. In Advances
in Neural Information Processing Systems, volume 10. MIT Press, 1998.
[157] J. Sacha, L. Goodenday, and K. Cios. bayesian learning for cardiac spect image interpretation.
Artificial Intelligence in Medecine, 26 :109143, 2002.
[158] B. Scherrer. Biostatistique. Gatan Morin diteur, Chicoutimi, 1988.
[159] M. M. Sebring, E. Shellhouse, M. E. Hanna, and R. A. Whitehurst. Midas : Multics intrusion
detection and alerting system. Technical report, National Computer Security Center, SRI International Ft. Meade, MA, 1998.
[160] A. A. Sebyala, T. Olukemi, and L. Sacks. Active platform security through intrusion detection
using nave bayesian network for anomaly detection. In London Communications Symposium,
2002.

tel-00917605, version 1 - 12 Dec 2013

[161] R. Sekar, Y. Guang, S. Verma, and T. Shanbhag. A high-performance network intrusion detection
system. In Proceedings of the 6th ACM Conference on Computer and Communications Security,
pages 817, November 1999.
[162] S. Z. Selmi and M. Ismail. K-means type algorithms : A generalized convergence theorem and
characterization of local optima. IEEE Transactions on Pattern Analysis and Machine Intelligence,
6(1) :8187, 1984.
[163] R. D. Shachter. Probabilistic influence diagrams. Operations Research, 36 :589604, 1988.
[164] P. P. Shenoy. Valuation-based systems for bayesian decision analysis. Operations Reasearch,
40(3) :463484, 1992.
[165] P. Sneath and R. R. Sokal. Numerical Taxonomy. Freeman, San Francisco, CA, 1973.
[166] R. Sommer and V. Paxson. Enhancing byte-level network intrusion detection signatures with
context. In A. Press, editor, Proceedings of the 10th ACM conference on Computer and communication security, pages 262271, 2003.
[167] L. Spitzner. Know your enemy. Technical report, Honeynet Project, Mars 2000.
[168] L. Spitzner. Honeypots : Tracking Hackers,. Addison-Wesley Professional., 2002.
[169] S. Staniford, J. Hoagland, and J. McAlernay. Practical automated detection of stealthy portscans.
In ACM Computer and Communications Security IDS Workshop, pages 17, 2000.
[170] S. Stolfo, W. Fan, W. Lee, A. Prodromidis, and P. Chan. Cost-based modeling for fraud and
instrusion detection : Results from the jam project. In I. C. Press, editor, Proceedings of DARPA
Information Survivability Conference and Exposition, 2000.
[171] A. S. Tanenbaum. Computer Networks. Prentice-Hall International,Inc, 1996.
[172] S. Templeton and K. Levitt. A requires/provides model for computer attacks. In Proc. of New
Security Paradigms Workshop, pages 3138, September 2000.
[173] H. S. Teng, K. Chen, and S. C. Lu. Security audit trail analysis using inductively generated
predictive rules. In 6th Conference on Artificial Intelligence Applications, IEEE Service Center,
pages 2429, Piscataway, NJ, March 1990.
[174] C. Tinnagonsutibout and P. Watanapongse. A novel approach to process-based intrusion detection
system using read-sequence finite state automata with inbound byte profiler. In Information and
Computer Engineering Postgraduate Workshop,, 2003.
[175] A. Valdes and K. Skinner. Probabilistic alert correlation. In 4th Workshop on Recent Advances in
Intrusion Detection (RAID), pages 5486, Berlin, 2001. LNCS. Springer Verlag.
137

Bibliographie
[176] N. Valentin. Construction dun capteur logiciel pour le contrle automatique du procd de
coagulation en traitement deau potable. PhD thesis, UTC, 2000.
[177] V. Vapnik. Statistical Learning Theory. Wiley, 1998.
[178] A. Varfis and C. Versino. Clustering of socio-economic data with Kohonen maps. Neural Network
World, 2(6) :813834, 1992.
[179] J. Vesanto. Som-based data visualization methods. Intelligent Data Analysis,, 3(2) :111126,
1999.
[180] J. Vesanto, J. Himberg, E. Alhoniemi, and J. Parhankangas. Self-organizing map in matlab :
the som toolbox. In Proceedings of the Matlab DSP Conference, pages 3540, Espoo, Finland,
November 1999.

tel-00917605, version 1 - 12 Dec 2013

[181] G. Vigna and R. Kemmerer. Netstat : A network-based intrusion detection approach. In Proceedings of the 14th Annual Computer Security Application Conference, Scottsdale, Arizona, Dcembre 1998.
[182] L.-X. Wang. A course in fuzzy systems and control. Prentice Hall, Inc., Upper Saddle River, NJ,
1997.
[183] W. Wang, J. Yang, and R. Muntz. Sting : A statistical information grid approach to spatial data
mining. In M. Kaufmann, editor, Proceedings of the 23rd International Conference on Very Large
Data Bases (VLDB97), pages 186195, 1997.
[184] C. Warrender, S. Forrest, and B. Pearlmutter. Detecting intrusions using system calls : Alternative
data models. In Proceedings of the IEEE Symposium on Security and Privacy, pages 133145,
Mai 1999.
[185] A. Wespi, M. Dacier, and H. Debar. Intrusion detection using variable-length audit trail patterns.
In Proceedings of the 3rd International Workshop on the Recent Advances in Intrusion Detection
(RAID2000), pages 110129, Octobre 2000.
[186] J. Winteregg. Fonctionnement dOSSIM. Swiss University of Applied Sciences (HEIG-VD), Mai
2006.
[187] D. Zamboni. Using internal sensors for computer intrusion detection. PhD thesis, Purdue university, 2001.
[188] V. Zemb. Dtection dintrusions, mthodes et techniques. Technical report, CNAM, 2002.
[189] T. Zhang, R. Ramakrishnan, and M. Livny. Birch an efficient data clustering method for very
large databases. In ACM, editor, Proceedings of the ACM SIGMOD International Conference on
Management of Data (SIGMOD 1996), pages 103114, 1996.

138

Вам также может понравиться