Академический Документы
Профессиональный Документы
Культура Документы
Ahmad FAOUR
Composition du jury
Rapporteurs :
Benferhat Salem
Hamad Denis
Examinateurs :
Canu Stephane
Zoaeter Mohammed
Leray Philippe
Eter Bassam
Remerciements
Ce travail a t ralis au sein de lquipe LITIS de lInsa de Rouen. Il naurait pas pu voir le jour
sans le soutien de nombreuses personnes que je tiens remercier.
Je tiens tout dabord remercier mes deux directeurs de thse Stphane Canu et Mohammed Zoaeter.
Stphane Canu qui ma permis dintgrer dans le laboratoire LITIS. Mais surtout Philippe Leray, qui
grce son disponibilit et rigoureux conseils, jai pu entamer, dvelopper et mener terme ce travail.
Quils trouvent ici lexpression de toute ma gratitude.
Je remercie sincrement tous ceux qui ont bien voulu prendre part ce jury :
Salem Benfarhat et Denis Hamad qui ont accept dtre les rapporteurs de ma thse. Je les
remercie pour le temps consacr ce travail ainsi qu leurs remarques et suggestions qui ont
contribues amliorer le rapport
Bassam Eter qui a accept dexaminer cette thse. Je le remercie pour tout lintrt quil a
manifest pour ce travail
Je remercie galement les membres de dpartement ASI. A Florence et Brigitte pour leur assistance et
leur patience, et mes collgues de bureau prsents et passs avec qui jai pass de si bons moments :
Olivier, Vincent, Fabien, Gaelle, Firass, Karina, Filip et Iyyad. Je tiens remercier trs fortement mes
collgues de Laboratoire LPM : Maher et Iyyad. Jamais je ne peux pas oublier les moments quon a
pass ensemble.
Enfin, cest avec beaucoup dmotion que je remercie maman, papa et surtout Mona, pour sa patience,
sa volont, son support et toutes les difficults quelle a support tout au long cet grand "escalier".
ii
iii
iv
xv
Chapitre 1
Introduction Gnrale
1.1
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
Organisation de la thse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Chapitre 2
Introduction la Scurit Informatique
2.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
2.3
2.4
2.5
2.5.1
Pare-feux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2
Scanners de vulnrabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.3
Outils darchivage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.4
Cryptographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.5
Pots de miel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.5.6
10
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.6
Chapitre 3
La Dtection dIntrusions
3.1
13
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v
13
3.3
3.4
3.5
14
3.2.1
Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3.2.2
14
La dtection dintrusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.3.1
15
3.3.2
16
17
3.4.1
Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3.4.2
Stratgie de Contrle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.4.3
Sources dInformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.4.4
20
3.4.5
Frquence dutilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.4.6
Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
22
3.5.1
23
Approche comportementale . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1.1
3.5.2
seule mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.5.1.2
26
3.5.1.3
28
28
3.5.2.1
3.6
3.7
3.8
vi
29
3.5.2.2
29
3.5.2.3
29
3.5.2.4
Rseaux de Petri. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.5.2.5
Rgles dassociation . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
31
3.6.1
Vue gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.6.2
32
33
3.7.1
34
3.7.2
35
3.7.3
35
3.7.3.1
Corrlation implicite . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
3.7.3.2
Corrlation explicite . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.7.3.3
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
38
3.9
3.8.1
Fonctionnement gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.8.2
39
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
Chapitre 4
Prtraitement et Dcouverte des Comportements types
4.1
44
4.1.1
Indice de proximit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.1.2
44
4.1.3
Qualit du Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.1.4
K-moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.1.5
47
4.1.5.1
Lalgorithme SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.1.5.2
49
52
4.1.6.1
Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
4.1.6.2
Rglage de k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.2.1
Prtraitement temporel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.2.1.1
Choix de la fentre . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.2.1.2
54
4.2.1.3
55
Prtraitement Spatial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.2.2.1
56
4.2.2.2
57
57
4.3.1
Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
4.3.2
61
4.3.2.1
Analyse quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4.3.2.2
Analyse qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
69
4.4.1
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
4.4.2
69
4.4.2.1
Analyse quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
4.4.2.2
Analyse qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
4.1.6
4.2
4.2.2
4.3
4.4
4.4.3
4.5
43
vii
5.2
La Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
5.1.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
5.1.2
Classification binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
5.1.3
76
77
5.2.1
78
5.2.2
78
5.2.2.1
Apprentissage de structure . . . . . . . . . . . . . . . . . . . . . . .
79
5.2.2.2
79
80
5.2.3.1
80
5.2.3.2
80
5.2.3.3
Multi-net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
5.2.3.4
81
5.2.3.5
81
Les SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
5.3.1
82
5.3.2
83
Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
5.4.1
Approches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
5.4.2
85
5.4.2.1
Modlisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
5.4.2.2
Approche Brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
5.4.2.3
Approche Modulaire . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
5.4.2.4
Structures gnriques . . . . . . . . . . . . . . . . . . . . . . . . . .
87
5.4.2.5
89
5.4.2.6
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
5.4.2.7
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
5.4.3
93
5.4.4
Comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
5.2.3
5.3
5.4
5.5
viii
75
Chapitre 6
Evolutivit de lArchitecture
6.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
6.2
98
6.2.1
Introduction et dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
6.2.2
6.2.3
6.2.2.2
6.3
6.4
6.2.2.1
6.5
6.6
6.7
6.5.2
6.6.2
6.6.2.2
6.7.2
6.7.1.2
6.7.1.3
6.7.1.4
6.8
6.9
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Chapitre 7
Conclusions et Perspectives
119
7.1
7.2
Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Annexes
121
ix
127
Bibliographie
129
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
4.1
4.2
4.3
4.4
4.5
4.6
4.7
47
49
50
52
53
58
60
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
4.17
4.18
5.1
5.2
5.3
5.4
5.5
Les cartes obtenues en projetant les donnes non-normalises sur une carte de taille 5*5
avec (a) aucune pondration (b) une pondration de niveau 1 (c) une pondration de
niveau 2 et (d) une pondration de niveau 3. . . . . . . . . . . . . . . . . . . . . . . . .
Les cartes obtenues en projettant les donnes non-normalises sur une carte de taille
(7*7) avec (a) aucune pondration (b) une pondration de niveau 1 (c) une pondration
de niveau 2 et (d) une pondration de niveau 3. . . . . . . . . . . . . . . . . . . . . . .
Lindex de Davies-bouldin calcul pour le couplage SOM+Kmeans (a) carte de taille
5*5 (b) carte de taille 7*7, en fonction de nombre de clusters. Dans chaque graphe laxe
horizontal reprsente le nombre des clusters et laxe vertical lindex DB. Chaque figure
contient 4 courbes pour 4 niveaux de pondration. . . . . . . . . . . . . . . . . . . . .
La carte SOM cre par des donnes sans pondration : (a) aprs lapprentissage et (b)
aprs la phase de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La carte SOM cre par des donnes de niveau de pondration 1 : (a) aprs lapprentissage et (b) aprs la phase de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La carte SOM cre par des donnes de niveau de pondration 2 : (a) aprs lapprentissage et (b) aprs la phase de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La carte SOM cre par des donnes de niveau de pondration 3 : (a) aprs lapprentissage et (b) aprs la phase de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les rsultats obtenus pour u = 0.03 et 0.4 > m > 0.1 : laxe dabscisse indique le
pourcentage des faux positifs et laxe dordonn indique le pourcentage de dtection des
attaques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les rsultats obtenus pour m = 0.3 et 0.03 > u > 0.01. . . . . . . . . . . . . . . . . .
Expansion verticale de la carte mre dans le premier niveau grce la dgradation de
u de 0.03 0.02. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Expansion verticale de la carte mre dans le deuxime niveau grce la dgradation de
u de 0.02 0.01 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
61
62
64
64
64
65
70
71
72
72
80
80
81
81
82
83
84
87
88
89
89
5.12 Les structures obtenues par lalgorithme MWST pour les donnes de deux experts. Les
noeuds (1 25) sont les variables mesures par les experts et le noeud LOC est le noeud
classe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.13 Les deux structures obtenues par le modle multinet partir des donnes normales (
gauche) et donnes attaques ( droite) pour les variables (1 25) mesures par lexpert1. 91
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
6.10
6.11
6.12
6.13
xiii
xiv
3.1
3.2
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
4.17
4.18
4.19
xv
41
42
46
51
54
55
58
58
59
59
63
65
65
66
66
67
68
69
70
70
71
5.7
5.8
5.9
Msures utiliss pour lvaluation dun classifieur binaire (cas dun test mdical) . . . .
Variables utiliss dans nos rseaux baysiens. . . . . . . . . . . . . . . . . . . . . . . .
Rsultats de limplmentation de lapproche brute sur les donnes de deux experts. . . .
Rsultats des diffrents modles sur les variables mesures par lexpert1. Le signe (+)
indique lintgration des deux variables contextuelles OS et type. . . . . . . . . . . . . .
Rsultats des diffrents algorithmes. Le signe (+) indique lintgration des deux variables contextuelles OS et type. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Influence de la probabilit priori de la classe sur les rsultats de classification. Le
signe (+) indique lintgration des deux variables contextuelles OS et type. . . . . . . . .
Rsultats obtenus en utilisant le noyau linaire. HR : pourcentage de dtection dattaques, FP : pourcentage des faux positifs et PCC : pourcentage de bonne classification.
Rsultats obtenus en utilisant le noyau polynomial. HR : pourcentage de dtection dattaques, FP : pourcentage des faux positifs. C : le taux derreurs admissibles et Param :
exposant du fonction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rsultats obtenus en utilisant le noyau base radiale. HR : pourcentage de dtection
dattaques, FP : pourcentage des faux positifs, C : le taux derreurs admissibles et Param : variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1 Les Top(5) caractristiques des clusters classifis comme attaque obtenus lors de lapprentissage de la carte partir des donnes sans pondration. . . . . . . . . . . . . . .
A.2 Les TOP(5) caractristiques des clusters classifis comme attaque obtenus lors de lapprentissage de la carte partir des donnes de pondration de niveau 1. . . . . . . . . .
A.3 Les Top(5) caractristiques des clusters classifis comme attaques obtenus lors de lapprentissage de la carte partir des donnes de pondration de niveau 2. . . . . . . . . .
A.4 Les Top(5) caractristiques des clusters classifis comme attaques obtenus lors de lapprentissage de la carte partir des donnes de pondration de niveau 3. . . . . . . . . .
73
73
77
86
90
91
92
92
93
94
94
122
123
124
125
B.1 Adquation(2
) entre les scnarios dattaques de la base dapprentissage (haut) et la base
de test (bas) et le TOP(i) caractristique du cluster correspondant (donnes pondres
de niveau 2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
B.2 Adquation(2
) entre les scnarios dattaques de la base dapprentissage (haut) et la base
de test (bas) et le TOP(i) caractristique du cluster correspondant (donnes pondres
de niveau 3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
xvi
Chapitre
Introduction Gnrale
tel-00917605, version 1 - 12 Dec 2013
1.1 Motivation
Au cours des dix dernires annes, le nombre et la svrit des attaques rseau ont significativement
augment [3]. Par consquent, les technologies classiques de scurit informatique telles que lauthentification et la cryptographie ont gagn en importance. Simultanment, la dtection dintrusion a merg
comme une approche nouvelle et efficace pour protger les systmes informatiques [45]. Dans cette
approche, les systmes de dtection dintrusion (IDS) sont employs pour surveiller les systmes informatiques et reconnatre des signes des violations de scurit. Aprs avoir dtect de tels signes, les IDS
dclenchent des alarmes qui sont prsentes un oprateur humain. Ensuite, cet oprateur value la menace et lance une rponse adquate. Les rponses possibles incluent par exemple des reconfigurations de
pare-feu, ou la rparation des vulnrabilits dcouvertes. Evaluer les alarmes gnres par les systmes
de dtection dintrusion et concevoir une rponse approprie sest avre une tche pleine de dfis. En
fait, les praticiens [127] aussi bien que les chercheurs [12, 30, 94] ont observ que les IDS peuvent facilement gnrer des milliers dalarmes par jour, dont 99% sont des faux positifs (c..d alarmes qui ont t
dclenches de manire errone par des vnements bnins). Cette inondation de faux positifs rend trs
difficile lidentification des vrais positifs cachs (c..d les alarmes qui sont les vrais signes dattaques).
Par exemple, la recherche manuelle sur les alarmes sest avre trs difficile et source derreurs [41, 127].
Des outils pour automatiser la gestion dalarmes sont dvelopps [41, 47, 175], mais il ny a actuellement
aucune solution optimale ce problme.
Cette thse prsente une nouvelle approche automatique pour manipuler plus efficacement les
alarmes gnres par les systmes de dtection dintrusion. Le point central de cette approche est la
notion de comportements types1 des machines attaques. Intuitivement, le comportement des machines en cas dattaque est diffrent de celui en cas normal. Nous croyons que les diffrents types
dalarmes gnres par un NIDS pour chaque couple de machines en connexion dans un intervalle de temps peuvent tre reprsentatives de la nature de cette session. En plus, ce comportement
peut tre similaire pour plusieurs machines en connexion dans des priodes diffrentes. Alors, le
regroupement de ces comportements similaires en un nombre de comportements types peut crer
un groupement des donnes cohrent qui peut tre significatif des scnariis dattaques potentiels.
A partir de ces comportements types, nous proposons ensuite de dterminer le comportement (i.e.,
attaque ou normal) des machines internes du rseau surveill et ne prsenter finalement ladministrateur de scurit que les alarmes correspondantes aux vraies attaques et filtrer les autres.
1
1.2 Contribution
Nous tudions les limites actuelles des systmes de traitement des alarmes gnres par les NIDS
et proposons une nouvelle approche automatique qui amliore le mcanisme de filtrage. Nos principales
contributions se rsument ainsi :
1. Proposition dune architecture de filtrage : nous avons propos une architecture de filtrage des
alarmes qui analyse les journaux dalertes dun NIDS et essaye de filtrer les faux positifs. Cette
architecture est compose de deux phases principales que nous avons initialement propos lors de
de latelier modles graphiques probabilistes organis en 2005 dans la confrence Extraction et
Gestion des Connaissances (EGC [62] :
Phase de prtraitement : dans cette phase, nous partons des journaux dalarmes gnrs par le
NIDS. Dabord, pour chaque couple de machines en connexion, nous calculons le nombre de
diffrents types dalarmes gnres dans une fentre de temps mobile. Ces vecteurs rsums sont
reprsentatifs des scnarios dattaques potentiels visant les machines internes du rseau. Ensuite
nous dterminons un certain nombre de comportements types partir de ces vecteurs rsums en
utilisant des mthodes de classification non-supervise. Dans ltape suivante, nous proposons
une mthode danalyse de ces comportements dans laquelle nous pouvons distinguer les comportements attaques et les comportements normaux. Une autre mthode danalyse qualitative
est propose pour indiquer le type de scnarios dattaques reprsents par ces comportements
types. Les diffrents modles tudis dans cette phase ont t respectivement prsents lors de la
confrence IEEE ICTTA 2006 : International Conference on Information and Communication
Technologies from theory to applications [60] et NTMS 2007 : International Conference on
New Technologies, Mobility and Security [61].
Phase de filtrage : dans cette phase, nous calculons pour chaque machine interne le nombre de
comportement type dtect. A partir de ces informations nous essayons de dtecter si une machine interne est attaque ou non en utilisant des mthodes de classification supervise. De cette
facon, nous filtrons toutes les alarmes qui ne correspondent pas aux vraies attaques. Les rsultats concernant cette phase ont fait lobjet dune prsentation pendant la confrence SAR-SSI
2006 : First Joint Conference on Security in Network Architectures and Security of Information
Systems [59].
2. Etude de lvolutivit de cette architecture : dans cette phase, nous tudions laspect dynamique
de larchitecture propose. Lexploitation de larchitecture en temps rel pose plusieurs dfis sur
ladaptation de cette architecture par rapport aux changements qui peuvent arriver au cours du
temps. Nous avons distingu trois problme rsoudre : (1) adaptation de larchitecture vis vis
de lvolution du rseau surveill : intgration des nouvelles machines, des nouveaux routeurs,
etc., (2) adaptation de larchitecture vis vis de lapparition de nouveaux types dattaques et (3)
adaptation de larchitecture avec lapparition ou le glissement des comportements types. Pour rsoudre ces problmes, nous utilisons la notion de rejet en distance propose en reconnaissance des
formes et les tests dhypothses statistiques .
Toutes nos propositions sont implmentes et ont donn lieu des exprimentations que nous dcrivons tout au long du document. Ces expriences utilisent des alarmes gnres par SNORT, un systme
de dtection des intrusions bas-rseau qui surveille le rseau du Rectorat de Rouen et qui est dploy
dans un environnement oprationnel. Ce point est important pour la validation de notre architecture
puisque elle utilise des alarmes issues dun environnement rel plutt quun environnement simul ou de
laboratoires qui peuvent avoir des limitations significatives [129].
2
Chapitre
Sommaire
2.1
2.2
2.3
2.4
2.5
2.6
Introduction . . . . . . . . . . . . . . . .
Objectifs de la scurit informatique . . .
Ncessit dune approche globale . . . . .
Mise en place dune politique de scurit
Protection du systme dinformation . . .
Conclusion . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 5
. 6
. 7
. 7
. 8
. 11
2.1 Introduction
Avec le dveloppement de lutilisation dinternet, de plus en plus dentreprises ouvrent leur systme
dinformation leurs partenaires ou leurs fournisseurs. Il est donc essentiel de connatre les ressources
de lentreprise protger et de matriser le contrle daccs et les droits des utilisateurs du systme dinformation. Il en va de mme lors de louverture de laccs de lentreprise sur internet. Par ailleurs, avec
le nomadisme, consistant permettre aux personnels de se connecter au systme dinformation partir
de nimporte quel endroit, les personnels sont amens transporter une partie du systme dinformation
hors de linfrastructure scurise de lentreprise. La scurit informatique se compose de trois grands
domaines : la prvention des incidents, la dtection des problmes et la rparation des dommages [44].
La prvention vise rduire la probabilit dapparition dun incident. Cest lune des plus anciennes
5
Menace Vulnerabilite
ContreMesure
(2.1)
La menace (en anglais threat) reprsente le type daction susceptible de nuire dans labsolu, tandis que la vulnrabilit (en anglais vulnerability, appele parfois faille ou brche) reprsente le niveau
dexposition face la menace dans un contexte particulier. Enfin la contre-mesure est lensemble des
actions mises en oeuvre en prvention de la menace. Les contre-mesures mettre en uvre ne sont pas
uniquement des solutions techniques mais galement des mesures de formation et de sensibilisation
lintention des utilisateurs, ainsi quun ensemble de rgles clairement dfinies. Afin de pouvoir scuriser
un systme, il est ncessaire didentifier les menaces potentielles, et donc de connatre et de prvoir la
faon de procder de lennemi.
2.5.1 Pare-feux
Un pare-feu (firewall) est un systme physique ou logique qui inspecte les flux entrant et sortant du
rseau. Il se base sur un ensemble de rgles afin dautoriser ou interdire le passage des paquets. Il existe
principalement trois types de pare-feux :
Pare-feu avec filtrage des paquets : ce pare-feu filtre les paquets en utilisant des rgles statiques
qui testent les champs des protocoles jusquau niveau transport.
Pare-feu filtrage des paquets avec mmoire dtats : ce modle conserve les informations des
services utiliss et des connexions ouvertes dans une table dtats. Il dtecte alors les situations
anormales suite des violations des standards protocolaires.
Pare-feu proxy : ce pare-feu joue le rle dune passerelle applicative. En analysant les donnes
jusquau niveau applicatif, il est capable de valider les requtes et les rponses lors de lexcution
des services rseaux.
Malgr leur grand intrt, les pare-feux prsentent quelques lacunes. En effet, un attaquant peut exploiter
les ports laisss ouverts pour pntrer le rseau local. Ce type daccs est possible mme travers des
pare feux proxy. Il suffit dutiliser un protocole autoris tel que HTTP pour transporter dautres types
8
2.5.4 Cryptographie
La cryptographie garantit la confidentialit, lintgrit, la non rpudiation et lauthenticit des donnes. Elle est frquemment utilise dans diverses applications rseaux telles que la messagerie, les
connexions distance, les rseaux privs et les serveurs web. Les administrateurs lutilisent pour scuriser leurs systmes informatiques mais elle ne constitue pas une solution unique et suffisante. Effectivement, diverses implmentations des protocoles de scurit se sont rvles vulnrables. De plus la
9
2.6. Conclusion
2.6 Conclusion
Les attaquants suivent une stratgie dattaque pour russir leurs exploits. Ils disposent de plusieurs
sources dinformation et de divers outils pour compromettre le systme informatique. Par consquent, les
administrateurs dploient des solutions de scurit efficaces capables de protger le rseau de lentreprise.
Dans ce contexte, les systmes de dtection dintrusions constituent une bonne alternative pour mieux
scuriser le rseau informatique. Nous dtaillons dans le Chapitre 3 les qualits ncessaires aux systmes
de dtection dintrusions. Nous discutons aussi des approches proposes dans la littrature et ceci en nous
basant sur les deux principes de dtection savoir la dtection comportementale et la dtection par la
connaissance.
11
12
Chapitre
La Dtection dIntrusions
Sommaire
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les mthodes dattaque et dintrusion . . . . . . . . . . . . . . . .
La dtection dintrusion . . . . . . . . . . . . . . . . . . . . . . . .
Outils de dtection dintrusion : taxonomie . . . . . . . . . . . . .
Les techniques de dtection . . . . . . . . . . . . . . . . . . . . . .
SNORT : Un Systme de Dtection dIntrusions dans les Rseaux
Sur la difficult de la dtection dintrusion . . . . . . . . . . . . .
Notre application de filtrage des alertes . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
14
15
17
22
31
33
38
41
3.1 Introduction
Prvenir les intrusions est une tape fondamentale et indispensable. Mais face la persvrance et
lingniosit des pirates, il serait illusoire de croire que les protections mises en place sont impntrables.
Toute mesure de protection est potentiellement faillible car il est impossible dtre certain davoir envisag tous les cas possibles. De plus, les applications utilises sont ralises par des socits extrieures,
ce qui veut dire dans la plupart des cas, que lon ne possde pas les sources de ces logiciels. Il en dcoule
que des failles de scurit peuvent tre dcouvertes tout moment par les pirates et peuvent servir
pntrer nos dfenses.
Nous pourrions comparer la mise en place dun pare-feu avec la construction dun mur denceinte
autour de lentreprise. Le pare-feu a pour fonction de rejeter les tentatives dintrusions. En poursuivant
avec cette image, le dploiement dun systme de dtection dintrusions revient ajouter des quipes de
13
3.2.1 Dfinitions
De manire gnrale, il est possible de donner la dfinition suivante dune attaque [188] :
Une attaque est une action de malveillance consistant tenter de contourner les fonctions et les
mesures de scurit dun systme informatique.
De manire plus prcise, nous pouvons trouver les dfinitions suivantes :
Menace : possibilit potentielle de tentative non autorise et dlibre daccder linformation,
de manipuler linformation et de rendre un systme incertain ou inutilisable.
Attaque : dcouverte systmatique dinformations, tentative relle dintrusion ou de dni de service.
Intrusion : prise de controle totale ou partielle dun systme distant.
Lintrusion peut tre donc considre comme un type dattaque particulier.
Cependant, le rle des outils de dtection dintrusions (appels galement IDS pour Intrusion Detection System) consiste dtecter tout type dactivit non conforme la politique de scurit en vigueur
(intrusion relle ou attaque au sens large). Les IDS les plus courants sont les IDS rseau (aussi appels
NIDS pour Network IDS). Ils sont constitus dun logiciel install sur un ou plusieurs ordinateurs placs
des endroits stratgiques de rseau, et qui vont espionner toutes les communications. LIDS va raliser
une analyse des donnes captures et les comparer en temps rel ou en diffr avec un certain nombre de
rgles de scurit prdfinies. Ces rgles sont souvent appeles des signatures comme pour les antivirus.
Une signature dcrit les caractristiques de ce que lIDS doit considrer comme un trafic rseau anormal.
3.4.1 Architecture
Larchitecture des IDS se rapporte la faon dont les composants fonctionnels des IDS sont arrangs
les uns par rapport aux autres. Les composants architecturaux principaux sont la machine hte, le systme
sur lequel le logiciel dIDS fonctionne, et la cible, le systme que lIDS surveille et contrle.
17
La stratgie de contrle dcrit comment les lments de lIDS sont contrls, et en outre, comment
lentre et la sortie des IDS sont contrles.
Centralise Avec une stratgie de contrle centralise, la surveillance, la dtection et le reporting sont
commands directement dun endroit central.
Partiellement Distribue La surveillance et la dtection sont controles dun noeud local, avec un
mcanisme de rapport hirarchique un ou plusieurs noeud(s).
Entirement Distribu La surveillance et la dtection sont faites en utilisant une approche base sur
les agents, et les dcisions sont prises au moment de lanalyse.
3.4.6 Analyse
Il y a deux approches principales pour analyser des vnements permettant de dtecter des attaques :
la dtection danomalies (approche comportementale) et la dtection par abus (approche par scnario). La
dtection par abus, dans laquelle lanalyse cherche une action connue pour tre "illgale", est la technique
employe par la plupart des systmes commerciaux. La dtection danomalies, dans laquelle lanalyse
recherche les modles anormaux de lactivit a t, et continue tre, le sujet de beaucoup de recherche.
La dtection danomalies est employe sous une forme limite par un certain nombre dIDS. Il y a des
points forts et des points faibles lies chaque approche, et il savre que les mthodes de dtection les
20
plus efficaces sont dans la plupart du temps les mthodes de dtection par abus avec quelques composants
de dtection danomalies.
Approche comportementale Cette approche part du principe quune intrusion peut tre dtecte en
observant une modification du comportement normal ou prvu du systme ou des utilisateurs. Un modle dfinissant ce comportement normal et tenant lieu de rfrence doit donc tre construit. Lorsquune
dviation est observe, une alerte peut tre gnre en fonction de lcart constat. Contrairement
lapproche par scnario, tout ce qui na pas t pralablement vu est considr comme dangereux .
Ceci laisse entrevoir de nombreux avantages : toutes les tentatives dintrusion sont censes tre dtectes
y compris celles qui nont jamais t rfrences. En ce sens, cette approche peut mme contribuer
identifier de nouvelles formes dattaques. Ensuite, les attaques exploitant des abus de privilges peuvent
galement tre dtectes (attaques qui ne peuvent pas tre modlises sous la forme dune signature). Enfin, cette approche permet de se dgager des considrations relatives aux environnements dexploitation
(type et version dOS, dapplicatifs, etc).
Les mesures et les techniques utilises dans la dtection danomalie incluent :
La dtection de seuil, dans laquelle certaines caractristiques des utilisateurs et du comportement
du systme sont exprimes en terme numrique, avec des seuils de rfrence. De tels attributs de
comportement peuvent inclure le nombre de fichiers consults par un utilisateur dans une priode
de temps donne, le nombre de tentatives de login choues, la quantit de CPU utilise par un
processus, etc. . . Ce niveau peut tre statique ou heuristique (c..d., concu pour varier avec des
valeurs relles observes durant le temps).
Des mesures statistiques : paramtriques, o la distribution des attributs est suppose suivre un
modle particulier, et non paramtrique, o la distribution des attributs profils est "appris" partir
dun historique.
Des mesures bases sur les rgles, qui sont semblables aux mesures statistiques non paramtriques
du fait que les donnes observes dfinissent les modles acceptables dutilisation, mais diffrent
du fait que ces modles sont dcris par des rgles et non des quantits numriques.
Dautres mesures comme les rseaux de neurones, des algorithmes gntiques, et modles de systme immunologique.
Seuls les deux premires types de mesures sont utiliss dans les IDS actuels.
Avantages
Les IDS bass sur la dtection danomalies dcouvrent les comportements inhabituels et ont ainsi
la capacit de dcouvrir des symptmes dattaques sans aucune connaissance spcifique des dtails
[109].
Les dtecteurs danomalies peuvent produire des informations qui peuvent leur tour tre utilises
pour dfinir des signatures pour les dtecteurs base de scnario.
Inconvnients
Les approches de dtection danomalie produisent dhabitude un grand nombre de fausses alertes
en raison des profils imprvisibles des utilisateurs et des rseaux [3].
Les approches de dtection danomalies exigent souvent un apprentissage tendu sur les vnements de systme pour caractriser son profil normal.
le choix des paramtres modlisant le comportement est dlicat.
le comportement dun systme peut changer dans le temps, ncessitant pour lIDS des phases
de rapprentissage entranant son indisponibilit ou bien la remonte de faux-positifs supplmentaires.
21
le systme dinformation peut subir des attaques en mme temps que lIDS assimile son comportement. Ceci entrane la prsence, dans le profil comportemental de lIDS, de comportements
intrusifs qui seront considrs comme normaux (faux ngatifs) [57].
enfin, le temps de raction peut tre lev, et ncessite le changement de plusieurs variables associes au comportement afin dobserver une divergence significative [3, 11].
Approche par scnario Cette mthode est de loin la plus utilise dans les outils disponibles sur le
march. Egalement appele knowledge-based , elle a pour objectif de dtecter une attaque exploitant
une vulnrabilit connue et sappuie donc sur la connaissance des techniques employes par les attaquants. Chaque attaque est ainsi rpertorie et les actions indispensables leur ralisation forment leur
signature. On recherche ensuite ces dernires dans les traces daudit. En dautres termes, toute action
qui nest pas explicitement dclare comme tant une attaque est considre comme saine . Il en rsulte que lexactitude des systmes bass sur lapproche par scnario est considre comme bonne. En
contrepartie, seules les attaques dj identifies et entres dans le systme peuvent tre dtectes. La dtection dattaque par abus de privilge est donc extrmement difficile puisque aucune vulnrabilit nest
rellement exploite par lattaquant.
Cette recherche base sur la connaissance implique des mises jour rgulires. Ces dernires ncessitent lanalyse dtaille de chaque nouvelle vulnrabilit et de chaque attaque, ce qui reprsente une
lourde tche.
Cette tche est dautant plus importante quune vulnrabilit ou une attaque est troitement lie aux
systmes dexploitation, aux versions et aux applications.
Avantages
La dtection par scnario est trs efficace pour dtecter les attaques sans gnrer un nombre crasant de faux positives.
Lapproche par scnario peut diagnostiquer rapidement et dune facon fiable la mthode ou loutil utilis par une attaque. Ceci peut aider les administrateurs de scurit prioriser les mesures
correctives.
Inconvnients
Lapproche par scnario ne peut pas dtecter des "nouvelles" attaques. Les bases de signatures
doivent donc tre constamment mises jour.
Lapproche par scnario utilise des signatures trs prcises et clairement dfinies, ce qui empche
de dcouvrir des variantes des attaques classiques. Lapproche par scnario ( base dtat) peut
dpasser cette limite mais nest pas communment utilise dans les IDS actuels.
5. lordre ou les transitions entre les vnements individuels, par exemple la squence des appels
systme utiliss par un processus en cours dexcution.
Les attributs 1, 2, 4, et 5 apparaissent souvent dans les signatures dintrusion qui sont reprsentes
dans les rgles codes manuellement [122, 140] ou dans les rgles automatiquement apprises [116, 118]
dans quelques techniques de reconnaissance des formes. Les attributs 2 et 3 sont utiliss par les mthodes statistiques pour la cration de profils. Lattribut 5 apparat dans les diagrammes de transition
dtat [181, 54] et les rseaux de Ptri Colors [109] qui sont employs pour reprsenter des signatures
dintrusion. Ainsi, on peut classifier la manire suivant laquelle les mthodes de dtection dintrusions
(comportementale et par abus) traitent les attributs en trois catgories :
Combinaison entre les attributs ;
Analyse de la relation entre les attributs (vnements) ;
Analyse de lordre ou la squence des attributs.
ai > 0
(3.1)
23
F. 3.3 Un profil du nombre doccurences des appels systme dcrivant le comportement dun programme
Si lapproche statistique bnficie dun grand nombre doutils largement tudis, elle se heurte la
difficult de dfinir adquatement le seuil optimal danomalie. De plus elle doit spcifier avec prcision
les mesures qui sont en relation avec lattaque recherche. Par ailleurs linterdpendance des mesures doit
tre considre pour mieux estimer le score global danomalie. Enfin lapproche est incapable dexprimer
toute seule la squence dvnements.
Exemple : Dtection base sur la frquence Cette approche est propose initialement par Denning [49]. Elle capture des modles de frquence des utilisateurs et des programmes par les profils qui
contiennent des valeurs danomalie P1 , P2 , . . . , Pn , correspondant un ensemble de n mesures de systme (c.--d., variables reprsentatives de systme). Afin de dterminer si le systme a rencontr un tat
instable, les valeurs observes fi de frquence sont combines par une expression comme :
= a1 f12 + a2 f22 + . . . + an fn2 ;
(3.2)
ce qui saisit linformation de frquence pour toutes les mesures en utilisant une srie de poids ai . Cette
technique dtecte des intrusions en calculant le niveau de scurit sur une base permanente et en le
comparant une seuil . Si > , une intrusion peut tre en cours [110, 159]. Si un programme est
dcrit par les appels systme quil utilise, un profil de frquence peut tre tabli afin de dcrire son
comportement (figure 3.3). Ce profil dcrit combien de fois le programme demande chacun des appels
systme quil utilise.
Les statistiques baysiennes Soient A1 , A2 , . . . , An n diffrentes variables de mesure utilises pour indiquer sil y a intrusion un moment donn. Chaque Ai mesure un aspect diffrent du systme, comme
par exemple, la quantit dactivit entre-sortie (I/O) sur disque, ou le nombre de "fausses" pages mmoire. Supposons que chaque mesure Ai a deux valeurs, 1 pour indiquer que la mesure est anormale, et 0
autrement. Soit I lhypothse que le systme subit une intrusion. La sensibilit de chaque mesure Ai est
dtermine par P(Ai = 1/I) et P(Ai = 1/I). En combinant ces probabilits nous pouvons dterminer la
probabilit de I tant donnes les valeurs des mesures :
P(I/A1 , A2 , . . . , An ) =
(3.3)
Ceci exige avoir la probabilit jointe des mesures donnes sachant I et I [110]. Le nombre de
probabilits jointes dterminer est exponentiel par rapport au nombre de variables. En supposant que
les variables sont indpendantes conditionnellement I ou I, nous obtenons :
24
F. 3.4 Un Rseau Baysien simple connectant des variables relis une intrusion.
Les CPT associes sont toutes les lois P(Xi ) si Xi na pas de parent ou P(Xi |Pa(Xi ) :
)P(Intrusion), P(CPU|Intrusion, T oo many users), etc.
P(A1 , A2 , . . . , An /I) =
n
Y
P(Ai /I)
(3.4)
P(Ai /I)
(3.5)
i=1
et
P(A1 , A2 , . . . , An /I) =
n
Y
i=1
ce qui donne :
Qn
P(Ai /I)
P(I/A1 , A2 , . . . , An )
P(I)
Q i=1
=
P(I/A1 , A2 , . . . , An ) P(I) ni=1 P(Ai /I)
(3.6)
Ainsi, nous pouvons dterminer les chances (odds)2 dune intrusion tant donne les valeurs de
diverses mesures danomalie, partir de la chance priori de lintrusion et de la vraisemblance que
P(Ai /I)
chaque mesure soit anormale sachant quune intrusion se produit, i.e. le terme P(A
.
i /I)
Un exemple plus raliste tient compte de linterdpendance des diverses variables. Lunt et al [123]
ont accompli ceci par lutilisation des matrices de covariance. Lanomalie compose du systme est
calcule en utilisant le vecteur A = [A1 , A2 , . . . , An ] par :
AT C 1 A
(3.7)
o la matrice C = [Ci j ] stocke linterdpendance entre chaque paire danomalies Ai et A j . Avec cette matrice de covariance il est possible de considrer le fait que les entres qui interviennent dans le diagnostic
de scurit sont corrles [142].
Les rseaux baysiens Les futurs systmes peuvent utiliser les rseaux baysiens pour combiner les
mesures danomalie. Les rseaux baysiens [147] permettent de reprsenter graphiquement des dpendances probabilistes entre les variables alatoires [155, 160]. Ils permettent de reprsenter les relations
entre les Ai et I et de manipuler facilement la loi jointe P(I, A1 , . . . , An ) pour obtenir odds(I) mme si
certains Ai ne sont pas mesurs.
2
odds(X) =
P(X)
P(X)
25
F. 3.5 SVM dcomposant lespace des composants en deux classes (ils reprsentent par exemple le
comportement normal et anormal)
La figure 3.4 montre un petit rseau baysien utilis pour rpondre des questions "quelle est la
probabilit de lintrusion sachant le niveau observ de la fragmentation de disque ?",ou "quelle est la probabilit dintrusion tant donn que le nombre dutilisateurs courants est lev et que la charge de lunit
centrale de traitement est faible ?". Chaque cercle reprsente une variable alatoire binaire avec des valeurs reprsentant sa condition normale ou anormale. Si nous pouvons observer les valeurs de certaines
de ces variables (Evdence), nous pouvons utiliser lsz algorithmes dinfrence des rseaux baysiens pour
dterminer P(Intrusion | Evidence).
Machines vecteurs support (SVM) Les SVM sont lune des mthodes dapprentissage supervise
les plus rcentes[136, 133]. Les donnes sont projetes dans un espace de vecteurs multidimensionnels
en utilisant des fonctions noyaux de sorte quelles puissent tre spares en deux classes. Certains de
ces vecteurs sont choisis pour dfinir la frontire entre les classes, et un hyperplan est calcul par la
rgression afin de dcomposer les donnes dentre.
La figure 3.5 montre un exemple dun SVM sur un espace bi-dimensionnel de composantes. Les
vecteurs vi = (xi , yi ) X Y {}1 (qui pourraient reprsenter par exemple la longueur et la somme
de paquet dattaque ou normaux) sont classifis par une fonction linaire qui a une distance marginale
variable dtermine par des vecteurs de support prs de la frontire. Cette marge doit tre maximale pour
que la classification soit prcise. Les SVM ont t employs par exemple pour classifier le comportement
de systme et les empreintes digitales [136].
3.5.1.2 Analyse de squences des vnements
Gnralisation Inductive La gnralisation inductive est une technique de dtection danomalie base
sur lhypothse que les squences dvenements ne sont pas alatoires, mais suivent un modle perceptible. Ceci a comme consquence une meilleure dtection des intrusions tenant compte de la corrlation
et de lordre des vnements.
Cette approche est base sur les rgles qui caractrise le comportement dun systme ou dun utilisateur en utilisant la gnralisation inductive dans la prtention que des vnements dun systme peuvent
tre prvus [82, 173]. Un ensemble de rgles de la forme :
Ea Eb Ec (Ed = 0.95, Ee = 0.05)
26
(3.8)
F. 3.6 Un rseau de neurones simple avec fentre qui prvoie la commande suivante en fonction des
3 commandes passes.
exprime la probabilit de voir un vnement apparatre la suite dune squence dautres vnements.
Par exemple, une fois les vnements a, b, et c apparus squentiellement, lvnement d a une probabilit de 95% dapparatre, et e apparatrait avec une probabilit de 5%. Ce sont tous les deux normaux
et acceptables. Les rgles aident savoir lavance la probabilit dtre sous lattaque en donnant un
ensemble de modles observs [173]. Des vnements seront marqus comme intrusifs quand ils correspondent au ct gauche dune rgle mais divergent sur les probabilits qui apparaissent dans le ct
droit. On rclame que si un intrus essaye de guider la phase de construire des rgles pour accepter lactivit irrgulire en tant que normale, la signification mme des rgles peut aider dterminer quelque
chose danormalit a t captur [173] (c.--d., les rgles sont facilement lues et interprtes par les administrateurs). Cette mthode base danomalies a une faiblesse importante : aucune attaque inconnue
ne correspond aucun ct gauche dune rgle ne sera pas considr pour davantage dinspection.
Rseaux de neurones. Les rseaux de neurones sont lune des mthodes qui utilisent la classification supervise pour dvelopper un classifieur qui prvoie des valeurs de sortie bases sur un ensemble
dattributs dentre.
Dans le cas de la dtection dintrusion, un rseau de neurones peut tre employ pour prvoir le
prochain vnement apparatre. Par exemple, lhistorique des commandes dun utilisateur peut tre
employ pour former un rseau de neurones. Une fois que lapprentissage est ralise, une fentre des k
commandes glissera en fonction du temps afin de surveiller lactivit de lutilisateur. Si on observe que le
rseau de neurones indique quaprs k vnements, lvnement e j devrait suivre mais que lon observe
un vnement diffrent, alors une alerte est active. La figure 3.6 montre un petit rseau qui prvoit la
prochaine commande partir des trois commandes passes. Les squences de commande doivent tre
divises en fentres glissantes. Dans ce cas, la fentre glissera dune commande la fois et emploiera
trois commandes en entre afin de dterminer laquelle des valeurs de sortie doit apparatre. Le temps
dapprentissage est la restriction principale de lapproche des rseaux de neurones pour le problme de
la dtection dintrusion. Cependant, ces modles traitent trs bien les donnes bruites [156].
Approche immunologique Forrest [64] a propos une approche immunologique pour modliser les
processus sur une machine. Sa mthode consiste dcrire le comportement normal via une squence finie
dappels systmes. Les squences appeles N-gram servent de base pour comparer les appels systmes
des processus lors dune phase de surveillance. Cette comparaison numre les diffrences entre les
paires dans une fentre de taille k (tide) [64] ou utilise des rgles de r bits contigus (stide) [83]. Wespi,
Dacier et Debar [185] considrent un cas plus gnral en analysant les vnements daudit. Ils gnrent
27
des squences dvnements de taille variable pour modliser ltat normal du systme. Ensuite un motif
est slectionn sil existe d motifs qui le suivent directement, sinon le score danomalie est incrment
de 1 et une alerte est dclenche lorsque le score dpasse le seuil tolr.
Marceau [128] optimise la reprsentation des N-gram sous forme de graphes orients sans circuits
(DAG) ce qui permet de rduire la base de profils dfinie par Forrest. De plus, il utilise le mcanisme
de fentre glissante pour comparer les motifs. Kosoresow [108] tudie les caractristiques des traces des
appels systmes et remarque que les diffrences entre motifs apparaissent dans des rgions de tailles
fixes. En divisant la trace en 3 parties : dbut, corps et fin, il russit gnrer de nouvelles squences de
motifs reprsentes par des machines tats finis. La mthode permet de rduire le nombre de squences.
Par exemple, 26 descriptions du processus sendmail suffisent au lieu de 147. Cependant lauteur propose
une construction manuelle de lautomate pour traduire ces motifs.
Warrender et Forest comparent dans [184] quatre approches immunologiques : la squence simple
dvnements (stide), la squence dvnements des frquences dapparition (t-stide), la gnration automatique des rgles inductives via RIPPER et le modle de Markov cach (HMM). Ils concluent quen
moyenne la modlisation HMM prsente des meilleurs performances. Mais il ne sagit pas dune supriorit absolue puisque les rsultats des expriences dpendent des programmes tests.
3.5.1.3 Occurence des vnements multiples
Rgles dassociation Lee et Xiang [120] utilisent la thorie dinformation pour comprendre la nature
des donnes audites et par suite construire des modles de dtection dintrusions comportementale. Les
techniques de fouilles de donnes (Data Mining) permettent galement de construire des modles de dtection adaptatifs. Les algorithmes utilises par Lee [117, 114] divisent les donnes en deux catgories :
des donnes normales et des donnes anormales. Cette classification permet de construire des rgles dassociation qui expriment des relations entre les enregistrements des fichiers de scurit. Par exemple, pour
un utilisateur particulier, lditeur Xemacs est le plus souvent associ des fichiers ".c". Lee souligne que
lextraction des vnements frquents permet de mieux analyser les traces dvnements. De plus une
mta-classification des analyses de plusieurs IDS garantit une meilleure dtection avec moins de faux
positifs. Ces diffrentes techniques sont implantes dans le systme de dtection dintrusions JAM [170].
De plus lanalyse de donnes porte sur des traces normales pour assurer une dtection comportementale
ou bien sur des traces dintrusions. Elle contribue donc construire des rgles de dtection dattaques
utilisables lors dune dtection dintrusions par abus.
ADAM est un autre systme de dtection dintrusions qui utilise les rgles dassociation. Il est bas
sur les travaux de Barbara [15, 16] et effectue deux tapes dapprentissage. La premire tape utilise des
donnes hors ligne pour construire des rgles dassociation modlisant les profils normaux. La deuxime
tape considre des donnes en ligne et emploie les rgles dassociation dj construites pour crer un
classificateur dvnements suspects. Lobjectif de cette phase est de rendre le systme de dtection
dintrusions plus apte distinguer les vraies attaques des faux positifs.
P(Intrusion)
P(EventPattern)
(3.9)
Considrons par exemple le rseau dun campus universitaire comme domaine dans lequel on va
prdire la probabilit conditionnelle dintrusion. Un expert de scurit responsable de ce campus pourrait
quantifier la probabilit priori doccurence dune intrusion dans le systme du campus, P(Intrusion), se
basant sur son exprience. Dautre part, la frquence relative doccurence dune squence dvenements
dans lensemble des donnes dintrusion donne la probabilit P(Eventsequence | Intrusion). De mme,
nous pouvons calculer la probabilit P(Eventsequence | Intrusion) partir dun ensemble de donnes
normales.
3.5.2.2 Analyse de transition dtat.
Lanalyse de transition dtat a t dveloppe par le Reliable Software Group luniversit de Californie [85]. Cette mthode est employe pour reprsenter un ordre des actions quun attaquant excute
pour attaquer un systme. Ces couples actions-conditions sont reprsentes par un diagramme de transitions dtat. Il est bas sur le fait que toutes les intrusions ont deux caractristiques communes : un attaquant obtient laccs un systme cible dune ou une autre manire, et il gagne par lintrusion quelques
capacits quil navait pas avant.
Dans cette approche qui est utilise par STAT [148] et implmente pour Unix dans USTAT [85], les
attaques sont reprsentes comme une squence des transitions dtat dun systme surveill. Les tats
dans le modle dattaque correspondent aux tats de systme et ont des affirmations boolennes lies
entre elles et qui doivent tre satisfaites pour passer dun tat un autre. Les tats successifs sont lis par
des arcs qui reprsentent les vnements ncessaires pour changer ltat.
3.5.2.3 Systmes base de rgles.
Les systmes experts ont t galement employs dans la dtection des intrusion par abus [87, 111,
159]. Ces systmes incarnent la connaissance dun expert afin didentifier les donnes anormales et les
actions irrgulires. Ils appartiennent la famille de dtection base de scnariis car ils indiquent explicitement les motifs rechercher [109]. Le succs de ces mthodes est directement li deux facteurs :
(1) lexpertise de ladministrateur de scurit qui sera employ comme entre au mcanisme de dtection, et (2) lefficacit de limplmentation pour structurer avec cohrence lexpertise de lhumain dans
un logiciel. Dans de tels systmes, comme dans nimporte quel autre systme expert, la connaissance
dclarative lie aux intrusions est separe du moteur dinfrence excutant un raisonnement au sujet de
la base de fait. En dautres termes, il signifie que, en gnral, trois composants principaux peuvent tre
distingus :
la base des faits qui contient les venements sur les tats de systme.
la base des rgles qui contient les rgles qui reprsentent les scnariis dintrusions.
29
s = 0.5, c = 0.9
(3.10)
o S Y N est le nombre des drapeaux de synchronisation, FIN est le nombre des drapeaux de finalisation et RES est le nombre des drapeaux de remise zro dans une periode de temps. Au lieu davoir
des valeurs numriques qui dcrivent ces figures, des limites floues sont prsentes pour donner plus de
flexibilit la rgle. Des ensembles flous dcrivant ces limites (par exemple, LOW, HIGH) devraient tre
crs afin de tracer lentre avant deffectuer la dtection dintrusion [21].
F. 3.9 Une liste deux dimensions qui dcrit la syntaxe des rgles de SNORT
rgle (il sagira alors de chaines doptions). Ces rgles sont appliques chaque paquet dans les
deux dimensions (figure 3.9). La premire des rgles du moteur de dtection qui correspond un
paquet dcod dclenche laction spcifie dans cette rgle et fait sortir le paquet du processus de
dtection.
Le sous-systme dalerte et de log (Postprocesseurs) : Il permet de spcifier ce qui doit tre fait
lorsquune attaque est dtecte. Les paquets peuvent ainsi tre loggs (sous diffrents formats)
ou gnrer une alerte pouvant prendre la forme dune fentre popup, dun message syslog, dun
fichier dalertes, de traps SNMP, etc. en fonction du module de sortie slectionn.
Type : SNORT dfinit cinq types de base. Une rgle de type Alert enregistre le paquet dans un fichier journal et dclenche une alarme pour avertir ladministrateur. Le type Log sauvegarde simplement
le paquet alors que le type Pass ignore les paquets rpondant cette signature. Le type Active alerte
ladministrateur et active une autre rgle de type Dynamic. Ainsi ce dernier type permet de dsactiver
momentanment les rgles jusqu ce quun vnement soit dtect.
Protocole : ce paramtre sert identifier le protocole auquel sapplique la rgle. Actuellement, SNORT
gre quatre protocoles de trafic : TCP, UDP, ICMP et IP, qui sont les principaux protocoles utiliss pour
le trafic Internet. Lanalyse commence toujours par les rgles TCP,UDP ou ICMP et en cas dchec de
dtection, elle se poursuit en parcourant les rgles IP.
Entte : cette partie de rgle dfinit les paramtres des faux TCP et UDP, des messages ICMP et
des paquets IP analyser. Elle indique ladresse source, le port source, ladresse destination et le port
destination surveiller. De plus un oprateur de direction informe SNORT du sens dapplication de la
rgle. Loprateur -> dsigne une rgle unidirectionnelle alors que loprateur <> indique une rgle
bidirectionnelle. Notons que lentte dune rgle est stocke dans une structure spciale appele RTN
(Rule Tree Node) et chane avec les enttes des autres rgles pour former une liste de RTN.
Corps : cest la partie restante dune rgle qui comporte diverses options stockes dans une structure
spciale appele OTN (Option Tree Node). Les options servent la dtection (TTL : dure de vie, Flag :
drapeaux TCP, TOS : type de service, Content : contenu du paquet, etc), aux rponses actives des attaques
dtectes (mots cls REACT et RESP) et larchivage dans les fichiers de scurit (LOGTO : nom du
fichier log, msg : description de lattaque, etc).
recoivent des milliers dalertes chaque jour, parmi lesquelles plus que 99% sont des fausses alarmes
[127].
La consquence est que ladministrateur est oblig de revoir srieusement la hausse son seuil de
tolrance, ce qui va le conduire passer ct de beaucoup de problmes rels et permettre un pirate
de haut niveau de russir une attaque suffisamment discrte pour ne pas tre dtecte du tout. Ainsi, le
principal problme des IDS nest pas de laisser passer certaines attaques (dans la pratique ils en dtectent
la quasi totalit) mais de noyer ladministrateur sous un flot dinformation. En effet, les IDS ne sont pas
capables de juger de la pertinence, de la gravit et de la corrlation des attaques. Ils gnrent tellement
dalertes quil va tre trs difficile de dtecter les problmes graves au milieu de toutes les alertes.
Il est donc normal de sinterroger sur les raisons de cette inondation dalertes. La sous section 3.7.1
adresse cette question. La sous section 3.7.2 prsente les recherches vers un "meilleur" IDS, qui dclenche moins de faux positifs. La sous section 3.7.3 prsente lapplication des mthodes de fouilles de
donnes (Data mining) sur ce problme et conclut cette section avec une discussion sur la corrlation
dalerte.
Dtecteurs incorpors : Zamboni [187] dfinit les dtecteurs incorpors en tant quIDS bass sur les
htes, et qui sont intgrs dans le code source dune application ou du systme dexploitation. Ainsi, les
dtecteurs incorpors sont une forme dinstrumentation du code source. Un de leur avantages principaux
est leur capacit daccder nimporte quelle information ils ont besoin pour accomplir leur travail. De
plus, les dtecteurs incorpors sont excuts sur demande, ce qui est conomique, et libre des ressources
employer autrement, par exemple pour des signatures plus prcises. On sattend ce que les deux
avantages mnent peu de faux positifs [187, 5], mais une preuve rigoureuse est toujours attendue.
IDS Web : Almgren et al dcrivent des IDS base de signature pour dtecter des attaques de serveur
web en temps rel [4]. Les IDS sont bass sur les htes et utilisent des journaux des serveurs web
comme source daudit. Les signatures dattaque sont une variante des expressions rgulires, et peuvent
facilement tre accordes un environnement particulier. Cette adaptation sest avr utile pour rduire
le nombre de faux positifs.
NIDS spcialiss : Sekar et al prsentent un IDS bas sur les rseaux qui se concentre exclusivement
sur des attaques de bas niveau de rseau, telles que les balayages de reconnaissance et les attaques de
dni-de-service [161]. Le systme actuel diffre de la plupart des autres IDS bass-rseau parce quil
sabstient de nimporte quelle tentative de dtection des attaques au niveau application telles que des
attaques contre des serveurs Web.
Groupement/Clustering des alertes : lide ici est de regrouper et fusionner les alertes similaires
en des groupes similaires [175, 40, 41]. Dans [175], Valdes et Skinner dfinissent une fonction de
similarit entre alertes, quils utilisent pour fusionner des alertes similaires. Un ensemble dalertes
fusionnes est appel mta-alerte. Le systme est incrmental, chaque nouvelle alerte est compare
la liste des mta-alertes existantes. Une nouvelle alerte est fusionne avec la mta-alerte la plus
proche condition que la similarit soit juge suffisante, sinon elle constitue une nouvelle mtaalerte. Lapproche de Dain et Cunningham [40, 41] est similaire celle de Valdes et Skinner. Leur
objectif est de former des groupes dalertes similaires. Lalgorithme est incrmental, les nouvelles
alertes sont ajoutes au groupe le plus proche ou font lobjet dun nouveau scnario. La mesure de
similarit entre les alertes et les groupes dalertes est probabiliste.
Dans [96, 94], Julisch propose dadapter une mthode de fouille de donnes connue sous le nom
dAOI (Attribute-Oriented Induction) pour grouper les alertes et identifier le phnomne lorigine
des groupes dalertes. De manire gnrale, lAOI consiste fusionner des donnes reprsentes
par des n-uplets dattributs en fonction de hirarchies de concepts (ou taxonomies), lies chaque
attribut. Dans lapproche de Julisch, les alertes sont des quadruplets (ident, source, cible, t) o
ident est lidentifiant de lattaque fourni par lIDS, source est ladresse IP source de lattaque, dest
ladresse IP destination et t la date doccurrence. Lapproche de Julisch na pas pour objectif de
construire des scnariis dattaques, mais plutt deffectuer des regroupements dalertes correspondant des tendances remarquables dans une base dalertes. Loprateur peut traiter les alertes par
lots et donc se concentrer sur les alertes ventuellement plus svres.
Pr-requis / Consquences : Cuppens propose dans [36] une technique dagrgation et de synthse dalertes similaires. Lobjectif est donc aussi similaire celui de Valdes et Skinner. Une des
diffrences entre les deux approches rside dans le fait que lapproche de Valdes et Skinner est probabiliste, alors que lapproche de Cuppens est base sur des rgles logiques. En dautres termes,
dans lapproche de Cuppens, deux alertes sont ou ne sont pas similaires ; lapproche de Valdes et
Skinner est plus souple dans le sens o les alertes possdent un degr de similarit. La similarit
des alertes est une combinaison de la similarit des attributs qui composent les alertes. Des rgles
dfinissant la similarit sont donc dfinies pour chaque type dattribut, afin de prendre en compte
leurs caractristiques propres.
Utilisation des rgles dassociation et dpisodes : Cette sous section prsente les projets de
recherche qui utilisent les rgles dassociation et dpisodes pour traiter les alertes.
36
Clifton and Gengo utilisent la fouille de donnes pour construire des modles dalertes comprhensibles par un expert et sur lesquels il peut agir [30]. Plus prcisement, ils extraient des rgles
dpisode partir des journals historiques dalertes, et utilisent ces rgles pour guider la construction des rgles de filtrage, qui filtrent automatiquement les faux positifs. Clifton et Gengo offrent
peu dexpriences pour valider leur approche.
Dans le domaine des rseaux de tlcommunication, Klemettinen utilise des rgles dassociation et des rgles dpisode pour dvelopper des systmes de corrlation dalerte [102]. Hellerstein
et Ma poursuivent le mme but au moyen de visualisation, analyse de priodicit, et m-patterns
(une variante des rgles dassociation qui exige limplication mutuelle) [81]. Ces projets de recherche nous ont convaincus que la visualisation, les rgles dpisode, et les rgles dassociation
exigent trop (en termes de temps et dexpertise humaine) pour tre employes sur une plus grande
chelle.
3.7.3.2 Corrlation explicite
lide de base consiste confronter le flux dalertes des scnariis dattaques connus a priori. La
corrlation explicite est donc rapprocher de lapproche par scnario, classique en dtection dintrusions.
Cependant, elle sen distingue en utilisant des signatures plus volues [46].
Lapproche de corrlation de Debar et Wespi, dcrite dans [47], est la premire solution de corrlation
dalertes implante dans un outil commercial, Risk Manager. Lune des fonctions du composant dagrgation et de corrlation (ACC) de Risk Manager est de former des groupes dalertes similaires, appels
situations. Les alertes manipules sont des triplets constitus dun identifiant dattaque, de la source et de
la cible de lattaque. Une situation est un ensemble dalertes ayant la mme projection selon un certain
nombre daxes, les axes tant reprsents par les attributs. La corrlation des alertes peut galement tre
excute en confrontant des scnariis dattaque indiqus par des languages dattaque. Des exemples de
telles languages incluent STATL[54], lambda[38], et JIGSAW[172].
3.7.3.3 Discussion
Julish a not dans son travail [95] quelques remarques sur les ACS que nous rsumons ici :
Profondeur danalyse En raison des conditions dures du temps rel, les ACS peuvent excuter une
quantit danalyse limite. Par exemple, considrons un phnomne qui se produit seulement le samedi
(par exemple faux positifs dus aux systmes de sauvgardes hebdomadaires). Les ACS ne sont pas capables de grouper et reporter les alertes resultantes car limplmentation est difficile en temps rel. En
plus, pour identifier un modle hebdomadaire dalarme, on doit observer au moins plusieurs semaines
des alertes.
37
Polarisation (Bias) Les ACS sont gnralement optimiss pour trouver les groupes dalerte qui rsultent des attaques. Cette polarisation centre-attaque a des consquences de grande envergure. Par
exemple, quelques ACS rvaluent la svrit des groupes dalertes et cartent des groupes dalertes qui
sont considrs bnins [47, 169]. Dautres ACS utilisent des techniques pour traiter des attaques avec
des IP sources usurpes (IP spoofing), des scnariis dattaque plusieurs tages (multi-stage attack),
ou des attaques furtives [37, 41, 175]. Dailleurs, les publications sur les ACS utilisent excusivement
des attaques pour valider leurs systmes. La plupart de ces groupes dalertes ne sont pas le rsultat des
attaques, et les ACS daujourdhui ne sont pas particulirement appropris pour les trouver et les carter.
Facilit dutilisation Les ACS daujourdhui sont difficiles configurer. Par exemple, quelques ACS
ont des douzaines de paramtres de configuration, dont le rglage ncessite une grande exprience [47,
175]. Dautres ACS exigent lutilisateur dindiquer les rgles de corrlation, ce qui nest pas envisegable
du point de vue de lingnierie cognitive [36, 37]. Les ACS de [41] apprennent des rgles de corrlation
partir de lutilisateur. A cet effet, lutilisateur doit corrler manuellement des alertes, de sorte que le
systme puisse apprendre ses capacits. Clairement, la corrlation manuelle dalertes est difficile et peut
tre une source derreurs.
de lingnieur scurit et diminuer sa charge de travail. Les diffrents objectifs que lon peut attendre de
cette approche sont :
la suppression des faux positifs et des vnements non significatifs pour lingnieur scurit.
la dtection dune variation du profil des machines de rseau interne (nouvelle attaque, variation
de la frquence dun type dattaque, variation de la frquence gnrale, etc.)
ltude des corrlations entre diffrentes alertes pour dtecter des comportements types des scnariis dattaque.
Une architecture volutive et adaptable aux changements (nouvelles machines intgres dans le
rseau, nouveaux types dattaques, etc.).
Notre systme se dcompose en trois tapes dtailles dans la figure (3.11).
1. Prtraitement temporel : en considrant quun scnario dattaque consiste en une srie dvnements se droulant dans un intervalle de temps, nous commenons par faire une synthse des
alarmes gnres par le NIDS dans une fentre temporelle fixe. Cette synthse nous donne un
rsum du comportement de toutes les machines externes (attaquantes ?) destination de toutes
les IP internes ventuellement attaques. Une tude dtaille est prsente dans le chapitre suivant
(4.2.1).
2. Prtraitement spatial : nous partons ensuite du principe que ce comportement peut tre similaire
pour plusieurs machines externes (qui tenteraient le mme genre dattaque vers une mme machine
interne), ou destination de plusieurs machines internes (une mme attaque pourrait tre dirige
vers plusieurs machines). Nous allons donc regrouper ces comportements en un certain nombre
de comportements-types, en utilisant une technique de classification non supervise classique, les
cartes auto-organisatrices de Kohonen (voir 4.2.2).
3. Classification : nous pouvons maintenant faire une synthse du nombre de comportements de
chaque type ayant eu lieu destination de chaque machine interne. Cette synthse nous rsume
les diffrents types dattaques potentielles visant chaque machine du rseau pendant notre fentre
de temps. Ces informations sont alors utilises pour dterminer si le rseau a rellement t attaqu.
Nous proposons de raliser cette tche de classification laide de diffrents rseaux baysiens ou
de machines vecteurs supports. Notre premire approche raisonne de manire "brute" partir de
toutes les informations. Lapproche suivante prendra en compte la structure du rseau, ou des caractristiques particulires des machines vises pour essayer damliorer les rsultats. Cette tche
de classfication est traite en dtail dans le chapitre 5 (5.4). La figure 3.12 illustre le diagramme
de travail en commencant des logs de SNORT jusqu ltape de discrimination.
Le filtre devrait tre capable de sadapter une configuration rseau donn (apprentissage non supervis), de classer les alertes de manire automatique, et dalerter en temps (pseudo-rel) lorsquun
problme survient. Ltude de lvolutivit de larchitecture est le sujet du chapitre 6.
Donnes
Brutes
Construction X1 Pondration
a1X1 Projection dans
un espace de
des
des
dimension
Caractristiques
Caractristiques
infrieures
y1
Construction de la
fonction de
dcision
Classe
ym
anXn
Xn
Fichiers
de Log
Pondration
Prtraitement
Vecteur Forme de m
variables types
Projection
Classification
F. 3.12 Chane de traitement, des donnes brutes la dcision. On voit ici les tches utiles la prise
de dcision, savoir le pr-traitement temporel, spatial et enfin la classification.
dalertes la description que donne SNORT chaque alerte gnre lors dune tentative dattaque. Un
extrait dun journal issu de SNORT est donn par la figure 3.13 dans lequel le type dalerte est encadr.
Nous avons utilis le logiciel tcpdump pour collecter les en-ttes des paquets qui traversent le rseau.
Quelques champs dintrt contenus dans les en-ttes sont lists dans la table 3.1.
Ces alertes sont gnres lors des tentatives de connexions de 4638 machines externes vers 288
machines internes. Parmi toutes ces alertes, il y a effectivement 16 scnariis dattaques relles et les
autres sont des fausses alertes gnres par SNORT.
Le tableau 3.2 contient les informations dtailles de ces scnariis dattaques. Ces scnariis sont
tiquets par un expert de scurit. Notons que durant un intervalle de temps o une machine interne
est vise par une attaque il y a aussi des connexions qui sont normales et seules les connexions visant
la machine attaque sont tiquetes comme attaques et pas toutes les connexions durant lintervalle du
temps o se deroule lattaque.
40
3.9. Conclusion
Dfinition
le temps de rception du paquet par tcpdump
La machine qui a envoy le paquet
La machine qui a recu le paquet
Le protocole utilis pour envoyer le paquet
le service duquel le paquet est envoy
le service auquel le paquet est destin
3.9 Conclusion
Nous avons prsent tout au long de ce chapitre les qualits requises des systmes de dtection dintrusions. Afin de remplir ces objectifs, diverses mthodes de dtection dintrusions ont t proposes.
Elles se basent principalement sur deux principes de dtection : la dtection par anomalie et la dtection
par abus. Nous avons expliqu ces deux principes de dtection et avons soulign les limites des systmes
de dtection dintrusions bass rseau. Afin de rsoudre ces limites, nous proposons une architecture de
filtrage des alertes pour rduire lnorme pourcentage des faux positifs et donner ladministrateur de scurit les vrais scnariis dattaques. Le prochain chapitre sintresse la premire phase de larchitecture
c..d le prtraitement des journaux dalertes.
41
T. 3.2 Description des scnariis dattaques qui se trouvent dans nos donnes dexprience .
42
#
1
2
Date
20/11
21/11
Temps
22h22m24m
10h01m07m
IP source
26.129.74.64
166.142.155.109
IP destination
189.195.45.196
189.195.45.153
21/11
10h12m12h08m
52.193.19.174
189.195.45.153
21/11
18h09m27m
52.216.28.178
189.195.45.153
24/11
03h05m28m
164.208.69.215
189.195.45.196
01h55m05h07m
13h22h
15h04m15m
13.211.154.17
189.195.45.196
27/11
28/11
30/11
166.153.58.194
189.195.45.153
01/12
13h18m51m
13.239.107.150
189.195.45.111
9
10
11
01/12
03/12
06/12
14h51m17h45m
18h52m19h58m
00h58m01h27m
67.9.150.34
26.134.107.153
52.38.169.27
189.195.45.196
189.195.0.235
189.195.45.196
12
07/12
01h40m42m
164.224.118.173
189.195.45.196
13
08/12
01h23m39m
204.226.180.106
189.195.45.33
14
09/12
08h15m31m
67.97.250.21
189.195.45.153
15
09/12
16h29m33m
81.255.23.129
189.195.45.196
16
09/12
18h55m19h21m
189.195.45.196
Type dattaque
Force Brute
Force brute sur
POP3
Force brute sur
POP3
Trop derreurs
403
Force Brute sur
FTP
Crawler Web
Force brute sur
POP3
Scanner de Vulnrabilit
Force Brute
attaque SNMP
Force Brute sur
FTP
Scanner de Vulnrabilit
Attaque
Web
contre IIS
Force
Brute
contre POP3
Attaque
Web
IIS contre un
Apache
Fichiers MP3
echangs
via
FTP
Chapitre
Sommaire
4.1
4.2
Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3
4.4
4.5
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
43
(4.1)
k=1
Les deux mtriques de Minkowski les plus gnralement utilises sont la distance euclidienne et la
distance de Manhattan, qui sont obtenues respectivement pour r = 2, et r = 1.
S (Qk )
Sa =
S nn =
i,i0 k xi xi0 k
Nk (Nk 1)
P
i mini0 {k xi xi0 k}
Nk
Sc =
kxi xk k
Nk
d(Qk , Ql ) n
o
d s = mini, j
xi x j
n
o
dco = maxi, j
xi x j
P
k x x k
lien moyen (average linkage)
da = i, jNk Ni l j
lien au centre (centroid linkage)
dcl = kxc xl k
T. 4.1 Distances inter-clusters S (Qk ) et distances intra-clustersPd(Qk , Ql ) ; xi , xi 0 Qk , i , i0,
x Q xi
x j Ql , k , l. Nk est le nombre dexemples dans le cluster Qk et ck = iNkk
Distances intra-clusters
lien simple (single linkage)
lien complet (complete linkage)
citons : Dunns validity index, Davies-Bouldin index, Silhouette validation method, C index, GoodmanKruskal index, Isolation index, Jaccard index, Rand index, Class accuracy, etc.
Dans cette tude, nous avons utilis lindice de Davies-Bouldin [42], qui utilise les deux distances
(inter et intra-clusters). Selon lindice de validit de Davies-Bouldin, le meilleur clustering est celui qui
rduit au minimum la valeur :
)
(
K
S c (Q j ) + S c (Ql )
1X
max
K j=1 l, j
dcl (Q j , Ql )
(4.2)
4.1.4 K-moyennes
Lalgorithme des K-moyennes est un algorithme classique de quantification vectorielle. Son principe
est le suivant : on dispose dun ensemble de n points D = {x1 , . . . , xn } de lespace des observations que
lon souhaite rassembler en K classes {C1 , . . . , Ck }, de facon ce quun critre de qualit de clustering
soit optimis. En supposant que les objets xi D sont tirs dun espace euclidien, lerreur quadratique
E K2 est le critre le plus gnralement utilis pour dterminer la qualit du clustering :
Ek2 (C1 , . . . , Ck ) :=
K X
X
k=1 xCk
(4.3)
Lalgorithme des K-moyennes (cf. figure 4.1) commence avec un ensemble de K centres de clusters
alatoirement choisis (tape 1) et affecte itrativement les objets aux classes les plus proches afin de
diminuer lerreur quadratique Ek2 (tapes 2 7). La relocalisation dobjet continue jusqu ce que les
clusters ne changent plus entre les itrations conscutives.
Il existe une preuve de convergence pour cet algorithme [162]. Cependant, il existe trois inconvnients de cet algorithme : le premier est quil est ncessaire de connatre le nombre de classes avant de
commencer la classification. Un deuxime inconvnient est la grande sensibilit aux conditions initiales,
qui se traduit ici par le choix des K rfrents initiaux. En effet, sils sont choisis de manire alatoire, la
convergence de lalgorithme vers un minimum "global" nest pas assure, ce qui impose, dans la pratique,
46
(4.4)
o (t) est le pas dapprentissage et h(t) est une fonction de voisinage centre sur lunit gagnante.
Les deux paramtres, pas dapprentissage et rayon de la fonction de voisinage sont dcroissantes avec le
temps.
4.1.5.1 Lalgorithme SOM
Lalgorithme dcrivant ce modle est donc le suivant :
1. t 0, initialiser alatoirement les vecteurs prototypes, initialiser le nombre maximum dtapes
dapprentissage tmax ,
2. prsenter un vecteur x, pris alatoirement dans lensemble dapprentissage,
47
(4.5)
La fonction de voisinage propose par Kohonen [103, 104] est directement inspire des modles
biologiques o une cellule active ses voisines les plus proches et inhibe les plus loignes. Dans
le cas dun rseau, les cellules les plus proches de la bmu voient leur vecteur prototype dplac
vers lentre proportionnellement (t) tandis que les vecteurs prototypes des cellules les plus
loignes sont repousss. La fonction utilise dans ce cas est celle du chapeau mexicain :
hb,i (t) = a exp(d(b, i)2 ) cos(c d(b, i))
(4.6)
o a et c reprsentent des amplitudes (cf. figure 4.2 o la valeur de la fonction de voisinage est
indique pour les 6 cellules autour de la bmu).
Cependant, Erwin et al. [56] ont montr quil est ncessaire dutiliser une fonction convexe pour
viter que la carte ne passe, en cours dapprentissage, par des tats stables, alors que les vecteurs prototypes nont pas encore atteint leur positions finales. Une telle situation peut amener un
blocage de lorganisation alors quelle nest pas termine. Depuis cette tude la fonction la plus
employe est de type gaussienne (cf. Figure 4.2) :
hb,i (t) = e
d(i,b)2
2(t)2
(4.7)
o (t) est galement une fonction dcroissante du temps, dfinissant le rayon dinfluence du
voisinage autour de la bmu. Il sera tout dabord grand pour permettre la carte de se dplier
puis se restreindra la seule bmu, ou ses voisines directes [18], pour affiner le placement des
vecteurs prototypes. Quelle que soit la fonction retenue, le choix du rayon dinfluence de hb,i (t)
a une grande importance car, si ltendue du voisinage de dpart est trop restreinte, la carte ne
3
48
F. 4.2 Valeur de la fonction de voisinage autour de la bmu pour une carte linaire.
pourra pas sordonner globalement. Pour viter de voir des zones de la carte dsordonnes il est
recommand [105] de prendre une valeur initiale hb,i (0) trs grande, voire mme plus grande que
la taille de la carte et de la laisser dcrotre jusqu 1 au cours de lapprentissage.
- le nombre ditrations effectuer tmax : Kohonen recommande, pour obtenir une bonne prcision
statistique, de prendre tmax au moins gal 500 fois le nombre de cellules constituant la carte.
En gnral pour valider la qualit du Clustering par lalgorithme SOM, deux mesures derreurs sont
calcules : la rsolution de la carte et la prservation de la topologie de la carte :
Quantization error (QE) : la distance moyenne entre chaque vecteur et son bmu. Cette mesure
indique la rsolution de la carte obtenue.
Topographic error (TE) : la proportion de tous les vecteurs pour lesquels le premier et le second
bmu ne sont pas adjacents. Cet indicateur mesure la prservation de la topologie de la carte.
4.1.5.2 Les cartes auto-organisatrice adaptatives
Dans la plupart des applications, SOM est utilis pour projeter des donnes dun espace dentre de
grand dimension dans un espace plus petit. Lutilit dune telle projection pour une application donne
va dpendre de la prcision de la reprsentation de ces donnes dans le nouvel espace. SOM est normalement represent comme une carte deux dimensions. En utilisant SOM, la taille de la carte et le
nombre des noeuds doivent tre prdtermins. Le besoin de la prdtermination de la structure de SOM
a comme consquence une limitation significative dans la carte finale. On connat souvent seulement
laccomplissement de la simulation quune carte diffrente aurait t plus approprie pour lapplication.
Donc, des simulations doivent tre excutes plusieurs fois sur des cartes de diffrentes tailles pour slectionner la carte optimale. Une autre limitation en utilisant SOM pour la dcouverte de connaissance
se produit en raison de lutilisateur ne se rendant pas compte de la structure actuelle dans les donnes.
Donc, il devient non seulement difficile de prdterminer la taille de la carte mais aussi de dire quand
la carte a t organise en structure approprie de clusters, car lutilisateur ne connait pas la structure
approprie elle-mme. La solution de ce problme est de dterminer la structure aussi bien que la taille
de la carte durant la phase dapprentissage. Plusieurs variantes de SOM sont proposes pour resoudre ces
49
F. 4.3 Options de croissance de noeud dans GSOM :(a) un nouveau noeud, (b) deux nouveaux noeuds
et (c) trois nouveaux noeuds.
deux problmes par lutilisation darchitectures adaptatives comme Growing Grid (GSOM) [68], Hierarchical Feature Map (HSOM) [130], Growing hierarchical SOM (GHSOM) [153, 50] ou Tree-structured
SOM (T-SOM) [107].
Growing Self-Organizing Map (GSOM) GSOM reprsente la carte auto-organisatrice croissante.
Cest une variante dynamique du SOM [1]. GSOM a t dveloppe pour aborder la question de la
dtermination dune taille approprie de SOM selon la distribution de donnes. Lalgorithme GSOM
commence par un nombre minimal de noeuds (habituellement 4) et ajoute de nouveaux noeuds sur la
frontire base sur une heuristique. La croissance de GSOM est controle par une valeur appele "facteur de diffusion (SF)". GSOM commence par 4 noeuds frontires : chaque noeud a la libert de se
dvelopper sur sa propre direction au dbut. Les nouveaux noeuds sont developps partir des noeuds
de frontire (figure 4.3).
Hierarchical SOM (H-SOM) Le modle hirarchique de SOM [124] se rapporte habituellement un
arbre des cartes, dont la racine agit en tant que prprocesseur pour des couches suivantes. En traversant
la hirarchie vers le haut, linformation devient de plus en plus plus abstraite.
HSOM se compose dun certain nombre de cartes organises dans une structure pyramidale. Notons
quil y a une relation stricte de hirarchie et de voisinage implicite dans cette architecture. La taille de
la pyramide, c.--d. le nombre des niveaux aussi bien que la taille des cartes chaque niveau, doit tre
dcide lavance, signifiant quil ny a aucune croissance dynamique de nouvelles cartes bases sur
le processus de formation lui-mme. Cependant, puisque la formation de la pyramide est excute un
niveau la fois, il est thoriquement possible dajouter un autre niveau sil y a lieu. En outre, notons que,
habituellement, le nombre de noeuds aux niveaux plus levs est petit par rapport dautres modles de
SOM en utilisant les cartes multiples.
Pendant le processus dapprentissage, les vecteurs dentre qui sont passs vers le bas dans la hirarchie sont "compresss" : si certains attributs des vecteurs dentre projets dans le mme noeud ne
prsentent aucune variance, alors ils sont considrs comme ne contenant aucune information additionnelle. Ceci mne la dfinition de diffrents vecteurs poids pour chaque carte, crs dynamiquement
durant lapprentissage.
Growing Hierarchical Self-Organizing Map (GHSOM) La carte hirarchique dynamique (GHSOM)
[9,30], qui est une extension de la carte dynamique GSOM [12] et de la carte hirarchique HSOM [23],
peut crer une hirarchie de plusieurs niveaux dont chaque niveau est compos de plusieurs cartes SOM
dynamiques et indpendantes. La taille de ces cartes et la profondeur de la hirarchie sont dtermines
durant lapprentissage selon la distribution des donnes. GHSOM se dveloppe dans deux dimensions :
50
horizontalement (en augmentant la taille de chaque SOM) et hirarchiquement (en augmentant le nombre
de niveaux). Pour lextension horizontale, chaque SOM se modifie dune manire systmatique trs semblable GSOM [12] de sorte que chaque neurone ne reprsente pas un espace trop grand dentre. Pour
lextension hirarchique, le principe est de vrifier priodiquement si le plus bas niveau SOM prsente
bien la distribution des donnes dentre. Les tapes de base de lextension horizontale et hirarchique
du GHSOM sont rcapitules dans le tableau 4.2.
Le processus de formation du GHSOM est control par les quatre facteurs importants suivants :
Lerreur de quantification dun neurone i, qei , calcule comme la somme de la distance entre le
vecteur poids du neurone i et les vecteurs dentre projets sur ce neurone.
Lerreur de quantification moyenne de la carte (MQEm ), qui est la moyenne des erreurs de quantification de tous les neurones dans la carte.
Le seuil 1 qui indique le niveau du dtail montrer dans un SOM particulier.
Le seuil 2 qui indique la qualit dsire de la reprsentation de donnes dentre la fin de
lapprentissage.
Pour rcapituler, le processus de croissance du GHSOM est guid par deux paramtres 1 et 2 .
Le paramtre 2 indique la qualit dsire de la reprsentation de donnes dentre la fin du processus
dapprentissage. Chaque unit i avec (qei > 2 qe0 ) sera augment, c.--d. une carte est ajoute la
prochaine couche de la hirarchie, afin dexpliquer les donnes dentre en plus de dtail. Au contraire,
le paramtre 1 indique le niveau du dtail dsir qui doit tre montr dans un SOM particulier. En
dautres termes, de nouvelles units sont ajoutes un SOM jusqu ce que le MQEm de la carte soit une
certaine fraction, 1 , du qe de son unit prcdente. Par consquent, plus petit soit 1 , plus grand seront
les cartes naissantes. Rciproquement, plus grand soit 1 , le plus profond sera la hirarchie.
51
F. 4.4 Le premier niveau dabstraction est obtenu en crant un ensemble de vecteurs prototypes en
utilisant, par exemple, SOM. Le Clustering de la SOM cre le deuxime niveau dabstraction.
4.1.6.1 Principe
La carte auto-organisatrice (SOM) [105] est particulirement approprie lexploration de donnes
parce quelle a de bonnes proprits de visualisation. Elle cre un ensemble de vecteurs prototypes reprsentant les donnes et effectue une projection prservant la topologie des prototypes de lespace dentre
sur une grille de dimension infrieure. Cette grille ordonne peut tre employe comme outil de visualisation pour montrer les diffrentes caractristiques de la SOM (et ainsi des donnes), par exemple, la
structure des clusters [179]. Cependant, les visualisations peuvent seulement tre employes pour obtenir
des informations qualitatives. Pour produire une description quantitative des proprits des donnes, des
groupes intressants dunits de la carte doivent tre choisis parmi la SOM. Lexemple le plus vident
dun tel groupe est la carte entire. Tandis que ses proprits sont intressantes, des rsums bien plus
utiles peuvent tre prpars si la SOM (et ainsi les donnes) se composent rellement de plusieurs rgions
spares. Une autre option devrait considrer toutes les units de la carte individuellement, mais dans le
cas de grandes cartes, ceci pourrait avoir comme consquence un grand nombre de rsums. Ainsi, pour
pouvoir utiliser efficacement linformation fournie par le SOM, on aimerait pouvoir regrouper les units
de la carte. Le clustering est ainsi effectu deux niveaux, o les donnes sont dabord groupes en
utilisant SOM, et puis, les units de la SOM sont elles aussi regroupes. La figure (4.4) illustre cette
approche.
Dabord, un grand ensemble de prototypes (beaucoup plus grand que le nombre prvu de clusters)
est form en utilisant SOM. Les prototypes peuvent tre interprts en tant que "protoclusters", qui sont
combines dans la prochaine tape pour former les clusters rels. Lavantage principale de lapproche
deux niveaux est la rduction du cot (temps dexcution). Mme avec un nombre relativement petit dexemples, beaucoup dalgorithmes (en particulier les algorithmes hirarchiques) deviennent lourds.
Pour cette raison, il est recommand de grouper un ensemble de prototypes plutt que de faire le clustering directement sur les donnes [178]. Considrons le Clustering de N vecteurs en utilisant K-means.
Ceci implique de faire plusieurs preuves de clustering avec diffrentes valeurs de K. Le cot dexcution
P max
est proportionnel Ck=2
Nk , o Cmax est le nombre maximum de clusters choisi. Quand un nombre de
P
prototypes est utilis comme phase intermdiaire, la complexit sera proportionelle N M + k MK, o
M est le nombre de prototypes.
4.1.6.2 Rglage de k
La mthode utilise par lalgorithme
K-moyenne est la suivante : tout dabord il fixe un nombre
maximum de clusters crer K = N o N est la taille de la carte cre par SOM (i.e., par exemple
k = 5 pour une carte 55). Ensuite, il commence faire le Clustering pour m allant de 2 K. Pour chaque
52
4.2. Application
4.2 Application
Nous avons propos dans le chapitre prcdent (3.8) notre architecture de filtrage. Cette architecture
est compose de trois tapes princiales : prtraitement temporel, prtraitement spatial et classification.
Dans cette section nous allons traiter les deux premires phases laide essentiellement des mthodes de
clustering prcdentes. La troisime phase fera lobjet du chapitre suivant.
Source
Destination
14 :36 :37
14 :37 :35
14 :37 :47
14 :37 :51
14 :38 :11
14 :39 :16
14 :40 :25
14 :40 :48
14 :41 :12
52.252.19.137
166.60.229.245
57.77.111.88
166.40.120.72
166.40.120.72
166.40.120.72
189.138.192.11
189.138.192.11
166.40.120.176
189.195.45.71
189.195.45.196
189.195.45.196
189.195.45.71
189.195.45.71
189.195.45.71
189.195.45.196
189.195.45.196
189.195.45.71
type dalerte
VIRUS .pif file attachment
Attack responses 403 Forbidden
WEB-CGI finger access
VIRUS .exe file attachment
VIRUS .bat file attachment
VIRUS .scr file attachment
WEB-MISC http directory traversal
WEB-MISC http directory traversal
VIRUS .pif file attachment
# alerte
1
2
3
4
5
6
7
7
1
Les donnes que nous utilisons, dcrites dans le chapitre prcdent (3.8.2), contiennent des attaques
dont la dure varie dune facon norme allant de 2 secondes (pour le scnario 1) 9 heures (pour le
scnario 6). Notre expert de scurit a determin la longueur de la fentre 2 heures et loffset de ractualisation 10 minutes pour avoir un bon compromis entre la dure minimale ncessaire pour dtecter
les scnariis potentiels dattaque et une dure maximale au del de laquelle le systme est noy par les
alertes.
4.2.1.2 Aggrgation des donnes
Nous commencons par le journal des alertes gnres par SNORT. Ce fichier contient des informations pour chaque connexion comme la date, le type dalerte gnr, lIP/port source, lIP/port destination, le protocole, lACK 4 , etc. Nous ne tenons pas compte de la valeur du port externe (jug non
significatif par notre expert) ni du port interne ou du protocole (trs corrls avec le type dalerte gnr par le NIDS). A partir de ce fichier, nous comptabilisons -pour la fentre de temps considre - le
nombre dalertes de chaque type pour chaque valeur du couple (IP source ; IPdestination ). En dautre termes,
nous rsumons tout le trafic observ allant dune IP source vers une IPdestination dans une fentre de temps
particulire (ti ).
Sachant que nos donnes contiennent M = 406 types dalertes diffrents, le vecteur sommaire (ou
vecteur caractristque) obtenu sera de la forme suivante :
X(ti , IP s , IPd ) = (#alerte1i , #alerte2i , . . . , #alerte ji , . . . , #alerte Mi )
o #alerte ji est le nombre doccurence dalertes de type j dans la fentre temporelle ti pour le
couple de machines en connexion (IP s , IPd ).
Exemple La table 4.3 montre un extrait du fichier principal qui est le point de dpart du systme de
filtrage. Cette table contient 9 connexions de 6 IP source diffrentes vers 2 IPdestination diffrentes et dans
laquelle il y a 7 types dalertes diffrents. Dans cet exemple, nous prenons une fentre mobile de 3
minutes et un offset de 45 secondes.
Aprs la phase daggrgation, nous obtenons un nouveau fichier de 3 fentres mobiles comme indiqu par la table 4.4. Chaque fentre mobile ti contient les vecteurs sommaires de chaque couple
(IP source , IPdestination ) dont les attributs sont les diffrents types dalertes gnrs durant cet intervalle de
temps.
4
54
Acknowledgment
4.2. Application
T. 4.4 Les donnes rsumes aprs la phase daggrgation
t1
t2
t3
Source
Destination
52.252.19.137
166.60.229.245
57.77.111.88
166.40.120.72
189.195.45.71
189.195.45.196
189.195.45.196
189.195.45.71
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
0
57.77.111.88
189.195.45.196
166.40.120.72
189.195.45.71
189.138.192.11
189.195.45.196
0
0
0
0
0
0
1
0
0
0
1
0
0
1
0
0
1
0
0
0
2
166.40.120.72
189.138.192.11
189.195.45.71
189.195.45.196
166.40.120.176
189.195.45.71
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
0
2
0
j = 1, . . . , M
(4.8)
o :
#alerte j,i,d : est lalerte de type j dans la fentre mobile ti et pour la machine interne IPd .
N : le nombre des fentres mobiles ti o IPd est "vise".
M : le nombre des diffrents types dalertes.
Ensuite, on divise chaque type dalerte alert j,i,d par son moyen #alerte j (IPd ).
(4.9)
4.3.1 Apprentissage
Choix des paramtres Les facteurs influant sur cette tape de dcouverte de comportements types se
divisent en quatre familles :
1. Les caractristiques de la carte (SOM) dcrites dans 4.1.5.1.
2. La nature des donnes : normalises ou non (4.2.1.3).
3. La pondration des donnes (4.2.2.1).
4. Le couplage entre SOM et K-moyennes dcrit en 4.1.6.
Caractristiques de la carte La dtermination dune carte de Kohonen dpend de plusieurs paramtres : (a) initialisation des vecteurs poids, (b) taille de la carte, (c) fonction de voisinage utilise et
enfin (d) algorithme utilis pour apprendre la carte.
Pour choisir le meilleur jeu de paramtres, nous avons lanc une srie dexprimentations sur notre
base dapprentissage en utilisant tous les choix possibles comme indiqu dans la figure (4.6).
Les vecteurs dentre sont les vecteurs rsums groups (et normaliss) durant la phase de prtraitement temporelle. Ces vecteurs sont projets dans la carte de facon squentielle (online) ou par lot
(batch) selon lalgorithme choisi, et le bmu est calcul en utilisant la distance euclidienne. Dans cette
implmentation, nous avons utilis la toolbox Matlab SOMToolbox [180].
La deuxime tape consiste appliquer lalgorithme des K-moyennes sur la carte obtenue comme
indiqu dans la figure (4.4).
57
Taille
Initialization
5*5
Neighborhood
Algorithm
Gaussian
Linear
10*10
15*15
Seq
Cutgauss
Buble
20*20
Random
Batch
EP
25*25
T. 4.5 Les meilleurs rsultats obtenus pour chaque taille de la carte, QE :Quantization Error, TE :Topographic Error, DBI :Davies-Bouldin Index et K : nombre de clusters obtenu aprs application des
K-moyennes.
SOM
Taille
5*5
10*10
15*15
20*20
25*25
Algorithme
Initialisation
seq
batch
batch
seq
batch
linear
random
random
random
random
K-moyennes
Voisinage
gaussian
buble
buble
cutgauss
cutgauss
QE
7.52
7.31
6.87
6.69
6.84
TE
0.0017
0.0032
0.024
0.011
0.03
DBI
8.22
3.12
3.11
3.27
2.27
K
2
2
2
2
2
DBI
0.18
0.24
0.25
0.36
0.34
Le tableau (4.5) prsente les meilleurs rsultats obtenus pour chaque taille de la carte. Les autres
rsultats sont dtaills dans lAnnexe A.
Les rsultats obtenus sur ce jeu de paramtres prouvent que pour nimporte quelle taille de carte et
type dinitialisation et pour les deux algorithmes dimplmentation de SOM (batch et sequential), il y a
accumulation des donnes dans deux clusters. Pour tester linfluence de la forme de la carte, nous lancons
un autre jeu dexpriences sur des cartes qui nont pas des tailles carrs et sur deux formes (Rectangular
et Hexagonal). Dans ce jeu dexpriences, nous testons trois nouvelles tailles de carte (10*5, 15*10 et
20*15). Le tableau 4.6 illustre les meilleurs rsultats obtenus pour chaque taille de la carte. Ces rsultats
confirment aussi le rsultat prcdent, i.e. une accumulation dans deux clusters quels que soient les
paramtres utiliss.
Daprs ce qui prcde, nous pouvons conclure que le meilleure rsultat obtenu suivant lindice
minimum de Davies-Bouldin est pour la carte de taille (5*5) avec une initialisation linaire des vecteurs
poids et pour une fonction de voisinage gaussienne et un algorithme squentiel.
T. 4.6 Les meilleurs rsultats obtenus avec des grilles diffrentes et des cartes non carres.
SOM
Grille
Rect
Hexa
Rect
58
Taille
10*5
15*10
20*15
Algo
seq
seq
seq
Init
random
random
random
K-moyennes
Vois
gauss
gauss
gauss
QE
12.51
11.39
11.37
TE
0.001
0.008
0.01
DBI
4.95
4.59
2.96
K
2
2
3
DBI
0.36
0.2823
0.2881
Algo.
Init.
Vois.
5*5
10*10
15*15
20*20
25*25
seq
seq
seq
seq
seq
linear
linear
linear
linear
linear
gauss
gauss
gauss
gauss
gauss
QE
7.5189
7.1084
6.6818
6.53
6.3122
TE
0.0017
0.0117
0.01
0.0264
0.0125
DBI
8.22
5.99
3.048
3.224
2.95
SOM
Taille
Algo.
Init.
Vois.
5*5
10*10
15*15
20*20
25*25
seq
seq
seq
seq
seq
linear
linear
linear
linear
linear
gauss
gauss
gauss
gauss
gauss
QE
1.7857
1.2389
0.9801
0.8313
0.7582
TE
0.0084
0.0056
0.018
0.0449
0.0525
DBI
4.108
3.840
2.333
1.885
1.515
Nature des donnes La nature des donnes utilises dans la tche de clustering joue un rle dominant
sur tous les autres facteurs dans cette tche. Deux sortes de donnes sont exprimentes : donnes normalises (4.2.1.3) et donnes sans normalisation. Ltude exprimentale sest faite sur diffrentes tailles
de carte avec les paramtres dj fixs (i.e., linear, gaussian, seq). Les tableaux 4.7 et 4.8 prsentent les
rsultats obtenus sur ces deux genres de donnes. De mme la figure 4.7 montre les rsultats obtenus
pour les trois indicateurs de qualit de Clustering QE, T E et DB dcrits dans 4.1.5 et 4.2.
Daprs ces rsultats, il est clair que lutilisation des donnes non-normalises a donn des meilleurs
rsultats en terme de qualit de Clustering. Dans la suite, nos tests seront restreints sur les donnes
non-normalises.
Pondration des donnes Pour tudier linfluence de la pondration des donnes sur la qualit du
clustering, nous avons lanc un jeu dexpriences sur des donnes avec les quatre niveaux de pondration.
Les rsultats obtenus sont prsents dans la section 4.3.2.1.
Couplage entre SOM et K-moyennes Le dernier facteur tudier est le couplage entre SOM et Kmoyennes. Ce couplage peut tre intressant et donner des bons rsultats dans quelques problmes, mais
il peut donner parfois des rsultats inverses selon le problme trait. La nature des donnes dentre joue
un rle primordial dans la qualit du Clustering quel que soit lalgorithme utilis. Dans la suite nous
prsentons les rsultats obtenus avec le couplage entre SOM et Kmeans pour deux tailles de carte (5*5,
7*7) avec diffrentes pondrations des donnes.
Les figures 4.8 et 4.9 prsentent les rsultats obtenus pour la projection des donnes dentre sur
deux cartes de taille 5*5 et 7*7. Pour chaque carte les rsultats sont prsents de gauche droite suivant
le niveau de pondration. Notons ici que la lettre "N" indique que cette case contient majoritairement
des donnes "Normales" et la lettre "A" pour les cases qui contiennent des donnes "Attaques" et les
cases blanches sont des cases vides. Les clusters crs par lalgorithme K-moyennes sont indiqus par
des couleurs diffrentes.
59
N
N
(b)
(a)
N
(c)
(d)
F. 4.8 Les cartes obtenues en projetant les donnes non-normalises sur une carte de taille 5*5 avec
(a) aucune pondration (b) une pondration de niveau 1 (c) une pondration de niveau 2 et (d) une
pondration de niveau 3.
Comme lindiquent les figures 4.8 et 4.9, les clusters fusionns par lalgorithme des K-moyennes
contiennent la fois des units de deux sortes normales et attaques. Ce mauvais regroupement est d
plusieurs raisons :
(a) La nature des donnes : Comme mentionn plusieurs endroits, les vecteurs dentres sont
des vecteurs de taille 406 et rsument le comportement rel entre deux machines dans le rseau
dans une fentre de temps. Or une grande partie de notre base de donnes contient des donnes
normales et par suite les caractristiques des vecteurs sont trs proches. Comme SOM preserve la
topologie de lespace dentre, alors les vecteurs prototypes crs sont trs proches aussi.
(b) K-moyennes : Nous avons signal dans 4.1.4 que lalgorithme des K-moyennes converge vers
un minimum local et pas vers un minimum global. A chaque convergence, lindice de DaviesBouldin est calcul et le regroupement correspondant la valeur minimale de DB est choisi.
Or, dans la pratique, il est prfrable demployer les valeurs dindice comme directive plutt
quune vrit absolue. Comme indiqu dans la figure 4.10, les courbes dindex ont plusieurs minima locaux. Chaque minimum local pointu dans la courbe de lindex de validit est certainement
important puisquil indique que laddition dun cluster a permis lalgorithme de grouper mieux
les donnes. Lindex DB minimum correspond un regroupement de deux ou trois clusters dans
la plupart des cas, tandis quil existe dautres valeurs de DB trs proches au prcdent mais qui
60
N
A
N
A
A
N
N
A
N
A
(b)
(a)
A
(c)
(d)
F. 4.9 Les cartes obtenues en projettant les donnes non-normalises sur une carte de taille (7*7)
avec (a) aucune pondration (b) une pondration de niveau 1 (c) une pondration de niveau 2 et (d) une
pondration de niveau 3.
correspondent un regroupement des cases en un nombre plus grand de clusters.
Comme conclusion, les rsultats de lalgorithme K-moyennes sur les prototypes de SOM ne sont
pas encourageants car les regroupements obtenus fusionnent des cases de la SOM qui contiennent des
donnes htrognes. Ces regroupements nous semblent moins bons que les cases de la SOM elle-mme.
Alors, nous restreindrons notre tude sur les comportements dtects par SOM. Lanalyse de ces comportements fera le sujet des sections suivantes.
F. 4.10 Lindex de Davies-bouldin calcul pour le couplage SOM+Kmeans (a) carte de taille 5*5 (b)
carte de taille 7*7, en fonction de nombre de clusters. Dans chaque graphe laxe horizontal reprsente
le nombre des clusters et laxe vertical lindex DB. Chaque figure contient 4 courbes pour 4 niveaux de
pondration.
Pour chaque scnario, sont indiqus trois exemples des alertes significatives de ce scnario.
Parmi les scnariis il y en a deux (8 et 12) qui correspondent nimporte quelle alerte daprs notre
expert de scurit.
Dans la suite nous prsentons une analyse dtaille pour les cartes obtenues selon les 4 niveaux
de pondration (0, 1, 2 et 3) dtaills en 4.2.2.1. Cette analyse se droule en deux phases : analyse
quantitative et analyse qualitative.
4.3.2.1 Analyse quantitative
Dans cette tape danalyse, les rsultats obtenus sont prsents suivant trois indicateurs :
1. Dtection globale des scnariis dattaques : cet indicateur indique le nombre de scnariis dattaques qui sont (globalement) dtects, c..d projets dans des cases ou clusters classifis comme
attaque. Une case est classifie comme attaque si la frquence des points attaques projets est plus
grande que la frquence totale des points attaques dans toute la base.
Nous avons aussi considr dans cette tude quun scnario dattaque est projet dans un cluster si
la majorit de ses points (vecteurs) est projete dans ce cluster.
2. Points normaux bien classifis : le pourcentage de points normaux qui sont projets dans des cases
normales.
3. Points attaques bien classifis : le pourcentage de points attaques qui sont projets dans des cases
attaques.
Les figures 4.11, 4.12, 4.13 et 4.14 prsentent les cartes SOM cres pour tous les niveaux de pondration durant la phase dapprentissage et aprs la phase de test. La lettre "A" indique que cette case
ou cluster contient des donns de types attaque, "N" pour les cases normales et les cases blanches sont
des cases vides. Le tableau 4.10 donne les rsultats obtenus durant la phase dapprentissage. Ces rsultats montrent que la carte SOM a pu classifier les donnes suivant attaques et normales (98% des points
attaques sont dtects et 81% des points normales sont bien classifis pour les donnes pondres au
niveau 2). En plus, tous les scnariis dattaques (100%) sont globalement dtects et projets dans des
cases considres comme attaques. Lavantage de cette tape de classification est quelle donne ladministrateur de scurit une ide globale sur les vnements se droulant sur son rseau. Il faut noter ici
62
Scnario
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
type de scnario
Access to unauthorized page
Brute Force POP3
Brute Force POP3
Access to unauthorized page
Brute Force FTP
Crawler Web
Brute Force POP3
Vulnerability Scanner
Brute Force FTP
SNMP attack
Brute Force FTP
Vulnerability Scanner
Web attack > IIS
Brute Force POP3
Web attack (IIS) > Apache
MP3 exchange files via FTP
Alerte 1
Attack-Responses 403 Forbidden
Incorrect Password POP
Incorrect Password POP
Attack-Responses 403 Forbidden
Access FTP admin
Attack-Responses 403 Forbidden
Incorrect Password POP
*.*
Access FTP admin
SNMP AgentX/tcp request
Access FTP admin
*.*
WEB-IIS *.*
Incorrect Password POP
WEB-IIS *.*
MP3 files via FTP
Incorrect User POP
*.*
Access FTP backup
SNMP private access UDP
Access FTP backup
*.*
WEB-IIS *.*
Incorrect User POP
WEB-IIS *.*
Alerte 2
Alerte 3
*.*
* FTP *
SNMP *
* FTP *
*.*
WEB-IIS *.*
WEB-IIS *.*
WEB-IIS *.*
* FTP *
Autres ...
*.*
Access FTP test
SNMP request TCP
Access FTP test
*.*
WEB-IIS *.*
T. 4.9 Les scnariis dattaques avec trois alertes significatives de ces attaques.
63
F. 4.11 La carte SOM cre par des donnes sans pondration : (a) aprs lapprentissage et (b) aprs
la phase de test.
F. 4.12 La carte SOM cre par des donnes de niveau de pondration 1 : (a) aprs lapprentissage
et (b) aprs la phase de test.
F. 4.13 La carte SOM cre par des donnes de niveau de pondration 2 : (a) aprs lapprentissage
et (b) aprs la phase de test.
64
T. 4.11 Rsultats de lanalyse quantitative durant la phase de test sur les quatre niveaux de pondration : pourcentage de dtection des scnariis dattaques et de classification des points normaux.
Niveau pondration
0
1
2
3
scnariis
dtects
67%
84%
67%
67%
bien
Points
normales
bien classifis
91.5%
85%
86.4%
90%
Points
attaques
bien classifis
50%
70%
60%
60%
que cette tape est une tape intermdiaire dans laquelle nous ne voulons pas dtecter des scnariis spcifiques dattaques, mais dcouvrir des comportements types qui aident dtecter les attaques relles qui
se droulent sur le rseau. Cette approche est similaire de ce point de vue lapproche comportementale
utilise dans les NIDS.
Pour valuer la performance des cartes ainsi cres, nous projetons des nouvelles donnes de test
sur ces cartes. Ces donnes contiennent six scnariis dattaques numrots de 11 16. Le tableau 4.11
prsente les rsultats obtenus. Les meilleurs rsultats sont obtenus pour la carte apprise avec les donnes pondres au niveau 1. Cinq parmi six scnariis (84%) sont globalement dtects, 70% des points
attaques sont bien classs et 85% des points normaux sont bien classs.
F. 4.14 La carte SOM cre par des donnes de niveau de pondration 3 : (a) aprs lapprentissage
et (b) aprs la phase de test.
65
TOP(1)
70%
70%
70%
40%
TOP(3)
100%
90%
90%
50%
TOP(5)
100%
90%
90%
70%
T. 4.13 Les rsultats obtenus pour les 3 indicateurs pour la base de test sur tous les niveaux de
pondration.
Niveau de pondration
0
1
2
3
TOP(1)
33%
33%
33%
50%
TOP(3)
50%
83%
33%
50%
TOP(5)
83%
83%
50%
50%
66
T. 4.14 Adquation(2
) entre les scnariis dattaques de la base dapprentissage (haut) et la base de
test (bas) et le TOP(i) caracteristique du cluster correspondant (carte 0).
#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
type de scnario
Access to unauthorized page
Brute Force POP3
Brute Force POP3
Access to unauthorized page
Brute Force FTP
Crawler Web
Brute Force POP3
Vulnerability Scanner
Brute Force FTP
SNMP attack
Brute Force FTP
Vulnerability Scanner
Web attack > IIS
Brute Force POP3
Web attack (IIS) > Apache
MP3 exchange files via FTP
cluster
5
24
24
5
13
5
25
5
13
22
13
5
5
25
5
13
Top(1)
2
2
2
2
2
2
2
2
Top(2)
2
2
2
2
2
2
Top(3)
2
2
2
2
2
2
Top(4)
2
2
2
Top(5)
2
2
ils sont projets dans le cluster 24 qui a comme TOP(1) et TOP(3) deux signes de ce genre dattaques.
Le scnario 10 est projet dans le cluster 22. Or le TOP(3) caractristique de ce cluster est "SNMP TCP
request" qui est un signe de cette attaque. Le scnario 7 est une attaque de "Force Brute" sur POP3. il
est projet dans le cluster 25 qui a les caractristiques TOP(1) et TOP(2) correspondantes cette attaque.
Les scnariis 5 et 9 sont des attaques de "Force Brute" contre un serveur FTP. Ils sont projets dans le
cluster 13. Ce cluster a la caractristique "Policy FTP anonymous login attempt" comme TOP(3) qui est
aussi un signe de ces attaques. Notons ici, que le cluster 13 est classifi comme normal, bien que ces
deux scnariis sont projets dans un cluster pertinent, ils ne peuvent pas tre dtecter comme "attaque"
car ils sont noys entre les "faux positifs".
Pour valuer la performance des comportements types, nous projetons sur la carte les donnes de
test qui contiennent six scnariis dattaques. Les scnariis 12, 13 et 15 sont tous projets dans le cluster
5. Les scnariis 13 et 15 sont deux attaques Web contre un IIS et par suite ils ont TOP(4) et TOP(5)
significatif. Le scnario 12 est un scanner de vulnrabilit qui correspond nimporte quelle alerte parmi
les 5. Le scnario 14 est projet dans le cluster 25. Or ce scnario est une attaque de "Force Brute" contre
un serveur POP3. Le signe de cette attaque correspond au TOP(1) et TOP(2) du cluster 25. Le scnario
11 est une attaque "Force Brute" contre un serveur FTP et le scnario 6 est un attaque dchange de
fichiers mp3 via FTP. Ces deux scnariis sont projets dans le cluster 13 qui est un cluster "normal", ils
ont le TOP(3) comme signe dattaque mais ils ne sont pas dtects du tout car ils sont noys entre les
faux positifs qui se trouvent dans le cluster 13.
Le tableau 4.14 prsente ladquation entre les scnariis dattaque et les Top(5) des clusters correspondants.
Carte 1 La figure 4.12 prsente la carte cre durant la phase dapprentissage. Ces donnes sont pondres par les coefficients de niveau 1. La premire remarque importante quon peut dduire de cette
figure que parmi les 10 scnariis de la base dapprentissage, il y en a 9 qui sont projets dans des cases
classes comme attaques. Seul le scnario 9 est mal classifi. Donc la carte a pu globalement classifier
67
T. 4.15 Adquation(2
) entre les scnariis dattaques de la base dapprentissage (haut) et la base de
test (bas) et le TOP(i) caracteristique du cluster correspondant (carte 1).
#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
type de scnario
Access to unauthorized page
Brute Force POP3
Brute Force POP3
Access to unauthorized page
Brute Force FTP
Crawler Web
Brute Force POP3
Vulnerability Scanner
Brute Force FTP
SNMP attack
Brute Force FTP
Vulnerability Scanner
Web attack > IIS
Brute Force POP3
Web attack (IIS) > Apache
MP3 exchange files via FTP
cluster
5
11
11
5
3
5
22
5
13
1
3
5
5
22
5
13
Top(1)
2
2
2
2
2
2
2
2
2
Top(2)
2
2
2
2
2
2
Top(3)
2
2
2
2
2
Top(4)
2
2
2
Top(5)
2
2
2
les donnes suivant attaques et normales. Les scnariis 1, 4, 6 et 8 sont 4 scnariis dattaques qui tentent
daccder une page interdite. Ces 4 scnariis sont tous projets dans le cluster 5. Comme indiqu dans
la table (A.2), la premire caractristique de ce cluster est "Attack-Responses 403 Forbidden" qui est
significative de ces attaques. De mme, les scnariis 2 et 3 sont des attaques de "Force Brute" contre
POP3. Ils sont projets dans le cluster 11. La premire caractristique de ce cluster est aussi un signe de
ces attaques. Seul le scnario 9 nest pas projet dans une classe approprie. Il est projet dans le cluster
13.
Pour les donnes de test, 5 scnariis dattaques parmi 6 sont projets dans des cases classifies comme
attaques. Les rsultats obtenus prouvent une grande pertinence des comportements types dj crs. Par
exemple, le scnario 11 qui est une attaque "Force Brute sur FTP" est projet dans le cluster 3. Dans ce
cluster est projet aussi le scnario 5 qui est aussi une attaque "Force Brute sur FTP". De plus, le cluster
(3) a comme top(2) la caractristique de ce scnario dattaque. Un autre exemple est le scnario 14 qui est
projet dans le cluster 22 o tait projet le scnario 7. Ces deux scnariis sont deux attaques de "Force
Brute sur POP3" et le cluster 22 a le signe "Incorrect User POP" comme top(1).
Le tableau 4.15 prsente ladquation entre les scnariis dattaque et les Top(5) des clusters correspondants.
En consquence, lapplication de la carte auto-organisatrice SOM sur les vecteurs qui rsument le
comportement observ pour les machines en connexion suivant les paramtres dj dtermins dans
cette tude, a permis de dcouvrir des comportements types trs pertinents qui permettent dune part de
donner ladministrateur de scurit une figure globale de ltat de son rseau (attaque ou non ?), ce
qui est similaire lapproche comportementale utilis dans les NIDS, et dautre part ces comportements
types sont des significatifs des scnariis spcfiques dattaques ; et cette approche est similaire de cette
face lapproche par scnario.
68
4.4.1 Motivation
Nous avons prsent dans la section 4.3.2 lapplication de la carte SOM sur notre problmatique.
Les meilleurs rsultats sont obtenus pour les donnes pondres avec les coefficients de niveau 1. Nous
avons dtect 70% des vraies attaques et filtr 85% des fausses alarmes. Or ces rsultats ne semblent pas
suffisantes pour un administrateur de scurit, surtout que nous navons pas dtect 30% des attaques.
Nous croyons que la carte SOM na pa pu suffisamment prsenter la structure interne des donnes, vue sa
nature statique et la taille de la carte qui doit tre prdfinie auparavant. Le besoin de la prdtermination
de la structure et la taille de SOM a comme consquence une limitation significative dans la carte finale.
Pour lever ces hypothses, nous prsentons dans cette section lapplication de la carte dynamique et
hirarchique GHSOM sur la mme problmatique. Les donnes utilises pour cette application sont les
mmes donnes utilises pour SOM avec la pondration du type 1. La phase dapprentissage de la carte
seffectue avec la mme base dapprentissage dcrite en 4.3.2. Comme mentionn dans la section ??,
la qualit du clustering de GHSOM est gouverne par deux paramtres m et u . Le premier contrle la
diffusion horizontale (dynamique) de la carte (augmentation des noeuds) dans le mme niveau. Le second
contrle la diffusion verticale (hirarchique) de la carte. Pour choisir le meilleur couple des valeurs de
(m ,u ), nous avons lanc un jeu dexpriences en faisant varier ces deux paramtres et calculant le
pourcentage de dtection des attaques et le pourcentage des "faux positifs". La classification des clusters
obtenus suivant normale ou attaque suit le mme principe que pour les cartes SOM. Pour implmenter
GHSOM nous avons utilis le toolbox GHSOM cr par Alvin Chan et Elias Pampalk de lAustrian
Research Institute for Artificial Intelligence- OFAI [145].
# de niveaux
0.4
0.3
0.2
0.1
0.03
0.03
0.03
0.03
2
1
1
1
Expansion verticale Pour tudier linfluence de lexpansion verticale (hirarchique) de la carte sur la
reprsentation de la structure des donnes, nous fixons cette fois m = 0.3 et nous varions u entre 0.01
69
m
0.4
0.3
0.2
0.1
u
0.03
0.03
0.03
0.03
TD(app)
88%
95.2%
95.2%
95.2%
FP(app)
6.6%
7.3%
13%
13%
TD(test)
88%
96%
96%
96%
FP(test)
10%
8.4%
8.7%
8.7%
F. 4.15 Les rsultats obtenus pour u = 0.03 et 0.4 > m > 0.1 : laxe dabscisse indique le
pourcentage des faux positifs et laxe dordonn indique le pourcentage de dtection des attaques
et 0.03. Plus petit est u , plus profonde sera la hirarchie. Le tableau 4.18 prsente pour chaque couple
de valeur le nombre de cartes obtenues dans chaque niveau de la hirarchie.
T. 4.18 Influence de la variation du paramtre u larchitecture de la carte obtenue.
m
u
# de niveaux # dunits dans le pre- # cartes dans le
mier niveau
deuxime niveau
0.3 0.03
1
132
0
0.3 0.02
2
132
2
0.3 0.01
2
132
5
Les rsultats obtenus sont prsents dans le tableau 4.19 et la figure 4.16. Le meilleure rsultat est
obtenu pour le couple de valeur (m = 0.3,u = 0.01).
A partir des rsultats obtenus, nous pouvons constater linfluence du raffinement de la carte par la
dgradation de la valeur du paramtre u . En effet, pour u = 0.03, la carte obtenue est constitue dun
seul parent avec 132 clusters. A ce niveau, le taux de dtection tait gale 95.2% et le "faux positif" tait
gal 7.3%. Le cluster 18 classifi comme "normal" contient 1.2% des vecteurs appartenant au scnario
dattaque 9. Ces vecteurs sont noys entre les donnes normales qui se trouvent dans ce cluster et ainsi
ils ne sont pas dtects et considrs comme des faux negatifs. La dgradation de u de 0.03 0.02, a
donn naissance deux cartes (enfants) partir de deux clusters (18 et 68) de la carte mre. La premire
carte (enfant) contient 90 clusters et lautre contient 12 clusters (figure 4.17). Cette extension a permis
disoler les vecteurs attaque du scnario 9 dans un seul cluster classifi comme attaque dans la nouvelle
carte. Par suite le pourcentage de la dtection des attaques a augment 96.4%.
De mme, la dgradation de u de 0.02 0.01 a provoqu lajout de 3 nouvelles cartes (enfants) dans
le deuxime niveau. Ces 3 nouvelles cartes sont cres partir du cluster 130 qui est classifi comme
"attaque" et qui contient 3.33% des donnes "normales" caches entre les vecteurs "attaques" du scnario
10 contenus dans ce cluster (voir figure 4.18). Cette projection a permis de sparer les donnes normales
70
u
0.03
0.02
0.01
TD(app)
95.2%
96.4%
96.4%
FP(app)
7.3%
7.38%
4%
TD(test)
96%
96%
96%
FP(test)
8.4%
4.7%
4.7%
des donnes attaques, de les distribuer sur un grand nombre de nouveaux clusters classifis tous comme
"normales", et de distribuer les vecteurs du scnariis 10 en deux nouveaux clusters classifis comme
"attaques". Cette manire dexpansion ou de raffinement a diminu les "faux positifs" de 3.38% (voir
tableau 4.19).
F. 4.16 Les rsultats obtenus pour m = 0.3 et 0.03 > u > 0.01.
71
F. 4.17 Expansion verticale de la carte mre dans le premier niveau grce la dgradation de u de
0.03 0.02.
F. 4.18 Expansion verticale de la carte mre dans le deuxime niveau grce la dgradation de u
de 0.02 0.01
4.4.3 Discussion
Lalgorithme GHSOM prsent ci-dessus utilise le concept de base de SOM mais possde une structure dynamique et hirarchique qui est gnre durant le processus dapprentissage. La diffrence principale entre les deux mthodes est que SOM essaye dadapter les donnes une structure prdtermine
par auto-organisation de ces vecteurs prototypes le plus possible suivant ses frontires fixes. Avec GHSOM, les frontires horizontales et verticales sont extensibles, par consquent, lensemble des donnes
peut gnrer de nouveaux noeuds ou cartes. Les rsultats obtenus par lapplication de GHSOM sur notre
problme a donn des rsultats trs intressants qui ont surpass ceux obtenus par SOM.
Le tableau 4.21 compare les rsultats obtenus par lapplication de GHSOM et SOM. Il est clair
que GHSOM a pu dtecter toutes les scnariis dattaques (100%) avec un pourcentage de faux positif
infrieur 5%.
4.5 Conclusion
Nous avons prsent, dans ce chapitre, lutilisation des mthodes de classification non-supervise
pour la dcouvertte de certains comportements types utiliser dans la phase de dtection des attaques
relles sur les rseaux.
72
4.5. Conclusion
T. 4.20 Adquation(A) entre les scnariis dattaques de la base dapprentissage (haut) et la base de
test (bas) et le TOP(1) caractristique du cluster correspondant.
#
Type de Scnario
Cluster
TOP(1)
121
2
123
2
123
2
121
2
27
2
Crawler Web
97
2
115
2
vulnerability scan.
122
2
28
2
10
SNMP attack
130
11
27
2
12
Vulnerability scanner
81
2
13
Web attack
97
WEB-IIS cmd.exe
2
14
114
2
15
Web attack
73
WEB-IIS*.*
2
16
18
T. 4.21 Comparison des rsultas (donnes de test) obtenus par GHSOM et SOM : Taux de dtection
(TD), faux positifs (FP) et pourcentage des donnes dattaques bien dcrites par le Top(i) characteristique de leur projection.
Modle TD
FP
Top(1) Top(3) Top(5)
GHSOM96% 4.7%
90%
100% 100%
SOM
70% 15%
33%
83%
83%
Nous avons commenc par une brve introduction sur le Clustering et les mthodes utilises. Nous
sommes passs ensuite lapplication de quelques mthodes sur notre problmatique. Tout dabord,
nous avons trait une phase de prtraitement temporel dans laquelle nous avons illustr le choix des
fentres temporelles et tudi linfluence de la normalisation des donnes.
Ensuite, nous avons montr que lutilisation des cartes auto-organisatrices de Kohonen permet de
dcouvrir des comportements types significatifs des scnariis dattaques et donne ladministrateur une
ide globale sur les vnements qui se droulent sur le rseau.
Nous avons ensuite signal quelques limites rencontres en appliquant SOM. A partir de ces limites
nous avons appliqu une mthode alternative de SOM appele GHSOM. Cette mthode est caractrise
par une architecture dynamique et hirarchique qui peut sadapter la structure inhrente des donnes.
Les rsultats obtenus sont trs performants et surpassent celles obtenues par SOM.
Les comportements types ainsi dtects seront utiliss par des mthodes de classification supervise
comme les rseaux baysiens. Lapplication de ces mthodes sur ces comportements types fait lobjet du
chapitre suivant.
73
74
Chapitre
Dtection dAttaques
Nous avons montr dans le chapitre prcdent comment utiliser diverses techniques de clustering
pour dcouvrir un certain nombre de comportements types significatifs des scnarios dattaques ou normaux visant les machines internes dun rseau.
Ce chapitre sintresse maintenant la dtection relle des attaques sur le rseau. Nous proposons dutiliser les comportements types ainsi dtects pour raliser une sorte de filtrage des diffrentes
alarmes mises par le NIDS. Le filtrage dalarmes peut seffectuer grce des techniques de Classification supervise, comme les rseaux baysiens ou les machines vecteurs supports.
Sommaire
5.1
5.2
5.3
5.4
5.5
La Classification . . . .
Les Rseaux Baysiens
Les SVM . . . . . . . .
Application . . . . . . .
Conclusion . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
77
82
84
94
5.1 La Classification
5.1.1 Introduction
La classification est peut-tre la technique de fouille de donnes la plus familire et la plus populaire. Des exemples de classification incluent la reconnaissance des images et des formes, le diagnostic
mdical, la dtection de dfaut dans les applications industrielles, etc. Toutes les approches de classification assument une certaine connaissance sur les donnes. Souvent un ensemble dapprentissage est
utilis pour dterminer les paramtres du modle concern. Les donnes dapprentissage se composent
de paires dobjets dentre (typiquement vecteurs), et des sorties dsires. Le problme de classification
est prsent dans la dfinition suivante :
75
La sensibilit (sensivity) est la proportion de personnes qui ont le test positif sur toutes les personnes positives examines ; cest : (vrais positifs) / (vrais positifs + faux ngatifs). Il peut tre vu
comme la probabilit que le test est positif tant donn que le patient est malade.
La spcificit (specificity) est la proportion de personnes qui ont le test ngatif sur toutes les
personnes ngatives examines ; cest : (vrais negatifs) / (vrais negatifs + faux positifs). Comme
la sensibilit, elle peut tre vue comme la probabilit que le test est ngatif tant donn que le
patient nest pas malade.
En thorie, la sensibilit et la spcificit sont indpendantes dans le sens quil est possible dobtenir
100% pour chacune. En pratique, il y a souvent un compromis obtenir entre les deux.
En plus de la sensibilit et de la spcificit, la performance dun test binaire de classification peut tre
mesure avec des valeurs prdictives positives et ngatives. la valeur positive de prdiction rpond la
question "quelle est la probabilit que jai vraiment la maladie, et que mon rsultat de test tait positif ?".
Il est calcul comme (vrais positifs) / (vrais positifs + faux positifs) ; cest--dire, cest la proportion des
vrais positifs parmi tous les rsultats positifs. La valeur ngative de prdiction est la mme, mais pour
des ngatifs , naturellement. La table 5.1 illustre la relation entre ces concepts pour lexemple dun test
mdical.
T. 5.1 Msures utiliss pour lvaluation dun classifieur binaire (cas dun test mdical)
Rsultat de
test
Positif
Ngatif
Vrai
Vrai Positif
Faux Ngatif
Sensitivit
Faux
Faux Positif
vrai Ngatif
Specificit
valeur de prdiction(+)
valeur de prdiction (-)
n
Y
Pr(Xi | Pa(Xi ))
(5.1)
i=1
Une clique est dfinie par un ensemble de noeuds compltement connects. Elle est maximale si lajout de nimporte quel
autre noeud lensemble nest plus une clique.
8
Comme dans le cas de linfrence exacte, linfrence approche est encore un problme NP-complet [39]
78
W(Xi , X j ) =
X
ki ,k j
k
N(xiki , x j j ). log
N(xiki , x j j )
k
N(xiki ).N(x j j )
(5.2)
F. 5.5 Exemple des diffrents plans possibles qui peuvent sparer des points appartenant deux
classes diffrentes.
(5.3)
o w est le vecteur normal au plan qui spare les donnes positives (y = +1) des donnes ngatives
(y = 1) de facon que les points satisfassent au critre suivant :
yi (< .x > +b) 1,
i = 1, 2, . . . , l
(5.4)
L pourrait exister beaucoup dhyperplans qui satisfont cette condition (le figure 5.5), ainsi qui est le
meilleur ? La rponse doit choisir celui qui peut tre associ la plus grande marge de rgion qui forme
la frontire entre les deux classes ce qui nous permet dobtenir le classifieur linaire de marge maximum.
Le calcul de la marge maximum aboutit un problme doptimisation qui peut tre transform par une
formulation de lagrange :
9
Dans cette tude, nous prsentons les SVM dune facon gnrale. Pour une tude dtaille sur lutilisation des machines
noyaux pour lapprentissage statistique, voir [25].
82
F. 5.6 Exemple des donnes non sparables tel que nous pouvons trouver quelques points mal classs.
X
1
L(w, b, ) = < . >
i [yi (< .x > +b) 1]
2
i=1
(5.5)
Nous devons minimiser L(w, b, ) ou en dautres termes maximiser le second terme de lgalit. Ce
problme peut tre rsolu en trouvant un vecteur qui maximize le second terme et minimiser le premier.
En drivant par rapport w et b et substituant les valeurs obtenues pour des drives nulles dans lgalit,
on obtient :
l
l
l
X
1 XX
L(w, b, ) =
yi y j i j < xi .x j >
(5.6)
i
2 i=1 j=1
i=1
P
avec un vecteur de poids w = li=1 i yi xi .
Si les donnes ne sont pas parfaitement sparables (figure 5.6), des variables dajustement sont introduites pour avoir une frontire dynamique entre les classes avec un taux derreur rduit, et la mme
P
mthode est applique avec peu de changement. Lide ici sera de minimiser ( 21 < . > +C i ) o :
P
i est une limite suprieure sur le nombre derreurs dapprentissage.
C est un paramtre qui contrle la diffrence entre lerreur et la marge. Plus C est grand, plus la
marge est petite et vice versa.
F. 5.7 Exemple de projection des donnes non linaires dans une forme linaire dans un nouvel
espace
elle-mme :
L(w, b, ) =
l
X
i=1
1 XX
i
yi y j i j K(xi .x j )
2 i=1 j=1
l
(5.7)
|x x |2
5.4 Application
Dans cette section, nous prsentons lapplication de deux mthodes de classification supervise :
les rseaux baysiens et les SVM sur notre problmatique. Nous commencons par la description des
variables utilises. Nous passons ensuite la description dtaille des algorithmes mis en oeuvre. Finalement, nous prsentons et discutons les rsultats obtenus.
5.4.1 Approches
Nous commencons partir des comportements types dtermins dans le chapitre prcdent (4.2.2.2)
pour dterminer une synthse de ces comportements types pour chaque machine interne (IPinterne ) durant
une fentre temporelle. Cette synthse est reprsentative de diffrents attaques potentielles visant chaque
machine interne dans cette fentre. Nous proposons deux manires pour raliser cette synthse :
(a) Expert1 : la distance entre chaque vecteur caractristique de type (ti , IPexterne , IPinterne ) qui
rsume le comportement de chaque couple de machines en connexion dans une fentre temporelle
et les centres des comportements types prsente le degr de similarit entre ce vecteur et les donnes qui y sont projetes. Alors, chaque vecteur a un degr de reprsentation ou similarit avec
chacun de ces comportements types. Par consquent, nous pouvons calculer pour chaque machine
interne le degr dappartenance chacun des comportements types. On obtient un vecteur de la
forme suivante :
X(windk , IPinterne ) = (
N
k,IP
X
j=1
o :
windk : fentre temporelle k,
84
dist2clust1 , . . . ,
N
k,IP
X
j=1
dist2clustn )
5.4. Application
clusti : le comportement type i,
dist2clusti : distance entre le vecteur S (windk , IPexterne , IPinterne ) et le centre du clusti ,
Nk,IP : nombre de vecteurs S (windk , , IPinterne ) visant la machine IPinterne dans la fentre temporelle windk .
Pour pouvoir comparer le profil de deux machines internes diffrentes, les vecteurs obtenus sont
normaliss en divisant chaque attribut par Nk,IP .
(b) Expert2 : dans la deuxime approche, chaque vecteur caractristique est reprsent par le bmu
du comportement o il est projet. Alors, nous pouvons calculer pour chaque machine interne le
nombre de comportements types associs dans une fentre temporelle. On obtient un vecteur de la
forme suivante :
Y(windk , IPinterne ) = [NBo f clust1 , . . . , NBo f clustn ] o NBo f clusti est le nombre de comportements types (i) dtects associ cette (IPinterne ) dans une fentre temporelle windk .
La synthse des comportement-types calculs pour chaque IPinterne est cense tre reprsentative des
divers types dattaques potentielles visant chaque machine interne du rseau dans une fentre temporelle. Nous proposons demployer ces informations pour dterminer si le rseau a t vraiment attaqu
(ATT=true ou false ?). Pour implmenter cette tche de classification, nous avons utilis deux outils de
classification : les rseaux baysiens et les SVM.
RESEAU
LOCi
Descriptif
Les probabilits conditionnelles De mme, les probabilits conditionnelles peuvent tre obtenues
partir dun expert ou tre apprises partir des donnes. Dans cette tude, toutes les probabilits sont
apprises partir des donnes en utilisant la mthode du maximum de vraisemblance MV.
Les donnes Les synthses des comportements types cacluls pour chaque machine interne par les
deux experts constituent les deux bases de donnes dexprimentations pour la phase de classification.
Chacune de ces deux bases est divise en deux parties : base dapprentissage et base de test. La base
dapprentissage contient 11763 vecteurs et la base de test est constitue de 3759 vecteurs.
Notons ici, que la majorit des donnes dans les bases dapprentissage et tests sont des donnes normales. Le pourcentage des vecteurs attaques est infrieur 1%. Ce pourcentage va beaucoup influencer
sur les performances obtenues.
5.4.2.1 Modlisation
Avant de dterminer la(es) structure(s) du(es) rseau(x) baysien(s) utilis(s), nous allons dfinir le
cadre dapplication des RB sur notre problmatique. Nous proposons deux approches. La premire "approche brute", consiste dtecter ltat global du rseau (i.e. attaque ou normal) sans savoir sur quelle
machine (IPinterne ) lattaque a t provoque. La seconde, appele "approche modulaire", consiste
dtecter une attaque localement (LOC) pour chaque machine du rseau en fonction du vecteur caractristique mesur par lun des deux experts et les caractristiques spcifiques de la machine locale. Les
dtections locales ventuelles sont ensuite utilises pour estimer sil y a une attaque globale sur le rseau.
5.4.2.2 Approche Brute
Dans cette approche, nous nous sommes intresss dtecter ltat global du rseau (i.e. attaque
ou normal) sans savoir sur quelle machine (IPinterne ) lattaque a t provoque. Nous avons test un
rseau baysien naf pour chaque expert. Chaque rseau est constitu dun noeud parent (RESEAU) et de
(A = NIPinterne X) noeuds enfants pour lexpert1 ou (A = NIPinterne Y) noeuds enfants pour lexpert2, avec
NIPinterne est le nombre de machines internes (figure 5.8). Ici, il existe une hypothse dindpendance forte
entre les noeuds enfants sachant ltat du noeud parent. Les variables mesures par les deux experts sont
86
5.4. Application
F. 5.8 Modlisation brute : utilisation dun rseau baysien naf pour dterminer sil y a une attaque
sur le rseau en fonction des comportements-types estims pour chaque machine IPinterne .
considres continues et suivent des lois gaussiennes avec des paramtres estims partir des donnes
dapprentissage. Le noeud parent est un noeud discret avec deux valeurs : attaque et normal (voir la table
5.2).
Nous cherchons ici calculer P(RES EAU | A). La formule de Bayes nous donne :
P(RES EAU | A) =
(5.8)
P(A | RES EAU) est la vraisemblance des donnes au rseau baysien et P(RES EAU) est la probabilit priori de la variable classe.
5.4.2.3 Approche Modulaire
Le second type de modlisation, plus modulaire, va incorporer dans la structure du rseau baysien
des informations spcifiques la tche rsoudre pour essayer damliorer les rsultats. Nous pouvons
par exemple prendre en compte la topologie du rseau informatique concern, le systme dexploitation
de chaque machine du rseau, le type de machine (serveur web, mail, etc . . . ). La figure 5.9 propose
un exemple de modlisation modulaire globale, o nous essayons de dtecter une attaque localement
(LOC) pour chaque machine du rseau en fonction du vecteur caractristique utilis prcdemment,
mais aussi de caractristiques spcifiques de la machine. Les dtections locales ventuelles sont ensuite
utilises pour estimer sil y a une attaque sur le rseau (ATT). Cette approche modulaire permet aussi de
localiser plus facilement quelles sont les machines vises par la tentative dattaque. Dans cette approche,
la structure de rseau baysien utilise est une structure hirarchique nave, dans laquelle le noeud global
(AT T ) est reli aux noeuds (LOC) des machines locales.
Chaque noeud local LOC constitue le noeud classe dun sous-rseau qui modlise ltat local dune
machine interne. La structure et les paramtres de ce sous-rseau sont les mmes pour toutes les machines
internes. Il suffit donc, de crer un sous-rseau gnrique et le recopier pour toutes les IPinterne . Dans la
figure 5.9, la structure des sous-rseaux locaux est une structure nave. Dautres structures ont aussi t
testes. Ces modles sont dtaills dans la section suivante.
5.4.2.4 Structures gnriques
Pour chaque machine locale (i.e. IPinterne ), nous avons notre disposition trois sources dinformations qui sont les variables utiliss pour la modlisation des classifieurs baysiens :
Les variables mesures fournies par lexpert1 et/ou les deux variables spcifiques lIPinterne et
ltat local de cette IPinterne . Dans ce cas lensemble de variables est = {Xi , OS i , typei , LOCi }.
Les variables mesures fournies par lexpert2 et/ou les deux variables spcifiques lIPinterne et
ltat local de cette IPinterne . Dans ce cas lensemble de variables est = {Yi , OS i , typei , LOCi }.
87
F. 5.9 Modlisation modulaire : utilisation dun rseau baysien hirarchique pour dterminer tout
dabord ltat (LOC) de chaque machine IPinterne du rseau en fonction des comportements-types estims
et des caractristiques de cette machine, puis finalement sil y a une attaque sur le rseau.
La combinaison entre les variables des deux experts et/ou les deux variables spcifiques lIPinterne
et ltat local de cette IPinterne . Alors = {Xi , Yi , OS i , typei , LOCi }
Il nexiste pas une structure optimale pour tous les problmes. Cependant, la nature du problme et
les donnes utilises jouent un rle important pour la dtermination de la structure approprie. Pour notre
problmatique, et comme nous ne possdons aucune information priori sur la relation entre les variables
(indpendantes ou pas), nous avons test plusieurs structures de RB pour les variables correspondants
aux deux experts. Ces structures sont groupes en deux catgories : structures prdfinies et structures
dtermines partir des donnes.
Structures Prdfinies Le procd du choix des structures des RB tests dans ce paragraphe est bas
sur les hypothses suivantes :
ltat local (LOCi ) de lIPinterne agit sur toutes les caractristiques mesures par les deux experts,
donc il y a relation entre le noeud LOCi et toutes les variables mesures.
la connaissance des variables mesures par un expert ne nous donne aucune connaissance sur celles
de lautre expert, et par consquent il y a indpendance entre ces deux groupes de variables (c..d
Xi est indpendant des Yi conditionnellement la classe).
La relation entre ltat local (LOCi ) dune machine interne et le systme dexploitation install sur
cette machine est changeable, c..d chacun parmi deux peut agir sur lautre. Certains systmes
dexploitation sont plus vulnrables un type dattaque que dautre. Aussi, la connaissance dune
certaine vulnrabilit dans un OS va agir sur la connaissance de ltat local de la machine. Ce
raisonnement reste aussi valable pour le serveur install sur cette machine.
A partir de ces hypothses, nous avons test les structures de RB suivantes :
Rseau Baysien Naf (BN) : Le classifieur de Bayes naf correspond la structure la plus simple
qui soit, en posant lhypothse que les caractristiques sont indpendantes conditionnellement la classe.
La figure 5.10 prsente les structures obtenues pour lexpert1, lexpert2 et la combinaison entre les deux.
Ici on cherche calculer la probabilit de la classe (LOC) sachant le vecteur caractristique () en
utilisant la rgle de Bayes.
P(LOC | ) =
P( | LOC) P(LOC)
P()
(5.9)
5.4. Application
F. 5.10 Les trois structures naves cres par les variables de : (a) Expert1, (b) Expert2 et (c) Combinaison des deux.
F. 5.11 Les trois structures naves cres par les variables spcifiques chaque machine locale et les
variables de : (a) Expert1, (b) Expert2 et (c) Combinaison des deux.
Pour tudier linfluence des variables contextuelles (i.e. OS et type) sur les rsultats, les mmes
structures sont implmentes mais en intgrant cette fois les variables OS et type chaque structure. La
figure 5.11 prsente ces structures. Lquation calculer est alors :
P(LOC | , OS , type) =
(5.10)
o P(, OS , type) = P() P(OS ) P(type) comme ces variables sont considres indpendantes.
5.4.2.5 Structures dtermines partir des donnes
Dans ce paragraphe, nous prsentons lapplication de trois modles de rseaux baysiens utiliss pour
la classification et dont les structures sont dtermines partir des donnes. Ces modles, Tree Augmented Naive Bayesian (TANB), Maximum Weighted Spanned Tree (MWST) et Multinet sont prsents en
dtail dans la section 5.2.3.
La figure 5.12 prsente la structure obtenue par limplmentation de lalgorithme MWST. Les noeuds
de 1 25 sont les variables de lun des experts et le noeud LOC est le noeud classe. On recherche ici le
rseau baysien sous forme dun arbre, c..d dans lequel chaque noeud a au plus un parent.
Dans le modle Multinet, on obtient deux structures ; une cre par les donnes normales et lautre
cre par les donnes attaques. Ces deux structures sont cres par lalgorithme MWST. La figure 5.13
prsente les deux graphes obtenus pour les variables de lexpert1.
5.4.2.6 Rsultats
Avant de prsenter les rsultats obtenus, indiquons tout dabord les mesures de performance utilises
en fonction des indicateurs dj prciss dans le paragraphe 5.1.3. Ces indicateurs sont :
89
F. 5.12 Les structures obtenues par lalgorithme MWST pour les donnes de deux experts. Les noeuds
(1 25) sont les variables mesures par les experts et le noeud LOC est le noeud classe.
PCC : pourcentage de bonne classification (vrais positifs + vrais negatifs).
Hit Rate (HR) : pourcentage de dtection des points attaques (vrais positifs).
Faux Positifs (FP) : pourcentage des points normaux classifis comme attaques.
Un bon systme de classification binaire est celui qui donne un grand PCC. Par contre, pour un
systme de filtrage des alarmes issues dun NIDS ou en gnral pour un IDS, un bon systme de classification nest pas celui qui donne une valeur leve de PCC, mais celui qui peut dtecter dabord la
majorit des attaques (100% HR) tout en minimisant ensuite les faux positifs (0% FP).
Approche brute Le tableau 5.3 prsente les rsultats obtenus par lapplication de lapproche brute sur
les donnes de deux experts. Rappelons que le modle construit est celui du RB naf qui contient 7200
noeuds et le noeud classe (5.4.2.2). Nous cherchons ici dterminer ltat global du rseau en fonction
des variables mesures par les experts pour les machines internes du rseau. Ces rsultats montrent que
cette mthode de dtection nest pas efficace. Pour lexpert 1 (meilleurs rsultats) 50% des vraies attaques
ne sont pas dtectes et 38% des donnes normales sont mal classifies.
T. 5.3 Rsultats de limplmentation de lapproche brute sur les donnes de deux experts.
Expert
Expert1
Expert2
HR
50 %
45.65 %
FP
38.27 %
48.79 %
PCC
71.47 %
61.63 %
Approche modulaire
Influence des variables contextuelles (OS et type) Le tableau 5.4 prsente les rsultats obtenus
par limplmentation des diffrents modles sur les variables mesures par lexpert1. A partir de ces rsultats on peut facilement constater que lintgration des deux variables contextuelles OS et type avec les
autres variables na pas dinfluence sur les rsultats. Ce rsultat parat logique du point de vue dtection
dintrusions. En effet, et comme signal dans le chapitre 3 (3.8), le fonctionnement gnral de notre
90
5.4. Application
F. 5.13 Les deux structures obtenues par le modle multinet partir des donnes normales ( gauche)
et donnes attaques ( droite) pour les variables (1 25) mesures par lexpert1.
approche de filtrage est similaire lapproche comportementale dans les IDS. Dans cette architecture,
nous essayons de construire un profil des machines internes (IPinterne ) partir des alarmes gnres par
les NIDS et dterminer sil y a une attaque relle partir de ce profil. Lintgration des informations
contextuelles comme le systme dexploitation ou le type de serveur peut aider la dtection des scnarios spcifiques dattaques si ces systmes sont vulnrables contre ce genre dattaques. Par exemple,
si la machine est attaque par une attaque Web contre un serveur IIS, et son systme dexploitation est
Windows alors lintgration de cette information supplmentaire (i.e OS) va influencer sur le rsultat
final. Tandis que cette influence est ngligable si cette information est "Unix".
T. 5.4 Rsultats des diffrents modles sur les variables mesures par lexpert1. Le signe (+) indique
lintgration des deux variables contextuelles OS et type.
Modle
Naf
Naf+
TANB
TANB+
Multinet
Multinet+
HR
46 %
46 %
74 %
72%
0%
0%
FP
12 %
12 %
11 %
17%
0%
0%
PCC
87.4 %
87.4 %
88.8 %
83%
98.7 %
98.7 %
Comparaison entre les experts La table 5.5 prsente les rsultats obtenus pour lapplication des
diffrentes structures de RB sur les variables des deux experts et la combinaison des deux. En analysant
ces rsultats, on peut noter les remarques suivantes :
Les rsultats obtenus pour lexpert2 sont en gnral meilleurs que ceux de lexpert1 (en terme de
dtection dintrusions).
la combinaison entre les variables des deux experts a trs peu amlior les rsultats en diminuant
le taux de FP de 15% 10% avec le mme taux de HR u 60%.
Lalgorithme multinet appliqu lexpert2 a donn les meilleurs rsultats. Il a pu dtecter la plupart
des attaques (8% de faux ngatifs), et a filtr (64%) des points normaux (FP = 36%).
91
Modle HR
Naf
46 %
Naf+
46 %
MWST 36 %
TANB 74 %
TANB+ 72%
Multinet 0 %
Multinet+ 0 %
Expert1
FP
PCC
12 % 87.4 %
12 % 87.44 %
3%
96.2 %
11 % 88.8 %
17%
83%
0 % 98.7 %
0%
98.7
HR
62 %
62 %
12 %
62 %
66%
92 %
92%
Expert2
FP
PCC
12 % 87.7 %
15 % 84.7 %
2%
96.9 %
17 % 82.7 %
19%
81.8%
36 % 64.4 %
48%
52.5%
HR
60 %
60 %
-
Combinaison
FP
PCC
11 % 88.7 %
10 % 89.70 %
-
Nature des donnes la nature des donnes joue un rle dominant sur les rsultats obtenus, surtout
quand les bases de donnes ne contiennent pas un nombre suffisant dexemples dattaques. On peut
remarquer linfluence de la nature des donnes surtout sur le modle Multinet. En effet, dans ces types de
structures (multinet), la probabilit priori de la variable classe est trs importante, en particulier quand
les deux vraisemblances P(A/C = normal) et P(A/C = attaque) sont proches. Le tableau 5.6 prsente
linfluence de la probabilit priori sur les rsultats. Il prsente les rsultats de classification avec la
rgle de dcision maximum postriori en tenant compte de la probabilit priori de la classe (P(C =
normal) = 0.99 et P(C = attaque) = 0.01) et avec la rgle de dcision de maximum de vraisemblance
(i.e. en considrant que la probabilit priori est uniforme). Dans ce cas, nous pouvons noter que les
rsultats sont meilleurs (HR = 100% et FP = 24%).
Donc, les structures multinet et surtout celle applique lexpert2 semblent les plus intressantes
cette problmatique. La cration dun rseau baysien pour chaque catgorie de donnes (normale et
attaque) a permis de ngliger linfluence de la dominance des donnes normales sur le modle construit,
et par consquent les donnes attaques sont mieux dtectes (vraisemblables) par le modle construit
partir des donnes attaques dapprentissage.
T. 5.6 Influence de la probabilit priori de la classe sur les rsultats de classification. Le signe (+)
indique lintgration des deux variables contextuelles OS et type.
Algorithme
Multinet(Expert1)
Multinet(Expert2)
Multinet+ (Expert1)
Multinet+ (Expert2)
HR
84%
100%
80%
100%
HR
0%
92%
0%
92%
FP
14%
24%
15%
32%
FP
0%
36%
0%
48%
Nature des structures Les rsultats obtenus dans le tableau 5.5 montrent que les structures prdfinies telles que les structures naves ou naves+ ne sont pas adquates notre problmatique. Les
structures dtermines partir des donnes (et surtout les multinet) ont donn les meilleurs rsultats car
ces structures rfltent mieux la relation entre les variables.
92
5.4. Application
T. 5.7 Rsultats obtenus en utilisant le noyau linaire. HR : pourcentage de dtection dattaques,
FP : pourcentage des faux positifs et PCC : pourcentage de bonne classification.
C
HR
FP
PCC
0
1
10
100
1000
92%
96%
96%
100%
100%
20%
17.6%
64.5%
79%
79.8%
80.2%
82.5%
36.3%
22%
21.2%
5.4.2.7 Discussion
Les rsultats obtenus pour les deux approches brutes et modulaires montrent clairement que lapproche modulaire a amlior les performances dune facon importante. Cette consquence parait logique
pour les raisons suivantes :
Dans lapproche brute le modle est trs sommaire, c..d les variables de toutes les machines
internes sont regroupes et prsentes au modle sans aucune distinction.
Les rsultats de lapproche brute dpendent de toutes ces variables. En gnral, dans les grands
rseaux, un nombre limit de machines est vis par des attaques et par consquent, la plupart des
variables du rseau baysien rfltent les mesures de ltat normal. Donc le comportement des
machines attaques est noy dans le comportement de lensemble.
Dans lapproche modulaire, les variables de chaque machine interne sont prsentes part et ltat
de cette machine est calcul en fonction de ces variables. Donc il ny a pas influence de la part des
variables des autres machines.
Ltat global du rseau est dtermin dans lapproche modulaire en fonction des tats locaux des
machines internes et non pas directement des variables de mesures.
Dans lapproche modulaire, on peut dterminer la (les) machine (s) interne (s) cible (s) dune
attaque.
0
HR
1
FP
HR
10
FP
HR
FP
HR
100
FP
HR
1000
FP
51.6% 0%
0%
0%
100% 77.3%
20.8% 68% 20.8%
T. 5.9 Rsultats obtenus en utilisant le noyau base radiale. HR : pourcentage de dtection dattaques, FP : pourcentage des faux positifs, C : le taux derreurs admissibles et Param : variance
C
Param
0.05
0.5
1
2
4
10
HR
FP
HR
FP
HR
FP
100
HR
FP
98%
72%
70%
68%
46%
18.2%
9.7%
8.4%
6.9%
4.6%
94%
68%
68%
58%
30%
13.6%
8.7%
6.9%
5.2%
3.2%
72%
30%
40%
36%
28%
9.5%
2.6%
16%
4.2%
1.7%
58%
56%
54%
42%
28%
4.5%
19.3%
18.5%
15%
2%
1000
HR
FP
28%
56%
62%
56%
18%
1%
19.3%
21.5%
18.3%
1.2%
4% des donnes attaques sont noyes dans les donnes normales. Alors en augmentant vers le haut la
valeur de C pour bien classifier ces 4%, un grand nombre de points normaux est mal classifi ce qui
explique ce grand pourcentage des FP.
Pour le noyau polynomial, les meilleurs rsultats sont obtenus pour C = 0. laugmentation de lexposant de 1 4 a elev le HR de 92% 100% avec un pourcentage maximum de FP gal 25%.
Les rsultats obtenus en appliquant le noyau RBF donnent les meilleures performances en terme de
bonne classification ou PCC. Le pourcentage des FP est rduit normement. Dautre part, la valeur de
HR la plus intressante est obtenue pour C = 0 et 2 = 0.05. Laugmentation de 2 amliore PCC (c..d
en rduisant FP) mais diminue HR.
5.4.4 Comparaison
Les rsultats obtenus en appliquant les rseaux baysiens et les SVM sur notre problmatique montrent
que ces mthodes sont efficaces et peuvent donner de bonnes performances. Avec des donnes binaires
non quilibres, lobtention dun classifieur binaire performant nest pas une tche vidente. Les rseaux baysiens de type multinet ont donn un pourcentage de HR de 100% avec un pourcentage de
FP = 24%. Les SVM avec un noyau polynomial de degr 4 ont donn un pourcentage de DR = 100%
avec FP = 25%. En conclusion, les deux classifieurs ont donn approximativement les mmes performances.
5.5 Conclusion
Ce chapitre tait consacr la dtection des attaques qui se droulent sur le rseau et ainsi du
filtrage des fausses alarmes en utilisant des outils de classification supervise.
Le point de dpart tait une introduction gnrale sur les mthodes de classification supervise et
surtout la classification binaire. Ensuite, nous avons prsent brivement deux mthodes : les Rseaux
Baysiens et les SVM. Ltape suivante tait la modlisation du problme dans laquelle nous avons
94
5.5. Conclusion
cr deux synthses de comportements types pour chaque machine interne dans le rseau. Nous avons
test plusieurs modles des Rseaux baysiens pour amliorer les rsultats. Pour les SVM, une famille
de fonctions noyaux avec un ensemble de paramtres sont tests et compars. Finalement, nous avons
prsent les rsultats obtenus.
En conclusion, nous avons russi filtrer environ 75% des fausses alarmes et dtecter toutes les
attaques. Les deux classifieurs ont donn approximativement les mmes performances.
95
96
Chapitre
Evolutivit de lArchitecture
Nous avons prsent dans les chapitres prcdents notre architecture de filtrage des alarmes gnrs
par SNORT. Cette architecture est constitue dun couplage entre des mthodes de classification nonsupervise qui servent dtecter des comportements types et des mthodes de classification supervise,
qui utilisent ces comportements types pour dtecter les attaques relles se droulant dans le rseau.
Lapplication de cette architecture en temps rel va poser plusieurs dfis sur ladaptation de cette architecture aux changements qui peuvent arriver au cours du temps. Ce chapitre sintresse maintenant
lvolution de cette architecture de filtrage. Nous tudions les problmes dapparition de nouvelles
attaques, le changement darchitecture des rseaux surveills, lvolution des comportements types des
attaques, etc. . . .
Sommaire
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
Introduction . . . . . . . . . . . . . . . . . . . . . . . . .
Reconnaissance des formes statistique et notion de Rejet .
Tests dhypothses et analyse de donnes . . . . . . . . .
Surveillance de ligne de base (Baseline Monitoring) . . .
Evolution du rseau ou du NIDS . . . . . . . . . . . . . .
Evolution des comportements types . . . . . . . . . . . .
Dcision de r-apprentissage . . . . . . . . . . . . . . . .
Exprimentations et rsultats . . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
97
98
101
102
103
105
108
113
117
6.1 Introduction
La dtection dintrusions dans les rseaux est un processus qui volue avec le temps. On peut classer
les exigences auxquelles un NIDS devrait rpondre en deux catgories : les exigences fonctionnelles (ce
que le NIDS se doit de faire), et les exigences de performance (comment il doit le faire). Un NIDS se
doit ainsi de raliser une surveillence permanente du/des lments contrls avec une prsence humaine
minimum. Il doit mettre des alarmes prcises et rapides (en temps rel) sur les vnements anormaux
et/ou brches de scurit afin de minimiser les dgats.
97
F. 6.2 Application du rejet de distance. La nouvelle observation X ne correspond aucune des classes
connues.
sera rarement identique lun des prototypes. Les classes (1 , . . . , M ) correspondent des zones dans
lespace, regroupant les formes semblables. Lobjectif en reconnaissance des formes est alors de dcider
laquelle des classes 1 , . . . , M doit tre associe une nouvelle forme.
Toutefois, laffectation ne doit pas tre systmatique car des erreurs peuvent tre commises. Lalgorithme de dcision doit donc bnficier de solutions alternatives afin de diminuer le risque de mauvaise
classification. Ces solutions sont fournies par les options de rejet dambigut et de distance. Il sagit
en ralit de diffrer la dcision car les observations dont lappartenance aux classes est ambgue ou
insuffisante pourraient tre prcurseurs de lapparition de nouvelles classes [51].
Le rejet dambigut est appliqu aux observations se situant lintersection de classes ou prs dune
frontire entre deux classes comme le montre la figure 6.1. Les vecteurs se trouvant dans cette situation
sont affects une nouvelle classe fictive 0 appele classe de rejet dambigut.
Le rejet de distance concerne les vecteurs situs dans des zones de lespace qui ne correspondent
aucune des classes connues de lensemble dapprentissage (figure 6.2). Cette autre alternative est ncessaire en diagnostic. Ces nouvelles mesures peuvent laisser prsager lapparition de certaines classes qui
taient jusque l inconnues. Les vecteurs rejets en distance seront affects une nouvelle classe fictive
d , appele classe de rejet en distance.
Globalement, la rgle de dcision incluant les deux options de rejet sera applique pour M+2 classes :
x i (i = 1, M) : x est class dans i
x est rejet en ambiguit alors : x 0
x est rejet en distance alors : x d
(6.1)
On distingue deux types dapproches pour la mise au point dune rgle de dcision. Le premier
type dapproche consiste utiliser des mthodes statistiques, paramtriques ou non paramtriques. La
deuxime approche, qui est analytique, consiste privilgier le calcul des frontires de dcision entre
99
f (X | i ) Pr(i )
M
P
j=1
(6.2)
f (X | j ) Pr( j )
Dans le cas paramtrique, il est assez courant dmettre lhypothse selon laquelle les classes obissent
des lois de Gauss multidimensionnelles. Les valeurs des probabilits priori et des densits de probabilit peuvent alors tre directement calcules. On dit alors que tout vecteur x de Rd obit une loi de
Gauss dans la classe i si sa densit de probabilit scrit [51] :
(
)
1
1
t 1
d/2
(6.3)
f (x | i ) = (2)
|S i | exp (x mi ) S i (x mi )
2
O mi et S i sont respectivement le vecteur moyenne et la matrice de variance-covariance de la classe
i .
6.2.2.1 Rejet dambigut
Cette option de rejet peut tre incluse dans la rgle de Bayes par lintroduction dun cot de rejet Cr
constant, relatif au rejet dun vecteur X dans la classe j ( j = 1, . . . , M). La rgle de dcision incluant le
rejet en ambigut est dfinie partir des probabilits postriori par :
j=1,M
si
max (Pr( j | X)) < 1 Cr
0
j=1,M
(6.4)
0 dsigne la classe des observations rejetes en ambigut. Le rejet en ambigut sera possible pour
[69] :
1
0 Cr 1
(6.5)
M
6.2.2.2 Rejet de distance
Le rejet de distance peut tre exprim en fonction de probabilits postriori et de la densit de
mlange. En effet, la loi du vecteur x, quand sa classe dappartenance est inconnue, est donne par la
densit de mlange f (x). Ainsi tout vecteur x sera affect la classe de rejet de distance d si sa densit
de mlange est infrieure un seuil de densit Cd [26].
x d si f (x) =
M
X
Pr( j ) f (x | j ) < Cd
(6.6)
j=1
Plus Cd est grand, plus le rejet de distance est important. Cette valeur peut tre fixe dune manire
heuristique partir, par exemple, de lensemble dapprentissage (Xapp ). En effet la densit de mlange
100
(6.7)
Il a t vu prcdemment que les mthodes paramtriques taient bases sur lexistence des lois de
probabilit rgissant les observations et les classes. Toutefois si cette connaissance est incomplte, il est
prfrable dorienter la procdure de dcision vers lestimation de la loi de probabilit ou de celle des
probabilits a postriori.
Parmi les estimateurs usuels, on distingue lestimateur de Parzen et lestimateur des k-plus proches
voisins (k ppv).
La question cruciale concerne les informations qui devraient tre incluses dans la ligne de base.
On peut penser beaucoup de manires de dfinir ces informations : nombre total des alertes, nombre
dalertes par type dalerte, priodes et frquence des alertes, comportement des machines attaques et
des machines attaquantes, etc. . . .
Il est important de noter que si les donnes de scurit taient alatoires, il ny aurait aucune bonne
manire de reprsenter la ligne de base. Cependant, les donnes de scurit sont loin dtre alatoires.
Les donnes de chaque dploiement de scurit suivent certains rgles qui peuvent tre identifies et
dcrites. La ligne de base de donnes de scurit se compose ainsi de plusieurs types dentits :
1. Groupes comportementaux dalertes : Un groupe dalertes est un ensemble dalertes qui sont similaires et reprsentent le mme type dactivit. Les alertes dans les groupes dalertes ne sont pas
identiques, mais elles ont quelques similitudes qui diffrent dun groupe un autre.
2. Modles comportementaux (Behavior Patterns) : Bien quintuitivement nimporte qui peut comprendre le concept de ces modles, il est difficile de le dfinir formellement. En gnral, un modle
est un rapport logique qui dfinit le comportement caractristique des donnes. Par exemple "si la
source IP est 10.1.123.2 alors la destination IP est 12.2.143.2 ou 12.111.0.232".
3. Comportements types des machines attaques : Lide est de regrouper les tentatives dattaques
similaires entre deux ou plusieurs machines en connexion. On peut determiner ensuite le comportement de la machine attaque partir de ces comportements types dtects. Cest lapproche que
nous avons utilise au cours de cette tude (4.2.2).
106
1
k x i k2 )
22i
(6.8)
O i est un paramtre qui dfinit la rgion dinfluence du prototype i. i peut tre estim par la
moyenne empirique des variances des n vecteurs dentres activant le prototype (i). Plus i est grand,
plus la zone dinfluence de (i ) est grande et donc, plus lactivation ki (x) est proche de 1. Si lactivation
kb (x) du prototype (b ) le plus reprsentatif (i.e., le plus proche) est infrieure un certain seuil , le
vecteur x est alors considr comme invalide ( rejeter).
H0 : Po = Pt
H1 : Po > Pt
Dans le cas dun chantillon de grande taille, le test dhypothses pour un pourcentage repose sur
les mmes principes que le test dhypothses pour une moyenne car un pourcentage peut tre considr
comme la moyenne dun ensemble de variables de Bernoulli. Comme nous ne travaillons quavec des
bases de grande taille (> 30), on peut considrer que la distribution dchantillonnage suit une loi normale. Nous trouverons donc la valeur de z correspondant au seuil de signification dsir dans la table
de Gauss.
Le rapport critique est exprim par :
R.C. =
|Po Pt |
p
avec
p =
Po (1 Po )
et n la taille de lchantillon des nouvelles donnes projetes. Si R.C. est infrieur la valeur de la
table de Gauss z correspondant au seuil de signification , alors on ne rejette pas lhypothse H0 . Une
autre manire est de calculer la fonction de rpartition pour la valeur R.C. : si F(R.C.) > F(z ) = alors
on rejete lhypothse.
6.7.1.2 Gravit des clusters danomalie
Pour linterprtation des clusters obtenus, rappelons que nous avons admis dans le chapitre 4 que
chaque vecteur prototype dun cluster est le reprsentant des vecteurs projets dans ce cluster et avons
dtermin les variables les plus significatives de chaque prototype (les 5 top variables). De mme, nous
avons class les alertes suivant trois niveaux de svrit :low (L), medium (M) et high (H). Cf. La section 4.2.2.1 pour des exemples de valeurs numriques testes pour L, MetH. Ici et partir de ces deux
suppositions, nous dfinissons la gravit dun cluster par la somme (normalise) des svrits des 5 top
variables du vecteur prototype de ce cluster. Supposons que xi (i = 1, . . . , 5) sont les 5 top variables
et N = {L, M, H} les trois niveaux de svrit, alors la gravit dun cluster est calcule par la formule
suivante :
P5
N(xi )
Gr(Cluster) = i=1
5.H
109
Le test classiquement utilis pour tudier ce genre de problme est le test de Khi2 (2 ). Le test du 2
fournit une mthode pour dterminer la nature dune rpartition, qui peut tre continue ou discrte. Nous
nous occuperons ici de dterminer si une rpartition est uniforme dans le cas discret.
Soit N lensemble des points considrs comme invalides par la dcision de rejet. Cet ensemble
constitue en effet lchantillon sujet de ce test. Cet chantillon est reparti dans K classes danomalie
distinctes (C1 , . . . , C K ). Soient oi (i = 1, . . . , K) les effectifs11 observs et ei les effectifs thoriques 12 .
PK (oi ei )2
On calcule Q = i=1
ei . La statistique Q donne une mesure de lcart existant entre les effectifs
thoriques attendus et ceux observs dans lchantillon 13 . On compare ensuite cette valeur Q avec une
valeur K1, , o K 1 est le nombre de degrs de libert et est la tolrance. Si Q > K1, , et si N est
suffisamment grand, alors lhypothse davoir effectivement affaire la rpartition thorique voulue est
rejeter avec une probabilit derreur dau plus .
6.7.1.4 Glissement des comportements-types de la SOM
En projetant de nouvelles donnes dans la carte, il peut arriver que le vecteur prototype de chaque
comportement type ne soit pas un bon reprsentant des donnes projetes. Le nombre de comportements
types peut rester le mme mais leur "description" peut voluer au cours de temps. Par consquent, il est
indispensable de prendre ces nouvelles donnes en compte pour la dtermination des nouveaux centres
ou prototypes. Rappelons que la distribution des points dans chaque comportement type est suppose
suivre une loi gaussienne centre au vecteur prototype. La variance est suppose la mme pour tous les
comportements-types.
Pour contrler lvolution des vecteurs prototypes et dtecter sil y a apparition des nouveaux chantillons de distribution diffrente, nous allons poser le problme sous forme dun test statistique inspir
du test CUSUM [144, 22].
En effet, soit {X1 , . . . , XnA } lensemble des donnes dapprentissage de taille nA . Pour chaque vecteur
Xi on calcule sa distance son bmu. Alors, on obtient un vecteur derreur ErrA dfini par :
ErrA = {E1 , . . . , EnA }t
11
Ei = dist(Xi , bmui )
110
Soient XA , XB les moyennes empiriques respectives de ErrA et ErrB . Alors, XA XB est une variable
alatoire qui suit une loi normale. Comme A et B sont connues et supposes gales, le rapport critique
se calcule suivant la formule :
R.C. =
|XA XB |
XA XB
o
s
XA XB =
2 2
+
nA n B
avec = A = B . La valeur de R.C est estime partir des donnes et compare avec la valeur
z/2 correspondante de la table de Gauss. Si R.C. < z/2 , lhypothse nulle nest pas rejete et dans le
cas contraire, R.C. > z/2 , lhypothse nulle est rejete. Une autre facon pour prendre la dcision est la
comparaison des valeurs de la fonction de repartition F(R.C.) et F(z/2 ) = /2. Si F(R.C.) > /2 alors
on rejete lhypothse.
Graphe dindpendance Le moyen le plus pratique pour construire le rseau baysien, i.e. les liaisons
entre les diffrentes variables, est dutiliser une proprit de ces rseaux, le critre de d-sparation (cf.
chapitre 5). Nous proposons dutiliser un rseau baysien naf pour relier les variables (cf. figure 6.7). Ce
type de rseau est simple et a donn des bonnes performances dans diffrentes applications. Il est bas
sur une hypothse dindpendance entre les variables sachant la variable classe.
F. 6.7 Graphe dindpendance de rseau baysien naf utilis comme fonction de dcision.
Les probabilits conditionnelles Pour que le rseau baysien dfini dans la figure 6.7 soit complet, il
reste dterminer pour chaque noeud du graphe la distribution de probabilit conditionnelle p(noeud |
parent).
Pour la variable FEU, il revient dterminer la probabilit que le systme soit instable p(FEU =
Rouge) et ses complmentaires : p(Feu = Orange) et p(FEU = Vert). Comme nous ne possdons
aucune connaissance priori du noeud FEU, nous fixons une probabilit quiprobable P(FEU) =
[1/3, 1/3, 1/3].
Pour les autres variables indicateurs, il faut dterminer la distribution de probabilit p(Indicateur |
FEU). La variable Indicateur est une variable gnrique qui reprsente chacun des quatre indicateurs
statistiques. Nous dcidons de dterminer ces valeurs partir davis dexperts. Au lieu de demander directement lexpert ces valeurs, nous proposons de lui demander dindiquer les intervalles dans lesquels
il pense que la variable FEU est gale rouge, orange ou vert.
a+b
2
(6.9)
En nous basant sur une proprit fondamentale de la loi normale :"lintervalle [ 2, + 2] est
la plage de normalit au niveau de confiance 95%", et en tenant compte que la distribution sur [a,b] est
normale, alors on peut prendre : b 2 = 2 (voir figure 6.8). De cette facon on obtient :
=
ba
4
(6.10)
1 =
3a b
2
(6.11)
3 =
3b a
2
(6.12)
et 3 = b + 2, donc :
F. 6.9 La rgle de dcision applique lindicateur des donnes invalides (sans re-apprentissage) :
(a) graphe de pourcentage des points invalides, (b) erreur de quantification de la carte et (c) tat actuel
du systme.
Le processus de validation de donnes est continu ; c..d pour chaque nouveau vecteur projet X, son
bmu est calcul et la distance d(X, bmu) est compar au seuil Kb (). La distance utilise est la distance
euclidienne.
La dernire phase (dcision) est priodique ; c..d pour chaque priode fixe, les classes danomalie
sont construites et les quatre indicateurs statistiques sont calculs. La priode choisie ici est la fentre
temporelle utilise dans toutes les expriences passes (2 heures). En fonction des valeurs obtenues des
indicateurs, la fonction de dcision baysienne reflte ltat actuel du systme (i.e. Rouge, Orange ou
Vert). Nous prsentons dans la suite les rsultats obtenus en prsentant le rsultat de la dcision en
fonction de chaque indicateur et en comparant lerreur de quantification moyenne avant et aprs le rapprentissage.
Pourcentage des donnes invalides La figure 6.9 prsente les graphes obtenus lors de lapplication
de la rgle de dcision avec uniquement lindicateur de pourcentage des donnes invalides. Pour chaque
fentre temporelle, le test de pourcentage (dcrit en 6.7.1.1) est appliqu, et la probabilit que le pourcentage de donnes invalides dpasse le seuil (i.e. rejet de lhypothse nulle) est calcul. Le pourcentage
thorique (seuil) est pris gal pt = 5%. Les bornes [a,b] utilises dans lestimation des densits de
probabilits P(Indicateur | FEU) du rseau baysien sont a = 30% et b = 50%.
La figure 6.9 (a) prsente lvolution du pourcentage des donnes invalides en fonction du temps.
Laxe des x indique les fentres temporelles et laxe des y le pourcentage des donnes invalides. Une
fois que ce pourcentage dpasse le seuil, alors lalarme rouge est dclench comme indique le graphe
(c). Dans cette implmentation, le systme nest pas mis jour pour chaque dclenchement de lalarme
rouge. Pour cette raison on voit dans le graphe (c) que lalarme rouge est presque dclenche toutes
les fentres de temps. Le graphe (b) prsente lerreur de quantification calcule en fonction de chaque
fentre temporelle. Lerreur de quantification moyenne est gale la somme des erreurs de quantifica114
F. 6.10 La rgle de dcision applique lindicateur des donnes invalides (avec re-apprentissage).
tion pour chaque fentre temporelle divise par le nombre des fentres. La valeur obtenue dans cette
implmentation est gale 2.75.
La figure 6.10 prsente les mmes graphes que la figure 6.9 avec une seule diffrence : le systme
est r-initialis et mis jour lors de chaque dclenchement de lalarme rouge. Comme le dcrit la figure
6.10 (a), le systme est rinitialis trois fois : aprs la premire alarme rouge au temps correspondant la
fentre numro 810, puis la fentre 830 et finalement la fentre 931. Les petits cercles indiquent linstant o le systme devient instable et lalarme rouge est dclenche. A la fin, nous calculons lerreur de
quantification moyenne et nous trouvons quelle est rduit 2.6. Donc le r-apprentissage partir de cet
indicateur nous permet bien de rduire le pourcentage des donnes invalides et lerreur de quantification
moyenne de la carte. Par consquent, les comportements types reprsentent bien les donnes projetes.
Rpartition des clusters danomalie Comme pour lindicateur des donnes invalide, nous calculons
ici la probabilit de rpartition non uniforme des donnes dans les clusters danomalies (c..d la probabilit du rejet de lhypothse nulle du test statistique). Pour calculer les paramtres du rseau baysien,
les valeurs de a et b sont choisies gales 40% et 97%.
Une rpartition non uniforme entre les donnes regroupes dans les clusters danomalies est le signe
dune accumulation de ces donnes dans quelques clusters. Ces grands clusters sont des nouveaux comportements types potentiels. Pour dmontrer la capabilit de larchitecture dtecter des nouveaux comportements types, nous avons "annul" un cluster de la carte de Kohonen, en supposant que ce cluster
nexistait pas et regard comment les donnes correspondants cet "ancien" cluster taient traites dans
la phase de dtermination des clusters danomalies. Les nouvelles donnes appartenant ce cluster sont
considres comme invalides et rejetes. La figure 6.11 prsente la rpartition des donnes du cluster
13 utilis dans cet exemple. Comme on le remarque dans la figure (c), la plupart des donnes de ce
cluster (98%) sont regroupes dans un mme cluster danomalie et 2% des donnes sont disperses dans
les autres clusters. Le nombre de clusters danomalie construits est gal 5. Alors on voit daprs cet
exemple que cette architecture peut dtecter nimporte quel nouveau comportement type qui pourrait
apparatre dans les nouvelles donnes.
115
F. 6.11 La rpartition des donnes rejetes dans notre exprience. La figure (a) montre ltat de
lalarme, la figure (b) donne la probabilit de la rpartition non uniforme et la figure (c) prsente la
distribution des donnes entre les clusters.
Glissement des comportements-types A chaque priode de temps (fentre temporelle) et pour tester
la validit des clusters existants, le test statistique dhypothse dcrit en 6.7.1.4 est excut. Les bornes
dintervalle utilises pour calculer les paramtres du rseau baysien sont choisies gales {a = 40%, b =
95%}. Nous calculons la probabilit de rejet de lhypothse nulle, c..d la probabilit que les moyennes
des vecteurs derreurs soient diffrents.
Les figures 6.12 et 6.13 prsentent le comportement du systme en utilisant les donnes de tests.
Dans la figure 6.12, la rgle de dcision a dclench lalarme rouge deux fois dans lintervalle de temps
compris entre les deux fentres temporelles 900 et 950 (figure (a)). Dans cet intervalle, et comme on le
remarque dans la figure (c), la probabilit a dpass 90%. De mme, la figure (b) indique que lerreur de
quantification atteint la valeur maximale dans cet intervalle.
Une deuxime exprience est excute sur les mmes donnes, mais cette fois avec rapprentissage
du systme aprs chaque dclenchment de lalarme rouge. La figure 6.13 (a,b et c) illustre le comportement du systme. Aprs le premier dclenchement de lalarme rouge, le systme est rinitialis et la
carte de Kohonen est reconfigure avec les nouvelles donnes projetes. On remarque maintenant que le
systme na pas dclench la deuxime alarme rouge linstant o il la dclench dans la premire exprience (figure 6.13 (a)). La figure (b) montre le graphe de lerreur de quantification. Cette erreur passe
de 2.7 avant le r-apprentissage 2.3 aprs le re-apprentissage du systme. Alors on constate dune facon
claire que la mise jour du systme a amlior les performances du systme.
116
6.9. Conclusion
Rouge
Orange
800
850
900
950
1000
1050
1100
1150
1200
1250
2.6
2.55
2.5
700
800
900
1000
1100
(b) Erreur de Quantification
1200
1300
1
0.9
0.8
0.7
0.6
0.5
800
850
900
1150
1200
1250
6.9 Conclusion
Dans ce chapitre, nous avons pass en revue laspect dynamique de larchitecture de filtrage et les
problmes qui peuvent se prsenter en appliquant cette architecture en temps rel.
Nous avons tout dabord prsent les notions de rejet en distance et ambiguit utiliss dans les systmes de reconnaissances de formes et montrer comment utiliser ces notions dans les cartes de Kohonen
pour dtecter les donnes abrrantes.
Nous avons dfini la notion de ligne de base de scurit et prsent les composants principaux dans
le cas de larchitecture de filtrage tudie.
Nous avons ensuite trait les trois problmes que lon rencontre en appliquant cette architecture en
temps rel et qui sont : (a) apparition des nouveaux IPinterne , (b) apparition des nouveaux types dalertes,
et (c) volution des comportements-types existants.
Le premier problme ne pose aucun changement dans larchitecture car cette dernire est modulaire
en fonction des IPinterne . Seul le profil des nouveaux IPinterne est dtermin en fonction des comportements types dj existants. Cependant le deuxime problme pose le reapprentissage de tout le systme
car lapparition dun nouveau type dalerte provoque un changement du nombre dattributs du vecteur
caractristique utilis pour crer les comportements types utiliss comme ligne de base de cette architecture.
117
Rouge
Orange
800
850
900
950
1000
1050
1100
1150
1200
1250
900
1000
1100
1200
1300
0.8
0.7
0.6
0.5
800
850
900
950
1000
1050
1100
1150
1200
1250
118
Chapitre
Conclusions et Perspectives
Ce chapitre rcapitule nos travaux et passe en revue les contributions principales apportes. Des
directions de recherche possibles sont suggres.
7.2 Perspectives
Larchitecture que nous avons progressivement mise au point nest pas une architecture fige. Elle
offre de nombreuses perspectives :
Catgorisation des types dattaques Nous avons signal dans le chapitre 6 (6.5.2) que lapparition
des nouveaux types dattaques entrane la reconfiguration de larchitecture toute entire pour tenir compte
de ces nouveaux types. Nous avons propos deux voies pour trouver une solution ce problme sans
pouvoir les implmenter dans cette tude. Une nouvelle tape pourrait tre, par exemple, dimplmenter
ces deux propositions.
Dcision de r-apprentissage Des perspectives sur le module de "suivi" de larchitecture et surtout
de la phase de r-apprentissage sont nombreuses. Pour linstant, les paramtres sont fixs par lexpert
et figs. Il serait possible de demander lutilisateur si notre dcision de r-apprentissage est sense,
et ventuellement corriger automatiquement les paramtres pour tenir compte dventuels carts entre
notre proposition de dcision et le choix de lexpert.
Architecture temps rel Le mode de traitement utilis dans la phase de prtraitement temporelle est
un mode pseudo-rel qui utilise les fentres temporelles glissantes pour extraire les vecteurs des caractristiques. Sachant quune attaque est caractrise par une suite dvnements conscutifs, nous pourrions
utiliser des outils de modlisation temporelle comme les rseaux baysiens temporels pour viter lutilisation des fentres temporelles. Une autre alternative pourrait tre le clustering de squences temporelles
par lutilisation des variantes de SOM qui traitent les squences temporelles.
Application aux journaux issus des HIDS Une dernire perspective, serait dappliquer notre architecture sur des journaux issus des systmes de dtection dintrusions bass-hte et qui utilisent lapproche
comportementale. Ces systmes crent des profils normaux pour les utilisateurs et dclenchent en cas de
dviation des alarmes. Or, un changement brusque du comportement est marqu en tant quirrgulier et
identifi comme intrusion. Ce mode de dtection est une grande source de fausses alarmes. Nous pouvons appliquer notre architecture de filtrage sur ce genre de donnes en crant des comportements types
des processus excuts par les utilisateurs.
120
Annexe
121
SCAN
Socks
Proxy attempt
Scan Proxy Port
8080 attempt
SNMP
request
TCP
Incorrect password
POP
WEB-Frontpage ...
request
Incorrect Password
POP
SCAN
SOCKS
Proxy attempt
Scan Proxy Port
8080 attempt
Attack-responses
403 Forbidden
Attack-responses
403 Forbidden
Scan nmap TCP
Policy FTP anonymous login attempt
Virus .exe file attachment
Incorrect Password
POP
Scan nmap TCP
WEB-IIS
nsiislog.dll access
T. A.1 Les Top(5) caractristiques des clusters classifis comme attaque obtenus lors de lapprentissage de la carte partir des donnes sans
pondration.
Cluster13
Cluster22
Cluster24
Cluster25
Attack-responses
403 Forbidden
WEB-Frontpage
shtml.dll access
Access FTP admin
Rang
Cluster5
dalerte
1
2
3
WEB-IIS
_mem_bin
access
WEB-Frontpage ...
request
122
123
Scan
Proxy
8080 attempt
SNMP request
tcp
Policy
FTP
anonymous
login attempt
AttackResponses
403 Forbidden
WEB-IIS
_mem_bin
access
WEBFrontpage
shtml.dll access
Policy
FTP
anonymous
login attempt
WEBFrontpage
...request
AttackResponses
403 Forbidden
Policy
FTP
anonymous
login attempt
Scan
Socks
Proxy attempt
Virus Mimail.E
cluster22
cluster11
cluster5
cluster3
AttackResponses
403 Forbidden
Scan nmap TCP
cluster13
des clusters classifis comme attaque obtenus lors de lapprentissage de la carte partir des donnes de
Scan
SOCKS
Proxy
attempt
Scan Proxy
Port 8080 attempt
Attackresponses
403 Forbidden
SNMP
request tcp
Web-misc
http
directory
traversal
Web-iis
nsiislog.dll
access
nmap
Web-attacks
cc command
attemps
Attackresponses
403 Forbidden
Scan
SOCKS
Proxy
attempt
WebFrontpage
shtml.dll
access
Scan Proxy
Port 8080 attempt
Scan
TCP
Attackresponses
403 Forbidden
Scan
SOCKS
Proxy
attempt
WebFrontpage
shtml.dll
access
Scan Proxy
Port 8080 attempt
SNMP
request tcp
Incorrect
User POP
Cluster19
Backdoor
typot trojan
trafiic
Incorrect
Password
POP
Cluster22
VIRUS Mimail.C
Incorrect
User POP
Cluster24
VIRUS Mimail.C
Virus-CGI
scriptalias
access
Incorrect
User POP
Cluster25
VIRUS Mimail.C
Virus-CGI
scriptalias
access
Web-attacks
cc command
attemps
VIRUS Mimail.E
Incorrect
Password
POP
Web-CGI
test-cgi
access
Virus-CGI
scriptalias
access
Web-CGI
test-cgi
access
Web-attacks
cc command
attemps
Access FTP
admin
FTP
List
directory
traversal
attempty
Policy FTP
anonymous login
attempt
124
SNMP
request tcp
Virus .exe
file attachment
125
Web-CGI
aglimpse
access
Web-CGI
alibaba.pl
access
WEB-IIS
doctodep.btr
access
Virus Mimail.C
Virus
.exe file
attachment
Virus
.exe file
attachment
MISC
source
port 53 to
<1024
SCAN
Proxy
Port 8080
attempt
Webattacks
id command
attempt
WEBCGI
htmlscript
attempt
WEBColdfusion
exprcalc
access
WEBFrontpage
service.cnf
access
Incorrect
User
POP
P2P BitTorrent
announce
request
or-
Web-Misc
der.log access
SNMP
Agent/tcp
request
Attackresponses
403 Forbidden
VIRUS
.hta file
attachement
VIRUS
.Reg file
attachment
VIRUS
.dll file
attachment
Attackresponses
403 Forbidden
SCAN
SOCKS
Proxy
attempt
Attackresponses
403 Forbidden
WEBAttacks
mail
command
attempt
WEBFrontpage
service.cnf
access
WEBMISC
long
basic
authorization
string
VIRUS
Mimail.E
Web-IIS
nsiislog.dll
access
IMAP
authenticate
literal
overflow
attempt
WEB-IIS
Codered
v2
root.exe
access
MISC
rsyncd
overflow
attempt
Incorrect
User
POP
WebMisc
order.log
access
Cluster24
Cluster22
Cluster16
Cluster15
Cluster13
Bad-traffic
udp port 0
traffic
T. A.4 Les Top(5) caractristiques des clusters classifis comme attaques obtenus
pondration de niveau 3.
Rang
Cluster1
Cluster5
Cluster7
Cluster9
Cluster11
dalerte
AttackDNS zone Web-CGI formmail Web-IIS
1
Web-cgi
responses
transfer TCP arbitrary aommand nsiistest-cgi
403 Forbidlog.dll
execution attempt
access
den
access
Web-CGI
WebWeb-attacks Web-coldfusion
2
Web-IIs
Frontpage formmail
cc command exprcalc access
iisadmin
arbitrary
wriattempt
access
aommand
teto.cnf
execution
access
attempt
FTP
List
Policy FTP FTP List directory Web3
Access
directory
Misc
MKD. pos- traversal attempt
FTP
order.log traversal
sible warez
backup
attempt
access
site
126
Annexe
127
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
type de scnario
Access to unauthorized page
Brute Force POP3
Brute Force POP3
Access to unauthorized page
Brute Force FTP
Crawler Web
Brute Force POP3
Vulnerability Scanner
Brute Force FTP
SNMP attack
Brute Force FTP
Vulnerability Scanner
Web attack > IIS
Brute Force POP3
Web attack (IIS) >
Apache
MP3 exchange files
via FTP
cluster
1
Top(1)
2
Top(2)
Top(3)
Top(4)
Top(5)
22
22
1
2
2
2
19
1
25
25
14
19
19
25
1
24
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
13
T. B.2 Adquation(2
) entre les scnarios dattaques de la base dapprentissage (haut) et la base de
test (bas) et le TOP(i) caractristique du cluster correspondant (donnes pondres de niveau 3).
Scnario
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
128
type de scnario
Access to unauthorized page
Brute Force POP3
Brute Force POP3
Access to unauthorized page
Brute Force FTP
Crawler Web
Brute Force POP3
Vulnerability Scanner
Brute Force FTP
SNMP attack
Brute Force FTP
Vulnerability Scanner
Web attack > IIS
Brute Force POP3
Web attack (IIS) >
Apache
MP3 exchange files
via FTP
cluster
11
Top(1)
2
Top(2)
Top(3)
Top(4)
Top(5)
24
24
11
2
15
11
9
1
7
5
15
1
15
13
16
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
22
Bibliographie
[1] D. Alahakoon, S. K. Halgamuge, and B. Srinivasan. Dynamic self-organizing maps with controlled growth for knowledge discovery. IEEE Transactions on Neural Networks, 11(3) :601615,
May 2000.
[2] M. S. Aldenderfer and R. K. Cluster Analysis. Quantitative Applications in the Social Sciences.
Sage Publications, 1984.
[3] J. Allen, A. Christie, W. Fithen, J. McHugh, J. Pickel, and E. Stoner. State of the practice of
intrusion detection technologies. Technical report, Carnegie Mellon University, January 2000.
[4] M. Almgren, H. Debar, and M. Dacier. A lightweight tool for detecting web server attacks. In
Proceedings of the Network and Distributed System Security Symposium (NDSS 2000), pages
157170, February 2000.
[5] M. Almgren and U. Lindqvist. Application-integrated data collection for security monitoring. In
S. Verlag, editor, Proceedings of the 4th Workshop on Recent Advances in Intrusion Detection
(RAID), pages 2236, 2001.
[6] E. Amoroso. Intrusion Detection : An Introduction to Internet Surveillance, Correlation, Trace
Back, and Reponse. Intrusion.net Books, February 1999.
[7] M. R. Anderberg. Cluster Analysis for Applications. Academic Press, 1973.
[8] J. P. Anderson. Computer security threat monitoring and surveillance. Technical report, James P.
Anderson Company, Fort Washington, PA April 1980.
[9] P. Arabie, L. J. Hubert, and G. D. Soete. Clustering and Classification. World Scientific Publishing, 1996.
[10] H. Attias. Inferring parameters and structure of latent variable models by variational Bayes. In
I. K. B. Laskey and e. Henri Prade, editors, Proceedings of the 15th Conference on Uncertainty in
Artificial Intelligence (UAI-99), pages 2130, S.F., Cal., July-30-August 1999. Morgan Kaufmann
Publishers.
[11] S. Axelsson. Research in intrusion detection systems : A survey. Technical Report TR :98-17,
Departement of Computer Engineering, Chalmers University of Technology, Goteborg, Sweden,
August 1998.
[12] S. Axelsson. The base-rate fallacy and the difficulty of intrusion detection. ACM Transactions on
Information and System Security (TISSEC), 3(3) :186205, 2000.
[13] S. Axelsson. Intrusion detection systems : A survey and taxonomy. Technical report, Departement
of Computer Engineering, Chalmers University of Technology, Goteborg, Sweden, March 2000.
129
Bibliographie
[14] G. Ball and D. Hall. Isodata, a novel method of data analysis and pattern classification. Technical
report, Stanford Research Institute, Menlo Park, CA, 1965.
[15] D. Barbara, J. Couto, S. Jajodia, , and N. Wu. Adam : a testbed for exploring the use of data
mining in intrusion detection. SIGMOD Rec., 30(4) :1524, 2001.
[16] D. Barbara, J. Couto, S. Jajodia, , and N. Wu. Adam : a testbed for exploring the use of data
mining in intrusion detection. In Proceedings of the IEEE SMC Information Assurance Worksho,
West Point, NY, 2001.
[17] S. M. Bellovin. Packets found on an internet. Computer Communications Review, 23(3) :2631,
1993.
[18] J. C. Bezdek. Some new indexes of cluster validity. IEEE Trans. Syst., Man, Cybern., 28 :301315,
1998.
[19] C. Bishop and M. Tipping. A hierarchical latent variable model for data visualisation. IEEE
T-PAMI, 3(20) :281293, 1998.
[20] P. S. Bradley and U. M. Fayyad. Refining initial points for k-means clustering. In Proceedings of
the 15th International Conference on Machine Learning, pages 9199, 1998.
[21] D. Brugali and K. Sycara. Intrusion detection via fuzzy data mining. In 12th Annual Canadian
Information Technology Security Symposium, pages 109122, Ottawa, Canada, June 2000.
[22] F. Bryan, I. Darryl, and Mackenzie. Cusum environmental monitoring in time and space. Environmental and Ecological Statistics, 10 :231247, March 2003.
[23] W. L. Buntine. A guide to the literature on learning probabilistic networks from data. IEEE
Transactions on Knowledge and Data Engineering, 8 :195210, 1996.
[24] C. Cachin, M. Dacier, O. Deak, K. Julisch, B. Randell, J. Riordan, A. Tscharner, A. Wespi, and
C. West. Towards a taxonomy of intrusion detection systems and attacks. MAFTIA Project
IST-1999-11583, IBM Research, Septembre 2001.
[25] S. Canu. Machine noyaux pour lapprentissage statistique. Techniques de lingnieur, 5, 2007.
[26] R. Casimir. Diagnostic des dfauts des machines asynchrones par Reconnaissance des formes.
PhD thesis, Ecole centrale de Lyon, Dcembre 1992.
[27] P. Cheeseman and J. Stutz. Bayesian classification (autoclass) : Theory and results. Advances in
Knowledge Discovery and Data Mining, pages 607611, 1996.
[28] W. R. Cheswick and S. M. Bellovin. Firewalls and Internet Security : Repelling the Wily Hacker.
Addison-Wesley Publishing Company, 1994.
[29] C. K. Chow and C. Liu. Approximating discrete probability distributions with dependence trees.
IEEE Transactions on Information Theory, 3(14) :462467, 1968.
[30] C. Clifton and G. Gengo. Developing custom intrusion detection filters using data mining. In In
Military Communications International Symposium (MILCOM2000), October 2000.
[31] F. B. Cohen. Information system attacks : A preliminary classification scheme. In Computer and
Security, 1 :2946, 1997.
[32] J. Cohen. Statistical power analysis for the behavioral sciences. Lawrence Erlbaum Assoc.,
Hillsdale, New Jersey, 2nd edition edition, 1988.
[33] G. F. Cooper. The computational complexity of probabilistic inference using bayesian belief
networks. Artificial Intelligence, 42(2-3) :393405, 1990.
[34] G. F. Cooper and E. Herskovits. A bayesian method for the induction of probabilistic networks
from data. Machine Learning, 9 :309347, 1992.
130
[41] O. M. Dain and R. K. Cunningham. Building scenarios from a heterogeneous alert stream. In
Proceedings of the IEEE SMC Information Assurance Workshop, West Point, NY, June 2001.
[42] D. Davies and D. Bouldin. A cluster separation measure. IEEE Transactions on Pattern Analysis
and Machine Learning, 1(2) :224227, 1979.
[43] A. P. Dawid. Applications of a general propagation algorithm for probabilistic expert systems.
Statistics and Computing, 2 :2536, 1992.
[44] H. Debar. Application des Rseaux de Neurones la dtection dintrusions sur les systmes
informatiques. PhD thesis, Universit PARIS 6, juin 1993.
[45] H. Debar, M. Dacier, and A. Wespi. A revised taxonomy for intrusion detection systems. Technical
Report 55(7-8), Annales des Tlcommunications, 2000.
[46] H. Debar, B. Morin, F. Cuppens, F. Autrel, L. M, B. Vivinis, S. Benferhat, M. Ducass, and
R. Ortalo. Dtection dintrusions : Corrlation dalertes. Revue Technique et Science Informatique
(TSI 23), pages 359390, 2004.
[47] H. Debar and A. Wespi. Aggregation and correlation of intrusion alerts. In L. S. Verlag, editor,
Proceedings of the 4th Workshop on Recent Advances in Intrusion Detection (RAID 2001), pages
85103, Berlin, 2001.
[48] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via the
em algorithm. Journal of the Royal Statistical Society, B(39) :139, 1977.
[49] D. E. Denning. An intrusion-detection model. IEEE Transaction on Software Engineering,
13(2) :222232, 1987.
[50] M. Dittenbach, A. Rauber, and D. Merkl. the hierarchical structure in data using the growing
hierarchical self-organizing map. Neurocomputing, 48(1-4) :199216, November 2002.
[51] B. Dubuisson. Diagnostic et reconnaissance des formes. Srie diagnostic et Maintenance. Herms,
Paris, 1990.
[52] B. Dubuisson and M. Masson. A statistical decision rule with incomplete knowledge about classes.
Pattern Recognition, 26(1) :155165, 1993.
[53] S. Eckmann. Translating snort rules to statl scenarios. In Proceedings of the 4th International
Workshop on the Recent Advances in Intrusion Detection (RAID2001), pages 6984, Octobre
2001.
[54] S. Eckmann, G. Vigna, and R. Kemmerer. STATL : An attack language for state-based intrusion
detection. Journal of Computer Security, 10(1/2) :71104, 2002.
131
Bibliographie
[55] G. Elidan and N. Friedman. Learning the dimensionality of hidden variables. In Proc. Seventeenth
Conf. on Uncertainty in Artificial Intelligence (UAI), 2001.
[56] E. Erwin, K. Obermayer, and K. J. Schulten. Convergence properties of self organizing maps. In
Proceedings of ICANN91, pages 409414, 1991.
[57] T. Escamilla. Intrusion Detection : Network Security Beyond the Firewall. John Wiley and Sons,
Inc., New York, NY., 1998.
[58] M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters
in large spatial databases with noise. In A. Press, editor, Proceedings of the 2nd International
Conference on Knowledge Discovery and Data Mining (KDD96), pages 226231, 1996.
[59] A. Faour, P. Leray, and B. Eter. Automated filtering of network intrusion detection alarms. In First
Joint Conference on Security in Network Architectures (SAR) and Security of Information Systems
(SSI), pages 277291, Seignosse, France, 2006.
[60] A. Faour, P. Leray, and B. Eter. A SOM and bayesian network architecture for alert filtering in
network intrusion detection systems. In 2nd IEEE International Conference On Information and
Communication Technologies : From Theory to Applications (ICTTA 2006), pages 11611166,
Damascus, Syria, 2006.
[61] A. Faour, P. Leray, and B. Eter. Growing hierarchical self-organizing map for alarm filtering in
network intrusion detection systems. In the first International Conference on New Technologies,
Mobility and Security (NTMS), Paris-France, May 2007. Elseiver.
[62] A. Faour, P. Leray, and C. Foll. Rseaux baysiens pour le filtrage dalarmes dans les systmes de
dtection dintrusions. In Atelier Modles Graphiques Probabilistes, 5mes journes dExtraction
et de Gestion des Connaissances (EGC 2005), pages 2533, Paris, France, jan. 2005.
[63] D. H. Fisher. Improving inference through conceptual clustering. In M. Kaufmann, editor, Proceedings of the Sixth National Conference on Artificial Intelligence, pages 461465, 1987.
[64] S. Forrest, S. A. Hofmer, A. Somayaji, and T. Longstaff. A sense of self for unix processes. In
I. Press, editor, IEEE Symposium on Security and Privacy, Oakland, CA, May 1996.
[65] J. C. Foster. Realsecure 7.0. iss matures its ids into an enterprise-class, best of breed solution.
Foundstone, Inc., Novembre 2002.
[66] J. Frank. Artificial intelligence and intrusion detection : Current and future directions. In Proceedings of the National 17th Computer Security Conference, 1994.
[67] N. Freidman, D. Geiger, and M. Goldszmidt. Bayesian network classifiers. Machine Learning,
29 :131163, 1997.
[68] B. Fritzke. Growing grid - a self-organizing network with constant neighborhood range and adaption strength. Neural Processing Letters, 2(5) :913, 1995.
[69] K. Fukunaga. Introduction to Statistical Pattern Recognition. Academic Press, New York, 1972.
[70] Fyodor. http ://www.insecure.org/nmap.
[71] D. Geiger. An entropy-based learning algorithm of bayesian conditional trees. In M. K. Publishers,
editor, Uncertainty in Artificial Intelligence : proccedings of the Eighth Conference (UAI-1992),
pages 9297, San Mateo, CA, 1992.
[72] D. Geiger and D. Heckerman. Knowledge representation and inference in similarity networks and
bayesian multinets. Artificial Intelligence, 82(1-2) :4574, 1996.
[73] W. Gilks, S. Richardson, and D. Spiegelhalter. Markov chain Monte Carlo in practice. Chapman
and Hall, 1996.
132
[81] J. L. Hellerstein and S. Ma. Mining event data for actionable patterns. In The Computer Measurement Group, 2000.
[82] K. Hirata. A classification of abduction : Abduction for logic programming. Machine Intelligence,
Oxford University Press, 1(14) :397424, 1995.
[83] S. A. Hofmeyr, S. Forrest, and A. Somayaji. Intrusion detection using sequences of system calls.
Computer Security, 6 :151180, 1998.
[84] R. Howard and J. Matheson. Influence diagrams. Readings of the Principles and Applications of
Decision Analysis, 2 :721762, 1982.
[85] K. Ilgun, R. Kemmer, and P. Porras. State transition analysis : a rule-based intrusion detection
approach. IEEE Transactions on Software Engineering, 21(3), March 1995.
[86] K. Ilung. Ustat : A real-time intrusion detection system for unix. In the IEEE Symposium on
Security and Privacy, pages 1628, Oakland, CA, 1993.
[87] K. A. Jackson, D. H. DuBois, and C. A. Stallings. An expert system application for network intrusion detection. In 14th National Computer Security Conference, National Institute of Standards
and Technology/National Computer Security Center,, pages 215225, Washington, DC October
1991.
[88] A. K. Jain and R. C. Dubes. Algorithms for Clustering Data. Prentice-Hall, 1988.
[89] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering : A review. ACM Computing Surveys,
31(3) :264323, 1999.
[90] N. Jardine and R. Sibson. Mathematical Taxonomy. Wiley, London, 1971.
[91] F. V. Jensen. An introduction to Bayesian Networks. Taylor and Francis London, United Kingtom,
1996.
[92] F. V. Jensen. Bayesian Networks and Decision Graphs. Springer Verlag Ed., Berlin, Germany,
2001.
[93] M. Jordan, Z. Ghahramani, T. Jaakkola, and L. Saul. Learning in Graphical Models,, chapter
An introduction to variational methods for graphical models, pages 105162. Kluwer Academic
Publishers, Boston, 1998.
[94] K. Julisch. Mining alarm clusters to improve alarm handling efficiency. In Proceedings of the
17th Annual Computer Security Applications Conference (ACSAC), December 2001.
[95] K. Julisch. Using Root Cause Analysis to Handle Intrusion Detection Alarms. PhD thesis, Universit de Dortmond, Dortmond, 2003.
133
Bibliographie
[96] K. Julish and M. Dacier. Mining intrusion detection alarms for actionable knowledge. In 8th ACM
International Conference on Knowledge Discovery and Data Mining, pages 366375, 2002.
[97] J. Justen. Nessus 2.0.8. Technical report, Network and Systems Professionals Association Inc.,
2003.
[98] G. Karypis, E.-H. Han, and V. Kumar. Chameleon : Hierarchical clustering using dynamic modeling. IEEE Computer, 32(8) :6875, 1999.
[99] K. Kendall. A database of computer attacks for the evaluation of intrusion detection systems. Masters thesis, Department of Electrical Engineering and Computer Science, Massachusetts Institute
of Technology, June 1999.
[100] R. L. Kennedy, Y. Lee, B. V. Roy, C. D. Reed, and R. L. Lippman. Solving Data Mining Problems
Through Pattern Recognition. Prentice Hall, Englewood Cliffs, N.J, 1998.
[116] W. Lee and S. Stolfo. Data mining approaches for intrusion detection. In the 7th USENIX Security
Symposium, January 1998.
[117] W. Lee, S. Stolfo, and K. Mok. A data mining framework for building intrusion detection models.
In Proceedings of the 1999 IEEE Symposium on Security and Privacy, May 1999.
[118] W. Lee, S. Stolfo, and K. Mok. Mining in a data-flow environment : Experience in network intrusion detection. In Proceedings of the 5th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining (KDD-99), August 1999.
[119] W. Lee and S. J. Stolfo. A framework for constructing features and models for intrusion detection
systems. ACM Transactions on Information and System Security (TISSEC), 3(4) :227261, 2000.
[120] W. Lee and D. Xiang. Information-theoretic measures for anomaly detection. In Proceedings of
the IEEE Symposium on Security and Privacy, page 130. IEEE Computer Society, 2001.
research
center
the
hack
faq.
Bibliographie
[134] B. Morin. Corrlation dalertes issues doutils de dtection dintrusions avec prise en compte
dinformations sur le systme surveill. PhD thesis, INSA de Rennes, Fvrier 2004.
[135] A. Mounji. Languages and Tools for Rule-Based Distributed Intrusion Detection. PhD thesis,
Facults Universitaires Notre-Dame de la Paix, Namur (Belgium), 1997.
[136] S. Mukkamala, G. Janowsky, and A. H. Sung. Intrusion detection using neural networks and
support vector machines. In IEEE International Joint Conference on Neural Networks 2002,,
pages 17021707, Hawaii, May 2002.
[137] P. Naim, P. Wuillemin, P. Leray, O. Pourret, and A. Becker. Rseaux Baysiens. Eyrolles, Paris,
2004.
[138] P. Nam and A. Becker. Les rseaux baysiens : modles graphiques de connaissance. Eyrolles,
1999.
[139] R. Neal. Comments on a theoretical analysis of monte carlo algorithms for the simulation of gibbs
random field images. IEEE Transactions on Information Theory, 39 :310, 1993.
[140] P. G. Neumann and P. A. Porras. Experience with emerald to date. In Proc. Workshop Intrusion
Detection Network Monitoring, pages 7380, Santa Clara, CA, April 1999.
[141] P. Ning, S. Jajodia, and X. Wang. Abstraction-based intrusion detection in distributed environments. ACM Transactions on Information and System Security (TISSEC), 4(4) :407452, 2001.
[142] S. Northcutt and J. Novak. Network Intrusion Detection. New Riders. Indianapolis, IN, 3rd ed.
edition, September 2002.
[143] S. M. Olmsted. On representing and solving decision problems. PhD thesis, Department of
Engineering-Economic Systems, Stanford University, 1983.
[144] E. S. Page. Cumulative sum control charts. Technometrics, 3 :19, 1961.
[145] E. Pampalk. Ghsom. http ://www.ofai.at/ elias.pampalk/ghsom/overview.html.
[146] V. Paxson. Bro : A system for detecting network intruders in real-time. Computer Networks,
31(23-24) :24352463, 1999.
[147] J. Pearl. Probabilistic Reasoning in Intelligent Systems : Networks of Plausible Inference. Morgan
Kaufmann, 1988.
[148] P. Porras and A. Kemmerer. Penetration-state transition analysis- a rule-based intrusion dtection
approach. In I. C. society press, editor, Proceedings of the Eighth Annual Computer Security
Applications Conference, pages 220229, November-December 1992.
[149] K. E. Price. Host-based misuse detection and conventional operating systems audit data collection.
Masters thesis, Purdue University, 1997.
[150] T. H. Ptacek and T. N. Newsham. Insertion, evasion, and denial of service : Eluding network
intrusion detection. Technical report, Secure Networks, 1998.
[151] R. F. Puppy.
A look at whiskers anti-ids tactics.
http ://www.wiretrip.net/rfp/pages/whitepapers/whiskerids.html, 1999.
URL
[152] O. Rachman. Baseline analysis of security data. Securimine Software Inc., 2005.
[153] A. Rauber, D. Merkl, , and M. Dittenbach. The growing hierarchical self-organizing map : exploratory analysis of high-dimensional data. IEEE Transactions on Neural Networks, 13 :13311341,
2002.
[154] B. D. Ripley. Pattern Recognition and Neural Networks. Cambridge University Press, 1996.
[155] S. Russell and P. Norvig. Artificial Intelligence : A Modern Approach. Prentice Hall, Upper Saddle
River, 2nd ed. edition, January 1995.
136
[156] J. Ryan, M.-J. Lin, and R. Miikkulainen. Intrusion detection with neural networks. In Advances
in Neural Information Processing Systems, volume 10. MIT Press, 1998.
[157] J. Sacha, L. Goodenday, and K. Cios. bayesian learning for cardiac spect image interpretation.
Artificial Intelligence in Medecine, 26 :109143, 2002.
[158] B. Scherrer. Biostatistique. Gatan Morin diteur, Chicoutimi, 1988.
[159] M. M. Sebring, E. Shellhouse, M. E. Hanna, and R. A. Whitehurst. Midas : Multics intrusion
detection and alerting system. Technical report, National Computer Security Center, SRI International Ft. Meade, MA, 1998.
[160] A. A. Sebyala, T. Olukemi, and L. Sacks. Active platform security through intrusion detection
using nave bayesian network for anomaly detection. In London Communications Symposium,
2002.
[161] R. Sekar, Y. Guang, S. Verma, and T. Shanbhag. A high-performance network intrusion detection
system. In Proceedings of the 6th ACM Conference on Computer and Communications Security,
pages 817, November 1999.
[162] S. Z. Selmi and M. Ismail. K-means type algorithms : A generalized convergence theorem and
characterization of local optima. IEEE Transactions on Pattern Analysis and Machine Intelligence,
6(1) :8187, 1984.
[163] R. D. Shachter. Probabilistic influence diagrams. Operations Research, 36 :589604, 1988.
[164] P. P. Shenoy. Valuation-based systems for bayesian decision analysis. Operations Reasearch,
40(3) :463484, 1992.
[165] P. Sneath and R. R. Sokal. Numerical Taxonomy. Freeman, San Francisco, CA, 1973.
[166] R. Sommer and V. Paxson. Enhancing byte-level network intrusion detection signatures with
context. In A. Press, editor, Proceedings of the 10th ACM conference on Computer and communication security, pages 262271, 2003.
[167] L. Spitzner. Know your enemy. Technical report, Honeynet Project, Mars 2000.
[168] L. Spitzner. Honeypots : Tracking Hackers,. Addison-Wesley Professional., 2002.
[169] S. Staniford, J. Hoagland, and J. McAlernay. Practical automated detection of stealthy portscans.
In ACM Computer and Communications Security IDS Workshop, pages 17, 2000.
[170] S. Stolfo, W. Fan, W. Lee, A. Prodromidis, and P. Chan. Cost-based modeling for fraud and
instrusion detection : Results from the jam project. In I. C. Press, editor, Proceedings of DARPA
Information Survivability Conference and Exposition, 2000.
[171] A. S. Tanenbaum. Computer Networks. Prentice-Hall International,Inc, 1996.
[172] S. Templeton and K. Levitt. A requires/provides model for computer attacks. In Proc. of New
Security Paradigms Workshop, pages 3138, September 2000.
[173] H. S. Teng, K. Chen, and S. C. Lu. Security audit trail analysis using inductively generated
predictive rules. In 6th Conference on Artificial Intelligence Applications, IEEE Service Center,
pages 2429, Piscataway, NJ, March 1990.
[174] C. Tinnagonsutibout and P. Watanapongse. A novel approach to process-based intrusion detection
system using read-sequence finite state automata with inbound byte profiler. In Information and
Computer Engineering Postgraduate Workshop,, 2003.
[175] A. Valdes and K. Skinner. Probabilistic alert correlation. In 4th Workshop on Recent Advances in
Intrusion Detection (RAID), pages 5486, Berlin, 2001. LNCS. Springer Verlag.
137
Bibliographie
[176] N. Valentin. Construction dun capteur logiciel pour le contrle automatique du procd de
coagulation en traitement deau potable. PhD thesis, UTC, 2000.
[177] V. Vapnik. Statistical Learning Theory. Wiley, 1998.
[178] A. Varfis and C. Versino. Clustering of socio-economic data with Kohonen maps. Neural Network
World, 2(6) :813834, 1992.
[179] J. Vesanto. Som-based data visualization methods. Intelligent Data Analysis,, 3(2) :111126,
1999.
[180] J. Vesanto, J. Himberg, E. Alhoniemi, and J. Parhankangas. Self-organizing map in matlab :
the som toolbox. In Proceedings of the Matlab DSP Conference, pages 3540, Espoo, Finland,
November 1999.
[181] G. Vigna and R. Kemmerer. Netstat : A network-based intrusion detection approach. In Proceedings of the 14th Annual Computer Security Application Conference, Scottsdale, Arizona, Dcembre 1998.
[182] L.-X. Wang. A course in fuzzy systems and control. Prentice Hall, Inc., Upper Saddle River, NJ,
1997.
[183] W. Wang, J. Yang, and R. Muntz. Sting : A statistical information grid approach to spatial data
mining. In M. Kaufmann, editor, Proceedings of the 23rd International Conference on Very Large
Data Bases (VLDB97), pages 186195, 1997.
[184] C. Warrender, S. Forrest, and B. Pearlmutter. Detecting intrusions using system calls : Alternative
data models. In Proceedings of the IEEE Symposium on Security and Privacy, pages 133145,
Mai 1999.
[185] A. Wespi, M. Dacier, and H. Debar. Intrusion detection using variable-length audit trail patterns.
In Proceedings of the 3rd International Workshop on the Recent Advances in Intrusion Detection
(RAID2000), pages 110129, Octobre 2000.
[186] J. Winteregg. Fonctionnement dOSSIM. Swiss University of Applied Sciences (HEIG-VD), Mai
2006.
[187] D. Zamboni. Using internal sensors for computer intrusion detection. PhD thesis, Purdue university, 2001.
[188] V. Zemb. Dtection dintrusions, mthodes et techniques. Technical report, CNAM, 2002.
[189] T. Zhang, R. Ramakrishnan, and M. Livny. Birch an efficient data clustering method for very
large databases. In ACM, editor, Proceedings of the ACM SIGMOD International Conference on
Management of Data (SIGMOD 1996), pages 103114, 1996.
138