Вы находитесь на странице: 1из 27

Reprsentations condenses et extractions sous

contraintes de motifs frquents


Jean-Franois Boulicaut Artur Bykowski Baptiste Jeudy
Christophe Rigotti
Institut National des Sciences Appliques de Lyon
Laboratoire LISI/LIRIS
Btiment Blaise Pascal
F-69621 Villeurbanne cedex


  


Nous prsentons un certain nombre de rsultats sur loptimisation de requtes inductives qui retournent des ensembles et leurs frquences dapparition dans de grandes bases
de donnes transactionnelles. Notre cadre formel concerne la recherche de reprsentations
condenses des ensembles frquents et le traitement actif des contraintes fournies par lanalyste.
Nous discutons dun algorithme gnrique optimisant lvaluation dune conjonction dune
contrainte anti-monotone et dune contrainte monotone. Plusieurs reprsentations condenss
des ensembles frquents sont tudies comme les ensembles ferms et les ensembles -libres.
Ceci permet des extractions de motifs frquents dans des contextes difciles comme les donnes denses et fortement corrles. Finalement, nous considrons brivement lextraction sous
contraintes de reprsentations condenses.

RSUM.

We consider several results on inductive query evaluation optimization, more precisely for queries that return itemsets and their frequencies in huge transactional databases.
Our formal framework concerns condensed representations of frequent itemsets and the active
use of the constraints dened by the analyst. We discuss a generic algorithm that optimizes
the evaluation given a conjunction of an anti-monotonic and a monotonic constraint. Several
condensed representations of the frequent itemsets are studied like the closed itemsets and the
-free itemsets. It enables the extraction of frequent itemsets in difcult contexts like dense and
highly-correlated data. Finally, we briey consider how to combine constraint-based extraction
with condensed representation mining.

ABSTRACT.

MOTS-CLS :

Motifs frquents, rgles dassociation, extraction sous contraintes, requtes induc-

tives
KEYWORDS:

Frequent patterns, association rules, constraint-based mining, inductive queries

soumission Bilan du Groupe de Travail GaFoumm, le 9 novembre 2002.

2
e

soumission Bilan du Groupe de Travail GaFoumm.

1. Introduction
Le problme du calcul des itemsets frquents dans de grandes bases de donnes
transactionnelles (jusqu des millions de transactions et des centaines ou milliers
ditems pouvant participer aux transactions) fait lobjet de recherches intensives depuis 1994. En effet, ce problme est au cur de la technique dextraction des rgles
dassociation frquentes et valides propose dans [AGR 93], une technique trs tudie du fait de son potentiel applicatif (analyse de donnes de ventes pour identier des
produits qui tendent tre achets ensembles, recherches de navigations frquentes
sur un site WWW, recherche de combinaisons de mots-cls frquentes dans un corpus
de documents, etc). Depuis lalgorithme A PRIORI dvelopp dans [AGR 96], de trs
nombreuses amliorations ont t proposes. Dans cet article, nous voulons contribuer
un effort de synthse sur deux voies majeures de dveloppement, lextraction ditemsets sous contraintes et ltude de reprsentations condenses des motifs frquents.
Lextraction ditemsets sous contraintes est motive par la prise en compte des
contraintes xes par lanalyste pour ne dlivrer que les itemsets qui les satisfont
(voir, e.g., [NG 98]). Lune des contraintes sera gnralement la contrainte de frquence minimale mais lon peut associer dautres critres dintrt comme, e.g., la
prsence ou labsence de certains items. La difcult rside dans lexploitation active
des contraintes fournies pour optimiser les parcours des espaces de recherche gigantesques tant donns les ordres de grandeur voqus : pour 1000 items, nous avons
environ 10300 itemsets possibles et dcompter les frquences dans des millions de
transactions peut tre trs couteux. Dans cet article, nous discutons dun algorithme
gnrique par niveaux pour traiter des conjonctions de contraintes anti-monotones et
monotones sur le domaine des itemsets.
Lextraction de reprsentations condenses des itemsets frquents est un domaine
dans lequel nous avons ralis des contributions pionnires. Il sagit de calculer efcacement des reprsentations plus compactes que celles de tous les itemsets frquents
(avec leurs frquences) tout en conservant la possibilit de retrouver ces informations,
ventuellement approximes. En partant des condensations par les ensembles dit ferms, nous avons considr dautres reprsentations condenses. Certaines sont exactes
cest--dire quil ny a pas de perte dinformation par rapport la collection de tous les
itemsets frquents tout en gagnant, presque toujours, sur les temps dextraction et sur
les tailles des reprsentations matrialiser. Dautres sont approximatives, cest--dire
que la frquence des itemsets frquents ne pourra tre quapproxime si lon ne veut
pas accder aux donnes. Nous prsentons ici les reprsentations bases ditemsets
ferms, libres et -libres.
Cet article de contient pas les dveloppements thoriques, les dtails sur les algorithmes, ou encore les nombreuses validations exprimentales qui ont dj t publies dans des articles en langue anglaise [BOU 00e, BOU 01b, JEU 02b, BOU 00d,
BOU 03]. Ces concepts sont dvelopps dans deux thses rcentes, [BYK 02] pour
ltude des reprsentations condenses et [JEU 02a] pour ltude de lextraction sous
contraintes.

Reprsentations condenses et contraintes

2. Fouille de donnes : la formalisation de Mannila et Toivonen


Heikki Mannila et Hannu Toivonen ont tudi une abstraction simple de plusieurs
travaux en Extraction de Connaissances dans les Bases de Donnes (ECBD) via le
concept de thorie [MAN 97a].
Considrons linstance r dune base de donnes de schma R, un langage L pour
lexpression de proprits dans les donnes et un prdicat de slection q. Le prdicat
q est utilis pour dire si oui ou non, une phrase L doit tre considre comme
(potentiellement) intressante sur r. Une tche dextraction peut alors tre formalise
comme le calcul de la thorie de r pour L et q, i.e., lensemble
Th(L, r, q) = { L | q(, r) est vrai}.
[JAE 96] dveloppe une approche assez gnrale pour la dnition des prdicats
de slection dans une logique probabiliste. On peut voir la spcication dune tche
dextraction, et donc dune thorie, comme la dnition dune requte sur la collection
de toutes les phrases possibles. on parle alors de requte inductive [BOU 99].

2.1. Le cas des itemsets frquents


La formulation prcdente et lalgorithme abstrait de calcul de la thorie correspondante (Algorithme 2) sappliquent de nombreux contextes comme la recherche
dpisodes frquents (ou de motifs squentiels frquents) [MAN 97b], la dcouverte
de rgles exactes ou fortes au sens de [PIA 91], la recherche de dpendances dinclusion et de dpendances fonctionnelles [MAN 97a, HUH 98, NOV 01, MAR 02].
Dans ce papier nous considrons le problme de lextraction des motifs appels itemsets frquents et nous allons utiliser cette notion de calcul de thorie pour rappeler
la formulation de ce problme ainsi quun des principes fondamentaux permettant sa
rsolution dans la pratique.
Dnition 1 Bases de transactions, item et itemset Soit  un ensemble ni
de symboles appels items. Une transaction t est un sous-ensemble d et une
base de transactions r est un multi-ensemble non vide de transactions qui peut tre
reprsent par une matrice boolenne, comme illustr ci-aprs dans lexemple 1. Un
itemset est un sous-ensemble d et un k-itemset est un itemset de taille k ; lensemble des k-itemsets est dsign par Itemsk . On dit quune transaction t supporte
un itemset S ssi S t. On appelle support (dsign par Sup(S, r)) dun itemset S le
multi-ensemble de toutes les transactions de r qui supportent S (e.g., Sup(, r) = r).
La frquence dun itemset S est F(S, r) = |Sup(S, r)| o |.| dsigne la cardinalit
du multi-ensemble. Sa frquence relative sera donc |Sup(S, r)|/|Sup(, r)|. Pour allger les notations, lorsquil ny aura pas dambiguit, nous omettons le paramtre r.
Un itemset S est -frquent dans r si F(S) . An nous utilisons souvent une
notation par chanes de caractres pour les itemsets, e.g., AB pour {A, B}.

4
e

soumission Bilan du Groupe de Travail GaFoumm.

t1
t2
t
r= 3
t4
t5
t6

ABCD
BC
AC
AC
ABCD
ABC

Itemset
A
B
AB
AC
CD
ACD

Support
{t1 , t3 , t4 , t5 , t6 }
{t1 , t2 , t5 , t6 }
{t1 , t5 , t6 }
{t1 , t3 , t4 , t5 , t6 }
{t1 , t5 }
{t1 , t5 }

Frquence relative
0.83
0.67
0.5
0.83
0.33
0.33

Figure 1. Exemples de supports et frquences dans une base de transactions.


Exemple 1 Considrons linstance r du schma {A, B, C, D} qui est donn dans
la gure 1. Soit L1 le langage form de la collection de tous les itemsets sur ce
schma. Avec le seuil de frquence absolue =3, on sintresse au prdicat q1 (, r)
F(, r) . La collection Th(L1 , r, q1 ) est donc celle de tous les itemsets 3-frquents
dans r, i.e., {{A}, {B}, {C}, {A, B}, {B, C}, {A, C}, {A, B, C}}.
On notera que souvent, il ne sagit pas seulement de calculer la collection mais
aussi des fonctions dvaluations sur les motifs composant la thorie. Ainsi, dans ce
article, nous voulons non seulement connatre les itemsets frquents mais galement
leurs frquences. Ceci est indispensable dans de nombreuses phases de post-traitement
des itemsets frquents et notamment la drivation de rgles dassociation et le calcul
de leurs diffrents indices de qualit comme, e.g., la conance, lintrt, la J-mesure
[GUI 00].

2.2. Un algorithme gnrique


Le calcul de Th(L, r, q) ne peut en gnral pas tre ralis dans la pratique par une
gnration systmatique de toutes les phrases de L suivie dune vrication du prdicat de slection. On notera que le langage L peut dailleurs tre inni comme cest
par exemple le cas pour les motifs squentiels tels que les pisodes avec rptition
[MAN 97b].
Dans de nombreux contextes, lespace de recherche des phrases possibles, le langage L, est naturellement structur par rapport au prdicat de slection des phrases
intressantes. Une ide simple, bien tudie depuis la dnition du cadre learning
as search de Tom Mitchell [MIT 82], consiste optimiser le parcours de lespace de
recherche, en structurant lensemble des phrases de L en treillis ou en demi-treillis
partir dune relation dordre partielle ayant une proprit danti-monotonie (voir dnition ci-aprs) par rapport au prdicat de slection. On pourra alors viter de parcourir
les sous-espaces dont on sait quils ne peuvent contenir des phrases intressantes.
Lide directrice est dutiliser une relation de spcialisation  sur L. Pour deux
phrases et de L, on dira que est plus gnrale que , et que est plus spcique
que lorsque nous avons  . La relation  nest pas quelconque, on souhaite

Reprsentations condenses et contraintes

avoir une relation de spcialisation dite anti-monotone par rapport au critre q. Une
relation de spcialisation est anti-monotone par rapport q si pour tout r et , si
q(r, ) et  alors q(, r). En dautres termes, si une phrase vrie q, alors
toutes les phrases les plus gnrales vrient q. Un algorithme par niveaux simple
mais efcace peut alors tre mis en uvre : on considre les phrases les plus gnrales
et lon value et gnre des phrases de plus en plus spciques. Lintrt est qualors,
puisque  est anti-monotone, on peut viter dvaluer q sur les phrases pour lesquelles
on sait quune phrase plus gnrale ne satisfait pas q. Ce principe est prsent dans
lalgorithme 2.
Si lon reprend les notations de lexemple 1, dans le contexte de lextraction des
itemsets frquents, linclusion ensembliste est anti-monotone par rapport la proprit
tre frquent, i.e., le prdicat q1 . En effet, on montre facilement que tous les sousensembles dun ensemble -frquent sont -frquents. Linclusion ensembliste peut
donc tre choisie comme relation structurant la collection des itemsets an dutiliser
lalgorithme 2. Les phrases les plus gnrales sont alors les singletons et les phrases
les plus spciques sont les ensembles frquents maximaux (i.e., de taille maximale).
Ceux-ci sont atteints par lalgorithme 2 selon un parcours en largeur dabord du treillis
des sous-ensembles.

Algorithme 2 Algorithme gnrique [MAN 97a]. Etant donn une base r, un langage L et une relation de spcialisation  anti-monotone par rapport au prdicat de
slection q, lalgorithme produit Th(L, r, q).

1.
2.
3.
4.
5.
6.
7.
8.

C1 := { L | L tel que  } ;
i := 1 ;
while Ci = do
// Evaluation des candidats satisant q
Si := { Ci | q(, r) est vrai} ;
//Calcul des candidats de taille i+1





Ci+1 := { L | tel que  on a ji Sj \ ji Cj } ;
i := i + 1 ;
od ;

output j<i Sj ;

En alternant les phases dvaluation et de gnration de candidats, un algorithme


par niveaux comme lalgorithme 2 atteint progressivement les phrases intressantes
les plus spciques tout en minimisant le nombre dvaluations du prdicat q (voir
[MAN 97a] pour une analyse de complexit et des pointeurs vers les travaux connexes).
Dautres articles de ce recueil prsentent des instances de cet algorithmes gnriques
optimises pour la dcouverte de dpendances.

6
e

soumission Bilan du Groupe de Travail GaFoumm.

2.3. Une spcialisation de lalgorithme gnrique : A PRIORI


A partir de lalgorithme gnrique, il est maintenant ais de sapproprier lun
des algorithmes de rfrence en extraction ditemsets frquents : A PRIORI [AGR 94,
AGR 96].
Lalgorithme 3 est une description abstraite dA PRIORI. Pour un seuil de frquence donn, il permet dextraire tous les itemsets -frquents et leurs frquences.
On notera que dans cette version abstraite, ainsi que dans les autres algoritmes prsents, on ne fait pas apparaitre explicitement la frquence des itemsets dans la sortie
(output) calcule pour ne pas surcharger la prsentation. Pour la mme raison nous
supposons aussi que litemset vide est -frquent (i.e., la base contient au moins
transactions). Dans cet algorithme, pour une collection ditemsets S, SATCfreq (S)
reprsente lensemble des itemsets de S qui satisfont la contrainte de frquence minimale note Cfreq (S) et qui stipule que S doit tre -frquent.
Algorithme 3 A PRIORI
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.

L0 = {}
C1g := Items1 ;
k := 1
while Ckg = do
Phase 1 - Elaguage des candidats
Ck :=  (Ckg , Lk1 )
Phase 2 - Test de la frquence
Lk := SATCfreq (Ck )
Phase 3 - Gnration de candidats au niveau k+1
g
:= generateapriori (Lk )
Ck+1
k := k + 1
od
k1
F S := i=0 Li
output F S

A PRIORI est un algorithme par niveau sur le treillis des itemsets. Pendant la premire passe (avec k = 1), on calcule les 1-itemsets frquents et on gnre les 2itemsets candidats partir des 1-itemsets frquents. Dans la seconde passe (k = 2),
lalgorithme lague certains 2-itemsets candidats (ceux qui contiennent des 1-itemsets
non frquents), calcule leurs frquences pour ne retenir que ceux qui sont frquents
et enn gnre la collection des 3-itemsets candidats partir des 2-itemsets frquents.
Lexcution se poursuit selon le mme principe pour les itemsets de taille suprieure.
Ckg dsigne la collection des k-itemsets candidats, i.e., ceux qui peuvent tre frquents. Lk reprsente la collection ditemsets de taille k qui sont -frquents. La fonction   utilise lors de la phase 1, est dnie de la faon suivante :
 (Ckg , Lk1 ) renvoie comme rsultat les k-itemsets de Ckg tels que

Reprsentations condenses et contraintes

tous leurs sous-ensembles de taille k 1 sont dans Lk1 (i.e., sont -frquents). Lors
de la phase 2, un parcours de la base de donnes est ralis pour calculer la frquence
des candidats. Ceux qui sont frquents sont stocks dans Lk (avec leurs frquences).
Dans la phase 3, on utilise les k-itemsets frquents pour calculer les k + 1-itemsets
candidats. generateapriori est une fonction dnie par : generate apriori (Lk ) =
{X Y |X, Y Lk et les k 1 premiers items de X et Y , pris dans lordre lexicographique sont identiques}. Cette fonction construit la collection des candidats de taille
k + 1 par fusion de deux itemsets frquents de taille k (lments de Lk ).
Exemple 4 Supposons qu lissue la phase 2 de litration 2 (k = 2) dA PRIORI,
on ait L2 = {AB, AC, AD, BC, CD}. La phase 3 donne la collection de candidats C3g =
{ABC, ABD, ACD} (BCD nest pas gnr car BD  L2 et donc BCD ne peut pas tre
frquent). A la phase 1 de litration 3, ltape dlagage donne C3 = {ABC, ACD}. En
effet, BD  L2 et donc ABD ne peut pas tre frquent.
On notera donc que lanti-monotonicit de la frquence est exploite dans cet algorithme au moment de la gnration de candidats (certains candidats qui ne peuvent
pas tre frquents ne sont pas gnrs par generateapriori ) et dans la phase ddie
llagage proprement dit. On peut prouver par induction sur k que A PRIORI est juste
et complet.

3. Extraction sous contraites

En gnral, le critre de slection x par lutilisateur nest pas quun critre de


frquence minimal. Dans la pratique des contraintes additionnelles sont utilises tels
que, e.g., dnir une taille minimale ou maximale des itemsets, forcer la prsence ou
labsence de tel ou tel item. Le principe des extractions sous contraintes est dviter
de raliser une extraction de tous les itemsets frquents suivi dun traitement de ltrage appliquant ces contraintes supplmentaires. On souhaite utiliser au plus tt les
diffrents critres de slection en vue de minimiser les ressources (temps, mmoire)
utilises par lextraction de la rponse.
Dnition 2 Contrainte Si T dsigne lensemble de toutes les bases de transactions
une contrainte C est un prdicat sur 2Items T . Un itemset S 2Items satisfait la
contrainte C sur la base de donnes r T ssi C(S, r) = vrai. Quand il ny a pas
dambiguit, nous crivons C(S). Etant donn I une collection de sous-ensembles de
Items, nous dnissons SAT C (I) = {S I, S satisfait C}, lensemble des lments
de I qui satisfont C, que nous noterons simplement SATC lorsque S est clair dans le
contexte.
Les travaux raliss dans le domaine de lextraction de motifs sous contraintes
(e.g., [SRI 97, NG 98, LAK 99, BOU 00e]) ont isol deux types de contraintes particulirement intressantes qui correspondent des slections utilises en pratique,

8
e

soumission Bilan du Groupe de Travail GaFoumm.

tout en permettant des optimisations importantes. Ces deux types sont les contraintes
qualies respectivement danti-monotones et de monotones. Ces contraintes peuvent
tre utilises de faon active pour laguer les espaces de recherche et mettre en place
des gnrations de candidats efcaces. Dautres proprits dont nous ne parlerons pas
dans cet article caractrisent, par exemple, les contraintes qui peuvent tre vries
sans ncessiter de couteux accs aux donnes.
Dnition 3 Contrainte anti-monotone Une contrainte ditemset anti-monotone C
est une contrainte telle que pour tous les itemsets S, S  : (S  S S satisfait C)
S  satisfait C.
On montre facilement que la disjonction ou la conjonction de contraintes antimonotones est anti-monotone.
Exemple 5 Soit Cfreq une contrainte qui impose aux itemsets dtre 3-frquents, une
contrainte de taille Csizemax dnie par Csizemax (S) |S| 2 et une contrainte de
non-prsence dun item particulier Cmiss dnie par Cmiss (S) B  S. Ces trois
contraintes sont anti-monotones.
Lanti-monotonicit de la contrainte Cfreq est bien exploite par A PRIORI. Le fait
que cet algorithme soit juste et complet signie que F S = SATCfreq (2Items ) .
Dnition 4 Contrainte monotone Une contrainte monotone est une contrainte C
telle que pour tous les itemsets S, S  : (S S  S satisfait C) S  satisfait C.
Une contrainte monotone est la ngation dune contrainte anti-monotone et lon
montre facilement que la conjonction ou la disjonction dune contrainte monotone est
encore monotone.
Exemple 6 Soit une contrainte de taille Csizemin dnie par Csizemin (S) |S| > 2
et une contrainte de typage Coneof dnie par Coneof (S) S {A, B, C} = . Ces
deux contraintes sont monotones.
Soit C une contrainte anti-monotone : si S ne satisfait pas C, tout sur-ensemble
de S ne satisfait pas C. Ainsi, dans lalgorithme A PRIORI, si lon remplace la ligne
8 par Lk := SATC (Ck ), il reste juste et complet. En dautres termes, A PRIORI peut
tre utilis pour lextraction ditemsets sous contraintes lorsque la contrainte est antimonotone.

Si C est la conjonction de deux contraintes anti-monotones Cam et Cam
. On peut se
demander si il est plus efcace (stratgie  ) dutiliser A PRIORI avec la contrainte


(pour valuer C(S), Cam (S) est valu et alors Cam
(S) si Cam (S) est
C = Cam Cam
vrai), ou (stratgie ) utiliser une stratgie generate and test, i.e., dabord gnrer

Reprsentations condenses et contraintes

1.
2.
3.
4.
5.
6.
7.
8.
9.


C1g := Items1 ; L0 = {}
k := 1
while Ck = do
Ck :=  


(Ckg , Lk1 )
Ck1 := SATCam (Ck )

(Ck1 )
Lk := SATCam
g
Ck+1 := generateapriori (Lk )
k := k + 1
od
k1
output i=0 Li

1.
2.
3.
4.
5.
6.
7.
8.


C1g := Items1 ; L0 = {}
k := 1
while Ck = do
Ck :=  


(Ckg , Lk1 )
Lk := SATCam (Ck1 )
g
:= generateapriori (Lk )
Ck+1
k := k + 1
od



output SATCam

k1
i=0

Li

Figure 2. Les algorithmes   et 



SATCam avec A PRIORI puis tester chaque S SATCam contre la contrainte Cam
(les
deux algorithmes sont prsents dans la gure 2).

Etant donn un algorithme A, dsignons par  A (C) la collection des itemsets


qui sont tests contre la contrainte C par A.
Theorme 7 Si  push correspond la stratgie   et  g&t correspond la


)  g&t (Cam
).
stratgie ,  push (Cam )  g&t (Cam ) et  push (Cam
Ce thorme tablit que   conduit moins de tests de contraintes que . En
dautres termes, il est toujours intressant de pousser des contraintes anti-monotones.
Si lexploitation active des contraintes anti-monotones reste assez simple comprendre, la situation est bien plus complexe dans le cas gnral. En dautres termes,
tant donn une contrainte arbitraire C, il nest pas possible de lutiliser dans A PRIORI
en remplaant simplement la ligne 8 avec Lk := SATC (Ck ). Ceci conduit en gnral
perdre la compltude dA PRIORI (voir exemple suivant). Effectivement, il y a deux
problmes : la phase de gnration des candidats et celle de llagage. Ltape de gnration (phase 3) doit tre complte, i.e., on ne veut rater aucun itemset satisfaisant C,
et aussi ltape dlagage (phase 1) doit tre juste, i.e., il ne faut laguer aucun itemset
qui satisfait la contrainte.
Exemple 8 Considrons la contrainte C(S) C S et remplaons la ligne 8 de
lalgorithme A PRIORI par Lk := SATC (Ck ). Litemset ABC devrait tre gnr par
generateapriori partir de AB et AC mais puisque C(AB) = f aux, ABC nest pas
gnr alors que C(ABC) = vrai. Considrons maintenant la contrainte C(S) A
S. Litemset ABC est alors correctement gnr par generateapriori partir de AB et
AC mais puisque C(BC) = f aux, ABC est incorrectement lagu alors que C(ABC) =
vrai.

10
e soumission Bilan du Groupe de Travail GaFoumm.

Nous prsentons dans la section suivante, un algorithme gnrique, pour rsoudre


ce problme lorsque C peut scrire sous la forme Cam Cm o Cam et Cm sont des
contraintes respectivement anti-monotones et monotones.

3.1. Un algorithme gnrique


Nous donnons ici lalgorithme gnrique introduit dans [BOU 00e] et dvelopp
dans [JEU 02b]. Il traite le treillis des itemsets par niveaux pour lextraction des itemsets satisfaisant la contrainte C = Cam Cm . Nous supposons que Cam et Cm sont respectivement des contraintes anti-monotones et monotones et que Cm = Ctrue (Ctrue
est la contrainte toujours vraie). Ceci est facile vrier puisque C m = Ctrue
Cm () = vrai. Cet algorithme exploite les procdures prunem et generatem qui
sont dcrites dans les sous-sections suivantes.
Algorithme 9 Algorithme gnrique
L0 =
C1g :=generatem (, 0)
k := 1
while Ckg = do
Phase 1 - lagage parmi les candidats de taille k
Ck := prunem (Ckg , Lk1 )
6.
Phase 2 - vrication des contraintes anti-monotones
Lk := SATCam (Ck )
7.
Phase 3 - gnration des candidats de niveau k+1
g
:= generatem (Lk , k)
Ck+1
8.
k := k + 1
9. od
k1
10. output i=1 Li
1.
2.
3.
4.
5.

Il faut noter quil ne sera pas ncessaire de vrier C m au cours de la phase 2 pour
sassurer de la correction de lalgorithme puisque la procdure de gnration assure
que tous les itemsets candidats vrient C m .
Theorme 10 Si Cam et Cm sont des contraintes respectivement anti-monotones et
monotones et si Cm nest pas la contrainte triviale, i.e., Cm nest pas toujours vraie,
lalgorithme gnrique 9 est juste et complet, i.e., il produit exactement SATC .
3.2. Procdure de gnration pour lalgorithme
Considrons une nouvelle procdure de gnration de candidats. Si Cam dsigne
une contrainte anti-monotone, notons Bd
Cam la collection de tous les itemsets mi-

Reprsentations condenses et contraintes

11

nimaux (vis--vis de linclusion ensembliste) qui ne satisfont pas Cam . Par exemple,
dans le cas de lalgorithme A PRIORI, on sait que  apriori (Cfreq ) = SATCfreq

Bd
quand

Cfreq [MAN 97a]. Nous utilisons ici la notation MCm pour dsigner BdCam

Cam est la contrainte anti-monotone ngation de la contrainte monotone Cm .
Soit generate1 (Lk ) = {A B, o A Lk et B est un 1-itemset} et soit ms =
Max SMCm |S|. La procdure de gnration generatem est ainsi dnie :
procedure generatem (L, k)
if k = 0 then return MCm Items1
elsif k < ms then return generate1 (L) (MCm Itemsk+1 )
elsif k = ms then return generate1 (L)
elsif k > ms then return generateapriori (L)

Theorme 11 La procdure generatem utilise dans lalgorithme 9 est complte et


chaque itemset candidat satisfait Cm .
Le fait que chaque itemset candidat satisfasse Cm rend inutile toute vrication de
cette contrainte aprs ltape de gnration des candidats.

3.3. Procdure dlagage sr pour lalgorithme


On considre maintenant un algorithme dlagage juste et complet.
procedure prunem (C, L)
C  := C
for all S C do for all S  S tel que |S  | = |S| 1
do if S   L et Cm (S  ) = vrai
then C  := C  \ S
od
od
return C 

Le thorme suivant tablit que cet algorithme est juste, i.e., quaucun itemset qui
satisfait C = Cam Cm nest lagu, et complet. Ici, la compltude de llagage signie
quil nest pas possible dlaguer davantage ditemsets sans altrer la compltude de
lalgorithme 9.
Theorme 12 Lalgorithme dlagage prunem est juste et complet lorsquil est utilis avec lalgorithme 9.

12
e soumission Bilan du Groupe de Travail GaFoumm.

Lalgorithme 9 peut tre considr comme une gnralisation de plusieurs algorithmes publis [SRI 97, GOE 99, NG 98]. Traiter des conjonctions de contraintes monotones et anti-monotones gnralise tous les cas de contraintes qui ont t pousses
au cur des algorithmes dextraction par niveaux (un autre type de contrainte, les
contraintes convertibles [PEI 01] peut tre pouss au cur des algorithmes travaillant
en profondeur dabord). Le cas des contraintes succinctes introduit dans [NG 98] est
un cas particulier de contrainte pour lesquelles des procdures de gnration de candidats trs performantes existent.

3.4. A propos de lefcacit de lalgorithme gnrique


Nous avons vu quil tait toujours intressant de pousser les contraintes antimonotones dans le sens o cela conduit moins de tests de contraintes. Cependant,
on pourrait vouloir pousser des contraintes monotones an dviter le test coteux de
certaines contraintes anti-monotones (e.g., la contrainte de frquence qui demande des
accs aux donnes). Une solution serait alors dexclure au plus tt certains candidats
ne satisfaisant pas les contraintes monotones.
Cependant, pousser les contraintes non anti-monotones conduit des lagages
moins efcaces. Llagage grce aux contraintes anti-monotones est bas sur le fait
que lorsquun itemset S ne satisfait pas une contrainte anti-monotone Cam , alors aucun sur-ensemble de S ne peut la satisfaire. Cependant, si S na pas t gnr parce
quil ne satisfait pas une contrainte non anti-monotone, alors Cam (S) est inconnu.
Dans ce cas, il nest pas possible dlaguer les sur-ensembles de S alors que Cam (S)
est faux.
Le compromis est donc que lorsquune contrainte monotone est pousse, cela peut
viter des tests de contraintes plus coteux (e.g., on vite des accs aux donnes) mais
on peut alors tre priv de certaines possibilits dlagages. Lexemple suivant montre
quune approche gnrer avant de tester les contraintes monotones peut tre plus
efcace.
Exemple 13 Soit la contrainte C(S) |S| 10 Cfreq (S), i.e., S doit contenir au
moins 10 items et S doit tre frquent. Si la contrainte monotone |S| 10 est pousse
jusque dans ltape de gnration de candidats, aucun candidat de taille infrieure
10 ne sera gnr. Tous les candidats de taille 10 doivent alors tre gnrs puis
leurs frquences doivent tre calcules lors dune lecture de la base de donnes (et
ventuellement poursuivre pour des itemsets de tailles suprieures). Si lon a au total
n items, puisquaucun lagage naura t ralis, on aura donc C10
n candidats pour la
premire phase de comptage des frquences. Ds que n sera grand, il sera clairement
impossible dnumrer ces candidats et donc, le problme sera intraitable quelque soit
le seuil de frquence. Dans ce cas, une approche gnrer et tester calculant tous
les itemsets frquents (pour ne nalement retenir que ceux dont la taille est suprieure
ou gale 10) demandera plusieurs passes de lectures sur les donnes mais pourra

Reprsentations condenses et contraintes

13

tre faisable grce aux lagages. On peut dailleurs, dans ce cas, prendre des seuils
de frquence plus levs pour assurer la faisabilit du calcul.
Pousser des contraintes monotones peut tre intressant mais lexemple ci-dessus
montre que ce nest pas toujours le cas. Cela a notamment t observ dans le cadre
de contraintes boolennes sur des itemsets [SRI 97] ainsi que dans le cas important
des contraintes par expressions rgulires sur des motifs squentiels [GAR 99].
Il ny a pas de rsultats thoriques sur ces questions. Dcider si il faut pousser une
contrainte monotone ou pas reste une question ouverte. En effet, de telles stratgies
sont souvent dpendantes des donnes, rendant donc le problme trs difcile.

4. Extraction de reprsentations condenses


Le concept de reprsentation condense est trs gnral (voir [MAN 96]). Dans
notre contexte particulier, disons que lon souhaite pouvoir calculer une reprsentation des itemsets frquents qui soit plus compacte que la collection elle-mme, qui
puisse tre extraite efcacement et partir de laquelle il soit possible de retrouver tous
les itemsets frquents et leurs frquences. Nous allons tout dabord prsenter le cas
remarquable de la reprsentation condense par les itemsets dits ferms.

4.1. Ensembles ferms


Si lapproche a ses racines dans les travaux parfois anciens sur les connexions
de Galois et les treillis de concepts, lextraction efcace des itemsets ferms frquents a t tudie plus particulirement luniversit Blaise Pascal (quipe de Lot
Lakhal, proposition de lalgorithme C LOSE [PAS 99]) puis dans diffrents groupes
de recherche. Ainsi, il existe aujourdhui plusieurs algorithmes efcaces pour lextraction de cette reprsentation, e.g., M IN -E X [BOU 00d, BYK 02, BOU 03], C LO SET [PEI 00], C HARM [ZAK 00], ou encore PASCAL [BAS 00]. Des dveloppements
techniques sur le calcul des itemsets ferms sont dailleurs donns dans un autre article
de ce recueil.
Ces algorithmes permettent des extractions dans des donnes denses et fortement
corrles pour des seuils de frquence auxquels les algorithmes de type A PRIORI ne
permettent pas de travailler.
Dnition 5 Fermetures et itemsets ferms La fermeture dun itemset S (dsigne
par (S)) est le sur-ensemble de S maximal (pour linclusion) qui a le
mme support que S. Un itemset ferm est un itemset qui est sa propre fermeture.
Nous utilisons pour nos exemples la base de transactions donne gure 1.

14
e soumission Bilan du Groupe de Travail GaFoumm.

Exemple 14 Dans les donnes de la gure 1, si le seuil de frquence est 2, tous les
itemsets sont frquents (i.e., on a 16 itemsets frquents). Les itemsets ferms frquents
sont , , , , et .
On note que lorsque la fermeture Y dun itemset X est un sur-ensemble strict
de X, cela signie que la rgle logique X Y \ X est satisfaite par toutes les
transactions. On peut exploiter la connaissance de telles rgles logiques pour infrer
des frquences ditemsets. Ainsi, tant donn un itemset S = X Y et une rgle
logique X Z, alors la frquence de X Y Z na pas tre compte puisque
cest la mme frquence que celle de S. On peut maintenant, tant donn un itemset
S, vouloir caractriser les itemsets dont les frquences peuvent tre dduites de celles
de S et des rgles logiques existantes : ce sont tous les itemsets sur-ensembles de
S qui ont la mme frquence que S, i.e., tous les itemsets T tels que S T
(S). Par suite, lorsque la frquence et la fermeture dun itemset S sont
connues1 , il nest plus ncessaire de compter la frquence de tous les itemsets T tels
que S T (S). On a ici un second critre dlagage sr de candidats,
en plus du critre dlagage sur la frquence.
Le calcul des frquences de tous les itemsets frquents partir de celles des itemsets ferms frquents se fait de la faon suivante :
Etant donn un itemset S,
Si S nest pas un sous-ensemble dun itemset ferm frquent, alors S nest pas
frquent,
Sinon S est frquent et F(S) = Max{F(X) | S X et X est un ferm}.
Exemple 15 Dans les donnes de la Figure 1, la frquence de  est donc celle de
lensemble ferm , soit 3.
On voit que le calcul de toutes les frquences des itemsets frquents ne demande
pas de nouvelles lectures des donnes.
La table 1 permet de comparer des extractions ditemsets frquents et ditemsets
frquents ferms. Deux jeux de donnes relles ont t utiliss. Le premier est un jeux
fourni par lANPE2 , et le second correspond des donnes de recensement (census
data c20d10k prpar lUniversit de Stanford3 ). Dans les deux cas, nous navons
retenu que les 10000 premiers enregistrements et pour chaque objet, un nombre limit
de variables (chaque variable ayant t encode pour donner environ 300 items). Le
jeux census contient par construction des donnes beaucoup plus fortement corrles
1. Il faut noter que le calcul de la fermeture dun itemset peut tre ralis efcacement pendant
lvaluation de sa frquence. Ainsi, lexcdent de calcul, mme dans le cas o tous les itemsets
sont leurs propres ferms (cas des donnes absolument pas corrles), reste petit.
2. LANPE est lAgence Nationale Pour lEmploi : le jeu utilis contient des donnes sur des
chomeurs du dpartement du Rhne en dcembre 1998.
3. ftp ://ftp2.cc.ukans.edu/pub/ippbr/census/pums/pums90ks.zip.

Reprsentations condenses et contraintes


APRIORI

Dataset/
ANPE/0.05
census/0.05
ANPE/0.1
census/0.1
ANPE/0.2
census/0.2

Temps (s)
1463.9
7377.6
254.5
2316.9
108.4
565.5

||F S ||
25 781
90 755
6 370
26 307
1 516
5 771

lectures BD
11
13
10
12
9
11

Temps (s)
69.2/6.2
61.7/25.8
25.5/1.1
34.6/6.0
11.8/0.2
18.0/1.1

C LOSE
||F C ||
11 125
10 513
2 798
4 041
638
1 064

15

lectures BD
9
9
8
9
7
9

Tableau 1. Comparaison de A PRIORI et de C LOSE [BOU 00a].


que le jeux ANPE. F S et F C dsignent respectivement la collection des itemsets frquents et celle des itemsets ferms -frquents. Les deux nombres qui apparaissent
pour le temps dextraction avec C LOSE dsignent respectivement le temps de calcul
des itemsets ferms frquents et le temps de rgnration de la collection des itemsets frquents (avec leurs frquences). On voit que, compar A PRIORI les temps
dextraction sont nettement amliors, notamment dans le cas des donnes fortement
corrles (census data) et pour des seuils de frquence petits. Enn, on note les progrs
raliss en termes de nombres de lectures sur les bases (colonne lectures BD).

4.2. Reprsentations condenses et -adquates


Nous avons prsent les intuitions de ce que sont les reprsentations condenses
des collections ditemsets frquents au travers de la notion ditemsets ferms. La
notion de reprsentation condense a t introduite dans [MAN 96] dans un cadre
plus gnral appel reprsentation -adquate. Intuitivement, une reprsentation adquate est une reprsentation qui peut tre substitue une autre an de rpondre
aux mmes requtes, plus efcacement, ventuellement au prix dune erreur borne
par le paramtre . Nous formalisons maintenant ces notions pour tudier dautres reprsentations condenses pour les requtes de frquence, i.e., des requtes fournissant
la frquence ditemsets.
Dnition 6 Collection des ensembles frquents On note F reqSup(r, ) lensemble
de toutes les paires constitues dun itemset -frquent dans r et de sa frquence, i.e.,
F reqSup(r, ) = {X, F(X, r) | X R and F(X, r) }.
Dnition 7 Reprsentation -adquate Soit S une classe de structures. Soit Q une
classe de requtes pour S. Considrons que la valeur dune requte Q Q sur la
structure s S soit un nombre de lintervalle [0, 1] not Q(s). Une reprsentation -adquate pour S par rapport Q, est une classe de structures C, une mise
en correspondance rep : S C et une fonction m : Q C [0, 1] telle que
Q Q, s S, |Q(s) m(Q, rep(s))| .

16
e soumission Bilan du Groupe de Travail GaFoumm.

Autrement dit, lorsque lon sintresse aux requtes de frquence, on cherche des
reprsentations telles que lerreur commise sur la frquence calcule sur rep(s) au
lieu de s soit au plus  quelque soit s.
Exemple 16 Soit la classe de structure DBR de toutes les bases transactionnelles
sur un ensemble ditems R. On considre QR la collection de toutes les requtes qui
retournent la frquence dun itemset R. Si lon note QX une requte de QR qui
demande la frquence de litemset X alors QR = {QX |X R} et la valeur de QX
sur linstance r DB R est dnie comme QX (r) = F(X, r)/|r|.
Un exemple de reprsentation -adquate pour DBR par rapport QR est la reprsentation de r DBR au moyen de F reqSup(r, ). Ses composantes rep, C et m
sont dnies comme suit. r DBR , rep(r) = F reqSup(r, ), C = {rep(r)|r
DB R }, QX QR , c C, si X,  rep(r) alors m(QX , c) = sinon
m(QX , c) = 0. Autrement dit, la frquence dun itemset X vaut F(X, r) quand
il est -frquent et 0 sinon. On vrie facilement que cest une reprsentation adquate pour DBR par rapport QR puisque QX QR , r DBR , |QX (r)
m(QX , rep(r))| .
En fait, F reqSup(r, ) est une reprsentation /2-adquate car il est possible
dapproximer la frquence de tout ensemble non frquent par /2 au lieu de 0.
Les reprsentations -adquates qui nous intressent sont celles qui ont une taille
plus petite que la taille des structures initiales et nous parlons alors de reprsentations condenses. Clairement, la collection des itemsets ferms -frquents et leurs
frquences est une reprsentation condense et /2-adquate. Il ny a pas de perte
dinformation par rapport celle des itemsets -frquents et leurs frquences, i.e.,
F reqSup(r, ).

4.3. Ensembles libres


La notion ditemset libre introduite dans [BOU 00d] a t propose indpendamment dans [BAS 00] sous le nom de motif cl. Le concept a merg des travaux visant
minimiser la collection des itemsets dont la frquence doit tre compte pour pouvoir
dduire la frquence des autres itemsets au moyen des rgles logiques (rgles dassociations ayant une conance de 1) satisfaites dans les donnes. Les rsultats prsents
dans cette section sont dvelopps dans [BOU 00a, BOU 00d, BOU 03] et [BYK 02].
Dnition 8 Itemset libre Un itemset S est libre sil nexiste pas de rgle logique
qui soit vrie entre ses sous-ensembles, i.e., il nexiste pas deux itemsets distincs
X, Y tels que S = X Y , Y = et X Y soit une rgle vrie par toutes les
transactions.
Exemple 17 Dans les donnes de la Figure 1, si le seuil de frquence est 2, les itemsets libres frquents sont , , , , et . Par exemple,  nest pas libre puisque

Reprsentations condenses et contraintes

17

A C est une rgle logique : chaque fois que  est prsent dans une transaction, 
lest galement.
Proposition 1 S est un itemset libre si et seulement si S nest pas inclus dans la
fermeture de lun de ses sous-ensembles stricts.
Cette proprit motive un algorithme efcace pour calculer tous les itemsets ferms/libres frquents. On peut avoir un algorithme par niveau de type A PRIORI. Au
niveau k, une passe est ralise sur les donnes an de calculer la frquence et les
fermetures des itemsets candidats. Les itemsets non frquents peuvent tre supprims.
Grce llagage (voir ci-aprs) qui a t ralis au niveau k-1, les itemsets frquents
sont des itemsets libres. Les candidats pour le niveau suivant peuvent tre gnrs avec
la mme procdure que A PRIORI ( partir de deux itemsets libres). Enn, les candidats dont lun des sous-ensembles est non frquent ou qui est inclus dans la fermeture
de lun de ses sous-ensembles (i.e., qui nest pas libre) sont lagus et litration suivante peut dbuter. Les notions densembles ferms et libres sont intimement lies :
les ferms sont les fermetures des libres.
La regnration de tous les itemsets frquents partir des itemsets libres nest
pas dtaille ici. Elle permet la regrration des itemsets frquents sans avoir besoin
daccder de nouveau aux donnes.
Exemple 18 Dans les donnes de la Figure 1, les libres 2-frquents tant , , , ,
et , la frquence de  est celle de lensemble libre , i.e., parmi les libres inclus
celui qui a la frquence minimale.

4.4. Ensembles -libres


Le concept ditemset -libre [BOU 00d, BOU 03] tend celui ditemset libre en
fournissant de nouvelles possibilits pour linfrence de frquences et donc davantage
dlagages. Cependant, cette efcacit est obtenue au dtriment de la prcision : les
frquences des itemsets frquents sont dsormais approximes avec une erreur borne.
Des algorithme comme C LOSE [PAS 99] ou PASCAL [BAS 00] exploitent lexistence de rgles logiques (sans exception) pour soustraire certains itemsets aux procdures de comptage de frquence puisque leurs frquences peuvent tre dduites de
celles des itemsets libres/ferms. Cependant, pour tre efcace, ce type dalgorithme
exige la prsence de telles rgles. Si elles sont absentes, les collections des itemsets
frquents et des itemsets libres frquents sont semblables et lalgorithme a un comportement semblable A PRIORI. Dans de nombreux jeux de donnes, notamment ceux
qui concernent les sciences de la vie, de telles rgles exactes sont rares.
Lalgorihme M IN -E X introduit dans [BOU 00a] et formalis dans [BOU 00d] exploite lexistence de rgles ayant un petit nombre dexceptions pour soustraire davantage ditemsets aux procdures de comptage. Etant donn un itemset S = X Y

18
e soumission Bilan du Groupe de Travail GaFoumm.

et une rgle Y Z avec moins de exceptions, on remarque que la frquence


de X Y Z peut tre approxime par celle de S. Lintuition est la suivante : si
A, B, C, D sont les items et que lon sait que la rgle A, B, C D est presque
logique (i.e., peu de transactions la violent), alors on peut approximer la frquence de
litemset {A, B, C, D} par celle de {A, B, C}. De plus, on peut approximer la frquence de nimporte quel itemset X tel que {A, B, C, D} X par celle de X \ {D}.
Plus formellement, M IN -E X considre une version tendue du concept de fermeture.
Dnition 9 -fermeture et itemsets -libres Soit un entier (< |r|) et S un itemset. La -fermeture de S,  (S) est Y le sur-ensemble maximal de S (par
rapport linclusion ensembliste) tel que pour chaque item  Y \ S, F(S {A})
F(S). Un itemset S est -libre si il nexiste pas de rgle logique avec ou moins de
exceptions (on parle de rgle -forte) entre ses sous-ensembles. On note F ree(r, )
lensemble de tous les itemsets -libres dans r. Si une rgle X Y est -forte, cela
veut dire que F(X) F(X Y ) .
Dans cette dnition, est suppos avoir une valeur petite (notamment devant la
taille de r). Ainsi, une rgle -forte est une rgle avec trs peu dexceptions et donc
une conance trs leve.
Exemple 19 Dans les donnes de la gure 1, avec le seuil de frquence 2 et = 1,
les itemsets 1-libres frquents sont , , et .  qui tait libre et 2-frquent nest pas
1-libre puisque la rgle B A nest viole que par une seule transaction. Ainsi, la
frquence de  pourra tre approxime partir de celle de  mais en faisant une
erreur.
Lorsque = 0, on a le mme oprateur de fermeture que pour C LOSE, i.e.,

0 = . Pour des valeurs de suprieures, on a des possibilits

dlagage supplmentaires (il y a moins ditemsets -libres) mais aussi des erreurs sur
les frquences des itemsets lorsquelles sont calcules partir de celles des itemsets
-libres.
La borne sur lerreur commise est donne par la proprit suivante.
Proposition 2 Soit S un itemset frquent. Soit F un itemset -libre tel que :
F(F ) = Min{F(X), X S et X est libre}.
Posons nS = F(S) et nF = F(F ), alors
nF nS nF (|S| |F |);
En divisant par n = |r| (nombre de lignes dans la base), on borne lerreur sur les
frquences relatives
F(S)
F(F )

F(F )

(|S| |F |).
n
n
n
n

Reprsentations condenses et contraintes

19

Les valeurs typiques pour vont de zro quelques centaines. Pour une base de
donnes de plusieurs dizaines de milliers de lignes, cela place lerreur en dessous de
quelques pourcents et les erreurs constates sont petites devant les bornes thoriques
[BOU 03].

4.5. Les ensembles -libres comme reprsentation -adquate


Une reprsentation -adquate pour les requtes de frquence peut tre obtenue
partir des ensembles -libres frquents et des plus petits ensembles -libres qui ne sont
pas frquents [BOU 03].
Dnition 10 Itemsets libres frquents Soit r une base sur R, lensemble des itemsets -frquents et -libres dans r est not F reqF ree(r, , ).
Dnition 11 Frontire ngative des ensembles -libres frquents Soit r une base
sur R, la frontire ngative de F reqF ree(r, , ) est note Bd (r, , ) et est gale
:
{X | X R, X  F reqF ree(r, , ) (Y X, Y F reqF ree(r, , ))}.
Informellement, la frontire ngative Bd (r, , ) est la collection des plus petits
itemsets qui ne sont pas -frquents et -libres. La technique dapproximation prsente dans [BOU 00d] nutilise quun sous-ensemble de cette frontire ngative, la
collection de tous ses ensembles -libres que lon note F reeBd (r, , ).
Nous avons besoin pour construire la reprsentation -adquate des ensembles libres et de leurs frquences. Les paires correspondantes sont dnies de la faon
suivante.
Dnition 12 F reqF reeSup(r, , ) est la collection des paires constitues dun itemset -libre -frquent et de sa frquence, i.e.,
F reqF reeSup(r, , ) = {X, F(X) | X F reqF ree(r, , )}.
On peut maintenant dnir une nouvelle reprsentation -adquate pour les requtes de frquence.
Dnition 13 La reprsentation des itemsets -libres -frquents pour des valeurs de
, et une classe de requte Q QR , est dnie par une classe de structures C, une
mise en correspondance rep et une fonction m, tel que : r DBR ,
rep(r) = F reqF reeSup(r, , ), F reeBd (r, , ),
C = {rep(r) | r DBR },

20
e soumission Bilan du Groupe de Travail GaFoumm.

QX Q, c C,
si Y F reeBd (r, , ), Y X
alors m(QX , c) = 0
sinon m(QX , c) = min({ | Z X, Z,  F reqF reeSup(r, , )}).
Autrement dit, en utilisant cette reprsentation, la frquence dun itemset X est
approxime de la faon suivante : si X a un sous-ensemble Y qui est -libre mais non
-frquent, alors on considre que la frquence de X est 0. Dans le cas contraire, sa
frquence est celle du plus grand sous-ensemble de X qui est -libre et -frquent,
i.e., celui qui a une frquence minimale.
Exemple 20 Dans les donnes de la gure 1, connaissant les itemsets 1-libres frquents , , et , la frquence de  pourra tre approxime partir de celle de 
mais en faisant une erreur dau plus 1. De mme, la frquence de  pourra tre
approxime partir de celle de . Dans ce cas lerreur sur la frquence sera borne
par 2 = 2.
On peut enn tablir que cette reprsentation est -adquate pour les classes de
bases de donnes et de requtes dnies ci-dessous.
Dnition 14 DB R,s = {r | r DBR et |r| s} est la collection des bases de
transactions qui nont pas plus de s lignes. QR,n = {QX | X R et |X| n} est la
collection des requtes de frquences sur des itemsets de taille au plus gale n.
Theorme 21
La reprsentation des itemsets -libres -frquents pour des valeurs de , et la classe
de requte QR,n est une reprsentation -adquate pour DBR,s par rapport QR,n
o  = max(, n/s).
Nous ne reprenons pas ici le dtail des validations exprimentales qui montrent
lintrt pratique de cette reprsentation, mais nous donnons toutefois des rsutats obtenus sur deux jeux de donnes de recensements utiliss souvent comme rfrence
pour lextraction densembles frquents dans des conditions difciles. Ces expriences
montrent la condensation importante ralise et la qualit intressante des approximations obtenues en pratique.
Le premier jeux est connu sous le nom de pumsb et a t pr-trait par les chercheurs dIBM Almaden. Les rsultats correspondants sont prsents dans la table 2 qui
permet de comparer lextraction des itemsets frquents avec celle des itemsets -libres
frquents pour diffrents seuils de frquence relative nots ici et diffrentes valeurs
de . Les collections F reqF ree(r, , ) sont clairement plus petites que les collections F reqSup(r, ) correspondantes. Pour les seuils de frquence de 15% et 20%
F reqSup(r, ) est si grande quil na pas t possible de la calculer sur nos machines,

Reprsentations condenses et contraintes

21

15%
20%
25%
30%

0
10
20
0
10
20
0
10
20
0
10
20

Max frequent free-set


12
11
10
12
10
9
11
9
9
10
9
8
size (MIN-EX DB scans)
909
806
324
743
232
887
253
107
105
615
76
413
78
220
36
310
27
137
26
972
14
631
11
079
|FreqFree(r, , )|
11 977 6 590 5 126 4 233 2 342 1 890 1 540
905
731
533
373
302
FreqFree(r, , )
extraction time (sec.)
Max frequent set size
35
32
18
16
(APRIORI DB scans)

|Freq(r, )|

>235

>232

2 064 946

432 699

Tableau 2. Comparaison des reprsentations pour des seuils varis [BOU 03].
itemset size
average abs. sup. error
average rel. sup. error

1
0
0

2
3
4
5
6
7
8
9
10
11
12
13
0.24
0.65
1.10
1.53
1.92
2.31
2.75
3.28
3.9
4.58
5.2
5.5
0.03% 0.07% 0.13% 0.18% 0.24% 0.31% 0.38% 0.47% 0.58% 0.71% 0.83% 0.88%

Tableau 3. Erreurs observes sur la frquence des itemsets -frquents [BOU 03].

alors que lextraction de F reqF ree(r, , ) restait faisable. Pour ces deux seuils de
15% et 20%, nous avons estim un borne infrieure de la taille de |F reqSup(r, )|.
Sur un second jeu de donnes (donnes pums du Kansas prtrait dans lquipe
de Lot Lakhal au LIMOS, rduit ses 10000 premires lignes et avec 317 items), on
donne maintenant les erreurs obtenues en pratique lorsque lon value la frquence des
itemsets -frquents laide de celles des itemsets -libres -frquents. Pour = 0.05
(500 lignes), il y a 90755 itemsets -frquents et le plus grand est de taille n = 13
items. Nous avons calcul la reprsentation condense F reqF reeSup(r, 0.05, 6) qui
ne contient plus que 4174 itemsets et leurs frquences.
Dans cette exprience, lerreur maximale thorique sur la frquence est n =
6 13 = 78 lignes. Lerreur maximale thorique sur la frquence relative est elle alors
de n/(N ) = 15.6% (N = 10000 lignes dans lexprience).
La frquence de chacun des 90755 itemsets -frquent a t approxime partir de
la reprsentation F reqF reeSup(r, 0.05, 6). On a pu ensuite comparer ces frquences
avec les valeurs exactes.
Lerreur maximale observe sur la frquence a t de 18 lignes et lerreur maximale
observe sur la frquence relative a t de 3.1%. Ces erreurs observes dans la pratique
sont donc bien infrieures la borne maximale de lerreur thorique, et sont tout fait
acceptable pour la plupart des applications. La moyenne de lerreur observe sur la
frquence a t de 2.12 lignes et la moyenne de lerreur observe sur la frquence
relative a t de 0.28%. La Table 3 montre que cette erreur reste trs petite mme pour
des itemsets -frquents de grande taille.
Dautres reprsentations condenses des motifs frquents viennent dtre tudies
comme les ensembles -libres [BYK 01, BYK 02] et les NDI [CAL 02]. Ce sont des

22
e soumission Bilan du Groupe de Travail GaFoumm.

reprsentations trs prometteuses qui gnralisent les itemsets libres et sont exactes
tout en tant davantage condenses.

5. Extraction de reprsentations condenses sous contraintes


On peut considrer lextraction des reprsentations condenses selon une instanciation de lalgorithme gnrique pour lextraction ditemsets sous contraintes qui a
t dcrit dans la section 3. Lintrt est de combiner les avantages des reprsentations
condenses avec ceux de lexploitation active des contraintes apparaissant dans la requte inductive. Pour cela, on introduit de nouvelles contraintes. Cette approche est
tudie de faon dtaille dans [JEU 02a].
Proposition 3 Les itemsets libres sont exactement les itemsets qui vrient la contrainte
suivante :
Cfree (S) (S  S |S  | = |S| 1) S  (S  ).
Proposition 4 La contrainte Cfree est anti-monotone.
On peut maintenant tester la contrainte Cfree sur S Lk+1 dans lalgorithme
gnrique dcrit dans la section 3 : pour chaque S  S tel que |S  | = |S| 1 il faut
connatre (S  ). La fermeture de chaque itemset candidat de taille k et sa
frquence peuvent tre calcules durant une passe sur les donnes au niveau k. Si la
fermeture de S  nest pas calcule, cela veut dire que S  ne vrie pas C freq Cfree (i.e.,
une contrainte anti-monotone) et donc S ne peut pas vrier C freq Cfree . Finalement,
soit la fermeture de S  est connue et lon peut vrier si S (S  ) soit
elle nest pas connue et cela signie que C freq (S) Cfree (S) est faux. Cette stratgie
qui utilise lanti-monotonicit de Cfree permet de tester la contrainte avec un surcot
faible pendant une lecture des donnes.
Maintenant, il semble facile de calculer les itemsets qui vrient une contrainte
C = Cfree Cam Cm en utilisant lalgorithme gnrique. Cependant, deux problmes
surviennent :
Le problme de la satisfaction des contraintes : du fait de Cm , les fermetures
de quelques candidats du niveau k ne sont pas calcules rendant donc impossible la
vrication de C free au niveau k + 1 (il nest plus possible de tester si un itemset de
taille k + 1 est compris dans la fermeture de lun de ses sous-ensembles de taille k).
Le problme de la rgnration : aprs le calcul des itemsets libres, il faut regnrer les itemsets qui vrient C am Cm . Cependant, la connaissance de tous les
itemsets libres qui vrient C am Cm nest pas sufsante cette n.
Pour rsoudre ces problmes, on peut extraire des itemsets libres contextuels en
remplacant Cfree par Cf reeCm (S) (S  S |S  | = |S| 1 Cm (S  )) S 
(S  ).

Reprsentations condenses et contraintes

23

Cette nouvelle contrainte permet de rsoudre le premier problme : nous navons


plus besoin des fermetures des itemsets qui ne satisfont pas Cm .
La proposition suivante montre que lon peut utiliser lalgorithme gnrique pour
calculer SATCf reeCm Cam Cm .
Proposition 5 La contrainte Cf reeCm est anti-monotone.
Le prochain thorme tablit que lensemble SATCam Cm peut tre calcul efcacement par la mme mthode que C LOSE en utilisant SATCf reeCm Cam Cm , i.e., le
problme de la rgnration est rsolu.
Theorme 22 Si S SATCam Cm alors S  SATCf reeCm Cam Cm tel que S 
S (S  ).
Cette approche peut tre tendue aux contraintes correspondants aux itemsets libres. En remplacant loprateur de fermeture dans la dnition de C free et Cf reeCm
par  , nous dnissons C F ree , CF reeCm . Ces contraintes sont antimonotones et nous avons le thorme suivant.
Theorme 23 Si S SATCam Cm alors S  SATCF reeCm Cam Cm et un entier
n tel que S  S n (S  ) et n |S| |S  |.
6. Conclusion
Nous avons prsent divers travaux de recherche pour le traitement des requtes inductives retournant des ensembles dattributs qui doivent satisfaire un critre de slection, i.e., une combinaison de contraintes primitives. Nous sommes particulirement
intresss par les critres impliquant une contrainte de frquence minimale, i.e., les
multiples applications des itemsets dit frquents. Ces concepts ont t appliqus avec
succs dans diffrents contextes applicatifs comme lextraction de rgles dassociation avec ngations [BOU 00c, BOU 00b], la dcouverte de rgles de caractrisation
ou de regroupements [ROB 02] ou encore lextraction
de classes [BOU 01a, CR02]
de rgles intressantes dans des donnes dexpressions de gnes [BEC 03].
Le concept de reprsentation condense a t prsent. Il est utile autant dans sa
dimension conceptuelle que dans sa dimension pratique puisque plusieurs tudes de
reprsentations condenses des motifs frquents ont clairement largi le champs dapplication des motifs frquents.
La recherche sur les stratgies de traitement actif de contraintes lors des extractions de reprsentations condenses doit se poursuivre. On sait notamment que si lon
pouvait valuer la slectivit des contraintes non anti-monotones, on aurait alors des
moyens doptimiser lordonnancement de la prise en compte des diffrentes contraintes.
Cest actuellement un problme largement ouvert.

24
e soumission Bilan du Groupe de Travail GaFoumm.

Remerciements
Les travaux prsents ici ont t partiellement nans par le contrat europen
cInQ IST-2000-26469 dans le cadre FET du programme IST.

7. Bibliographie
[AGR 93] AGRAWAL R., I MIELINSKI T., S WAMI A., Mining Association Rules between
Sets of Items in Large Databases , Proceedings of ACM SIGMOD Conference on Management of Data SIGMOD93, Washington, D.C., USA, mai 1993, ACM Press, p. 207216.
[AGR 94] AGRAWAL R., S RIKANT R., Fast Algorithms for Mining Association Rules in
Large Databases , Proceedings of the Twentieth International Conference on Very Large
Data Bases VLDB94, Morgan Kaufmann, septembre 1994, p. 487499.
[AGR 96] AGRAWAL R., M ANNILA H., S RIKANT R., T OIVONEN H., V ERKAMO A. I.,
Fast discovery of association rules , FAYYAD U. M., P IATETSKY-S HAPIRO G., S MYTH
P., U THURUSAMY R., Eds., Advances in Knowledge Discovery and Data Mining, p. 307
328, AAAI Press, 1996.
[BAS 00] BASTIDE Y., TAOUIL R., PASQUIER N., S TUMME G., L AKHAL L., Mining
frequent patterns with counting inference , SIGKDD Explorations, vol. 2, no 2, 2000,
p. 66 75.
[BEC 03] B ECQUET C., B LACHON S., J EUDY B., B OULICAUT J.-F., G ANDRILLON O.,
Strong association rule mining for large gene expression data analysis : a case study
on human SAGE data , Genome Biology, , 2003, Accepted for publication in November
2002.
[BOU 99] B OULICAUT J.-F., K LEMETTINEN M., M ANNILA H., Modeling KDD processes
within the Inductive Database Framework , Proceedings of the First International Conference on Data Warehousing and Knowledge Discovery DaWaK99, vol. 1676 de Lecture
Notes in Computer Science, Florence, I, septembre 1999, Springer-Verlag, p. 293302.
[BOU 00a] B OULICAUT J.-F., B YKOWSKI A., Frequent closures as a concise representation
for binary data mining , Proceedings of the Fourth Pacic-Asia Conference on Knowledge Discovery and Data Mining PAKDD00, vol. 1805 de Lecture Notes in Articial
Intelligence, Kyoto, JP, avril 2000, Springer-Verlag, p. 6273.
[BOU 00b] B OULICAUT J.-F., B YKOWSKI A., J EUDY B., Mining association rules with
negations , rapport no 2000-14, 2000, LISI, INSA Lyon, Bat. 501, F-69621 Villeurbanne,
France.
[BOU 00c] B OULICAUT J.-F., B YKOWSKI A., J EUDY B., Towards the tractable discovery
of association rules with negations , Proceedings of the Fourth International Conference
on Flexible Query Answering Systems FQAS00, Advances in Soft Computing series, Warsaw, PL, octobre 2000, Springer-Verlag, p. 425434.
[BOU 00d] B OULICAUT J.-F., B YKOWSKI A., R IGOTTI C., Approximation of frequency
queries by mean of free-sets , Proceedings of the Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases PKDD00, vol. 1910 de Lecture
Notes in Articial Intelligence, Lyon, F, septembre 2000, Springer-Verlag, p. 7585.
[BOU 00e] B OULICAUT J.-F., J EUDY B., Using constraint for itemset mining : should we
prune or not ? , Proceedings Bases de Donnes Avanes BDA00, Blois, F, octobre

Reprsentations condenses et contraintes

25

2000, p. 221237.
[BOU 01a] B OULICAUT J.-F., C RMILLEUX B., Delta-strong classication rules for predicting collagen diseases , Proceedings of the PKDD01 Discovery Challenge on Thrombosis
Data co-located with PKDD01, Freiburg, D, septembre 2001, p. 2938, Available on line.
[BOU 01b] B OULICAUT J.-F., J EUDY B., Mining free-sets under constraints , Proceedings of the International Database Engineering & Applications Symposium IDEAS01,
Grenoble, F, juillet 2001, IEEE Computer Society, p. 322329.
[BOU 03] B OULICAUT J.-F., B YKOWSKI A., R IGOTTI C., Free-sets : a condensed representation of boolean data for the approximation of frequency queries , Data Mining and
Knowledge Discovery journal, vol. 7, no 1, 2003, p. 5-22.
[BYK 01] B YKOWSKI A., R IGOTTI C., A condensed representation to nd frequent patterns , Proceedings of the ACM Symposium on Principles of Database Systems PODS01,
ACM Press, mai 2001, p. 267 273.
[BYK 02] B YKOWSKI A., Condensed representations of frequent sets : application to descriptive pattern discovery , PhD thesis, Institut National des Sciences Appliques de Lyon,
LISI, F-69621 Villeurbanne cedex, France, octobre 2002.
[CAL 02] C ALDERS T., G OETHALS B., Mining all non derivable frequent itemsets , Proceedings of the Sixth European Conference on Principles and Practice of Knowledge Discovery in Databases PKDD02, vol. 2431 de Lecture Notes in Articial Intelligence, Helsinki,
FIN, aot 2002, Springer-Verlag, p. 74-83.

[CR02]
C RMILLEUX B., B OULICAUT J.-F., Utilisation de rgles delta-fortes pour caractriser des classes , Actes du Treizime Congrs Francophone AFRIF-AFIA de Reconnaissance des Formes et Intelligence Articielle RFIA02, Angers, F, janvier 2002, p. 685694,
In French.
[GAR 99] G AROFALAKIS M. M., R ASTOGI R., S HIM K., SPIRIT : Sequential Pattern Mining with Regular Expression Constraints , Proceedings of the 25th International Conference on Very Large Data Bases VLDB99, Edinburgh, UK, septembre 1999, Morgan Kaufmann, p. 223 234.
[GOE 99] G OETHALS B., VAN DEN B USSCHE J., A priori versus a posteriori ltering of
association rules , Proceedings of the ACM SIGMOD Workshop on Research Issues in
Data Mining and Knowledge Discovery DMKD99, Philadelphia, USA, mai 1999.
[GUI 00] G UILLAUME S., Traitement des donnes volumineuses, mesures et algorithmes
dextraction de rgles dassociation et rgles ordinales , PhD thesis, Universit de Nantes,
IRIN, 2, Rue de la Houssinire - BP 92208, F-44322 Nantes Cedex 3, France, dcembre
2000.
[HUH 98] H UHTALA Y., K RKKINEN J., P ORKKA P., T OIVONEN H., Efcient Discovery
of Functional and Approximate Dependencies Using Partitions , Proceedings of the 14th
International Conference on Data Engineering ICDE98, Orlando, Florida, fvrier 1998,
IEEE Computer Society Press, p. 392401.
[JAE 96] JAEGER M., M ANNILA H., W EYDERT E., Data mining as selective theory extraction in probabilistic logic , Proceedings of the ACM SIGMOD96 Workshop on Data
Mining Workshop, DCS University of British Columbia TR 96-08, mai 1996, p. 4146.
[JEU 02a] J EUDY B., Extraction de motifs sous contraintes : application lvaluation de
requtes inductives , PhD thesis, Institut National des Sciences Appliques de Lyon, LISI,
F-69621 Villeurbanne cedex, France, dcembre 2002.

26
e soumission Bilan du Groupe de Travail GaFoumm.
[JEU 02b] J EUDY B., B OULICAUT J.-F., Optimization of association rule mining queries ,
Intelligent Data Analysis, IOS Press, vol. 6, no 5, 2002, To appear. 32 pages.
[LAK 99] L AKSHMANAN L. V., N G R., H AN J., PANG A., Optimization of Constrained
Frequent Set Queries with 2-variable Constraints , Proceedings of ACM SIGMOD Conference on Management of Data SIGMOD99, Philadelphia, USA, mai 1999, ACM Press,
p. 157168.
[MAN 96] M ANNILA H., T OIVONEN H., Multiple uses of frequent sets and condensed representations , Proceedings of the 2nd International Conference on Knowledge Discovery
and Data Mining KDD96, Portland, USA, aot 1996, AAAI Press, p. 189194.
[MAN 97a] M ANNILA H., T OIVONEN H., Levelwise search and borders of theories in
knowledge discovery , Data Mining and Knowledge Discovery journal, vol. 1, no 3,
1997, p. 241258.
[MAN 97b] M ANNILA H., T OIVONEN H., V ERKAMO A. I., Discovery of Frequent Episodes in Event Sequences , Data Mining and Knowledge Discovery journal, vol. 1, no 3,
1997, p. 259289.
[MAR 02] M ARCHI F. D., L OPES S., P ETIT J.-M., Efcient Algorithms for Mining Inclusion Dependencies , Proceedings of the 8th International Conference on Extending
Database Extending Database Technology EDBT02, vol. 2287 de Lecture Notes in Computer Science, Praha, CZ, mars 2002, Springer-Verlag, p. 464476.
[MIT 82] M ITCHELL T. M., Generalization as search , Articial Intelligence, vol. 18,
1982, p. 203226.
[NG 98] N G R., L AKSHMANAN L. V., H AN J., PANG A., Exploratory mining and pruning optimizations of constrained associations rules , Proceedings of ACM SIGMOD
Conference on Management of Data SIGMOD98, Seattle, USA, mai 1998, ACM Press,
p. 1324.
[NOV 01] N OVELLI N., C ICCHETTI R., FUN : An efcient Algorithm for Mining Functional and Embedded Dependencies , Proceedings of the 8th International Conference on
Database Theory ICDT01, vol. 1973 de Lecture Notes in Computer Science, London, UK,
janvier 2001, Springer-Verlag, p. 189203.
[PAS 99] PASQUIER N., BASTIDE Y., TAOUIL R., L AKHAL L., Efcient Mining of Association Rules Using Closed Itemset Lattices , Information Systems, vol. 24, no 1, 1999,
p. 2546.
[PEI 00] P EI J., H AN J., M AO R., CLOSET an efcient algorithm for mining frequent closed
itemsets , Proceedings of the ACM SIGMOD Workshop on Research Issues in Data Mining
and Knowledge Discovery DMKD00, Dallas, USA, mai 2000.
[PEI 01] P EI J., H AN J., L AKSHMANAN L. V. S., Mining Frequent Itemsets with Convertible Constraints , Proceedings of the 17th International Conference on Data Engineering
ICDE01, IEEE Computer Press, avril 2001.
[PIA 91] P IATETSKY-S HAPIRO G., Discovery, Analysis, and Presentation of Strong Rules ,
Knowledge Discovery in Databases, p. 229248, AAAI Press, 1991.
[ROB 02] ROBARDET C., C RMILLEUX B., B OULICAUT J.-F., Characterization of unsupervized clusters by means of the simplest association rules : an application for childs
meningitis , Proceedings of the 7th Workshop on Intelligent Data Analysis in Medicine
and Pharmacology IDAMAP02 co-located with ECAI02, Lyon, F, juillet 2002.

Reprsentations condenses et contraintes

27

[SRI 97] S RIKANT R., V U Q., AGRAWAL R., Mining association rules with item
constraints , Proceedings of the 3rd International Conference on Knowledge Discovery
and Data Mining KDD97, Newport Beach, USA, aot 1997, AAAI Press, p. 6773.
[ZAK 00] Z AKI M. J., Generating non-redundant association rules , Proceedings of the
6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
SIGKDD00, Boston, USA, aot 2000, AAAI Press, p. 34 43.

Вам также может понравиться