Академический Документы
Профессиональный Документы
Культура Документы
Nous prsentons un certain nombre de rsultats sur loptimisation de requtes inductives qui retournent des ensembles et leurs frquences dapparition dans de grandes bases
de donnes transactionnelles. Notre cadre formel concerne la recherche de reprsentations
condenses des ensembles frquents et le traitement actif des contraintes fournies par lanalyste.
Nous discutons dun algorithme gnrique optimisant lvaluation dune conjonction dune
contrainte anti-monotone et dune contrainte monotone. Plusieurs reprsentations condenss
des ensembles frquents sont tudies comme les ensembles ferms et les ensembles -libres.
Ceci permet des extractions de motifs frquents dans des contextes difciles comme les donnes denses et fortement corrles. Finalement, nous considrons brivement lextraction sous
contraintes de reprsentations condenses.
RSUM.
We consider several results on inductive query evaluation optimization, more precisely for queries that return itemsets and their frequencies in huge transactional databases.
Our formal framework concerns condensed representations of frequent itemsets and the active
use of the constraints dened by the analyst. We discuss a generic algorithm that optimizes
the evaluation given a conjunction of an anti-monotonic and a monotonic constraint. Several
condensed representations of the frequent itemsets are studied like the closed itemsets and the
-free itemsets. It enables the extraction of frequent itemsets in difcult contexts like dense and
highly-correlated data. Finally, we briey consider how to combine constraint-based extraction
with condensed representation mining.
ABSTRACT.
MOTS-CLS :
tives
KEYWORDS:
2
e
1. Introduction
Le problme du calcul des itemsets frquents dans de grandes bases de donnes
transactionnelles (jusqu des millions de transactions et des centaines ou milliers
ditems pouvant participer aux transactions) fait lobjet de recherches intensives depuis 1994. En effet, ce problme est au cur de la technique dextraction des rgles
dassociation frquentes et valides propose dans [AGR 93], une technique trs tudie du fait de son potentiel applicatif (analyse de donnes de ventes pour identier des
produits qui tendent tre achets ensembles, recherches de navigations frquentes
sur un site WWW, recherche de combinaisons de mots-cls frquentes dans un corpus
de documents, etc). Depuis lalgorithme A PRIORI dvelopp dans [AGR 96], de trs
nombreuses amliorations ont t proposes. Dans cet article, nous voulons contribuer
un effort de synthse sur deux voies majeures de dveloppement, lextraction ditemsets sous contraintes et ltude de reprsentations condenses des motifs frquents.
Lextraction ditemsets sous contraintes est motive par la prise en compte des
contraintes xes par lanalyste pour ne dlivrer que les itemsets qui les satisfont
(voir, e.g., [NG 98]). Lune des contraintes sera gnralement la contrainte de frquence minimale mais lon peut associer dautres critres dintrt comme, e.g., la
prsence ou labsence de certains items. La difcult rside dans lexploitation active
des contraintes fournies pour optimiser les parcours des espaces de recherche gigantesques tant donns les ordres de grandeur voqus : pour 1000 items, nous avons
environ 10300 itemsets possibles et dcompter les frquences dans des millions de
transactions peut tre trs couteux. Dans cet article, nous discutons dun algorithme
gnrique par niveaux pour traiter des conjonctions de contraintes anti-monotones et
monotones sur le domaine des itemsets.
Lextraction de reprsentations condenses des itemsets frquents est un domaine
dans lequel nous avons ralis des contributions pionnires. Il sagit de calculer efcacement des reprsentations plus compactes que celles de tous les itemsets frquents
(avec leurs frquences) tout en conservant la possibilit de retrouver ces informations,
ventuellement approximes. En partant des condensations par les ensembles dit ferms, nous avons considr dautres reprsentations condenses. Certaines sont exactes
cest--dire quil ny a pas de perte dinformation par rapport la collection de tous les
itemsets frquents tout en gagnant, presque toujours, sur les temps dextraction et sur
les tailles des reprsentations matrialiser. Dautres sont approximatives, cest--dire
que la frquence des itemsets frquents ne pourra tre quapproxime si lon ne veut
pas accder aux donnes. Nous prsentons ici les reprsentations bases ditemsets
ferms, libres et -libres.
Cet article de contient pas les dveloppements thoriques, les dtails sur les algorithmes, ou encore les nombreuses validations exprimentales qui ont dj t publies dans des articles en langue anglaise [BOU 00e, BOU 01b, JEU 02b, BOU 00d,
BOU 03]. Ces concepts sont dvelopps dans deux thses rcentes, [BYK 02] pour
ltude des reprsentations condenses et [JEU 02a] pour ltude de lextraction sous
contraintes.
4
e
t1
t2
t
r= 3
t4
t5
t6
ABCD
BC
AC
AC
ABCD
ABC
Itemset
A
B
AB
AC
CD
ACD
Support
{t1 , t3 , t4 , t5 , t6 }
{t1 , t2 , t5 , t6 }
{t1 , t5 , t6 }
{t1 , t3 , t4 , t5 , t6 }
{t1 , t5 }
{t1 , t5 }
Frquence relative
0.83
0.67
0.5
0.83
0.33
0.33
avoir une relation de spcialisation dite anti-monotone par rapport au critre q. Une
relation de spcialisation est anti-monotone par rapport q si pour tout r et , si
q(r, ) et alors q(, r). En dautres termes, si une phrase vrie q, alors
toutes les phrases les plus gnrales vrient q. Un algorithme par niveaux simple
mais efcace peut alors tre mis en uvre : on considre les phrases les plus gnrales
et lon value et gnre des phrases de plus en plus spciques. Lintrt est qualors,
puisque est anti-monotone, on peut viter dvaluer q sur les phrases pour lesquelles
on sait quune phrase plus gnrale ne satisfait pas q. Ce principe est prsent dans
lalgorithme 2.
Si lon reprend les notations de lexemple 1, dans le contexte de lextraction des
itemsets frquents, linclusion ensembliste est anti-monotone par rapport la proprit
tre frquent, i.e., le prdicat q1 . En effet, on montre facilement que tous les sousensembles dun ensemble -frquent sont -frquents. Linclusion ensembliste peut
donc tre choisie comme relation structurant la collection des itemsets an dutiliser
lalgorithme 2. Les phrases les plus gnrales sont alors les singletons et les phrases
les plus spciques sont les ensembles frquents maximaux (i.e., de taille maximale).
Ceux-ci sont atteints par lalgorithme 2 selon un parcours en largeur dabord du treillis
des sous-ensembles.
Algorithme 2 Algorithme gnrique [MAN 97a]. Etant donn une base r, un langage L et une relation de spcialisation anti-monotone par rapport au prdicat de
slection q, lalgorithme produit Th(L, r, q).
1.
2.
3.
4.
5.
6.
7.
8.
C1 := { L | L tel que } ;
i := 1 ;
while Ci = do
// Evaluation des candidats satisant q
Si := { Ci | q(, r) est vrai} ;
//Calcul des candidats de taille i+1
Ci+1 := { L | tel que on a ji Sj \ ji Cj } ;
i := i + 1 ;
od ;
output j<i Sj ;
6
e
L0 = {}
C1g := Items1 ;
k := 1
while Ckg = do
Phase 1 - Elaguage des candidats
Ck :=
(Ckg , Lk1 )
Phase 2 - Test de la frquence
Lk := SATCfreq (Ck )
Phase 3 - Gnration de candidats au niveau k+1
g
:= generateapriori (Lk )
Ck+1
k := k + 1
od
k1
F S := i=0 Li
output F S
A PRIORI est un algorithme par niveau sur le treillis des itemsets. Pendant la premire passe (avec k = 1), on calcule les 1-itemsets frquents et on gnre les 2itemsets candidats partir des 1-itemsets frquents. Dans la seconde passe (k = 2),
lalgorithme lague certains 2-itemsets candidats (ceux qui contiennent des 1-itemsets
non frquents), calcule leurs frquences pour ne retenir que ceux qui sont frquents
et enn gnre la collection des 3-itemsets candidats partir des 2-itemsets frquents.
Lexcution se poursuit selon le mme principe pour les itemsets de taille suprieure.
Ckg dsigne la collection des k-itemsets candidats, i.e., ceux qui peuvent tre frquents. Lk reprsente la collection ditemsets de taille k qui sont -frquents. La fonction
utilise lors de la phase 1, est dnie de la faon suivante :
(Ckg , Lk1 ) renvoie comme rsultat les k-itemsets de Ckg tels que
tous leurs sous-ensembles de taille k 1 sont dans Lk1 (i.e., sont -frquents). Lors
de la phase 2, un parcours de la base de donnes est ralis pour calculer la frquence
des candidats. Ceux qui sont frquents sont stocks dans Lk (avec leurs frquences).
Dans la phase 3, on utilise les k-itemsets frquents pour calculer les k + 1-itemsets
candidats. generateapriori est une fonction dnie par : generate apriori (Lk ) =
{X Y |X, Y Lk et les k 1 premiers items de X et Y , pris dans lordre lexicographique sont identiques}. Cette fonction construit la collection des candidats de taille
k + 1 par fusion de deux itemsets frquents de taille k (lments de Lk ).
Exemple 4 Supposons qu lissue la phase 2 de litration 2 (k = 2) dA PRIORI,
on ait L2 = {AB, AC, AD, BC, CD}. La phase 3 donne la collection de candidats C3g =
{ABC, ABD, ACD} (BCD nest pas gnr car BD L2 et donc BCD ne peut pas tre
frquent). A la phase 1 de litration 3, ltape dlagage donne C3 = {ABC, ACD}. En
effet, BD L2 et donc ABD ne peut pas tre frquent.
On notera donc que lanti-monotonicit de la frquence est exploite dans cet algorithme au moment de la gnration de candidats (certains candidats qui ne peuvent
pas tre frquents ne sont pas gnrs par generateapriori ) et dans la phase ddie
llagage proprement dit. On peut prouver par induction sur k que A PRIORI est juste
et complet.
8
e
tout en permettant des optimisations importantes. Ces deux types sont les contraintes
qualies respectivement danti-monotones et de monotones. Ces contraintes peuvent
tre utilises de faon active pour laguer les espaces de recherche et mettre en place
des gnrations de candidats efcaces. Dautres proprits dont nous ne parlerons pas
dans cet article caractrisent, par exemple, les contraintes qui peuvent tre vries
sans ncessiter de couteux accs aux donnes.
Dnition 3 Contrainte anti-monotone Une contrainte ditemset anti-monotone C
est une contrainte telle que pour tous les itemsets S, S : (S S S satisfait C)
S satisfait C.
On montre facilement que la disjonction ou la conjonction de contraintes antimonotones est anti-monotone.
Exemple 5 Soit Cfreq une contrainte qui impose aux itemsets dtre 3-frquents, une
contrainte de taille Csizemax dnie par Csizemax (S) |S| 2 et une contrainte de
non-prsence dun item particulier Cmiss dnie par Cmiss (S) B S. Ces trois
contraintes sont anti-monotones.
Lanti-monotonicit de la contrainte Cfreq est bien exploite par A PRIORI. Le fait
que cet algorithme soit juste et complet signie que F S = SATCfreq (2Items ) .
Dnition 4 Contrainte monotone Une contrainte monotone est une contrainte C
telle que pour tous les itemsets S, S : (S S S satisfait C) S satisfait C.
Une contrainte monotone est la ngation dune contrainte anti-monotone et lon
montre facilement que la conjonction ou la disjonction dune contrainte monotone est
encore monotone.
Exemple 6 Soit une contrainte de taille Csizemin dnie par Csizemin (S) |S| > 2
et une contrainte de typage Coneof dnie par Coneof (S) S {A, B, C} = . Ces
deux contraintes sont monotones.
Soit C une contrainte anti-monotone : si S ne satisfait pas C, tout sur-ensemble
de S ne satisfait pas C. Ainsi, dans lalgorithme A PRIORI, si lon remplace la ligne
8 par Lk := SATC (Ck ), il reste juste et complet. En dautres termes, A PRIORI peut
tre utilis pour lextraction ditemsets sous contraintes lorsque la contrainte est antimonotone.
Si C est la conjonction de deux contraintes anti-monotones Cam et Cam
. On peut se
demander si il est plus efcace (stratgie ) dutiliser A PRIORI avec la contrainte
(pour valuer C(S), Cam (S) est valu et alors Cam
(S) si Cam (S) est
C = Cam Cam
vrai), ou (stratgie ) utiliser une stratgie generate and test, i.e., dabord gnrer
1.
2.
3.
4.
5.
6.
7.
8.
9.
C1g := Items1 ; L0 = {}
k := 1
while Ck = do
Ck :=
(Ckg , Lk1 )
Ck1 := SATCam (Ck )
(Ck1 )
Lk := SATCam
g
Ck+1 := generateapriori (Lk )
k := k + 1
od
k1
output i=0 Li
1.
2.
3.
4.
5.
6.
7.
8.
C1g := Items1 ; L0 = {}
k := 1
while Ck = do
Ck :=
(Ckg , Lk1 )
Lk := SATCam (Ck1 )
g
:= generateapriori (Lk )
Ck+1
k := k + 1
od
output SATCam
k1
i=0
Li
10
e soumission Bilan du Groupe de Travail GaFoumm.
Il faut noter quil ne sera pas ncessaire de vrier C m au cours de la phase 2 pour
sassurer de la correction de lalgorithme puisque la procdure de gnration assure
que tous les itemsets candidats vrient C m .
Theorme 10 Si Cam et Cm sont des contraintes respectivement anti-monotones et
monotones et si Cm nest pas la contrainte triviale, i.e., Cm nest pas toujours vraie,
lalgorithme gnrique 9 est juste et complet, i.e., il produit exactement SATC .
3.2. Procdure de gnration pour lalgorithme
Considrons une nouvelle procdure de gnration de candidats. Si Cam dsigne
une contrainte anti-monotone, notons Bd
Cam la collection de tous les itemsets mi-
11
nimaux (vis--vis de linclusion ensembliste) qui ne satisfont pas Cam . Par exemple,
dans le cas de lalgorithme A PRIORI, on sait que apriori (Cfreq ) = SATCfreq
Bd
quand
Cfreq [MAN 97a]. Nous utilisons ici la notation MCm pour dsigner BdCam
Cam est la contrainte anti-monotone ngation de la contrainte monotone Cm .
Soit generate1 (Lk ) = {A B, o A Lk et B est un 1-itemset} et soit ms =
Max SMCm |S|. La procdure de gnration generatem est ainsi dnie :
procedure generatem (L, k)
if k = 0 then return MCm Items1
elsif k < ms then return generate1 (L) (MCm Itemsk+1 )
elsif k = ms then return generate1 (L)
elsif k > ms then return generateapriori (L)
Le thorme suivant tablit que cet algorithme est juste, i.e., quaucun itemset qui
satisfait C = Cam Cm nest lagu, et complet. Ici, la compltude de llagage signie
quil nest pas possible dlaguer davantage ditemsets sans altrer la compltude de
lalgorithme 9.
Theorme 12 Lalgorithme dlagage prunem est juste et complet lorsquil est utilis avec lalgorithme 9.
12
e soumission Bilan du Groupe de Travail GaFoumm.
Lalgorithme 9 peut tre considr comme une gnralisation de plusieurs algorithmes publis [SRI 97, GOE 99, NG 98]. Traiter des conjonctions de contraintes monotones et anti-monotones gnralise tous les cas de contraintes qui ont t pousses
au cur des algorithmes dextraction par niveaux (un autre type de contrainte, les
contraintes convertibles [PEI 01] peut tre pouss au cur des algorithmes travaillant
en profondeur dabord). Le cas des contraintes succinctes introduit dans [NG 98] est
un cas particulier de contrainte pour lesquelles des procdures de gnration de candidats trs performantes existent.
13
tre faisable grce aux lagages. On peut dailleurs, dans ce cas, prendre des seuils
de frquence plus levs pour assurer la faisabilit du calcul.
Pousser des contraintes monotones peut tre intressant mais lexemple ci-dessus
montre que ce nest pas toujours le cas. Cela a notamment t observ dans le cadre
de contraintes boolennes sur des itemsets [SRI 97] ainsi que dans le cas important
des contraintes par expressions rgulires sur des motifs squentiels [GAR 99].
Il ny a pas de rsultats thoriques sur ces questions. Dcider si il faut pousser une
contrainte monotone ou pas reste une question ouverte. En effet, de telles stratgies
sont souvent dpendantes des donnes, rendant donc le problme trs difcile.
14
e soumission Bilan du Groupe de Travail GaFoumm.
Exemple 14 Dans les donnes de la gure 1, si le seuil de frquence est 2, tous les
itemsets sont frquents (i.e., on a 16 itemsets frquents). Les itemsets ferms frquents
sont , , , , et .
On note que lorsque la fermeture Y dun itemset X est un sur-ensemble strict
de X, cela signie que la rgle logique X Y \ X est satisfaite par toutes les
transactions. On peut exploiter la connaissance de telles rgles logiques pour infrer
des frquences ditemsets. Ainsi, tant donn un itemset S = X Y et une rgle
logique X Z, alors la frquence de X Y Z na pas tre compte puisque
cest la mme frquence que celle de S. On peut maintenant, tant donn un itemset
S, vouloir caractriser les itemsets dont les frquences peuvent tre dduites de celles
de S et des rgles logiques existantes : ce sont tous les itemsets sur-ensembles de
S qui ont la mme frquence que S, i.e., tous les itemsets T tels que S T
(S). Par suite, lorsque la frquence et la fermeture dun itemset S sont
connues1 , il nest plus ncessaire de compter la frquence de tous les itemsets T tels
que S T (S). On a ici un second critre dlagage sr de candidats,
en plus du critre dlagage sur la frquence.
Le calcul des frquences de tous les itemsets frquents partir de celles des itemsets ferms frquents se fait de la faon suivante :
Etant donn un itemset S,
Si S nest pas un sous-ensemble dun itemset ferm frquent, alors S nest pas
frquent,
Sinon S est frquent et F(S) = Max{F(X) | S X et X est un ferm}.
Exemple 15 Dans les donnes de la Figure 1, la frquence de est donc celle de
lensemble ferm , soit 3.
On voit que le calcul de toutes les frquences des itemsets frquents ne demande
pas de nouvelles lectures des donnes.
La table 1 permet de comparer des extractions ditemsets frquents et ditemsets
frquents ferms. Deux jeux de donnes relles ont t utiliss. Le premier est un jeux
fourni par lANPE2 , et le second correspond des donnes de recensement (census
data c20d10k prpar lUniversit de Stanford3 ). Dans les deux cas, nous navons
retenu que les 10000 premiers enregistrements et pour chaque objet, un nombre limit
de variables (chaque variable ayant t encode pour donner environ 300 items). Le
jeux census contient par construction des donnes beaucoup plus fortement corrles
1. Il faut noter que le calcul de la fermeture dun itemset peut tre ralis efcacement pendant
lvaluation de sa frquence. Ainsi, lexcdent de calcul, mme dans le cas o tous les itemsets
sont leurs propres ferms (cas des donnes absolument pas corrles), reste petit.
2. LANPE est lAgence Nationale Pour lEmploi : le jeu utilis contient des donnes sur des
chomeurs du dpartement du Rhne en dcembre 1998.
3. ftp ://ftp2.cc.ukans.edu/pub/ippbr/census/pums/pums90ks.zip.
Dataset/
ANPE/0.05
census/0.05
ANPE/0.1
census/0.1
ANPE/0.2
census/0.2
Temps (s)
1463.9
7377.6
254.5
2316.9
108.4
565.5
||F S ||
25 781
90 755
6 370
26 307
1 516
5 771
lectures BD
11
13
10
12
9
11
Temps (s)
69.2/6.2
61.7/25.8
25.5/1.1
34.6/6.0
11.8/0.2
18.0/1.1
C LOSE
||F C ||
11 125
10 513
2 798
4 041
638
1 064
15
lectures BD
9
9
8
9
7
9
16
e soumission Bilan du Groupe de Travail GaFoumm.
Autrement dit, lorsque lon sintresse aux requtes de frquence, on cherche des
reprsentations telles que lerreur commise sur la frquence calcule sur rep(s) au
lieu de s soit au plus quelque soit s.
Exemple 16 Soit la classe de structure DBR de toutes les bases transactionnelles
sur un ensemble ditems R. On considre QR la collection de toutes les requtes qui
retournent la frquence dun itemset R. Si lon note QX une requte de QR qui
demande la frquence de litemset X alors QR = {QX |X R} et la valeur de QX
sur linstance r DB R est dnie comme QX (r) = F(X, r)/|r|.
Un exemple de reprsentation -adquate pour DBR par rapport QR est la reprsentation de r DBR au moyen de F reqSup(r, ). Ses composantes rep, C et m
sont dnies comme suit. r DBR , rep(r) = F reqSup(r, ), C = {rep(r)|r
DB R }, QX QR , c C, si X, rep(r) alors m(QX , c) = sinon
m(QX , c) = 0. Autrement dit, la frquence dun itemset X vaut F(X, r) quand
il est -frquent et 0 sinon. On vrie facilement que cest une reprsentation adquate pour DBR par rapport QR puisque QX QR , r DBR , |QX (r)
m(QX , rep(r))| .
En fait, F reqSup(r, ) est une reprsentation /2-adquate car il est possible
dapproximer la frquence de tout ensemble non frquent par /2 au lieu de 0.
Les reprsentations -adquates qui nous intressent sont celles qui ont une taille
plus petite que la taille des structures initiales et nous parlons alors de reprsentations condenses. Clairement, la collection des itemsets ferms -frquents et leurs
frquences est une reprsentation condense et /2-adquate. Il ny a pas de perte
dinformation par rapport celle des itemsets -frquents et leurs frquences, i.e.,
F reqSup(r, ).
17
A C est une rgle logique : chaque fois que est prsent dans une transaction,
lest galement.
Proposition 1 S est un itemset libre si et seulement si S nest pas inclus dans la
fermeture de lun de ses sous-ensembles stricts.
Cette proprit motive un algorithme efcace pour calculer tous les itemsets ferms/libres frquents. On peut avoir un algorithme par niveau de type A PRIORI. Au
niveau k, une passe est ralise sur les donnes an de calculer la frquence et les
fermetures des itemsets candidats. Les itemsets non frquents peuvent tre supprims.
Grce llagage (voir ci-aprs) qui a t ralis au niveau k-1, les itemsets frquents
sont des itemsets libres. Les candidats pour le niveau suivant peuvent tre gnrs avec
la mme procdure que A PRIORI ( partir de deux itemsets libres). Enn, les candidats dont lun des sous-ensembles est non frquent ou qui est inclus dans la fermeture
de lun de ses sous-ensembles (i.e., qui nest pas libre) sont lagus et litration suivante peut dbuter. Les notions densembles ferms et libres sont intimement lies :
les ferms sont les fermetures des libres.
La regnration de tous les itemsets frquents partir des itemsets libres nest
pas dtaille ici. Elle permet la regrration des itemsets frquents sans avoir besoin
daccder de nouveau aux donnes.
Exemple 18 Dans les donnes de la Figure 1, les libres 2-frquents tant , , , ,
et , la frquence de est celle de lensemble libre , i.e., parmi les libres inclus
celui qui a la frquence minimale.
18
e soumission Bilan du Groupe de Travail GaFoumm.
dlagage supplmentaires (il y a moins ditemsets -libres) mais aussi des erreurs sur
les frquences des itemsets lorsquelles sont calcules partir de celles des itemsets
-libres.
La borne sur lerreur commise est donne par la proprit suivante.
Proposition 2 Soit S un itemset frquent. Soit F un itemset -libre tel que :
F(F ) = Min{F(X), X S et X est libre}.
Posons nS = F(S) et nF = F(F ), alors
nF nS nF (|S| |F |);
En divisant par n = |r| (nombre de lignes dans la base), on borne lerreur sur les
frquences relatives
F(S)
F(F )
F(F )
(|S| |F |).
n
n
n
n
19
Les valeurs typiques pour vont de zro quelques centaines. Pour une base de
donnes de plusieurs dizaines de milliers de lignes, cela place lerreur en dessous de
quelques pourcents et les erreurs constates sont petites devant les bornes thoriques
[BOU 03].
20
e soumission Bilan du Groupe de Travail GaFoumm.
QX Q, c C,
si Y F reeBd (r, , ), Y X
alors m(QX , c) = 0
sinon m(QX , c) = min({ | Z X, Z, F reqF reeSup(r, , )}).
Autrement dit, en utilisant cette reprsentation, la frquence dun itemset X est
approxime de la faon suivante : si X a un sous-ensemble Y qui est -libre mais non
-frquent, alors on considre que la frquence de X est 0. Dans le cas contraire, sa
frquence est celle du plus grand sous-ensemble de X qui est -libre et -frquent,
i.e., celui qui a une frquence minimale.
Exemple 20 Dans les donnes de la gure 1, connaissant les itemsets 1-libres frquents , , et , la frquence de pourra tre approxime partir de celle de
mais en faisant une erreur dau plus 1. De mme, la frquence de pourra tre
approxime partir de celle de . Dans ce cas lerreur sur la frquence sera borne
par 2 = 2.
On peut enn tablir que cette reprsentation est -adquate pour les classes de
bases de donnes et de requtes dnies ci-dessous.
Dnition 14 DB R,s = {r | r DBR et |r| s} est la collection des bases de
transactions qui nont pas plus de s lignes. QR,n = {QX | X R et |X| n} est la
collection des requtes de frquences sur des itemsets de taille au plus gale n.
Theorme 21
La reprsentation des itemsets -libres -frquents pour des valeurs de , et la classe
de requte QR,n est une reprsentation -adquate pour DBR,s par rapport QR,n
o = max(, n/s).
Nous ne reprenons pas ici le dtail des validations exprimentales qui montrent
lintrt pratique de cette reprsentation, mais nous donnons toutefois des rsutats obtenus sur deux jeux de donnes de recensements utiliss souvent comme rfrence
pour lextraction densembles frquents dans des conditions difciles. Ces expriences
montrent la condensation importante ralise et la qualit intressante des approximations obtenues en pratique.
Le premier jeux est connu sous le nom de pumsb et a t pr-trait par les chercheurs dIBM Almaden. Les rsultats correspondants sont prsents dans la table 2 qui
permet de comparer lextraction des itemsets frquents avec celle des itemsets -libres
frquents pour diffrents seuils de frquence relative nots ici et diffrentes valeurs
de . Les collections F reqF ree(r, , ) sont clairement plus petites que les collections F reqSup(r, ) correspondantes. Pour les seuils de frquence de 15% et 20%
F reqSup(r, ) est si grande quil na pas t possible de la calculer sur nos machines,
21
15%
20%
25%
30%
0
10
20
0
10
20
0
10
20
0
10
20
|Freq(r, )|
>235
>232
2 064 946
432 699
Tableau 2. Comparaison des reprsentations pour des seuils varis [BOU 03].
itemset size
average abs. sup. error
average rel. sup. error
1
0
0
2
3
4
5
6
7
8
9
10
11
12
13
0.24
0.65
1.10
1.53
1.92
2.31
2.75
3.28
3.9
4.58
5.2
5.5
0.03% 0.07% 0.13% 0.18% 0.24% 0.31% 0.38% 0.47% 0.58% 0.71% 0.83% 0.88%
Tableau 3. Erreurs observes sur la frquence des itemsets -frquents [BOU 03].
alors que lextraction de F reqF ree(r, , ) restait faisable. Pour ces deux seuils de
15% et 20%, nous avons estim un borne infrieure de la taille de |F reqSup(r, )|.
Sur un second jeu de donnes (donnes pums du Kansas prtrait dans lquipe
de Lot Lakhal au LIMOS, rduit ses 10000 premires lignes et avec 317 items), on
donne maintenant les erreurs obtenues en pratique lorsque lon value la frquence des
itemsets -frquents laide de celles des itemsets -libres -frquents. Pour = 0.05
(500 lignes), il y a 90755 itemsets -frquents et le plus grand est de taille n = 13
items. Nous avons calcul la reprsentation condense F reqF reeSup(r, 0.05, 6) qui
ne contient plus que 4174 itemsets et leurs frquences.
Dans cette exprience, lerreur maximale thorique sur la frquence est n =
6 13 = 78 lignes. Lerreur maximale thorique sur la frquence relative est elle alors
de n/(N ) = 15.6% (N = 10000 lignes dans lexprience).
La frquence de chacun des 90755 itemsets -frquent a t approxime partir de
la reprsentation F reqF reeSup(r, 0.05, 6). On a pu ensuite comparer ces frquences
avec les valeurs exactes.
Lerreur maximale observe sur la frquence a t de 18 lignes et lerreur maximale
observe sur la frquence relative a t de 3.1%. Ces erreurs observes dans la pratique
sont donc bien infrieures la borne maximale de lerreur thorique, et sont tout fait
acceptable pour la plupart des applications. La moyenne de lerreur observe sur la
frquence a t de 2.12 lignes et la moyenne de lerreur observe sur la frquence
relative a t de 0.28%. La Table 3 montre que cette erreur reste trs petite mme pour
des itemsets -frquents de grande taille.
Dautres reprsentations condenses des motifs frquents viennent dtre tudies
comme les ensembles -libres [BYK 01, BYK 02] et les NDI [CAL 02]. Ce sont des
22
e soumission Bilan du Groupe de Travail GaFoumm.
reprsentations trs prometteuses qui gnralisent les itemsets libres et sont exactes
tout en tant davantage condenses.
23
24
e soumission Bilan du Groupe de Travail GaFoumm.
Remerciements
Les travaux prsents ici ont t partiellement nans par le contrat europen
cInQ IST-2000-26469 dans le cadre FET du programme IST.
7. Bibliographie
[AGR 93] AGRAWAL R., I MIELINSKI T., S WAMI A., Mining Association Rules between
Sets of Items in Large Databases , Proceedings of ACM SIGMOD Conference on Management of Data SIGMOD93, Washington, D.C., USA, mai 1993, ACM Press, p. 207216.
[AGR 94] AGRAWAL R., S RIKANT R., Fast Algorithms for Mining Association Rules in
Large Databases , Proceedings of the Twentieth International Conference on Very Large
Data Bases VLDB94, Morgan Kaufmann, septembre 1994, p. 487499.
[AGR 96] AGRAWAL R., M ANNILA H., S RIKANT R., T OIVONEN H., V ERKAMO A. I.,
Fast discovery of association rules , FAYYAD U. M., P IATETSKY-S HAPIRO G., S MYTH
P., U THURUSAMY R., Eds., Advances in Knowledge Discovery and Data Mining, p. 307
328, AAAI Press, 1996.
[BAS 00] BASTIDE Y., TAOUIL R., PASQUIER N., S TUMME G., L AKHAL L., Mining
frequent patterns with counting inference , SIGKDD Explorations, vol. 2, no 2, 2000,
p. 66 75.
[BEC 03] B ECQUET C., B LACHON S., J EUDY B., B OULICAUT J.-F., G ANDRILLON O.,
Strong association rule mining for large gene expression data analysis : a case study
on human SAGE data , Genome Biology, , 2003, Accepted for publication in November
2002.
[BOU 99] B OULICAUT J.-F., K LEMETTINEN M., M ANNILA H., Modeling KDD processes
within the Inductive Database Framework , Proceedings of the First International Conference on Data Warehousing and Knowledge Discovery DaWaK99, vol. 1676 de Lecture
Notes in Computer Science, Florence, I, septembre 1999, Springer-Verlag, p. 293302.
[BOU 00a] B OULICAUT J.-F., B YKOWSKI A., Frequent closures as a concise representation
for binary data mining , Proceedings of the Fourth Pacic-Asia Conference on Knowledge Discovery and Data Mining PAKDD00, vol. 1805 de Lecture Notes in Articial
Intelligence, Kyoto, JP, avril 2000, Springer-Verlag, p. 6273.
[BOU 00b] B OULICAUT J.-F., B YKOWSKI A., J EUDY B., Mining association rules with
negations , rapport no 2000-14, 2000, LISI, INSA Lyon, Bat. 501, F-69621 Villeurbanne,
France.
[BOU 00c] B OULICAUT J.-F., B YKOWSKI A., J EUDY B., Towards the tractable discovery
of association rules with negations , Proceedings of the Fourth International Conference
on Flexible Query Answering Systems FQAS00, Advances in Soft Computing series, Warsaw, PL, octobre 2000, Springer-Verlag, p. 425434.
[BOU 00d] B OULICAUT J.-F., B YKOWSKI A., R IGOTTI C., Approximation of frequency
queries by mean of free-sets , Proceedings of the Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases PKDD00, vol. 1910 de Lecture
Notes in Articial Intelligence, Lyon, F, septembre 2000, Springer-Verlag, p. 7585.
[BOU 00e] B OULICAUT J.-F., J EUDY B., Using constraint for itemset mining : should we
prune or not ? , Proceedings Bases de Donnes Avanes BDA00, Blois, F, octobre
25
2000, p. 221237.
[BOU 01a] B OULICAUT J.-F., C RMILLEUX B., Delta-strong classication rules for predicting collagen diseases , Proceedings of the PKDD01 Discovery Challenge on Thrombosis
Data co-located with PKDD01, Freiburg, D, septembre 2001, p. 2938, Available on line.
[BOU 01b] B OULICAUT J.-F., J EUDY B., Mining free-sets under constraints , Proceedings of the International Database Engineering & Applications Symposium IDEAS01,
Grenoble, F, juillet 2001, IEEE Computer Society, p. 322329.
[BOU 03] B OULICAUT J.-F., B YKOWSKI A., R IGOTTI C., Free-sets : a condensed representation of boolean data for the approximation of frequency queries , Data Mining and
Knowledge Discovery journal, vol. 7, no 1, 2003, p. 5-22.
[BYK 01] B YKOWSKI A., R IGOTTI C., A condensed representation to nd frequent patterns , Proceedings of the ACM Symposium on Principles of Database Systems PODS01,
ACM Press, mai 2001, p. 267 273.
[BYK 02] B YKOWSKI A., Condensed representations of frequent sets : application to descriptive pattern discovery , PhD thesis, Institut National des Sciences Appliques de Lyon,
LISI, F-69621 Villeurbanne cedex, France, octobre 2002.
[CAL 02] C ALDERS T., G OETHALS B., Mining all non derivable frequent itemsets , Proceedings of the Sixth European Conference on Principles and Practice of Knowledge Discovery in Databases PKDD02, vol. 2431 de Lecture Notes in Articial Intelligence, Helsinki,
FIN, aot 2002, Springer-Verlag, p. 74-83.
[CR02]
C RMILLEUX B., B OULICAUT J.-F., Utilisation de rgles delta-fortes pour caractriser des classes , Actes du Treizime Congrs Francophone AFRIF-AFIA de Reconnaissance des Formes et Intelligence Articielle RFIA02, Angers, F, janvier 2002, p. 685694,
In French.
[GAR 99] G AROFALAKIS M. M., R ASTOGI R., S HIM K., SPIRIT : Sequential Pattern Mining with Regular Expression Constraints , Proceedings of the 25th International Conference on Very Large Data Bases VLDB99, Edinburgh, UK, septembre 1999, Morgan Kaufmann, p. 223 234.
[GOE 99] G OETHALS B., VAN DEN B USSCHE J., A priori versus a posteriori ltering of
association rules , Proceedings of the ACM SIGMOD Workshop on Research Issues in
Data Mining and Knowledge Discovery DMKD99, Philadelphia, USA, mai 1999.
[GUI 00] G UILLAUME S., Traitement des donnes volumineuses, mesures et algorithmes
dextraction de rgles dassociation et rgles ordinales , PhD thesis, Universit de Nantes,
IRIN, 2, Rue de la Houssinire - BP 92208, F-44322 Nantes Cedex 3, France, dcembre
2000.
[HUH 98] H UHTALA Y., K RKKINEN J., P ORKKA P., T OIVONEN H., Efcient Discovery
of Functional and Approximate Dependencies Using Partitions , Proceedings of the 14th
International Conference on Data Engineering ICDE98, Orlando, Florida, fvrier 1998,
IEEE Computer Society Press, p. 392401.
[JAE 96] JAEGER M., M ANNILA H., W EYDERT E., Data mining as selective theory extraction in probabilistic logic , Proceedings of the ACM SIGMOD96 Workshop on Data
Mining Workshop, DCS University of British Columbia TR 96-08, mai 1996, p. 4146.
[JEU 02a] J EUDY B., Extraction de motifs sous contraintes : application lvaluation de
requtes inductives , PhD thesis, Institut National des Sciences Appliques de Lyon, LISI,
F-69621 Villeurbanne cedex, France, dcembre 2002.
26
e soumission Bilan du Groupe de Travail GaFoumm.
[JEU 02b] J EUDY B., B OULICAUT J.-F., Optimization of association rule mining queries ,
Intelligent Data Analysis, IOS Press, vol. 6, no 5, 2002, To appear. 32 pages.
[LAK 99] L AKSHMANAN L. V., N G R., H AN J., PANG A., Optimization of Constrained
Frequent Set Queries with 2-variable Constraints , Proceedings of ACM SIGMOD Conference on Management of Data SIGMOD99, Philadelphia, USA, mai 1999, ACM Press,
p. 157168.
[MAN 96] M ANNILA H., T OIVONEN H., Multiple uses of frequent sets and condensed representations , Proceedings of the 2nd International Conference on Knowledge Discovery
and Data Mining KDD96, Portland, USA, aot 1996, AAAI Press, p. 189194.
[MAN 97a] M ANNILA H., T OIVONEN H., Levelwise search and borders of theories in
knowledge discovery , Data Mining and Knowledge Discovery journal, vol. 1, no 3,
1997, p. 241258.
[MAN 97b] M ANNILA H., T OIVONEN H., V ERKAMO A. I., Discovery of Frequent Episodes in Event Sequences , Data Mining and Knowledge Discovery journal, vol. 1, no 3,
1997, p. 259289.
[MAR 02] M ARCHI F. D., L OPES S., P ETIT J.-M., Efcient Algorithms for Mining Inclusion Dependencies , Proceedings of the 8th International Conference on Extending
Database Extending Database Technology EDBT02, vol. 2287 de Lecture Notes in Computer Science, Praha, CZ, mars 2002, Springer-Verlag, p. 464476.
[MIT 82] M ITCHELL T. M., Generalization as search , Articial Intelligence, vol. 18,
1982, p. 203226.
[NG 98] N G R., L AKSHMANAN L. V., H AN J., PANG A., Exploratory mining and pruning optimizations of constrained associations rules , Proceedings of ACM SIGMOD
Conference on Management of Data SIGMOD98, Seattle, USA, mai 1998, ACM Press,
p. 1324.
[NOV 01] N OVELLI N., C ICCHETTI R., FUN : An efcient Algorithm for Mining Functional and Embedded Dependencies , Proceedings of the 8th International Conference on
Database Theory ICDT01, vol. 1973 de Lecture Notes in Computer Science, London, UK,
janvier 2001, Springer-Verlag, p. 189203.
[PAS 99] PASQUIER N., BASTIDE Y., TAOUIL R., L AKHAL L., Efcient Mining of Association Rules Using Closed Itemset Lattices , Information Systems, vol. 24, no 1, 1999,
p. 2546.
[PEI 00] P EI J., H AN J., M AO R., CLOSET an efcient algorithm for mining frequent closed
itemsets , Proceedings of the ACM SIGMOD Workshop on Research Issues in Data Mining
and Knowledge Discovery DMKD00, Dallas, USA, mai 2000.
[PEI 01] P EI J., H AN J., L AKSHMANAN L. V. S., Mining Frequent Itemsets with Convertible Constraints , Proceedings of the 17th International Conference on Data Engineering
ICDE01, IEEE Computer Press, avril 2001.
[PIA 91] P IATETSKY-S HAPIRO G., Discovery, Analysis, and Presentation of Strong Rules ,
Knowledge Discovery in Databases, p. 229248, AAAI Press, 1991.
[ROB 02] ROBARDET C., C RMILLEUX B., B OULICAUT J.-F., Characterization of unsupervized clusters by means of the simplest association rules : an application for childs
meningitis , Proceedings of the 7th Workshop on Intelligent Data Analysis in Medicine
and Pharmacology IDAMAP02 co-located with ECAI02, Lyon, F, juillet 2002.
27
[SRI 97] S RIKANT R., V U Q., AGRAWAL R., Mining association rules with item
constraints , Proceedings of the 3rd International Conference on Knowledge Discovery
and Data Mining KDD97, Newport Beach, USA, aot 1997, AAAI Press, p. 6773.
[ZAK 00] Z AKI M. J., Generating non-redundant association rules , Proceedings of the
6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
SIGKDD00, Boston, USA, aot 2000, AAAI Press, p. 34 43.