Академический Документы
Профессиональный Документы
Культура Документы
g
l
e
s
Si (Indice principal est la fin de la phrase) alors
le segment qui contient cet indice est le seul qui contribue la dfinition de
la relation.
Si (on a une ou plusieurs phrases qui n'admettent pas de relation entre elles)
et (lindice principal qui les suit est au dbut de la phrase) alors
La relation relie toutes les phrases qui prcdent cet indice avec la phrase o
il se trouve.
TABLE3 Exemple de rgles de construction d'arbres
Prenons par exemple la premire rgle, elle exprime le fait que sil existe un marqueur
principal, qui dclenche une relation rhtorique, situ au dbut de la phrase, alors cette
relation relie entre le segment qui contient le marqueur principal et la phrase qui la
prcde. Car, smantiquement, cette relation doit tre subordonnante ou coordonnante
de la relation rhtorique quelle prcde et non pas le segment quil prcde (Keskes et
al., 2010b).
2.1.4 Slection des phrases du rsum
Une fois l'arbre gnr, nous allons faire l'lagage (simplification de l'arbre) selon le type
de rsum indicatif ou selon les relations choisies par l'utilisateur tout en tenant compte
des segments noyaux.
Tous les noyaux ne sont pas d'gale importance. En effet, ltape de slection des units
minimales importantes (noyaux), profite des relations entre les structures de discours
pour dcider du degr de leur importance. Lextrait final affiche les units noyaux
retenues aprs la simplification de larbre RST.
La simplification de larbre, prendra en considration la liste des relations retenues par
lutilisateur. Au cas o ce dernier ne prcise aucun choix, le systme dtermine
automatiquement les relations retenues pour le type de rsum indicatif. En effet, la
rduction de larbre RST se fait par la suppression de tous les descendants qui viennent
dune relation rhtorique non choisie par lutilisateur (Keskes et al., 2010a).
Cette mthode propose a t implmente dans le systme ARSTResume.
231
3 Mthode numrique propose
Dans cette section nous prsentons la mthode numrique propose pour le rsum
automatique de documents arabes, ainsi quune description dtaille des diffrentes
tapes de cette mthode.
3.1 Prsentation
La mthode numrique pour le rsum automatique, darticles de journaux en langue
arabe, se base sur une technique d'apprentissage. Plus prcisment, elle est base sur la
technique dapprentissage semi-supervis, qui se compose de deux phases savoir :
La phase d'apprentissage qui permet au systme d'apprendre extraire les phrases du
rsum. Cette phase se compose de deux tapes, une tape de segmentation et
dannotation, et une tape dapprentissage.
La deuxime phase est la phase d'utilisation qui permet aux utilisateurs de rsumer un
nouveau document. Cette phase est compose de deux tapes, une tape de segmentation
et dannotation et une tape de classification (Boudabous et al., 2010).
Les diffrentes phases de notre mthode sont illustres dans la figure 3.
FIGURE 3 -Principales tapes de la mthode numrique
3.2 Description dtaille de la mthode
3.2.1 Phase dapprentissage
La phase dapprentissage ncessite lutilisation dun corpus dentranement ainsi quune
base de critres dextraction.
Le corpus dentranement est constitu de cent documents tiquets (textes sources et
leurs rsums) en format HTML (au moyen de trois pages par document). Les rsums de
rfrence sont faits par trois experts humains afin dapprendre au systme comment
produire des rsums similaires ceux des experts humains de manire automatique.
Les critres dextraction sont utiliss pour annoter les phrases des documents constituant
notre corpus dentranement.
232
Nous avons class les critres dans deux classes : les critres positionnels et les critres
lexicaux. Ces derniers associent un score normalis chaque phrase, par contre les
critres positionnels classent les phrases selon leurs postions dans le texte, prsents dans
la table 4.
C
r
i
t
r
e
s
p
o
s
i
t
i
o
n
n
e
l
s
Position_ ph_texte Classe la phrase selon sa position dans le texte : 1 si la phrase est dans le
premier tiers du texte, 2 si elle est dans le deuxime tiers et 3 autrement.
Position_ ph_sec Classe la phrase selon sa position dans la section : 1 si la phrase est dans le
premier tiers du texte, 2 si elle est dans le deuxime tiers et 3 autrement.
C
r
i
t
r
e
s
l
e
x
i
c
a
u
x
Nb_mot_titre Calcule le nombre dapparition des mots du titre dans la phrase.
Nb_exp_bonus Calcule le nombre dexpressions bonus dans la phrase.
Tf*Idf Calcule le score tf*idf de la phrase.
TABLE 4 -Critres dextraction
- Segmentation et annotation du corpus
Cette tape aboutit la construction dun vecteur dextraction pour chaque unit du
texte. Lensemble des vecteurs dextraction forme un fichier dentre pour ltape
dapprentissage. La sous tape segmentation a pour but de dcouper le texte en units
minimales. Nous avons adopt la mme segmentation utilise dans la mthode
symbolique. Concernant la sous tape dannotation, lacte annotatif consiste donner
une valeur ou un jugement un segment du texte en se rfrant aux critres dextraction.
Cette tape a pour but dannoter chaque segment du texte selon les diffrents critres
dextraction prsents prcdemment. Chaque phrase de la collection est dcrite par
vecteur dextraction, o la valeur donne dun critre correspond la valeur danalyse de
la phrase selon ce critre.
- tape dapprentissage
Lalgorithme dapprentissage utilis est lalgorithme SVM (Machines Vecteurs de
Support). Le choix de cet algorithme se justifie par sa robustesse de classification binaire,
sa vitesse dexcution et son adaptation aux problmes non linairement sparables. Cet
algorithme gnre une seule rgle dextraction appele quation de lhyperplan qui
spare les phrases pertinentes des phrases non pertinentes. Ainsi, lalgorithme
dapprentissage limine les critres qui sont inutiles pour la phase dapprentissage.
3.2.2 Phase dutilisation
Cette phase permet lutilisateur du systme de bnficier des rsultats de la phase
dapprentissage pour rsumer un nouveau document. Les tapes par lesquelles passe le
233
texte rsumer sont : ltape de segmentation et dannotation, et ltape de classement.
Ltape de classification prend comme entres les vecteurs dextraction gnrs par
ltape de segmentation et dannotation et lquation de lhyperplan gnre par la phase
dapprentissage. Lquation de lhyperplan est utilise pour calculer le score de chaque
phrase en se basant sur les vecteurs dextraction. Cette mthode a t implmente dans
le systme Rsumeur Intelligent Arabe (R.I.A) (Boudabous et al., 2010).
4 Mthode hybride propose
Dans cette section, nous proposons une mthode hybride pour le rsum automatique.
Elle consiste coupler la mthode linguistique et la mthode numrique.
4.1 Prsentation
La mthode hybride, pour le rsum automatique des documents arabes, consiste
combiner la mthode symbolique base sur la RST et la mthode numrique base
dapprentissage. La figure 4 illustre le principe de cette mthode.
FIGURE 4 -Principales phases de la mthode hybride
Segmentation
Vecteurs
dextraction
Classement
Extrait
XML
Classification
Construction de larbre RST
Slection
des phrases
du rsum
Extrait
XML
Frames /rgles
rhtoriques
Schmas
rhtorique
Rgles
dapprentissage
Dtermination des phrases communes
Extrait XML
Gnration
du rsum
HTML/XML
Dtermination des
segments et leurs natures
Dtection des relations
rhtoriques
234
4.2 Description dtaille de la mthode hybride
La mthode hybride que nous proposons se base sur la mthode symbolique et la
mthode numrique, qui ont en commun le corpus dtude et ltape de segmentation
des textes. Ces deux mthodes sont excutes simultanment (en parallle) comme nous
lavons dcrit ci-dessus (section 2.2 et 3.2), puis, nous avons ajout une tape de
combinaison des rsultats des deux mthodes.
Ltape de combinaison consiste slectionner les phrases communes des deux rsums
gnrs par la mthode symbolique et la mthode numrique. Cette combinaison permet
davoir un seul rsum pour chaque texte qui contient les phrases slectionnes la fois
par la mthode symbolique et par la mthode numrique.
Limplmentation de cette mthode est base sur lintgration des deux systmes
ARSTRsume et R.I.A., laquelle nous avons ajout ltape de combinaison. Le systme
dvelopp sappelle HybridResume.
5 valuation
Le corpus dvaluation est form de cent articles de presse, en langue arabe, rapatris du
journal Dar El Hayet
1
sans restriction quant a leurs contenu, taille, domaine et auteur.
Ainsi, nous avons procd lvaluation de la performance et de la pertinence des
rsums gnrs par les trois systmes, laide dune tude comparative qui mettra en
jeu les rsultats gnrs par les systmes avec ceux raliss par trois experts humain.
Nous avons utilis le mme corpus dvaluation pour valuer les trois systmes
(ARSTResume, R.I.A et HybridResume). Notons que ces trois systmes ont utilis le
mme module de segmentation pour avoir le mme ensemble de phrases traiter.
Nous avons procd trois exprimentations pour valuer les trois systmes. Chaque
exprimentation compare les rsums de nos systmes avec un rsum de lexpert. Le
tableau suivant prsente la moyenne de rappel, de prcision et de f-mesure pour chacun
des trois systmes par rapport aux trois experts.
ARSTResume R.I.A. HybridResume
Rappel Prcision F-mesure Rappel Prcision F-mesure Rappel Prcision F-mesure
Expert 1 0.52 0.58 0.52 0.59 0.62 0.6 0.52 0.66 0.63
Expert 2 0.39 0.62 0.46 0.53 0.7 0.6 0.58 0.74 0.7
Expert 3 0.5 0.59 0.51 0.63 0.7 0.66 0.6 0.79 0.71
Moyenne 0.47 0.6 0.5 0.58 0.67 0.62 0.57 0.73 0.68
TABLE 5 Rsultats dvaluation des trois systmes
1
Source : http://www.daralhayat.com
235
Nous remarquons que l'approche numrique est plus performante que l'approche
symbolique et qu'HybridResume surclasse l'approche numrique sur ce corpus, et ce pour
les 3 types de mesures effectues.
6 Discussion des rsultats obtenus
Suite lvaluation des trois systmes, nous avons obtenu comme valeurs moyennes de
rappel, de prcision et de F-Mesure respectivement : 47%, 60% et 50% pour le systme
ARSTRsume, 58%, 67% et 62% pour le systme R.I.A et 57%, 73% et 68% pour le
systme HybridResume. Nous remarquons, que ces mesures diffrentes dun systme un
autre et dun expert lautre. Cela se justifie par le fait que chaque systme sa propre
mthode, et que le rsum avec lequel nous faisons la comparaison dpend du jugement
vis--vis du domaine dintrt de lexpert.
En comparant les mesures des trois systmes simultanment, nous avons remarqu que le
systme HybridResume prsente toujours les mesures les plus leves. Voyons d'o cela
provient en comparant les deux systmes ARSTRsume et R.I.A.
En examinant ses mesures calcules sur le corpus dvaluation pour chacun des deux
systmes, ARSTRsueme et R.I.A, nous avons remarqu que plus le texte est long, plus le
systme ARSTRsume prsente les mesures de rappel et de prcision les plus leves. En
effet, cette dduction se justifie par le fait que plus le texte est long, plus il contient de
marqueurs linguistiques et de relations rhtoriques. Par consquent, le systme
ARSTRsume fait le maximum de couverture pour gnrer un extrait semblable celui
ralis par lexpert humain.
A contrario, le systme R.I.A., prsente ses mesures de rappel et de prcision, les plus
leves lorsque le texte est court, car, plus le texte est long, plus nous avons un calcul
complexe qui diminue la performance du systme.
HybridResume se comporte mieux en moyenne sur un corpus de texte bien distribu
entre textes longs et courts, ce qui justifie ses meilleures performances.
7 Conclusion
L'tude, que nous avons prsente, s'inscrit dans le cadre des travaux de recherche
effectus sur les rsums automatiques de documents arabes. Dans ce contexte, nous
avons prsent trois mthodes diffrentes de rsum automatique (i.e. une mthode
symbolique, une mthode numrique et une mthode hybride). Nous avons implment
ces trois mthodes respectivement dans les trois systmes ARSTResume, R.I.A et
HybridResume.
Ces trois systmes ont t valus sur un mme corpus dvaluation compos de cent
textes rsums par trois experts. Lvaluation, a montr que le systme R.I.A produit des
rsultats meilleurs que ceux produits par le systme ARSTResume. En effet, les mesures
de prcision sont respectivement de 60% et 67% pour les systmes ARSTResume et R.I.A.
La performance relative au systme R.I.A par rapport au systme ARSTResume sexplique
236
par la difficult de lanalyse linguistique. En effet, labsence de relations rhtoriques, la
prsence des mots ambigus et le manque dinformations morphologiques ont une
influence ngative sur les valeurs de rappel et de prcision. Toutefois, le systme
HybridResume, qui implmente une mthode hybride, donne les meilleurs rsultats
(73% de prcision).
Suite cette tude comparative, Nous avons conclu que lapproche numrique est plus
robuste que lapproche symbolique, lorsque le texte est court et que lapproche
symbolique est plus robuste lorsque le texte est long. Par consquent, nous trouvons que
la combinaison de ces deux approches en une approche hybride donne de meilleurs
rsultats.
Comme perspective, nous envisageons dintroduire une analyse morphologique pour la
mthode symbolique en vue de mieux reprer les relations rhtoriques et damliorer les
performances des systmes.
8 Bibliographie
AMINI M.R.(2001). Apprentissage Automatique et Recherche dinformation: Application
lextraction dinformation de surface et au rsum de texte. Thse de doctorat, universit
Paris-6 France.
ASHER N.(1993). Reference to Abstract Objects in Discourse. Kluwer Academic
Publishers, Netherlands.
Azmi A.M. et Al-Thanyyan S.(2012). A Text Summarizer for Arabic. Computer Speech &
Language. ISSN :0885-2308.
BELGUITH H.L., BACCOUR L. et MOURAD G.(2005). Segmentation de textes arabes base sur
l'analyse contextuelle des signes de ponctuations et de certaines particules. 12me
confrence sur le Traitement Automatique des Langues Naturelles (TALN2005),
Dourdan, France, 6-10 juin 2005, pp 451456.
BOUDABOUS M.M., MAALOUL, M.H. et BELGUITH H. L.(2010). Digital Learning for
Summarizing ARABIC Documents . IceTAL, Islande.
IRAKY K., ZAKAREYA A. et FARAWILA A.(2011). Arabic Discourse Segmentation Based on
Rhetorical Methods. International Journal of Electric & Computer Sciences IJECS-IJENS
Vol: 11 No: 01.
IRIA C., SILVIA F., PATRICIA v., VIVALDI J., SANJUAN E. et TORRES-MORENO J. M.(2007). A
new hybrid summarizer based on Vector Space Model, Statistical Physics and Linguistics.
Lecture Notes in Computer Science 4827. 872-882. ISSN 0302-9743.
KAMP H. et REYEL U.(1993), From Discourse To Logic , Dordrecht Kluwer.
KAMP H.(1981). Evnements, reprsentations discursives et rfrence temporelle.
Langages, p 34-64.
237
KESKES I.(2011). Rsum automatique de textes arabes bas sur une approche
symbolique. Editeur : EUE. ISBN-13 : 978-3841780232
KESKES I. et MAALOUL M. H.(2010). Rsum automatique de documents arabes bas sur
la technique RST . Confrence international de Rencontre des tudiants Chercheurs en
Informatique pour le Traitement Automatique des Langues (TALN /RECITAL 2010),
12me edition, Montral Canada.
KESKES I., MAALOUL M. H. et BELGUITH L. H.(2010) ,(a). ,--'' '` ,='-' _'= '--= ,-'
,=`-' ,--' ,=- . International Computing Conference in Arabic, 6me dition,
Hammamet Tunisie, prix du Best Paper.
KESKES I., MALOUL M. H., BELGUITH L. H. et BLACHE P.(2010), (b). Automatic
summarization of Arabic texts based on RST technique. International Conference on
Enterprise Information Systems, 12me edition, Madeira Portugal.
LASCARIDES A. et ASHER N.(1993), Temporal Interpretation, Discourse Relations, and
Commonsense Entailment , Linguistics and Philosophy, 16(5).
MALOUL M. H.(2007). Al Lakas Eleli / '= '' '` : Un systme de rsum automatique
de documents arabes . IBIMA.
MANN W. C. et THOMPSON S. A.(1988). Rhetorical structure theory: Toward a functional
theory of text organization . Text, 8(3), p 243 281.
MARCU D.(1999). Discourse trees are good indicator of importance in text, Advances in
Automatic Text Summarization. p123 136.
MINEL J.L.( 2002). Filtrage smantique : du rsum automatique la fouille de textes.
Herms Science Publications, Paris.
MOURAD G.(1999). La segmentation de textes par ltude de la ponctuation. CIDE99,
Document Electronique Dynamique, p 155 171, Damas, Syrie.
NICOLAS U., AMINI M.R. et GALLINARI P.(2005). Rsum automatique de texte avec un
algorithme d'ordonnancement . CORIA.
TOFILOSKI M., BROOKE J. et TABOADA M.(2009). A Syntactic and Lexical-Based Discourse
Segmenter. In Proceedings of the 47th Annual Meeting of the Association for
Computational Linguistics.
238