Вы находитесь на странице: 1из 4

Trabajo Prctico:

BagofWordsMeetsBagsof

Popcorn
75.06OrganizacindeDatos
1er cuatrimestreao2015

NombredelgrupodeKaggle
:
LaPapaFuriosa

AlvarezNicols93503
DeciancioNicols92150
MonsechSantiago92968
OttavianoniNatan86249

Abstract

Para la resolucin de este trabajo decidimos emplear el uso de un algoritmo de


modelado llamado Probabilistic LSA(latent semantic analysis) teniendo como partida el
siguiente paper [1] que es muy recomendado dentrode la comunidad de data science, para
unmodeloderevisindepeliculas.Estopermite generarunmodeloquetratadeentenderlos
sentimientos expresados en una review, y no tanto en el contenido del lxico que este
contiene.
Luego en basealaprecisinalcanzada, vamosaevaluartrabajarconunalgoritmode
clasificacin automtica como es el SVM (support vector machine) para poder clasificar
reviewssegnelsentimientotransmitidoenelmismo,talcomolorealizanen[12].

Fuente/Bibliografa

[1]
X.Yu,Y.Liu,J.Xiangji,A.An.Miningonlinereviewsforpredictingsales
performance:Acasestudyinthemoviedomain.(1999).
[2]
T.Hofmann.Probabilisticlatentsemanticindexing.(1999)
[3]
Hofmann,T.Probabilisticlatentsemanticanalysis.(1999).
[4]cursodeTextRetrievalillinoisde
Coursera

[5]cursodeNLPStanforddeCoursera.
[6]
http://en.wikipedia.org/wiki/Latent_semantic_analysis
[7]http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm
[8]
DataMiningforBusinessApplications

LongbingCao
,
PhilipS.Yu

ChengqiZhang
HuaifengZhang
,captulo13:
BlogDataMining:ThePredictivePowerofSentiments

[9]
http://blog.echen.me/2011/08/22/introductiontolatentdirichletallocation/
[10]DavidM.,BleiAndrewY.Ng,MichaelI.Jordan,LatentDirichletAllocation
[11]

http://videolectures.net/slsfs05_hofmann_lsvm/
[12]WeijianRen,KaixuHan:SentimentDetectionofWebUsersUsingProbabilistic
LatentSemanticAnalysis

Explicacindelasolucin
Modelado: una vez obtenida larepresentacin vectorial de las reviews ,el procesoparalas
modelar se llevar a cabo utilizando el algoritmo PLSA debido a su naturaleza latente
(basado en el principio de probabilidad y definiendo un de modelo generativo adecuado).
Para procesar los datos con este algoritmo deberamos obtener la cantidadde sentimientos
latentesquecreemosquepodranestarpresentes(experimental).

Entrenamiento
:
ProponemosusarunclasificadorquegeneraremosapartirdelmodelodePLSA.
Puesto que una vez obtenidas las probabilidades delossentimientoslatentesP[ Z i ]y
de las condicionales P[ W k| Z i ] y P[ Z i | Dj ] podramos estimar cules sentimientos
corresponden a un sentimiento positivo y cuales son negativos, sin embargo a priori
no tendramos manerade saber de antemano la polaridadde lossentimientos,porlo
cual buscamos ensearle al modelo cuales nosotros creeremosquesonsentimientos
positivos a partir de los puntajes recibidos por las reviews, para lograr esto usamos
las probabilidades condicionales, nosotros creemos que podramos obtener la
polaridaddelossentimientosmirando:
Para cada documento, las probabilidades de los sentimientos. Puesto que si
sabemos que para un documento calificado como positivo, vemos
probabilidades de sentimientos altas, podemos decir que esos sentimientos
que son muy probables para un documento marcado como positivo, deberan
sersentimientospositivos.

Clasificacin
: El clasificador debera utilizar los sentimientos que nosotros creemos
positivos obtenidos en la fase de entrenamiento, sabidos cuales son los sentimientos
positivos podemos ver sobre el set de prueba, cules documentos tienen alta probabilidad
(que podra definirse con un umbral) de esos sentimientos positivos,para determinar si
finalmentecorrespondeaunareviewpositiva.

Posibles mejoras
:
dependiendodelosresultadosqueconsigamosconelmodeloplanteado
analizaremos la posibilidad de mejorar el algoritmo utilizando un modelo SVM mediante una
librera.

Procesamientodetextos

Como idea principal para el procesamiento del texto se pretende armar vectores de
documentos eliminando stopwords, solo contemplando unigramas, esdecir, palabras por s
mismas. Teniendoestosvectoresqueconformanunamatriz,senormalizaracadaunobajoel
criteriodenormalizacinTf*idf.
Algunas posibles mejoras para refinar la normalizacin es contemplar bigramas en
lugar de unigramas, as como tambin la incorporacin de un corpus conpalabras definidas
como adjetivos. Con esto estaramos contemplando un contexto ms reducido, lo que nos
dara ms certeza al momento decalcularlasprobabilidadesqueconciernenaciertapalabra
dentrodeltexto.

Aportedegrupo

Una de las cuestiones a determinar es la cantidad de sentimientos latentes,


se
realizarn experimentos, aplicando algoritmos como SVD,e irvariandolacantidadde
valores singulares que sern aplicados al modelo, usando algncriterio(a decidir), y
generarunhistograma,paratratardeestimarelnmeroptimodesentimientos.

Proponemos usar dos maneras de clasificacin, usando SVM y la otra usando el


modeloquenosgeneroelPLSA,realizandounentrenamientoprevio.

Lamotivacindeprobarcondosalgoritmosdeclasificacinson:

Usar el modelo generado porPLSA para poder clasificar,nospermitirobservarqu


tanbienseclasificacuandoseusaentendimientodelossentimientos.
En contraposicin usar SVM, permitir combinar el modelo generativo probabilstico
delPLSAconelmodelodiscriminantedeSVM.
Como conclusin nos gustara que este anlisis se pueda extendera otro tipo de dominios,
siguiendo la idea de Domain Driven Data Mining, espor elloquenosgustaraprobarlosobre
otro dataset, y tambin para el caso del concurso comprobar que las palabras cuya
probabilidad es alta para los sentimientos que nosotros esperamos que fuesen positivos,
resultasenserpalabrasdendolepositiva.

Libreras
Aquproponemosunalistadelibrerasquepermitenresolverdiversosproblemasconlos
cualesnosvamosaencontrareneldesarrollodelmismo,muchasdeellasrealizanlamisma
tareaperoesimposibleaprimafacie,poderoptarporunauotra,sinhaberrealizadounset

depruebascorrespondiente,comoastambinconocerelgradodemantenimientoque
tienen.
Notodasestarnpresentesenlareleasefinal,perosiserviranparairprobandodistintos
mdulosdelsistemaencadaunadelasiteracionescorrespondientes.

GibbsLDA++:AC/C++ImplementationofLatentDirichletAllocation.
ArmadilloC++linearalgebralibraryimplementationofSVD.
YamCha
http://chasen.org/~taku/software/yamcha/#source
http://cdecdecoder.org/index.php?title=Main_Page
http://www.cs.jhu.edu/~rflorian/fntbl/
http://nlp.lsi.upc.edu/freeling
http://www.speech.sri.com/projects/srilm/
http://www.speech.cs.cmu.edu/SLM_info.html

Вам также может понравиться