Академический Документы
Профессиональный Документы
Культура Документы
ISSN: 1657-7663
avances@unalmed.edu.co
Universidad Nacional de Colombia
Colombia
117
Herramientainformticaparavigilancia
tecnolgicaVIGTECH
Technology Monitoring Softwaretool
VIGTECH
VctorA.BucheliG.,MSc,FabioA.GonzlezO.PhD.
UniversidadNacionaldeColombia,sedeBogotDepartamentodeIngenieradeSistemaseIndustrial
vabuchelig@unal.edu.co ,fagonzalezo@unal.edu.co
Recibidopararevisin26deMarzode2007,aceptado15deJuniode2007,versinfinal22dejuniode2007
Luso intensivodelconocimiento,elentornoglobalizado
y el avance en la informatizacin de lasociedadimplica
una nueva estructuracin de las organizaciones, de las
sociedades y del mercado[1]. Dicha estructuracin, ha
configurado un entorno con alto grado de incertidumbre,
dinmico,deprofundoscambios,dondelatomadedecisiones
y la gestin del conocimiento, son elementos clave para
consolidar organizaciones eficientes, sostenibles, productivas
e innovadoras. De est forma, se hacen necesarias prcticas
sistemticas que garanticen la estabilidad y el crecimiento
econmico de las organizaciones en dicho entorno[2] y que
permitan basar sus procesos de produccin en la
incorporacinintensivadelconocimiento[3],propiciandoas
el cambio tecnolgico, la innovacin y la competitividad de
lasorganizacionesenunaeconomadelconocimiento1.
Unaprcticaquepuedeserutilizadaporlasorganizaciones
para monitorear los cambios descritos, es la vigilancia
tecnolgicaVT, la cual permite a una organizacin estar
atenta al cambio de manera sistemtica [4] a travs del
estudio permanente del mercado, del mbito cientfico
tecnolgico,delmbitopolticoydelmbitosocial[5].Estas
prcticas sistemticas, principalmente las del estudio del
mbito cientfico tecnolgico, permiten basarlosprocesosde
produccin en la incorporacin intensiva del conocimiento
involucrando principalmente informacin propia de dicho
mbito artculos y patentes en el desarrollo de nuevos
productos o procesos. As el ciclo de VT se compone de
cuatro fases: planeacin, bsqueda y captacin, anlisis y
organizacin,inteligenciaycomunicacin[6].
La herramienta informtica VIGTECH que se presenta en
1 Las sociedades a lo largo del tiempo han presentado elementos
caractersticosquedefinensusformasdeproduccinydeconstruccincomouna
sociedad, dichos elementos que autores como [1][3] denominan principios de
accin o principios organizadores del comportamiento humano, permiten
reconocer cules son las formas que las organizaciones y las instituciones
socialesutilizanparafuncionaryresponderasuentorno.As,enestemomento
histrico,eslaproduccindeconocimiento,laapropiacinyelusointensivodel
mismo, el elemento clave para producir bienes, servicios y atender a las
necesidadesdelasociedad.
RevistaAvancesenSistemaseInformtica,Vol.4No.1Juniode2007,Medelln,ISSN16577663
118
RevistaAvancesenSistemaseInformtica,Vol.4No.1,Juniode2007
esteartculo,esuninstrumentoparafacilitarlasprcticasde
vigilancia tecnolgica en una organizacin y est enfocada
principalmente en el mbito cientfico tecnolgico, tomando
como fuente de datos el servicio de informacin SCOPUS,
apoyandoasenlasfasesdecaptacinybsquedaanlisisy
organizacin e inteligencia. La herramienta VIGTECH
automatiza los procesos de captacin y bsqueda de datos
mediante el modulo CrawlerVIGTECH que permite
descargar los documentos cientficos de SCOPUS, y extraer
caractersticas de dichos documentos, construyendo as, una
base de datos relacional en la cual se almacenan
estructuradamente los metadatos del artculo y del autor.
Esto permite realizar anlisis descriptivos y anlisis
exploratorios de datos que apoyan la fase de anlisis y
organizacin. Por ltimo, la herramienta informtica
VIGETCH utiliza tcnicas de aprendizaje de mquina y de
minera de datos apoyando as la fase de inteligencia [5],
utilizando algoritmos para anlisis de redes sociales [7][8],
reduccin
de
dimensionalidad,
escalamiento
multidimensional [9], agrupamiento [10][11] modelos
grficos probabilsticos [12], entre otros, que permiten
vincular de una forma inteligible los resultados obtenidos
presentando indicadores, mapas, socio gramas y en general
representacionesrelacionalesdeuntpicodado.
As, esta herramienta permite encontrar las relaciones
existentes en los documentos cientficos, estasrelacionesson
de una parte cognitivas referidas a vnculos entre palabras
clave y de otra parterelaciones sociales representadas en los
vnculos de coautora, referenciales y de cooperacin
interinstitucional. stas relaciones en un plano general
permiten reconocer en el mbito cientfico tecnolgico qu
autores trabajan en que reas cules son las comunidades
estructuralmente fuertes oportunidades y amenazas que
pueden afectar a una organizacin enreasrelacionadascon
su campo de trabajo, cuerpos tiles de conocimiento actores
centrales y perifricos dentro de las redes sociales que se
construyen en una comunidad cientfica [7] posibles redes
que permitan llevar a cabo proyectos conjuntos
rentabilidades oportunidades de cambio cientfico
tecnolgicoeinnovaciones.
De esta forma el articulo presenta la herramienta
informticaVIGTECH,sufuncionalidad,suarquitectura,los
resultados obtenidos, y un estudio comparativo de las
herramientas para el apoyo de practicas de VT existentes en
el mercado (ver Tabla 2). VIGTECH se ha desarrollado
buscando de una parte darle un componente fuerte para las
fases de bsqueda, captacin e inteligencia tal como se ha
explicado en prrafos anteriores, y de otra parte se ha
desarrollado la herramienta en un entono Web que permita
interactuar de manera amigable e intuitiva a un empresario,
investigadorotomadordedecisiones.
EldesarrollodelaherramientainformticaVIGTECHest
basado en una licencia GPL, buscando as que las
organizaciones tengan acceso libre y puedan de esta forma
Herramienta informtica de software libre para vigilancia tecnolgica VIGTECH Bucheli y Gonzlez
Por ltimo, identificamos las tcnicas computacionales que
nospermitansolventarlosrequerimientos,enlaTABLAIse
presentanlosresultados.
Tabla1.TcnicasComputacionalesparaSatisfacerRequerimientosdeun
SistemasparaelAnlisisdeComunidadesCientficas
Requerimiento
Mtodosdeanlisis
Tcnicascomputacionales
Representar
y
obtener medidas
de las estructuras
sociales de la
comunidad
cientfica.
Anlisisderedessociales:el
anlisisderedessociales,es
una metodologa de anlisis
cuantitativo y estructuralista
[7] que busca reconocer las
relaciones y sus estructuras
para poder encontrar en
dichosistemaderelacionesy
de actores, comportamientos
y en s la estructura o
estructuras sociales de la
comunidadanalizada.
Analizar
los
documentos
cientficos en el
contexto de la
produccin
de
conocimiento
Identificar
informacin til
parallevaracabo
practicasdeVT.
La herramienta
debe
estar
enfocada
totalmente
a
realizar anlisis
reticulares
Anlisis
estadsticos
descriptivos:
Permite
construirindicadoresbasados
enlaspropuestashechaspor
la
cienciometra
o
biliometra,
donde
el
principal objetivo es medir
el estado de la CyT+I [13].
Utilizando variables, tales
comoautores,palabrasclave,
revista donde fue publicado,
fechas, palabras encontradas
enelartculoopatente,entre
otras.
Los mtodos utilizados son
propios de la minera de
datos, de esta forma se
utilizan
tcnicas
de
extraccin de caractersticas
de
los
documentos
cientficos tales como
palabras clave, temticas,
etc. As lo que se busca es
identificar agrupamientos
naturalesdelosdocumentos,
identificar
patrones,
clasificaciones automticas,
entreotras[5][18]
Vincular los resultados
obtenidos por el anlisis de
redessocialesylaextraccin
de palabras clave, permite
representarenunmapatanto
las relaciones sociales como
lasrelacionescognitivas.
119
deprcticasdeVTsedebeatenderalciclooprocesodeVT,
el cual se compone de cuatro fases: planeacin bsqueda y
captacin anlisis y organizacin inteligencia y
comunicacin. Se construy as, un cuadro comparativo, el
cualsepresentaenlaTABLAII,estecuadrotomacomobase
los cuadros comparativos propuestos por los autores
mencionados pero se hace una nueva propuesta en tanto se
han actualizando los costos, e includo nuevos criterios de
comparacinprincipalmenteenlasfasesdebsqueday
captacin,einteligencia.
De esta forma, es posible ver cmo la herramienta
informtica VIGTECH obtiene un ndice de 0.78, lo cual
significaquecumpleconlascaractersticasdeunsoftware
Tabla2. Cuadro comparativodeherramientasqueapoyanlaspracticasde
vigilancia tecnolgica
Extraccin de caractersticas:
vectores
de
caractersticas
documentales y funciones de
distanciapropiasparaestetipode
datosporejemplojaccard.
Para identificar informacin
til:
palabras
asociadas,
reduccin de dimensionalidad,
escalamiento multidimensional,
agrupamiento de documentos y
modelosgrficosprobabilsticos.
III. ANLISISCOMPARATIVODELAS
HERRAMIENTASEXISTENTESPARAELAPOYODE
PRCTICASDEVT
Para llevar a cabo el anlisis comparativo entre las
herramientas existentes, se han tomado principalmente los
trabajos de[2],[6], estos plantean que para hacer un anlisis
comparativo de las herramientas informticas para el apoyo
captacin,procesamientoyanlisisconunmodulocompleto
paralafasedeinteligenciayenunentonoWeb,caracterstica
que las otras herramientas no tienen. De otra parte, la
inexistencia de herramientas libres que apoyen las prcticas
de VT da una ventaja comparativa importante. Por ltimo,
existen otros dos parmetros necesarios al momento de
escoger una herramienta informtica que apoye las prcticas
de VT, el primero relacionado con la necesidad de personal
expertoenlaherramienta,yelsegundoconloscostos[2].
Dado que la herramienta VIGTECHsehadesarrolladoen
un entorno Web la necesidad de personal experto se
disminuyedadas las condiciones expuestasanteriormentelos
costos tambin as los costos de las otras herramientas no
120
RevistaAvancesenSistemaseInformtica,Vol.4No.1,Juniode2007
A. Arquitecturayfuncionalidaddelaherramienta
Como ya se ha dicho en las secciones anteriores, la
herramientaVIGTECHeselprimerelementoeneldesarrollo
deunsistemaquepermitaapoyarcompletamentelas
B. MdulosdelaherramientainformticaVIGTECH
1) Mdulo para la construccin del corpus textual y
extraccin de caractersticas de documentoscientficos:este
mdulo permite obtener los documentos cientficos de forma
automtica mediante el crawlerVIGTECH. Ingresando una
cadena de bsqueda, el sistema es capaz de ingresar a
SCOPUSydescargarlosreportespordocumentoyapartirde
estos resultados generar una base de datos que extrae los
metadatos del documento, tales como ao, revista, ttulo,
resumen, entre otros, las palabras clave y los meta datos del
autor, tales como institucin de afiliacin, temas de inters
delautor,entreotros.Deotraparte,elsistemapermitecargar
datosapartirdeunarchivoplano.
2)Mdulodepreprocesamientoynavegacin:estemdulo
permite depurar los registros delabasededatos,depuracin
de forma y de repeticiones y navegar por el corpus
construido. De estaformateniendoelproyectoinicializadoy
la base construida se normalizan automticamente las
palabras clave a travs de Stemming3 y se normalizan los
Figur a1. Arquitecturadelaherramientainformtica VIGTECH
3 Tcnicadepreprosesamientoquepermiteencontrarlarazdeunapalabra,
enestecasoseutilizelalgoritmodePorter.
Herramienta informtica de software libre para vigilancia tecnolgica VIGTECH Bucheli y Gonzlez
autores a travs del cdigo de identificacin nico
proporcionado por SCOPUS, en la Figura 2 se presentan las
pantallasdeestosmdulos.
121
seencuentraonoeneldocumento.
El mdulopermitecalculardistanciasdesimilitudpropias
paraestetipoderepresentacionestaleselcasodelamedida
desimilitudJaccardy cosenoentreotras[10].
Para modelar las relaciones sociales se toman los
documentossegnsusrelacionesdeautora,construyendoas
una matrz de relaciones de coautora, donde undocumento
esdescritoporunvectordeltotaldeautoreselcualtiene1o
0sielautorseencuentraonoeneldocumento.As,loquese
busca en este mdulo es de una parte construir matrices
binarias, de palabras clave, autores, etc. y de otra parte
modelarlasrelaciones,atravsdelafrecuenciadeaparicin
de la palabra clave en el ttulo o resumen o de nmero de
coautores en un documento lo cual permite modelar el
documento con funciones de frecuencia, frecuencia inversa,
etc.[10]
C. Implementacin
ParaeldesarrollodelaherramientainformticaVIGTECH
seutilizlaarquitecturaclienteservidor.ComoservidorWeb
seutilizApache2.0Handler,ycomomotordebasededatos
122
RevistaAvancesenSistemaseInformtica,Vol.4No.1,Juniode2007
MySQL4.0.18.LosdesarrollosserealizaronenPHPVersin
4.3.4yJavaScript.
Paralogrardichaimplementacinsetuvoencuentaqueel
desarrollo de sta supone un gran esfuerzo y por lo tanto se
plante la necesidad de integrar en una sola herramienta
informtica, software disponible para propsitos especficos
tal es el caso de R (Foundation for Statistical Computing)
versin 2.0 y Weka (Waikato Environment for Knowledge
Anlisis), software que dispone de bibliotecas especializadas
parahaceraprendizajedemaquinaymineradedatos,deesta
forma utilizando las implementaciones de algoritmos de
visualizacin,clusteringyanlisisderedessocialesseintegr
atravsdePHPalaherramientaVIGTECH.
Para identificar e implementar las tcnicas de
visualizacin,mineradedatosyanlisisderedessocialesse
Tabla3 Libreras y Funciones deR utilizadas
Tcnicacomputacional
Funcionesylibreriasutilizadas
Anlisisdecomponentesprincipales
Escalamientomultidimensional
Agrupamiento
prcompdelalibreraSTATS
isomds,sammon,cmdscale
prcompdelalibreraSTATS
SOM,Hculst,pamincluidasenla
libreracluster,
A. Extraccindecaractersticasyrepresentacinde
documentos.
Un documento puede considerarse como un vector D de
caractersticas hasta un total de j, donde un valor que
pertenece a los nmeros naturales expresa en que grado el
documentoposeelacaractersticaenlaposicini.
(1)
D = (c1,,c2,c3,K ,cj )
(2)
ci N
J =
2a
2a + b+ c
D ( x, y) =1- x y
(4)
( x y )
Dondex.yeselproductopuntoentrexey,y|x|eslanorma
delvectorx.
B. Construccinyvisualizacinderedescognitivas.
Para la construccin y visualizacin de redes cognitivas o
depalabrasclaveseutilizartcnicasqueobtienenmapasque
representan las caractersticas ms relevantes segn un
criterio y las relaciones de estas caractersticas, dichas
tcnicas son anlisis de componentes principales,
escalamiento
D ( x, y) =1- x y
( x y )
multidimensional y
agrupamiento.
1)AnlisisdeComponentesPrincipales(PCA):elobjetivo
del anlisis de componentes principales es reducir la
dimensin de un conjunto de variables a un conjunto m de
menornmerodevariablesquepermitamanejarelproblema
de la multidimensionalidad, obteniendo as una
representacinqueofrecelamayorinformacindisponibleen
elconjuntodedatos,deestaformasebuscalaproyeccinde
losdatosdentrodenuevoconjuntodeejes.Aselanlisisde
componentesprincipalesbuscacentrarlosdatosenlamedia,
escalarlavarianzayrotarlosejesprincipalesproducidospor
unatransformacinlinealortogonal.
Herramienta informtica de software libre para vigilancia tecnolgica VIGTECH Bucheli y Gonzlez
realesyquereproduzcalasdistanciasdelconjuntoinicial.En
trminos generales podemos decir que un MDS es un PCA
que previamente ha utilizado una funcin de distancias para
hacer la reduccin de dimensionalidad de sta y no de los
datos originales. Un MDS comienza conunconjuntodeejes
tomados de PCA y busca minimizar el stress o media del
errorcuadrticoentreelconjuntoinicialdeejesylamatrizde
distancia original, la tcnica comnmente utilizada es
sammon, esta tcnica define la medida del stress como la
relacin existente entre la matriz de distancias y una matriz
randomicacreadaconigualdistribucinenunespaciodedos
dimensiones.
C. Construccinyvisualizacinderedessociales.
Paralaconstruccinderedessocialesseutilizanelementos
delAnlisisdeRedesSocialesARS,estaesunametodologa
cuantitativa y estructuralista que permite reconocer los
sistemas de relaciones presentes en una comunidad
identificando de una parte actores centrales, perifricos, de
paso obligado, etc. y de otra, los comportamientos, patrones
de enlaces, uniones estables que dan cuenta de vnculos
irreversibles, que expresan la existencia de uniones internas
fuertemente ligadas en las cuales se presentan normas,
valoresyorientacionespropiasdelacomunidad.AselARS,
utiliza elementos tomados del lgebra matricial al igual que
de la teora de grafos para construir desde un conjunto
delimitado de actoresvinculadosentres,unarepresentacin
de las relaciones existentes. De esta forma las relaciones de
coautorasemodelancomoungrafoendondeenlosnodosse
encuentran los autores y los enlaces representan las
relaciones.Deestaformaseobtieneungrafodecoautorasal
123
D. Construccinyvisualizacinderedessociocognitivas.
La tcnica de modelos grficos probabilsticos, permite
encontrar la dependencia existente entre las relaciones de
autores y palabras clave frente a la categora. Entoces se
busca determinar qu variables influencian dicha categora,
estoesposibledadoqueexistenrelacionesdocumentalesque
clasificandichosdocumentosporsuspalabrasclavey porsus
relaciones de coautora, que evidencian las relaciones
sociales existentes en una comunidad acadmica. para ello,
semodelanlosdocumentosysusrelacionescomounaredde
probabilidades donde se pueden hacer inferencias, encontrar
variables relacionadas no conocidas o correlaciones. En los
casos donde todas las variables son no conocidas estas
tcnicasnospermitenmodelarlasposiblescorrelacionesentre
las variables de las que s tenemos informacin y de esta
forma construir una red Bayesiana que permita hacer
inferencias y por lo tanto caracterizar las relaciones
probabilsticasexistentesentrelasvariablesylaclase.
VI. RESULTADOSOBTENIDOS
Los resultados que se presentan a continuacin estn
organizados de acuerdo a las fases del ciclo de VT se
presentan los tiempos de descarga, los indicadores, las
matricesyvisualizacindemapasysociogramasobtenidose
implementados en la herramienta informatica VIGTECH,
paraestefinseutilizarondiferentesconjuntosdedatosporlo
cual los resultados que se presentan a continuacin dan
cuentasolamente,delosresultadosquesehanobtenidocomo
desarrollodelaherramientaynodeberansertomadoscomo
unejerciciodemineradedatosodeanlisisdeuntpico.
A. Fasedebsquedaycaptacin:
El crawlerVIGTECH, permite conectarse a SCOPUS y
descargarautomticamentelosartculoscientficos,eltiempo
124
RevistaAvancesenSistemaseInformtica,Vol.4No.1,Juniode2007
datos,ttulodelartculo,tipodedocumento,nmerodecitas
enSCOPUS,resumen,nmerodereferenciasutilizadasenel
artculo, correo del autor, palabras clave, autor y metadatos
del autor tales como id del autor en SCOPUS, afiliacin
institucionalyreasdeintersdelautor,paralaextraccinde
caractersticas e insercin en la base de datos el sistema se
demora 1 segundo/artculo. Fase de anlisis de anlisis
descriptivos
Elsistemapermitellevaracabodiferentesanlisisdesdela
construccin de indicadores tales como nmero de artculos
por palabra clave, nmero de artculos por ao, autores por
revista,nmerodepublicacionesdeunautor,entreotros.De
igual manera, el sistema es capaz de obtener estadsticas
bsicas,enlasiguientefigurasepresentanalgunosresultados
alrespecto.
Deotraparte,elsistemapermitellevaracaboanlisisde
Figur a7. MDSaplicadoapalabrasclave
componentesprincipalesPCAparaelcasodepalabrasclave
enlafigura6sepresentaunPCAobtenidoparaunconjunto
de datos de gestin del conocimiento. Esta tcnica da una
representacin de los documentos pero no permite una fcil
interpretacin de los resultados, en el siguiente grfico seve
cmo la categora knowledge management(KM) est cerca
delcentroycercadelamediayhayunaltogradodecercana
de los datos de las categoras Internet(I), management(M),
information retrieval(INFR), sin embargo, no se puede decir
que son gruposdetemticassimplementesepuededecirque
hayunaaltacorrelacinentreestascategoras.Porltimo,se
puede decir que hay unas categoras que se encuentran
alejadas tales como Data mining (DM) o knowledge
representation (KR), lo cual nos da un acercamiento al
problema y un primer acercamiento a la construccin de
mapascientficos.
Otras tres tcnicas de exploracin de datos utilizadas son
escalamiento multidimensional, agrupamiento y anlisis de
redessociales.Paraelcasodeescalamientomultidimensional
los resultados obtenidos permiten tener una representacin
msacertadadadoquecomodijimosanteriormentese
B. Fasedeanlisissociocognitivos
Herramienta informtica de software libre para vigilancia tecnolgica VIGTECH Bucheli y Gonzlez
125
VII. CONCLUSIONESYTRABAJOFUTURO
Los avances conseguidos con el desarrollo de laherramienta
informticaVIGTECHhanpermitidoelmodelamientodelos
documentos por sus palabras clave y autores, el anlisis
descriptivo del corpus documental yelanlisisdelosdatos,
deestaformasehaautomatizadolosprocesosdebsqueday
captacin anlisis e inteligencia del proceso de VT. La
versin beta de la herramienta se encuentra en el link
http://201.245.12.66/vigtech/ver_1/vigtech/index.php
Este acercamiento permite la recuperacin de informacin y
laextraccindeconocimientodeladocumentacincientfica,
disminuyendo el desgaste, el tiempo y la curva de
aprendizaje,seesperaqueelusodeestaherramientapermita
el avance en la incorporacin de conocimiento cientfico el
126
RevistaAvancesenSistemaseInformtica,Vol.4No.1,Juniode2007